Seleccionar Atributos
La selección de atributos se hace con el fin de crear una nueva colección de datos con los atributos mas relevantes, que representen a los dato originales sin perder información y que permita posteriormente realizar un modelo lo más comprensible posible. Existen muchísimas técnicas para seleccionar atributos, una de ellas son los árboles de decisión, técnica la cual se implementa en la herramienta, y a continuación damos una breve descripción de como funciona.
Construcción del Árbol
La construcción del árbol esta condicionada por algún factor que nos indica el atributo más adecuado para determinado conjunto de datos. El factor que se utiliza es la formula del menor desorden que nos proporciona la teoría de la información.
Partiendo de está idea para cada conjunto de datos es posible hallar el desorden promedio de todos los atributos. con esto inicialmente se crea el nodo raíz con el atributo que menor desorden arrojo y con la totalidad de los datos. Cuando se crea un nodo se crean sus arcos con los valores posibles del atributo que representa el nodo, cuando se crea cada arco es posible reducir los datos filtrándolos por ese valor de atributo, entonces para cada arco del nodo se genera su nuevo conjunto de datos y se evalúa si hay desorden o no. No hay desorden cuando el atributo clase tiene el mismo valor para todos los datos, de los contrario se considera desordenado. Cuando no hay desorden se crea un nodo hoja con el valor de la clase que contienen los datos, cuando hay desorden se hace una nueva evaluación de cual es el atributo con menor desorden y con este se crea un nuevo nodo hijo asignándoles el nuevo conjunto de datos. El proceso se repite recursiva mente hasta que no haya desorden en ninguna rama.
Generar_arbol (Arbol, nodo)
Para cada (valor_atributo(nodo))
p = generar_nueva_particion_de_datos(nodo, valor_atributo(nodo))
desorden=desorden(p)
SI desorden = true
a=atributo_menor_desorden(p)
adicionar_hijo(Arbol,a,p)
generar_arbol(Arbol,hijo_creado)
SINO
Crear_hoja(Arbol,valor_clase(p))
Fin Para cada
Fin generar_arbol
Generar Reglas
Luego que se tiene el árbol se generan reglas, la forma de generar reglas es la siguiente. Para cada rama del arbol se agrega el nodo hoja expresado en el consecuente de la regla, y para todos los ancestros del nodo hoja hasta la raíz se crea un antecedente para cada nodo de forma Atributo=Valor y con condicionales "Y". La regla tiene que quedar de la siguiente manera:
SI Atributo_1=Valor Y Atributo_2=Valor Y ... Y Atributo_n=Valor ENTONCES Clase=Valor
Es decir que saldrán tantas reglas como nodos hoja tenga el árbol.
Selección de Atributos:
Con las reglas ya creadas la selección de atributos toma como parámetro el porcentaje que indique el minero, el determinado porcentaje que indique especificara que un atributo es seleccionado para ser parte del nuevo conjunto de datos si se encuentra en los antecedentes de la cantidad de reglas que indique el porcentaje, es decir, si el porcentaje es del 50%, para que un atributo sea seleccionado debe estar en el antecedente del 50% del total de las reglas.
Ejemplo:
Para comprender mejor la técnica para la selección de atributos
vamos a mostrar un ejemplo sencillo extraído del libro de inteligencia
artificial de Winston. En el siguiente ejemplo se tienen datos de personas que
han sido afectadas o no por el sol, dependiendo de un tipo de características
especiales. Se tiene la siguiente tabla de datos:

Una forma de empezar es seleccionando el nodo raíz dependiendo del resultado arrojado al realizar la formula del desorden, así el atributo candidato para ser nodo raíz es aquel que tenga menor desorden de todos los atributos de la tabla, una vez encontrado el nodo raíz se crean los arcos con los posibles valores del atributo, si cada posible valor encuentra homogeneidad se termina esa rama, sino con los atributos restantes se evalúa cual tiene menor desorden y se realiza el mismo procedimiento hasta encontrar homogeneidad o que la partición de datos no tenga desorden, de esta manera el árbol generado para la tabla del ejemplo quedaría de la siguiente manera:
Ya que se ha construido el árbol de decisión, resulta sencillo convertirlo en un conjunto de reglas equivalentes para realizar a partir de ellas la selección de atributos. Solo se rastrea cada trayectoria del árbol desde el nodo raíz al nodo hoja registrando los resultados de las pruebas como antecedentes y la clasificación del nodo hoja como el consecuente. Para nuestro ejemplo las cuatro reglas correspondientes a las cuatro trayectorias serian las siguientes:
SI pelo=Rubio Y loción=si ENTONCES resultado=Ninguno
SI pelo=Rubio Y loción=no ENTONCES resultado=Quemado
SI pelo=Rojo ENTONCES resultado=Quemado
SI pelo=Castaño ENTONCES resultado=Ninguno
De esta manera la selección de atributos se realiza entorno a las reglas. Para nuestro ejemplo los atributos seleccionados con las reglas serian: Pelo y Loción ya que estos atributos son los más relevantes a la hora de decidir si una persona se quema o no.