Rellenar Valores Faltantes

Cuando el minero o usuario aplica rellenar datos faltantes, el sistema cambia el valor nulo representado con una interrogación"?" por algún valor que estima. La estimación de este valor es bastante compleja, y para los datos numéricos aquí es donde se utiliza la distribución de probabilidad declarada en el nombre del atributo con la letra especificada.

La técnica utilizada esta basada en métodos estadísticos, específicamente métodos bayesianos. Los métodos bayesianos buscan organizar los datos basándose en las probabilidades condicionales de estos. Lo que se realiza en primera instancia es construir el más sencillo de los clasificadores utilizados en las técnicas bayesianas, este es el Naive Bayes. A continuación una breve descripción de este.

 

Clasificador Naive Bayes:

El Naive Bayes como ya se dijo es el clasificador bayesiano más simple. Hay que tener en cuenta que este es el clasificador mássencillo debido a que asume independencia en los atributos, es decir, solo existe dependencia con la clase. El Naive Bayes consiste en la estimación de la probabilidad condicional asociada a cada atributo, esta evaluación difiere entre atributos reales y atributos nominales. Para cada uno existe determinada formula que nos permite obtener la distribución de probabilidad de cada atributo. Para los atributos reales se aplica la distribución de probabilidad especificada en la declaración del atributo, y para los atributos nominales se aplica la distribución de Laplace.

Realizando todos estos cálculos se obtiene en primera instancia el clasificador NaiveBayes.

 

Algoritmo EM:

Luego de obtener el clasificador completo la herramienta implementa un algoritmo denominado EM (Expectation Maximitation), Maximizaron de la esperanza. El algoritmo consiste en maximizar la esperanza de cada atributo hasta su convergencia, es decir hasta que la diferencia en el cambio sea mínima. Ahora presentamos el Pseudocodigo del algoritmo EM.

ALGORITMO EM(Red Bayesiana, Datos)

Fase de Inicializacion:
inicializar el cojunto de parametros para los datos (Etapa 0);
iniclaizar contador de etapas e=0;

Fase Iterativa:

Mientras: No Convergencia
Paso E: Etapa del calculo de esperanzas

E[atributo con respecto a clase - datos(e)]

Paso M: Etapa de maximiazacion

E[datos(e+1)]=E[atributo con respecto a clase - datos(e)] / E[clase - datos (e)

Fin Mientras

FIN ALGORITMO

Algoritmo EM[ORALLO, QUINTANA, RAMIREZ - 2004]

 

Relleno

Cuando se finaliza el algoritmo cada atributo debe tener unos valores de probabilidad de todos sus posibles valores con respecto a la clase, los atributos numéricos o reales como no tienen un numero limitado de valores, se trabajaron igual que los nominales, es decir para cada valor que aparezca en el atributo numérico se toma como si fuera un posible valor del mismo, asumiendo que los datos no tienen Outliers y que se encuentran en un rango no muy grande.

Por ultimo y para rellenar los datos nulos se toma el valor de la clase del registro en el que se encuentra el valor nulo, y se busca el valor con más probabilidad para ese atributo con esa clase, y con ese valor es con el que se reemplaza.