Discretización

La discretización es el método o la técnica por la cual se convierten atributos numéricos o reales en nominales. Existen fundamentalmente dos técnicas que permiten realizar esta tarea. La primera de ellas es la discretización que presentaron [FAYYAD, IRANI 1993]. La discretización esta basada en bins o intervalos y en este tipo de discretización existe un método que encuentra la cantidad de bins más adecuada para discretizar. El segundo tipo de discretización que es el que utiliza UDMiner, se llama Simple Binning, en esta técnica el numero de bins es estático y lo que se hace es utilizar el máximo y el mínimo valor de los datos, y con una formula determinar cual es el valor de intervalo que deben tener los datos discretizados.

Formula:

Intervalo = (Máximo - Minimo) / # Bins deseados

Ejemplo:

Si se tiene un atributo numérico cuyo valor máximo es 78 y su valor mínimo es 15, y se quiere realizar una discretización en 6 bins, entonces el valor de intervalo quedaría de la siguiente manera:

Intervalo = (75 - 15) / 6
Intervalo = 10

Este valor de intervalo nos permitirá dividir los datos en 6 grupos. Lo que se hace es que al valor mínimo se le suma el valor de intervalo, y el intervalo entre estos dos es un nuevo valor, a la suma que dio se le vuelve a sumar el valor de intervalo y se genera el segundo valor con el intervalo entre estos dos, así sucesivamente hasta llegar al numero máximo, de tal manera que los datos quedan representados en 6 posibles valores que se reemplazan dependiendo en cual de los intervalos esta el dato original.