Reseña

La preparación o preprocesamiento de datos incluye diferentes tareas que se deben llevar a cabo para generar una vista minable que es el objetivo de esta etapa. La vista minable no es más que el conjunto de datos más relevantes y con la mayor calidad posible que posteriormente serán minados. Algunas de las tareas más relevantes por ejemplo son la reducción de la dimensionalidad, eliminar ruido y transformar los datos dependiendo el modelo que se aplique en la extracción de patrones, ya sean modelos predictivos o descriptivos.

Algunas de las tareas que incluye el preprocesamiento de datos son:

Limpieza y Transformación:

En esta instancia los datos son analizados e interpretados para realizar una exhaustiva limpieza, que incluye subtareas como rellenar datos faltantes, eliminar outliers, eliminar datos erróneos etc. En la parte de transformación existen diferentes técnicas que permiten adaptar los datos dependiendo del modelo que se vaya a implementar en la posterior etapa de Minería, Algunas de ellas son por ejemplo discretización, numerización, normalización etc.

Selección:

En esta parte la idea principal es implementar alguna técnica, con el fin de extraer los atributos que pueden ser mas relevantes en el dominio del problema y que sean más aptos y más representativos a la hora de expresar un modelo. Existen diferentes técnicas o métodos para llevar a cabo esta tarea, algunos de ellos son métodos estadísticos como el análisis de componentes principales y otros son enfocados mas a la parte de inteligencia artificial, como los árboles de decisión, redes neuronales, algoritmos genéticos etc.