Clasificación / Predicción

La clasificación y la predicción son dos formas de análisis de datos que pueden ser usadas para extraer modelos que describan las más importantes clases de datos o para predecir el comportamiento futuro de los mismos.

Muchos métodos de clasificación y predicción han sido propuestos por los investigadores en aprendizaje maquinal, sistemas expertos, estadística y neurobiología. La mayoría de los algoritmos están residentes en memoria, asumiendo una pequeña cantidad de datos. Recientemente las investigaciones en Minería de Datos han aportado nuevos conceptos, a fin de lograr escalabilidad en los métodos de clasificación y predicción, lográndose de este modo, manejar gran cantidad de datos residentes en disco. Estas técnicas consideran el procesamiento distribuido y paralelo.

La clasificación de datos es un proceso de dos pasos (Figura 1). En el primer paso, se construye un modelo, el cual describa el conjunto preliminar de clases. El modelo es construido analizando los registros ejemplos. Cada registro pertenece a una clase específica conocida, debido a esto, esta técnica de clasificación se conoce como aprendizaje supervisado. En contraste con el aprendizaje no supervisado (también conocido como clustering), en el cual la clase a la que pertenece cada registro es desconocida, y el número de clases por aprender tampoco puede ser conocido.

 

Figura 1. Fase de aprendizaje

 

Generalmente, el modelo aprendido es representado en la forma de reglas de clasificación, árboles de decisión, o fórmulas matemáticas.

En el segundo paso (Figura 2), el modelo es usado para generar la clasificación de datos desconocidos.

 

Figura 2. Clasificación / Predicción

 

El primer paso a seguir, consiste en estimar la precisión del modelo o clasificador. La precisión de un modelo en un conjunto dado de datos es el porcentaje de ejemplos, del conjunto de entrenamiento, que fueron correctamente clasificados. Si la precisión del modelo es considerada aceptable, el modelo puede ser usado para clasificar futuros conjuntos de datos para los cuales la etiqueta de clase es desconocida.

La predicción puede ser vista como la construcción y uso de un modelo para evaluar la clase de un ejemplo desconocido, o para evaluar el valor o rango de valores de un atributo. Desde este punto de vista, clasificación y regresión son los dos principales tipos de problemas de predicción, donde la clasificación es usada para predecir valores ordenados o continuos.

La clasificación y predicción tienen numerosas aplicaciones incluyendo aprobación de créditos, diagnósticos médicos, predicciones de desempeño y selección de mercados.