Asociación

Uno de los enfoques del Data Mining consiste en encontrar un conjunto de reglas que describan propiedades de los datos. En general, si consideramos una base de datos organizada en tablas, cada una de las cuales con una serie de columnas correspondientes a una serie de atributos, esta modalidad de exploración de datos, a grandes rasgos y en líneas generales, lo que hace es encontrar relaciones de este tipo:

De manera que la regla viene a decir que cuando se satisface la formula f, para un conjunto determinado de atributos, se satisfará la fórmula g para otro conjunto concreto de atributos de A. Las reglas que se obtengan, tendrán sin embargo, un índice de veracidad o confidence, que viene a mostrar cuánto nos podemos fiar de la regla, o lo que es lo mismo, cuantas veces se cumple esta regla en la muestra de datos explorados, en relación con el número de veces que se cumple la parte izquierda.

Un enfoque un poco más concreto sería restringirse a formulas booleanas, constituidas por formulas atómicas del tipo x =1 o x =0 (siendo x perteneciente a A) y por conectivas Ù, Ú, |- (and, or, not). De modo que obtendríamos reglas booleanas tal como esta:
fb => gb , donde podríamos expresar toda relación entre datos binarios de una base de datos.

Supongamos que tenemos un conjunto R = {A1, A2, .., Ap} de atributos binarios, de modo que el dominio de cada Ai es {0,1}.

Definimos una relación r = {t1, t2,.., tn} sobre el esquema R, de forma que r es una matriz donde cada fila es una tupla de los atributos R de la base de datos. Es decir que la dimensión de la matriz es n x p, siendo n el tamaño de la muestra tomada y p el numero de atributos de cada muestra.

Una regla de asociación acerca de una relación r es una expresión de la forma X => B, donde X es un subconjunto de R y B es un atributo perteneciente al subconjunto R – X. El significado intuitivo de la regla consiste en que si en una fila de r ( que viene a ser una tupla de la base de datos) cada uno de los atributos de X vale 1, entonces el atributo B vale 1 en dicha fila.

Con objeto de determinar lo fiable que es una regla definimos previamente:


Con estos conceptos podemos ya definir en qué consiste el descubrimiento de reglas de asociación: encontrar todas las reglas de asociación X =>B tales que la frecuencia de la regla alcance un umbral u1 y la confidencia alcance un umbral u2. Estos umbrales dependerán del tamaño de la muestra y de lo significativas y fiables que queramos que sean las reglas descubiertas.

Una vez elegida una muestra de datos, u1 y u2 son los únicos parámetros que permiten ajustar este método para obtener unos resultados mejores o peores, pues el número de atributos que intervienen en cada una de las reglas no se restringe, puede ser cualquiera entre 2 y p.