FORMATO DE LOS ARCHIVOS (*txt, *ent, *pru) PARA EL PREPROCESAMIENTO DE DATOS

Los datos que se quieran preprocesar tienen que estar en formatos de texto plano (*txt). El archivo se puede realizar en cualquier editor.


El formato manejado cuenta con un comodín o caracter especial para especificar ciertos datos importantes, el carácter comodín aceptado en el formato es el caracter arroba "@", con este se puede identificar el nombre de la relación, los atributos y el comienzo de los datos, para cada uno de estos items se tiene una palabra reservada. La especificación de estos se presenta a continuación:

Declaración de la relación:

Palabra clave: nombre

Ejemplo:

@nombre <<algun_nombre>>


Declaración de los atributos:

La herramienta solo acepta dos tipos de atributos, reales o continuos, y nominales. cada uno de estos tiene declaraciones diferentes especificadas a continuación:

Palabra clave: atributo

Atributos Nominales:

Los atributos nominales aceptados son nominales con orden, que quiere decir que cuenta con un numero limitado de valores posibles, por ejemplo sexo con posibles valores {masculino, femenino}. Cada atributo nominal debe contar con sus posibles valores y esta es la forma de declararlos:

Ejemplo: @atributo estrato {bajo,medio,alto}

Observe como los posibles valores están encerrados entre corchetes y separados uno del otro por una coma.

Atributos Reales:

Los atributos reales también cuenta con una especificación especial y con una palabra clave especial, cada nombre de atributo debe terminar con una letra comodín precedida del caracter"-". Esta letra comodín especifica el tipo de distribución al cual corresponde dicho atributo, esta tarea debe ser realizada en una herramienta estadística que nos permita establecer a que distribución de probabilidad corresponde. Las distribuciones que se manejan y su correspondiente declaración son presentadas a continuación:

palabra clave: real

Distribución Normal: -n Ejemplo: Edad-n
Distribución Gamma: -g Ejemplo: Edad-g
Distribución Beta: -b Ejemplo: Edad-b
Distribución Exponencial: -e Ejemplo: Edad-e
Distribución Lognormal: -l Ejemplo: Edad-l

Ejemplo: @atributo salario-n real

Cabe resaltar que en caso de que no se utilice ninguna distribución especificada anteriormente, se utilizara por defecto la distribución normal, que es estadísticamente la distribución que más tiende a presentarse en los datos.

Declaración de los datos

Una vez declarados el nombre y los atributos de la relación se procede a introducir los datos, los cuales tienen un encabezado con su respectiva palabra clave. Posteriormente se añaden los datos ordenados en filas y columnas, dependiendo del orden de la declaración de los atributos.

palabra clave: data

A continuación se presenta la forma de declarar los datos.

@data

<<valor_atributo_1.1>>,<<valor_atributo_1.2>>,.....,<<valor_atributo_1.n>>

<<valor_atributo_2.1>>,<<valor_atributo_2.2>>,.....,<<valor_atributo_2.n>>

.

.

.

<<valor_atributo_n.1>>,<<valor_atributo_n.2>>,.....,<<valor_atributo_n .n>>

Cabe resaltar que los valores de los atributos se separan por comas o espacios sencillos, por lo que un valor de atributo no puede contener un espacio dentro de si. No hay que terminar el ultimo atributo con coma.

para declarar un valor de atributo nulo en los datos se especifica con la el comodín"?".

En la siguiente sección se presenta un ejemplo completo con las especificaciones correctas del archivo.