Formación de archivos

Los datos que se quieran preprocesar tienen que estar en formatos de texto plano (*txt). El archivo se puede realizar en cualquier editor.
El formato manejado cuenta con un comodín o carácter especial para especificar ciertos datos importantes, el carácter comodín aceptado en el formato es el carácter arroba "@", con este se puede identificar el nombre de la relación, los atributos y el comienzo de los datos, para cada uno de estos ítems se tiene una palabra reservada. La especificación de estos se presenta a continuación:

Declaración de la relación:
Palabra clave: nombre
Ejemplo:
@nombre <<algun _ nombre>>

Declaración de los atributos:
La herramienta solo acepta dos tipos de atributos, reales o continuos, y nominales. cada uno de estos tiene declaraciones diferentes especificadas a continuación:
Palabra clave: atributo

Atributos Nominales:
Los atributos nominales aceptados son nominales con orden, que quiere decir que cuenta con un número limitado de valores posibles, por ejemplo sexo con posibles valores {masculino, femenino}. Cada atributo nominal debe contar con sus posibles valores y esta es la forma de declararlos:
Ejemplo: @atributo estrato {bajo, medio, alto}
Observe como los posibles valores están encerrados entre corchetes y separados uno del otro por una coma.

Atributos Reales:
Los atributos reales también cuenta con una especificación especial y con una palabra clave especial, cada nombre de atributo debe terminar con una letra comodín precedida del carácter"-". Esta letra comodín especifica el tipo de distribución al cual corresponde dicho atributo, esta tarea debe ser realizada en una herramienta estadística que nos permita establecer a que distribución de probabilidad corresponde. Las distribuciones que se manejan y su correspondiente declaración son presentadas a continuación:
Palabra clave: real
Distribución Normal: -n Ejemplo: Edad-n
Distribución Gamma: -g Ejemplo: Edad-g
Distribución Beta: -b Ejemplo: Edad-b
Distribución Exponencial: -e Ejemplo: Edad-e
Distribución Lognormal: -l Ejemplo: Edad-l
Ejemplo: @atributo salario-n real
Cabe resaltar que en caso de que no se utilice ninguna distribución especificada anteriormente, se utilizara por defecto la distribución normal, que es estadísticamente la distribución que más tiende a presentarse en los datos.

Declaración de los datos
Una vez declarados el nombre y los atributos de la relación se procede a introducir los datos, los cuales tienen un encabezado con su respectiva palabra clave. Posteriormente se añaden los datos ordenados en filas y columnas, dependiendo del orden de la declaración de los atributos.
Palabra clave: data
A continuación se presenta la forma de declarar los datos.
@data
<<valor_atributo_1.1>>, <<valor_atributo_1.2>>,....., <<valor_atributo_1.n>>
<<valor_atributo_2.1>>, <<valor_atributo_2.2>>,....., <<valor_atributo_2.n>>
.
.
.
<<valor_atributo_n.1>>, <<valor_atributo_n.2>>,.....,<<valor_atributo_n .n>>
Cabe resaltar que los valores de los atributos se separan por comas o espacios sencillos, por lo que un valor de atributo no puede contener un espacio dentro de si. No hay que terminar el último atributo con coma.
Para declarar un valor de atributo nulo en los datos se especifica con la el comodín"?". En la siguiente sección se presenta un ejemplo completo con las especificaciones correctas del archivo.