Formación de archivos
Los datos que se quieran preprocesar tienen que estar en formatos
de texto plano (*txt). El archivo se puede realizar en cualquier editor.
El formato manejado cuenta con un comodín o carácter especial
para especificar ciertos datos importantes, el carácter comodín
aceptado en el formato es el carácter arroba "@", con este
se puede identificar el nombre de la relación, los atributos y el comienzo
de los datos, para cada uno de estos ítems se tiene una palabra reservada.
La especificación de estos se presenta a continuación:
Declaración de la relación:
Palabra clave: nombre
Ejemplo:
@nombre <<algun _ nombre>>
Declaración de los atributos:
La herramienta solo acepta dos tipos de atributos, reales o continuos, y nominales.
cada uno de estos tiene declaraciones diferentes especificadas a continuación:
Palabra clave: atributo
Atributos Nominales:
Los atributos nominales aceptados son nominales con orden, que quiere decir
que cuenta con un número limitado de valores posibles, por ejemplo sexo
con posibles valores {masculino, femenino}. Cada atributo nominal debe contar
con sus posibles valores y esta es la forma de declararlos:
Ejemplo: @atributo estrato {bajo, medio, alto}
Observe como los posibles valores están encerrados entre corchetes y
separados uno del otro por una coma.
Atributos Reales:
Los atributos reales también cuenta con una especificación especial
y con una palabra clave especial, cada nombre de atributo debe terminar con
una letra comodín precedida del carácter"-". Esta letra
comodín especifica el tipo de distribución al cual corresponde
dicho atributo, esta tarea debe ser realizada en una herramienta estadística
que nos permita establecer a que distribución de probabilidad corresponde.
Las distribuciones que se manejan y su correspondiente declaración son
presentadas a continuación:
Palabra clave: real
Distribución Normal: -n Ejemplo: Edad-n
Distribución Gamma: -g Ejemplo: Edad-g
Distribución Beta: -b Ejemplo: Edad-b
Distribución Exponencial: -e Ejemplo: Edad-e
Distribución Lognormal: -l Ejemplo: Edad-l
Ejemplo: @atributo salario-n real
Cabe resaltar que en caso de que no se utilice ninguna distribución especificada
anteriormente, se utilizara por defecto la distribución normal, que es
estadísticamente la distribución que más tiende a presentarse
en los datos.
Declaración de los datos
Una vez declarados el nombre y los atributos de la relación se procede
a introducir los datos, los cuales tienen un encabezado con su respectiva palabra
clave. Posteriormente se añaden los datos ordenados en filas y columnas,
dependiendo del orden de la declaración de los atributos.
Palabra clave: data
A continuación se presenta la forma de declarar los datos.
@data
<<valor_atributo_1.1>>, <<valor_atributo_1.2>>,.....,
<<valor_atributo_1.n>>
<<valor_atributo_2.1>>, <<valor_atributo_2.2>>,.....,
<<valor_atributo_2.n>>
.
.
.
<<valor_atributo_n.1>>, <<valor_atributo_n.2>>,.....,<<valor_atributo_n
.n>>
Cabe resaltar que los valores de los atributos se separan por comas o espacios
sencillos, por lo que un valor de atributo no puede contener un espacio dentro
de si. No hay que terminar el último atributo con coma.
Para declarar un valor de atributo nulo en los datos se especifica con la el
comodín"?". En la siguiente sección se presenta un ejemplo
completo con las especificaciones correctas del archivo.