lunes, 11 de febrero de 2008

Herramienta de Data Mining: WEKA


He realizado la actividad final del módulo en base a una herramienta open source de la suite de Business Intelligence de Pentaho, Weka.

Al principio parece una herramienta "simplona"... una foto de un dulce pajarillo y cuatro botones, parece que no pueden dar mucho de si... pero nada más lejos de la realidad.

Weka se denomina a si mismo un conjunto de librerías para tareas de minería de datos. Las librerías pueden ser llamadas desde la interficie de weka o desde tus propias clases Java. Weka contiene herramientas para diferentes tareas básicas:
  • Preprocess: Multitud de herramientas para el preprocesamiento de los datos (como por ejemplo discretización de variables).
  • Classify: Algoritmos de clasificación, distribuidos por paquetes, como por ejemplo ID3 o C4.5
  • Cluster: Diferentes algoritmos de segmentación como el simple k-means.
  • Associate: Algoritmos para encontrar relaciones de asociación entre variables (Apriori entre otros).
  • Select atributtes: Aquí, una vez cargados los datos, Weka es capaz de buscar por nosotros las mejores variables del modelo.
  • Visualize: Herramienta de visualización de datos en los ejes cartesianos, con muchas posibilidades.
Al principio tuve varios problemas de conexión con la Base de datos... después de utilización... pero poco a poco he podido comprender parte de su potencial y me ha parecido una herramienta magnífica. Iré explicando!!

7 comentarios:

Diego Arenas C. dijo...

Es una muy buena herramienta!,

Por la foto que publicas creo que debes actualizar a la versión 3.5.7, hay un cambio considerable en la interfaz gráfica de la 3.4 a la 3.5, es mucho más usable y simple,

También pienso hablar de Weka en los próximos post :D, te aviso,

Saludos,

estudiandoBI dijo...

La versión la bajé recientemente de la página de Pentaho... parece ser que esa es la última versión estable y que la que tu dices es la "developer version"... todo y con eso interesante será estar atentos a la evolución de la herramienta.
Saludos!

Msc. Yanitza Salgado Hernández dijo...

Yo tambien trabajo con la herramienta weka, es muy muy buena y completa. Aca les dejo mi blog sobre la plataforma weka y el preprocesamiento de datos, espero les sirva de algo. Saludos
http://preprocesamiento.blogspot.com

Rafael F. Tanda Mtnez dijo...

hola a todos:
Yo tambien trabajo con la Herramienta de Mineria de datos Weka en su version 3.5, creo que es una muy buena aplicacion y que su mayor fortaleza esta en que es de libre distribucion. Ahora me encuentro realizando un trabajo con ella y no logro invocar sus instrucciones desde las lineas de comndos del MS-DOS, si pudieran enviarme algun criterio se los agradeceria con mucho gusto (al parecer el problema radica en la JVM). Muchas Gracias

EstudiandoBI dijo...

¿Podrías decir que error te da?

Pi_pe dijo...

hola, gracias por el post. queria preguntarle de que manera puedo agregar un algoritmo que no esta en el Weka. es decir, estoy trabajando con un metodo de grid-clustering que no esta implemenentado en Weka. Gracias.

cristhian dijo...

Hola... aunque este post sea muy antiguo, mi consulta es:
Ya estube tiempo manejando WEKA, como puedo algun modelo guardado incorporar o publicar en PENTAHO...

Muchas gracias.

Saludos, Cristhian...