GRUPAL fecha límite Lunes 5 de Septiembre Tiempo Estimado: 1 hora o más. Tiempo Límite: 1 semana
El objetivo de este ejercicio es analizar la performance de Vowpal Wabbit para nuestro TP. VW es una herramienta para problemas de Machine Learning que suele funcionar muy bien y muy rápido, pueden encontrar los links para download y los fuentes en el siguiente link: https://github.com/JohnLangford/vowpal_wabbit
En este finger vamos a usar VW para que puedan aprender esta herramienta que es muy útil y sin dudas les puede servir mucho en el futuro.
Hay muchos tutoriales e información sobre VW que los invitamos a leer e investigar. El objetivo en este ejercicio es encontrar el mejor resultado posible en Kaggle para el TP usando esta herramienta
Los pasos a seguir son: Convertir los sets de train y test al formato de datos de VW, esto deberían poder hacerlo con un simple script en Python o similar. Tienen que decidir si convertir todos los datos o simplemente los textos de los reviews. VW puede procesar textos simplemente como si cada texto fuera un conjunto de "n" features que convierte a un número de columna mediante hashing. Probar diferentes parámetros de VW hasta obtener los mejores resultados posibles. Probar en Kaggle algunos de los mejores resultados obtenidos con VW.
Informar en el grupo de FB de la materia: Mejor resultado obtenido en Kaggle con VW. Qué datos se usaron Qué parámetros se usaron para VW Nombre del grupo en Kaggle e integrantes
El grupo que obtenga el mejor resultado antes del Lunes 5 de Septiembre obtiene 5 puntos para cada uno de sus integrantes. Los siguientes 2 grupos obtienen 3 puntos y los siguientes 7 grupos obtienen 1 punto.
Links útiles: https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format https://github.com/JohnLangford/vowpal_wabbit/wiki/Awesome-Vowpal-Wabbit http://mlwave.com/predicting-click-through-rates-with-online-machine-learning/ http://www.zinkov.com/posts/2013-08-13-vowpal-tutorial/ https://github.com/hal3/vwnlp/blob/master/GettingStarted.ipynb