09 julio 2012

BigML, modelización e inteligencia artificial

Llevaba un cierto tiempo siguiendo BigML, la última creación de Francisco Martín, con quien ya tuve bastante contacto durante su época en Strands. Además de Francisco, os encontraréis en el equipo de la empresa unos cuantos nombres míticos del hacking y el machine learning. El pasado martes estuvimos hablando en una pequeña presentación de la empresa, y ahora me han invitado a unirme a su Strategic Advisory Committee. La empresa está radicada en Corvallis, Oregón, de ahí que la mayoría de las reuniones las hagamos a través de hangouts de Google+.

BigML es una herramienta en la nube, todavía en beta cerrada por invitación, para un tema que me encanta: la modelización de datos y el desarrollo de modelos de inteligencia artificial (machine learning) a partir de los mismos. Muy al hilo de herramientas que están surgiendo propuestas por empresas como Google, pero con una política de datos completamente transparente y simple: tus datos son tuyos, solo tuyos, y nada más que tuyos. La idea es que los usuarios puedan subir series de datos a un entorno seguro y trabajar en su análisis para el desarrollo de modelos predictivos sobre los mismos. Un tema que entronca con mi interés por la tendencia que se ha dado en denominar big data, sobre la que ya he escrito en varias ocasiones, y con muchas de las herramientas que he utilizado de manera habitual en mi investigación, particularmente los modelos de ecuaciones estructurales que tuve el lujo de poder estudiar en UCLA con Peter Bentler, padre de EQS, a quien terminé pidiendo que formase parte de mi comité de tesis doctoral.

El próximo 17 de julio, en el  the IIIA-CSIC en Barcelona, habrá un taller sobre BigML para aquellos interesados en el tema big data, modelización y machine learning. A mí me pilla en el otro lado del mundo en una conferencia en Perú, pero por lo que he estado viendo acerca de las posibilidades de BigML, la cosa puede estar verdaderamente bien.

Hay un vídeo que ilustra de manera sumamente sencilla la idea del producto:

 

 

También puedes ver algunos modelos analíticos predictivos basados en archivos de datos libres de uso habitual en el mundo académico, como supervivencia en el Titanic, estimación de riesgos en créditos, prevención de diabetes, churn en telecomunicaciones, etc. Las posibilidades, a partir de un conjunto de datos con una cierta calidad como los que cada día más son generados por la operativa empresarial, son prácticamente ilimitadas.



(Enlace a la entrada original - Licencia)

4 comentarios:

ATENCIÓN: Google ha metido en Blogger un sistema antispam automático que clasifica como spam casi lo que le da la gana y que no se puede desactivar.

Si después de hacer tu comentario este no aparece, no se trata del espíritu de Dans que anda censurando también aquí, es que se ha quedado en la cola de aceptación. Sacaré tu mensaje de ahí tan pronto como pueda, si bien el supersistema este tampoco me avisa de estas cosas, por lo que tengo que estar entrando cada cierto tiempo a ver si hay alguno esperando. Un inventazo, vaya.