La tecnología moderna tiene la capacidad de proporcionarnos enormes voluminoso de datos. Cualquier investigador equipado con un ordenador de escritorio y un par de sensores es capaz de recoger más datos en un par de horas de trabajo de los que podía reunir un colega en toda su vida hace 100 años. Sin embargo, a la hora de convertir ese montón de números en algo mínimamente útil nuestra mente resulta ser una herramienta muy torpe, por lo que investigadores de la Universidad de Harvard y el Instituto Broad han desarrollado un algoritmo denominado MINE que puede encontrar los patrones ocultos dentro de grandes conjuntos de datos.
Resulta bastante fácil reunir una gran cantidad de datos referidos a prácticamente cualquier cosa. Los investigadores que analizan información referente a la salud de una gran población, los analistas deportivos que buscan patrones en las estadísticas de las ligas de fútbol, los biólogos que estudian la evolucionan de las bacterias y prácticamente cualquier otra actividad científica necesita de una herramienta flexible que les permita extraer información útil de esos enormes volúmenes de datos. Con este objetivo en mente, los investigadores de la Universidad de Harvard y el Instituto Broad han desarrollado un algoritmo denominado MINE (por “Maximal Information-based Nonparametric Exploration”, algo así como “exploración no paramétrica máxima basada en información”), una herramienta capaz de enfrentar con éxito cantidades de datos a las que -hasta ahora- ningún software era capaz de procesar.
Pardis Sabeti, profesor de Harvard y parte del equipo que desarrolló MINE, dice que “existen grandes conjuntos de datos que queremos explotar, y dentro de los mismos, muchas relaciones que necesitamos entender. El ojo humano es una de las mejores herramientas para encontrar estas relaciones, pero los conjuntos de datos a menudo son tan grandes que no lo podemos hacer. Este nuevo conjunto de herramientas nos permite hacerlo.” A la hora de probar la potencia de MINE los investigadores eligieron bases de datos realmente grandes, como una base que contiene los datos de de millones de microorganismos que viven en el intestino humano. Compararon entre sí más de 22 millones de organismos, encontrando algunos cientos de patrones interesantes que jamás habían sido advertidos en el pasado. Semejante resultado ha puesto a saltar de alegría a más de cuatro investigadores, que esperan poder utilizar MINE para escudriñar en sus bases de datos, esperando que el programa devuelva correlaciones interesantes incluso sin tener que saber de antemano qué es lo que están buscando.
Existen grandes conjuntos de datos que queremos explotar, y este nuevo conjunto de herramientas nos permitirá hacerlo.
Yakir Reshef, coautor de la investigación, dice que con MINE los investigadores serán capaces de encontrar relaciones y conexiones entre sus datos de una manera completamente diferente. “Nuestra herramienta es un generador de hipótesis. Mediante la exploración de los datos es capaz de obtener hipótesis que nunca se nos hubiesen ocurrido sin recurrir a MINE”, explica Reshef. Siempre será necesario someter los resultados proporcionados por esta herramienta a un posterior análisis humano por si se ha cometido algún error, pero aún así estamos seguros de que permitirá avanzar más rápidamente a los especialistas de prácticamente todos los campos de la ciencia, desde la biología a la física, pasando por la medicina o la economía.
Mola mucho
y yo sin poder obtener un buen metodo para aproximar por minimos cuadrados, que es algo basico. 🙁
http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados
Si este algoritmo tiene un alto grado de certidumbre en los resulados que entrega. ¿Qué pasaría si lo usan (o alguna modificación del mismo) para escudriñar los datos obtenidos por el LHC?
¿Encontraría algo que ni los físicos involucrados en el colisionador pensaban hallar?
¿De pensarse no?
Prestenmelo para usarlo en la loteria 😀
repetiste dos veces "de" en "una base que contiene los datos de de millones de microorganismos que viven en el intestino humano"
en el tercer parrafo (despues de la segunda imagen)
repetiste dos veces "de" en "una base que contiene los datos de de millones de microorganismos que viven en el intestino humano"
en el tercer parrafo (despues de la segunda imagen)
repetiste dos veces "de" en "una base que contiene los datos de de millones de microorganismos que viven en el intestino humano"
en el tercer parrafo (despues de la segunda imagen)
repetiste dos veces "de" en "una base que contiene los datos de de millones de microorganismos que viven en el intestino humano"
en el tercer parrafo (despues de la segunda imagen)
repetiste dos veces "de" en "una base que contiene los datos de de millones de microorganismos que viven en el intestino humano"
en el tercer parrafo (despues de la segunda imagen)
buena esa sera un salto grande para las estadisticas y valores ocultos al ojo humano
ja, la serie numb3rs (num3ros)con este algoritmo tiene sus dias contados.