El fin de las teorías: El Diluvio de Datos hace obsoleto al método científico

Me encanta el tono grandilocuente de este artículo de Chris Anderson en wired (2008!). Lo traduzco seguidamente.

El fin de las teorías: El Diluvio de Datos hace obsoleto al método científico

Todos los modelos son erróneos, pero algunos son útiles”.

Eso proclamaba el estadístico George Box hace 30 años, y tenía razón. ¿Pero teníamos otra elección? Sólo los modelos, desde las ecuaciones cosmológicas hasta las teorías sobre el comportamiento humano, parecían capaces de explicar, con coherencia aunque imperfectamente, explicar el mundo que está a nuestro alrededor. Hasta ahora. Empresas como Google, que han crecido en una era de datos inmensamente abundantes, no tienen que conformarse con modelos erróneos. Es más, no tienen por qué conformarse con modelos en absoluto.

Hace sesenta años, los ordenadores digitales hicieron la información legible. Veinte años más tarde, Internet la hizo accesible. Hace diez años, los primeros motores de búsqueda lo convirtieron en una única base de datos.

Ahora Google y empresas de parecido pensamiento están escudriñando la edad más medida de la historia, tratando ese inmenso corpus como un laboratorio de la condición humana. Son los niños de la Era del Petabyte.

peta8

La Era del Petabyte es diferente por que más es diferente. Los kilobytes se almacenaban en discos flexibles. Los megabytes se almacenaban en discos duros. Los terabytes se almacenaban en matrices de discos. Los petabytes se almacenan en la nube. A medida que recorrimos esa progresión, fuimos desde la analogía de la carpeta a la analogía del archivador y a la analogía de la biblioteca a -bueno, en los petabytes nos hemos quedado sin analogías organizativas.

En la escala del petabyte, la información no es sólo cuestión de orden y taxonomías tri -y tetra- dimensionales, sino de estadísticas dimensionalmente agnósticas. Esto exige un enfoque totalmente distinto, uno que requiere que perdamos la atadura de los datos como algo que puede visualizarse en su totalidad. Nos fuerza a ver los datos matemáticamente primero y establecer un contexto para ellos después.

Por ejemplo, Google conquistó el mundo de la publicidad con nada más que matemáticas aplicadas. No fingía saber nada de la cultura y las convenciones de la publicidad -solo supuso que mejores datos, con mejores herramientas analíticas, asegurarían el éxito. Y Google tenía razón.

La filosofía fundamental de Google es que no sabemos por qué esta página es mejor que aquella: si las estadísticas de enlaces entrantes dicen que lo es, con eso basta. No hace falta ningún análisis causal ni semántico. Por eso Google puede traducir idiomas sin realmente “hablarlos” (a igualdad de cuerpos de datos, Google puede traducir del klingon al farsi tan fácilmente -y con tantos errores, dirán mis amigos traductores- como del francés al alemán). Y por eso puede emparejar anuncios con contenidos sin ningún conocimiento ni hipótesis sobre los anuncios o el contenido.
Durante su intervención en la Conferencia de tecnologías emergentes de O’Reilly el pasado marzo, Peter Norvig, el director de investigación de Google ofreció una actualización de la máxima de George Box: “Todos los modelos son erróneos, y cada vez más puedes acertar sin ellos”.

Este es un mundo donde enormes cantidades de datos y las matemáticas aplicadas sustituyen a todas las demás herramientas que podrían usarse. Fuera todas las teorías sobre el comportamiento humano, desde la lingüística a la sociología. Olvida la taxonomía, la ontología y la psicología. ¿Quién sabe por qué la gente hace lo que hace? El caso es que lo hacen, y podemos monitorizarlo y medirlo con una fidelidad sin precedentes. Con datos suficientes, los números hablan por sí mismos.

El gran objetivo de esto no es la publicidad. Es la ciencia. El método científico está construido sobre hipótesis verificables. Estos modelos, en su mayoría, son sistemas visualizados en la mente de los científicos. Los modelos se comprueba, y los experimentos confirman o desmienten los modelos teóricos sobre cómo funciona el mundo. Así ha funcionado la ciencia durante cientos de años.

Los científicos están entrenados para reconocer que la correlación no implica causa, que no se deberían extraer conclusiones simplemente sobre la base de la correlación entre X e Y (podría ser sólo una coincidencia). En lugar de eso, debes comprender los mecanismos subyacentes que conectan a los dos. Una vez  que tienes un modelo, puedes conectar los conjuntos de datos con toda confianza. Los datos sin un modelo son sólo ruido.

Pero al enfrentarse a enormes conjuntos de datos, este acercamiento a la ciencia -hipótesis, modelo, prueba – se está volviendo anticuado. Pensemos en la física. Los modelos newtonianos eran crudas aproximaciones a la verdad (erróneos a nivel atómico, pero aún así útiles).

newton2bfin2bde2blos2btiempos

Cien años más tarde, la mecánica cuántica basada en estadísticas ofreció una mejor imagen – pero la mecánica cuántica es otro modelo más, y como tal, también defectuoso, sin duda una caricatura de una realidad subyacente más compleja. La razón por la que la física ha derivado en especulaciones teóricas sobre grandiosos modelos unificados n-dimensionales durante las últimas décadas (la fase “bonita historia” de una disciplina hambrienta de datos) es que no sabemos cómo realizar los experimentos que podrían desmentir las hipótesis – las energías son excesivas, los aceleradores demasiado caros y así sucesivamente.

Ahora la biología se está orientando en la misma dirección. Los modelos que nos enseñaban en la escuela sobre genes “dominantes” y “recesivos” conduciendo un proceso estrictamente mendeliano han resultado ser una simplificación de la realidad aún mayor que las leyes de Newton. El descubrimiento de interacciones entre genes y proteínas y otros aspectos de la epigenética han desafiado la visión del ADN como una predestinación y han incluso presentado evidencias de que el ambiente puede influir en los rasgos hereditarios, algo considerado en el pasado como una imposibilidad genética. En resumen, cuanto más aprendemos sobre biología, más lejos nos encontramos de un modelo que la pueda explicar.

245px-gregor_mendel_2

Ahora hay un camino mejor. Los Petabytes nos permiten decir: “Con la correlación basta”. Podemos dejar de buscar modelos. Podemos analizar los datos sin hipótesis sobre lo que podrían mostrar. Podemos lanzar los números a los mayores superordenadores que el mundo haya visto jamás y dejar que los algoritmos estadísticos busquen los patrones que la ciencia no puede encontrar.

El mejor ejemplo práctico de esto es la ametralladora de secuencia genes ideada por J.Craig Venter. Capacitado por secuenciadores de alta velocidad y superordenadores que analizan estadísticamente los datos que producen, Venter paso de secuenciar organismos individuales a secuenciar ecosistemas enteros. En 2003, empezó a secuenciar gran parte del océano, siguiendo los pasos del viaje del capitán Cook. Y en 2005 empezó a secuenciar el aire. En el proceso, descubrió miles de especies antes desconocidas de bacterias y otras formas de vida.

Si las palabras “descubrir una nueva especie” te hacen pensar en Darwin y en dibujos de pinzones, puede que estés atascado en la antigua forma de hacer ciencia. Venter apenas puede decirte nada sobre las especies que ha encontrado. No sabe qués aspecto tienen, cómo viven o casi nada más sobre su morfología. Ni siquiera tiene su genoma entero. Todo lo que tiene es una anomalía estadística – una secuencia única que, al ser diferente de cualquier otra secuencia en la base de datos, debe representar una nueva especie.

Esta secuencia puede correlar con otras secuencias que se parecen a las de especies sobre las que sabemos algo más. En ese caso, Venter hace algunas suposiciones sobre los animales – que convierten el sol en energía de una manera particular, o que descienden de un antepasado común. Pero aparte de eso, no tienen un modelo mejor de estas especies que el que Google tenga de tu página de MySpace. Sólo son datos. Analizándolos con los poderosos recursos de computación de Google, sin embargo, Venter ha avanzado la biología más que ningún otro en su generación.

Esta forma de pensar está a punto de convertirse en lo normal.En febrero, la National Science Foundation anunció el Cluster Exploratory, un programa que financia la investigación diseñada para ejecutarse sobre una plataforma distribuida de computación a gran escala desarrollada por Google e IBM en equipo con seis universidades piloto. El racimo (cluster) consistirá en 1600 procesadores varios terabytes de memoria, y cientos de terabytes de almacenamiento, junto con el software, incluyendo el Tivoli de IBM y versiones de código abierto de Google File System y MapReduce.

Los primeros proyectos de CluE incluirán simulaciones del cerebro y el sistema nervioso y otras investigaciones biológicas que están en algún sitio entre el wetware y el software.

Aprender a usar un “ordenador” de estas dimensiones puede ser un reto. Pero la oportunidad es excelente: La nueva disponibilidad de enormes cantidades de datos, junto con las herramientas estadísticas para estrujar estos números, ofrece una forma enteramente nueva de comprender el mundo. La correlación supera a la causalidad, y la ciencia puede avanzar incluso sin modelos coherentes, teorías unificadas o en realidad sin ni siquiera ninguna explicación mecanicista.

No hay ninguna razón para aferrarnos a nuestra antigua forma de hacer las cosas. Es la hora de preguntarse: ¿Qué puede aprender la ciencia de Google?

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s