Identificación de Patrones: La Necesidad Humana de Predecir el Futuro
Comentario por Julián Guerrero Juk
El humano, como cualquier otro ser vivo en este planeta, ha sido moldeado por las
fuerzas de la evolución. Como tal, todas las características que nos definen se han desarrollado en
un contexto de la supervivencia del mejor adaptado, del más fuerte, del más inteligente. Entre
algunas de las características que nos han permitido avanzar y desarrollarnos han sido la
identificación de patrones y la resolución de problemas. Aunado a esto, una de las características
reconocidas como la como parte de la inteligencia humana es la capacidad de predecir qué puede
pasar en un futuro. Todos estos elementos entonces nos definen como seres humanos.
Menciono estas características porque creo que están relacionadas. Para poder
anticipar algo, tenemos que tener un modelo mental de qué es lo que puede pasar. Para poder
tener un modelo mental tenemos que entender mo funcionan las cosas, lo que implica que ya
identificamos algún patrón y lo estamos usando para extrapolar nuestras observaciones. Mediante
esta anticipación, podemos comprender a mayor detalle que es lo que está pasando en el mundo
alrededor de nosotros. Y si comprendemos esto, podemos aplicar estos mismos modelos para
resolver los problemas a los que nos enfrentamos. Todo está relacionado.
Para arrancar este proceso, lo primero que necesitamos es identificar los patrones
que observamos. Si reflexionamos acerca del camino que ha tomado la historia de la humanidad,
creo que podríamos llegar a la conclusión de que esta habilidad de reconocer patrones ha sido la
que inicialmente nos impulsó para diferenciarnos de los otros animales que nos rodeaban.
Inicialmente los patrones que identificábamos podrían ser sencillos: el sol sale en la mañana, se
pone en la tarde; en la noche sale la luna y las estrellas; este ciclo se repite. Después se observan
patrones más complejos y el humano veía que hay animales que salen de noche, hay animales que
salen de día. Las plantas crecen, florean, generan semilla; y de aquí si las sembramos, vuelven a
salir nuevas plantas; de ahí nace la agricultura. Siguen patrones más complejos, las estaciones, el
ciclo de vida de plantas y animales, incluidos nosotros, procesos que tardan años si no es que
décadas. Sin embargo con toda esta información, los humanos fuimos formando nuestros modelos
con base a los patrones identificados y predecían que era lo que podría pasar si afectaban alguna
de las variables o de los elementos de este modelo. Creo que este mismo proceso se ha repetido
durante siglos y ha sido el que nos ha depositado en este lugar, y en este momento.
En la era moderna, realmente no mucho ha cambiado respecto a esta situación.
Seguimos observando nuestros alrededores, seguimos tratando de identificar patrones, y
seguimos tratando de construir los modelos adecuados para poder predecir qué puede pasar en
un futuro. Sin embargo, si ha habido algunos cambios: En la actualidad tenemos diversas
herramientas que nos permiten identificar y analizar patrones más complejos. Muchas veces, los
patrones que buscamos ya no son evidentes, o abarcan más variables de las que podemos
fácilmente procesar. También podemos aplicar diversas metodologías derivadas del método
científico para ser más rigurosos al momento de desarrollar nuestros modelos. Las diferentes
áreas de las ciencias e ingenierías tienen muchos ejemplos de este tipo de herramientas.
Quizá una categoría de herramientas que pueda ser útil son los métodos
estadísticos. Cuando tenemos unas cuantas observaciones, quizá pueda ser sencillo generar una
conclusión o llegar a un modelo. Sin embargo cuando las observaciones empiezan a numerarse en
los miles o hasta los millones entonces es imposible retener esa información y procesarla sin la
ayuda de herramientas externas. En este caso las herramientas estadísticas de análisis y de
descripción pueden servir para describir patrones o comportamientos de sistemas de algunas
cuentas variables. Como resultado de estas herramientas estadísticas podemos asignar
parámetros y valores para nuestros modelos que mejor representen la realidad. La distribución
normal, la desviación estándar y la media son conceptos que han ayudado en incontables
soluciones a problemas a nuestro alrededor.
Mientras que estas herramientas estadísticas pueden ser muy poderosas, es
importante saber utilizarlas para poder sacarle provecho. No simplemente es una cuestión de
tener una o varias tablas llenas de datos y simplemente aplicar una fórmula para encontrar las
respuestas ocultas del universo. Es importante plantear desde un inicio cuál es la pregunta o
hipótesis que se quiere probar, es decir, cuál es la respuesta que se está buscando. Si hubiera
errores en esta etapa entonces cualquier análisis resultante con base a los datos que arrojara un
análisis estadístico sería, cuando menos, no confiable, y en el peor de los casos, incorrecto.
Cuando se parte de un planteamiento correcto, los resultados pueden ayudar a describir
comportamientos generalizados de las variables que se midieron, relaciones entre las variables, y
con base a esta información se pueden predecir comportamientos futuros de estas variables.
Mientras más datos se tengan de diversos fenómenos, ya sea de eventos
naturales, eventos sociales, comportamiento de materiales, procesos industriales, etc., se pueden
ir combinando los resultados y planteando nuevas preguntas para resolver de manera estadística y
llegar a construir modelos interrelacionados que nos ayudan a predecir de mejor manera
comportamientos futuros. De cierta manera, el método científico nos indica que podemos obtener
buenos resultados al aislar una sola variable y tratar de predecir su comportamiento. Teniendo
datos generales de esta variable, posteriormente se pueden plantear experimentos en donde se
busca la relación de esta variable con otras y tratar de describir cierta causalidad entre una y otra.
A su vez, con estos resultados nos puede llevar directamente a un planteamiento de modelos de
predicción. Estos modelos tienen como entrada las diversas variables sobre las cuales hemos
realizado experimentos y obtenido resultados, y como salida la predicción con base a toda la
información de distribuciones de población, relaciones entre variables, y demás elementos que
hemos obtenido como resultado de estos experimentos.
Para el desarrollo de estos modelos de predicción, como los estamos llamando
aquí, también se incluyen las relaciones y el comportamiento que se ha modelado durante siglos.
Es decir, no solamente se utilizan datos estadísticos para construir estos modelos, también se
utilizan los modelos desarrollados a partir de la teoría. Combinando estos dos elementos, por
ejemplo, la teoría y los resultados obtenidos de observaciones directas de los diversos fenómenos,
se logra llegar a modelos detallados que no sólo describen un comportamiento muy parecido a lo
que se observa, sino que también nos indica el mecanismo o los mecanismos por los cuales se
llegan a estos resultados. En otras palabras, podemos describir los procesos y las relaciones entre
los diversos elementos que incorporan dicho modelo, además de obtener una predicción.
Todo esto nos permite crear un ciclo en donde observamos, postulamos un
modelo, lo verificamos (o lo rechazamos) mediante un análisis de datos observados, y generamos
modelos cada vez más complejo y que mejor describe la realidad. A su vez estos modelos
complejos alimentan nuevos ciclos de observación, de postulación de nuevos modelos, y así
sucesivamente. Algunos de estos modelos que han sido comprobados y verificados durante
generaciones los vamos encapsulando en cajas negras” que toman ciertas variables como
entrada, y arrojan los resultados y se da por hecho la validez de estos; no se examina ni se
cuestiona estos modelos comprobados. Entonces, nuestros modelos aumentan en complejidad al
integrar muchas de estas cajas negras de conocimiento comprobado y establecido, pero pueden
perder un poco su capacidad de describir explícitamente el mecanismo por el cual están
sucediendo los eventos observados.
De manera análoga a la situación en dónde el simple mero de datos y
observaciones no nos permite hacer un análisis mental y requiere la aplicación de diversas
herramientas, por ejemplo como las herramientas estadísticas, nuestros modelos para algunos
fenómenos empiezan a incorporar tantas variables, tantas interrelaciones y tantas cajas negras
que no es posible seguir en este ciclo de generación de nuevos modelos. Es necesario un cambio
de enfoque y aplicar herramientas distintas o un análisis distinto para poder describir estos
fenómenos. En nuestra actualidad en donde existen millones de usuarios conectados a una red
mundial de datos, generando miles de datos al día por diversos comportamientos (compras,
publicaciones, desplazamientos físicos, consumo de medios, etcétera) es necesario aplicar un
enfoque diferente. La cantidad de datos y las potenciales relaciones entre ellos son abrumadores y
nos topamos con un problema muy particular: ¿cómo modelamos algo que no sabemos que está
ahí? La tendencia de análisis de datos masivos (Big Data) es una respuesta para encontrar estas
relaciones ocultas entre toda la información generada.
El enfoque de Big Data y de la minería de datos es no suponer que conocemos de
antemano el modelo, ni las relaciones o la causalidad entre variables; solamente se tienen datos...
muchos, muchos datos. Todos estos datos que pueden provenir de diferentes categorías o de
diferentes variables se alimentan a diferentes “máquinas de análisis” y de manera generalizada se
indican cuáles son algunas variables sobre las cuales se quiere información, por ejemplo, patrones
de compra, patrones de comportamiento, patrones de búsqueda, etcétera. Como resultado se
pueden obtener pesos o porcentajes de las diversas entradas sobre estas variables de salida de
interés. Sin embargo, no necesariamente se obtiene un modelo específico que describe el
comportamiento generalizado. De cierta manera se generan estas cajas negras pero que abarcan
fenómenos mucho más grandes y generalizados. Por su misma naturaleza, los pesos o porcentajes
obtenidos nos pueden indicar estas relaciones. La gran fortaleza de este tipo de análisis es que se
pueden identificar relaciones ocultas o que no son evidentes a primera vista respecto a cómo
afecta una variable a otra. Justamente este tipo de comportamiento oculto o no evidente podría
ser muy valioso en un contexto en dónde las compañías y empresas siempre están buscando
obtener una ventaja competitiva sobre la otra; se busca anticipar qué es lo que va a querer un
usuario antes de que si quiera el mismo usuario lo sepa.
Finalmente, la historia se sigue repitiendo: los humanos seguimos obsesionados
con poder predecir el futuro. Cada vez desarrollamos herramientas más poderosas y
especializadas para realizar estas predicciones. Recolectamos datos, construimos modelos y
analizamos los resultados para poder repetir este ciclo una y otra vez. Seguimos tratando de
describir lo que vemos a nuestro alrededor y nos hemos dado cuenta que todo está relacionado y
conectado.