CITIC

Proyecto pionero del CITIC para conocer el comportamiento de los usuarios de portales web

10/06/2014

  • Han sido necesarias técnicas estadísticas relevantes para el desarrollo de este proyecto de investigación que se ha llevado a cabo con el grupo PRISA

El CITIC ha desarrollado un proyecto de investigación pionero a nivel mundial que, mediante el uso de la estadística y las matemáticas, permite modelizar el comportamiento de los usuarios en el acceso y consumo de contenidos digitales en multiplataformas o páginas web, creando grupos de usuarios que respondan a un determinado patrón.

Esta solución creada por la línea de especialización de Estadística e Investigación Operativa del área de Matemática Aplicada y Estadística e Investigación Operativa del CITIC consigue múltiples beneficios ya que se puede ofrecer información exclusiva según el perfil del usuario, adecuar la publicidad, adaptar los contenidos, personalizar la web… Se ha llevado a la práctica con la web de El País Digital del Grupo PRISA, un proyecto de gran envergadura en el que se ha trabajado sobre bases de datos con miles de registros, por lo que puede aplicarse en cualquier otra plataforma.

Se trató de un reto sumamente interesante desde el punto de vista de la investigación ya que los patrones de navegación por el portal web no vienen caracterizados por secuencias numéricas, sino por datos secuenciales categóricos (las secciones del periódico a las que sucesivamente acceden los usuarios). Se propuso entonces la construcción de una medida de disimilaridad entre patrones ordenados categóricos para separar a los usuarios según su conducta de navegación. A partir de esta medida de disimilaridad se desarrolló un algoritmo de clasificación que tiene en cuenta no sólo la coincidencia de accesos sino también la correlación temporal entre los mismos.

Un reto en la investigación
Según José Antonio Vilar Fernández, investigador responsable de este proyecto “a la hora de abordar este proyecto revisamos si existía algún trabajo de investigación previo que ahondara en el problema de clasificar secuencias ordenadas de datos categóricos en base a una medida de disimilaridad y teniendo en cuenta la correlación temporal entre accesos, y no encontramos nada publicado. Tan sólo encontramos algún procedimiento (pocos) basado en modelos, lo cual supone asumir estructuras probabilísticas de partida que podrían no satisfacerse y, en todo caso, implica un sofisticado proceso de estimación previa de los parámetros de esos modelos. La herramienta resultante de nuestras investigaciones es innovadora al permitir establecer patrones del comportamiento de los usuarios de una web en base a evaluar la distancia entre secuencias ordenadas de accesos y aplicar entonces un algoritmo estadístico de clasificación, algo que, hasta donde hemos podido saber, no se había realizado hasta el momento”.

Para conseguirlo se estableció un proceso en varias etapas. En primer lugar, fue necesario un análisis exploratorio de los patrones de conducta registrados y depuración posterior de los mismos. Las opciones de navegación son múltiples, un usuario puede acceder a una noticia de Economía, posteriormente a Sociedad, volver a Economía, ir a Deportes… El segundo paso, más teórico, consistió en definir una medida de disimilaridad entre dos patrones que evaluase lo diferentes que eran considerando: el grado de coincidencia entre visitas a secciones (similitud “estática”) y entre sus cronologías (similitud “dinámica”). La tercera etapa implicó el desarrollo de un algoritmo clúster basado en la matriz de disimilaridades. Toda la herramienta propuesta a nivel teórico se implementó en un programa informático usando software libre. En una cuarta etapa, la herramienta generada fue testada y validada en diferentes escenarios de simulación de posibles conductas con patrones conocidos. Los niveles de éxito en estas pruebas fueron excelentes, superando claramente a otros procedimientos alternativos basados en modelos. Todas estas etapas supusieron el empleo de técnicas estadísticas sofisticadas. En una última etapa, se desarrollaron utilidades gráficas para visualizar los comportamientos patrón y facilitar su entendimiento.

Este proyecto abre infinitas posibilidades a las empresas para entender el comportamiento de los usuarios que acceden a sus multiplataformas digitales pudiendo clasificarlos y mejorar su experiencia en la navegación. Una fuente de información sin igual que no podía conseguirse hasta la fecha y que el CITIC ha hecho posible.