Entrevista a Álvaro Barreiro, investigador del CITIC
03/02/2014
Doctor en Física por la Universidad de Santiago Compostela, es ACM Senior Member y dirige el grupo de investigación IRLab -Information Retrieval Lab-, donde desarrolla investigación básica y aplicada en Recuperación de Información. Su trabajo se dirige a la mejora de los sistemas de recuperación de información tanto en el web como en las empresas e instituciones y ha sido soportado por proyectos de investigación y contratos de transferencia de tecnología.
- ¿Qué beneficios buscan a través de sus investigaciones, cómo favorecen a la sociedad?
Buscamos avanzar en el conocimiento. En nuestra área, Búsqueda y Recuperación de Información, intentamos mejorar y satisfacer las necesidades de información de los usuarios, ya sean personas o entidades.
Nuestras investigaciones producen dos tipos de resultados: por un lado, los caminos habituales de publicación de nuevos resultados de investigación, ya sea en revistas o en congresos especializados; y por otro, como grupo de investigación buscamos la consecución de la transferencia tecnológica.
- ¿En qué proyectos están trabajando en la actualidad?
En la actualidad estamos trabajando en un proyecto financiado por el Plan Nacional de I+D sobre Recuperación de Información y Análisis de Opiniones en la Web. En este proyecto se abordan retos actuales de la recuperación de información como son las técnicas que permitan resolver consultas difíciles y la inclusión de aspectos de personalización, contexto y análisis de opiniones en los resultados del proceso de búsqueda. En los últimos años también hemos trabajado en distintos dominios de búsqueda de información de particular interés industrial como la búsqueda en blogs, la búsqueda de patentes y la adaptación de los sistemas de recuperación de información a las plataformas móviles.
También estamos trabajando en un proyecto de investigación que permite la detección de predadores sexuales en chats y sistemas de mensajería en Internet. Se trata de detectar adultos que usan el engaño para ponerse en contacto con menores, por lo que su rápida identificación resulta fundamental para evitar el contacto, que es el objetivo último de estos sujetos. Este proyecto integra resultados de recuperación de información y aprendizaje máquina, explotando tanto el análisis estadístico como léxico y psicolingüístico de los mensajes. Aunque es un dominio muy distinto, estas técnicas son parecidas a las que se usan para la detección de opiniones spam en sitios de recomendación de hoteles o negocios, sitios muy populares como TripAdvisor, Foursquare o Yelp.
- Con la cantidad de información que se produce en la actualidad, ¿hasta qué punto es vital tener un correcto acceso a lo que se está buscando?
En ocasiones se piensa que está todo resuelto, que con Google ya se tiene acceso a toda la información, pero esta afirmación no es cierta ya que hay búsquedas más específicas para las que son necesarias soluciones que mejoren los resultados, tanto en términos de eficacia y eficiencia. Es decir, hay necesidades de información para las que son necesarias soluciones de más calidad y con una mejor explotación de los recursos computacionales. Un buen ejemplo son las búsquedas de patentes, con consultas muy largas y especializadas, todo lo contrario a la situación habitual en la búsqueda web o a la búsqueda en plataformas móviles, y que requiere técnicas específicas que permita la obtención de los documentos correctos.
- ¿En qué basan sus técnicas de búsqueda?
Depende del problema de investigación que se pretende resolver y del dominio de aplicación. Por ejemplo, una técnica muy valiosa es la recuperación de información con pseudo-feedback donde, de forma automática, se mejora la consulta inicial con información que se extrae de los mejores documentos obtenidos en el primer proceso de búsqueda. Pero aún así, hay casos en los que no hay documentos relevantes obtenidos en ese primer proceso y deben buscarse formas de mejorar la consulta inicial, lo se puede hacer recurriendo a recursos externos, normalmente en la web, o bien a otras evidencias que se pueden obtener de historiales de búsqueda o de señales de feedback implícito.
- ¿Cómo varía la búsqueda de información con la introducción de nuevos dispositivos como Tablets o Smarphones?
En este escenario la consulta de una necesidad de información se enriquece con la información de localización del usuario o en el caso de redes sociales también con la información de la interacción de otros usuarios con el sistema. De esta manera los resultados de la búsqueda podrán satisfacer las necesidades del usuario requiriendo una interacción mínima por su parte y ajustándose a su contexto espacial y social.
- ¿Cómo definiría las capacidades del CITIC en relación a la investigación en Galicia?
El CITIC es nuclear, es un Centro coherente ya que ofrece una visibilidad a la investigación que se realiza en el campo de la informática en sus distintas Áreas de Actividad.
- ¿Por qué es importante la transferencia tecnológica?
La transferencia tecnológica puede aportar grandes beneficios a las empresas. En nuestra experiencia hemos observado como las empresas se enfrentan a problemas relacionados con la Recuperación de Información pero, por su tamaño, no tienen un Departamento de I+D con personal propio que pueda estar al tanto no sólo de los resultados de investigación sino de que como esos resultados ya han dado lugares a mejores sistemas en otras empresas. Esa es nuestra labor en el CITIC, aportar los recursos de investigación para que las empresas resuelvan algunos de sus problemas y sean más competitivas.