Tus mensajes dicen mucho más de lo que crees

La sociedad de nuestros días está fuertemente influenciada por el avance tecnológico actual. La Internet ha cambiado drásticamente la forma en cómo trabajamos, y cada vez influye más en la forma en cómo nos relacionamos. Hoy en día el papel de un usuario habitual de internet ha pasado de ser un consumidor pasivo de información a un activo generador de ella, y esto se debe principalmente al abaratamiento de los dispositivos actuales, en conjunto con la evolución de las poderosas herramientas a disposición de cualquiera. De esta forma utilizamos esta fascinante infraestructura para casi cualquier actividad, y es así que transitan por la red enormes cantidades de datos de prácticamente cualquier tema, convirtiéndose en una increíble fuente de información. Por si fuera poco, la información que transmitimos a través de nuestros mensajes va más allá del contenido mismo de éstos; es decir, no sólo el tema sobre el que escribimos nos delimita, sino también la forma en que lo escribimos. De esta manera es posible anticipar la edad del autor, así como su género, su región de procedencia o su orientación política, todo ello usando únicamente fragmentos de textos escritos por el sujeto de interés. Esta tarea conocida como perfilado del autor (o author profiling, en inglés) consiste en determinar el tipo o clase de autor a partir de qué y cómo escribe. Existen muchas aplicaciones para este tipo de sistemas; por ejemplo, el perfilado de personas se puede usar para la generación de publicidad dirigida; esto es, dependiendo de la edad, género y gustos de una persona, se envía publicidad que sea relevante para él o ella. De igual manera el perfil del usuario podría darnos elementos sobre nuestra contraparte en una conversación en una sala de chat, y con ello desenmascarar a un adulto que se hace pasar por un menor, como es el caso de los pederastas. En general, podemos decir que este tipo de sistemas nos permiten conocer mucho de una persona usando información de lo que escribe. Dada la cantidad de información a la que estamos expuestos hoy en día, saber más de una persona que está detrás de una computadora o teléfono inteligente es muy importante.

La búsqueda de soluciones al perfilado de autores cae dentro del área del tratamiento automático del lenguaje. En general, esta área se ocupa de la recolección, manipulación, almacenamiento, recuperación y clasificación de información escrita y hablada en lenguaje natural. Su objetivo principal es permitir que una computadora comprenda y produzca información en una o varias lenguas humanas. Como es de imaginar la tarea es en extremo compleja y el problema es tan relevante que ha sido objeto de estudio desde diversas disciplinas.

En específico, para abordar el problema de perfilado de autores se usan técnicas para encontrar o aprender patrones de uso de ciertos componentes léxicos, sintácticos y hasta semánticos que permiten clasificar a los autores en perfiles. Ejemplos de este tipo de patrones son la forma en que se usan los emoticones y signos de puntuación, la relación entre errores ortográficos, el uso de letras mayúsculas en ciertas palabras, etcétera. A partir de una base de datos con documentos en los que se tiene información de perfiles para ciertas personas, se aplican métodos estadísticos que generan un modelo matemático que permite hacer predicciones para nuevos documentos y personas. A este proceso de inferencia se le conoce como aprendizaje computacional. Para poder aplicar algoritmos de aprendizaje computacional es necesario representar a los documentos o textos de forma que éstos puedan ser procesados por una computadora. Usualmente se representa a un documento por un arreglo de números que indican qué tan relevante es un término para describir o representar al documento, donde un término puede ser una palabra, un caracter, una frase, etcétera. Comúnmente, los arreglos que representan a los documentos son muy grandes y a menudo se tiene que reducir su tamaño.

En el Laboratorio de Tecnologías del Lenguaje del Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) realizamos investigación de punta en el tratamiento automático del lenguaje humano. Recientemente, Adrián Pastor López, un estudiante de doctorado del laboratorio obtuvo un premio otorgado por la Universidad Pompeu Fabra, de Barcelona, por un sistema para reconocer la edad y género de personas a partir de sus entradas en blogs. El sistema del INAOE obtuvo el primer lugar en el foro internacional CLEF-PAN del año pasado, en donde se evaluaron a 21 sistemas para el perfilado de autores. El componente clave del sistema desarrollado es una nueva representación para los documentos que reduce drásticamente el tamaño de los arreglos numéricos asociados a los textos. Además de ser compacta, la representación propuesta captura información semántica que permitió a nuestro grupo obtener resultados favorables en documentos escritos tanto en español como en inglés. Cabe destacar que el sistema del INAOE fue uno de los más rápidos de la competencia.

Sin duda alguna el perfilado de autores es una tarea muy relevante en la actualidad, por lo que en el Laboratorio de Tecnologías del Lenguaje del INAOE estamos convencidos en seguir impulsando investigación en este campo. De igual forma, se está impulsando investigación en otras áreas igual o más relevantes como son: detección automática de plagio, análisis de tendencias en redes sociales, recuperación de información multimedia, análisis de voz y video, e interacción hombre-máquina usando movimientos corporales, por mencionar algunas.

*[email protected] · [email protected] · [email protected]