TEXT ANALYTICS

Más allá de generar nubes de palabras, o realizar sentiment analysis, cuando hablamos de Text Analytics, hablamos de análisis de Big Data aplicado a texto no estructurado o lenguaje natural. La minería de textos implica la utilización de conocimientos procedentes de varias disciplinas, tales como la estadística, la inteligencia artificial, la computación gráfica, las bases de datos y el procesamiento masivo. Pero ¿en qué consiste?

Hace años que todos sabemos o intuimos la importancia y el valor del análisis de textos masivos. La primera dificultad que tuvimos que superar fue la capacidad de almacenamiento de inmensas cantidades de texto y la segunda conseguir procesar dicha información con cierta rapidez.

Pero una vez superadas estas dos dificultades, descubrimos que el análisis de texto no estructurado presenta dos problemas relacionados con el significado del lenguaje:

  1. Una misma palabra puede cambiar de significado en función del contexto.
  2. No todos asignamos el mismo significado a una misma palabra.

Ante esta dificultad, el análisis de textos en su inicio se limitaba a construir nubes de palabras y en los casos más osados a diferenciar entre contenidos positivos y negativos, el conocido como sentiment analysis.

Pero tampoco el análisis de sentimientos estaba exento de críticas. Por una parte teníamos a investigadores realizando análisis de textos y decidiendo cuándo una aportación era positiva y cuando negativa, decisión que sin duda estaba cargada de subjetividad. Por otra parte teníamos los pc’s, capaces de hacer un análisis objetivo, pero con serias limitaciones ya que las máquinas necesitan acogerse a normas, pero el lenguaje natural trasgrede las normas con mayor frecuencia que las cumple y esto deja a los pc’s ante una situación complicada de superar.

En este contexto, los análisis automatizados se centraban en los detalles, olvidando importantes conexiones y dejándose llevar por el “ruido” que genera el lenguaje natural.

Los actuales sistemas de análisis de texto trabajan bajo el paradigma del análisis masivo de datos, analizando simultáneamente unidades de texto conjuntamente con otro tipo de información, como la hora en la que se ha generado dicho texto, el sexo de quien escribe, etc. Además la fuente de captación de la información ya no se concentra en un solo medio, como puede ser una determinada red social, los datos pueden provenir de e-mails, del centro telefónico de atención al cliente, de preguntas abiertas de un cuestionario, de diferentes webs, y toda esta información se analizará de forma conjunta.

El Análisis de Texto masivo permite establecer si hay diferencias entre el contenido generado por hombres y mujeres, o si una determinada situación, como puede ser una queja, genera contenido específico.

Dicho de otra manera, hasta ahora analizábamos las ramas y esto nos impedía ver el bosque. Ahora analizamos el bosque y esto nos permite ir mucho más allá del análisis de sentimientos, ahora podemos predecir pautas de comportamiento y de consumo.

Deja un comentario