Universidad Veracruzana

Skip to main content

LARSI analiza datos de redes sociales a gran escala

LARSI analiza datos de redes sociales a gran escala

  • Es el primer laboratorio en ciencia de datos en la región sur-sureste del país
  • Se invita a la comunidad estudiantil a que se acerque al LARSI, que se informe sobre lo que hace y/o para hacer su servicio social

Paola Cortés Pérez

22/06/18, Xalapa, Ver.- La sociedad del siglo XXI se enfrenta al reto de formar a profesionales capaces de recolectar, limpiar, analizar e interpretar la enorme cantidad de información generada en las redes sociales a través de los dispositivos móviles, por ello el año pasado la Universidad Veracruzana inauguró el Laboratorio para el Análisis de Información Generada a través de Redes Sociales en Internet (LARSI).

Todos los días, a nivel mundial, se generan más de tres trillones de megabytes (MB) de información por segundo en redes sociales, cantidad que no podrá ser procesada y almacenada, de ahí la relevancia de que la UV cuenta con un laboratorio que ofrece servicios de asesoría y monitoreo en ciencia de datos (Big Data), ciencias de redes, sistemas complejos y ciencia social computacional.

Carlos Adolfo Piña García, coordinador general de LARSI, dijo que este espacio es el primer laboratorio en ciencia de datos en la región sur-sureste del país, y entre sus objetivos están el estudio de minería social, comportamiento en línea, análisis de difusión, manipulación de la opinión pública, estudios de opinión en redes sociales, y ética de datos, que ayuden a consolidar y mejorar el quehacer científico de la Universidad.

También desarrollará estudios políticos, de mercado, sociales, análisis de redes, visualización de datos a gran escala y de audiencia en redes sociales.

“Surgió el año pasado a iniciativa del Centro de Estudios de Opinión y Análisis (CEOA) como un complemento de las encuestas tradicionales, porque no es lo mismo la comunidad que opina en las redes sociales que aquella que no tiene un dispositivo móvil; son un aspecto complementario de las encuestas tradicionales con la parte digital, que ahora los jóvenes, la comunidad académica y estudiantil utilizan.”

Claudio Castro López, coordinador general del CEOA, agregó: “Lo que buscamos con la creación del LARSI es conocer la visión del otro ámbito de opinión que constituyen las redes sociales, así que deben observarse y estudiarse, lo que implica acercarse a áreas que hasta ahora eran desconocidas para el Centro”.

Piña García mencionó que por el momento el equipo de trabajo es pequeño y está integrado por Francisco Ortega, responsable de la administración del sistema del LARSI, se encarga de la seguridad del sistema y de que el almacenamiento sea correcto, que los servidores y workstation (estación de trabajo) funcionen apropiadamente. Además de Luis Durán, estudiante de la Facultad de Estadística e Informática (FEI), quien apoya en la parte del análisis estadístico de la información.

 

Claudio Castro López, coordinador general del CEOA

 

Big Data, manejo masivo de datos

Carlos Piña García explicó que el Big Data es el manejo masivo de datos, el cual “no es tan masivo como lo hemos observado”, y el LARSI analiza estos datos provenientes de diversas redes sociales, para conocer de qué hablan los usuarios.

Actualmente, dijo que no puede concebirse un mundo sin las redes sociales; ahora todos estamos conectados a través de un dispositivo móvil, todos los días se emiten textos o imágenes, ya sea por FacebookTwitter o Instagram.

Cabe destacar que el estudio y análisis del Big Data permite conocer las opiniones e ideas de los usuarios, mismas que pueden ser utilizadas por empresas privadas, organizaciones civiles o instituciones de educación, ya sea para la toma de decisiones, promoción de productos y/o servicios, reducción de costos, publicidad, entre otros.

Francisco Ortega advirtió que un tweet contiene mucha información, comúnmente conocida como metadatos (son datos que contienen más datos), como son la posición georreferencial, la dirección IP del lugar del que es enviado, entre otros datos que nadie conoce.

“Ahora el reto es tener un sistema de datos a disponibilidad, un buen acceso a Internet y tener dónde almacenarlos, porque de nada sirve tener la información si no podemos almacenarla y procesarla.”

“Lo importante es que no tenemos los medios tecnológicos para tener toda esta información, existe pero no podemos manipularla y procesarla, tenemos límites tecnológicos que no nos lo permiten, a pesar de que existen”, reiteró Piña.

En el caso del LARSI, dijo que por el momento monitorean Twitter, todo lo que emerge a nivel tweets en la República Mexicana y en Veracruz, y la información obtenida es almacenada en la Tweeteca, “Francisco Ortega se encarga de su administración, seguridad y que se mantenga en alto rendimiento”.

Ortega mencionó que el LARSI obtiene una gran cantidad de datos, por ello se ha desarrollado infraestructura para procesar grandes volúmenes de información que le permitan al laboratorio conocer y analizar las expresiones de lo que se denominan representaciones sociales.

Por ejemplo, si seguimos e investigamos el #Xalapa podemos saber de qué se habla en la capital del estado y en la comunidad universitaria y cuáles son los temas que más se abordan en las redes sociales.

Sobre Facebook, Piña García aclaró: “Ya no es posible obtener información, fue cerrado debido a los escándalos de Cambridge Analytica; lo que puede hacerse es obtener información a través de las fan page que están completamente abiertas, obtenemos información de los like, los comentarios, lo que comparte a nivel textual; pero de perfiles individuales o personales ya no es sencillo y sobre todo, estaríamos violando cuestiones éticas”.

Aunque en el país hay personas y compañías privadas dedicadas a la investigación de ingeniería de datos, son pocos los laboratorios de ciencias de datos a nivel nacional que son respaldados por una institución de educación pública.

“Es bueno el paso que ha dado la UV, representa un parteaguas en la región sur-sureste, si tenemos en cuenta que las redes sociales tienen más pros que contras, así que debemos estudiarlas.”

 

Carlos Adolfo Piña García, coordinador general de LARSI

 

Tweeteca

El LARSI monitorea y analiza las redes sociales, especialmente el Twitter, pero se enfrenta a un obstáculo: los históricos de los tweetssólo se pueden obtener de una semana atrás, por ello idearon la manera de desarrollar una Tweeteca.

Carlos Piña dijo que desde septiembre del año pasado han empezado a coleccionar tweets para estudios científicos, de publicidad y académicos, para ello necesitaban un repositorio institucional, así surgió la Tweeteca.

Claudio Castro detalló que es un repositorio que permitirá analizar y estudiar el desarrollo y frecuencia de temas que han sido tendencia en esta red social, ya que se puede volver en periodos de tiempo específicos.

Por el momento, destacó Piña García, el repositorio sólo es utilizado por el LARSI pues aún no tienen la autorización para compartirlo debido a las políticas de seguridad y privacidad de Twitter, de lo contrario violarían estos términos, así que deben ser muy cuidadosos con esta información, por ello cuentan con un sistema de seguridad que constantemente es monitoreado.

Sin embargo, no descartan que en un futuro esta información pueda compartirse a los académicos con fines de investigación.

“Estamos valorando alguna posibilidad de generar una especie de documentación o formato escrito, firmado por los académicos que requieran esta información, quienes previamente habrán pasado un proceso de filtro.

”Por el momento no la compartimos, pero está pensada para que en un futuro se pueda tener acceso, cuidando siempre la seguridad y la privacidad de los usuarios”, reiteró.

Francisco Ortega, responsable de la administración y seguridad del sistema del LARSI

 

Proyectos de participación

En los últimos meses el LARSI ha participado en dos proyectos: investigación de accidentes viales en la ciudad de Xalapa y en el análisis de conversaciones digitales en redes sociales para el tercer debate presidencial organizado por el Instituto Nacional Electoral (INE).

Con relación al primer caso, Luis Durán, estudiante de la FEI, comentó que participaron en un proyecto vinculado con la investigación de accidentes viales, “encontramos bases de datos de una aseguradora de automóviles, de donde se recopilaron datos del periodo 2015-2017”.

A la información, detalló, le fue aplicado un análisis estadístico para averiguar cuántos accidentes ocurrían en Xalapa –principalmente en las entradas y salidas de la ciudad– y el comportamiento del flujo vehicular.

“A través de análisis estadísticos y observación de mapeo, pudimos conocer el comportamiento del flujo vehicular y nos enteramos que una de las zonas más transitadas resultó ser la avenida Antonio Chedraui Caram.”

Carlos Piña mencionó que la última participación importante que tuvo el LARSI fue con el INE, quien convocó al laboratorio para formar parte del grupo de organizaciones que analizaron las conversaciones digitales vertidas en las redes sociales, mismas que fueron tomadas en consideración para la elaboración de preguntas del tercer debate presidencial.

“Propusieron que analizáramos las etiquetas que ellos generaron para el tercer debate presidencial, ya que teníamos nuestra Tweetecaquerían que captáramos los tweets generados del 31 de mayo al 5 de junio.

”Analizamos cuáles eran las preguntas más relevantes entre los usuarios, así que desarrollamos un módulo (realizado por un estudiante de la FEI) para identificar que tweets tuvieron más like y retweets durante este periodo.”

Por medio de este programa, Piña García dijo que conocieron las preguntas que más gustaron a las personas y que no fueran de cuentas de influencers, sino de personas normales.

El estudio abarcó la parte estadística (dónde se tweetea más), qué tipo de dispositivos móviles se utilizaron, quién recibió más preguntas, cuál fue el hashtag más usado, entre otros aspectos; esto permitió generar un reporte que fue entregado al INE, quien a su vez lo proporcionó a los moderadores del debate.

 

Luis Durán, estudiante de la FEI, apoya en el análisis estadístico

 

Apuntalar la tecnología y crecer en infraestructura

Francisco Ortega dijo que uno de los retos principales para el LARSI es el tema de infraestructura: “el primer paso es contar con una infraestructura robusta y seria que nos permita manejar toda esa información y realizar concurrentemente un análisis que nos proporcione información.”

En tanto, Carlos Piña indicó que un reto más es no sólo monitorear Twitter, también otras redes que implican imágenes, videos, audio, para ello necesitarán tener mayor capacidad de procesamiento.

“En estos momentos, hay un estudiante que trabaja en el desarrollo de un módulo para detectar bots, quiénes compraron bots o followersen las redes sociales; queremos tener un análisis de a quienes seguimos, aclaramos que no es un espionaje.”

Por su parte, Luis Durán dijo que otro reto es entrar en la clasificación de sentimientos –conocido como minería de opinión u opinion mining– y la manipulación de toda la información, ya que no existe una aplicación que se amolde a la necesidad de manejar tantos datos, “queremos saber las tendencias y cómo se comporta la información”.

Por último, Carlos Piña invitó a la comunidad estudiantil de la Universidad a que se acerque al LARSI, que se informe sobre lo que hace y/o para hacer su servicio social.

Enlaces de pie de página

Ubicación

Francisco Sarabia 100A, Col. José Cardel, C.P. 91030, Xalapa-Enríquez, Ver. México

Redes sociales

Transparencia

Código de ética

Última actualización

Fecha: 4 abril, 2024 Responsable: Mtro. Francisco Ortega Contacto: uortega@uv.mx