Secciones

Más en The Clinic

The Clinic Newsletters
cerrar
Cerrar publicidad
Cerrar publicidad

Opinión

24 de Noviembre de 2020

El Plebiscito y el impacto de los Bots

¿Podemos predecir elecciones usando medios sociales? La respuesta es afirmativa, pero tenemos que tener mucho cuidado con los sesgos de este tipo de datos para que los resultados sean representativos. Luego de investigar este tema a fondo en el proceso de las recientes leyes de aborto de Argentina y Chile, dos de los autores se unieron a una tercera investigadora para para analizar, esta vez, el proceso del plebiscito del 25 de octubre.

Ricardo Baeza-Yates, Eduardo Graells-Garrido y Paula Vásquez-Henríquez
Ricardo Baeza-Yates, Eduardo Graells-Garrido y Paula Vásquez-Henríquez
Por

El estudio que a continuación se presenta consideró más de 265 mil cuentas de Twitter y más de 17 millones de interacciones que discutían temas relacionados con el plebiscito a partir de agosto de 2020. Esta muestra seleccionada de más de 800 mil cuentas, corresponde a más del 10% de los usuarios chilenos, estimados en 2,5 millones, y sería similar a una encuesta a 3,5% de las personas que votaron durante el plebiscito. La mayoría de estas cuentas eran antiguas, muchas del 2010, con ocasión del terremoto y otras, de después del estallido social, como muestra el siguiente gráfico:

En base a la descripción de los perfiles que explicitan su opción de voto, es posible crear un conjunto de datos para entrenar un clasificador -basado en aprendizaje automático- que permite predecir la opción de casi todo el resto de las cuentas con mucha exactitud. En este proceso, capturamos el lenguaje que permitía distinguir ambas opciones, incluyendo el uso de la bandera chilena por los partidarios del Rechazo, lo que apela al nacionalismo y al patriotismo.

El resultado final que obtuvimos, días antes del plebiscito, era difícil de creer, pues indicaba que el 75,7% iba a votar apruebo. Más aún considerando que en Chile, de acuerdo a Hootsuite, la mayoría de los usuarios de Twitter son personas entre 18 y 44 años (73%), principalmente varones (58%) de nivel económico sobre el promedio, con lo que naturalmente era una muestra de personas que debería tener un sesgo hacia el Rechazo. 

Ahora, si consideramos que el 12% de los chilenos no tiene acceso a Internet y por ende no está representado en Twitter, podemos mitigar el sesgo de conectividad. Si suponemos que ese colectivo votó como en las comunas más pobres de Chile (90% para el Apruebo), esto indicaría que el 77,3% de Chile votaría Apruebo. Un porcentaje muy alto, que al final, en realidad, era incluso mayor: 78,3%, dando cuenta que el sesgo del Rechazo en Twitter era menor al que esperábamos.

Esta incredulidad era respaldada con la percepción de que el tráfico de tuits y retuits (RTs) del Rechazo era mayor al Apruebo. Por supuesto, sabíamos que había bots políticos, cuentas automatizadas a favor de una opción, pero no conocíamos su impacto real y nunca imaginamos su efecto total, como lo muestra el siguiente gráfico de tuits entre agosto y septiembre.

Para entender el impacto de los bots, hicimos otro clasificador para predecir cuentas anómalas que resultaron ser un poco más del 1% (2.730), de las cuales la mayoría eran pro Rechazo (2.439, 89%) y el resto pro Apruebo (291, 11%). 

Estas cuentas de tráfico exacerbado, en su mayoría bots, eran responsables del 40% de los tuits y 46% de los RTs. Además, los partidarios del Rechazo eran, en promedio, casi 4 veces más activos que los del Apruebo. Sumando estos dos hechos, el tráfico del Rechazo era mayoría, acaparando el 67% de los tuits y casi el 69% de los RTs. Es decir, en vez de ver la realidad, una minoría de 1 a 4, la percepción era una mayoría de 2 a 1. Un espejismo no representativo, como lo muestran los siguientes diagramas.

Pero había otro hecho importante en la interacción entre estas dos facciones, el alto grado de polarización. Eran dos burbujas autorreferentes, donde solamente el 3,5% del tráfico era entre ambos grupos (sólo el 1% de las cuentas quedaron como indeterminadas). Este tráfico cruzado, seguramente de contra propaganda y no de acercamiento, era 4 veces mayor en favor del Rechazo, tal como lo muestra el siguiente diagrama de flujo de RTs, donde se indica el porcentaje de RTs de un grupo a otro, siendo el valor en el interior el tráfico a sí mismo. 

Aquí vemos otra diferencia importante, ya que el 96% de los RTs del Apruebo son a otras cuentas normales del mismo grupo y en cambio el 34% de los RTs del Rechazo son de cuentas anómalas. Por su parte, el 92% de los RTs de las cuentas anómalas del Apruebo son a cuentas normales del Apruebo, mientras que para el Rechazo ese número baja al 56%, ya que 41% de los RTs de las cuentas anómalas del Rechazo son a si mismas, formando dos círculos viciosos.

Sobre los autores:

Ricardo Baeza-Yates es doctor en computación de la Universidad de Waterloo en Canadá (1989) y es Director de Ciencia de Datos en Northeastern University en el campus de Silicon Valley, EE.UU. También es profesor titular del Departamento de Ciencias de la Computación de la Universidad de Chile e investigador senior del Instituto Milenio de Fundamentos de los Datos.

Eduardo Graells-Garrido es doctor en computación de la Universitat Pompeu Fabra en Barcelona (2015). Actualmente es investigador en el Barcelona Supercomputing Center y también es profesor asistente del Data Science Institute de la Universidad del Desarrollo.

Paula Vásquez-Henríquez es magister en ciencias de la ingeniería de la Universidad del Desarrollo (2020). Actualmente es ingeniera en inteligencia de negocios de Cornershop y profesora part-time de la Universidad del Desarrollo.

Este es un trabajo académico familiar ya que la tesis de doctorado del segundo autor fue dirigida por el primer autor y a su vez la tesis de magister de la tercera autora fue dirigida por el segundo autor.

Notas relacionadas

Deja tu comentario