A la caza del troll: este algoritmo los detecta tras cinco comentarios

"Allá donde hay una caja de comentarios, aparece un trolleo", decía mi compañero Matías hace unos días cuando examinaba el comportamiento de los trolls en Internet. No le falta razón: cualquiera que participe de forma más o menos habitual en una comunidad se habrá cansado de esos usuarios que participan únicamente para causar polémica y reacciones negativas por parte de los demás.

Muchos medios han recurrido desde entonces a moderadores, gente que se dedica a eliminar y banear a aquellas personas que infrinjan las normas. El proceso, y en el caso de publicaciones muy populares, puede ser muy arduo y trabajoso. ¿Y si existiera un algoritmo que automáticamente detectara trolls y los baneara? Eso es precisamente lo que un grupo de investigadores de la Universidad de Stanford asegura haber conseguido en este estudio financiado por Google.

El perfil del troll de Internet

Los investigadores han analizado los comentarios recibidos durante 18 meses por CNN (web de noticias), Breitbart (web sobre política) e IGN (web de videojuegos). En total, más de 40 millones de comentarios con más de 100 millones de votos. A partir de los datos, han obtenido varias similitudes que en general comparten la mayoría de usuarios baneados por los moderadores de dichos medios.

Los trolls que recibieron expulsiones permanentes no sólo utilizaban lenguaje malsonante, sino también palabras con connotaciones negativas y sin tono conciliador (es decir, en sus comentarios no se encontraban demasiados "podría", "quizá" o "considerar"). ¿Basta con detectar insultos entonces? Los investigadores aseguran que no es suficiente, ya que muchos trolls no sólo no insultan, sino que además utilizan palabras inventadas en tono despectivo. Ponen como ejemplo "Obummer", para meterse con Obama.

Los trolls publican mucho, utilizan palabras negativas, son menos legibles, suelen tener muchas respuestas a sus comentarios pero pocos votos y cada vez son menos tolerados por las comunidades

¿Qué otros parámetros de un comentario deben investigarse para saber si se trata de un troll? Sus comentarios son los que suelen recibir más respuestas pero menos votos positivos, es habitual que escriban numerosos post por cada "hilo" (entendiendo como tal las respuestas a un comentario), son menos legibles y publican en general mucho más que un usuario normal. En el caso de la CNN, la media de posts por usuario que termina siendo baneado es de 264 mientras que los usuarios normales no superan los 22 comentarios.

Captura De Pantalla 2015 04 20 A Las 12 04 45

De izquierda a derecha: fracción de comentarios que son respuesta, respuestas, posts por hilo de los usuarios baneados (FBU) frente a los no baneados (NBU)

También es interesante el papel de los moderadores y de la propia comunidad. Según el estudio, "aquellos usuarios que terminan siendo baneados no sólo escriben peores comentarios con el tiempo, sino que la propia comunidad se va mostrando menos tolerante hacia ellos". Los comentarios borrados por los moderadores también son uno de los factores que citan como "alimento" de los trolls. Un usuario al que se le borra un comentario de forma injusta es más propenso a bajar la calidad de sus posts que otro al que, escribiendo de forma similar, no se le ha borrado nada.

"Los cambios en la calidad del texto y en la percepción de la comunidad pueden causar cambios en la tasa de borrado de los posts de un usuario", según el estudio

El algoritmo funciona con exactitud el 80% del tiempo

Evaluando todos estos parámetros, los responsables del estudio dicen haber diseñado un algoritmo que es capaz de detectar un troll (o usuario que terminó siendo baneado) con 80% de exactitud examinando tan sólo los primeros 5 comentarios del mismo, aunque recomiendan subir el número de comentarios hasta 10 para exprimir el sistema al máximo. Eso sí, ellos mismos reconocen las limitaciones: cuantos más comentarios haga el usuario, más difícil es predecir si después va a terminar siendo baneado.

Además, el 80% de exactitud significa que uno de cada cinco usuarios es clasificado como "troll" erróneamente y acabaría baneado por el sistema sin que en realidad debiera serlo. ¿Cuál es la mejor medida para acabar con los trolls? Los investigadores son bastante benévolos en su aproximación: si bien se pueden borrar comentarios o incluso expulsarles, "una mejor respuesta podría ser dar a los usuarios antisociales una oportunidad de redimirse".

Enlace | Estudio completo
Vía | Wired
Imagen | Cali4beach En Xataka | ¿De dónde salen los trolls? Esto es lo que hay detrás los sociópatas más conocidos de Internet