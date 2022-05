@Fesshole es el nombre de una cuenta de Twitter (con más de medio millón de seguidores) que te propone "confesar tus pecados anónimamente" y esperar a que Internet te absuelva. Hace dos días, entre las 'confesiones' tuiteadas incluyó esta:

Este hecho atrajo la atención de Rob Manuel. Ese nombre probablemente no te suene de nada, pero en el Reino Unido es conocido por ser el cofundador del popular sitio web B3ta, que lleva 21 años en activo y se describe como una "comunidad de artes digitales pueriles". A Manuel también le gusta programar bots de Twitter, como @swearclock, que se dedica a tuitear la hora mientras insulta.

Así que quizá nadie se extrañe si Manuel contestó a la confesión de Fesshole con un tuit en el que afirmaba estar descargando un archivo de 130 GB de títulos de trabajos académicos y disponerse a escribir "algún código capaz de detectar aquellos que forman acrónimos groseros".

I'm now downloading a 130gb file of academic paper titles and going to see if I can write some code to find ones that spell out rude words

Al día siguiente, otro tuit difundía los avances logrados en su proyecto: el código (en Python) ya estaba listo y, a partir de un listado de 32 millones de títulos de 'papers' —extraído de Unpaywall—, había elaborado (y colgado en GitHub) un segundo listado filtrando aquellos cuyos acrónimos coincidieran con las palabras malsonantes más usadas en lengua inglesa.

Este segundo listado (con unos 80.000 resultados) señalaba las coincidencias diferenciándolas entre 'exactas' (el acrónimo coincide con un insulto), 'cercanas' (una única letra extra antes o después), 'dobles' (referencias a dos insultos dentro de un acrónimo más amplio), 'comienzo' (las primeras letras de un acrónimo más amplio coinciden con un insulto) y 'quizás' (opciones más improbables). Y con base a eso, ahora Manuel recurría a la colaboración ciudadana:

I've written code that searches through 32 million academic papers for rude words hidden in acronyms in titles - some accidental, some maybe on purpose - what I'd like YOU to do is read through results & pick out any you think are worth highlighting https://t.co/k36TfJk7Za pic.twitter.com/n0Q8jWeghI