Excel ha arruinado miles de investigaciones científicas: seis consejos para evitar que te pase también a ti
Ofimática

Excel ha arruinado miles de investigaciones científicas: seis consejos para evitar que te pase también a ti

El autocorrector es una herramienta tan útil para agilizar la escritura y compensar los dedos torpes como —cuando el algoritmo falla— ponernos de repente en toda clase de situaciones hilarantes y/o embarazosas. Pero ¿y cuando no hablamos de mensajes de WhatsApp sino de enormes listas de datos de investigaciones científicas que han valido miles de dólares/euros? Eso no es algo que vayamos a poder solucionar con emojis, precisamente.

En 2016, científicos de la Universidad de Deakin llevaron a cabo un estudio que detectó que alrededor del 20% de los artículos de investigación genética publicados en esas fechas presentaba errores generados por el autocorrector de Excel, que alteraba los nombres de determinados genes, destrozando así las investigaciones.

Cuatro años después, ese mismo equipo lanzó un estudio más amplio y actualizado, analizando más de 10.000 artículos publicados entre 2014 y 2020. ¿Resultado? Ahora se detectaban erores en más del 30% de las investigaciones. Casi en una de cada tres.

El problema radicaba en que Excel reconocía automáticamente términos como 'MARCH1' y 'SEPT15' como fechas, cambiándolas por '1-Mar' o '15-Sep'… sin darse cuenta de que realmente se tratan de nombres de genes humanos.

Es cierto que la autocorrección puede desactivarse, pero también que algunos casos sigue resultando bastante útil para evitar (otra clase) de errores… y, de todos modos, buena suerte logrando que todos y cada uno de los científicos implicados en las investigaciones se acuerde de desactivarla.

Sí, todos y cada uno: en el momento en que el fichero se abra en un equipo con la configuración predeterminada (aunque no llegue a editarse), Excel cambiará automáticamente el formato de los datos.

De modo que los científicos del Human Gene Name Consortium decidieron finalmente que sería más fácil renombrar algunos de los genes más problemáticos que esperar a que Microsoft les resolviera el problema, de modo que MARCH1 se convirtió, por ejemplo, en MARCHF1. Pero eso no lo resuelve al 100%, ni es la única medida que pueden tomar los científicos para evitar la aparición de problemas similares.

Y es que los estudios sobre genética no son los únicos damnificados por el autocorrector de Excel: en octubre de 2020 las autoridades sanitarias británicas detectaron que la herramienta estaba detrás de la misteriosa 'desaparición' de 16.000 notificaciones de casos de enfermos de COVID. Y antes de eso, el hoy infame Informe Reinhart-Rogoff se utilizó como justificación de políticas económicas de austeridad en 2010… porque otro error de Excel excluyó 5 de los 20 paises de la muestra del modelado.

Por fortuna, los expertos tienen algunos consejos que podemos poner en marcha cuando nos vemos obligados a analizar datos científicos.

1. Pasa de las hojas de cálculo

El scripting de análisis de datos utilizando lenguajes como R o Python será casi siempre una mejor opción que recurrir a hojas de cálculo, sobre todo usados en combinación con completos entornos interactivos como Jupyter Notebook o similares. Ya no es sólo que este método no esté expuesto a los problemas generados por la autocorrección, sino que por su mayor reproducibilidad también resulta mucho más fácil auditar los flujos de trabajo (y, por tanto, detectar y solventar los errores).

Según Mohamed Amgad Tageldin, médico experto en patología computacional:

"Digamos que has descubierto que accidentalmente normalizaste tus datos de manera incorrecta, ¿qué puedes hacer al respecto? Si tu análisis está programado, es probable que debas cambiar sólo una o dos líneas de código, hacer clic en ejecutar y… ¡voilà! Compara esto con la pesadilla de tener que repetir todo el análisis clic a clic".

2. Mejor LibreOffice Calc que MS Excel

Si no tenemos la opción de recurrir a Python y R y por el contrario el proyecto nos exige usar un software de hoja de cálculo, los investigadores recomiendan usar LibreOffice Calc en lugar de Excel, porque su autocorrector no es Atila (esto no lo dicen con esas palabras, claro). Pero "esto no remediará otros tipos de errores" (esto sí es literal).

3. Si no puedes escapar de Excel, verifica el correcto guardado/importación de formatos de datos

Si la solución de LibreOffice también debe ser descartada, por la razón que sea, debemos "tener mucho cuidado al importar los datos". Así, si estamos manejando un fichero CSV o TSV, se recomienda no abrirlo directamente, sino utilizar el asistente de importación de datos para poder asegurarnos de que cada columna tiene el formato de datos adecuado.

"Por ejemplo, las columnas que contienen nombres de genes deben tener el formato de 'texto libre', las coordenadas genómicas deben formatearse como 'enteros' y las mediciones de expresión génica como 'numéricas'".

4. Usa ficheros CSV o TSV

Lo habitual es que los datos se guarden y distribuyan usando los formatos por defecto de Excel (.xls, .xlsx), pero en realidad los formatos más adecuados para esta labor son los ya citados CSV y TSV, porque no son formatos propietarios y además se trata de 'texto plano' estructurado.

Lo que lo estructura es un carácter en concreto que se usa como separador: la coma o punto y coma en el caso del CSV (lo habitual en Europa es el punto y coma, para no liarla con los decimales… pero en EE. UU. es al contrario, otro detalle que deberemos tener en cuenta), o el tabulador en caso del TSV.

Ahora, si estamos usando las últimas versiones de MS Excel o LibreOffice Calc, podemos saltarnos este paso, pero si no es recuerda asegurarte de guardar el archivo CSV usando codificación de caracteres UTF-8 y marcando la opción 'Citar todas las celdas del texto'.

5. Verifica que no te hayas cargado ya algún dato

Tanto si usamos Excel como Calc, si nuestra investigación maneja datos genómicos, deberemos verificar que los nombres de los genes siguen intactos en los documentos ya creados. Para hacer esto, deberemos ordenar por orden ascendente las columnas que contienen los nombres de los genes: dado que los números y fechas se situarán en la parte superior de la columna, será evidente si la autocorrección se ha cargado los nombres de los genes.

Otra alternativa más rápida quizá pase por usar Truke, "herramienta de conversión de archivos para buscar y manejar símbolos genéticos mal identificados de Excel". Es gratuita y sólo requiere subir el archivo en cuestión a su web (nótese que sus desarrolladores también recomiendan usar formatos de texto estructurado en lugar de XLS(X).

6. No te fíes, hay muchas especies y muchos idiomas

Aunque los científicos hayan preferido 'dejarse de líos' aprobando el cambio de nombre en genes como los genes SEPT y MARCH, presentes en humanos y ratones (las dos especies más analizadas en laboratorios), todavía hay millones de otras especies en las que no se ha tomado la misma decisión. Y, por supuesto, esa solución sólo afecta a los equipos configurados en inglés. Buena suerte teniendo en cuenta todos los posibles idiomas.

Temas
Inicio