La presentación del análisis de datos también debe huir de estereotipos. / Fotolia

Discriminación a base de datos

Expertos advierten de la necesidad de revisar el análisis de 'big data' para evitar que su sesgo amplíe la desigualdad social

ARANTXA HERRANZ

Achacan al matemático británico Sir William Thomson aquello de que lo que se puede medir se puede mejorar. Esta idea, algo así como un mantra para todos aquellos profesionales que trabajan con datos, viene a poner de relieve la importancia de analizar todo en base a datos.

Sin embargo, que algo esté basado en datos no quiere decir que sea objetivo. Como explica Gemma Galdón, fundadora de la consultora Ética Consulting (empresa que realiza auditorías de algoritmos para que las empresas sean conscientes de los sesgos que estos datos con los que trabajan pueden tener), los algoritmos tienden a premiar la norma. Y cuando, históricamente, estos datos vienen sesgados, estamos perpetuando los errores de los que partimos.

En un momento en el que cada vez generamos más y más datos y estos son analizados con minuciosidad por las empresas para, dicen, tomar mejores decisiones (basadas en evidencias aportadas por esos dato, y no en intuiciones, que pueden ser acertadas o erróneas), luego el objetivo es presentarlos de una forma gráfica amigable, con la que puedan tomarse acciones y deducir conclusiones sin muchas más explicaciones.

¿Pero sucede cuando esos datos con los que se realizan los análisis son sesgados? ¿Y si para mostrarlos escogemos formas, colores, etiquetas y palabras que pueden acrecentar aún más esas carencias de base?

El poder de los detalles

Quienes utilizamos el lenguaje como herramienta de trabajo sabemos la importancia de escoger determinadas palabras en favor de otras. No es lo mismo preguntar a alguien “¿Me has entendido?” que “¿Me he explicado?”

Algo parecido pasa a la hora de presentar los datos analizados: no es lo mismo escoger unos determinados colores, formas o tipos de gráficos que optar por otros.

Por eso, cada vez se reclama más que los conceptos de igualdad y equidad están, desde el principio, en cualquier tipo de análisis y en su posterior visualización. La idea es ser conscientes de estos posibles errores de base para que no se amplifiquen más y puedan subsanarse, aún con datos sesgados de base.

Grupos perjudicados

De hecho, una de las primeras recomendaciones es analizar el conjunto de datos y entender cuál es su procedencia, analizando qué grupos podrían no estar incluidos y cuáles están excluidos de los datos.

También es necesario que se haga un análisis de cómo se recopilaron estos datos, por qué y si hay grupos a los que puede beneficiar o perjudicar esta recolección.

En caso de que constatamos que hay grupos que no están incluidos en los datos, una buena medida es añadir notas para resaltar cómo estos no son inclusivos o representativos.

Además, y sobre todo de cara a mostrar esos datos de una forma más amigable y que pueda ser más entendible por todos los rangos de población, los expertos consideran que hay una serie de principios básicos, de buena fe, que deben ser tenidos en cuenta para no cometer más errores de igualdad y equidad.

Principios básicos a tener en cuenta

A grandes rasgos, hay tres grandes consideraciones que, según el informe “ Do no Harm” (No hagas Daño), realizado por Urban Institute, debemos tener en cuenta a la hora de presentar cualquier análisis realizado con datos.

Por un lado, utilizar un lenguaje que todas las personas puedan entender y en el que ellas sean lo primero y lo fundamental. Es decir, que emplear etiquetas como "personas negras" en lugar de "negros" es más inclusivo, porque estamos centrando el análisis en las personas, no en el color de su piel.

Además, se recomienda ordenar las etiquetas y las respuestas porque, de otra manera, estaremos reflejando los sesgos históricos. Así, en lugar de ordenar los datos que refuercen las categorías "blanco" y "masculino", se recomienda ordenar las etiquetas por tamaño de muestra o magnitud de los resultados.

Estereotipos hasta en la visualización

Por último, y no por ello menos importante, hay que tener cuidado a la hora de elegir los colores, los íconos y las formas que se van a emplear en la visualización de los datos. Por tanto, deberemos huir de estereotipos como rosa para mujeres y azul para hombres, una mujer como enfermera y un hombre como médico.

Por ejemplo, los gráficos de barras son útiles para mostrar datos categóricos, como datos por raza o género ya que permiten mostrar una comparación entre grupos. Un gráfico de barras horizontales facilita a los espectadores la comparación entre barras para reconocer qué barras son más largas y cuáles son más cortas.

Las líneas de cuadrícula verticales brindan una referencia rápida para estimar la longitud y comparar las diferencias, y las etiquetas brindan porcentajes o números exactos que son particularmente útiles cuando se comparan grupos con diferencias más pequeñas.

El Urban Institute, encargado de elaborar este informe en colaboración con Tableau (una herramienta de visualización de datos) es una organización de investigación sin fines de lucro que proporciona datos para ayudar a promover la movilidad ascendente y la equidad.

Para ayudar a que los análisis de datos y sus posteriores visualizaciones tengan un impacto positivo en la equidad y en la igualdad, esta organización facilita una Guía de comprobación para que los responsables de cada visualización puedan comprobar si están amplificando o no determinados sesgos.