Lituus

¿Qué es la visualización de datos cuantitativos y por qué es importante?

visualización de datos sobre la estacionalidad de los insectos

Comunicar efectivamente información cuantitativa (visualización de datos cuantitativos) parecería ser que es una habilidad exclusiva de diseñadores o de quienes nacieron con el “gen de artista”. Cuando los “no diseñadores” construimos nuestros reportes muchas veces terminamos ensuciándolos por caer en la tentación de “que al estar muy simple” es necesario decorarlo.

En la práctica suele pasar que estas decoraciones no aportan para la toma de decisiones, agregan carga cognitiva innecesaria e incluso puede inducir a errores de interpretación en nuestra audiencia. Por lo tanto, no aprender a representar información cuantitativa puede ser muy perjudicial. Lo bueno es que se trata de una habilidad que se puede aprender, tal como cocinar.

Este artículo lo he dividido en 3 partes. La primera consiste en intentar convencerte mediante un ejemplo de por qué debemos aprender visualización de datos cuantitativos. En la segunda parte presento un breve coqueteo con la historia (estado del arte) a través de mapas y series de tiempo. Finalmente en la tercera parte comparto cuatro recomendaciones prácticas que nos han dado resultados positivos en Lituus y que puedes aplicar desde hoy mismo.

Ponte cómodo. ¿Listo? Comencemooooos.

¿Qué es la Visualización de Datos Cuantitativos?

La visualización de datos cuantitativos es la capacidad de comunicar ideas o temáticas complejas con claridad, precisión, integridad y eficiencia mediante objetos perceptibles como mapas o gráficos entre otros. De estos se espera que muestren los datos sin distorsión, centrados en la idea a comunicar en vez de hacer variaciones o cambios del diseño.

¿Por qué es importante la Visualización de Datos Cuantitativos?

Desde mi punto de vista, es importante porque permite enfocarnos en distintos niveles de detalles de un solo vistazo sin perder de vista el todo, además somos menos susceptibles a manipulaciones. Por otra parte, si no tenemos el “todo” y sus matices, “podemos estar cortando árboles en el bosque equivocado”.

Un aspecto interesante es que visualizar los datos puede revelar aspectos que una ecuación no podría. Consideremos como ejemplo a: el cuarteto de Anscombe, la voz de ese típico profesor que nos hacía ejercicios con trampa (como el 1=2) y un Data Scientist.

Profesor: Data Scientist, ¿me podría indicar qué algoritmo podemos aplicar a este conjunto de datos?

Cuarteto de Anscombe. Ejemplo tomado del libro Visualización de datos cuantitativos
Cuarteto de Anscombe desplegado como tabla

Data Scientist: Profe, obtuve medidas de tendencia central y de dispersión y el coeficiente de correlación me dio 0.82. Mi sugerencia es que apliquemos regresión lineal para probar nuevos puntos. Lo bueno es que lo hice con un par de líneas en Python.

Regresión lineal del Cuarteto de Anscombe. Ejemplo tomado del libro Visualización de datos cuantitativos
Regresion lineal aplicada al cuarteto de Anscombe

Profesor: ¿Graficó los puntos?

Data Scientist: No, pero no hay problema porque ya podemos estimar, tengo los parámetros betas ajustados.

Profesor: Favor agregue a su código el respectivo plot.

Data Scientist: Ok, profesor (de mala gana).

Ejemplo de Cuarteto de Anscombe en visualización
Visualización del cuarteto de Anscombe como puntos en un plano

Como podemos apreciar, una representación gráfica puede dar una mirada que una ecuación no. Esto lo han descubierto personas hace mucho tiempo y creo que vale la pena (y por decencia) mencionarlos en el siguiente “mini estado del arte”.

Visualización de Datos Cuantitativos – Una historia de más de 500 años

Visualizar información cuantitativa probablemente exista desde tiempos inmemoriales, pero es entre los años 1750 a 1800 donde podemos encontrar “formalizados” la mayoría de los términos que hoy conocemos como mapas, series de tiempo, scatterplots, entre otros. A la fecha diversas disciplinas como cartografía, astronomía, medicina, química, enfermería, cosmología, matemáticas entre otras, han aportado enormemente a esta área.

A continuación veamos un poco de historia sobre 2 visualizaciones ampliamente utilizadas.

Mapas

Una de las primeras formas utilizadas para representar un gran volumen de datos en un espacio reducido fueron los mapas. Estos permiten que nuestros datos sean vistos en múltiples niveles de detalle de forma simultánea permitiendo entonces diferentes análisis sobre la misma representación.

Yo creo que los primeros cartógrafos nunca se imaginarían lo fácil que es desplegar mapas en Power BI o Tableau, en aquella época con tan solo papel, lápiz y reglas de cálculo había que combinar habilidades de cartografía, comunicación y estadística para confeccionarlos. Unos de los primeros trabajos en esta línea (polimatía) es “Cosmographia” de Petrus Apianus presentado alrededor de 1546, quien desplegó puntos geográficos en un gráfico de dispersión bivariado (scatterplot).

Uno de los primeros ejemplos de Visualización de datos cuantitativa - Cosmographia
Cosmographia por Petrus Apianus

Posteriormente en 1686 Edmon Halley formalizó la representación de datos en mapas mostrando el movimiento de los vientos alisios en un mapamundi. Sin embargo, no fue hasta 1854 y 1864 cuando John Snow (pionero en epidemiología y en el uso de diagramas de Voronoi) y Charles Joseph Minard incorporaron información cuantitativa con información geográfica haciendo más hincapié en la sinergia de disciplinas.

Ejemplos de mapas con datos cuantitativos

Mediante el siguiente mapa el Dr. John Snow facilitó la comunicación y detección de la bomba de agua que generaba las muertes por cólera en el centro de Londres 1854. Además podemos apreciar una representación de clusters.

Aplicación de visualización de datos cuantitativos en salud por el Dr Snow
Detección de la bomba de agua que generaba las muertes en Londres 1854.

Otro ejemplo es el caso de Charles Joseph Minard quien creó un mapa de las exportaciones de vinos franceses de 1864. En este caso fue capaz de asignar un valor cuantitativo y a la vez darle una dirección.

Visualización de datos cuantitativa en mapas
Mapa de las exportaciones de vinos franceses de 1864.

Podemos apreciar que los mapas han sido usados como un medio para transmitir mucha información en un espacio reducido, pero también es cierto que muchos hemos cometido el error de representar los datos proporcionalmente al área geográfica en vez del contexto subyacente. Que tire la primera piedra quien no ha cometido este error, ¡¡¡yo lo he cometido varias veces!!!

Series de Tiempo

Quizás una de las representaciones más populares en la ciencia de datos son las series de tiempo, donde habitualmente se posiciona en el eje X o abscisas, la dimensión fecha (día, semana, mes, etc.). Según investigaciones, las series de tiempo aparecieron formalmente en la literatura científica alrededor del 1700 aunque existe evidencia de trabajos previos.

Uno de los pioneros fue Johan Heinrich Lambert quien graficó la variación de la temperatura del suelo respecto a la profundidad bajo la superficie.

Una de las primeras series de tiempo - Visualización de datos cuantitativa
Uno de los primeros gráficos con series de tiempo por J.H Lambert

Años más tarde, William Playfair presentó el trabajo “The commercial and Political Atlas, 1786” donde se identifica el primer uso de series de tiempo con datos económicos. En este trabajo también podemos encontrar las primeras versiones del gráfico de barras y pie chart. Para más información te recomiendo ver el trabajo “Statistical Breviary”.

Visualización de datos cuantitativa: Uso de Barnhart and line chart
The commercial and Political Atlas - 1786

2 influyentes modernos en la Visualización de Datos Cuantitativos

Considerando solo las fechas expuestas, podemos decir que nos hemos demorado más de 500 años en incorporar este conocimiento en nuestro día a día. En gran medida la exposición de este “reciente cuerpo de conocimiento” se la debemos a John W. Tukey quien empujó el área cuando en aquel entonces (1960) se conocía como Statistical Graphics. Por supuesto no podía dejar de lado al gran Edward Tufte quien ha llegado a hipotecar su casa para transmitir sus conocimientos en esta área y quien trabajó desde los inicios junto a Tukey para abrir este campo.

Estos actores establecieron como idea central el uso de los gráficos como instrumentos de razonamiento para desplegar información cuantitativa, considerando en el proceso cambiar el paradigma de “usar las tablas y gráficos que siempre aparecen en los papers”, a discutir sobre formas más efectivas que realmente tengan sentido para comunicar nuestros datos. De esto han salido interesantes estrategias, de las cuales te comparto un poco en formato de recomendación.

Nota: En Lituus hemos puesto en práctica estas recomendaciones antes de sugerirlas.

4 recomendaciones para Visualización de Datos Cuantitativos

Según Edward T. la excelencia gráfica se puede lograr cuando cuidamos varios aspectos, entre ellos:

  1. Enfocarnos en mostrar los datos con claridad induciendo a nuestra audiencia a pensar en la sustancia más que en la metodología, diseño o tecnología.
  2. Ser íntegros evitando distorsiones en los datos.
  3. Usando un lenguaje estadístico adecuado.
  4. Comunicamos un gran volumen de ideas en el menor tiempo posible con el menor uso de tinta posible. Aspecto conocido como Ink Ratio.

A continuación comparto 4 sugerencias.

Recomendación #1: Evitar variaciones de datos arbitrariamente

Si cambiamos los intervalos en que se mueven nuestros ejes arbitrariamente (o sin darnos cuenta) podemos inducir a nuestra audiencia a tomar decisiones equivocadas. En el siguiente gráfico podemos apreciar los premios Nobel hasta 1974.

Gráficos con ejes con variaciones arbitrarias
Gráfico de los premios nobel por país hasta 1974

¿Cuál sería tu pronóstico de Estados Unidos al culminar 1980? Probablemente dirías que el número de premios nobel siguió disminuyendo. Amigo mío, la realidad fue otra:

Ejemplo de gráfico con ejes corregidos
Gráfico de los premios nobel por país hasta 1980

Recomendación #2 Ser íntegros con los gráficos

En varias ocasiones hemos sido testigos de medios de comunicación mostrando gráficos de barras con la intención de resaltar diferencias. Para ello recurren a la práctica de intervenir los ejes.

Manipulación de los ejes de un gráfico de barra
Gráfico de barra con ejes intervenidos

Probablemente un televidente quede con la sensación de que el incremento en los impuestos es brutal generando una preocupación mayor a lo que realmente es. La recomendación general para estos casos es que los ejes partan en 0.

Presentación ética de un gráfico de barra y sus proporciones
Gráfico de barras con los ejes adecuados

Recomendación #3 Mostrar variación en los datos, no en el diseño

¿Alguna vez has sentido que tu reporte se ve muy simple? Es en ese momento cuando tomamos la decisión de decorarlos y en algunos casos incorporamos efectos 3D (tema ampliamente no recomendado). El problema de introducir “estas variaciones en el diseño” es que perdemos el norte. Es mucho mejor resaltar variaciones en los datos.

gráficos con variación de diseño generan problemas
Problemas al variar un diseño versus la real diferencia entre datos

Resta el valor aproximado del año 78 con el del 79. Ahora compara dicho valor con el tamaño de cada barra. ¿No crees que el efecto 3D y la variación del diseño aporta cero valor? A este tipo de problema Edward lo llamó Lie Factor calculado como el tamaño del efecto mostrado en el gráfico dividido por tamaño del efecto en los datos.

Recomendación #4: Comparaciones monetarias ajustadas en vez de nominales

En las series de tiempo se suele graficar un valor monetario sin ajustar a lo largo del tiempo, es decir muestran el valor nominal. Si sabemos que el valor del dinero cambia con el paso de los años es necesario entonces considerar los ajustes causados por la inflación. Lo que podemos comprar hoy con 100.000 pesos chilenos (141 USD / 117 EU aprox.) es totalmente distinto a lo que podíamos hacer hace 25 años.

Visualización de datos cuantitativa con valor monetario ajustado en vez de nominal
Gráfico del precio nominal y 'real' del petróleo crudo

Pensamiento Final

Representar los millones de bits que tenemos a disposición es un bonito desafío, una vez que lo tomas, nunca más ves las cosas como antes. Un consejo que llevo en mi día a día es pensar que los gráficos son párrafos y al igual que estos, debemos ordenarlos correctamente para transmitir de la mejor forma posible nuestro mensaje.

Por cierto, si la Visualización de Datos te interesa, te recomiendo revisar los siguientes artículos: ¿Cómo podemos comunicar mejor nuestros datos? y 7 pasos para crear un Dashboard Efectivo.

Difusión

Nota: Si crees que este contenido puede ser útil para otras personas no dudes en compartirlo. Además te invitamos a seguirnos en Linkedin, Twitter, Facebook, Instagram y Youtube. Mientras en el Blog liberamos contenido más extenso, en las RRSS publicamos semanalmente tips relacionados con Data Warehouse, BI, Data Science y Visualización de Datos que es justamente lo que más nos apasiona hacer en Lituus.

Referencias:

  1. The Visual Display of Quantitative Information, Second Edition, Edward R. Tufte
  2. Envisioning Information, Edward R. Tufte
  3. Storytelling with Data, Cole Nussbaumer Knaflic

Articulos Recomendados

Facebook Instagram LinkedIn Twitter Whatsapp