Diagrama de caja en Excel

Diagrama de caja de Excel

Un diagrama de caja en Excel es una representación pictórica o un gráfico que se utiliza para representar la distribución de números en un conjunto de datos. Indica cómo se distribuyen los valores del conjunto de datos. En una gráfica de caja, los datos numéricos se muestran utilizando cinco números como resumen: mínimo, máximo, primer cuartil, segundo cuartil (mediana), tercer cuartil.

Entre el primer y tercer cuartil, se dibuja un cuadro junto con una línea adicional que se dibuja a lo largo del segundo cuartil para marcar la mediana. Las líneas extendidas se dibujan fuera del primer y tercer cuartiles para representar el mínimo y el máximo. Estas líneas extendidas se denominan bigotes en el diagrama de caja.

El cuadro de la gráfica de caja muestra del primero al tercer cuartil con una línea en el segundo cuartil, es decir, la mediana. Los extremos de los bigotes representan el mínimo y el máximo.

Los cinco números representados por la gráfica de caja:

  • Mínimo: valor más pequeño / mínimo del conjunto de datos.
  • Primer cuartil: valor medio del mínimo y la mediana.
  • Segundo cuartil / mediana: valor medio del conjunto de datos.
  • Tercer cuartil: valor medio de la mediana y el máximo.
  • Máximo: el valor más grande del conjunto de datos.

¿Cómo hacer un diagrama de caja en Excel? (con un ejemplo)

Puede descargar esta plantilla de Excel de diagrama de caja aquí - Plantilla de Excel de diagrama de caja

Digamos que tenemos un conjunto de datos de una clase que contiene las calificaciones totales de sus estudiantes en todas las materias (de 500, calificaciones máximas: 100 para cada materia) y deseamos crear un diagrama de caja en Excel para la misma.

Tenemos los siguientes datos de calificaciones de los estudiantes en una hoja de Excel:

Ahora, los siguientes pasos se pueden utilizar para crear un diagrama de caja para los datos anteriores (básicamente en Excel 2013):

Es muy simple crear un diagrama de caja con Excel 2016, ya que tiene un gráfico de 'Caja y bigotes' debajo de los gráficos estadísticos en la sección de gráficos de forma predeterminada. Sin embargo, Excel 2013 no tiene una plantilla de gráfico para el diagrama de caja de forma predeterminada, por lo que tenemos que crearlo siguiendo los pasos a continuación:

Calcule las cinco estadísticas del conjunto de datos que se requieren para el diagrama de caja: mínimo, tres cuartiles y máximo, mediante el uso de las siguientes funciones:

Ahora calcule las estadísticas mínimas del conjunto de datos.

Ahora calcule las estadísticas de cuantiles1 del conjunto de datos.

El cálculo de cinco estadísticas para el diagrama de caja será:

Ahora crearemos una tabla final (digamos tabla de diferencias) que usaremos para crear el diagrama de caja en Excel. En esta mesa final, copiaremos el valor mínimo y esa será la primera entrada de nuestra mesa final. El resto de las entradas de esta tabla final serían las diferencias entre cada estadística como se muestra a continuación:

Ahora crearemos un gráfico de columnas apiladas con esta tabla final y lo convertiremos en un diagrama de caja.

Entonces, primero creemos un gráfico de columnas apiladas en Excel:

Seleccione Diferencias y valor, luego haga clic en 'Insertar' -> Todos los gráficos -> Gráficos de columnas apiladas:

Al hacer esto, obtenemos un gráfico apilado como se muestra a continuación:

Podemos ver que esto no es similar a un diagrama de caja porque, con este gráfico apilado, Excel dibuja columnas apiladas desde la horizontal de forma predeterminada y no desde un conjunto de datos vertical. Entonces tendremos que invertir los ejes del gráfico.

Para hacer esto, haga clic derecho en el gráfico y haga clic en 'Seleccionar datos'.

Ahora haga clic en Cambiar fila / columna '.

Obtenemos el gráfico apilado de la siguiente manera:

Ahora convertiremos este tipo de gráfico apilado en diagrama de caja de la siguiente manera:

Seleccione la parte inferior de la columna (área azul) y haga clic en 'Formato de serie de datos'.

En el panel 'Formato de serie de datos', expanda la opción 'Relleno' y seleccione el botón 'Sin relleno', y en el menú desplegable 'borde', amplíelo y seleccione el botón 'Sin línea':

Obtenemos el siguiente gráfico de diagrama de caja de la siguiente manera:

El siguiente paso es crear bigotes reemplazando el segmento superior y el segundo desde el fondo, es decir, las regiones roja y naranja (como hemos eliminado el extremo inferior) con líneas / bigotes.

Para dibujar el bigote superior, seleccionamos la región / segmento superior (rojo) y expandimos la pestaña 'Relleno'.

Y seleccione el botón 'Sin relleno'.

Ahora haga clic en 'Diseño' -> 'Agregar elementos de gráfico' -> 'Barras de error' -> 'Desviación estándar':

Ahora hacemos clic en el botón Más en la parte superior derecha del gráfico, seleccionamos y expandimos 'Barras de error en Excel' y luego seleccionamos 'Más opciones'.

Esto abrirá el panel 'Formatear barras de error' y establecerá lo siguiente:

Establecer: Dirección a 'Más'

Estilo final a 'Cap'

Porcentaje al '100%'

Entonces ahora tendremos un bigote superior dibujado como se muestra a continuación:

De manera similar, para dibujar el bigote inferior, seleccionamos el segundo de la región inferior (naranja que ahora es visible como último) y repetimos los mismos pasos que el anterior. El único cambio sería que la 'dirección' en las barras de error 'se establecerá en' menos '.

Entonces ahora tendremos un bigote más bajo dibujado como se muestra a continuación:

Entonces, podemos ver en la captura de pantalla anterior que el gráfico de columnas apiladas ahora se parece a un diagrama de caja. Los diagramas de caja son generalmente del mismo color en todas partes, por lo que podemos usar un color de relleno con un borde ligero.

Ahora veamos cómo se interpreta o se ve un diagrama de caja:

Podemos ver en la captura de pantalla anterior que:

  • Baje los puntos finales del bigote a 300, que representa el valor mínimo.
  • Los puntos finales del bigote superior en algún lugar por debajo de 500, que es exactamente 492, que representa el máximo.
  • La línea superior del cuadro verde representa el cuartil 3, que vemos puntos en 480,5.
  • La línea media del cuadro verde representa la mediana / cuartil2, que vemos puntos en 450.
  • La última línea del cuadro verde representa el cuartil1, que vemos puntos en 392.

Entonces, el diagrama de caja para el conjunto de datos dado se dibuja correctamente con las cinco estadísticas (mínimo, tres cuartiles y máximo) calculadas como se indicó anteriormente.

Cosas para recordar

  • Un diagrama de caja es una representación gráfica de un conjunto de datos numéricos que utiliza un resumen de cinco números para representar la distribución del conjunto de datos.
  • Los diagramas de caja también se conocen como diagrama de caja y bigotes.
  • Generalmente se utiliza para análisis de datos explicativos.
  • Generalmente se utilizan cuando necesitamos comparar algunas muestras y probar si los datos se distribuyen simétricamente.
  • Los diagramas de caja ocupan menos espacio en comparación con los diagramas de densidad o histogramas.
  • Se utiliza para mostrar la forma de una distribución, el valor central y su variabilidad.
  • No es necesario que la mediana esté en el medio del cuadro.
  • Los bigotes pueden tener diferentes longitudes.
  • El diagrama de caja se puede utilizar para detectar valores atípicos.