Skip to content

Tema 2: Estadística Descriptiva y Visualización de Datos

1. Resumen Ejecutivo

Esta sesión establece los fundamentos para resumir y organizar datos extraídos de una población o muestra. Se enfoca en la distinción crítica entre variables cualitativas y cuantitativas, dictando qué herramientas numéricas (tablas, medias, dispersión) y gráficas (barras, histogramas, boxplots) son adecuadas para cada caso. Además, introduce el análisis bivariante, destacando la correlación lineal para relacionar dos variables numéricas.

2. Conceptos Clave

  • Tabla de Frecuencias: Herramienta para ordenar datos contando repeticiones (\(f_i\)) y calculando proporciones (\(h_i\)).
  • Variable Cualitativa (Categórica): Datos que representan cualidades o nombres no numéricos (ej. causas de una queja).
  • Variable Cuantitativa: Datos numéricos que representan cantidades (ej. número de dormitorios, altura).
  • Histograma vs. Gráfico de Barras: El primero es para datos continuos (las barras se tocan, el área importa); el segundo es para categorías (barras separadas).
  • Boxplot (Caja y Bigotes): Gráfico robusto para ver la dispersión, cuartiles y valores atípicos (outliers).
  • Correlación de Pearson (\(r\)): Medida numérica que indica la fuerza y dirección de la relación lineal entre dos variables cuantitativas.

3. Desarrollo del Temario

3.1. Introducción y Selección del Análisis

El primer paso en cualquier análisis estadístico es identificar el tipo de variable, ya que esto determina el resumen numérico y gráfico a utilizar.

Esquema de Decisión

Tipo de Variable Análisis Numérico Análisis Gráfico
1 Variable Cualitativa Tabla de frecuencias (Absolutas y Relativas) Gráfico de Barras, Gráfico de Tarta
1 Variable Cuantitativa Centro (Media, Mediana), Dispersión (Desvío, Varianza), Forma Histograma, Caja y Bigotes (Boxplot)
2 Variables Cualitativas Tabla de contingencia Gráfico de Barras Apiladas
2 Variables Cuantitativas Correlación de Pearson Diagrama de Dispersión (Scatterplot)
1 Cuantitativa + 1 Cualitativa Medidas de centro/dispersión por categoría Boxplot por categoría

3.2. Análisis de Una Variable Cualitativa

Para describir variables nominales u ordinales, realizamos un recuento de valores.

Resumen Numérico: Tablas de Frecuencia

Se organizan los datos en columnas: * Frecuencia Absoluta (\(f_i\)): Número de veces que aparece un valor. La suma debe ser el total de datos (\(n\)). * Frecuencia Relativa (\(h_i\)): Proporción del total. $\(h_i = \frac{f_i}{n}\)\(. La suma siempre es 1. * **Frecuencias Acumuladas (\)F_i, H_i$):** Suma progresiva de las frecuencias (útil para ver "cuántos datos hay hasta cierto punto").

Ejemplo de Clase (Reclamaciones): El profesor mostró una tabla de causas de quejas. Al ordenar los datos de mayor a menor frecuencia, observamos que pocas causas generan la mayoría de las quejas. * ¡OJO AL DATO! (Principio de Pareto): Aunque no está explícito en la diapositiva, el profesor enfatizó el Análisis de Pareto: "El 20% de las causas generan el 80% de los problemas". Ordenar la tabla ayuda a identificar estas causas críticas.

Visualización Cualitativa

  • Gráfico de Tarta (Sectores): Representa proporciones mediante ángulos.
    • Nota del Profesor: Es difícil comparar ángulos visualmente, especialmente si hay muchas categorías similares (como partidos políticos pequeños).
  • Gráfico de Barras: Altura proporcional a la frecuencia.
    • Recomendación: Es preferible al de tarta porque comparamos longitudes, lo cual es más fácil para el ojo humano.

3.3. Análisis de Una Variable Cuantitativa

Resumen Numérico

Necesitamos dos dimensiones para resumir estos datos: 1. Centralización: ¿Dónde están los datos? (Media, Mediana). 2. Dispersión: ¿Cuánto se alejan del centro? (Desviación típica/estándar, Varianza, Rango).

Visualización Cuantitativa

A. El Histograma ** Se utiliza para variables continuas (intervalos). * Diferencia clave con Barras: Las columnas se tocan entre sí porque representan un continuo numérico. * Construcción: Si los intervalos de clase son iguales, la altura marca la frecuencia. Si los intervalos son de distinta amplitud, lo importante es el área** de la barra (Densidad de frecuencia).

B. Diagrama de Caja y Bigotes (Boxplot) ** Es fundamental para ver la simetría y los valores atípicos. Marca 5 valores clave: 1. Caja: Delimitada por el Primer Cuartil (\(Q_1\)) y el Tercer Cuartil (\(Q_3\)). Contiene el 50% central de los datos. * La altura de la caja es el Rango Intercuartílico (IQR): $\(IQR = Q_3 - Q_1\)\(. 2. **Mediana (\)Q_2$): La línea dentro de la caja. 3. Bigotes (Whiskers): * El profesor aclaró que no son simplemente "el máximo y el mínimo". Son límites calculados para detectar outliers. * Límite Inferior: El valor mínimo de los datos, siempre que no sea menor a \(Q_1 - 1.5 \cdot IQR\). * Límite Superior: El valor máximo de los datos, siempre que no sea mayor a \(Q_3 + 1.5 \cdot IQR\). 4. Outliers (Atípicos): Puntos que quedan fuera de los bigotes.


3.4. Análisis de Dos Variables

Caso 1: Dos Cualitativas

  • Numérico: Tabla de contingencia (cruce de filas y columnas).
  • Gráfico: Barras Apiladas.
    • Explicación del Profesor: En una barra apilada, la categoría de abajo empieza en 0. La categoría de arriba "se monta" sobre la anterior. Para saber cuánto mide la de arriba, no miras el eje total, sino la longitud del segmento propio.

Caso 2: Una Cuantitativa y Una Cualitativa

Se estudia la variable numérica en función de la categórica (ej. Altura según Sexo). * Estrategia: Hacemos un boxplot o un histograma para cada categoría y los ponemos lado a lado para comparar.

Caso 3: Dos Cuantitativas

  • Gráfico: Diagrama de Dispersión (Nube de Puntos). Eje X una variable, Eje Y la otra.
  • Numérico: Correlación Lineal de Pearson (\(r\)).
    • Mide si los puntos se aproximan a una línea recta.
    • Fórmula: $\(r_{xy} = \frac{s_{xy}}{s_x s_y}\)$ (Covarianza dividida por el producto de las desviaciones típicas).

Propiedades de la Correlación (\(r\)) : * Rango: \(-1 \le r \le 1\). * Signo: * \((+)\) Relación directa (si X sube, Y sube). * \((-)\) Relación inversa (si X sube, Y baja). * Fuerza: * Cercano a 1 o -1: Relación lineal fuerte. * Cercano a 0: No hay relación lineal (podría haber otra relación, ej. curva, pero no recta).


3.5. Notas Prácticas sobre R (Examen Práctico)

El profesor dedicó gran parte de la clase a explicar el código R para la actividad. Puntos vitales para la práctica: 1. Librerías: Deben cargarse (library(ggplot2)) antes de ejecutar funciones gráficas. 2. Importar Datos: Usar read.csv o cargar datasets internos (data(discoveries)). 3. Comandos Básicos: * table(): Crea tablas de frecuencia. * barplot(): Diagrama de barras. * hist(): Histograma. * boxplot(): Diagrama de caja. 4. Entrega: Se pide el código y el gráfico resultante, no capturas de pantalla del código.


4. Preguntas de Autoevaluación

  1. Teoría: ¿Cuál es la diferencia conceptual principal entre un gráfico de barras y un histograma, y cómo se refleja esto visualmente?
  2. Cálculo: Si en un Boxplot tenemos \(Q_1 = 10\) y \(Q_3 = 20\), ¿a partir de qué valor consideraríamos un dato como "atípico" (outlier) por el lado superior?
  3. Análisis: Si calculamos el coeficiente de correlación de Pearson entre "Horas de estudio" y "Nota del examen" y obtenemos \(r = 0.85\), ¿cómo interpretamos este resultado?
  4. Selección: Tienes una base de datos con el "Género" (Hombre/Mujer) y el "Salario Anual" de 1000 empleados. ¿Qué gráfico utilizarías para comparar la distribución salarial entre ambos géneros?

Respuestas Sugeridas

  1. El gráfico de barras es para variables cualitativas (barras separadas, altura=frecuencia). El histograma es para cuantitativas continuas (barras juntas, área=frecuencia si el ancho varía).
  2. Calculamos el IQR = 10. Límite superior = \(Q_3 + 1.5(IQR) = 20 + 1.5(10) = 35\). Cualquier valor mayor a 35 es outlier.
  3. Existe una relación lineal fuerte y positiva. A mayor cantidad de horas de estudio, mayor tiende a ser la nota.
  4. Dos diagramas de caja (boxplots) paralelos: uno para el salario de hombres y otro para el de mujeres.