Tema 1: Fundamentos de Estadística (Tema 1)
1. Resumen Ejecutivo
Esta sesión establece las bases del lenguaje estadístico. Se define la estadística no solo como la recolección de datos, sino como una herramienta para la toma de decisiones y predicción. Se profundiza en la teoría de conjuntos (sucesos y leyes de De Morgan) como base de la probabilidad, se clasifican rigurosamente las variables (cuantitativas vs. cualitativas) y se introducen las medidas descriptivas fundamentales (posición y dispersión).
2. Conceptos Clave
- Población vs. Muestra: El todo (inaccesible) vs. la parte seleccionada (accesible).
- Variable Aleatoria: Función que asigna un valor numérico al resultado de un experimento aleatorio.
- Espacio Muestral (\(E\)): Conjunto de todos los resultados posibles.
- Leyes de De Morgan: Reglas para operar con complementarios de uniones e intersecciones.
- Outliers (Valores atípicos): Datos extremos que distorsionan la media aritmética.
3. Desarrollo del Temario
3.1. Introducción y Ramas de la Estadística
La estadística es la rama matemática que recopila, organiza y analiza datos para deducir conclusiones y tomar decisiones. No se trata solo de "información por información", sino de predecir el futuro (ej. ventas de una empresa o intención de voto).
Existen dos grandes ramas: 1. Estadística Descriptiva: Organiza, analiza y visualiza datos. Obtiene métricas (medias, modas) pero sin extraer conclusiones más allá de los datos presentados. 2. Estadística Inferencial: A partir de una muestra, extrae conclusiones (infiere) sobre la población general. "Va más allá" de los datos.
Analogía del Profesor: Cuando hacemos una tabla de conteo de "a quién le gustan los caramelos o las piruletas", estamos haciendo descriptiva pura. No tomamos decisiones, solo exponemos.
3.2. Aleatoriedad y Experimentos
La aleatoriedad implica dependencia del azar. Un experimento es aleatorio si cumple tres condiciones: 1. Se puede repetir. 2. No se puede predecir el resultado exacto (ej. lanzar una moneda). 3. El resultado pertenece a un conjunto conocido previamente (Espacio Muestral).
Sobre la aleatoriedad digital: El profesor destaca que una secuencia numérica es aleatoria cuando no tiene patrones reconocibles. Sin embargo, funciones como random en informática a menudo se basan en el reloj interno de la máquina, por lo que son pseudoaleatorias, no puramente aleatorias.
3.3. Espacios y Sucesos
- Espacio Muestral (\(E\)): Todos los resultados posibles.
- Ejemplo: Lanzar dos monedas \(\rightarrow E=\{CC, SS, CS, SC\}\) (donde C=Cara, S=Cruz/Sello).
- Suceso: Cualquier subconjunto de \(E\). Una característica extraída de los resultados.
Tipos de Sucesos :
- Elemental: El resultado más simple (cardinal 1). Ej: \(\{CC\}\).
- Singular (Suceso Seguro): Contiene todo el espacio muestral. Siempre ocurre.
- Imposible: Conjunto vacío (\(\emptyset\)). Ej: Sacar "bastos" lanzando una moneda.
Operaciones con Sucesos :
- Unión (\(A \cup B\)): Elementos en A O en B (o en ambos). No es excluyente.
- Intersección (\(A \cap B\)): Elementos en A Y en B simultáneamente.
- Complementario (\(A^c\) o \(\overline{A}\)): Todo lo que NO está en A.
¡OJO AL DATO! Propiedad del Vacío: La intersección de un suceso y su complementario es siempre el vacío: \(A \cap A^c = \emptyset\) (algo no puede ser y no ser a la vez).
Las Leyes de De Morgan (¡Importante para examen!)
El profesor dedicó tiempo a demostrar esto lógicamente. Son fundamentales para operar conjuntos:
- \((A \cup B)^c = A^c \cap B^c\)
- Explicación: El contrario de estar en (A o B) es no estar en A Y no estar en B.
- \((A \cap B)^c = A^c \cup B^c\)
- Explicación: El contrario de estar en (A y B) a la vez es fallar en alguno: no estar en A O no estar en B.
Truco del Profesor: "Separamos la raya de negación y le damos la vuelta al operador". Si es Unión pasa a Intersección, y viceversa.
3.4. Variables Aleatorias
Es una función que asigna un valor numérico al resultado de un experimento. * Población: Conjunto total objeto de estudio. * Muestra: Subconjunto seleccionado para el estudio (debe ser representativa para evitar sesgos).
Clasificación de Variables:
-
CUANTITATIVAS (Numéricas):
- Discretas: Valores finitos o "infinitos contables".
- Mito desmentido: No es solo "sin decimales". Un dado puede tener valores 1.5, 2.5, 3.5. Si son solo esos 6 valores, sigue siendo discreta.
- Continuas: Infinitos valores en un intervalo (ej. altura, tiempo, salario). Siempre hay un valor posible entre dos dados.
- Discretas: Valores finitos o "infinitos contables".
-
CUALITATIVAS (Categorías):
- Nominales: No admiten orden (Ej. Metro, Bus, Bici).
- Ordinales: Admiten orden jerárquico (Ej. Nivel de estudios: Primaria < Secundaria < Universidad).
- Dicotómicas: Solo dos valores (Ej. Sano/Enfermo, 0/1, Apto/No Apto).
3.5. Tablas de Frecuencias
Para ordenar los datos de la muestra (\(n\) = tamaño muestra): * Frecuencia Absoluta (\(n_i\)): Nº de veces que aparece el valor \(x_i\). * Frecuencia Relativa (\(f_i\)): Proporción (\(n_i / n\)). La suma siempre es 1. * Frecuencia Acumulada (\(N_i\) y \(F_i\)): Suma de las frecuencias de los valores menores o iguales al actual.
3.6. Medidas (Estadísticos)
1. Estadísticos de Posición:
- Centrales:
- Media (\(\bar{x}\)): Promedio aritmético.
- Debilidad: No es robusta. Es muy sensible a outliers.
- Ejemplo del Profesor: Si en un equipo de fútbol "promedio" metes a Mbappé o a un jugador de 40 años, la media de salario o edad se dispara y deja de representar al grupo.
- Cita: "Si yo tengo dos casas y tú ninguna, la estadística dice que tenemos una cada uno" (G.B. Shaw).
- Mediana: Valor central al ordenar los datos. Deja el 50% a cada lado. (Más robusta que la media).
- Moda: Valor más frecuente.
- Media (\(\bar{x}\)): Promedio aritmético.
- No Centrales (Cuantiles):
- Cuartiles (\(Q_k\)): Dividen en 4 partes (25%, 50%, 75%). \(Q_2\) = Mediana.
- Deciles / Percentiles: Dividen en 10 o 100 partes.
2. Estadísticos de Dispersión:
Miden cuánto se alejan los datos de la media. * Varianza (\(s^2\)): Promedio de los cuadrados de las desviaciones. * Fórmula: \(s^{2}=\frac{\sum(x_{i}-\overline{x})^{2}}{n}\) * Cuasivarianza (\(s^2_{n-1}\)): Divide por \(n-1\). Se usa en inferencia. * Desviación Típica (\(s\)): Raíz cuadrada de la varianza (\(s=\sqrt{s^{2}}\)). Devuelve la medida a las unidades originales de los datos.
4. Ejercicio Práctico (Caso Tubos de Acero)
El profesor resolvió el ejercicio de clasificación de tubos :
Datos: Se clasifican tubos en A (\(x < 9.95\)), B (\(9.95 \le x \le 10.05\)) y C (\(x > 10.05\)). Pregunta: Un cliente rechaza los tubos inferiores a 9.95 (Grupo A). ¿Qué líneas acepta? Solución Lógica: 1. Identificar tubos en A (Rechazados): Solo la línea 8 tiene un tubo de 9.56. 2. Aceptar el complemento (\(\overline{A}\)): Todo lo que sea B o C. 3. Resultado: Acepta todas las líneas excepto la 8 (\(B \cup C\)).
5. Preguntas de Autoevaluación
-
¿Cuál es la diferencia fundamental entre estadística descriptiva e inferencial?
- Respuesta: La descriptiva solo organiza y presenta datos sin sacar conclusiones generales; la inferencial utiliza una muestra para deducir conclusiones sobre toda la población.
-
Si aplico la Ley de De Morgan a la expresión \((A \cup B)^c\), ¿cuál es el resultado equivalente?
- Respuesta: \(A^c \cap B^c\) (La negación de la unión es la intersección de las negaciones).
-
¿Puede una variable cuantitativa discreta tener decimales?
- Respuesta: Sí. Ser discreta significa que toma valores contables/finitos (ej. tallas de zapatos: 38, 38.5, 39), no necesariamente enteros. Lo que la diferencia de la continua es que no toma infinitos valores intermedios.
-
¿Por qué se dice que la media aritmética no es un estimador robusto?
- Respuesta: Porque es muy sensible a los valores atípicos (outliers). Un solo valor extremadamente alto o bajo puede desplazar la media haciendo que no sea representativa de la mayoría de los datos.
-
En un diagrama de Venn, ¿qué representa la intersección \(A \cap B\)?
- Respuesta: Representa los elementos que pertenecen estrictamente a ambos conjuntos (A y B) al mismo tiempo.