Clase 9 — Visión Artificial: Procesamiento Digital de Imágenes (Tema 7)

Resumen Ejecutivo

Sesión de repaso y profundización del Tema 7: procesamiento digital de imágenes. La primera parte combina repaso del bloque anterior con una discusión abierta sobre Knowledge Base, tokens y modelos LLM en entornos profesionales. La parte central recorre el documento del tema: definición de visión artificial, comparativa visión humana vs. visión por ordenador, componentes del análisis de imágenes (segmentación, extracción de características, clasificación de patrones), restauración y mejora, compresión, sistemas de captura analógicos y digitales, formatos y estándares de vídeo. La sesión finaliza con una batería completa de preguntas de examen tipo test resueltas y comentadas en clase. ⚠️ EXAMEN: diferencia visión humana / visión por ordenador, los tres bloques del análisis, restauración vs. mejora, compresión, jerarquía de niveles de procesamiento y conceptos de Knowledge Base.

Conceptos Clave

Visión por computador — definición ⚠️ EXAMEN

Visión por computador = adquisición + procesamiento de la información visual por parte del ordenador.

El sentido primario del ser humano es la vista; de ahí la importancia de reproducirlo computacionalmente.

Dos áreas primarias del procesamiento de imágenes ⚠️ EXAMEN

Área	Receptor de la salida	Característica
Visión por ordenador	La propia máquina (otro proceso, sensor, agente)	La salida no necesita ser visualmente interpretable; se optimiza para procesado posterior. Puede usar todo el espectro electromagnético (rayos X, infrarrojos, ultravioleta, etc.)
Visión humana	El ser humano	Las imágenes deben ser comprensibles a simple vista. Limitadas a las longitudes de onda del espectro visible

Ejemplo de clase: un sistema de control de calidad en fábrica que detecta piezas defectuosas automáticamente es visión por ordenador. Una imagen médica que el radiólogo examina es visión humana.

Los tres bloques del análisis de imágenes ⚠️ EXAMEN

flowchart LR
    A[Imagen en bruto] --> B[Segmentación]
    B --> C[Extracción de características]
    C --> D[Clasificación de patrones]
    D --> E[Información de alto nivel / etiquetas]

Segmentación de imágenes: primer paso. Divide la imagen en regiones o detecta objetos de nivel superior a partir de los píxeles en bruto. Ejemplo: detectar e isolar matrículas en una foto de tráfico.
Extracción de características: obtiene información de mayor nivel (color, forma, frecuencia espacial mediante transformaciones). Ejemplo: calcular la transformada de Fourier para encontrar bordes.
Clasificación de patrones: asigna etiquetas a los objetos detectados. Ejemplo: determinar si la matrícula es española, francesa o alemana.

Jerarquía de niveles de procesamiento ⚠️ EXAMEN

Al subir en la jerarquía (de píxeles a objetos): - Disminuye la cantidad de datos. - Aumenta el nivel de abstracción.

De millones de píxeles pasamos a unos pocos descriptores de alto nivel.

Restauración vs. Mejora de imágenes ⚠️ EXAMEN

Concepto	Objetivo	Enfoque
Restauración	Devolver la imagen a su aspecto original	Modela la degradación conocida y aplica el proceso inverso
Mejora	Hacer la imagen más agradable visualmente	Aprovecha la respuesta del sistema visual humano; no requiere conocer la causa de la degradación

Compresión de imágenes ⚠️ EXAMEN

Reduce la cantidad masiva de datos necesarios para representar una imagen.
Se explotan dos propiedades: redundancia inherente en la imagen y límites fisiológicos del sistema visual humano (eliminamos datos que el ojo no percibe).
Los datos de imagen pueden reducirse entre 10 y 50 veces.
Los datos de vídeo en movimiento pueden reducirse hasta un factor de 100 o incluso 200.
La calidad de la imagen comprimida depende del contenido: en aplicaciones médicas se prefiere compresión sin pérdidas para no comprometer el diagnóstico.

Representación digital de una imagen

Una imagen digital se representa como una matriz bidimensional de píxeles, donde cada píxel se referencia con la notación $L(R, C)$: brillo en la fila $R$, columna $C$.

Sistemas de captura y vídeo

Cámara analógica: genera una señal de vídeo continua. Necesita un digitalizador de imágenes (frame grabber) que muestrea la señal a velocidad fija y convierte cada valor en un número digital.
Cámara digital: almacena directamente en formato digital.
Vídeo entrelazado: cada cuadro (frame) se compone de dos campos. El impulso de sincronización vertical indica al hardware que inicie un nuevo campo/cuadro.
Vídeo no entrelazado: un solo campo por cuadro (típico en monitores de ordenador).

Estándares de color: NTSC (Norteamérica, Japón — 525 líneas), PAL (Europa del Norte — 625 líneas), SECAM (Francia, Rusia — 625 líneas). No hace falta memorizarlos, sí entender que existen diferencias geográficas.

Interfaces de conexión de cámara industrial (distancias aproximadas):

Interfaz	Distancia típica
USB 3.0	hasta ~5 m
FireWire	hasta ~4–10 m
Camera Link	decenas de metros (ideal industria)
GigE Vision	hasta 100 m (Ethernet) — adecuado para 80 m sin fibra

⚠️ EXAMEN-conceptual: GigE Vision es la opción adecuada para distancias largas (~80 m) sin fibra óptica.

Espectro electromagnético y sensores

El computador puede tratar casi todo el espectro (rayos gamma, rayos X, ultravioleta, infrarrojo, microondas, ondas de radio) y otras modalidades como ecografía y resonancia magnética. El ojo humano solo percibe el espectro visible.

Casos de uso por espectro:

Infrarrojo: detectar calor corporal, contar insectos, huellas en cajeros.
Ultravioleta reflejado: detectar trazas de fluidos invisibles al ojo (huellas latentes en criminalística).
Rayos X / RM / PET / CT: diagnóstico médico sin necesidad de abrir el cuerpo.

Knowledge Base ⚠️ EXAMEN-conceptual

Concepto discutido en clase, relevante para el bloque de agentes:

Knowledge Base ≠ Know-How. El know-how son las instrucciones del cómo dentro del prompt. La Knowledge Base es una capa de abstracción que disponibiliza información mascadita a los agentes.
Permite que los agentes accedan a información compleja (esquemas de BBDD, contratos de APIs, documentación) sin necesidad de conocer la complejidad interna de los sistemas subyacentes.
Tecnologías asociadas: bases de datos vectoriales, embeddings, grafos de conocimiento, RAG (Retrieval-Augmented Generation).
Ejemplo real del profesor: una Knowledge Base con el modelo de datos de las BBDDs de la empresa permite que un agente pregunte "¿existe este cliente?" y la KB le devuelva la query exacta a ejecutar, sin que el agente conozca el esquema.

flowchart LR
    A1[BBDD 1] & A2[BBDD 2] & A3[BBDD n] --> KB[(Knowledge Base)]
    KB --> AG1[Agente 1]
    KB --> AG2[Agente 2]
    KB --> AG3[Agente n]

Tokens en LLMs (discusión de clase)

Un token es una unidad de procesamiento del LLM: sílaba, subpalabra o conjunto de letras con sentido reutilizable.
El coste se mide en tokens de entrada y tokens de salida; los de salida son más caros (ejemplo Gemini: ~0,50 $/M entrada, ~3 $/M salida).
Los modelos más capaces tienen precios más altos; los modelos más pequeños (mini) pueden desplegarse localmente (mayor privacidad, más lento).

Examen — formato recordado en clase ⚠️ EXAMEN

10 preguntas tipo test (4 opciones cada una) → 4 puntos en total (0,4 por pregunta).
1 pregunta de desarrollo → escenario real con 2–3 sub-preguntas de conceptos.
Lenguajes: Java (visto hasta ahora) y Python (Actividad 3). Ambos pueden aparecer.
No habrá preguntas de desarrollo de código abierto desde cero; sí puede aparecer código para identificar errores o completar.
El ordenador está permitido en el examen presencial (ventaja para validar código).
Las preguntas no son memorísticas (no fechas, no cifras exactas); se evalúa comprensión de conceptos.

Desarrollo del Temario

1. Introducción a OpenCV

La profesora introduce OpenCV como librería de referencia para procesamiento de imágenes. Francisco Javier comparte un caso real: usan OpenCV en un producto de seguridad de correo electrónico para leer códigos QR que los atacantes envían con el contraste invertido, deformados o en color negativo, con el fin de detectar URLs maliciosas antes de que lleguen al usuario.

2. Procesamiento digital de imágenes — visión general

Campo en continua evolución, impulsado por la IA. La clave para un sistema robusto es procesarlo de la forma más dinámica posible, adaptando la tecnología a cada tipo de fuente de imagen.

El análisis de imágenes es el componente que se usa durante el desarrollo y validación de un sistema; una vez desplegado, hablamos de aplicación de visión por computador.

3. Aplicaciones reales destacadas en clase

Control de calidad industrial: sistemas que detectan piezas defectuosas y activan un manipulador robótico para retirarlas.
Diagnóstico médico: sistemas de diagnóstico de tumores de piel, ayuda a cirujanos en tiempo real, pruebas clínicas automatizadas. Modalidades: PET, CT, RM.
Inspección de chips micro-display: detecta píxeles defectuosos y pequeños defectos de pantalla; antes se hacía manualmente.
Vehículos autónomos y robótica: procesamiento en tiempo real para navegación.
Meteorología por satélite: miles de imágenes de satélite procesadas automáticamente para predicción del tiempo.
Seguridad: sistemas de vigilancia de tráfico, detección de infracciones de velocidad.
Realidad virtual: procesamiento de imágenes en tiempo real para generar entornos inmersivos.

4. Restauración, mejora y compresión

Restauración

Se aplica cuando la degradación es conocida o estimada. Se modela la distorsión y se aplica el proceso inverso. Uso habitual en exploración espacial (artefactos mecánicos, fallos ópticos de telescopios).

Mejora

No requiere conocer la causa de la degradación. Técnicas simples (ampliar contraste, aumentar nitidez) producen resultados dramáticos. Se basa en la psicofisiología del sistema visual humano.

Compresión

Elimina redundancia y datos imperceptibles para el ojo humano. La calidad es altamente dependiente del contenido. Para vídeo médico, se exige compresión sin pérdidas o con pérdidas muy controladas para no comprometer el diagnóstico.

5. Sistemas de captura de imágenes

Componentes hardware de un sistema genérico: 1. Subsistema de adquisición (cámara digital o analógica + digitalizador si es analógica). 2. Ordenador de propósito general. 3. Dispositivos de visualización.

El software controla la adquisición, el almacenamiento y el análisis.

Proceso de digitalización de señal analógica

Señal de vídeo analógica continua
  → Muestreo a velocidad fija
  → Conversión de cada muestra a valor numérico (brillo)
  → Imagen digital = matriz 2D de píxeles

El impulso de sincronización horizontal indica el inicio de una nueva línea. El impulso de sincronización vertical indica el inicio de un nuevo campo/cuadro.

6. Knowledge Base — discusión extendida

La profesora distingue claramente: - Know-How (cómo): instrucciones dentro del prompt que describen restricciones y reglas de procesamiento. - Knowledge Base: capa de abstracción que almacena información estructurada (esquemas, contratos de API, documentación) para que los agentes la consulten en tiempo de ejecución.

Dos ejemplos concretos: 1. Agentes + BBDD complejas: la KB almacena los modelos de datos. El agente consulta la KB para obtener la query correcta sin conocer el esquema interno. 2. Agentes + APIs heterogéneas: la KB almacena los contratos (entrada/salida) de cada API. El agente no necesita conocerlos de antemano.

Pablo aporta un ejemplo de uso real: cargar el temario de una asignatura en formato Markdown como Knowledge Base para que un agente genere respuestas restringidas a los contenidos del programa.

7. Batería de preguntas de examen tipo test (resueltas en clase)

Pregunta	Respuesta correcta
Diferencia fundamental visión humana vs. visión por ordenador	En visión humana la imagen de salida es para ser vista por personas; en visión por ordenador es procesada directamente por la máquina
Sistema de control de calidad en fábrica que detecta piezas defectuosas → categoría	Aplicación de visión por ordenador
Ventaja del ordenador sobre el sistema visual humano en captura	Puede trabajar con todo el espectro electromagnético; el humano solo percibe la luz visible
Diferencia restaurar vs. mejorar	Restaurar modela y revierte degradación conocida; mejorar aprovecha la percepción humana para mejorar visualmente
Técnica de compresión que reduce tamaño sin apenas pérdida perceptible	Aprovechar la redundancia inherente y los límites fisiológicos del sistema visual humano
Representación de imagen digital	Matriz bidimensional de píxeles $L(R,C)$
Qué hace un digitalizador de imágenes	Convierte la señal de vídeo continua analógica en una imagen digital muestreada
Al pasar de píxeles a niveles superiores en la jerarquía	Disminuye la cantidad de datos y aumenta el nivel de abstracción
Compresión de vídeo médico: condición imprescindible	Compresión sin pérdidas (o mínimas) para no comprometer el diagnóstico
Sensores infrarrojos para contar insectos: ventaja conceptual	Los insectos emiten/reflejan radiación infrarroja no captable por el ojo humano
Huellas dactilares latentes invisibles a simple vista: tipo de imagen	Imágenes ultravioletas reflejadas que revelan trazas invisibles al ojo humano
Sistema de satélite para predicción del tiempo: por qué visión por ordenador	Volumen de datos, velocidad de procesamiento requerida y acceso a bandas no visibles hacen inviable el análisis humano
Cámara industrial a 80 m sin fibra óptica: interfaz adecuada	GigE Vision
Algoritmo que suaviza ruido operando sobre píxeles y vecinos: niveles de jerarquía	Datos de imagen en bruto y preprocesamiento (niveles inferiores)

Preguntas de Autoevaluación

Define visión por computador y análisis de imágenes. ¿En qué se diferencian conceptualmente?
¿Cuáles son las dos áreas primarias del procesamiento digital de imágenes según el receptor de la salida? Da un ejemplo de aplicación de cada una.
Enumera los tres bloques del análisis de imágenes en su orden lógico. Explica brevemente la función de cada uno y pon un ejemplo.
¿Qué ocurre con la cantidad de datos y el nivel de abstracción al subir en la jerarquía de niveles de procesamiento (de píxeles a objetos)?
¿En qué se diferencia restaurar una imagen de mejorarla? ¿Cuál requiere conocer la causa de la degradación?
¿Qué propiedad del sistema visual humano se aprovecha en la compresión de imágenes? ¿En qué factor pueden reducirse los datos de vídeo en movimiento?
¿Por qué en aplicaciones médicas se prefiere compresión sin pérdidas frente a compresión con pérdidas máximas?
¿Qué es un digitalizador de imágenes? ¿Para qué tipo de cámara es necesario y qué proceso realiza?
¿Qué es el impulso de sincronización vertical en vídeo entrelazado? ¿Cuántos campos componen un cuadro?
¿Qué ventaja tiene el ordenador sobre el ojo humano en cuanto al espectro electromagnético que puede capturar? Da dos ejemplos de aplicaciones que explotan esta ventaja.
Define Knowledge Base en el contexto de sistemas multiagente. ¿En qué se diferencia del know-how de un prompt?
¿Qué tecnologías se usan habitualmente para implementar una Knowledge Base? Cita al menos dos.
¿Qué es un token en el contexto de los LLMs? ¿Por qué los tokens de salida son más caros que los de entrada?
El examen de la asignatura tiene dos partes. Descríbelas brevemente indicando el peso de cada una y el tipo de preguntas que incluye.
Un sistema detecta huellas dactilares latentes invisibles a simple vista. ¿Qué tipo de imagen utiliza probablemente y por qué?