Clase 12 — Segmentación de Imágenes Digitales y Repaso General del Temario (Tema 10)

Resumen Ejecutivo

Sesión de 38 minutos que cubre el tema 10: segmentación de imágenes digitales. Se introduce el concepto de segmentación como el proceso de dividir una imagen en regiones significativas, se describen las tres categorías de técnicas (crecimiento/contracción de regiones, clustering y detección de bordes/contornos), y se desarrolla en detalle la umbralización y la detección de contornos. La sesión incluye casos de uso reales (Google Fotos, agentes personales de IA) y cierra con un repaso de todo el temario de la asignatura y el plan para las clases restantes: completar temas 11 y 12, y dedicar las últimas clases íntegramente a repaso y simulacros de examen.

Conceptos Clave

Segmentación de imágenes — definición ⚠️ EXAMEN

Segmentación = dividir la imagen en regiones que representan objetos o partes significativas.

La segmentación es necesaria antes de cualquier procesamiento a un nivel superior al píxel. Permite identificar objetos reales, pseudo-objetos o sombras dentro de una imagen.

Los métodos de segmentación buscan objetos que tienen: - Un cierto grado de homogeneidad dentro de sí mismos (p. ej., misma intensidad de gris). - Un cierto grado de contraste con los objetos de su frontera.

Analogía del profesor: segmentación en imágenes equivale a segmentación de clientes en banca — se clasifican en grupos según un criterio (nivel de ingresos, riesgo, etc.).

Tres categorías de técnicas de segmentación ⚠️ EXAMEN

Categoría	Descripción	Dominio
Crecimiento y contracción de regiones	Agrupa píxeles adyacentes similares partiendo de semillas. Subconjunto del clustering limitado al dominio espacial.	Filas y columnas (dominio espacial)
Clustering (agrupamiento)	Agrupa píxeles por similitud en cualquier espacio de características (color, textura, posición).	Cualquier espacio n-dimensional
Detección de bordes y contornos	Detecta fronteras entre regiones buscando cambios bruscos de brillo.	Dominio espacial

El crecimiento/contracción de regiones puede verse como un subconjunto del clustering restringido a regiones conexas en el dominio espacial.

Umbralización ⚠️ EXAMEN

Técnica de segmentación más simple:

La entrada es una imagen en escala de grises (o color).
Se define un umbral de intensidad \(T\).
Cada píxel se compara con \(T\) en una sola pasada:

\[\text{píxel salida} = \begin{cases} \text{blanco (255)} & \text{si } I(x,y) > T \\ \text{negro (0)} & \text{si } I(x,y) \leq T \end{cases}\]

La salida es una imagen binaria: píxeles blancos = primer plano; píxeles negros = fondo.

Limitación: con iluminación no uniforme, un umbral global genera falsos positivos/negativos. Solución: umbralización adaptativa (umbral local por zona) o sistemas multiagente donde cada agente procesa su zona con un umbral propio.

Detección de bordes y contornos ⚠️ EXAMEN

Un borde se detecta donde el brillo de la imagen cambia bruscamente sobre una distancia espacial pequeña.

Los operadores de detección de bordes se implementan mediante máscaras de convolución (kernels diferenciales discretos).
Las operaciones diferenciales miden la tasa de cambio de la función de brillo.
Algunos operadores devuelven también la orientación del borde; otros solo informan de la existencia de una diferencia.

\[\text{borde detectado si: } |\nabla I(x,y)| > \text{umbral}\]

Desarrollo del Temario

1. Introducción a la segmentación

El análisis de imágenes requiere extraer información de alto nivel a partir de grandes cantidades de datos de píxeles de bajo nivel. La segmentación es el puente entre ambos niveles: divide la imagen en regiones significativas que pueden mapearse a objetos del mundo real.

Ejemplo real: Google Fotos realiza segmentación para identificar caras y agrupar fotos por persona. El primer paso es segmentar las caras del fondo antes de cualquier reconocimiento.

Ejemplo de clase: en visión industrial, antes de clasificar piezas defectuosas hay que segmentarlas del fondo de la cinta transportadora.

2. Técnicas de segmentación en detalle

Crecimiento de regiones

Parte de píxeles semilla y "crece" incorporando píxeles vecinos que cumplen el criterio de homogeneidad (diferencia de intensidad menor que un umbral). Se detiene cuando no hay más píxeles vecinos que cumplan el criterio.

flowchart LR
    S[Píxel semilla] --> V{Vecinos similares?}
    V -->|Sí| AG[Agregar a región]
    AG --> V
    V -->|No| FIN[Región completada]

Clustering

Agrupa píxeles en \(k\) clases según similitud en un espacio de características \(n\)-dimensional (intensidad, color RGB/HSV, textura, coordenadas espaciales). El algoritmo más común es k-means.

Los componentes del espacio de características pueden incluir coordenadas espaciales \((x,y)\), por lo que desde esta perspectiva el crecimiento de regiones es un caso especial de clustering restringido al dominio espacial.

Detección de contornos

Los contornos son los límites entre regiones. Se detectan buscando píxeles donde el gradiente de la función de brillo supera un umbral. Los operadores más conocidos son Sobel, Prewitt, Canny y Laplaciano de Gaussiana.

3. Conexión con sistemas multiagente

La segmentación de imágenes en contextos de sistemas multiagente permite la estrategia divide and conquer:

Cada agente procesa una zona de la imagen de forma independiente.
Cada agente aplica sus propios umbrales locales, adaptados a las condiciones de esa zona (iluminación, textura, etc.).
Un agente coordinador recoge los resultados parciales y los integra en la segmentación global.

Esto supera la limitación de la umbralización global y permite procesar imágenes grandes en tiempo real mediante paralelismo.

4. Repaso general del temario de la asignatura

El profesor recorre todos los bloques vistos hasta la fecha:

Bloque	Temas	Contenido
Bloque 1	T1	Fundamentos: agentes y sistemas multiagente
Bloque 1	T2	Estándar FIPA
Bloque 1	T3	Plataforma JADE
Bloque 1	T4, T5, T6	Programación básica y avanzada con JADE
Bloque 3	T7	Visión artificial: definición, visión humana vs. por ordenador, captura
Bloque 3	T8	Análisis de imágenes: preprocesado, reducción, características
Bloque 3	T9	Transformación: Transformada de Fourier, filtros frecuenciales
Bloque 4	T10	Segmentación de imágenes (clase de hoy)

Pendiente: - Tema 11: Reconocimiento de formas y visión tridimensional. - Tema 12: Procesamiento de Lenguaje Natural (PLN). - Tras completar todos los temas: 3 clases de repaso con simulacros de examen completos.

5. Discusión: agentes en la práctica real

Los alumnos comparten casos de uso propios que ilustran conceptos de la asignatura:

Javier: pipeline de generación automática de vídeos formativos. Al publicar una release major de una app móvil: GitHub Action → agente que evalúa cambios → captura pantallas → LLM genera script → Eleven Labs genera avatar con voz → vídeo formativo publicado automáticamente.
Álvaro: agente personal ejecutado desde terminal con Eigen para automatización de tareas diarias.
Pablo: experimentos con ComfyUI para generación y mejora de imágenes/vídeo local (RTX 4070 Ti); observa que los modelos locales de imagen/vídeo están aún más lejos de los servicios cloud que los modelos de lenguaje locales.

Scraping con agentes — apuntes prácticos

Para construir un agente que monitorice webs (pisos, ofertas de trabajo, precios de vuelos):

Sin credenciales: script Python con BeautifulSoup/requests o Playwright.
Con credenciales: Playwright simula el login; el mayor obstáculo son los CAPTCHAs.
Ejecución: local (cron/GitHub Actions), sin necesidad de servidor dedicado para MVPs.
Alternativas no-code: N8N, Make, Noxus tienen nodos de browser AI.
Seguridad: las credenciales deben guardarse en un vault (no hardcoded en el código).
Los LLMs como Claude tienen tareas automáticas integradas (p. ej., "comprueba este precio cada día") que levantan un navegador interno, pero están pensadas para tareas puntuales, no para extracción masiva de datos.

Preguntas de Autoevaluación

Define segmentación de imágenes. ¿Por qué es necesaria antes de cualquier procesamiento de nivel superior al píxel?
¿Qué dos propiedades buscan los métodos de segmentación en los objetos de una imagen?
Enumera las tres categorías de técnicas de segmentación y describe brevemente cada una.
¿En qué relación están el crecimiento de regiones y el clustering? ¿Cuál es más general?
Explica paso a paso cómo funciona la umbralización. ¿Cuál es su principal limitación?
¿Qué produce la umbralización como salida? ¿Qué representa el blanco y qué el negro en la imagen resultante?
¿Cómo puede un sistema multiagente compensar la limitación de la umbralización global con iluminación no uniforme?
¿Cómo se detecta un borde en una imagen? ¿Qué miden los operadores de detección de bordes?
¿Qué tipo de operación matemática implementan la mayoría de los detectores de bordes?
¿Qué información adicional pueden devolver algunos operadores de detección de bordes, más allá de la existencia del borde?
Describe el temario completo de la asignatura: bloques, temas y contenidos principales.
¿Qué temas quedan pendientes y cuál es el plan para las últimas clases?
En el caso del pipeline de generación de vídeos de Javier, ¿qué rol juega el agente LLM y qué rol juega Eleven Labs?
¿Qué herramientas se pueden usar para hacer scraping web desde un agente Python? ¿Cuál es el punto más difícil cuando la web requiere autenticación?