Clase 13 — Reconocimiento de Formas y Procesamiento de Lenguaje Natural (Temas 11 y 12)

Resumen Ejecutivo

Sesión de 38 minutos que cubre los temas 11 y 12, cerrando así todo el temario de la asignatura. Tema 11: reconocimiento de formas — extracción de características de imagen y clasificación de patrones como último paso del pipeline de análisis. Tema 12: procesamiento del lenguaje natural (PLN) — reconocimiento automático de voz (ASR), transcripción y los modelos de lenguaje actuales (LLMs). A partir de la próxima clase, las 3 sesiones restantes se dedicarán íntegramente a simulacros de examen.

Conceptos Clave

Reconocimiento de formas: clasificar objetos de una imagen en categorías a partir de sus características extraídas. Paso final del pipeline de visión.
Extracción de características: reducción inteligente de datos de imagen a representaciones de nivel superior (propiedades geométricas, histograma, color, textura, espectro).
Clasificación de patrones: asignar automáticamente un objeto a una categoría usando medidas de distancia o similaridad sobre los vectores de características.
ASR (Automatic Speech Recognition): convierte señal de voz en texto. Los tres requisitos modernos: vocabularios grandes, habla continua, independencia del hablante. ⚠️ EXAMEN
Pipeline ASR: señal de voz → vectores de características → decodificador sintáctico → texto.
LLM (Large Language Model): modelo de lenguaje entrenado sobre grandes corpus. Se puede hacer fine-tuning sobre un dominio específico para especializar sus respuestas.
Token: unidad mínima de procesamiento en un LLM (puede ser una palabra, sílaba o carácter según el tokenizador).
Repaso del temario: Bloque 1 = conceptos de agentes; Bloque 2 = FIPA + JADE; Bloque 3 = percepción (visión artificial, imágenes digitales, reconocimiento de formas, PLN).

Desarrollo del Temario

1. Reconocimiento de formas (Tema 11)

El reconocimiento de formas es el último paso del pipeline de análisis de imágenes:

Imagen → Preprocesado → Segmentación → Extracción de características → Clasificación

Extracción de características

El objetivo es pasar de datos de píxeles (nivel bajo) a representaciones de nivel superior. Tipos de características:

Tipo	Ejemplos
Geométricas	Área, perímetro, centroide, momentos
Histograma	Distribución de intensidades
Espectrales	Información en frecuencia (FFT)
Textura	Rugosidad, granularidad
Color	Distribución en canales RGB/HSV

Clasificación de patrones

Se trabaja con vectores de características: cada objeto se representa como un punto en un espacio n-dimensional.
La clasificación se hace comparando ese vector con los vectores de las clases conocidas usando medidas de distancia o similaridad (euclídea, coseno, Mahalanobis, etc.).
Si no se conocen las clases a priori → clustering (no supervisado).
Si las clases están definidas → clasificación supervisada.

Aplicaciones reales: detección de peatones en coches autónomos (fusión con radar/LIDAR), reconocimiento de matrículas, control de calidad industrial.

2. Procesamiento del Lenguaje Natural (Tema 12)

Reconocimiento automático de voz (ASR)

Proceso: 1. El hablante emite una oración. 2. El programa genera una forma de onda con las palabras + pausas + ruido. 3. El software convierte la señal en vectores medidos a lo largo del tiempo. 4. Un decodificador sintáctico genera la secuencia de palabras más probable.

Los tres atributos clave de un sistema ASR moderno: ⚠️ EXAMEN - Vocabulario grande - Comprensión del habla continua (no palabras aisladas) - Independencia del hablante (no requiere calibración por usuario)

Limitaciones actuales: acentos fuertes reducen la tasa de reconocimiento; la emoción/tono en síntesis de voz aún es imperfecta (le falta "alma").

LLMs y fine-tuning

Un LLM base (ej. modelo en inglés) puede especializarse en un dominio pasándole un pequeño dataset del dominio → fine-tuning.
El fine-tuning de audio (clonación de voz) permite replicar timbre y cadencia, pero aún no la emoción.
Uso práctico en clase: LLM + Jupyter — el LLM descompone un problema en pasos que se ejecutan celda a celda.

Repaso del Temario Completo

Bloque	Temas	Contenido
1	1-4	Conceptos de agentes, arquitecturas, comunicación
2	5-8	FIPA (estándares), JADE (plataforma Java), programación de agentes
3	9-12	Visión artificial, imágenes digitales, transformación, segmentación, reconocimiento de formas, PLN

El examen incluirá preguntas de todos los bloques (tipo test distribuido + pregunta de desarrollo con escenario).

Preguntas Tipo Examen

¿Qué es la extracción de características y en qué paso del pipeline de análisis de imágenes se realiza?
¿Cuál es la diferencia entre clasificación supervisada y clustering en el contexto del reconocimiento de formas?
Enumera los tres requisitos de un sistema ASR moderno.
Describe el pipeline de un sistema de reconocimiento de voz desde la entrada hasta el texto de salida.
¿Qué es el fine-tuning de un LLM y para qué se usa?
¿Qué es un token en el contexto de los modelos de lenguaje?