ASR en Acción: Conoce a Colombus, tu Asistente de Video Impulsado por IA

Colombus es un asistente impulsado por IA que mejora la forma en que los usuarios interactúan con los videos de YouTube.

feb 19, 2025

¿Cuántas veces has dejado un video abierto en tu navegador o en la lista de 'ver más tarde' porque no encontraste el momento adecuado para verlo? A veces es cuestión de tiempo, otras simplemente perdemos la atención en videos demasiado largos. Y entonces pensé: ¿no sería genial tener un asistente que me ayudara a navegar por el contenido sin perder lo más importante?

¿Qué Hace Especial a Colombus?

Escucha, transcribe y entiende el contenido del video.
Puede resumir los puntos clave, por lo que no necesitas ver el video completo si solo te interesan los aspectos más destacados.
Si tienes una pregunta específica sobre el video, encuentra la respuesta al instante. Olvídate de desplazarte por los comentarios o buscar el momento exacto donde resuelvan tu duda.

¿Cómo Funciona?

El Oyente
Colombus utiliza reconocimiento automático de voz (ASR) para transcribir el audio del video. Esto crea una versión en texto del contenido que se puede buscar.
El Pensador
Procesa la transcripción usando un Modelo de Lenguaje Extenso (LLM) para extraer los principales insights, resumir el contenido o responder preguntas específicas. Es casi como si dijera: “¡Esto es lo que escuché y esto es lo que realmente importa!”
El Guía
Finalmente, presenta la información en un formato limpio y fácil de leer. Ya sea que quieras una transcripción completa, un resumen breve o respuestas rápidas, Colombus cumple.

¡Colombus en Acción!

Conclusión

Un asistente impulsado por IA como Colombus hace que interactuar con el contenido de video sea más fluido y eficiente. Por supuesto, aún hay margen de mejora, especialmente para manejar audio con mucho ruido de fondo, audios extensos, y muchas personas hablando a la vez, entre otros.

Este experimento fue muy entretenido, y veo un gran potencial para seguir perfeccionando a Colombus. Si quieres revisar la implementación o contribuir, puedes encontrar el código en mi repositorio de GitHub:

GitHub Repo

Para quienes estén interesados en aprender más sobre ASR, LLMs y asistentes impulsados por IA, aquí les dejo unos recursos excelentes:

Whisper de OpenAI: Un sistema de reconocimiento automático de voz desarrollado por OpenAI, capaz de transcribir y traducir múltiples idiomas.
Alineación CTC: El Connectionist Temporal Classification (CTC) es un algoritmo utilizado en problemas de secuencia a secuencia, especialmente en el reconocimiento de voz, para alinear secuencias de entrada (como el audio) con etiquetas de salida (como el texto).
Diarización de Hablantes: El proceso de segmentat un flujo de audio en partes de acuerdo con la identidad del hablante, respondiendo a la pregunta “¿quién habló y cuándo?”
Chatbots Impulsados por LLM: Chatbots mejorados mediante Modelos de Lenguaje Extensos (LLMs) que pueden entender y generar texto similar al humano, permitiendo interacciones más naturales y conscientes del contexto.

The Data Chronicles

Discusión sobre este post