En producción

Chatbot Instagram con RAG y voz a texto

Chatbot con RAG sobre 22 PDFs especializados que atiende DMs en Instagram 24/7, incluyendo notas de voz. 89% más barato que OpenAI Whisper.

24/7

Sin intervención humana

PDFs en la base de conocimiento

−89%

Costo vs OpenAI Whisper

n8n Supabase Groq Twilio Chatwoot

El problema

Una empresa de suplementos deportivos con 22 productos especializados atendía sus DMs de Instagram de forma completamente manual. El catálogo requería conocimiento técnico detallado: ingredientes, dosis, contraindicaciones, combinaciones recomendadas.

El equipo pasaba entre 3 y 4 horas diarias respondiendo preguntas que muchas veces eran las mismas. La respuesta tardaba horas. Y los mensajes llegaban a cualquier hora — en texto y, con mucha frecuencia, en nota de voz.

El cuello de botella real: no era el volumen de mensajes. Era la consistencia. Cada persona que respondía daba información ligeramente diferente. Algunos mensajes simplemente no se respondían.

La solución

Construí un chatbot con RAG (Retrieval-Augmented Generation) que vive dentro del workflow de n8n y usa Supabase como base de datos vectorial. El flujo funciona así:

Llega un DM de Instagram (texto o nota de voz)
Si es nota de voz, Groq Whisper Large v3 Turbo la transcribe en segundos
El mensaje (o transcripción) entra al pipeline RAG: se embeda, busca en los 22 PDFs del catálogo
Claude genera una respuesta contextual, citando exactamente el producto y página relevante
La respuesta va de vuelta al cliente vía Chatwoot (que gestiona el inbox de Instagram)
Si la confianza del modelo es baja, el mensaje se escala a un humano con el contexto ya preparado

El chatbot no improvisa: solo responde con lo que está documentado. Si no sabe, dice que no sabe y escala.

Por qué Groq en vez de OpenAI para la transcripción

OpenAI Whisper cobra por minuto de audio. Para este volumen, el costo era entre $0.006 y $0.012 USD por minuto. Groq Whisper Large v3 Turbo corre a $0.04 USD por hora de audio — eso es literalmente 89% más barato para el mismo modelo base.

La calidad es idéntica porque es el mismo Whisper. La diferencia es la infraestructura de inferencia de Groq, que además es significativamente más rápida.

Resultados desde lanzamiento

El sistema lleva en producción desde noviembre de 2025. El equipo pasó de 3-4 horas diarias en atención de DMs a menos de 30 minutos de revisión (solo los casos escalados). La consistencia en las respuestas mejoró visiblemente — ya no depende de quién esté en turno.

El cliente ahora puede escalar el catálogo (agregar más PDFs) sin tocar el código. El sistema se actualiza solo con subir el nuevo documento a Supabase y re-correr el pipeline de embeddings.

Stack técnico detallado

Componente	Tecnología	Función
Orquestación	n8n	Workflow principal, routing, escalamiento
Base vectorial	Supabase (pgvector)	Almacenamiento y búsqueda semántica
Transcripción	Groq Whisper Large v3 Turbo	Nota de voz → texto
Generación	Claude (Anthropic)	Respuesta contextual con RAG
Mensajería	Twilio	API de WhatsApp (fallback)
Inbox omnicanal	Chatwoot	Gestión del inbox de Instagram y escalamiento

¿Quieres algo así para tu negocio?

Cuéntame tu operación. La primera llamada es gratis.

Hablemos por WhatsApp → Ver cómo trabajo ↓