Chatbot Instagram con RAG y voz a texto
Chatbot con RAG sobre 22 PDFs especializados que atiende DMs en Instagram 24/7, incluyendo notas de voz. 89% más barato que OpenAI Whisper.
24/7
Sin intervención humana
22
PDFs en la base de conocimiento
−89%
Costo vs OpenAI Whisper
El problema
Una empresa de suplementos deportivos con 22 productos especializados atendía sus DMs de Instagram de forma completamente manual. El catálogo requería conocimiento técnico detallado: ingredientes, dosis, contraindicaciones, combinaciones recomendadas.
El equipo pasaba entre 3 y 4 horas diarias respondiendo preguntas que muchas veces eran las mismas. La respuesta tardaba horas. Y los mensajes llegaban a cualquier hora — en texto y, con mucha frecuencia, en nota de voz.
El cuello de botella real: no era el volumen de mensajes. Era la consistencia. Cada persona que respondía daba información ligeramente diferente. Algunos mensajes simplemente no se respondían.
La solución
Construí un chatbot con RAG (Retrieval-Augmented Generation) que vive dentro del workflow de n8n y usa Supabase como base de datos vectorial. El flujo funciona así:
- Llega un DM de Instagram (texto o nota de voz)
- Si es nota de voz, Groq Whisper Large v3 Turbo la transcribe en segundos
- El mensaje (o transcripción) entra al pipeline RAG: se embeda, busca en los 22 PDFs del catálogo
- Claude genera una respuesta contextual, citando exactamente el producto y página relevante
- La respuesta va de vuelta al cliente vía Chatwoot (que gestiona el inbox de Instagram)
- Si la confianza del modelo es baja, el mensaje se escala a un humano con el contexto ya preparado
El chatbot no improvisa: solo responde con lo que está documentado. Si no sabe, dice que no sabe y escala.
Por qué Groq en vez de OpenAI para la transcripción
OpenAI Whisper cobra por minuto de audio. Para este volumen, el costo era entre $0.006 y $0.012 USD por minuto. Groq Whisper Large v3 Turbo corre a $0.04 USD por hora de audio — eso es literalmente 89% más barato para el mismo modelo base.
La calidad es idéntica porque es el mismo Whisper. La diferencia es la infraestructura de inferencia de Groq, que además es significativamente más rápida.
Resultados desde lanzamiento
El sistema lleva en producción desde noviembre de 2025. El equipo pasó de 3-4 horas diarias en atención de DMs a menos de 30 minutos de revisión (solo los casos escalados). La consistencia en las respuestas mejoró visiblemente — ya no depende de quién esté en turno.
El cliente ahora puede escalar el catálogo (agregar más PDFs) sin tocar el código. El sistema se actualiza solo con subir el nuevo documento a Supabase y re-correr el pipeline de embeddings.
Stack técnico detallado
| Componente | Tecnología | Función |
|---|---|---|
| Orquestación | n8n | Workflow principal, routing, escalamiento |
| Base vectorial | Supabase (pgvector) | Almacenamiento y búsqueda semántica |
| Transcripción | Groq Whisper Large v3 Turbo | Nota de voz → texto |
| Generación | Claude (Anthropic) | Respuesta contextual con RAG |
| Mensajería | Twilio | API de WhatsApp (fallback) |
| Inbox omnicanal | Chatwoot | Gestión del inbox de Instagram y escalamiento |
¿Quieres algo así para tu negocio?