Wellness Total Tech Studio con IA
En producción

Chatbot Instagram con RAG y voz a texto

Chatbot con RAG sobre 22 PDFs especializados que atiende DMs en Instagram 24/7, incluyendo notas de voz. 89% más barato que OpenAI Whisper.

24/7

Sin intervención humana

22

PDFs en la base de conocimiento

−89%

Costo vs OpenAI Whisper

n8n Supabase Groq Twilio Chatwoot

El problema

Una empresa de suplementos deportivos con 22 productos especializados atendía sus DMs de Instagram de forma completamente manual. El catálogo requería conocimiento técnico detallado: ingredientes, dosis, contraindicaciones, combinaciones recomendadas.

El equipo pasaba entre 3 y 4 horas diarias respondiendo preguntas que muchas veces eran las mismas. La respuesta tardaba horas. Y los mensajes llegaban a cualquier hora — en texto y, con mucha frecuencia, en nota de voz.

El cuello de botella real: no era el volumen de mensajes. Era la consistencia. Cada persona que respondía daba información ligeramente diferente. Algunos mensajes simplemente no se respondían.

La solución

Construí un chatbot con RAG (Retrieval-Augmented Generation) que vive dentro del workflow de n8n y usa Supabase como base de datos vectorial. El flujo funciona así:

  1. Llega un DM de Instagram (texto o nota de voz)
  2. Si es nota de voz, Groq Whisper Large v3 Turbo la transcribe en segundos
  3. El mensaje (o transcripción) entra al pipeline RAG: se embeda, busca en los 22 PDFs del catálogo
  4. Claude genera una respuesta contextual, citando exactamente el producto y página relevante
  5. La respuesta va de vuelta al cliente vía Chatwoot (que gestiona el inbox de Instagram)
  6. Si la confianza del modelo es baja, el mensaje se escala a un humano con el contexto ya preparado

El chatbot no improvisa: solo responde con lo que está documentado. Si no sabe, dice que no sabe y escala.

Por qué Groq en vez de OpenAI para la transcripción

OpenAI Whisper cobra por minuto de audio. Para este volumen, el costo era entre $0.006 y $0.012 USD por minuto. Groq Whisper Large v3 Turbo corre a $0.04 USD por hora de audio — eso es literalmente 89% más barato para el mismo modelo base.

La calidad es idéntica porque es el mismo Whisper. La diferencia es la infraestructura de inferencia de Groq, que además es significativamente más rápida.

Resultados desde lanzamiento

El sistema lleva en producción desde noviembre de 2025. El equipo pasó de 3-4 horas diarias en atención de DMs a menos de 30 minutos de revisión (solo los casos escalados). La consistencia en las respuestas mejoró visiblemente — ya no depende de quién esté en turno.

El cliente ahora puede escalar el catálogo (agregar más PDFs) sin tocar el código. El sistema se actualiza solo con subir el nuevo documento a Supabase y re-correr el pipeline de embeddings.

Stack técnico detallado

ComponenteTecnologíaFunción
Orquestaciónn8nWorkflow principal, routing, escalamiento
Base vectorialSupabase (pgvector)Almacenamiento y búsqueda semántica
TranscripciónGroq Whisper Large v3 TurboNota de voz → texto
GeneraciónClaude (Anthropic)Respuesta contextual con RAG
MensajeríaTwilioAPI de WhatsApp (fallback)
Inbox omnicanalChatwootGestión del inbox de Instagram y escalamiento

¿Quieres algo así para tu negocio?

Cuéntame tu operación. La primera llamada es gratis.