← Blog · 9 jun 2026 · IA
IA en producción: lo que hemos aprendido integrando LLMs en software de clientes
En el último año hemos metido modelos de lenguaje en soporte, generación de contenido, clasificación y asistentes internos. La distancia entre "una demo que impresiona" y "una funcionalidad que aguanta en producción" es enorme, y casi siempre se explica por las mismas cuatro cosas: coste real, latencia, fiabilidad de la salida y evaluación. Estas son las notas que nos habría gustado tener antes de empezar.
1. El coste no es el precio por token
La factura no la dispara el modelo: la dispara el contexto. Mandar el historial completo de una conversación o documentos enteros en cada llamada multiplica el gasto sin mejorar la respuesta. Lo que funciona: recuperar solo los fragmentos relevantes (RAG), cachear prompts de sistema, resumir el historial largo y usar un modelo pequeño y barato para las tareas simples, reservando el grande para lo que de verdad lo necesita. Con esa disciplina, una funcionalidad típica cuesta decenas o pocos cientos de euros al mes, no miles.
2. La salida hay que tratarla como entrada no confiable
Un LLM no es una fuente de verdad; es un generador de texto plausible. En producto eso significa: pedir JSON estructurado y validarlo con un esquema, permitir explícitamente el "no lo sé", anclar las respuestas a datos reales con RAG y poner una capa determinista que verifique los hechos críticos (precios, fechas, permisos) antes de mostrarlos o ejecutar acciones. La alucinación no se elimina; se contiene con ingeniería alrededor del modelo.
3. Latencia: streaming en lo síncrono, colas en lo asíncrono
Para chat en vivo, el streaming de tokens cambia la percepción: 1-3 segundos hasta la primera palabra es aceptable si el texto fluye. Para procesos que no requieren atención inmediata (resúmenes nocturnos, clasificación masiva, generación de informes) conviene una cola con workers: el usuario no espera y puedes permitirte modelos más potentes. El error clásico es bloquear la interfaz esperando una respuesta larga de forma síncrona.
4. Prompts versionados y evaluación, o no sabes si has roto algo
El prompt es código: vive en el repositorio, tiene versión y se revisa en PR. Sin un conjunto de casos de evaluación (entradas reales con la salida esperada), cualquier cambio de prompt o de modelo es a ciegas. No hace falta una plataforma cara: una colección de 30-100 ejemplos y un script que mida aciertos detecta regresiones antes de que lleguen al cliente. Esta es la diferencia entre iterar con confianza y rezar.
5. Errores que vemos repetirse
- Empezar por fine-tuning. Casi siempre prematuro: prompting + RAG cubren el 90% y son más baratos de mantener.
- No medir nada. Sin evaluación ni logs de calidad, el sistema degrada en silencio cuando cambia el modelo o los datos.
- Un único modelo para todo. Mezclar tareas triviales y complejas en el modelo más caro quema presupuesto.
- Sin plan de fallback. Cuando el proveedor cae o limita, conviene un modelo alternativo o una respuesta degradada honesta.
- Datos sensibles sin control. Hay que decidir qué se envía al proveedor, anonimizar y cumplir RGPD desde el día uno.
Preguntas frecuentes
¿Cuánto cuesta de verdad un LLM en producción?
El precio por token es lo de menos; manda el contexto. Con cache, RAG selectivo y un modelo pequeño para lo simple, una funcionalidad típica suele costar entre 20 y 300 €/mes hasta volúmenes medios.
¿Hace falta entrenar un modelo propio?
Casi nunca al principio. Modelo generalista + buen prompt + RAG cubre la mayoría de casos. El fine-tuning solo compensa con patrones muy repetitivos y objetivos de coste/latencia claros.
¿Cómo se evita que invente datos?
No tratándolo como fuente de verdad: RAG, salida estructurada validada, opción de "no lo sé" y una capa determinista que comprueba hechos críticos antes de mostrarlos.
¿Quieres meter IA en tu producto sin pegarte un tiro en el pie?
Diseñamos e integramos LLMs en producción con control de coste, evaluación y fallback. Precio cerrado por hitos.
Recursos relacionados
- Automatizar atención al cliente sin romper el CRM — handoff a humano, idempotencia y colas.
- Backend SaaS multi-tenant — dónde encaja la IA en un SaaS B2B.
- El stack que usamos en 2026 — qué herramientas usamos alrededor del modelo.
Publicado: 9 de junio de 2026 · Escrito por el estudio RoviDev.