¿Cuándo NO merece la pena RAG?

Cuando el conocimiento cabe en el prompt (pocos documentos estables), cuando la tarea no necesita datos externos (clasificar, reescribir, traducir) o cuando lo que de verdad necesitas es una búsqueda exacta o una consulta a base de datos. RAG añade infraestructura: si no la necesitas, es complejidad gratis.

¿Cómo se mide si un sistema RAG funciona?

Se separan dos cosas: la recuperación (¿están los fragmentos correctos entre los recuperados? con métricas como recall@k y precision@k) y la generación (¿la respuesta es fiel a esos fragmentos y responde la pregunta? con fidelidad y relevancia). Necesitas un conjunto de preguntas reales con la respuesta/fuente esperada para medir antes y después de cada cambio.

¿Hace falta una base de datos vectorial dedicada?

No siempre. Para volúmenes pequeños y medianos, pgvector sobre Postgres es suficiente y evita añadir otra pieza de infraestructura. Bases vectoriales dedicadas (Qdrant, Pinecone, Weaviate) tienen sentido con muchos millones de vectores, filtros complejos o requisitos de latencia muy estrictos.

← Blog · 16 jul 2026 · IA

RAG en la práctica: cuándo sí, cuándo no y cómo medir su calidad

Q: ¿Qué es RAG en una frase?

RAG (Retrieval-Augmented Generation) es darle al modelo, en cada pregunta, los fragmentos de tus documentos relevantes para esa pregunta, de modo que responda con tu información en vez de inventar. Recuperas primero, generas después.

RAG es la respuesta por defecto a "quiero un chatbot que conozca mis documentos". Y muchas veces es la correcta. Pero también es donde más proyectos se atascan: se monta a ojo, no se mide y nadie sabe por qué a veces responde mal. Esta es la versión práctica, sin humo, de cuándo usar RAG, cómo montarlo y cómo saber si funciona. Es la continuación natural de lo que contamos en IA en producción.

1. Qué es RAG (y qué no)

RAG = recuperar primero, generar después. En cada pregunta, buscas en tus documentos los fragmentos relevantes y se los pasas al modelo como contexto, para que responda con tu información en lugar de con lo que "recuerda". No es magia ni reentrenar el modelo: es un buscador delante de un generador. Si la recuperación falla, la respuesta falla, por muy bueno que sea el modelo.

2. Cuándo SÍ y cuándo NO

Cuándo SÍ

Base de conocimiento grande o cambiante (docs, tickets, manuales).
Respuestas que deben citar la fuente.
Información que se actualiza y no quieres reentrenar nada.
Soporte, búsqueda interna, asistentes sobre documentación.

Cuándo NO

El conocimiento cabe entero en el prompt (pocos docs estables).
La tarea no necesita datos externos (clasificar, traducir, reescribir).
Necesitas un dato exacto: mejor una consulta a la base de datos.
Búsqueda por palabra clave precisa: a veces basta full-text search.

Regla corta: RAG añade infraestructura (indexado, embeddings, recuperación). Si no la necesitas, es complejidad gratis.

3. Cómo se monta, pieza a pieza

Chunking: partir los documentos en fragmentos con sentido (por secciones, no por número fijo de caracteres a ciegas). El tamaño y el solape importan más de lo que parece.
Embeddings: convertir cada fragmento en un vector. Elige un modelo de embeddings acorde al idioma y dominio; no todos rinden igual en español.
Almacén vectorial: pgvector sobre Postgres para la mayoría de casos; bases dedicadas (Qdrant, Pinecone) solo con millones de vectores o filtros complejos.
Recuperación: traer los k fragmentos más cercanos. A menudo conviene híbrido: combinar búsqueda vectorial con palabra clave (BM25) para no perder coincidencias literales.
Reranking: un reordenador que afina los candidatos antes de pasárselos al modelo. Sube mucho la calidad cuando hay ruido.
Generación: el modelo responde solo con los fragmentos dados, citando fuente y con permiso explícito para decir "no lo sé".

4. Cómo medir su calidad (lo que casi nadie hace)

Sin medición, RAG es fe. Separa siempre dos planos:

Calidad de recuperación: ¿están los fragmentos correctos entre los recuperados? Métricas: recall@k (¿aparece la fuente buena en el top-k?) y precision@k (¿cuánto ruido hay?).
Calidad de generación: ¿la respuesta es fiel a esos fragmentos (sin inventar) y responde de verdad la pregunta? Métricas: fidelidad/faithfulness y relevancia.

Para medir necesitas un conjunto de evaluación: 30-100 preguntas reales con su respuesta/fuente esperada. Con eso corres la evaluación antes y después de cada cambio (otro modelo de embeddings, otro tamaño de chunk, añadir reranking) y sabes si mejoras o empeoras. Sin ese conjunto, cada ajuste es a ciegas.

5. Errores típicos que vemos

Culpar al modelo cuando falla la recuperación. El 80% de las "alucinaciones" en RAG son fragmentos mal recuperados, no el LLM.
Chunking a ciegas. Cortar por longitud fija parte ideas a la mitad y arruina la recuperación.
Solo búsqueda vectorial. Pierdes coincidencias literales (códigos, nombres exactos); el híbrido lo arregla.
No reindexar al cambiar de embeddings. Mezclar vectores de modelos distintos da resultados incoherentes.
Cero evaluación. Sin métricas, el sistema degrada en silencio cuando cambian los datos.

Preguntas frecuentes

¿Qué es RAG en una frase?

Darle al modelo, en cada pregunta, los fragmentos relevantes de tus documentos para que responda con tu información. Recuperas primero, generas después.

¿Cuándo NO merece la pena?

Cuando el conocimiento cabe en el prompt, la tarea no necesita datos externos, o lo que necesitas es un dato exacto de base de datos. RAG añade infraestructura.

¿Cómo se mide?

Por separado: recuperación (recall@k, precision@k) y generación (fidelidad, relevancia), con un conjunto de preguntas reales y su fuente esperada.

¿Hace falta base vectorial dedicada?

No siempre. pgvector sobre Postgres basta para volúmenes pequeños/medios; las dedicadas tienen sentido con millones de vectores o filtros complejos.

¿Quieres un asistente que conozca tus documentos de verdad?

Diseñamos sistemas RAG con recuperación híbrida, evaluación y control de coste. Precio cerrado por hitos.

Servicio IA y chatbots Pedir presupuesto

Recursos relacionados

IA en producción — coste, latencia y evaluación de LLMs.
Automatizar atención al cliente sin romper el CRM — dónde encaja un asistente RAG.
El stack que usamos en 2026 — Postgres + pgvector como base.

Publicado: 16 de julio de 2026 · Escrito por el estudio RoviDev.