RAG Search

Buscar en el contexto cuando el usuario lo pide

¿Para qué sirve?

Esta acción hace que, cuando se detecte la intención asociada, el sistema busque siempre en el contexto RAG (tu base de conocimiento). Sin ella, el bot solo usa el RAG cuando otras condiciones lo permiten; con RAG Search activa en una intención, esa intención “dispara” la búsqueda.

Características principales

No requiere configuración extra: la añades a la intención y listo.
El resultado se usa para construir el contexto que recibe el LLM.
Va muy bien para intenciones tipo “buscar en la web”, “consultar información”, “qué dice la documentación”, etc.

Configuración en el dashboard

En el dashboard, al editar una intención, eliges la acción RAG Search (o “Buscar en RAG”): no tiene un formulario propio dentro de la intención. En la pantalla Búsqueda RAG del bot, el acordeón Configuración de Búsqueda agrupa fragmentos para el chat, reranking, MMR (diversidad), documento completo, y—si eres dueño del bot—los ajustes de orden de resultados. La guía de importancia, límite máximo del refuerzo y MMR está más abajo en esta misma página.

Flujo en el sistema

Usuario escribe → se detecta la intención (frases + umbral) → se ejecuta la acción RAG Search → el pipeline fuerza la búsqueda en ChromaDB → los fragmentos encontrados se inyectan en el contexto del LLM → el LLM responde usando ese contexto.

Configuración de búsqueda en el panel

Cuando el sistema prepara la respuesta, busca fragmentos relevantes en tu conocimiento y los ordena con un puntaje híbrido: parte viene de la similitud por significado (embeddings) y parte de refuerzos cuando el contenido coincide con lo que escribió el usuario o con metadatos (etiquetas, entidades nombradas, frases literales).

Importancia

La importancia de cada criterio actúa como multiplicador: indica cuánto puede sumar ese tipo de coincidencia al puntaje total antes de aplicar el techo. Valores habituales van de 0 a 5. Si subes la importancia de las palabras del mensaje, por ejemplo, las páginas donde aparezcan esas palabras ganarán más terreno frente a fragmentos solo “parecidos” por significado.

Límite máximo del refuerzo

El límite máximo es el techo de ese refuerzo: aunque haya muchas coincidencias, la contribución de esa señal no pasará de ese valor. Sirve para que una sola señal (muchas etiquetas coincidentes, muchas palabras clave, etc.) no reordene todo el ranking. En similitud semántica, un límite muy alto equivale a “casi sin techo”: el componente por embeddings puede usar casi todo el margen disponible.

Criterios (mismos nombres que en el panel)

Similitud semántica — parecido por significado (embeddings), no solo texto idéntico.
Palabras del mensaje — términos del usuario que aparecen en el contenido.
Etiquetas del contenido — tags que asignaste a páginas o fragmentos.
Entidades detectadas — nombres propios, lugares u organizaciones (NER).
Frases literales — secuencias de palabras que coinciden tal cual con el texto.

Consejo práctico: Si las respuestas priorizan páginas solo por palabras sueltas y pierden el “sentido” del tema, baja un poco la importancia o el límite de palabras/frases y deja más peso a la similitud semántica. Si el bot “se pierde” en textos vagos y necesitas anclar a términos concretos o etiquetas, sube con moderación la importancia de palabras o etiquetas y revisa los límites para evitar saltos bruscos.

MMR (diversidad de fragmentos)

MMR (Maximum Marginal Relevance) elige fragmentos relevantes pero distintos entre sí. Tras la búsqueda híbrida (y el reranker opcional), evita mandar al chat varios trozos casi iguales del mismo documento.

El sistema recupera primero un pool de candidatos según tus fragmentos configurados:

max(30, context_window × 3, ai_chunk_number × 10)

Fragmentos en chat	Ejemplo (context_window=5)	Candidatos internos
1	max(30, 15, 10)	30
3 (habitual)	max(30, 15, 30)	30
6	max(30, 15, 60)	60
9	max(30, 15, 90)	90

λ (lambda): equilibra relevancia vs diversidad. Valores altos (0.8–0.9) se parecen más al top por score; bajos (0.5–0.6) favorecen páginas distintas.
Sin reranker: MMR sigue funcionando sobre el orden híbrido; mejora diversidad pero no sustituye el reranker para afinar relevancia.
Con documento completo: MMR diversifica qué documentos expandir; dentro de cada documento expandido puede haber repetición.
Panel de prueba: el dropdown «Resultados» indica cuántas filas ver; el pool interno sigue la fórmula anterior (igual que en el chat).

Cuándo activarlo: sitios con muchas páginas similares (FAQs, términos legales, fichas de producto). Cuándo no: cuando necesitas profundidad en un solo documento o ya usas recuperación de documento completo.

Volver a Cómo funciona