Patrones de páginas

Cómo agrupar URLs similares para controlar qué entra en el RAG y en el crawling.

Qué son los patrones

Los patrones agrupan URLs que comparten la misma “forma”: por ejemplo /producto/123 y /producto/456 pertenecen al patrón /producto/{id}. Sirven para ver qué tipos de páginas se han crawleado, ignorar patrones enteros (p. ej. “no extraer nada de /carrito”) y organizar la extracción.

Se gestionan en el modal Patrones Web en la configuración del bot: puedes listar patrones, ver las URLs de cada uno, ignorar o reactivar un patrón y regenerar patrones.

Cómo afectan al RAG y a los embeddings

Cuando ignoras un patrón, las URLs que pertenecen a ese patrón dejan de usarse para generar contextos y embeddings. Eso significa que:

Esas páginas no se tendrán en cuenta cuando el bot busque contexto en ChromaDB.
Puedes mantener fuera del RAG secciones irrelevantes (carrito, login, backoffice, etc.).
El índice de embeddings se centra en el contenido realmente útil para responder preguntas.

Para una explicación más extensa del sistema de patrones, revisa también la documentación interna en PATRONES_URL_README.md del repositorio.