Patrones de páginas
Cómo agrupar URLs similares para controlar qué entra en el RAG y en el crawling.
Qué son los patrones
Los patrones agrupan URLs que comparten la misma “forma”: por ejemplo /producto/123 y /producto/456 pertenecen al patrón /producto/{id}. Sirven para ver qué tipos de páginas se han crawleado, ignorar patrones enteros (p. ej. “no extraer nada de /carrito”) y organizar la extracción.
Se gestionan en el modal Patrones Web en la configuración del bot: puedes listar patrones, ver las URLs de cada uno, ignorar o reactivar un patrón y regenerar patrones.
Cómo afectan al RAG y a los embeddings
Cuando ignoras un patrón, las URLs que pertenecen a ese patrón dejan de usarse para generar contextos y embeddings. Eso significa que:
- Esas páginas no se tendrán en cuenta cuando el bot busque contexto en ChromaDB.
- Puedes mantener fuera del RAG secciones irrelevantes (carrito, login, backoffice, etc.).
- El índice de embeddings se centra en el contenido realmente útil para responder preguntas.
Para una explicación más extensa del sistema de patrones, revisa también la documentación interna en PATRONES_URL_README.md del repositorio.