Patrones de páginas

Cómo agrupar URLs similares para controlar qué entra en el RAG y en el crawling.

Qué son los patrones

Los patrones agrupan URLs que comparten la misma “forma”: por ejemplo /producto/123 y /producto/456 pertenecen al patrón /producto/{id}. Sirven para ver qué tipos de páginas se han crawleado, ignorar patrones enteros (p. ej. “no extraer nada de /carrito”) y organizar la extracción.

Se gestionan en el modal Patrones Web en la configuración del bot: puedes listar patrones, ver las URLs de cada uno, ignorar o reactivar un patrón y regenerar patrones.

Cómo afectan al RAG y a los embeddings

Cuando ignoras un patrón, las URLs que pertenecen a ese patrón dejan de usarse para generar contextos y embeddings. Eso significa que:

  • Esas páginas no se tendrán en cuenta cuando el bot busque contexto en ChromaDB.
  • Puedes mantener fuera del RAG secciones irrelevantes (carrito, login, backoffice, etc.).
  • El índice de embeddings se centra en el contenido realmente útil para responder preguntas.

Para una explicación más extensa del sistema de patrones, revisa también la documentación interna en PATRONES_URL_README.md del repositorio.