Crawling y contexto

De dónde sale el contenido que el bot usa en el RAG y cómo se transforma en embeddings.

Crawling del sitio

Un crawler visita las URLs de tu sitio (dominio del bot), descarga el HTML y lo guarda. A partir de ese HTML se generan varias versiones del contenido (limpio, markdown, con o sin enlaces e imágenes) y se crea un contexto por página, asociado a cada URL.

Configuración típica

Puedes elegir el número de páginas a extraer (según tu plan) y si quieres extraer contexto con IA después del crawling. Si lo activas, el contenido se envía a un LLM que produce un texto optimizado para el chatbot.

Uso o no de IA para mejorar el contexto

Si “Extraer contexto con IA” está activo, el sistema usa esa versión mejorada como fuente para el RAG cuando tú lo eliges. Si no usas IA, se usa directamente una de las versiones generadas del HTML (markdown, etc.) según la opción de contenido que hayas seleccionado.

Fuente de contenido por página

No se trata de elegir elementos HTML concretos con un selector, sino de elegir la fuente de contenido que se usará para esa página (o para la extracción con IA). Opciones típicas: solo texto, texto + enlaces, texto + imágenes, texto + enlaces + imágenes, o HTML “a la medida”.

Esta elección se hace en el dashboard al configurar la extracción de una página o la extracción con IA de un contexto. Así decides qué parte del contenido (texto, links, imágenes) entra al contexto y al RAG.

De contexto a embeddings

Una vez que tienes contextos creados, EasyChatBot los envía al servicio de RAG para:

  • Partir el contenido en fragmentos manejables.
  • Generar un embedding para cada fragmento (una representación numérica de su significado).
  • Guardar esos embeddings en ChromaDB, en una colección por bot (por ejemplo bot_123).

Cuando una intención dispara una acción de RAG Search, el mensaje del usuario también se convierte en embedding y se busca por similitud semántica en esa colección. Así se recuperan los fragmentos más relevantes para construir la respuesta.