Chunking (fragmentación de texto)

Chunking (fragmentación de texto) es la técnica de dividir contenidos largos en fragmentos más pequeños y significativos que los modelos de lenguaje y los sistemas de IA pueden procesar, almacenar y recuperar con mayor precisión y eficiencia.

Chunking, o fragmentación de texto, es una técnica clave en sistemas de IA y, en particular, en aplicaciones de RAG (Retrieval-Augmented Generation), buscadores semánticos y asistentes basados en modelos de lenguaje. Consiste en dividir documentos extensos (artículos, manuales, PDFs, transcripciones, bases de conocimiento, etc.) en fragmentos de texto coherentes que puedan ser representados con embeddings, indexados y recuperados de forma eficiente.

La fragmentación surge porque los modelos de lenguaje tienen una ventana de contexto limitada, es decir, solo pueden procesar una cantidad máxima de tokens por petición. Para poder trabajar con colecciones de documentos grandes, se trocean dichos documentos en partes más pequeñas que:

  • Sean suficientemente cortas para caber en la ventana de contexto.
  • Mantengan coherencia semántica (cada fragmento debe tratar un tema o subtema reconocible).
  • Conserven el contexto útil para responder preguntas sin introducir demasiado ruido.

Desde un punto de vista técnico, cada fragmento se transforma en un vector de embeddings y se almacena en un índice (por ejemplo, en una base de datos vectorial). Cuando el usuario hace una consulta, el sistema busca en ese índice los fragmentos semánticamente más cercanos, los recupera y se los pasa al modelo de lenguaje como contexto para generar la respuesta.

Existen diversas estrategias de chunking para equilibrar granularidad, contexto y relevancia:

  • Fragmentación de tamaño fijo: divide el texto en bloques de un número fijo de tokens, palabras o caracteres (por ejemplo, 300-500 tokens), con una superposición opcional para no cortar ideas a la mitad.
  • Fragmentación por ventana deslizante: crea fragmentos solapados moviendo una ventana a través del texto, lo que ayuda a preservar contexto entre segmentos contiguos.
  • Fragmentación basada en la estructura del documento: respeta encabezados, secciones, párrafos, tablas o etiquetas HTML (<h2>, <p>, listas, etc.), generando fragmentos alineados con la organización natural del contenido.
  • Fragmentación semántica: utiliza embeddings y medidas de similitud semántica para detectar cambios de tema entre oraciones o párrafos, y colocar los puntos de corte donde disminuye la coherencia, de modo que cada fragmento represente una unidad temática.
  • Fragmentación jerárquica o recursiva: descompone el contenido en distintos niveles (secciones → párrafos → frases) y construye una estructura en árbol de fragmentos, permitiendo navegar y recuperar información a distintos niveles de detalle.

Desde la perspectiva de marketing digital, contenido y SEO asistido por IA, el chunking es especialmente útil porque:

  • Permite crear chatbots de contenido que responden sobre blogs, documentación o bases de conocimiento de una marca.
  • Facilita buscadores semánticos internos que devuelven párrafos concretos relevantes, en lugar de documentos completos.
  • Mejora la calidad de sistemas de asistencia al redactor (briefings, resúmenes, reescrituras) al proporcionar al modelo fragmentos muy focalizados.

Los parámetros de configuración (tamaño de fragmento, solapamiento, umbrales de similitud, tamaño de «buffer» de oraciones adyacentes, etc.) impactan directamente en la precisión de la recuperación y en la experiencia de usuario. Un chunk demasiado grande introduce ruido; uno demasiado pequeño puede perder contexto. Diseñar una buena estrategia de fragmentación es, por tanto, una parte crítica de cualquier sistema de IA que trabaje con contenido extenso.

Ejemplos

  • Ejemplo:
    Un sitio de documentación técnica divide cada página en fragmentos de 300-400 tokens respetando subtítulos y párrafos. Cada fragmento se indexa con embeddings, de manera que un chatbot de soporte puede recuperar solo los trozos relevantes para responder dudas de usuarios sobre una API específica.
  • Ejemplo:
    Un medio digital aplica fragmentación semántica a sus artículos largos: detecta cambios de tema y genera fragmentos alineados con secciones temáticas (introducción, contexto, datos clave, conclusiones). Así, un asistente de IA interno puede devolver directamente el bloque de datos o el apartado de "cómo hacerlo" cuando el redactor lo solicita.
  • Ejemplo:
    Un ecommerce con una gran base de preguntas frecuentes y guías de uso utiliza chunking jerárquico para dividir manuales y artículos en secciones, párrafos y pasos. Un motor de búsqueda semántica interna muestra el fragmento exacto (paso a paso) que responde a la intención de búsqueda del cliente.

Preguntas frecuentes

¿Por qué es importante el chunking en sistemas de IA como RAG o chatbots?
Porque los modelos de lenguaje tienen una ventana de contexto limitada y no pueden cargar documentos muy largos de una sola vez. El chunking permite trocear el contenido en fragmentos manejables que pueden representarse con embeddings, indexarse y recuperarse con precisión, mejorando la relevancia de las respuestas y el rendimiento del sistema.
¿Cuál es el mejor tamaño de fragmento al aplicar chunking?
No existe un tamaño único ideal; depende del caso de uso, el modelo y el tipo de contenido. En la práctica se suelen usar fragmentos de unos cientos de tokens (por ejemplo, 200-800 tokens), muchas veces con cierto solapamiento. Lo importante es equilibrar coherencia semántica, suficiente contexto y límite de la ventana de contexto del modelo.
¿En qué se diferencia la fragmentación de tamaño fijo de la fragmentación semántica?
La fragmentación de tamaño fijo corta el texto por longitud (caracteres, palabras o tokens), sin tener en cuenta cambios de tema, mientras que la fragmentación semántica utiliza embeddings o medidas de similitud para localizar puntos de corte donde cambia el contenido, creando fragmentos que representan unidades temáticas más naturales y coherentes.

SINÓNIMOS

También conocido como: Fragmentación de contenido, Segmentación de texto, Troceado de documentos

ÚLTIMA REVISIÓN

Actualizado el: 01/10/2025