Conozca LLMs.txt, un estándar para el rastreo de Contenido de Sitios Web con IA

Conozca LLMs.txt, un estándar para el rastreo de Contenido de Sitios Web con IA

Qué es llms.txt, cómo funciona, cómo pensarlo, si los LLM y las Marcas lo están comprando y por qué debería prestarle atención.

Para satisfacer las necesidades de indexabilidad y rastreo de contenido web de grandes modelos de lenguaje, presentan aquí una nueva propuesta de estándares para IA/LLM elaborada por el tecnólogo australiano Jeremy Howard.

Su propuesta llms.txt actúa de manera similar a los protocolos robots.txt y de mapas de sitios XML, con el fin de permitir el rastreo y la legibilidad de sitios web completos, lo que supone un menor esfuerzo de recursos para los LLM a la hora de rastrear y descubrir el contenido de su sitio web.

Pero también ofrece un beneficio adicional: La nivelación total del contenido, y esto puede ser algo bueno para las marcas y los creadores de contenido.

Pero dado el panorama rápidamente cambiante del contenido producido en un mundo de inteligencia artificial, ciertamente vale la pena discutir llms.txt.

Modelo Extenso Lenguaje (LLM )

Un modelo extenso de lenguaje o LLM (siglas en inglés para Large Language Model), también llamado modelo de lenguaje de gran tamañomodelo de lenguaje grande,[1]​ o gran modelo de lenguaje,[2]​ es un modelo de lenguaje de aprendizaje profundo, que consta de una red neuronal con muchos parámetros (normalmente miles de millones o más), entrenados en grandes cantidades de texto sin etiquetar mediante aprendizaje autosupervisado o aprendizaje semisupervisado.[3]Los LLMs surgieron alrededor de 2018 con el primer modelo GPT-1, aunque fue su sucesor, GPT-2, el que obtuvo una atención más generalizada.[4][5]​ Esto ha cambiado el enfoque de la investigación del procesamiento del lenguaje natural alejándose del paradigma anterior de entrenar modelos supervisados especializados para tareas específicas.

El nuevo estándar propuesto para la accesibilidad de la IA al Contenido del Sitio Web

La propuesta citada ofrece mucho para considerar acerca del futuro del control del contenido del usuario dentro del vasto apetito de datos y contenido de los LLM.

En septiembre pasado surgió un protocolo potencial más simple para los creadores de contenido web, y si bien no es tan amplio como la otra propuesta, llms.txt ofrece cierta garantía de un mayor control por parte del propietario en términos de a qué y cuánto se debe acceder.

Estas dos propuestas no son mutuamente excluyentes, pero el nuevo protocolo llms.txt parece estar más avanzado.

La propuesta llms.txt de Howard es un estándar de indexación y rastreo de sitios web que utiliza un lenguaje de marcado simple.

Dado que los modelos de IA consumen y generan cantidades infinitamente grandes de contenido web, los propietarios de contenido buscan un mejor control sobre cómo se utilizan sus datos o, al menos, buscan proporcionar contexto sobre cómo les gustaría que se utilicen.

A falta de superar el increíblemente alto nivel de capacidades de rastreo de Google o Bing, los LLM necesitan una solución que les permita centrarse menos en convertirse en un motor de rastreo masivo y más en la parte de “inteligencia” de sus funciones, por artificiales que sean.

En teoría, llms.txt proporciona un mejor uso de los recursos técnicos para los LLM.

¿Qué es llms.txt y para qué sirve?

Los modelos de lenguaje grandes dependen cada vez más de la información del sitio web, pero se enfrentan a una limitación crítica: las ventanas de contexto son demasiado pequeñas para gestionar la mayoría de los sitios web en su totalidad. Convertir páginas HTML complejas con navegación, anuncios y JavaScript en texto plano compatible con LLM es difícil e impreciso.

Si bien los sitios web son útiles tanto para lectores humanos como para LLM, estos últimos se benefician de información más concisa y de nivel experto, reunida en un único lugar accesible. Esto es especialmente importante para casos de uso como entornos de desarrollo, donde los LLM necesitan acceso rápido a la documentación de programación y las API.

Proponemos agregar un archivo markdown /llms.txt a los sitios web para proporcionar contenido compatible con LLM. El archivo markdown llms.txt es legible para humanos y LLM, pero también está en un formato preciso que permite métodos de procesamiento fijos (es decir, técnicas de programación clásicas como analizadores y expresiones regulares).

Los usos potenciales de este protocolo propuesto son bastante intrigantes para los beneficios GEO . En esencia, llms.txt le permite proporcionar contexto sobre cómo los modelos impulsados ​​por IA pueden acceder y utilizar su contenido.

De manera similar a robots.txt, que controla cómo los rastreadores de motores de búsqueda interactúan (o deberían hacerlo ) con un sitio web, llms.txt establecería pautas para los modelos de IA que extraen y procesan contenido para el entrenamiento y la generación de respuestas. 

No existe un bloqueo real, y las directivas de robots.txt (p. ej., “Disallow:”) no están diseñadas para el archivo llms.txt. Con una configuración correcta, se trata más bien de elegir qué contenido debe mostrarse contextual o íntegramente en una plataforma de IA.

Puede simplemente colocar URL de una sección de un sitio web, agregar URL con resúmenes de un sitio web o incluso proporcionar el texto completo sin procesar de un sitio web en archivos individuales o múltiples. 

El archivo llms.txt de uno de mis sitios web tiene 115 378 palabras y un tamaño de 966 kb, y contiene el texto completo del sitio web en un solo archivo .txt, alojado en la raíz del dominio. Sin embargo, su archivo puede ser más pequeño, incluso más grande, o incluso estar dividido en varios archivos. Puede almacenarse en varios directorios de su taxonomía y arquitectura, según sea necesario. 

También puedes crear versiones .md en formato Markdown de cada página web que consideres que merece la atención de un LLM. Esto resulta muy útil para realizar análisis profundos del sitio, y no es exclusivo para los LLM. Así como los sitios web tienen múltiples usos, llms.txt es la solución ideal, con múltiples variaciones para contextualizar a los LLM.

Generar un archivo llms.txt o llms-full.txt

Es casi “elegante” en su simplicidad, ya que reduce los sitios completos a su esencia lingüística y textual básica, lo que hace que sea más fácil analizarlo en su plataforma favorita, para una gran cantidad de usos en el desarrollo de contenido, análisis de la estructura del sitio, investigación de entidades y prácticamente cualquier otra cosa que pueda imaginar. 

También proporciona un método estandarizado para que los propietarios de sitios web permitan o denieguen explícitamente que los LLM ingieran y utilicen su contenido. La propuesta está ganando terreno entre los líderes de la industria tecnológica y los profesionales de SEO a medida que la IA continúa transformando el panorama digital. La utilidad absoluta para aumentar la relevancia está ahí, con beneficios para el LLM, el propietario del sitio web y el usuario que, en teoría, encuentra una mejor respuesta mediante este breve intercambio de texto. 

Llms.txt funciona de forma similar a robots.txt, solo que crea un archivo de texto simple en el directorio raíz de su sitio web. Al igual que el estándar de archivos robots.txt, puede obedecerse o no, según lo desee el agente de IA/LLM. Sin embargo, para aclarar una idea errónea común, NO está previsto que las directivas robots.txt se incluyan en el archivo llms.txt.

Algunos archivos llms.txt de muestra, en acción

Adopción

Numerosos LLM han expresado su apoyo al estándar llms.txt, y muchos lo utilizan o exploran su utilidad. llms.txt Hub ha compilado una lista de desarrolladores de IA que utilizan el estándar para documentación y afirma ser uno de los mayores recursos para identificarlos. Pero recuerden, llms.txt no es solo para desarrolladores, sino para todos los propietarios y productores de contenido web.

Los creadores de sitios web y contenido también pueden beneficiarse enormemente de un archivo plano de su sitio. Una vez creado el archivo llms.txt, se puede analizar el contenido completo del sitio, según las necesidades de su método de investigación.

Herramientas generadoras de llms.txt

Con el protocolo básico descrito, existen diversas herramientas disponibles para generar tu archivo. He comprobado que la mayoría genera sitios web pequeños de forma gratuita, mientras que los sitios más grandes pueden ser un trabajo a medida. Por supuesto, muchos propietarios de sitios web optan por desarrollar su propia herramienta o scraper. Precaución: Investiga la seguridad de cualquier herramienta generadora antes de usarla y revisa tus archivos antes de subirlos. NO uses ninguna herramienta sin verificar primero su seguridad. Aquí tienes algunas de estas herramientas gratuitas que puedes probar (aunque aún están sujetas a tu propia validación):

  • Markdowner: Una herramienta gratuita y de código abierto que convierte el contenido del sitio web en archivos Markdown bien estructurados. 
  • Appify – Generador de llms.txt de Jacob Kopecky.
  • Sitios web LLM: Este plugin de WordPress crea tu archivo llms.txt automáticamente. Simplemente configura el rastreo en “Entradas”, “Páginas” o ambas, y listo. Fui una de las primeras diez personas en descargar este plugin; ya ha superado las 3000 descargas en tan solo tres meses.
  • FireCrawl – Una de las primeras herramientas que surgieron para la creación de archivos llms.txt.

Si bien llms.txt mejora la claridad de la extracción de contenido, también podría presentar riesgos de seguridad que requieren una gestión cuidadosa.

Por qué llms.txt podría ser importante para SEO y GEO

Controlar cómo interactúan los modelos de IA con tu contenido es fundamental, y el simple hecho de tener una versión completamente simplificada de un sitio web puede simplificar considerablemente la extracción, el entrenamiento y el análisis de IA. Aquí tienes algunas razones:

  • Protección de contenido propietario: Evita que la IA utilice contenido original sin permiso, pero solo para los LLM que eligen obedecer las directivas. 
  • Gestión de la reputación de marca: Teóricamente, brinda a las empresas cierto control sobre cómo aparece su información en las respuestas generadas por IA.
  • Análisis lingüístico y de contenido: Con una versión completamente optimizada de su sitio, fácilmente procesable por IA, puede realizar todo tipo de análisis que normalmente requieren una herramienta independiente. Frecuencia de palabras clave, análisis de taxonomía, análisis de entidades, enlaces, análisis competitivo, etc.
  • Interacción mejorada con IA: llms.txt ayuda a los LLM a interactuar de forma más eficaz con su sitio web, permitiéndoles obtener información precisa y relevante. No se requiere ningún estándar para esta opción, solo un archivo limpio y plano de su contenido completo. 
  • Visibilidad mejorada del contenido: Al guiar a los sistemas de IA para que se centren en contenido específico, llms.txt puede, en teoría, optimizar su sitio web para la indexación con IA, lo que podría mejorar su visibilidad en los resultados de búsqueda impulsados ​​por IA. Al igual que el SEO, no hay garantías. Pero, a primera vista, cualquier preferencia que un LLM tenga por un llms.txt es un avance.
  • Mejor rendimiento de la IA: El archivo garantiza que los LLM puedan acceder al contenido más valioso de su sitio, lo que genera respuestas de IA más precisas cuando los usuarios interactúan con herramientas como chatbots o motores de búsqueda basados ​​en IA. Utilizo la representación completa de llms.txt y, personalmente, no encuentro los resúmenes ni las listas de URL más útiles que robots.txt o un mapa del sitio XML.
  • Ventaja competitiva: A medida que las tecnologías de IA continúan evolucionando, tener un archivo llms.txt puede darle a su sitio web una ventaja competitiva al hacerlo más preparado para la IA.

Desafíos y limitaciones

Si bien llms.txt ofrece una solución prometedora, aún quedan varios desafíos clave:

  • Adopción por parte de empresas de IA: No todas las empresas de IA pueden adherirse al estándar y simplemente ignorarán el archivo e incorporarán todo su contenido de todos modos.
  • Adopción por parte de los sitios web: En resumen, las marcas y los operadores de sitios web tendrán que intensificar sus esfuerzos y participar para que llms.txt tenga éxito. Quizás no todos, pero será necesaria una masa crítica. A falta de otro tipo de “optimización” científica de la IA, ¿qué tenemos que perder?.
  • Superposición con robots.txt y mapas de sitio XM: Posibles conflictos e inconsistencias entre robots.txt, mapas de sitio XML y llms.txt podrían generar confusión. Cabe reiterar que el archivo llms.txt no pretende sustituir a robots.txt. Como se mencionó anteriormente, considero que la representación completa del archivo de texto es la más valiosa.
  • Spam de palabras clave, contenido y enlaces: De forma muy similar a como se utilizaba el relleno de palabras clave en los antiguos tiempos del SEO, no hay nada que impida que alguien llene su llms.txt con montones gratuitos de texto, palabras clave, enlaces y contenido.
  • Exposición de su contenido a la competencia para su propio análisis. Si bien el scraping es un pilar fundamental en toda la industria de las búsquedas, la investigación competitiva de palabras clave y contenido no es nada nuevo. Sin embargo, contar con este sencillo archivo facilita que sus competidores analicen fácilmente lo que usted tiene (y lo que no tiene) y lo utilicen para obtener una ventaja competitiva.

El futuro de llms.txt y la Gobernanza de Contenido de IA

A medida que la adopción de IA continúa creciendo, también lo hace la necesidad de una gobernanza de contenido estructurada.

llms.txt representa un esfuerzo inicial para generar transparencia y control sobre el uso del contenido de IA. Su aceptación generalizada dependerá del apoyo de la industria, de los propietarios de sitios web, de los avances regulatorios y de la disposición de las empresas de IA a cumplir.

Debe mantenerse informado sobre llms.txt y estar preparado para adaptar sus estrategias de contenido a medida que evolucionan la búsqueda impulsada por IA y el descubrimiento de contenido.

La introducción de llms.txt marca un paso significativo hacia el equilibrio entre la innovación en IA, los derechos de propiedad del contenido y la “rastreabilidad e indexabilidad” de sitios web para el consumo y análisis por parte de los LLM.

Debe explorar de forma proactiva su implementación para salvaguardar sus activos digitales y también brindarles a los LLM una pista para comprender mejor la estructura y el contenido de su(s) sitio(s).

A medida que la IA continúa transformando la búsqueda en línea y la distribución de contenido, será esencial tener una estrategia definida para la interacción de la IA con su sitio web.

¿Se convertirá en un estándar?

Definitivamente queda por verse. llms.txt tiene un largo camino por delante, pero no apostaría en contra.

Cuando las empresas buscan nuevas ideas para mejorar su presencia como “la respuesta” en los LLM, esto ofrece una nueva señal para la optimización de la IA y posiblemente un paso adelante para conectarse con los LLM de una manera que antes solo era comparable con los motores de búsqueda.

Y no se sorprenda si comienza a escuchar a muchos más profesionales de SEO/GEO hablar sobre llms.txt en el corto plazo, como un elemento básico para la optimización del sitio, junto con robots.txt, mapas de sitios XML, esquema, IndexNow y otros.

Loading