Plik llms.txt – co to jest i czy musisz go mieć?

Llms.txt to plik tekstowy, który ma pomóc botom przeglądarek i wyszukiwarek AI lepiej zrozumieć treść strony. Co poniektórzy zwiastują (w bliżej nieokreślonej przyszłości) marny koniec serwisom, które nie korzystają z tego rozwiązania. Tylko czy rzeczywiście llms.txt jest teraz już tak użyteczny, jak twierdzą jego entuzjaści? Poznaj głosy „za” i „przeciw” oraz stanowisko Google w tej sprawie – opisaliśmy to w tym artykule.

 

Czym jest plik llms.txt?

Plik llms.txt przedstawia modelom językowym (LLM) oraz botom wyszukiwarek AI (takim jak Perplexity czy SearchGPT) najważniejsze adresy URL w serwisie – opcjonalnie wraz z dodatkowymi informacjami (opis, detale).

Standard ten został zaproponowany przez Jeremy'ego Howarda w 2024 roku (oficjalna strona: https://llmstxt.org/). Jest to plik w formacie Markdown, umieszczany w katalogu głównym witryny (np. twojadomena.pl/llms.txt)

Plik zawiera:

  • Krótki opis witryny.

  • Listę najważniejszych linków do kluczowych podstron.

  • Link do bardziej szczegółowego pliku ( llms-full.txt), który zawiera pełną treść zawartości witryny (np. całą dokumentację techniczną). 

 

Przykładowy llms.txt z domeny OpenAI z opisanymi elementami pliku

Przykładowy plik llms.txt – zawiera tytuł, opcjonalny opis i detale, nazwy sekcji oraz nazwę linku, adres URL oraz opis, co znajduje się na danej podstronie

Źródło: https://developers.openai.com/api/docs/llms.txt

Jaka jest różnica między robots.txt, llms.txt i sitemapą? 

Sitemapę, robots.txt i llms.txt łączy z pewnością to, że są to pliki skierowane głównie do botów. Każdy z plików ma jednak nieco inne zastosowanie:

  • robots.txt mówi crawlerom wyszukiwarki, które strony indeksować, a gdzie nie wchodzić;
  • sitemap.xml (lub mapa strony w innym formacie) to uporządkowana lista stron w Twoim serwisie;
  • llms.txt to lista najważniejszych adresów URL, skierowana konkretnie do botów AI.

Plik llms.txt bardziej przypomina sitemapę (mapę strony) niż robots.txt, mimo że z nazwy i miejsca ulokowania na serwerze kojarzy się bardziej z tym drugim.

Jednak llms.txt idzie o krok dalej niż zwykła sitemapa. Sitemapa to tylko „sucha” lista linków i dat ich aktualizacji. llms.txt zawiera opisy i szczegółowe informacje na temat sekcji i adresów URL. 

 

Opinie na temat użyteczności llms.txt – za i przeciw

W branży SEO pojawiły się dwa obozy – zwolenników i przeciwników pliku llms.txt. Poniżej zebrałam najważniejsze argumenty obu stron.

 

Głosy „Za”

Głosy „Przeciw”

Ułatwia optymalizację pod wyszukiwarki AI

Żadna z firm typu OpenAI czy Anthropic nie ogłosiła oficjalnie, że ich boty szukają tego pliku. Google wprost napisał, iż nie rekomenduje llms.txt, ponieważ nie ma on dla nich większego znaczenia

Sam definiujesz, jak AI ma Cię streszczać

Modele biorą pod uwagę informacje, które pochodzą z różnych źródeł. Mogą zignorować dane ze strony, jeśli są sprzeczne z tym, co piszą inni

Oszczędność tokenów w przypadku stron przeładowanych JavaScript, reklamami i innymi formatami

Boty AI i tak potrafią czytać HTML i go parsować; dedykowany plik może zostać po prostu pominięty

llms.txt można znaleźć w domenach OpenAI, Claude czy Google

Badania specjalistów SEO na ten moment pokazują, że boty AI nie sprawdzają tego pliku

Plik w formacie łatwym do odczytania przez boty AI

Plik .md (format Markdown) może być wykorzystywany do dodawania w nim elementów, których nie ma w kodzie HTML strony. W ten sposób potencjalnie można manipulować rankingiem (co wpisuje się w tzw. Black Hat SEO)

 

Google a llms.txt

Żeby nie było zbyt łatwo ocenić przydatność llms.txt, Google postanowił dostarczyć sprzeczne sygnały związane z plikiem. Wygląda to trochę tak, jakby różne działy firmy działały w oderwaniu od siebie. Poniżej znajdziesz krótkie podsumowanie tej, nieco kuriozalnej, sytuacji. 

 

Incydent z dokumentacją Google

Internauci zauważyli, że na podstronach pomocy Google pojawił się plik llms.txt. Wywołało to lawinę spekulacji. Było to dla wszystkich potwierdzenie, że standard jest przydatny.

 

John Mueller dementuje plotki

John Mueller (Google Search Advocate) wyjaśnił, że to nie była celowa strategia Google Search, a wynik aktualizacji wewnętrznego systemu zarządzania treścią (CMS).

Mueller porównał ten trend do dawnych meta keywords – czegoś, co brzmi dobrze w teorii, ale w praktyce nie ma wpływu na to, jak algorytm postrzega jakość strony. Google oficjalnie nie używa więc pliku llms.txt do ustalania pozycji w wynikach wyszukiwania.

Wypowiedź Johna Muellera w wątku na Reddicie

Źródło: https://www.reddit.com/r/TechSEO/comments/1k0kcx9/llmtxt_where_are_we_at/

 

Llms.txt zniknęły z witryn Google, ale... nie wszędzie

Po tej wpadce pliki usunięto, jednak nie ze wszystkich witryn, co ponownie rozbudziło czujność internautów. Znowu więc padło pytanie o rekomendacje dotyczące llms.txt. I tu pojawiła się dyplomatyczna odpowiedź Johna Muellera

Żaden z tych plików nie jest domyślnie dostępny do odnalezienia, ponieważ nie znajdują się one na najwyższym poziomie witryny. Można śmiało założyć, że służą innym celom.

Źródło: https://www.reddit.com/r/SEO/comments/1q3uocw/does_llmstxt_really_used_by_ai/

 

llms.txt w audytach Lighthouse

Gdy wszyscy myśleli już, że sprawa została zakończona – mamy kolejny zwrot akcji. Audyt Lighthouse zaczął sprawdzać obecność llms.txt.

 

Artykuł o mitach w SEO

Wisienką na torcie stała się publikacja na stronie Google Search Central na temat optymalizacji witryny pod kątem funkcji opartych na gen-AI w wyszukiwarce.

Pojawił się tam nagłówek o aktualnych mitach w SEO z dopiskiem „czego nie musisz robić” – to właśnie tam jako pierwszy punkt pojawia się plik llms.txt. 

Google jasno napisał, że ten pomysł można zignorować, ponieważ boty wyszukiwarki świetnie sobie radzą z odczytywaniem różnego rodzaju plików

 

Czy LLM'y biorą pod uwagę plik llms.txt?

Obecnie mechanizmy gen-AI w Google opierają się właściwie na tradycyjnym indeksowaniu stron. Możliwości Google w skanowaniu różnego rodzaju plików będą pewnie jednak lepsze niż u niektórych dostawców LLMów. To między innymi w tym kontekście specjaliści dopatrują się użyteczności llms.txt. 

Badania aktywności crawlerów, takie jak te, które przeprowadził Przemysław Charchan, z hukiem obalają twierdzenia sympatyków tego rozwiązania. Okazuje się bowiem, że boty AI ignorują plik i zamiast tego analizują i tak kod HTML strony.

Podobne spostrzeżenia mieli autorzy badania botów AI opublikowanego przez Search Engine Land. Sprawdzanych było 10 witryn – 90 dni przed wdrożeniem llms.txt i 90 dni po. Oto wnioski:

  • Tylko na dwóch stronach doszło do zmian – na jednej do spadków ruchu, a na drugiej do jego wzrostu. Tylko że autorzy badania zauważają, iż to nie sam plik miał wpływ na te zmiany, a inne działania podjęte w międzyczasie.
  • 8 z 10 domen nic nie uzyskało z dodania llms.txt

To daje do zrozumienia, że boty AI radzą sobie z parsowaniem i potrafią wyodrębnić dane w odpowiednim dla siebie formacie. 

Warto tu też podkreślić, że LLM'y nie działają w jednym standardzie. Nawet jeśli jakiś dostawca będzie bazował na odczytywaniu pliku llms.txt, nie oznacza, że wszyscy będą robić to samo i tak samo.

 

No i na koniec – czy llms.txt jest potrzebny?

Na ten moment llms.txt nie jest szczególnie potrzebny – może to być jednak ciekawe narzędzie do zarządzania instrukcjami dla modeli LLM, o ile boty zaczną go sprawdzać.

Jeśli strona internetowa nie jest dobrze zoptymalizowana, to Twoim priorytetem powinny być najpierw odpowiednie działania SEO. Dodatkowy plik raczej Ci nie pomoże, gdy zaniedbane są podstawy – dobry serwer, szybkie ładowanie strony, wysokiej jakości treści itd.

Autor

Katarzyna Żołna's picture

Katarzyna Żołna

Zajmuje się tworzeniem treści w SEMSTORM. Swoje doświadczenie związane z content marketingiem zdobywała podczas pracy jako specjalista, a następnie koordynator zespołu e-commerce w jednym ze sklepów z branży wyposażenia wnętrz.

Przeczytaj także

Komentarze