Czym jest plik llms.txt?
Plik llms.txt przedstawia modelom językowym (LLM) oraz botom wyszukiwarek AI (takim jak Perplexity czy SearchGPT) najważniejsze adresy URL w serwisie – opcjonalnie wraz z dodatkowymi informacjami (opis, detale).
Standard ten został zaproponowany przez Jeremy'ego Howarda w 2024 roku (oficjalna strona: https://llmstxt.org/). Jest to plik w formacie Markdown, umieszczany w katalogu głównym witryny (np. twojadomena.pl/llms.txt).
Plik zawiera:
- Krótki opis witryny.
- Listę najważniejszych linków do kluczowych podstron.
- Link do bardziej szczegółowego pliku ( llms-full.txt), który zawiera pełną treść zawartości witryny (np. całą dokumentację techniczną).
Przykładowy llms.txt z domeny OpenAI z opisanymi elementami pliku
Źródło: https://developers.openai.com/api/docs/llms.txt
Jaka jest różnica między robots.txt, llms.txt i sitemapą?
Sitemapę, robots.txt i llms.txt łączy z pewnością to, że są to pliki skierowane głównie do botów. Każdy z plików ma jednak nieco inne zastosowanie:
- robots.txt mówi crawlerom wyszukiwarki, które strony indeksować, a gdzie nie wchodzić;
- sitemap.xml (lub mapa strony w innym formacie) to uporządkowana lista stron w Twoim serwisie;
- llms.txt to lista najważniejszych adresów URL, skierowana konkretnie do botów AI.
Plik llms.txt bardziej przypomina sitemapę (mapę strony) niż robots.txt, mimo że z nazwy i miejsca ulokowania na serwerze kojarzy się bardziej z tym drugim.
Jednak llms.txt idzie o krok dalej niż zwykła sitemapa. Sitemapa to tylko „sucha” lista linków i dat ich aktualizacji. llms.txt zawiera opisy i szczegółowe informacje na temat sekcji i adresów URL.
Opinie na temat użyteczności llms.txt – za i przeciw
W branży SEO pojawiły się dwa obozy – zwolenników i przeciwników pliku llms.txt. Poniżej zebrałam najważniejsze argumenty obu stron.
|
Głosy „Za” |
Głosy „Przeciw” |
|
Ułatwia optymalizację pod wyszukiwarki AI |
Żadna z firm typu OpenAI czy Anthropic nie ogłosiła oficjalnie, że ich boty szukają tego pliku. Google wprost napisał, iż nie rekomenduje llms.txt, ponieważ nie ma on dla nich większego znaczenia |
|
Sam definiujesz, jak AI ma Cię streszczać |
Modele biorą pod uwagę informacje, które pochodzą z różnych źródeł. Mogą zignorować dane ze strony, jeśli są sprzeczne z tym, co piszą inni |
|
Oszczędność tokenów w przypadku stron przeładowanych JavaScript, reklamami i innymi formatami |
Boty AI i tak potrafią czytać HTML i go parsować; dedykowany plik może zostać po prostu pominięty |
|
llms.txt można znaleźć w domenach OpenAI, Claude czy Google |
Badania specjalistów SEO na ten moment pokazują, że boty AI nie sprawdzają tego pliku |
|
Plik w formacie łatwym do odczytania przez boty AI |
Plik .md (format Markdown) może być wykorzystywany do dodawania w nim elementów, których nie ma w kodzie HTML strony. W ten sposób potencjalnie można manipulować rankingiem (co wpisuje się w tzw. Black Hat SEO) |
Google a llms.txt
Żeby nie było zbyt łatwo ocenić przydatność llms.txt, Google postanowił dostarczyć sprzeczne sygnały związane z plikiem. Wygląda to trochę tak, jakby różne działy firmy działały w oderwaniu od siebie. Poniżej znajdziesz krótkie podsumowanie tej, nieco kuriozalnej, sytuacji.
Incydent z dokumentacją Google
Internauci zauważyli, że na podstronach pomocy Google pojawił się plik llms.txt. Wywołało to lawinę spekulacji. Było to dla wszystkich potwierdzenie, że standard jest przydatny.
John Mueller dementuje plotki
John Mueller (Google Search Advocate) wyjaśnił, że to nie była celowa strategia Google Search, a wynik aktualizacji wewnętrznego systemu zarządzania treścią (CMS).
Mueller porównał ten trend do dawnych meta keywords – czegoś, co brzmi dobrze w teorii, ale w praktyce nie ma wpływu na to, jak algorytm postrzega jakość strony. Google oficjalnie nie używa więc pliku llms.txt do ustalania pozycji w wynikach wyszukiwania.
Wypowiedź Johna Muellera w wątku na Reddicie
Źródło: https://www.reddit.com/r/TechSEO/comments/1k0kcx9/llmtxt_where_are_we_at/
Llms.txt zniknęły z witryn Google, ale... nie wszędzie
Po tej wpadce pliki usunięto, jednak nie ze wszystkich witryn, co ponownie rozbudziło czujność internautów. Znowu więc padło pytanie o rekomendacje dotyczące llms.txt. I tu pojawiła się dyplomatyczna odpowiedź Johna Muellera.
Żaden z tych plików nie jest domyślnie dostępny do odnalezienia, ponieważ nie znajdują się one na najwyższym poziomie witryny. Można śmiało założyć, że służą innym celom.
Źródło: https://www.reddit.com/r/SEO/comments/1q3uocw/does_llmstxt_really_used_by_ai/
llms.txt w audytach Lighthouse
Gdy wszyscy myśleli już, że sprawa została zakończona – mamy kolejny zwrot akcji. Audyt Lighthouse zaczął sprawdzać obecność llms.txt.
Artykuł o mitach w SEO
Wisienką na torcie stała się publikacja na stronie Google Search Central na temat optymalizacji witryny pod kątem funkcji opartych na gen-AI w wyszukiwarce.
Pojawił się tam nagłówek o aktualnych mitach w SEO z dopiskiem „czego nie musisz robić” – to właśnie tam jako pierwszy punkt pojawia się plik llms.txt.
Google jasno napisał, że ten pomysł można zignorować, ponieważ boty wyszukiwarki świetnie sobie radzą z odczytywaniem różnego rodzaju plików.
Czy LLM'y biorą pod uwagę plik llms.txt?
Obecnie mechanizmy gen-AI w Google opierają się właściwie na tradycyjnym indeksowaniu stron. Możliwości Google w skanowaniu różnego rodzaju plików będą pewnie jednak lepsze niż u niektórych dostawców LLMów. To między innymi w tym kontekście specjaliści dopatrują się użyteczności llms.txt.
Badania aktywności crawlerów, takie jak te, które przeprowadził Przemysław Charchan, z hukiem obalają twierdzenia sympatyków tego rozwiązania. Okazuje się bowiem, że boty AI ignorują plik i zamiast tego analizują i tak kod HTML strony.
Podobne spostrzeżenia mieli autorzy badania botów AI opublikowanego przez Search Engine Land. Sprawdzanych było 10 witryn – 90 dni przed wdrożeniem llms.txt i 90 dni po. Oto wnioski:
- Tylko na dwóch stronach doszło do zmian – na jednej do spadków ruchu, a na drugiej do jego wzrostu. Tylko że autorzy badania zauważają, iż to nie sam plik miał wpływ na te zmiany, a inne działania podjęte w międzyczasie.
- 8 z 10 domen nic nie uzyskało z dodania llms.txt.
To daje do zrozumienia, że boty AI radzą sobie z parsowaniem i potrafią wyodrębnić dane w odpowiednim dla siebie formacie.
Warto tu też podkreślić, że LLM'y nie działają w jednym standardzie. Nawet jeśli jakiś dostawca będzie bazował na odczytywaniu pliku llms.txt, nie oznacza, że wszyscy będą robić to samo i tak samo.
No i na koniec – czy llms.txt jest potrzebny?
Na ten moment llms.txt nie jest szczególnie potrzebny – może to być jednak ciekawe narzędzie do zarządzania instrukcjami dla modeli LLM, o ile boty zaczną go sprawdzać.
Jeśli strona internetowa nie jest dobrze zoptymalizowana, to Twoim priorytetem powinny być najpierw odpowiednie działania SEO. Dodatkowy plik raczej Ci nie pomoże, gdy zaniedbane są podstawy – dobry serwer, szybkie ładowanie strony, wysokiej jakości treści itd.




Komentarze