- AI iskalniki potrebujejo dostop: pravilno konfiguriran
robots.txtin neblokirani boti. - Vsebina mora biti dostopna brez JavaScript izvajanja (SSR ali SSG, ne le CSR).
- Strukturirani podatki v formatu JSON-LD so obvezni za jasno ekstrakcijo.
- Hitrost in semantična HTML struktura odločata, ali boste pridobljeni in citirani.
Zakaj so tehnični pogoji za AI specifično GEO problem
Tehnične zahteve za AI iskanje se s klasičnim tehničnim SEO prekrivajo, vendar dodajo plast: dostop do različnih botov, vsebino brez JS, strukturirane podatke za ekstrakcijo in hitrost, ki preživi agresivne časovne omejitve retrieval sistemov.
Vzpon AI crawlerjev: zakaj tehnična priprava ni več opcijska
V analizi The rise of the AI crawler sta Vercel in MERJ pokazala, da je GPTBot v enem mesecu ustvaril 569 milijonov zahtevkov v Vercelovem omrežju, Claude 370 milijonov, AppleBot 314 milijonov, PerplexityBot pa 24,4 milijona. Za primerjavo: Googlebot je v istem obdobju ustvaril 4,5 milijarde zahtevkov. To pomeni, da omenjeni AI crawlerji skupaj dosegajo približno 1,3 milijarde fetchov oziroma malo več kot 28% Googlebotovega obsega.
| Crawler | Obseg v analiziranem mesecu | Praktičen pomen za GEO |
|---|---|---|
| Googlebot | 4,5 milijarde fetchov | Še vedno glavni referenčni crawler za klasično indeksiranje in Google AI funkcije. |
| GPTBot | 569 milijonov fetchov | OpenAI promet je dovolj velik, da ga je smiselno ločeno spremljati v logih. |
| Claude | 370 milijonov fetchov | Claude crawlerji kažejo drugačne vzorce dostopa, zato splošno pravilo za Googlebot ni dovolj. |
| AppleBot | 314 milijonov fetchov | Apple Intelligence dodaja nov sloj AI odkrivanja vsebine. |
| PerplexityBot | 24,4 milijona fetchov | Manjši obseg, a zelo neposredna povezava z odgovorom in citatom v AI iskanju. |
Za lastnika strani je ključna posledica preprosta: AI vidnost ni samo vprašanje vsebine, ampak tudi vprašanje strežniških logov, crawler pravil, URL higiene in tega, ali je najpomembnejša informacija vidna v začetnem HTML odzivu.
Dostop AI iskalnikov do vaše strani (AI crawlers)
robots.txt treba obravnavati posebej. Pravilo "dovoli Googlebot" ne pokrije ničesar drugega - Gemini ima ločen bot (Google-Extended), OpenAI uporablja tri različne bote, Perplexity in Anthropic prav tako vsak po več.| Bot | Lastnik | Tip | Privzeto priporočilo |
|---|---|---|---|
| GPTBot | OpenAI | trening | dovoli |
| OAI-SearchBot | OpenAI | iskanje (živi retrieval) | obvezno dovoli |
| ChatGPT-User | OpenAI | uporabniško brskanje | dovoli |
| PerplexityBot | Perplexity | iskanje + trening | obvezno dovoli |
| Perplexity-User | Perplexity | uporabniško brskanje | dovoli |
| ClaudeBot | Anthropic | trening + retrieval | dovoli |
| Google-Extended | trening (Gemini) | dovoli | |
| Googlebot | klasičen index + AI Overviews | obvezno dovoli | |
| Bingbot | Microsoft | index + Copilot | obvezno dovoli |
| CCBot | Common Crawl | trening (mnogi modeli) | dovoli |
| Applebot-Extended | Apple | trening (Apple Intelligence) | dovoli |
| Meta-ExternalAgent | Meta | trening | dovoli |
Najpogostejša napaka: stari robots.txt predloški blokirajo GPTBot ali Google-Extended privzeto, kar prepreči vključitev vsebine v AI odgovore. Preverite svoj robots.txt, preden začnete s katero koli GEO strategijo.
Za najnovejša pravila in User-Agent podatke preverite uradno dokumentacijo: OpenAI crawlers in Perplexity crawlers.
Novejša funkcija "Block AI bots" s preprostim klikom popolnoma onemogoči AI vidnost. Če je vklopljena, jo izklopite ali natančno konfigurirajte.
Minimalna varna konfiguracija v robots.txt
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://vasadomena.si/sitemap.xmlUpravljanje AI botov: search, trening, uporabniški fetch in WAF
OpenAI v dokumentaciji za svoje crawlerje ločuje OAI-SearchBot, GPTBot in ChatGPT-User. OAI-SearchBot je namenjen prikazu strani v ChatGPT search rezultatih; GPTBot je povezan s treniranjem modelov; ChatGPT-User pa se uporablja pri določenih uporabniških dejanjih v ChatGPT in Custom GPT-jih. Ta razlika je pomembna: lahko želite dovoliti iskalno vidnost, hkrati pa drugače obravnavati uporabo vsebine za trening.
Podobno Perplexity v svoji dokumentaciji za PerplexityBot in Perplexity-User ločuje avtomatsko indeksiranje od uporabniško sproženih obiskov. Pri WAF pravilih zato ni dovolj ujemanje po User-Agentu; priporočljivo je kombinirati User-Agent in uradne IP razpone, ki jih ponudnik objavlja v JSON endpointih.
| Tip bota | Primeri | Kaj storiti |
|---|---|---|
| Search / retrieval | OAI-SearchBot, PerplexityBot, Googlebot, Bingbot | Dovolite dostop, če želite vidnost v AI odgovorih in citatih. |
| Training | GPTBot, Google-Extended, Applebot-Extended, Meta-ExternalAgent | Odločitev vežite na politiko vsebine, avtorske pravice in poslovni model. |
| User-triggered fetch | ChatGPT-User, Perplexity-User | Pričakujte obiske, ko uporabnik zahteva branje URL-ja ali povzetek strani. |
| WAF allow/block | Cloudflare WAF, AWS WAF, Vercel Firewall | Pravila kombinirajte z User-Agentom in IP razponi; redno preverjajte loge. |
Če je robots.txt odprt, WAF pa bota blokira z 403, AI iskalnik še vedno ne more prebrati vsebine. GEO audit mora zato preveriti oba sloja: javna crawler pravila in dejanski HTTP odziv za posamezne bote.
llms.txt - stanje in priporočilo
llms.txt je predlagana konvencija, ne potrjen citatni signal. Datoteka v korenu domene (/llms.txt) povzame ključno vsebino strani za velike jezikovne modele. Glavni ponudniki (OpenAI, Google, Anthropic) javno ne potrjujejo, da jo upoštevajo, vendar je strošek implementacije skoraj ničen.Obravnavajte jo kot tehnično higijeno, ne kot vzvod. Več vrednosti dobite iz pravilno konfiguriranega robots.txt in JSON-LD označb kot iz llms.txt.
Kaj AI crawlerji ne vidijo: JavaScript, 404 in vsebinski tipi
Vercel/MERJ analiza ugotavlja, da crawlerji OpenAI (OAI-SearchBot, ChatGPT-User, GPTBot), Anthropic ClaudeBot, Meta-ExternalAgent, Bytespider, PerplexityBot in CCBot ne renderirajo strani z JavaScriptom. Gemini uporablja Googlovo infrastrukturo in zato lahko renderira podobno kot Googlebot, AppleBot pa uporablja brskalniški crawler, ki obdeluje JavaScript, CSS, Ajax in druge vire.
Pomemben detajl: ChatGPT in Claude sicer pogosto prenašata JavaScript datoteke (v analizi 11,50% oziroma 23,84% zahtevkov), vendar jih ne izvajata. Če je vsebina samo v client-side renderingu, jo lahko crawler prenese kot kodo, ne pa kot razumljiv članek, produktni opis ali navigacijo.
| Opazovanje iz crawler logov | Podatek | Tehnična posledica |
|---|---|---|
| ChatGPT prioritizira HTML | 57,70% fetchov na nextjs.org je bilo HTML vsebine. | Ključni odgovor, title, meta opis in glavna navigacija naj bodo v HTML. |
| Claude veliko pobira slike | 35,17% Claude fetchov so bile slike. | Slike naj imajo opisne alt atribute, stabilne URL-je in dostopne CDN vire. |
| 404 poraba je visoka | ChatGPT 34,82% fetchov na 404; Claude 34,16%. | Stari asseti, napačni URL-ji in slabe preusmeritve lahko zapravijo AI crawl budget. |
| Googlebot je učinkovitejši | Googlebot je imel 8,22% fetchov na 404 in 1,49% na preusmeritve. | AI crawlerji so manj zreli, zato potrebujejo še čistejše sitemape in URL vzorce. |
Google za svoje AI funkcije v Search Central dokumentaciji poudarja, da so običajne SEO osnove še vedno relevantne za AI Overviews in AI Mode: Googlebot ne sme biti blokiran, stran mora biti indeksabilna, glavna vsebina jasna, uporabniška izkušnja dobra, slike in video pa podpirajo multimodalno iskanje.
Dostopnost vsebine brez JavaScript (SSR/SSG vs CSR)
Tri možnosti za AI-dostopnost:
- SSG (Static Site Generation) - najboljša izbira za vsebinske strani. Orodja: Astro, Next.js v
output: 'export', Nuxtgenerate, Eleventy. - SSR (Server-Side Rendering) - robusten za dinamično vsebino. Orodja: Next.js, Nuxt, SvelteKit, Remix.
- CSR (Client-Side Rendering) - izogibajte se za GEO ključne strani.
Dostopnost preverite z enostavnim ukazom v terminalu:
curl -s https://vasadomena.si/vasa-stran | grep -i "vaša ključna fraza"Če curl vašo frazo najde, je vsebina dostopna AI iskalnikom. Če je ne najde, vsebina obstaja samo po izvedbi JavaScripta - in v AI iskanju je izgubljena.
Strukturirani podatki (Schema.org / JSON-LD)
Ključne sheme za GEO vidnost:
- Article ali TechArticle - za vsak vsebinski članek; vključite
author,datePublished,dateModified. - FAQPage - izjemno visok citatni potencial za AI odgovore.
- HowTo - postopki in vodniki po korakih.
- Organization in Person - entitetna avtoriteta blagovne znamke in avtorja.
- BreadcrumbList - strukturna jasnost in jasen prikaz hierarhije.
- Product, Event, Recipe - kjer je smiselno glede na vsebino.
Veljavnost vedno preverite z orodjema Google Rich Results Test in Schema.org Validator. Več o tem, zakaj so strukturirani podatki temelj GEO, je razloženo v vodniku Kaj je GEO optimizacija.
Hitrost in Core Web Vitals
- LCP (Largest Contentful Paint) < 2,5 s
- INP (Interaction to Next Paint) < 200 ms
- CLS (Cumulative Layout Shift) < 0,1
Merite v PageSpeed Insights - realne uporabniške podatke (CrUX), ne le sintetične vrednosti laboratorijskega testa.
Semantična HTML struktura in indeksabilnost
<article>, <section>, <main> in <nav>; ohranite eno <h1> na stran in logično <h2> / <h3> hierarhijo; tabele zapišite v <table>, ne v <div> mreže.Hkrati poskrbite za osnovno HTTP higieno: status 200 na ključnih straneh, brez nehoteno nastavljenega noindex, čisti kanonični URL-ji, HTTPS s TLS, veljaven XML sitemap in pravilne 301 preusmeritve. Vsaka slika naj ima opisni alt - AI modeli ga berejo kot vsebinski signal, ne le kot dostopnostni element.
Tehnični kontrolni seznam za AI vidnost
robots.txtdovoljuje OAI-SearchBot, PerplexityBot, ClaudeBot, Google-Extended, Googlebot in Bingbot.- Cloudflare "Block AI bots" je izklopljen ali natančno konfiguriran.
- Vsebina je dostopna brez JavaScript (preverjeno s
curl). - JSON-LD sheme (Article + FAQPage + BreadcrumbList + Person) so prisotne in veljavne.
- LCP < 2,5 s, INP < 200 ms, CLS < 0,1 v PageSpeed Insights.
- Ena
<h1>na stran in logična hierarhija<h2>/<h3>. - HTTPS, čisti kanoniki, brez nehoteno nastavljenega
noindex. - Veljaven XML sitemap, brez 404 ali soft-404 na ključnih straneh.
- Opisni
altatributi na vseh ključnih slikah. - Stran je mobilno prilagojena,
viewportmeta je nastavljen.
Najpogostejše tehnične napake, ki prikrijejo vsebino pred AI iskalniki
- Blokirani AI boti v starem
robots.txt. Predloški iz 2023 in 2024 pogosto blokirajo GPTBot ali Google-Extended privzeto. - Cloudflare "Block AI bots" vklopljen. Z enim klikom onemogoči vso AI vidnost.
- Vsebina samo v JavaScriptu. CSR aplikacije brez SSR ali SSG so za AI iskalnike prazne.
- Manjkajoč ali napačen JSON-LD. AI sistemi strani ne morejo strukturno razumeti.
- Slab TTFB in slab LCP. Retrieval timeout vas odreže pred branjem.
- Podedovan
noindexiz staging okolja. To je pogosta "tiha" napaka po lansiranju. - Blokirana CDN poddomena za AI bote. Slike in podatki niso dostopni, čeprav je glavna domena odprta.
Pogosta vprašanja
Ne. GPTBot je crawler OpenAI za treniranje modelov ChatGPT in nima vpliva na klasično Googlovo uvrstitev. Vpliva pa na to, ali bo vaša vsebina del prihodnjih različic modela.
Da, če želite, da Google Gemini in povezani AI sistemi vključujejo vašo vsebino v odgovore. Google-Extended je ločen signal od Googlebot in ga nekateri robots.txt predloški privzeto blokirajo.
llms.txt dejansko deluje?Njena uporaba pri večjih ponudnikih ni javno potrjena. Implementirajte jo kot poceni higieno, ne kot zanesljiv citatni vzvod.
Preverite strežniške dnevnike (server logs) ali analitiko CDN-ja, na primer Cloudflare Analytics, za User-Agent stringe omenjenih botov. Če v zadnjem mesecu ni nobenega obiska s strani OAI-SearchBot ali PerplexityBot, vaša stran v praksi ni del AI iskanja.
Cloudflare ima vgrajeno funkcijo "Block AI bots", ki je v nekaterih paketih vklopljena privzeto. Preverite nastavitve, preden začnete z GEO strategijo - to je najpogostejša "skrita" tehnična ovira.
Za ključne vsebinske strani je SSR ali SSG močno priporočljiv. Večina AI crawlerjev ne izvaja JavaScripta, zato mora biti glavna vsebina, navigacija in meta informacija prisotna že v začetnem HTML odzivu. Client-side rendering lahko ostane za izboljšave vmesnika, ne pa za vsebino, ki jo želite imeti v AI odgovorih.
robots.txt?Ne vedno. robots.txt je potreben prvi korak, vendar lahko WAF, CDN pravila, rate limiting ali blokirani IP razponi še vedno preprečijo dostop. Zato pri tehničnem GEO auditu preverite tudi dejanske HTTP odzive, strežniške dnevnike in ali bot vidi status 200 na ključnih URL-jih.
Osnovni pregled naredite po vsaki večji spremembi strani, CMS-ja, CDN-ja ali robots.txt pravil. Pri pomembnih vsebinskih straneh je smiselno mesečno preveriti crawler loge, statusne kode, sitemape in veljavnost strukturiranih podatkov, ker se pravila AI botov in WAF nastavitve hitro spreminjajo.
Zaključek
Vaš prvi korak ni boljša vsebina, ampak zagotovilo, da je obstoječa vsebina za AI iskalnike sploh dosegljiva.
Več o tem, kaj GEO optimizacija je in zakaj je tehnična plast le ena od štirih, najdete v vodniku Kaj je GEO optimizacija.
