Pred mesiacom sme vás informovali o spôsobe používania kanonických URL, s ktorými čiastočne súvisia aj Sitemapy. Ich použitím môžete pomôcť robotovi vo vnímaní vášho webu a spôsobe správania sa pri jeho crawlovaní.
Sitemap je XML súbor obsahujúci informácie o vašich stránkach. Jednoduchý príklad Sitemapy je zoznam URL s dátumom poslednej zmeny dokumentu, frekvenciou zmeny obsahu a prioritou:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/sitemap/0.9">
<url>
<loc>http://www.example.com/products</loc>
<lastmod> 2009-09-22</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/companies</loc>
<lastmod> 2009-09-22</lastmod>
<changefreq>monthly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://www.example.com/feedback</loc>
<lastmod> 2009-09-22</lastmod>
<changefreq>monthly</changefreq>
<priority>0.5</priority>
</url>
</urlset>
Odporúčania
Prioritou dokumentu by mala byť hodnota v intervale medzi 0 a 1, kde 1 znamená vyššiu prioritu.
Sitemapy odporúčame využiť hlavne v prípadoch, keď stránka obsahuje odkazy napríklad len vo flash aplikácii a robot nie je schopný tieto odkazy nájsť iným spôsobom. Ďalším dôvodom použitia je možnosť povedať robotovi, ktoré z vašich stránok sú dôležitejšie pre obchádzanie robotom a reindexovanie.
Všetky vaše Sitemapy by mali byť uvedené v súbore robots.txt. Pre uloženie zoznamov vašich Sitemap je možné použiť aj tzv. Sitemap Index súbory, môžu však obsahovať len odkazy na Sitemapy z toho istého webserveru. Sitemapy sú XML súbory, náš SeznamBot je však schopný spracúvať aj textové súbory, RSS, alebo Sitemapy a Sitemap Indexy skomprimované gzip metódou. Pri vytváraní Sitemapy sa vyvarujte chybám z nepozornosti, napr. aby stiahnutie Sitemapy nebolo zakázané nejakým iným pravidlom v robots.txt. Sitemapa tiež nesmie porušovať niektoré z pravidiel pre tvorbu Sitemap, napr. musí obsahovať menej ako 50tis. položiek, nekomprimovaná musí mať menej ako 10MB a pod.).
Ďalšie informácie
V budúcnosti plánujeme rozšíriť podporu Sitemap o XML element <delete><url>…</url></delete> pre prípad, že by ste za rozhodli urýchliť odstránenie vášho dokumentu z vyhľadávania. Nateraz môžete tento typ elementu do vašich Sitemap implementovať, o spustení plnej podpory vás budeme informovať.
Ďalšie informácie o Sitemapách nájdete na stránkach nápovědy a na stránkach špecifikácie sitemaps.org. Prípadné otázky, skúsenosti a pripomienky k Sitemapám môžete písať do diskuse pod článkom.
Časté otázky k Sitemapám
- Může být v robots.txt více Sitemap?
Ano, dokonce i víc Sitemap Indexů. - Co když neuvedu datum?
URL bude spracúvaná podľa bežných pravidiel. - Co když neuvedu prioritu?
Všetky URL zo Sitemapy budú mať prioritu rovnakú a SeznamBot si určí prioritu sám. Ten istý prípad ako priorita 1 pre každú URL. - Jak v Sitemapě vyznačím kanonizaci?
URL uvedené v Sitemape vníma SeznamBot ako kanonické. - Můžu Sitemapu nějak prozradit jenom SeznamBotovi, aby si je nestahovali jiní zákeřní roboti?
Nie. Tag Sitemap je podľa špecifikácie nezávislý od User-Agent. - V jakém formátu může být čas?
Podľa špecifikácie by mal byť dátum a čas vo formáte W3C Datetime, napr. YYYY-MM-DD. - Můžu v Sitemapě používat relativní URL?
Nie, v Sitemape musia byť uvedené absolútne URL (viď Fulltext nápověda). - V jakém kódování může Sitemapa být?
Všetky hodnoty v Sitemape musia byť escapeované a samotný súbor musí byť v kódovaní UTF-8.

[1]Tohle je dobre vedet. Doufam ze bude brzy sprovoznen element <delete>
[2]Jak moc má priorita vliv na indexovacího robota?
[3]Vadí nějak robotovi, když jsou v sitemap údaje jedné stránky v jednom řádku? Např.: <url><loc>http://www.example.com/products</loc><priority>0.8</priority></url>
[4]Jakým způsobem se zapíše existence více souborů sitemap do robots.txt? A mohou se soubory jmenovat libovolně? Třeba nějak takto? User-agent: * Allow: / Sitemap: http://www.levne-snubni-prsteny.cz/mapka1.xml http://www.levne-snubni-prsteny.cz/webomapka2.xml http://www.levne-snubni-prsteny.cz/mapowebovka3.xml
[5][2] Prioritou určujete ako je pre vás daná stránka spomedzi všetkých dôležitá. Pre nás to znamená, že aj pre používateľov sú tie dokumenty prínosnejšie. Z tohto dôvodu má priorita pre robota značnú váhu. Postupom času môže byť táto priorita zneužívaná spammermi. Neskôr sa teda môže stať, že jej nastavíme menšiu váhu.
[6][3] Nevadí, aj v tomto prípade je to validné XML.
[7][4] Pre zapísanie viacerých súborov Sitemap do robots.txt použite pre každú z nich nový riadok začínajúci „Sitemap: http://…“ alebo ich uveďte v samostatnom súbore Sitemap Index.
[8][4] A áno, môžu sa volať ľubovoľne, ale v rámci zdravého uvažovania. Nejaké špeciálne znaky do názvu nepatria ;)
[9]pavle můžete mi poslat e maail potřeboval by jsme nějaký dotaz k vyhledávání ve fultextu. Děkujeme
[10]všetky rozsiahlejšie dotazy prosím smerujte na našich administrátorov fulltextu: http://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/fulltext-kontaktni-formular/
[11]Kdy zhruba plánujete zprovoznit element <delete>?
[12]tak tato informace by me taky zajimala
[13]z hlediska optimalizace, je dobré mít sitemapu zaindexovanou ve vyhledávání?