Správny prístup k Sitemapám

Pred mesiacom sme vás informovali o spôsobe používania kanonických URL, s ktorými čiastočne súvisia aj Sitemapy. Ich použitím môžete pomôcť robotovi vo vnímaní vášho webu a spôsobe správania sa pri jeho crawlovaní.

Sitemap je XML súbor obsahujúci informácie o vašich stránkach. Jednoduchý príklad Sitemapy je zoznam URL s dátumom poslednej zmeny dokumentu, frekvenciou zmeny obsahu a prioritou:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/sitemap/0.9">
  <url>
    <loc>http://www.example.com/products</loc>
    <lastmod> 2009-09-22</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>http://www.example.com/companies</loc>
    <lastmod> 2009-09-22</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://www.example.com/feedback</loc>
    <lastmod> 2009-09-22</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Odporúčania

Prioritou dokumentu by mala byť hodnota v intervale medzi 0 a 1, kde 1 znamená vyššiu prioritu.

Sitemapy odporúčame využiť hlavne v prípadoch, keď stránka obsahuje odkazy napríklad len vo flash aplikácii a robot nie je schopný tieto odkazy nájsť iným spôsobom. Ďalším dôvodom použitia je možnosť povedať robotovi, ktoré z vašich stránok sú dôležitejšie pre obchádzanie robotom a reindexovanie.

Všetky vaše Sitemapy by mali byť uvedené v súbore robots.txt. Pre uloženie zoznamov vašich Sitemap je možné použiť aj tzv. Sitemap Index súbory, môžu však obsahovať len odkazy na Sitemapy z toho istého webserveru. Sitemapy sú XML súbory, náš SeznamBot je však schopný spracúvať aj textové súbory, RSS, alebo Sitemapy a Sitemap Indexy skomprimované gzip metódou. Pri vytváraní Sitemapy sa vyvarujte chybám z nepozornosti, napr. aby stiahnutie Sitemapy nebolo zakázané nejakým iným pravidlom v robots.txt. Sitemapa tiež nesmie porušovať niektoré z pravidiel pre tvorbu Sitemap, napr. musí obsahovať menej ako 50tis. položiek, nekomprimovaná musí mať menej ako 10MB a pod.).

Ďalšie informácie

V budúcnosti plánujeme rozšíriť podporu Sitemap o XML element <delete><url>…</url></delete> pre prípad, že by ste za rozhodli urýchliť odstránenie vášho dokumentu z vyhľadávania. Nateraz môžete tento typ elementu do vašich Sitemap implementovať, o spustení plnej podpory vás budeme informovať.

Ďalšie informácie o Sitemapách nájdete na stránkach nápovědy a na stránkach špecifikácie sitemaps.org. Prípadné otázky, skúsenosti a pripomienky k Sitemapám môžete písať do diskuse pod článkom.

Časté otázky k Sitemapám

  • Může být v robots.txt více Sitemap?
    Ano, dokonce i víc Sitemap Indexů.
  • Co když neuvedu datum?
    URL bude spracúvaná podľa bežných pravidiel.
  • Co když neuvedu prioritu?
    Všetky URL zo Sitemapy budú mať prioritu rovnakú a SeznamBot si určí prioritu sám. Ten istý prípad ako priorita 1 pre každú URL.
  • Jak v Sitemapě vyznačím kanonizaci?
    URL uvedené v Sitemape vníma SeznamBot ako kanonické.
  • Můžu Sitemapu nějak prozradit jenom SeznamBotovi, aby si je nestahovali jiní zákeřní roboti?
    Nie. Tag Sitemap je podľa špecifikácie nezávislý od User-Agent.
  • V jakém formátu může být čas?
    Podľa špecifikácie by mal byť dátum a čas vo formáte W3C Datetime, napr. YYYY-MM-DD.
  • Můžu v Sitemapě používat relativní URL?
    Nie, v Sitemape musia byť uvedené absolútne URL (viď Fulltext nápověda).
  • V jakém kódování může Sitemapa být?
    Všetky hodnoty v Sitemape musia byť escapeované a samotný súbor musí byť v kódovaní UTF-8.
Rubrika: Robot

Komentáře k článku: Správny prístup k Sitemapám

  1. Autor: Mirek | 28.7.2011 | 18:24

    [1]Tohle je dobre vedet. Doufam ze bude brzy sprovoznen element <delete>

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  2. Autor: SEO služby | 7.8.2011 | 09:52

    [2]Jak moc má priorita vliv na indexovacího robota?

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  3. Autor: Lydie | 11.8.2011 | 17:30

    [3]Vadí nějak robotovi, když jsou v sitemap údaje jedné stránky v jednom řádku? Např.: <url><loc>http://www.example.com/products</loc><priority>0.8</priority></url>

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  4. Autor: Lydie | 11.8.2011 | 17:41

    [4]Jakým způsobem se zapíše existence více souborů sitemap do robots.txt? A mohou se soubory jmenovat libovolně? Třeba nějak takto? User-agent: * Allow: / Sitemap: http://www.levne-snubni-prsteny.cz/mapka1.xml http://www.levne-snubni-prsteny.cz/webomapka2.xml http://www.levne-snubni-prsteny.cz/mapowebovka3.xml

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  5. Autor: pavol | 15.8.2011 | 09:41

    [5][2] Prioritou určujete ako je pre vás daná stránka spomedzi všetkých dôležitá. Pre nás to znamená, že aj pre používateľov sú tie dokumenty prínosnejšie. Z tohto dôvodu má priorita pre robota značnú váhu. Postupom času môže byť táto priorita zneužívaná spammermi. Neskôr sa teda môže stať, že jej nastavíme menšiu váhu.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  6. Autor: pavol | 15.8.2011 | 09:43

    [6][3] Nevadí, aj v tomto prípade je to validné XML.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  7. Autor: pavol | 15.8.2011 | 09:47

    [7][4] Pre zapísanie viacerých súborov Sitemap do robots.txt použite pre každú z nich nový riadok začínajúci „Sitemap: http://…“ alebo ich uveďte v samostatnom súbore Sitemap Index.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  8. Autor: pavol | 15.8.2011 | 09:49

    [8][4] A áno, môžu sa volať ľubovoľne, ale v rámci zdravého uvažovania. Nejaké špeciálne znaky do názvu nepatria ;)

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  9. Autor: karel | 27.8.2011 | 20:45

    [9]pavle můžete mi poslat e maail potřeboval by jsme nějaký dotaz k vyhledávání ve fultextu. Děkujeme

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  10. Autor: pavol | 4.10.2011 | 21:50

    [10]všetky rozsiahlejšie dotazy prosím smerujte na našich administrátorov fulltextu: http://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/fulltext-kontaktni-formular/

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  11. Autor: Dave | 17.11.2011 | 15:48

    [11]Kdy zhruba plánujete zprovoznit element <delete>?

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  12. Autor: Franta | 2.12.2011 | 21:15

    [12]tak tato informace by me taky zajimala

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  13. Autor: Pedro | 5.12.2011 | 19:37

    [13]z hlediska optimalizace, je dobré mít sitemapu zaindexovanou ve vyhledávání?

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0