Jak princ v pohádce poznal, která princezna je ta pravá, když vypadaly všechny stejně? Taky mu někdo napověděl!
Světové vyhledávače Google, Yahoo a MSN Live ohlásily minulý týden podporu nové funkčnosti v HTML, jež umožňuje vyhledávači v případě skupiny velmi podobných stránek na Vašem webu napovědět, která stránka z této mnoziny je ta preferovaná. Příkladem může být eshop s jinak seřazeným výpisem produktů nebo stejný výrobek ve více různých kategoriích. Vyhledávače se momentálně s těmito duplicitami musí poprat po svém.
Webmaster sice může tyto situace řešit, ale dosti obtížně a někdy může být zkrátka naším cílem, aby uživatel viděl stejný obsah pod více různými url. V takovém případě však vyhledávač najde tento stejný či podobný dokument také a v indexu ho pak drží ve více kopiích, kde zabírá místo a kromě toho se dokumentu tříští zpětné odkazy.
Nyní se nabízí nové řešení, použít tag <link> a oznámit tak vyhledávači formu url, kterou považujeme za hlavní. Stačí do hlavičky stránky přidat:
<link rel="canonical" href="http://www.mojedomena.cz/cesta/ke/kanonickemu/url/" />
Robotu tato nová informace umožní držet dokument v indexu pouze jednou a spojit rank pro různé formy url. A nyní ještě několik pravidel:
- Cesta ke kanonickému url může být absolutní i relativní, doporučuje se absolutní, aby se snížila možnost špatné interpretace.
- Odkaz musí být v rámci stejné L2 domény, tedy může být na jinou subdoménu či z HTTPS formy na HTTP.
Kanonické linky je možné řetězit (A->B, B->C).
- Url spojená pomocí kanonického linku musí mít stejný či velmi podobný obsah, případně jinak uspořádaný.
A nyní to nejdůležitější, podporu zatím oznámil Google, přislíbily Yahoo a Microsoft. Nám se tato nová možnost označování duplicitního obsahu také líbí, prozatím budeme sledovat výskyt tohoto tagu na stránkách a v brzké době jeho podporu začleníme. Budeme se těšit na mnoho takto označených duplicitních url, pomůžete tak našemu robotovi i svým webovým stránkám.

[1]Paráda, tleskám. Kdyby se tak ještě webmasteři, blogeři a vůbec všichni, kdo kdy vytvořili něco, co má URL, o tu unikátnost obsahu snažili. Mnohdy se změnou adres systém zachová původní adresy (bez přesměrování) a majitel stránek nevidí důvod to řešit.
[2]„Vyhledávače… ohlásili“ – na konci má být tvrdé Y.
[3]Supr, tohle je cesta kupředu :) I když, to opravuje neschopnost lidí, a není to zrovna systémové…
[4]Výborně, tohle se mi jeví opravdu jako dobrý nápad. Pracuji hlavně z e-shopy, kde tento problém nastvává takřka pořád. Jedno zboží ve více odděleních by už mohlo být OK. Určitě jsem pro zavedení i pro seznam fulltext. Díky, dejte pak vědět až to bude i na seznamu aktuální.
[5]Parádní kopírování Google, super! Kluci seznamácký, vy máte ale inovativní myšlenky, tleskám!
[6][5] Milý Honzíku, né vždy je inovace ve smyslu Not Invented Here žádoucí. Někdy je potřeba se domluvit nebo přijmout shodu větších hráčů a usnadnit široké přijetí zajímavé myšlenky. Navíc to není kopírování Google, ale je to věc na které se dohdli s Yahoo Search a Live Search týmy.
[7]V zásadě dobrá myšlenka, jen jsem zvědavý za jak dlouho se objeví její zneužití… Třeba když jedna stránka odkazuje na druhou přes tento link tak probíhá interně ve vyhledávači její zdůraznění? Pokud ano tak bude užitečné aby i méně důležité stránky odkazovaly na tu hlavní – takže třeba na shopech budou obchodní podmínky odkazovat na hlavní kategorie :-( A jak se budou započítávat odkazy z takovéto podřízené stránky? Budou mít stejnou hodnotu nebo nižší než ostatní? Protože jestli budou mít nižší tak bude otázkou, jestli není lepší mít lehce duplicitní stránky kde to bude řešené jen postaru pomocí HTML ale přitom plnohodnotné odkazy na zbytek webu, nebo jestli mít sice lépe moderně vyřešenou možnou duplicitu ale přitom menší váhu vnitřních odkazů…
[8]To se mi libi, uz jsem si to dal do bugzilly. Aspon se zbavim https odkazu v googlu. Dalsi vec, ktera me trapi a nema reseni, je oznaceni samotneho obsahu stranky, ktery chci indexovat. Nebo naopak schovani kusu sablony, ktery je pro indexovani irrelevantni. Typicky na kazde strance mam stejne zpravicky, jez maji platnost jen par hodin a pak zmizi. Neni duvod, aby je bot bral v uvahu. Puvodne jsem uvazoval o tom, ze bych tyto casti botum skryval, ale na lupe me varovali, ze by to google chapal jako cloaking a potrestal nas za tuto snahu mu pomoci. Kez by se autori botu shodli i na nejake takove podpore. Treba pridat atribut k elementu, ktery se nema indexovat. PS proc captcha vyprsi, nez dopisu komentar? Fuj.
[9]Uau, cekal sem, ze to bude seznamu trvat nejmin 2 roky jako vzdycky… a ono ne. DEKUJI!
[10]Marek: Ano, ale proč bysme se my měli pořád přispůsobovat vyhledávačům, přece oni by se měli více přispůsobovat nám, ne? Jinak co se týče tohoto tagu, tak je to skvělý nápad, ale chci se zeptat; jelikož to aplikovali hlavní hráči, tak oni si navzájem prozradí své know-how pro to, jak upravit bota, aby interpretoval tento tag? Nebo je to relativně jednoduchá změna, co se týče implementace a vývoje (i pro Vás)?
[11]Rád bych se zeptal, pokud první adresu (domena.tld/bazeny/do-10m/typ-bazenu-abc.html) nechám přesměrovat na druhou, jakoby hlavní (domena.tld/detske-bazenky/typ-bazenu-abc.html), neztratí ona hlavní adresa klíčové slova z URL původní? V tomto případě bazeny/do-10m.
[12]Reaguju na Miloslava Stibůrka: vymyslet tu implementaci není až tak těžké. Know-how si vyhledávače vyměňovat moc nemusí. Reaguji na Petra: pokud canonický link vede na jinou L2 doménu, neměl by se brát v úvahu. V takovém případě platí to, co platilo doposud, že aby se odkazy počítaly ve prospěch jednoho cíle, je potřeba udělat přesměrování. Nevylučuju, že bude robot v budoucnu přihlížeč ke kanonickému linku i pokud povede napříč doménami, ale asi jenom ve výjimečných situacích, hlavně když existuje stejný obsah na více různých doménách. Ale možná ani to ne, ten link k tomuto AFAIK není určen, uvidíme.
[13]@Yuhů: v tom mém případě jsem měl na mysli jedinou doménu, typicky e-shop, kdy je jedno zboží k dispozici pod různými výpisy (cenové, obsahové, …). Tak jestli se tam ty kličová slova z URL započítávají nebo se ztrácejí.
[14]Tak dlouho jsme tu nebyli a koukáme, že Yuhů je již nějakou dobu z5 na Seznamu. Pročpak asi…
[15]Reaguju na Petra: kanonický link by se měl brát v úvahu jenom v tom případě, kdy jsou obě stránky duplicitní nebo velmi podobné. Jestliže nejsou velmi podobné, link se nevezme v úvahu. Takové podobné stránky budou mít stejná „klíčová slova“, ať už pod tím myslíme cokoliv. Takže se nemají proč „ztrácet“. Jestliže by měly obě stránky jiná „klíčová slova“, pak by robot neměl neměl link vzít v úvahu.
[16]Jenom se chci zeptat jestli musi byt uzavrena smycka. Jenom me zarazi, ze kdyz si nekdo zkopiruje obsah mych stranek a uverejni ho jako svuj vlastni, tak dostane hodnoceni jako muj originalni web. Neni o trochu nefer? Jak proti tomu hodlate pripadne bojovat?
[17]Unreal][: Naopak by to nemela byt uzavrena smycka, kdyz tim chces robotovi napovedet, ktera z tech stejnych(hodne podobnych) stranek je ta hlavni, a ktera se ma nakonec objevit ve vysledku hledani. Pokud se jedna o nejakou „lacinou“ kopii, tak original ve vysledku v naproste vetsine pripadu jasne zvitezi. U propracovanejsich „padelku“ to asi muze resit pouze autor dohodou, nebo soudni cestou.
[18][3]: Vezměte si jako příklad kalendáře, kde máte např. stejný obsah pod „náhledem dnes“ i pod „náhledem 25.2.2009″. Je jasné, že „náhled 25.2.2009″ bude kanonický a kam bude odkazovat „náhled dnes“ se bude lišit podle příslušného dne…
[19]Neomezený přístup do databáze Trans Už více jak měsíc databáze Trans nabízí svým uživatelům neomezený přístup do Transu. Stačí mít po ruce počítač připojený k internetu. K získání plného přístupu ke všem aktuálním údajům v databázi Trans není už nutná instalace programu Trans v počítači. Stačí si pamatovat svůj identifikátor TransId a heslo pro přístup do vlastního účtu. Pomocí těchto údajů je možné se zalogovat do Databáze Trans On-line www.logintrans.cz www.trans.eu
[20]Petr Tomášek: u kalendaru bych spis doporucil rel=nofollow :) Prispevek 19 prosim zmoderujte.
[21]Diky panove ze Seznamu, same dobre zpravy ;) jen tak dal
[22][20] Tak to teda nechápu proč. I v kalendářích bývají informace hodné indexace a indexovací robot by měl být natolik inteligentní, aby to s rekurzí nepřeháněl…
[23]Hlasim duplicitu: http://www.melodienamobil.eu/ a http://melodie-do-mobilu.melodienamobil.eu/ Patri k Seo f. PiXolo
[24]Hlasim dalsi duplicitu: http://search.seznam.cz/?q=barman => 1.www.barmanshow.cz 2.www.extraobchod.eu/barman-shop/ 3.www.barman-show.eu/ 4.www.michanenapoje.cz Vse patri k SEOfirme PiXolo !!!
[25]Duplicita: http://www.partyparniky.cz/ a http://www.europe-rp.cz/
[26]Hlasim duplicitu, opravuji: http://www.melodiedomobilu.eu/ a http://www.melodienamobil.eu/
[27]moc pěknej článek. Ale neni to nic novýho a to je vlastně dobře.
[28]Podařila je již implementace? Nebo se stále jen jen vyhodnocuje četnost a korektnost použití?
[29]Nebo je to relativně jednoduchá změna, co se týče implementace a vývoje (i pro Vás)?
[30]Tak jak to vypadá ? Nebyla by nějaká informace o tom kdy to nastane ?
[31]také by mě podpora zajímala jestli je to již zprovozněné.
[32]není jasno kam , do krterých stránek nebo kam jinam kód link přidat. Dokonce mi to zní opačně!: http://www.google.com/support/webmasters/bin/answer.py?hl=cs&answer=139066#3
[33]Ako to prosím vyzerá s podporou rel canonical?
[34]Zdá se, že už to Seznam začal podporovat: http://seznam.pr.sblog.cz/2011/05/30/484