Vyjasnění hodnot, které se zobrazují ve statistikách navštěvnosti dotazů u našeho hledání.
Čas od času se na inetu rozjede debata, co vlastně znamenají čísla ve statistikách hledanosti dotazů na Seznamu; jako třeba teď zde. Rozhodl jsem se proto podat vám k tomu výklad, abyste už nemuseli dále tápat :-)
Čísla znamenají průměrný počet hledání konkrétního dotazu za určitou dobu.
Jako „hledání“ se bere zobrazení jedné stránky výsledku, čili pokud uživatel prohlédne první 3 stránky výsledku zobrazí se to jako 3 hledání. V číslech nejsou promítnuty roboti a další automatické scripty.
Dotazy prochází jednoduchou normalizací, aby se setřely rozdíly např. velká/malá písmena. Normalizace je: odstranění diakritiky, převedení na lower case a seřazení slov podle abecedy. Z hlediska statistik jsou tedy všechny dotazy vytvořené ze stejné množiny slov identické (to odpovídá zároveň na otázku, proč jsou slova v tabulce „Nejhledanější dotazy obsahující XY“ seřazena tak podivně). Z hlediska fulltextového vyhledávání jinak samozřejmě na pořadí a tvaru slov závisí.
Statistiky se počítají pro přesnou shodu (započítávají se dotazy tvořené právě zvolenou množinou slov), pro rozšířenou shodu (započítávají se dotazy, které tvoří nadmnožinu právě zvolené množiny slov) a pak se ještě agreguje tabulka nejčastějších rozšíření dotazu.
A teď k tomu co způsobuje nejčastější pochybnosti o věrohodnosti čísel :-) Na stránce statistik jsou zobrazeny dvě různé hodnoty, které se počítají ze dvou různě dlouhých období (tato informace bohužel ze statistik není úplně zřejmá; nějak to zkusíme upravit aby to dál už nemátlo…). Konkrétně:
- údaje návštěvnosti pro přesnou a rozšířenou shodu (tabulka napravo od grafu) jsou počítané jako průměr za posledních 60 dní (platí pro oba grafy; je vidět že graf pokrývá přesně 2 měsíce),
- tabulka nejčastějších rozšíření dotazů (na stránce statistik dole) je počítaná jako průměr za 14 dní. Sporný je právě první řádek tabulky (šedivě podbarven), který obsahuje průměrný údaj za 60 dní (zkopírované z horních grafů), kdežto zbytek tabulky jsou údaje za 14 dní. Správnější údaj jsme bohužel v tomto místě neměli k dispozici :-(
Čísla se liší tím více, čím dramatičtější změna v návštěvnosti byla v poslední době.
Příklad
Záměrně použiji stejný příklad „valentynské dárky“ jako ve výše zmíněné diskuzi u Michala Kubíčka. Nejprve statistiky návštěvnosti (datum 12. 2. 2009):

graf „přesná shoda“ pro dotaz „valentynské dárky„, průměr 485 hitů/den.
Průměr pro rozšířenou shodu je 895 hitů/den (graf opět podobný).
A teď jaký je rozdíl mezi těmito dvěma údaji pro „valentynske darky“ (pěkné obrázky jsem si vypůjčil z webu Michala Kubíčka):

první řádek (viz předchozí text) jsou průměry za posledních 60 dní. Graf přesné shody pro valentynské dárky ale řiká, že návštěvnost se objevila pouze v poslední době, proto je dlouhodobější průměr tak nízký (hodnota menší jak 100 je indikována ‘-’).

třetí řádek obsahuje krátkodobé průměry z konce ledna. Indikovaná návštěvnost je tak vysoká, protože „valentynske darky“ tou dobou dosahovaly cca 2000 hitů/den.
Hlavním účelem statistik je poskytnout jednoduše dostupný přehled v trendech návštěvnosti dotazů. Hodnoty se zobrazují pouze na hledacím webu a není z nich odvozováno nic dalšího. My je používáme ke své práci stejně tak jako vy :-)
Alternativní použití našeptávače pro odhad návštěvnosti nelze vůbec doporučit – jím udávané hodnoty dnes už vůbec nesouvisejí s reálnou hledaností. Našeptávač lze použít pouze pro porovnání dvou slov v našeptávači mezi sebou, víc nic.

[1]Výborně, díky moc za vyjasnění.
[2]Díky, o tom rozdílném průměrování jsem si nebyl jistý. Jestli mohu, připojím ještě pár dotazů. Plánujete nějaké změny v těchto statistikách? Třeba snížení hranice 100 dotazů, od kterých se počítají? Je to tak výpočetně náročné, aby se to nedalo zvládat podrobněji? :-) Započítávají se všechny plochy, kde je vyhledávání Seznamu (myslím zbozi.cz, encyklopedie.seznam.cz atd.)? Díky za odpovědi
[3]Statistika je pocitana pouze z navstevnosti webu search.seznam.cz. Snizeni hranice – to je vykonove trochu problematicke, protoze je treba agregovat vsechny unikatni dotazy za poslednich 2 mesice, coz je trochu pruda ;-) Statistiky planujeme vyhledove poladit, aby byl jasny vyznam prezentovanych informaci.
[4]Bylo by dobré, kdyby se u zadaného slova (to které se objeví na prvním řádku) zobrazila hledanost i za posledních 14 dní (aby znal člověk hledanost i pokud je nižší než 100).
[5]Díky za vysvětlení. V podstatě to potvzuje to, co jsem psal v závěru, statistiky hledanosti ano, avšak hlavně jako ukazatel trendovosti. Jinak příští článek plánuju o skocích webů ve výsledcích:-)
[6]skoky webů ve výsledcích, to bude asi ještě zajímavější článek. A co bude zase o level dál, bude (doufám) reakce na to – už tohle byla dneska supr informace
[7]„pokud uživatel prohlédne první 3 stránky výsledku zobrazí se to jako 3 hledání“ Jakým číslem tedy doporučujete výsledek vydělit, abychom zjistili přibližný počet zadání klíčového slova? Předpokládám, že méně než dvěma?
[8]„Čísla znamenají průměrný počet hledání konkrétního dotazu za určitou dobu.“ Jaka je ta urcita doba ?:-)
[9][7] – jak definujete jedno hledání? co když uživatel dotaz upravuje? je rozdíl když opravuje překlep nebo přidává slova? [8] – čtěte dál, doba je buď 60 dní nebo 14 dní, záleží na údaji.
[10]Rád bych se zde u diskuse na statistiky hledání zeptal na jednu záležitost. Všiml jsem si, že se zřejmě předělávají zvláštní znaky na jejich entitni vyjádření – vidím v nejhledanějších dotazech „abbracci amp baci“ místo „baci & abbracci“. Je to tak schválně zamýšleno?
[11]Dobrý den, konečně článek, který mi velmi pomohl a upřesnil důlěžité informace. Zajímalo by mně, proč jsou slova ve statistikách psána podle abecedy? Tím se, dle mého názoru, ztratí částečně relevance vyhledávání. A ne všude se dá odvodit jaký byl výraz ve skutečnosti. Mohu se zeptat proč to tak je? Děkuji.
[12]zdar, normálně se ke starým diskuzím moc nedostávám, ale tady mě zaujaly příspěvky v seonawebu.cz. [10] a [11] – je to důsledek stejné věci – normalizace dotazů. systém který počítá statistiky „normalizuje“ dotazy aby je dokázal nějak relevantně zagregovat. mezi tím je právě seřazení slov podle abecedy a nahrazení special znaků apod. neřikám že je to dobře, už dlouho máme v plánu agregaci stats přepsat na vlastní implementaci aby čísla byla přesnější a podle toho jak bychom si přáli, ale je to prostě vlastnost jiného systému který používáme a který bohužel nejsme schopni upravovat :-(