Výber dokumentov do výsledkov hľadania

S nasadzovaním SeznamBota 3.0 vzniklo veľa otázok, pripájam o ňom ďalšie informácie pre lepšiu orientáciu v jeho funkčnosti a jeho vplyve na výsledky vyhľadávania.

Jedna z otázok bola, či Robot pracuje ako má, keď má nejaký web v hľadaní stále málo výsledkov. Faktom je, že Robot je rýchlejší a spracúva viac dokumentov. Pôvodný robot spracúval priemerne 300 stránok za sekundu, momentálne spracúva dokumenty tak rýchlo ako mu dovolí pripojenie k sieti a vyťaženie vašich serverov (približne 2000 dokumentov za sekundu). Ako napísal Robert 25.5., viac prístupov nového robota v porovnaní so starým ste mohli zaznamenať aj v access logoch vášho webserveru. Priebeh sťahovania URL za posledných 5 dní:

Tieto častejšie návštevy ale neznamenajú, že sa dokument dostane do vyhľadávania. Dokumenty sa nedostávajú priamo do databázy vyhľadávania, ale do archívu dokumentov, z ktorého sa neskôr vyberú kandidáti na indexáciu.

Približný počet dokumentov vášho webu vo vyhľadávaní môžete zistiť použitím operátora site. Napríklad z domény seznam.cz máme vo vyhľadávaní približne 16 tisíc dokumentov.

Náš Robot ich ale na tejto doméne pozná cez 860 tisíc. Na každej doméne porovná všetky tieto dokumenty a vyberie z nich najlepších pár percent ktoré pustí do „hľadacej“ databázy. Starý robot tieto informácie nespracúval a toto rozhodovanie bolo realizované na oveľa prostejšej úrovni. Ak sa teda hovorí o prínose nového robota do zlepšenia relevancie, prioritne ide o zaradenie kvalitnejších dokumentov do hľadania, nie o poradie dokumentu v hľadaní. Na vylepšení tejto výberovej funkcie stále pracujeme a zdokonaľujeme ju. V jednoduchosti je však stále najdôležitejšie, aby boli vaše stránky o niečom unikátnom, zaujímavom, aby ľudia pri návšteve nemali pocit že sa dostali niekam kam nechceli. Všetky vyhľadávače sa samozrejme svoje vyhodnocovanie snažia priblížiť vyhodnocovaniu bežného používateľa.

Ak ste urobili všetko pre to aby bol váš web zaujímavý a Robot napriek tomu stránku neindexuje, informujte nás o tom a možno nám pomôžete objaviť nejakú skrytú chybu.

Rubrika: Robot

Komentáře k článku: Výber dokumentov do výsledkov hľadania

  1. Autor: Unreal][ | 17.8.2011 | 19:16

    [1]Mohli byste nasadit operator link pro orientacni zjisteni zpetnych odkazu vedoucich na stranku.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  2. Autor: pali | 17.8.2011 | 20:54

    [2]ahoj Unreal][, v najblizsej dobe neplanujeme zavedenie operatora link

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  3. Autor: Marty | 17.8.2011 | 22:24

    [3]Mám tu jeden příklad, kde bych očekával více zaindexovaných stránek – jde o Vaše Sreality. Nyní je u nich zaindexováno 81 802 stránek http://search.seznam.cz/?aq=&oq=&sourceid=szn-HP&thru=&q=site%3Asreality.cz což je ale jen zlomek z celého počtu stránek, když vezmu v potaz, že je v systému téměř 200 000 nabídek nemovitostí. V tomto případě je problém u robota, nebo u algoritmu pro výběr stránek z archivu dokumentů?

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  4. Autor: Jirka | 17.8.2011 | 22:59

    [4][3] Problém bude ve webu, tedy v Srealitách. Většina realit je denně smazána a opětovně znovu vložena realitními kancelářemi, a to se děje stále dokola. Takže URL, která existují dnes zítra nebudou. To se nejspíš nedá rozumně zaindexovat :-)

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  5. Autor: Marty | 17.8.2011 | 23:08

    [5][4] V tom případě, proč to Google zvládá o mnoho lépe? :-) http://www.google.cz/#sclient=psy&hl=cs&source=hp&q=site:sreality.cz&pbx=1&oq=site:sreality.cz&aq=f&aqi=&aql=&gs_sm=e&gs_upl=1967l4676l0l4907l16l12l0l0l0l0l796l3245l0.5.3.1.0.1.1l11l0&bav=on.2,or.r_gc.r_pw.&fp=2c6f32128c952091&biw=1920&bih=991

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 1

      
  6. Autor: Pumpík | 18.8.2011 | 09:09

    [6][5]však seznam to za 5 let taky bude zvládat lépe :-) Seznam = Google – 5let :)

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 1

      
  7. Autor: Honza | 18.8.2011 | 12:21

    [7]Dobrý den, jak robot pozná, které stránky jsou a které nejsou „kvalitní“ a jak rozhodne které pustí a nepustí do fulltextu ? Jednodušší je přeci pustit(neregulovat) počet stránek a nedělat předvýběr(„cenzuru“) navíc robotem a nechat fulltext, aby si pro dotaz našel nejlepší výsledek ze všeho, co internet nabízí… nebo máte jiný názor ?

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  8. Autor: pavol | 18.8.2011 | 17:25

    [8]súhlasím, že by to bolo ideálne. Počet dokumentov vo fulltexte postupne zvyšujeme, ale s ohľadom na to aby sme boli schopní hľadať (odpovedať na dotazy) dostatočne rýchlo

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  9. Autor: LeGuardian | 19.8.2011 | 11:05

    [9]Web www.ceske-hospudky.cz existuje přes 8 let, je největší a nejpůvodnější českou databází lidmi přidávaných podniků a jejich hodnocení – je fakticky českým průkopníkem unikátního obsahu ve svém oboru působení pohostinství a jeho hodnocení). Přesto Seznam vpouští do SERPu jen sotva 4.000 stránek oproti 150.000 na Google (přitom v databázi je přes 10.000 unikátních podniků). Budu velmi vděčný za radu, jak pro Seznam učinit stránky „zajímavějšími“, aniž by začaly ztrácet na relevanci.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  10. Autor: feese | 20.8.2011 | 07:34

    [10]Pavol, díky za tato objasnění, vážím si jich. Nicméně znamená to, že pokud má e-shop 1200 produktů/stránek, Google indexuje 1180, Seznam pouze 650, tak prostě uživatel pomocí Seznamu polovinu z nich nemá šanci najít?

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  11. Autor: SAd | 22.8.2011 | 17:04

    [11]Tohle bude zase předvánoční fail.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  12. Autor: eL | 24.8.2011 | 08:28

    [12]A kdyz po vasem doporuceni nasadim na cely web kanonicke URL, nemuzu se s ohledem na tento vyber ze zaindexovanych stranek spis poskodit?

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  13. Autor: eL | 24.8.2011 | 08:32

    [13]„V jednoduchosti je však stále najdôležitejšie, aby boli vaše stránky o niečom unikátnom, zaujímavom, aby ľudia pri návšteve nemali pocit že sa dostali niekam kam nechceli.“ IMHO Pokud ma uzivatel tento pocit, neni to chyba autora cilove stranky, ale stranky, ktera na ni odkazala.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  14. Autor: Hawkey | 24.8.2011 | 10:41

    [14]Objevuje se mi stejná stránka (stejné URL) ve výsledcích Seznamu na dvě klíčová slova ve dvou různých podobách. (aktuální a starší) Je možné, že si Seznam uloží stránku víckrát a na různá klíčová slova vrací jiné verze? Dodnes jsem myslel, že když robot opakovaně načte stránku, tak ta stará verze automaticky zanikne.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  15. Autor: Kerry | 25.8.2011 | 05:17

    [15][11]- bojim bojim :-(

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  16. Autor: Marty | 26.8.2011 | 08:41

    [16]A nešlo, aby se zase index trochu probudil, min 2 týdny se zase výsledky nehnuly.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  17. Autor: KAREL | 26.8.2011 | 10:14

    [17]může i někdo napsat e mail kam je možné zaslat dotaz na seznam- odkazuji se na úvodní článek kde nějaký exert píše aby jsme jim kdyžtak v případě problémů napsali ale již nanapíše kam. Díky. viz zde kopie textu :Ak ste urobili všetko pre to aby bol váš web zaujímavý a Robot napriek tomu stránku neindexuje, informujte nás o tom a možno nám pomôžete objaviť nejakú skrytú chybu. – pavol -

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  18. Autor: petrox | 29.8.2011 | 12:46

    [18][12] K jakému „poškození“ by mělo/mohlo dojít?

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  19. Autor: petrox | 29.8.2011 | 12:51

    [19][14] potencionálně zajímavé – můžete uvést příklad? Různá podoba popisu stránky je celkem běžná věc. Když je jiný dotaz, tak je typicky i jiný snippet. Přitom odkazuje na stejnou verzi stránky. Ale třeba text titulku, který je v SERP vidět je vždy stejný.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  20. Autor: petrox | 29.8.2011 | 12:55

    [20][17] pro takové případy je tu http://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/fulltext-kontaktni-formular/ ke kterému se dá dostat např. z nápovědy pro vyhledávání.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  21. Autor: Hawkey | 12.9.2011 | 09:41

    [21][19] Právě že titulek je také jiný. Například web sicistroje-shop.cz ukazuje na dotaz http://search.seznam.cz/?q=šicí+stroj aktuální titulek, ale na jiný dotaz starší http://search.seznam.cz/?q=šicí+stroje

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  22. Autor: pali | 30.9.2011 | 03:04

    [22]Neviem či problém stále pretrváva, ak áno, skontaktujte sa prosím s našimi administrátormi fulltextu. Skúsil som výsledky dvoch hľadaní: http://search.seznam.cz/?q=%C5%A1ic%C3%AD+stroj+site%3Asicistroje-shop.cz a http://search.seznam.cz/?aq=-1&oq=šicí+stroje+site%3Asicistroje-shop.cz V týchto dvoch prípadoch sú titulky rovnaké.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  23. Autor: Jan Šich | 29.11.2011 | 09:20

    [23]Chtěl bych se zeptat, zda se prováděly v poslední době změny v robotovi. Přiznám se upřímně, že nevím zda mám stránky nějakým způsobem upravovat či ne, neboť je mi divné, že měsíc jsou na klíčové slovo zobrazeny na první pozici, pak na tři dny spadnou na pátou, potom zase 14 dní na první pozici a teď asi tři dny opět na páté. Přitom se jak u mě, tak u ostatních odkazů kolem mých stránek nic nezměnilo…

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0