Blogy       Lidé.cz       Spolužáci.cz       Hry.cz       Seznam       Email       Novinky.cz       Super.cz
Seznam Fulltext Blog
Vývojářský blog fulltextového vyhledávače Seznam.cz
20.11.2009 17:31 - Vyhledávání - trvalý odkaz

Nová verzia snippetov

Na searchtest sme nasadili novú verziu vyhľadávania, ktorej hlavnou zmenou sú nové snippety
Čo sú a na čo slúžia snippety
Vo fulltexte pod pojmom snippet rozumieme úryvok, ktorý zobrazujeme pre výsledok vyhľadávania. Snippety majú za účel poskytnúť užívateľom predstavu o obsahu stránky a ich voľba ovplyvňuje užívateľský zážitok pri vyhľadávaní a vplyv má aj na preklikovosť výsledkov.

Aké snippety sa snažíme tvoriť
Snažíme sa na malom priestore poskytnúť užívateľom čo najviac informácií, a preto zobrazujeme aj  snímky stránok. Teraz sme sa sústredili na tvorbu úryvku zo stránky. Veríme, že tento úryvok by mal súvisieť s dotazom, ktorý užívateľ zadal a mal by byť prehľadný.
Po novom vyberáme súvislejšie úryvky týkajúce sa hľadanej fráze a obsahujúce hľadané slová. Preferujeme prirodzený text, z ktorého vyberáme celé vety. V prípade, že na stránke takýto text nenájdeme, zobrazujeme okolia hľadaných slov. Texty, ktoré na stránke viditeľné nie sú, napríklad meta popis, momentálne nezobrazujeme.
Evidentným rozdielom oproti starým úryvkom je ich predĺženie najmä pri dlhých dotazoch. Taktiež sme pristúpili z nahradzovaniu vybraných nie alfa-numerických znakov, napríklad nahradzujeme ' | ' za   ', ', aby sme zjednotili vzhľad výsledkov.

Informácie k výsledkom
Nasadili sme aj nový algoritmus výpočtu relevancie, kde však nastali len drobné zmeny.
Zaujímajú nás najmä vaše postrehy a pripomienky k novým snippetom, za ktoré budeme vďačný. V prípade nájdených chýb nám najviac pomôžu konkrétne príklady.

-radofan-
04.11.2009 18:47 - Vyhledávání - trvalý odkaz

Nová verze už běží... v čem je jiná?

Jaký je rozdíl ve vyhledávání mezi starou a novou verzí fulltextu.
Jak jste již správně zaznamenali, nová verze fulltextového vyhledávání byla naostro spuštěna cca někdy před týdnem a půl. Nyní bych rád přiblížil co bylo podstatou změn.

Hlavní změna byla v lepším pochopení dotazu od uživatele a citlivějším zohlednění různých jeho částí. Co to prakticky znamená zkusím popsat na dotazu "vysoka skola ekonomicka v praze". Doufám, že tím uspokojím ty, kterým se zdál předchozí článek informačně nevýživný ;-)

Stará verze
Následující obrázek představuje jak bylo implementované hledání ve staré verzi.



Hledaly se dokumenty, které obsahovaly všechna slova přiměřeně u sebe. Hlubší vztahy slov nebo jejich významy se moc neřešily. Dotaz byl považován za vektor slov.

Nová verze
Následující obrázek představuje jak chápe stejný dotaz současná verze vyhledávání.



Hlavní změna je ta, že dotaz se rozloží do stromové struktury, která kopíruje význam jeho částí (zde je vidět roztržení dotazu na dvě části "vysoká škola ekonomická" a "v praze" - viz nejvrchnější AND operátor).
Stromová struktura sebou přináší daleko více operátorů, které upřesňují vyhodnocování jednotlivých částí stromu. Na slovní spojení "vysoká škola ekonomická" může tak být kladen jiný nárok (alias jiné nastavení vah) než na spojení "v praze" a na něj zase jiný, než na spojení obou částí dotazu dohromady.

Dále je na obrázku vidět, že v rozvoji dotazu je použito daleko více slov než jen ta, která zadal uživatel. Algoritmy se snaží pochopit co uživatel myslel a rozšířit dotaz tak, aby byla pravděpodobnost nalezení správné stránky co nejvyšší - viz fráze "vyskoká škola ekonomická" může být nahrazena zkratkou "VŠE" a "vysoká škola" zkratkou "VŠ".
Předložka "v" je nahrazena speciálním NULL-operátorem, který říká že se nemá v tomto dotaze hledat. Vyhledávání předložky by bylo technicky příliš drahé a její přínos k relevanci nízký.

Nový systém nám přináší úplně novou dimenzi možností. Další vylepšování hledání bude v průběhu doby samozřejmě pokračovat; účelem tohoto projektu byl technologický upgrade abychom měli novou platformu na které bude možné dále stavět.

Na závěr bych ještě rád dodal, že celé hledání samozřejmě není jen o vyhodnocování on-page faktorů. Do celkové relevance dokumentu se samozřejmě podepíše množství složek, z nichž jen část je ta, kterou jsem zde popisoval.

P.S.1: site: operátor by již měl fungovat normálně
P.S.2: víme že některé dotazy obsahují neoptimální výsledky - na nich stále pracujeme.

-solamyl-
29.10.2009 18:07 - nezařazeno - trvalý odkaz

Chyba operátoru site

Opravu nasadíme asi až v pondělí 2. 11., a tak raději dáváme vědět.
Momentálně je rozbité počítání výsledků při hledání s operátorem site:doména. Toto chybné počítání zblbne i webovku, takže se ve výsledcích zobrazuje zpravidla mnohem méně výsledků, než se skutečně našlo. Pokud tedy kontrolujete míru zaindexování své domény pomocí operátoru site, zkuste prosím ještě pár dnů počkat, než to opravíme. Pro jiné druhy hledání se počítání výsledků chová správně.

Chyba nás mrzí o to víc, že jsme podobnou chybu měli i na testu. Jak jste si asi všimli, minulý týden jsme náš nový vyhledávací motor překlopili do produkčního hledání, naneštěstí i s touhle chybou.

-Yuhů-
18.10.2009 23:19 - Upgrady a vývoj - trvalý odkaz

Mezi-release testovací verze nového hledání

Na "searchtest" byla v pátek nainstalována novější verze s opravami některých chyb.
V pátek (16.10.) byla do testu nasazena novější verze hledání s opravami některých chyb které jste reportovali do diskuze.
Zejména:
  • zlepšené výsledky na dotazy obsahující slovo "online", např. dotaz hry online. (problém se týkal více slov, v diskuzi ale vesměs padalo jen slovo online).
  • opravený počet dokumentů reportovaný site: operátorem. V minulé verzi reportoval míň dokumentů než ve skutečnosti měl, viz produkce vs. searchtest. Čísla nebudou nikdy úplně shodná, ale už se k sobě velmi blíží.
  • změnili se snippety u výsledků. Velmi krátké snippety byly způsobeny "nekompatibilitou" mezi novým systémem hledání a starou tvorbou snippetů (zůstala zachována ze staré verze). Náprava bohužel není úplně jednoduchá a ještě nějaký čas zabere (pracuje se na nich). Současné jsou o trochu lepší, ale ještě v nich vidíme určitý potenciál na změnu...
  • další drobné vylepšování relevance. Bohužel na konci minulého týdne ještě nezávisle na upgradu trochu v testu zakolísaly výsledky (zatím nevím proč), takže nelze přesně určit čím jsou změny způsobeny :-(. Problém samozřejmě ještě podrobně prozkoumáme.
Pokud jste teď zaregistrovali u některých dotazů pokles v relevanci oproti předchozí verzi searchtestu, tak je pls napište sem do diskuze (pište dotaz, jaký výsledek a co se s ním stalo).

Děkujeme vám všem za pomoc.

-solamyl-

02.10.2009 21:51 - Upgrady a vývoj - trvalý odkaz

Nová verze vyhledávání

Spustili jsme do testu beta verzi hledání s novým vyhodnocováním relevance.
Dnes jsme na searchtest.seznam.cz spustili prototyp nové verze našeho vyhledávání. Hlavním přínosem je technologický upgrade ve vyhodnocování relevance. Stará verze už byla na konci svých možností a jakákoliv další úprava byla značně komplikovaná (pokud vůbec byla možná). Nový způsob oproti tomu nabízí úplně novou dimenzi možností; to co pro starou verzi znamenalo maximum, pro novou znamená pouze startovní implementaci :-)


Kresba: Yuhů

Algoritmy pro výpočet relevance bylo nutné zcela přepracovat, protože nebyly kompatibilní s novým způsobem vyhodnocování relevance. Rozdíl mezi starou a novou verzí je asi jako mezi parním strojem a spalovacím motorem. Oba dělají ve výsledku totéž, ale každý jiným způsobem.
I když hlavním účelem byl technologický upgrade, dělali jsme samozřejmě některá vylepšení, která nám nový způsob nabídl. Výsledky se na některé dotazy nezměnily skoro vůbec, na jiné hodně. Velká změna a pozitivní dopad je vidět např. na dotaz "Peru":
Vaše připomínky jsou pro nás cenným zdrojem informací. Pokud byste při svém testování narazili na dotaz, který se vyhodnocoval lépe na starém hledání než na novém, napiště ho prosím do diskuze pod článek včetně komentáře, co se vám konkrétně zdá lepší/horší. *předem díky za pomoc*

Pokud vše půjde dobře, mohlo by se nové hledání zanedlouho objevit v produkci.

-solamyl-


30.07.2009 16:43 - Vyhledávání - trvalý odkaz

Zrušení vyhledávání Články.cz

Dnes 30. 7. 2009 jsme ukončili zkušební provoz služby, která prohledávala RSS zpravodajských serverů. Na stávajících URL adresách je zavedeno přesměrování do fulltextového vyhledávání na search.seznam.cz.

-petrox-
09.07.2009 16:50 - Upgrady a vývoj - trvalý odkaz

Jak uživatelé prohlížejí výsledky

Z jednoho výzkumu nám vyšly zajímavé obrázky a řekli jsme si, že jich sem pár pro ilustraci dáme.
Možná jste již slyšeli o tzv. click trackingu. To je metoda při které se zaznamenávají jednotlivá kliknutí návštěvníků stránek a z nich se pak usuzuje na atraktivitu toho kterého odkazu, obrázku a podobně. Jak ale rozpoznat, co hledajícího nezajímá? Případně, co jej upoutá, ale nač nakonec neklikne?

Zde nastupuje na řadu metoda eye trackingu, neboli hezky česky sledování očí. V našem případě jsme dobrovolníky usadili u speciálního monitoru vybaveného několika infrakamerami a zaznamenáváli jsme, kam se na monitor dívají. Víme tedy, i kam se respondenti nedívají, což může být neméně důležité. S vyhodnocením pak pomůže speciální software.


Záznam pouze od jednoho respondenta,
čísla udávají pořadí pohledů
.

Software zvládne nejen interpretovat záznamy od jednotlivých uživatelů, ale i slučovat více záznamů dohromady a z nich pak generovat velmi zajímavé teplotní mapy. Naměřili jsme několik desítek různých výsledků hledání u nás i u konkurence s 19 respondenty, abychom mohli srovnávat a poučit se. Další obrázky ukazují agregované výsledky od více respondentů.


Teplotní mapa složená ze záznamů od všech respondentů.
Více červené znamená delší pozornost,
červené křížky ukazují kliknutí.

Jistě jste si všimli, že screenshotům chybí hlavička, upoutávky, Sklik a podobně. Není to omyl, snažili jsme se soustředit na samotný výpis a zároveň potlačit vliv značky vyhledávače. Měření s kompletními výsledky hledání budeme dělat později.


Pro srovnání stejný výsledek vyhledávání, který
respondenti dostali bez náhledů stránek
.

Již z této první fáze měření jsme načerpali mnoho nových poznatků. Za zmínku stojí například vliv obsahu náhledu stránky či umístění klíčového slova v titulku.


Takto ovlivní pozornost náhledy videí
vložené do výsledků Yahoo!


Jak jsem již zmínil, v měření hodláme pokračovat, tak abychom získali další podněty ke zlepšování vzhledu a použitelnosti stránky s výsledky hledání. Na zlepšování relevance výsledků se pochopitelně také stále pracuje nezmenšenou silou, protože tento výzkum zpracovalo oddělení návrhu uživatelského rozhraní.

-BoB-
28.05.2009 15:47 - Vyhledávání - trvalý odkaz

Technologie fulltextu na encyklopedii

Veřejný test nově připravované encyklopedie, která využívá obdobný model hledání jako search.seznam.cz.

Na encyklopedietest.seznam.cz můžete otestovat novou verzi encyklopedického hledání, které nahradí současnou podobu služby encyklopedie.seznam.cz. Nově jsou prohledávány volně dostupné naučné domény, tedy ne jen Wikipedia, jak tomu bylo doposud.

Rozhraní a jeho funkčnost vychází z fulltextového vyhledávání a poskytuje tak relevantní výsledky omezené na domény a stránky encyklopedického charakteru.

 
Výsledek hledání hesla "písek"

Rozhodnutí o tom, jaká doména bude zařazena do hledání na encykopedii, vychází ze zpracování jednotlivých stránek domény.

Pokud znáte nějakou wiki či jinou encyklopedii (odbornou, úzce specializovanou), která by byla pro tuto službu přínosem, napište ji prosím do komentářů pod příspěvkem. Zvážíme její zohlednění ve výsledcích hledání. Současně budeme rádi za váš názor na případné zařazení nečeských encyklopedií, tedy především anglické Wikipedie. Ocenili byste na Seznam Encyklopedii i nečeské výsledky?

  -petrox- 

06.04.2009 11:35 - Vyhledávání - trvalý odkaz

Populární odkazy

U výsledků navigačních dotazů se budou zobrazovat odkazy na populární stránky z webu.

Ve výsledcích vyhledávání se pro některé kombinace dotazů a webů bude zobrazovat seznam "populárních odkazů" relevantní k uvedenému webu. Demo této feature běží na našem obvyklém testovacím hledání searchtest; následující obrázek ukazuje podobu výsledku pro dotaz "mpsv".


Populární odkazy pro ministersvo práce a soc. věcí

Tyto odkazy mají zkrátit cestu uživatele hlavně v modelu uživatelského chování: "1. najdu web, 2. jdu tam, 3. prokliknu se dál na podstránku".

Populární odkazy se zobrazují pouze pro jasné navigační dotazy (míří na konkrétní web) a pouze u výsledků zobrazených na prvním místě. V uvedeném příkladu se např. na dotaz "mpsv" odkazy zobrazí; kdyby se ale stejná stránka našla na dotaz "sociální podpora", tak se už nezobrazí.

Populární odkazy se získávají automaticky vyhodnocením statistik oblíbenosti jednotlivých stránek webu. Aby statistická metoda fungovala, je potřeba mít nasbírané určité množství statistických dat. "Populární odkazy" se proto nepočítájí pro weby, kde dat máme málo.

-solamyl-

16.03.2009 17:10 - Lištička - trvalý odkaz

Nová lištička pro Internet Explorer 7 a 8

Snadno použitelný slovník, rychlý přístup do vaší emailové schránky a další vylepšení.
Nová lištička verze 2.0 funguje v Internetu Exploreru 7 a vyšším. Snažili jsme se Lištičku co nejvíce zaintegrovat do okna prohlížeče, aby nezabírala místo, a také o to, aby běžela nezávisle na prohlížeči a nezdržovala ho. Byl to občas boj, ale povedlo se. Hlavní přínosy IE Lištičky jsou následující:
  • Čtete anglické stránky a narazili jste na slovo, kterému nerozumíte? Chcete ho najít ve slovníku? Ukažte na slovo myší, chvilku počkejte a vyskočí vám bublina s překladem. Já sám to s oblibou používám při čtení zahraničních zpráv a při překladu textů písniček. Přirozeně se tak učím nová slovíčka, aniž si to uvědomuji.
  • Lištička zobrazuje počet nových emailů ve vaší emailové schránce. Už na první pohled poznáte, jestli má smysl vstupovat do schránky. Na jedno klepnutí  se dostanete ke čtení nových zpráv. Když vám dorazí nový email, tak Lištička zobrazí okno s náhledem příchozí zprávy. Lištička umí pracovat i s emailovými schránkami mimo Seznam. Dokonce i s několika najednou.
Více o Lištičce pro Internet Explorer.



Společně s novou lištičkou jsme pro vás připravili nový web pro Seznam Software. Jistě vás potěší svou jednoduchostí a milou grafikou. Lépe na něm pochopíte, jak který software funguje. Buď si přečtete jednotlivé tipy a nebo si prohlédnete videonávod.



Těším se na vaše reakce, připomínky, nápady.
Přeji, ať vám lištička zpříjemní práci s internetem.

- Kuba, Ondra -


06.03.2009 13:16 - Screenshot generátor - trvalý odkaz

Zablokovat screenshotátoru přístup do GA?

Anketa jestli screenshotátoru zakázat přistup do měřících systémů nebo ne?

Za poslední dobu se objevilo pár dotazů, jak zablokovat screenshot-generátoru přístup do toplistu, GA, a dalším podobným systémům pro sledování návštěvnosti.

Screenshot generátor je prakticky normální firefox, takže stahuje všechny obrázky, javascripty a tedy i měřící kódy; s tím bohužel nic neuděláme. Co bychom ale mohli udělat je zakázat ze screenshot-generátor strojů přístup na adresy běžně používaných měřících systémů.

Do diskuze prosím hlasujte jestli přístup zablokovat (ano) nebo nechat být (ne), případně i jaký používáte systém pro měření. Nakonec se zařídíme podle vašeho převažujícího názoru.

Update 6.3.2009-večer:
Tak je to jasné, už nemusíte dál psát...
Přístupy na běžné měřící systémy zablokujeme.

předem díky
-solamyl-

05.03.2009 13:31 - Vyhledávání - trvalý odkaz

Rozpoznání citlivého obsahu

24. února jsme nasadili v hledání detekci a filtrování "neslušných" stránek na slušné dotazy.

Minulé úterý byla ve vyhledávání nasazena funkce zajišťující, že se na "slušné" dotazy nezobrazují "neslušné" výsledky. Na druhou stranu u vulgárních dotazů (především pak s erotickou  tématikou) výsledky filtrovány nejsou.

Cílem je vytěsnit z hledání vulgární a erotický obsah na dotazy, u kterých uživatel takový obsah neočekává, a tak jej nevhodný obsah může pohoršovat.

Detekování "neslušných" dotazů funguje automaticky a ve vyhledávání je bez označení. Současně existuje možnost filtr ovlivnit pomocí parametru v URL adrese.

Příklad:

Pokud narazíte na problém, kdy je třeba nějaká stránka chybně rozpoznána jako neslušná, napište to prosím sem do diskuze.

-petrox-

25.02.2009 10:33 - Screenshot generátor - trvalý odkaz

Rozhovor o screenshot generátoru

Pár informací proč jsme vyvíjeli nový screenshot generátor.

Dnes vyšel na zdrojáku (root.cz) krátký rozhovor o našem screenshot generátoru.


Vlevo Štěpán Škrob, vpravo Martin Hassman, diktafon uprostřed.
Foto: Ivana Dvorská/Internet Info (není na fotce)

-solamyl-

17.02.2009 17:25 - Robot - trvalý odkaz

Nová zbraň pro boj s duplicitním obsahem

Jak princ v pohádce poznal, která princezna je ta pravá, když vypadaly všechny stejně? Taky mu někdo napověděl!

Světové vyhledávače Google, Yahoo a MSN Live ohlásily minulý týden podporu nové funkčnosti v HTML, jež umožňuje vyhledávači v případě skupiny velmi podobných stránek na Vašem webu napovědět, která stránka z této mnoziny je ta preferovaná. Příkladem může být eshop s jinak seřazeným výpisem produktů nebo stejný výrobek ve více různých kategoriích. Vyhledávače se momentálně s těmito duplicitami musí poprat po svém.

Webmaster sice může tyto situace řešit, ale dosti obtížně a někdy může být zkrátka naším cílem, aby uživatel viděl stejný obsah pod více různými url. V takovém případě však vyhledávač najde tento stejný či podobný dokument také a v indexu ho pak drží ve více kopiích, kde zabírá místo a kromě toho se dokumentu tříští zpětné odkazy.

Nyní se nabízí nové řešení, použít tag <link> a oznámit tak vyhledávači formu url, kterou považujeme za hlavní. Stačí do hlavičky stránky přidat:

<link rel="canonical" href="http://www.mojedomena.cz/cesta/ke/kanonickemu/url/" />

Robotu tato nová informace umožní držet dokument v indexu pouze jednou a spojit rank pro různé formy url. A nyní ještě několik pravidel:

  • Cesta ke kanonickému url může být absolutní i relativní, doporučuje se absolutní, aby se snížila možnost špatné interpretace.
  • Odkaz musí být v rámci stejné L2 domény, tedy může být na jinou subdoménu či z HTTPS formy na HTTP.
  • Kanonické linky je možné řetězit (A->B, B->C).
  • Url spojená pomocí kanonického linku musí mít stejný či velmi podobný obsah, případně jinak uspořádaný.

A nyní to nejdůležitější, podporu zatím oznámil Google, přislíbily Yahoo a Microsoft. Nám se tato nová možnost označování duplicitního obsahu také líbí, prozatím budeme sledovat výskyt tohoto tagu na stránkách a v brzké době jeho podporu začleníme. Budeme se těšit na mnoho takto označených duplicitních url, pomůžete tak našemu robotovi i svým webovým stránkám.

-digri-

12.02.2009 01:09 - nezařazeno - trvalý odkaz

Co znamenají čísla ve statistikách hledání?

Vyjasnění hodnot, které se zobrazují ve statistikách navštěvnosti dotazů u našeho hledání.

Čas od času se na inetu rozjede debata, co vlastně znamenají čísla ve statistikách hledanosti dotazů na Seznamu; jako třeba teď zde. Rozhodl jsem se proto podat vám k tomu výklad, abyste už nemuseli dále tápat :-)

Čísla znamenají průměrný počet hledání konkrétního dotazu za určitou dobu.

Jako "hledání" se bere zobrazení jedné stránky výsledku, čili pokud uživatel prohlédne první 3 stránky výsledku zobrazí se to jako 3 hledání. V číslech nejsou promítnuty roboti a další automatické scripty.

Dotazy prochází jednoduchou normalizací, aby se setřely rozdíly např. velká/malá písmena. Normalizace je: odstranění diakritiky, převedení na lower case a seřazení slov podle abecedy. Z hlediska statistik jsou tedy všechny dotazy vytvořené ze stejné množiny slov identické (to odpovídá zároveň na otázku, proč jsou slova v tabulce "Nejhledanější dotazy obsahující XY" seřazena tak podivně). Z hlediska fulltextového vyhledávání jinak samozřejmě na pořadí a tvaru slov závisí.

Statistiky se počítají pro přesnou shodu (započítávají se dotazy tvořené právě zvolenou množinou slov), pro rozšířenou shodu (započítávají se dotazy, které tvoří nadmnožinu právě zvolené množiny slov) a pak se ještě agreguje tabulka nejčastějších rozšíření dotazu. 

A teď k tomu co způsobuje nejčastější pochybnosti o věrohodnosti čísel :-)
Na stránce statistik jsou zobrazeny dvě různé hodnoty, které se počítají ze dvou různě dlouhých období (tato informace bohužel ze statistik není úplně zřejmá; nějak to zkusíme upravit aby to dál už nemátlo...). Konkrétně:

  • údaje návštěvnosti pro přesnou a rozšířenou shodu (tabulka napravo od grafu) jsou počítané jako průměr za posledních 60 dní (platí pro oba grafy; je vidět že graf pokrývá přesně 2 měsíce),
  • tabulka nejčastějších rozšíření dotazů (na stránce statistik dole) je počítaná jako průměr za 14 dní. Sporný je právě první řádek tabulky (šedivě podbarven), který obsahuje průměrný údaj za 60 dní (zkopírované z horních grafů), kdežto zbytek tabulky jsou údaje za 14 dní. Správnější údaj jsme bohužel v tomto místě neměli k dispozici :-(

Čísla se liší tím více, čím dramatičtější změna v návštěvnosti byla v poslední době.

Příklad
Záměrně použiji stejný příklad "valentynské dárky" jako ve výše zmíněné diskuzi u Michala Kubíčka. Nejprve statistiky návštěvnosti (datum 12. 2. 2009):


graf "přesná shoda" pro dotaz "valentynské dárky", průměr 485 hitů/den.
Průměr pro rozšířenou shodu je 895 hitů/den (graf opět podobný).

A teď jaký je rozdíl mezi těmito dvěma údaji pro "valentynske darky" (pěkné obrázky jsem si vypůjčil z webu Michala Kubíčka):


první řádek (viz předchozí text) jsou průměry za posledních 60 dní. Graf přesné shody pro valentynské dárky ale řiká, že návštěvnost se objevila pouze v poslední době, proto je dlouhodobější průměr tak nízký (hodnota menší jak 100 je indikována '-').


třetí řádek obsahuje krátkodobé průměry z konce ledna. Indikovaná návštěvnost je tak vysoká, protože "valentynske darky" tou dobou dosahovaly cca 2000 hitů/den.

Hlavním účelem statistik je poskytnout jednoduše dostupný přehled v trendech návštěvnosti dotazů. Hodnoty se zobrazují pouze na hledacím webu a není z nich odvozováno nic dalšího. My je používáme ke své práci stejně tak jako vy :-)

Alternativní použití našeptávače pro odhad návštěvnosti nelze vůbec doporučit - jím udávané hodnoty dnes už vůbec nesouvisejí s reálnou hledaností. Našeptávač lze použít pouze pro porovnání dvou slov v našeptávači mezi sebou, víc nic.

-solamyl-

04.02.2009 20:42 - Screenshot generátor - trvalý odkaz

Nový screenshot generátor

Náš nový systém pro generování náhledů stránek je v závěrečné testovací fázi.

V blízké době spustíme do ostrého provozu novou verzi programu, který se stará o náhledy stránek pro naše vyhledávání - alias "screenshot generátor".


screenshot www.czilla.cz v experimentálním rozměru 110x80 pix

Nový systém je napsaný komplet od píky a běží na jádru Mozilly (MozEmbed). Původně jsme sice chtěli použít WebKit, ale bohužel na Linuxu ještě nebyl v takové formě v jaké bychom si přáli.

Očekávané přínosy:

  • častější aktualizace náhledů,
  • snížení počtu chybějících screenshotů,
  • snížení počtu špatně vygenerovaných screenshotů (např. celý bílý),
  • odstranění problému, že za určité situace se u url zobrazil náhled z úplně jiného webu ;-),
  • ... a samozřejmě hezčí a menší screenshoty.

V celkové koncepci systému budou pro Vás (majitele webů) zajímavé asi dvě změny:

  1. Náhradní screenshot. V případě, že nemáme screenshot pro konkrétní url, systém se pokusí najít a vydat nejbližší vhodný. Ten hledá tak, že postupně zkracuje url (nejprve query string, potom cestu až na úroveň homepage webu) a vrátí první existující.  Pokud neexistuje ani screenshot homepage, vydá se default "náhled není k dispozici". Ověřili jsme si, že screenshot HP je lepší než žádný screenshot ;-) 
  2. Pevný rozměr browseru. Obrázky jsou snímány v rozlišení cca 700x550 pix. To způsobuje, že užší designy stránek jsou zobrazené centrovaně a širší designy jako výřez z levého horního rohu - to je záměr. Široké stránky nebyly v malém náhledu moc čitelné a toto zachová její čitelnost v nejdůležitější části tak, aby jí uživatel pohodlně rozpoznal. 

Hledání s novými screenshoty si můžete vyzkoušet na našem searchtestu.

Pokud chcete otestovat jak bude vypadat screenshot Vaší stránky, ale stránka ještě není vyfocená, stačí jí přidat přes přidávací formulář (libovolně na searchtestu nebo na ostrém; oba jsou již připojeny na nový screenshotátor) a screenshot se vám během pár minut vygeneruje.

Nový screenshotátor budou používat také firmy.cz a náš odkazový katalog.

Pokud narazíte na problém s vygenerování náhledu pro vaše stránky, pište to prosím sem do diskuze.

Update 6.3.2009:
Nedávno se změnila IP adresa, z které screenshotátor chodí do internetu. Aktuální IP je: 77.75.76.115 (nat.seznam.cz).
User-agent screenshotátoru je stále stejný: Mozilla/5.0 (compatible; Seznam screenshot-generator 2.0; +http://fulltext.sblog.cz/screenshot/) , doporučuji hledat string "Seznam screenshot-generátor".

-solamyl-

28.01.2009 18:23 - Robot - trvalý odkaz

Podpora GEO-mikroformátu

U stránek s "geotagem" se bude ve výsledcích vyhledávání nyní zobrazovat odkaz pro zobrazení místa na mapě.

Pomocí tzv. mikroformátů (viz microformats.org) lze na stránkách přisoudit některým textům sémantickou hodnotu tak, aby byly strojově rozpoznatelné a měly definovaný význam. Mikroformátů je celá řada, každý slouží pro jiný druh údaje. Asi nejpoužívanějším je tzv. hCard, který se používá jako "vizitka" pro osoby. Programy, které ho dokáží interpretovat pak například nabízejí přidání kontaktu přímo z web stránky do vašeho adresáře, telefonu, apod.

Určitý článek o mikroformátech vyšel už před časem na Lupě.

Náš robot nyní hledá ve stránkách geo-mikroformát. Pomocí něho lze specifikovat polohu v souřadném systému WGS84 (alias normální GPS pozice). Tímto lze svázat libovolnou stránku s místem na mapě.

Při zobrazování výsledků je pak u stránek s geotagem přidaný odkaz "Zobrazit na mapě". Výsledek s geotagem vypadá např. takto:


http://search.seznam.cz/?q=botanicka+zahrada+site%3Adna.cdi.cz

Pokud je geotagů ve stránce rozpoznáno více, tak se u výsledku zobrazí pouze první z nich. Bohužel u výsledku nelze přehledně zobrazit neomezeně odkazů na mapu; pokud by někoho napadlo jak na to, dejte určitě vědět :-)

Jak přidat jednoduše geotag do vašich stránek?
Mikroformáty specifikují několik možností, jak může geotag vypadat. Mikroformáty se používají tak, že se ve stránce u HTML značek okolo relevantního textu nastaví atributy class="..." na předem známou hodnotu, která je právě určená standardem mikroformátů. Pokud mikroformáty neurčují jinak (např. <ABBR>), tak značka může být asi téměř libovolná. Zde jsou ve zkratce 3 možnosti:

1. Základní

<cokoliv class="geo">
  <cokoliv class="latitude">37.408183</cokoliv>,
  <cokoliv class="longitude">-122.13855</cokoliv>
</cokoliv>

 

2. Rozšířený

<cokoliv class="geo">
  <abbr class="latitude" title="37.408183">N 37° 24.491</abbr>
  <abbr class="longitude" title="-122.13855">W 122° 08.313</abbr>
</cokoliv>

 

3. Zkrácený

Pořadí čísel v title= je "latitude;longitude".

<abbr class="geo" title="37.408183;-122.13855"> Popis lokace </abbr>

 

Čísla bohužel musí být vždy uvedena v desetinách stupňů; jinou variantu mikroformáty nepřipouštějí :-/ Pro převod ze stupňů, minut, vteřin na číslo v desetinách stupňů lze použít tento vzorec:

číslo_v_desetinách_stupně = stupně + minuty/60 + vteřiny/3600

-solamyl-

19.12.2008 14:02 - Upgrady a vývoj - trvalý odkaz

Betaverze Seznam lištičky pro IE

Vyzkoušejte si novou lištičku a napište nám, co si o ní myslíte.
Jako malý vánoční dárek pro Vás máme betaverzi nové Seznam Lištičky. Více se o ní dočtete na blogu seznam software, kam nám můžete napsat svoje postřehy,  komentáře, nápady a připomínky.

Betaverzi seznam lištičky si můžete stáhnout z
http://software.seznam.cz/listicka/beta.html.
Přejeme Vám veselé Vánoce a příjemné browsdání internetem v příštím roce!
- Ondra a Kuba -

27.11.2008 16:26 - Vyhledávání - trvalý odkaz

Nové vyhodnocování relevance

Dnes jsme nasadili nové vyhodnocování relevace.
Výhody nového vyhodnocování relevance jsou vidět například na dotazech
kde se do první třicítky dostaly i stránky lokálních zoologických zahrad, národních muzeí, nakladatelství.

Děkujeme za zpětnou vazbu a podněty v diskusi o experimentálním vyhodnocování relevance.
- Kuba -
26.11.2008 00:40 - Vyhledávání - trvalý odkaz

Hledání slov obsahujících znaky +, §, &, atd.

Dnes byl nasazen nový tokenizátor, který dovoluje hledat slova jako c++, c#, c&a, L'Oreal a pod.

V diskuzích na zdejším blogu několikrát padlo, že nevyhledáváme správně dotazy obsahující slova jako c++, paragraf, apod.


Obrázek zdroj austinlinks.com

Dnes jsme nasadili úpravu zpracování textu, která by toto měla napravit. Jedná se vylepšený tokenizátor, který dokáže v textu a v dotazech identifikovat některé obvyklé vzory slov obsahující znaky +, &, apostrof, #, §, tečka (které by se jinak považovaly za mezeru) a zacházet s nimi jako s jedním slovem.

Některé příklady:

  • c++; dříve se hledalo jen samotné "c"
  • § 200; dříve s hledalo jen 200
  • m&t; dříve se hledalo jako dvě rozdělená slova

Plný přínos bude mít tato feature během 2-3 týdnů, až se přeindexuje většina stránek, které dotčená slova obsahují. Pokud chcete srovnávat, tak na searchtest.seznam.cz se používá ještě stará tokenizace, v produkci pak nová.

-solamyl-

06.11.2008 16:44 - Vyhledávání - trvalý odkaz

Experimentální vyhodnocování relevance

Prohlédněte si experimentální verzi fulltextu s novým pořadím výsledků.
Najdete ji na searchtest.seznam.cz. Co si o tom myslíte? Jak se Vám líbí?

Budeme rádi, když nám do komentářů napíšete "dotazy", na kterých Vás nové pořadí výsledků potěšilo, nebo naopak kde se Vám nelíbí. Pomohou nám konstruktivní podněty tvaru: "ve výsledcích mi chybí tohle a tamto mě tam prudí."

Děkujeme mockrát.
-Kuba-

Update (z 14.11.): Aktualizovali jsme data, ve kterých se na searchtestu hledá. Zároveň jsme poladili pořadí výsledků. Díky za Vaše reakce.
30.09.2008 16:55 - Vyhledávání - trvalý odkaz

Nasazujeme novou verzi vyhledávacího enginu

Po vylepšeném robotovi přichází i nová verze vyhledávání. A vy, čtenáři fulltext blogu, máte možnost si ji vyzkoušet jako první!

Vývoj hledání postupuje ruku v ruce s vývojem robota, proto vám po několika mesících pilného programování nabízíme k nahlédnutí výsledky nové verze hledacího enginu. My o výčtu features zatím pomlčíme a vy je zkuste odhalit a pochlubte se ostatím čtenářům v komentářích. Nejbystřejší z vás odměníme  čestným uznáním.

Novou verzi naleznete zde: http://77.75.77.120/?q=mp3+blog

Update: rozdíl mezi novou a starou verzí byl vidět pouze v krátké době instalace, teď už žádný rozdíl na této adrese pravděpodobně neuvidíte :-)

-dna-

23.09.2008 18:00 - Robot - trvalý odkaz

Vylepšené zpracování robots.txt

Rozšířili jsme robots.txt o možnost omezení rychlosti stahování, použití tagu Allow a několik dalších funkcí.

Při vylepšování robota jsme se dotkli i zpracování robots.txt. SeznamBot nyní z větší části podporuje navrhovaný rozšířený standard a nějakou tu drobnost navíc:

  • tag Request-rate - určení maximální rychlosti, s jakou smí robot procházet Vaši doménu. Např. Request-rate: 10/1m znamená, že robot smí stáhnout za minutu maximálně 10 stránek. Toto omezení můžete dokonce specifikovat pro konkrétní čas, Request-rate: 120/60s 1800-0359 robotovi říká, že v době od 20:00 do 05:59 smí stáhnout 120 url za minutu. Čas se uvádí v UTC, proto ta na první pohled podivná čísla.
  • tag Allow - výjimka z pravidla Disallow. Může se hodit v případě, že zakážete indexaci nějakého adresáře, ale rozhodnete se povolit jeden z jeho podadresářů. Nezáleží na tom, v jakém pořadí pravidla použijete, robot si vybere pravidlo s delší shodou.
  • zápis adresy pomocí bashovského regulárního výrazu - hledá se vždy přesná shoda, tedy nejen shoda na začátku cesty, ovšem s možností použítí zástupných znaků: znak * odpovídá jakékoli sekvenci znaků, ? odpovídá jakémukoli znaku, [abc] odpovídá znaku a, b nebo c, [!ab] jsou všechny znaky kromě a, b. Např. pravidlo Disallow: /clanky/[1234567890]* zakáže zpracování všech článků, začínajících číslem. Tento způsob zpracování robots.txt se použije pouze, pokud uvedete Robot-version: 2.0.
  • více hvězdiček u tzv. Seznam syntaxe, která je použita, pokud není uvedeno jinak. Např. Disallow: /*/diskuze/*/ zakáže indexování jednotlivých odpovědí v diskuzi.

Příklad nových robots.txt:

User-agent: SeznamBot
Request-rate: 10/1m 0600-1459    #  8:00-16:59 středoevropského letního času
Request-rate: 30/1m 1500-0559   # od 17 hodin až do rána
Disallow: /
Allow: /clanky/                 # povol pouze indexování článků
Disallow: /clanky/diskuze/

Podrobné informace najdete v nápovědě.

-digri-

19.09.2008 13:23 - Robot - trvalý odkaz

Rychlejší robot a indexace malých sites

SeznamBot doznal několika vylepšení.

Přes léto jsme se pustili do vylepšování robota, provedené úpravy jsme nasadili a je čas posbírat ovoce. Zcela jsme přepracovali způsob zakládání nových url v databázi, jehož přímým důsledkem je rychlejší indexace nových domén. S tímto měl robot v minulosti velké problémy - často se ponořil hluboko do struktury webu, vybral si mnoho nedůležitých stránek a na ty hlavní zapomněl. Vylepšený robot nejprve založí podstatné stránky a až pak se pustí hlouběji. Jedním z důležitých kritérií pro rozhodování je i obsah sitemapy, jejíž použití můžeme jen doporučit (viz nápověda).



Foto: INT/Blesk.cz

Kromě uvedených úprav se nám daří robota neustále zrychlovat, od začátku roku jsme naši databázi téměř zdvojnásobili, do konce roku se plánujeme dostat na více než trojnásobek. A další vylepšení na sebe jistě nenechají dlouho čekat.

-digri-

20.06.2008 14:13 - Upgrady a vývoj - trvalý odkaz

Nová lištička pro MSIE7

Připravujeme novou lištičku pro IE7 (časem i pro Firefox 3).

Naším cílem je, aby nová lištička nezabírala příliš mnoho místa v okně prohlížeče, aby byla užitečná a snadně ovladatelná. Prostě aby Vám opravdu zjednodušila práci a zpříjemnila život. K tomu ale potřebujeme poznat Vás uživatele. Chceme se zeptat, co od lištičky očekáváte, čím vás stávající verze zlobí a co na ní naopak oceňujete.


Stará lištička

Rozhodli jsme se rozšířit koncept celé lištičky. Kromě tlačítek a služeb klasické lišty bude mít uživatel možnost označit text na webové stránce a nechat s ním něco provést (hezké by bylo přeložit označený anglický text do češtiny nebo vyhledat označenou adresu na mapách).

Chceme zlepšit ergonomii přístupu k emailové schránce a umožnit přístup i k jiným emailovým schránkám mimo Seznam. (Pro přístup k emailové schránce slouží i pošťák, který je schovaný v liště windows. Ten se také dočká upgradu.) V rámci úspory místa nejspíše sloučíme Inputbox pro zadání hledaného textu s podobným Inputboxem integrovaným v prohlížeči. Dále máme ještě pár nových nápadů, ale to se nechte překvapit.

Zajímalo by nás, které prvky lišty používáte. Používáte kontrolu pravopisu ve formulářích, oháčkování textu ve formulářích? A pokud je nepoužíváte, tak je to proto, že nic takového nepotřebujete nebo protože nefungují tak, jak byste si představovali? Máte něco, co vám v lištičce chybí?

Protože jsme každý jiný, tak se lištička půjde upravit k individuální představě každého z nás. Každá její komponenta půjde vypnout a zapnout.

Těšíme se na Vaše představy, nápady, návrhy a komentáře.

-Jakub-

30.04.2008 22:53 - Osobní a ostatní - trvalý odkaz

Sháníme product managera pro fulltext

Pro hlavní seznamovský produkt - vyledávání - sháníme produktového managera.

Jak se na fulltextu postupně rozrůstají týmy vývojářů, je potřeba současně zvyšovat i počet lidí, kteří se zabývají přípravou projektů, navrhováním algorimů, vymýšlením nových fičur, atd. Nyní nastala právě tato příležitost...

Co dělá produkt manažer?
Jeho hlavním úkolem je rozvíjet a starat se o svěřený produkt, v našem případě o fulltextové vyhledávání. Do rozvíjení určitě bude patřit navrhování úprav hodnocení relevance, rozpoznávání duplicit, strategie crawlera, ...a další podobné core věci :-) Protože fulltext je hodně technologický projekt, bude velmi příhodná též dřívější programátorská zkušenost s vývojem aplikací.

Pod obrázkem následuje popis pozice převzatý z webu Seznam vývojáři.


http://vyvojari.seznam.cz


Produktový manažer fulltextového vyhledávání
Vaším úkolem bude:

  • rozvoj fulltextového vyhledávače Seznam.cz, hledání nových možností zvyšování relevance a kvality odpovědí,
  • definování nových algoritmů a jejich příprava pro implementaci,
  • řízení implementace a testování úprav vyhledávače,
  • sledování provozních hodnot vyhledávače.

Očekáváme:

  • schopnost samostatně řídit projekt,
  • orientace v problematice vyhledávačů a SEO,
  • technický background (znalost problémů a postupů programování, vytížení hardware, atd.),
  • aktivní přístup,
  • vyzrálá osobnost s vlastním názorem a přesvědčením.

Nabízíme:

  • stabilní zázemí prosperující společnosti,
  • zajímavá a zcela ojedinělá práce v týmu 20 lidí zabývajících se vývojem vyhledávače,
  • možnost ovlivnit produkt, který využívají milióny lidí denně,
  • roční podíl na zisku společnosti.

Pokud myslíte, že by vás tato práce zajímala, napište prosím Táně Benkové (personální odd.) na email tana.benkova@firma.seznam.cz. Pokud byste měli nějakou konkrétní otázku k práci můžete napsat i mě na stepan.skrob@firma.seznam.cz.

Pokud by vás zajímala radši úplně jiná práce, skoukněte naší nabídku volných míst ve vývoji. Sháníme také programátory, administrátory, grafiky, šéfa, a tak dál... :-))

 

Vadí vám jak funguje vyhledávání na Seznamu? Přijďte ho změnit!!

-solamyl-

 

23.04.2008 16:08 - Vyhledávání - trvalý odkaz

Oprava překlepů v dotazech

Oprava překlepů ve fulltextovém hledání Seznamu -- k vyzkoušení na testovací verzi
Do řady "features" fulltextového hledání na Seznamu přibývá další novinka -- oprava překlepů v dotazech :-) Nasazena je zatím první verze algoritmu na searchtest.seznam.cz, v krátké době můžete ještě očekávat drobné změny.


Význam opravy je jasný -- například pro dotaz piza Koloseum nabídne





Opravy se počítají plně automaticky na základě toho, co uživatelé sami opravují. Nejde tedy o "ruční slovníky" slov, která jsou nebo nejsou mluvnicky správně. Z toho plyne jednak to, že se opravují i "nečeská" slova, a dále to, že se algoritmus může mýlit -- zvláště u vysoce specializovaných dotazů. Při opravách se proto snažíme být pokud možno konzervativní, hlavně u krátkých dotazů. Třeba co myslíte -- je dotaz fizyka překlep? Na první pohled ano, ale přesto existují stránky (a jazyky), kde je toto slovo korektní a úmyslné. A takových slov jsou spousty. Jinak řečeno, z jednoho slova je nemožné vyvodit, co přesně chtěl uživatel hledat, a proto opravu často nenabízíme. Oproti tomu při datazu gravitace fizyka už je kontext jasný a opravátor nabízí





Podobně můžete srovnat výsledky opravy








Doufáme, že Vám bude tato dlouho očekávaná ;-) funkcionalita k užitku a zpříjemní Vám hledání. Jde o první verzi systému, Vaše připomínky a podněty jsou pochopitelně vítány.

-radim-

07.04.2008 00:20 - Vyhledávání - trvalý odkaz

Úprava hodnocení relevance výsledků

Na testovací verzi hledání je vidět rozdíl mezi současnou a novou verzí.

Připravili jsme úpravu hodnocení relevance výsledků, která by se měla asi nejvíce projevit u málo frekventovaných a málo komerčních dotazů (kterých by mělo být ale v celkovém součtu nejvíce). Předchozí úprava, která proběhla cca v únoru, nebyla až tak úspěšná jak jsme doufali, ale teď očekáváme, že to bude lepší.

Bohužel se zde nemůžu podrobně rozepisovat v čem přesně úpravy spočívají, ale místo toho máte možnost porovnat rozdíl než se to dostane do ostrého provozu :-)). Testovací verzi hledání jsme pro vás připravili na searchtest.seznam.cz .

Úprava je dobře patrná např. na dotazu "bazén podolí". Správný výsledek je zřejmě www.pspodoli.cz ; porovnej:

Každá úprava má samozřejmě vliv jenom na určitý okruh dotazů/výsledků, takže nelze očekávat že se tímto zlepší všechny výsledky. Nedotčené dotazy by se ale zároveň neměly zhoršit. Pokud nějaký zhoršený najdete, zareportujte ho prosím na diskuzi pod článkem.

Dodatek: rozdíl mezi oběma způsoby už neuvidíte, je už to nasazené naostro v produkci, takže do diskuze už nepište ;-)

předem díky
-solamyl-

 

26.03.2008 14:29 - Vyhledávání - trvalý odkaz

Seznam bez bariér

V rámci dlouhodobé snahy Seznamu o lepší přístupnost svých služeb pro handicapované uživatele jsme dnes nasadili do provozu novou (další) verzi stránky s výsledky hledání na internetu.
Tato stránka svojí strukturou co nejvíce vychází vstříct zpracování a ovládání pomocí různých asistivních technologií, hlavně např. screenreaderů. S její přípravou nám pomohlo Centrum Tereza a to jak nejednou dobrou radou, tak zpracováním připomínek ze strany nevidomých uživatelů při testování prototypu.

Jak přístupná verze fulltextu vypadá, si můžete prohlédnout např. na výsledcích hledání slova "přístupnost".

Zvolit si takto formátované výsledky hledání můžete zatím pouze pomocí pro běžné uživatele skrytého odkazu na stránce výsledků, nebo přímo prostřednictvím taktéž skrytého zaškrtávacího políčka ve vyhledávacím formuláři na adrese search.seznam.cz i hlavní stránce Seznamu. K tomuto řešení nás vedly ryze praktické důvody a sice právě rozdíl mezi způsobem, jakým vnímá webovou stránku běžný návštěvník a např. težce zrakově postižený uživatel. Jemu ji většinou zprostředkovává právě screenreader a ten je schopen přečíst i jinak neviditelné texty a tedy i odkazy. Taktéž uživatelé, kteří si např. kvůli velkému zvětšení písma vypínají formátování pomocí kaskádových stylů, mají tuto volbu snadno dostupnou. Stránka s výsledky pochopitelně podporuje nový standard klávesových zkratek, na jehož přípravě se Seznam také podílel.

Na závěr bych rád dodal, že tuto podobu přístupnějších výsledků hledání nepovažujeme v žádném případě za konečnou a stejně tak, jako i u našich ostatních služeb, čekáme na vaše připomínky a náměty ke zlepšení. Zároveň je třeba říci, že takovéto řešení jsme zvolili pouze pro naši nejvytíženější službu, kterou je právě fulltextové vyhledávání a u ostatních služeb Seznamu budeme pokračovat v současné strategii, tedy postupném upravování stávajících rozhraní tak, aby se také staly přístupnějšími.

-BoB-

14.03.2008 17:14 - Vyhledávání - trvalý odkaz

Dopad výpadku našeptávače... ?

Jak se projevil jednodenní výpadek našeptávače v hledání.

Dne 3.3. (pondělí) nám nedopatřením nefungoval našeptávač ve fulltextovém vyhledávání (přesnější doba výpadku byla přibližně od rána 0:00 do 20:00 večer - cca >80% celodenního trafficu). V diskuzi SEO nawebu běžel zároveň thread, který nás velmi zajímal a který řešil jaký to bude mít dopad na návštěvnost webů.



fotka našeptávače :-)


Kromě výpadku, který nás samozřejmě mrzí, na tom byla i jedna pozitivní věc, a to že jsme byli schopni porovnat strukturu dotazů zadávaných bez našeptávače vs. s našeptávačem, což bychom asi jinak nezjistili.

Výsledky
Porovnávali jsme počet unikátních dotazů zadaných v pondělí 3.3. proti předcházejícímu pondělku 25.2. a proti úterý 4.3.; výsledek je že v pondělí 3.3. byl cca 10% nárůst unikátních dotazů oproti ostatním dnům. V běžný den uživatelé zadají cca 3,2M unikátních dotazů a v to pondělí to bylo cca 3,5M unikátních dotazů.

Dále jsme sledovali účinnost cache vyhledávače, která je za běžných podmínek cca 60% a v onu dobu byla si 55% (tj. pokles účinnosti o cca 8%). Toto zjištění bylo pro nás docela uklidňující, protože kdyby účinnost poklesla výrazně, tak by to mohlo mít daleko horší důsledky pro výkon celého vyhledávače.

Nakonec nás samozřejmě zajímalo jaký vliv to mělo na sklik. Překvapení bylo že vůbec žádný (proklikovost, průměrná cena za proklik, atd. se vůbec nezměnily). Tedy pravděpodobně se mohly zobrazovat jinak seřazené inzeráty, nicméně podle globálních statistik byly zcela ekvivalentní těm zobrazovaným za normálních podmínek.

Můj závěr
Zdá se mi, že i když uživatelé používají našeptávač poměrně hodně, tak v něm stejně vybírají dotazy, které by jinak sami napsali.

Přesné číslo používání našeptávače jsem si nepamatoval z hlavy - zkusil jsem proto letmo spočítat počet dotazů z HP které použili našeptávač oproti počtu všech dotazů z HP (data za den) - vyšlo 43%. Oproti této hodnotě se mi 10% nárůst unikátních dotazů zdá nepřiměřený a říká že počet lidí, kteří by ve skutečnosti zadávali dotaz jinak než je v našeptávači zas není tak velký jak jsme si mysleli...


A teď otázka pro vás :-)
Jaký výkyv (návštěvnost, výdělek, sklik...) jste pozorovali na svém webu vy?


předem díky za vaše názory
-solamyl-

02.02.2008 22:42 - Vyhledávání - trvalý odkaz

Nový design vyhledávání a rozšíření statistik

Vzhled výsledků vyhledávání a statistiky dotazů v novém kabátě.
Nového vzhledu výsledků vyhledávání si asi všiml každý, kdo používá vyhledávání na Seznamu. Raději bych se zmínil o rozšířených  statistikách hledanosti dotazů a vysvětlil význam dat, která jsou v grafech a tabulkách obsažena.

graf rozsirene shody
Graf rozšířené shody

Grafy popisují vývoj hledanosti za uplynulých 60 dní, tedy kolikrát došlo k zobrazení některé stránky s výsledkem hledání. Tabulky napravo od grafů obsahují údaje o lokálních minimech a maximech + průměrnou hledanost za určitý časový úsek.

Tabulka nejčastějších rozšíření obsahuje na řádku s indexem 0 zadaný dotaz a data, která lze odečíst i v tabulce u jednotlivých grafů.
Další řádky obsahují nejčastější rozšíření zadaného dotazu (řazeno dle rozšířené shody sestupně). Uspořádání slov v nalezených odpovídajích dotazech podle abecedy je důsledkem normalizace dotazů při agregování.

Přesná shoda dotazu znamená, že slova nejsou lemmatizována, jejich uspořádání v dotazu se může měnit a dotaz není rozšířen o jiná slova. Do dotazů je doplňována resp. je odstraňována diakritika (dovolena = dovolená).

Rozšířená shoda
dotazu vyjadřuje počet dotazů, ve kterých byla obsažena všechna zadaná slova a případně byl dotaz rozšířen o některá další (rozšířené shodě pro slovo "Praha" odpovídá i dotaz "MHD Praha"). Jednotlivá slova se nelemmatizují a rovněž je odstraňována diakritika.

-petrox-

18.01.2008 21:54 - Vyhledávání - trvalý odkaz

Jak obnovit screenshot stránky?

Návod na obnovení náhledu stránky ve vyhledávání.

Často se uživatelé ptají jak obnovit screenshot jejich stránky ve vyhledávání, že ten co tam je už je XY dní starý. Pomoc je přitom jednoduchá.


Screenshot www.seznam.cz

Celá věc je způsobená tím, že screenshoty se vytvářejí na jiném místě než se reindexují stránky. Zatímco reindexování stránek zvládá na pár počítačích stovky URL za vteřinu, tak screenshoty běží daleko pomaleji - pouze jednotky URL za vteřinu. Screenshotovací robot je postaven nad MSIE pod Windows a zatím se nám ho bohužel nepodařilo nějak extrémně zrychlit.

A teď řešení: přidejte inkriminovanou stránku znovu přes přidávací formulář.

Přidání vyvolá okamžitou reindexaci i přescreenshotování vaší stránky. Pokud všechno funguje tak jak má, tak nový screenshot se objeví cca do 5 minut. Reindexace trvá přibližně den.


Screenshot přidávacího formuláře na http://search.seznam.cz/pridej-stranku

-solamyl-

02.01.2008 23:08 - Vyhledávání - trvalý odkaz

Změny ve výsledcích hledání

Nově nasazená funkčnost v hledání a přidružených službách.

Od 1. ledna došlo k několika úpravám v ergonomii vyhledávání na search.seznam.cz a několika dalších službách, které s fulltextovým vyhledáváním souvisí. Jde především o stránkování, označování nalezených dokumentů PDF, rozšíření přidávacího formuláře a nápovědy pro hledání. V neposlední řadě i ochrana proti DoS útokům.

Nová podoba stránkování má za úkol zjednodušit pohyb po stránkách s výsledky hledání. Týká se stránek výsledku hledání s pořadovým číslem 6 – 100. Původní podoba stránkování byla přeci jen poněkud zastaralá.

Označení nalezených dokumentů PDF, tak aby bylo jejich rozpoznání jednodušší a přehlednější.


příklad nalezeného dokumentu PDF

Přidání nových URL přes přidávací formulář je nově obohaceno o funkci, která informuje, zda se založení URL zdařilo. Další 2 funkce, tedy přidání do fronty pro obnovení stránky a obnovení náhledu stránky byly zachovány.

Rozšíření nápovědy pro fulltextové vyhledávání na Seznam nápovědě resp. přímo sekce nápovědy pro hledání v Internetu, která by nyní měla sloužit nejen běžnému uživateli, ale dokáže poskytnout informace jak webmásterům tak i SEO optimalizátorům.

Dále byla přidána ochrana proti DoS útokům vedeným přímo proti hledání. Důvodem je jejich nezanedbatelné rozšíření v poslední době. Tedy, pokud bude zaznamenán zvýšený počet dotazů z jedné IP adresy za určitý časový úsek, pak bude zobrazena CAPTCHA, kterou je třeba pro další hledání opsat. Pak může uživatel v prohlížeči, ve kterém obrázek psal opět normálně hledat. Plná funkčnost zatím není nasazena – stanovujeme ty správné limity a rozhodujeme se, jak přísní budeme.

-petrox-
29.11.2007 23:31 - Osobní a ostatní - trvalý odkaz

Přednáška o fulltextovém vyhledávání

Přednáška byla v rámci semináře "Portálové technologie v praxi" pořádaným na několika VŠ.

Na několika vysokých školách máme každý rok seminář "Portálové technologie v praxi", kde různí lidé ze Seznamu vykládají o používaných technologiích a architekturách některých našich aplikací (podrobnější rozpis je na webu vyvojari.seznam.cz; letos to bylo na Fakulta informatiky MUNI, Fakulta aplikovaných věd ZČU, ČVUT elektro). Mezi přednáškami je i jedna, která se týká fulltextového vyhledávání.


První slide z prezentace fulltextového vyhledávání

Letos mě asi nejvíc zklamala přednáška v Brně, protože jsem se nemohl zbavit dojmu, že v publiku sedí samí SEO optimalizátoři a žádní regulerní studenti. Projevovalo se to zejména tak, že architektura a technické věci prakticky vůbec nikoho nezajímaly až do momentu kdy jsem vytáhl slide se zpětnými odkazy. V ten moment to zajímalo úplně všechny a dotazy nekončily :-))

Kdyby to někoho zajímalo, tak slidy k S-přednáškám je možné stáhnout z webu předmětu PV201 na MUNI (fulltext je pv201_08 abyste nemuseli tápat ;-), i když si nejsem úplně jistý jestli budou bez výkladu k něčemu...

-solamyl-

 

07.11.2007 12:33 - Robot - trvalý odkaz

Podpora sitemap.xml

SeznamBot v ostré verzi zpracovává sitemapy ve formátu XML
Do ostrého provozu byla nasazena podpora sitemap v XML formátu. Z těchto sitemap robot zatím vybírá prioritu stránek, která mu pomáhá v rozhodování, které URL si uživatel spíše přeje zaindexovat. XML formát je kompatibilní s formátem používaným googlem: http://www.sitemaps.org/protocol.php
Aby robot sitemapu správně našel a zpracoval, je vhodné mu říct, odkud ji má stahovat. K tomu je možné použít záznam v robots.txt, ve formátu

Sitemap: http://moje.domena.cz/sitemap.xml

URL se sitemapou musí být v robots.txt absolutní. V případě, že záznam v robots.txt není, použije robot implicitně adresu /sitemap.xml z domény.

Pouze připomínáme, že veškeré priority ze sitemap.xml slouží pouze k rozhodování robota v rámci webu, nemají tedy žádný vliv na pořadí stránek ve výsledcích hledání, stejně jako nemá žádný význam nastavit prioritu všech stránek na 1 (aby priorita robotovi k něčemu byla měla by se u jednotlivých URL lišit).

-honza-
01.11.2007 18:30 - Vyhledávání - trvalý odkaz

Hledání se zálohou

Fulltext hledá od minulého týdne v obou serverovnách.
Seznam.cz již před časem vybudoval záložní serverovnu s krycím jménem NAGANO, ve které jsme měli připravené stroje pro případ výpadku primární serverovny TTC. Protože by bylo škoda nechat tam tu spoustu drahého železa zahálet čekáním na výpadek, rozhodli jsme se zprovoznit hledání online v obou serverovnách zároveň.


serverovna TTC (v záložní serverovně se nesmí fotit)

V praxi to funguje tak, že hledací data se synchronizují silnou linkou s primární serverovnou, při požadavku na hledání DNS server vrací střídavě adresu buď TTC (primární serverovna) nebo NAGANA (záložní serverovna). Uživatel nic nepozná, tedy kromě toho, že mu vracíme výsledky o něco rychleji a pochopitelně spolehlivěji. Případný výpadek by měl trvat maximálně 5 minut, což je doba potřebná k přesměrování celého provozu do správné serverovny.

-digri-
11.10.2007 22:56 - Vyhledávání - trvalý odkaz

Upravené snippety

Přepracovali jsme textové popisky výsleků vyhledávání.
Nasadili jsme další novinku, od základu přepracované generovaní úryvků dokumentů pro webovku s výsledky hledání.


..najdi pět rozdílů :)

Kdo nenašel, tak nové snippety jsou především:
  • nezpochybnitelně kratší
  • výrazně méně fragmentované - snažíme se použít ideálně celou větu obsahující hledanou frázi
  • vizuálně vzájemně férové - pokud je v textu "příliš mnoho" slov kapitálkami, přepíšeme je malými písmeny
Dohromady by to pak mělo směřovat k větší přehlednosti a lepší orientaci ve výsledcích a rychlejšímu a snadnějšímu výběru dokumentu obsahově nejblíže hledanému.

-tomas-
10.10.2007 13:47 - Upgrady a vývoj - trvalý odkaz

Upgrade rank serveru

Technologický update rank serveru zviditelnil chyby zpracování xml-rpc.

Včera jsme nasazovali novou verzi rank serveru. Šlo hlavně o technologickou změnu, uživatelsky se nic nemění. Jedna drobná změna ale nastala, změnilo se drobně XML, které rank server posílá.

Rank servery jsou používané  MSIE a FireFox lištičkami ke zobrazování ranku stránky. Tato drobná změna se projevila tak, že FireFox lištička přestala ukazovat rank. MSIE lišta funguje správně. Zároveň změnu XML mohl zpozorovat i někdo, kdo si monitoruje rank přímo (např. http://www.i-asap.net/nastroje-srank.php).

Rank servery používají protokol XML-RPC, který pro integer čísla dovoluje tag <i4> nebo <int>. V serveru se právě změnila xml-rpc knihovna, stará xmlrpc-c preferovala pro integery tag <i4>, nová FastRPC preferuje <int>.

<?xml version="1.0"?>
<methodResponse>
<params>
<param>
<value>
<struct>
<member>
<name>rank</name>
<value><int>77</int></value>
</member>
<member>
<name>status</name>
<value><int>200</int></value>
</member>
</struct>
</value>
</param>
</params>
</methodResponse>
příklad XML výstupu z rank serveru


Chyba ve FireFox lištičce je, že očekává pouze tag <i4>, správně by měla očekávat <i4> nebo <int>. Na opravě se již pracuje, update lištičky by měl být k dispozici cca příští týden.

-solamyl-

20.09.2007 23:07 - Robot - trvalý odkaz

Nový SeznamBot běží naostro

Dnes jsme spustili do produkce novou verzi našeho robota.
Jeho hlavním přínosem by měla být rychlejší indexace, která nám dovolí začít výrazně zvětšovat databázi stránek.

Redesign robota byl poslední součástí projektu, který byl zaměřený hlavně na zlepšení možností škálování a na připravení živné půdy pro novou generaci úprav. Stará verze fulltextu byla škálovatelná pouze na výkon (rozuměj počet dotazů/sec) a nebylo možné jí už dále efektivně rozšiřovat. Opět se nám potvrdilo, že životnost aplikace je i přes veškerou údržbu max 2 roky; pak je potřeba přijít s novým řešením nebo udělat větší redesign.
Nová verze by měla být škálovatelná kromě výkonu také na objem dat (rozuměj počet zaindexovaných dokumentů) a měla by přinést nové možnosti dalšího rozšiřování.

Pravděpodobně ještě nějakou krátkou dobu (cca týden) bude trvat, než si robot udělá pořádek v databázi, kterou zdědil po starém robotovi a navštíví všechna dlouho nenavštívená url. Pak by se ale měl stabilizovat a chovat se normálně.

-solamyl-

11.09.2007 22:18 - Robot - trvalý odkaz

Nasazení nového robota se blíží

Testovací fáze našeho nového robota se chýlí ke konci.
Testovací období, které trvalo skoro měsíc, se pomalu blíží ke konci. K dnešnímu dni se podařilo vychytat všechny zásadní chyby o kterých jsme věděli a které bránily skutečnému nasazení. Pokud se to potvrdí, tak by mělo dojít k nasazení během 14 dnů.

V testu robot dosahoval (pokud zrovna běžel ;-) průměrné rychlosti ~100 přeindexovaných stránek za vteřinu. Toto číslo bychom chtěli ještě zvednout, proto jsme na poslední chvíli přidali věc, která nám dovolí využít nevytížený čas hardware vyhledávací farmy. Viz obr.


Typické rozložení zátěže během dne

Na obrázku je typické rozložení zátěže jednoho vyhledávacího serveru během dne; údaj na svislé ose je počet dotazů za vteřinu. Je vidět, že v období cca od 22:00 do 09:00 je nižší provoz, který jde až téměř k nule. V této době servery běží prakticky naprázdno a toho hodláme využít :-)

-solamyl-

22.08.2007 19:39 - Osobní a ostatní - trvalý odkaz

Fulltextový tým se rozšiřuje o další lidi

Do týmu přibude lingvista, matematik a C++ programátor.

Od září se náš tým rozšíří o další tři členy, kteří zčásti zasytí náš hlad po nových lidech.
Budou to:

  • lingvista - zpracování přirozeného jazyka,
  • matematik - spousta výpočetních úloh ze statistiky, teorie grafů, apod.,
  • programátor - C++; to umíme, ale dobrých lidí není nikdy dost ;-)

A protože 3 není málo, tak jsme včera v blízké hospodě uspořádali malou uvítací párty, kam se mimo jiné dostavil i Yuhů. Na fotce ho můžete vidět jak mastí šachy s našimi lidmi, kteří se starají o databázi.


Yuhů hraje šachy v hospodě

Pak šachy ukořistili naši admini, kteří se starají o stroje v produkci. Při minulé partii v hospodě se jim po několika pivech sešli dva bílý střelci na stejný koleji... no, no comment.


Admini sledují servery bedlivě ve dne, v noci

Akce se samozřejmě zúčastnili i noví kolegové, kteří tak splynuli s davem, že shodou okolností nejsou vidět na žádné fotografii (kromě předchozí fotografie, kde vyčuhuje pravá ruka lingvisty oblečená do kostkované košile ;-)

-solamyl-

 

17.08.2007 16:14 - Robot - trvalý odkaz

Nový crawler

Právě spouštíme do testu nového robota.

Drazí přátelé, pomocí tohoto blogu bychom vás rádi informovali o novinkách a probíhajícím vývoji  na našem fulltextovém vyhledávání. Doufáme, že vám bude přinášet zajímavé informace a budete ho mít rádi :-)

Váš fulltext-team.

 

A hned tu máme první info...

V současné době spouštíme do testu nového crawlera, na kterém jsme dělali několik zásadních úprav. Jeho největší přínos bude vyšší výkon a čitelnější chování. Do access logu se zatím podepisuje jako "SeznamBot/2.0-test".

Robot má zcela jiný charakter přístupu na webovky. Stará verze stahovala stránky prakticky v náhodném pořadí během celého dne (hlavně kvůli tomu, aby nepřetěžovala weby). Nová verze bude oproti tomu stahovat stránky organizovaně; nejdříve robots.txt a pak další stránky pěkně za sebou. Nepřetěžování webů jsme vyřešili jinak i když nás to asi bude stát víc peněz za hardware :-(

-solamyl-

 

< Novějších 50 článků - Starších 50 článků >
Autor:
fulltext
Archív:
listopad 2009
PoÚtStČtSoNe
- - - - - - 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 - - - - - -