Dnes byl nasazen nový tokenizátor, který dovoluje hledat slova jako c++, c#, c&a, L’Oreal a pod.
V diskuzích na zdejším blogu několikrát padlo, že nevyhledáváme správně dotazy obsahující slova jako c++, paragraf, apod.

Obrázek zdroj austinlinks.com
Dnes jsme nasadili úpravu zpracování textu, která by toto měla napravit. Jedná se vylepšený tokenizátor, který dokáže v textu a v dotazech identifikovat některé obvyklé vzory slov obsahující znaky +, &, apostrof, #, §, tečka (které by se jinak považovaly za mezeru) a zacházet s nimi jako s jedním slovem.
Některé příklady:
- c++; dříve se hledalo jen samotné „c“
- § 200; dříve s hledalo jen 200
- m&t; dříve se hledalo jako dvě rozdělená slova
Plný přínos bude mít tato feature během 2-3 týdnů, až se přeindexuje většina stránek, které dotčená slova obsahují. Pokud chcete srovnávat, tak na searchtest.seznam.cz se používá ještě stará tokenizace, v produkci pak nová.

[1]Drzim palce at to bezi…
[2]Myslím si, že spousta lidí by uvítala, kdybyste místo těchto píčovin řešili základní problémy. Viz předchozí diskuse.
[3]To budou mít v C&A radost. Konečně je někdo na Seznamu najde:-) Dívám se, že se taky po dvou týdnech updatovala databáze = byly přidány nové stránky a výrazně se změnilo pořadí v SERP. Aspoň že něco, přesto, nešlo by to dělat častěji?
[4]me: a jak ty můžeš vědět jestli řešej jen tohle? Přece tam mají ne team, ale teamy lidí a věřím, že na tich základních problémech pracují taky, což jim asi moc nejde vyřešit. Navíc, bez multi-taskingu zůstaneš o krok vzadu. Jinak ten nový tokanizátor je docela užitečný, když bude někdo hledat zákoník, tak už mu to alespoň zobrazí něco relevantního.
[5]To je dobrý krok, tohle jsem na Seznamu hodně postrádal, jen tak dál
[6]C++ jsem zkoušel vyhledávat na seznamu xkrát, furt jsem nechápal proč to nevyhodí ani jednu relevantní stránku. Už to vím :). Dobrá práce!!!
[7]mě se líbí jak jdou na seznamu kupředu – právě že řeší i relativní kravinky. tim se liší malá od velký firmy…
[8]Skvělá práce. Určitě to ocení nejen firmy.
[9]Tak to je fajn, já už si myslel že c++ je zakázané téma :-)
[10]Skvela prace i love this
[11]To budou mít v C&A radost
[12]Dobrá práce!!!
[13]Super, nebo spíš konečně:)…
[14]Dobrý den, moc to nesouvysí s článkem, ale rád bych se zeptal, zda je možné pomocí paramertu v url ( http://search.seznam.cz/?q=aaa ) změnit počet výsledků z 10 na 100. Díky
[15]Skvělá práce, jedna z dalších skvělých funkcí.
[16]To je dobrý krok, tohle jsem na Seznamu hodně
[17]Asi je to z jiného soudku, ale zajímalo by mě, jestli již Seznam má technoligicky veřešenou indexaci domén s háčky a čárkami. Konkrétně by mě to zajímalo u domény www.květina.eu (http://www.xn--kvtina-c5a.eu/). Děkuji za informaci.