Hledání slov obsahujících znaky +, §, &, atd.

Dnes byl nasazen nový tokenizátor, který dovoluje hledat slova jako c++, c#, c&a, L’Oreal a pod.

V diskuzích na zdejším blogu několikrát padlo, že nevyhledáváme správně dotazy obsahující slova jako c++, paragraf, apod.


Obrázek zdroj austinlinks.com

Dnes jsme nasadili úpravu zpracování textu, která by toto měla napravit. Jedná se vylepšený tokenizátor, který dokáže v textu a v dotazech identifikovat některé obvyklé vzory slov obsahující znaky +, &, apostrof, #, §, tečka (které by se jinak považovaly za mezeru) a zacházet s nimi jako s jedním slovem.

Některé příklady:

  • c++; dříve se hledalo jen samotné „c“
  • § 200; dříve s hledalo jen 200
  • m&t; dříve se hledalo jako dvě rozdělená slova

Plný přínos bude mít tato feature během 2-3 týdnů, až se přeindexuje většina stránek, které dotčená slova obsahují. Pokud chcete srovnávat, tak na searchtest.seznam.cz se používá ještě stará tokenizace, v produkci pak nová.

Rubrika: Vyhledávání

Komentáře k článku: Hledání slov obsahujících znaky +, §, &, atd.

  1. Autor: prvni | 26.11.2008 | 02:26

    [1]Drzim palce at to bezi…

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  2. Autor: me | 26.11.2008 | 10:53

    [2]Myslím si, že spousta lidí by uvítala, kdybyste místo těchto píčovin řešili základní problémy. Viz předchozí diskuse.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  3. Autor: MartiN | 26.11.2008 | 12:06

    [3]To budou mít v C&A radost. Konečně je někdo na Seznamu najde:-) Dívám se, že se taky po dvou týdnech updatovala databáze = byly přidány nové stránky a výrazně se změnilo pořadí v SERP. Aspoň že něco, přesto, nešlo by to dělat častěji?

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  4. Autor: Miroslav Stibůrek | 26.11.2008 | 13:05

    [4]me: a jak ty můžeš vědět jestli řešej jen tohle? Přece tam mají ne team, ale teamy lidí a věřím, že na tich základních problémech pracují taky, což jim asi moc nejde vyřešit. Navíc, bez multi-taskingu zůstaneš o krok vzadu. Jinak ten nový tokanizátor je docela užitečný, když bude někdo hledat zákoník, tak už mu to alespoň zobrazí něco relevantního.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  5. Autor: Šimon Grimmich | 26.11.2008 | 13:33

    [5]To je dobrý krok, tohle jsem na Seznamu hodně postrádal, jen tak dál

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  6. Autor: xDexter | 26.11.2008 | 13:55

    [6]C++ jsem zkoušel vyhledávat na seznamu xkrát, furt jsem nechápal proč to nevyhodí ani jednu relevantní stránku. Už to vím :). Dobrá práce!!!

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  7. Autor: marek | 26.11.2008 | 14:12

    [7]mě se líbí jak jdou na seznamu kupředu – právě že řeší i relativní kravinky. tim se liší malá od velký firmy…

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  8. Autor: Radim Hasalík | 26.11.2008 | 18:52

    [8]Skvělá práce. Určitě to ocení nejen firmy.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  9. Autor: Jakub Hejda | 27.11.2008 | 02:18

    [9]Tak to je fajn, já už si myslel že c++ je zakázané téma :-)

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  10. Autor: mania | 17.1.2009 | 12:50

    [10]Skvela prace i love this

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  11. Autor: ahoj | 31.1.2009 | 13:34

    [11]To budou mít v C&A radost

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  12. Autor: bora | 31.1.2009 | 13:42

    [12]Dobrá práce!!!

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  13. Autor: Jakub Klíma | 7.2.2009 | 12:20

    [13]Super, nebo spíš konečně:)…

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  14. Autor: Vojtěch Macháček | 17.2.2009 | 17:41

    [14]Dobrý den, moc to nesouvysí s článkem, ale rád bych se zeptal, zda je možné pomocí paramertu v url ( http://search.seznam.cz/?q=aaa ) změnit počet výsledků z 10 na 100. Díky

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  15. Autor: Radim | 18.3.2009 | 14:20

    [15]Skvělá práce, jedna z dalších skvělých funkcí.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  16. Autor: opta | 24.3.2009 | 22:53

    [16]To je dobrý krok, tohle jsem na Seznamu hodně

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0

      
  17. Autor: Scherry | 10.1.2010 | 10:52

    [17]Asi je to z jiného soudku, ale zajímalo by mě, jestli již Seznam má technoligicky veřešenou indexaci domén s háčky a čárkami. Konkrétně by mě to zajímalo u domény www.květina.eu (http://www.xn--kvtina-c5a.eu/). Děkuji za informaci.

    S tímhle souhlasím 0 S tímhle nemohu souhlasit 0