úterý 6. května 2008

Jak je to s paragrafy na Seznamu, Google a Jyxo

Konečně přidávám odpověď k mému postu na téma internetové vyhledávače a znak paragrafu. Nepodařilo se mi dříve se k tomu dostat a skoro jsem na to zapomněl. Google neodpověděl vůbec, Seznam velmi rychle. Ani jeden z těchto dvou největších českých vyhledávačů vyhledávat znak pragrafu neumí. Jyxo přitom ano jak je to možné?

Odpověď od Seznamu:

Dobrý den,

Děkujeme za Váš podnět a informaci o výsledku fulltextového vyhledávání.

Ano, nepísmenné a nečíselné znaky jsou při vyhledávání z dotazů vypuštěny
(nahrazeny prázdným znakem), nehledají se. Důvodem tohoto chování jsou
kromě zjednodušení a zrychlení práce fulltextového robota především
analýzy statistik zadávaných dotazů. Navíc interpretace těchto znaků není
vždy jednoznačná.

Stejně je tomu v případě paragrafu. Z analýzy zadávaných dotazů vyplývá,
že řetězců obsahujících § je denně zadáno pouze cca 3000 z celkového počtu
11 milionů.
Jsou mezi nimi ale i dotazy např.: mapa německa§¨ nebo spívající kočky§
nebo downolad§ dvdrip ...... Reálně je dotazů uživatelů, kteří hledají
konkrétní paragraf zákona nebo jeho citaci 220 denně. Příkladem takového
dotazu je např.: § 5 zákona č. 235/2004 Sb.
http://search.seznam.cz/?q=%C2%A7+5+z%C3%A1kona+%C4%8D.+235%2F2004+Sb.&mod=f&sId=_xOX4lQKo7y2
Daleko častěji je však hledána stránka obsahující znění celého zákona,
nikoliv jeho jednotlivý odstavec/paragraf. Výsledek vyhledávání je velmi
podobný:
http://search.seznam.cz/?q=z%C3%A1kon+235%2F2004+Sb.&mod=f&sId=_xOX4lQKoFs3

Zatímco číslo zákona jej jednoznačně určuje, paragraf nikoliv. Např. § 1
obsahuje prakticky každý zákon.

Statistika, na kterou uvádíte odkaz
http://www.firmy.cz/statsScreen?serverId=seznam.search&collocation=%C2%A7&section=
představuje počet hledání dotazu obsahující prázdný znak - srov.
http://www.firmy.cz/statsScreen?serverId=seznam.search&collocation=&section=
Uvědomujeme si, že je to zavádějící, statistiky opravíme.

S přáním pěkného dne
______________________________________________________________

Robert Huml
Tým administrace fulltextu
Seznam.cz, a.s.

Žádné komentáře:

 
PageRank ukazatel optimalizace PageRank.cz