почему они все такие – ч. 2

Ну и вот.
В далеком научном прошлом был хороший принцип: "отрицательный результат – тоже результат". Это не всегда получается, но к этому нужно стремиться.
Пример: Вася-Петя экспериментально выясняет нечто. Если нечто удалось – отлично. Если не удалось – упс, положительного результа нет, а отрицательный ничего не означает – время потрачено зря. Ну, тут все понятно – это про правильную постановку экспериментов. Избегаем неправильной постановки экспериментов.

Так и с поиском то же самое. Юзер задал запрос (он, кстати, привык по умолчанию, что слова в документе должны быть близко к словам в запросе – порядок и дальность) – и ничего не нашлось. Это результат или нет?

Конечно, это результат. Это означает, что нужно переформулировать запрос (или насильно включить специальный режим "мягкого" поиска).

Отрицательный результат не менее важен, чем положительный.

Теперь начнем высер.
Я недавно видел какую-то стату по запросам в яху, по которой получалось, что на 6% запросов дается пустой ответ – ничего не найдено. Не знаю, сколько было аналога в яндексе (когда были живы контекстные ограничения), но думаю, больше (у яндекса база меньше, значит, пустых ответов на НЧ запросы больше). Допустим, 10% "ничего не найдено" было – разумно.

И я уже себе представляю это в красках. Сидит в яндексе какой-нибудь хуй. Которому дали задание "углубить и расширить". Чтобы увеличить удовлетворение пользователя, нах! Степень удовлетворения рисуеццо на графике. Ну, там, меры всякие, DCG и pfound и все такое. И у гугля оно выше, за это менеджеру отдельно вставляют.

И тут этого менеджера пробивает мысль! Хуяк! Это как это мы на 10% запросов выдаем пустой ответ! (удовлетворение юзера от такой выдачи по их мерам равно нулю).
И возникает мысль. Давайте выдавать, если ничего не найдено – не пустой результат, а какую-нибудь околорелевантную хуйню. На ней же удовлетворение будет всяко выше нуля.
PROFIT!!!

…вот так просто: берем и на дороге находим 10% бумажной эффективности. От показа разной хуйни тогда, когда следует показать "ничего не найдено".

…так в Яндексе появилась релевантность "all" примерно 2 года назад.

Если нужна справка – см. в яндекс-ХМЛ, там есть несколько типов релевантности – фразовая phrase (совпадает порядок слов), стриктовая strict (слова не очень далеко друг от друга с контекстными ограничениями и с кворумами-весами), и вся-остальная-хуйня all (слова есть вообще в документе и она очень-очень мягкая). Она и раньше существовала, но вылезать во всех местах в выдаче она стала как раз вот тогда.
Этот приоритет нужно только в ХМЛ смотреть.

Но, конечно, идея "показывать любую околорелевантную хуйню, когда ничего не найдено" не вписывается в план и общую формулу. Значит, план надо переписать.

… и "all"-документы появляются в выдаче наравне с релевантными документами. Это давно еще было.

Пробейте свои любимые НЧ – и посмотрите в ХМЛ. Обнаружите удивительную связь нерелевантных результатов с relevance priority="all"
_______________________________
Ну а юзер что? Юзер заходит, видит, что на его НЧ вместо разумного ответа (ничего нет = переформулируйте запрос) выдается какая-то помойка, где слова из запроса разбросаны по всему документу.
И думает: ну его на хрен, такой поиск, херню какую-то ищет.
_______________________________
Потому, что для юзера отрицательный результат тоже важен. Его бла-бла-бла с релевантностью all не интересует. Пусть даже она около- и на ту же тему.

почему они все такие – ч. 2: 12 комментариев

  1. Зашли примеров несколько штучек pls. anatolix@yandex[-team].ru

  2. Есть поисковик по сайтам Волгограда и Волгоградской области http://www.a34.ru/ . Там есть статистика (закрытая). На глаз видно, что после получения нулевого результата мало кто переформулирует запрос. Похоже, просто уходят.

    Пример поиск по "имя отчество фамилия".

    Возможно в Яндексе есть своя подобная статистика и они её проанализировали.

  3. А где инструмент? Ты мне лучше несколько штучек подскажи, но сейчас, там по-моему не в совпадении фразы нифига дело.

  4. все запросы типа как? (установить, поставить) (rar, unrar) на centos стали какие-то куцые, мало данных выдают илди вообще не выдают. А раньше там было много примеров.

  5. ограничить память скрипту php
    http://yandex.ru/yandsearch?text=%EE%E3%F0%E0%ED%E8%F7%E8%F2%FC+%EF%E0%EC%FF%F2%FC+%F1%EA%F0%E8%EF%F2%F3+php

    1 strict http://www.opennet.ru/tips/sml/34.shtml
    2 all http://www.vanta.ru/script/catalog.php?cat=46&clas=0
    3 strict http://www.php.ru/manual/ini.core.html
    4 strict http://theklark.livejournal.com/35915.html
    5 strict http://www.hostmake.ru/articles/php_perl/606/
    6 strict http://minenko.sumy.ua/apache/apache_faq.html
    7 strict http://www.webasyst.ru/photos/questions.html
    8 all http://www.sitemonitor.ru/doc/cgi/cgisecure.php
    9 all http://php.russofile.ru/ru/translate/unsort/optimizing
    10 strict http://www.nixhost.ru/faq.php

    по сниппетам видно, что все стриктовые результаты около темы, там и про память, и про скрипты, только 7й не очень.
    все all-результаты – то про ограничение прав, то доступа, то вообще нет про ограничения.

  6. как посмотреть список процессов centos
    http://yandex.ru/yandsearch?text=%EA%E0%EA+%EF%EE%F1%EC%EE%F2%F0%E5%F2%FC+%F1%EF%E8%F1%EE%EA+%EF%F0%EE%F6%E5%F1%F1%EE%E2+centos

    1 all http://centos.alt.ru/?p=120
    2 all http://forum.ispsystem.com/ru/showthread.php?t=4389
    3 all http://www.linuxcenter.ru/
    4 all http://blog.ronix.net.ua/2009/01/centos.html
    5 all http://ru.wikipedia.org/wiki/Linux_from_Scratch
    6 all http://mysyslog.ru/posts/tag/centos
    7 all http://rus-linux.net/nlib.php?name=/MyLDP/sys-conf/RAID1_CentOS.html
    8 all http://www.nulled.ws/blog.php?b=204
    9 all http://hudson.su/2009/05/30/lazy-monitoring-with-munin/
    10 all http://www.bog.pp.ru/work/linux.html

    -про именно "список процессов" ничего нет, нерелевантное всё.

    список процессов centos
    http://yandex.ru/yandsearch?text=%F1%EF%E8%F1%EE%EA+%EF%F0%EE%F6%E5%F1%F1%EE%E2+centos

    1 all http://wiki.centos.org/Manuals/ReleaseNotes/CentOS5.1/Russian
    2 all http://www.guruadmin.ru/tag/CentOS
    3 all http://itblog.su/vyvodim-spisok-processov-windows-v-kommandnojj-stroke.html
    4 all http://www.linux.org.ru/view-news.jsp?tag=centos
    5 all http://narodlink.ru/unixlinux-servera/centos/centos-upravlenie-processami.html
    6 all http://centos.alt.ru/?cat=6&paged=11
    7 all http://www.linuxcenter.ru/lib/books/kostromin/gl_08_04.phtml”>http://www.linuxcenter.ru/lib/books/kostromin/gl_08_04.phtml
    8 all http://it-student.com.ua/verkhnee-menju/administrirovanie/dostup-v-internet-cherez-proksi-v-centos-konfigurirovanie-setevogo-interfeisa-v-linux.html
    9 all http://blog.ronix.net.ua/2009/01/centos.html
    10 all http://forum.lissyara.su/viewtopic.php?f=47&t=18697

    -только 7 результат ничего себе, в остальном списка процессов нет. Чистая олл-релевантность, чистый мусор.

  7. как посмотреть свободное место на диске по ssh
    http://yandex.ru/yandsearch?text=%EA%E0%EA+%EF%EE%F1%EC%EE%F2%F0%E5%F2%FC+%F1%E2%EE%E1%EE%E4%ED%EE%E5+%EC%E5%F1%F2%EE+%ED%E0+%E4%E8%F1%EA%E5+%EF%EE+ssh

    1 all http://eax.me/ssh-backup/
    2 all http://www.opennet.ru/docs/RUS/use_ssh/
    3 strict http://www.linux.org.ru/view-message.jsp?msgid=932111
    4 all http://www.nixp.ru/articles/%D0%9D%D0%B0%D1%81%D1%82%D1%80%D0%BE%D0%B9%D0%BA%D0%B0-%D1%81%D0%B5%D1%80%D0%B2%D0%B5%D1%80%D0%B0-SSH-%28%D1%82%D0%B5%D0%BE%D1%80%D0%B8%D1%8F-%D0%B8-%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%29.html
    5 strict http://ru.wikipedia.org/wiki/Mount
    6 strict http://olegon.ru/showthread.php?t=3470
    7 all http://linux.yaroslavl.ru/docs/faq/ssh_faq.html
    8 all http://itbg.davnozdu.ru/index.php/tag/ssh/
    9 all http://seogrant.ru/ssh.html
    10 all http://unix1.jinr.ru/~lavr/

    из трех strict результатов два в тему – кроме википедии. Хотя вики тоже сойдет, но именно на этой странице нет.
    из all результатов первый конкретно в тему, даже содержит ответ в сниппете :), только тайтл про другое. Считаем это досадным исключением ), остальное – слово "свободно" в комбинации с разными ненужными словами.

Комментарии запрещены.