Не кинокритик. Не палеонтолог. (plakhov) wrote,
Не кинокритик. Не палеонтолог.
plakhov

Categories:

SIGIR-2010

На прошлой неделе побывал на SIGIR. Это такая конференция по "поиску информации". Если последние два слова кажутся вам расплывчатыми и могущими означать что попало, то отбросьте сомнения - вам не кажется, так оно и есть.

Ситуация примерно следующая. Конференция начиналась больше тридцати лет назад, когда с интернетом в мире было не очень, и была посвящена library science, то есть по сути науке о том, как бы так библиотекарям правильнее вести архивы, индексы и картотеки, чтобы наиболее эффективно удовлетворять потребности ученых и аналитиков, приходящих к ним со своими странными запросами вроде "а что бы мне почитать про математику древнего Вавилона". Если точнее, участвовали в конференции адепты молодой и нахальной ветви этой науки, утверждавшие (здесь я ради веселья и троллинга всё несколько упрощаю), что для этого достаточно знать, сколько раз какое слово входит в какой документ, и использовать КОМПЬЮТЕРЫ, а всякие там "ключевые слова", тематические индексы, вручную построенные выжимки и иные плоды труда рабов почти бесполезны, т.к. поиск по ним проигрывает не то что tf/idf или не дай бог BM25, а даже простейшим vector space model (это метод, который только звучит научно, а на самом деле сводится к тому, что тот документ у нас будет релевантнее, в котором слова запроса удельно встречаются чаще).

Ссылались они при этом на Cranfield Experiments, которые доказали в общем-то ровно преимущество простых, тупых и идеально автоматизируемых методов (было это еще в шестидесятых годах, когда компьютеры поиском информации особенно не занимались). То, как эти эксперименты были организованы, очень похоже на то, как тестируют и сравнивают поисковики сейчас во всяких TREC'ах и ROMIP/РОМИП'ах: есть набор документов (коллекция), есть набор запросов, и есть набор оценок, составленных вручную - какой набор документов какому запросу релевантен; этого достаточно, чтобы верифицируемо сравнивать результаты работы разных методов поиска. В итоге получилось то, что получилось - общепринятые патентованные методы (тм) никакой пользы не приносят. Автор экспериментов сомневался, стоит ли публиковать эти результаты, ибо боялся, что ему никто не поверит, и это в лучшем случае. Совершенно справедливо - скажем, для диссертации и по сей день приходится честно заполнять примерно стопиццот разных custom fields вроде "тематики" и "ключевые слова"; не знаю, пользуется ли ими кто-нибудь для поиска, но если и пользуется - сам себе злобный буратина. Забавно, что в комментариях у avva буквально в прошлом году появлялись гневные сторонники классической library science, и смешивали с грязью все эти ваши новомодные гугли и википедии, которые, по их мнению, и рядом не лежали со старой доброй универсальной онтологией "библиотечного классификатора"; про cranfield paradigm, которая за пятьдесят лет стала настолько общим местом, что на этой конференции ее чуть не объявили замшелой и устаревшей, они, судя по всему, не слышали.

Хорошо, в 1978 году идеи автоматически искать информацию при помощи компьютеров (а не специально обученных библиотекарей), строить инвертированный индекс, и, страшно сказать, применять при этом вероятностные модели, были новыми и обещали произвести революцию (что характерно, произвели). Прошло 30+ лет, и, пусть кому-то это нравится, а кому-то нет, люди ищут информацию в интернете на пять порядков чаще, чем в библиотеках. И как же изменился SIGIR, чтобы отразить эту смену реальности, и зачем туда ездят люди из Яндекса, Microsoft Bing, Yahoo, Google, и прочих интересных компаний, хотите вы спросить (а может, и не хотите). А также наверняка вам интересно, во сколько обойдутся такси и хот-доги в Женеве, и зачем в отеле "Интерконтиненталь" стоит двуспальная кровать в коридоре возле бассейна. Обо всем этом завтра, а сейчас Полина (см. юзерпик) выгоняет меня из-за комнефпм ПАНТЕРА КИТТИ КИТТИ
Tags: search
Subscribe

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 9 comments