14 Июл 2011

Как оценить достоверность результатов поиска?

Как оценить достоверность результатов поиска?

В своей вчерашней заметке «Поучительная история, как важно действительно уметь пользоваться Google’ом, рассказанная Альбертом Эйнштейном в 1954 году» я писал, как важно уметь оценить достоверность результатов, которые приносит нам поисковый запрос. Проведя по этой теме, я с удивлением обнаружил, что почти никто этим не занимается. Редкое исключение —  Игорь Ашманов, на работах которого во многом построены умозаключения, приводимые ниже. Итак, перед нами стоит задача: найти информацию по заданной теме.

Искусство поиска состоит из двух частей:

  • Грамотное построение поискового запроса
  • Оценка результатов поиска и выбор наиболее релевантных результатов

Первому пункту посвящено множество материалов. Но большинство источников сводит все к технической стороне вопроса — технологии правильного использованию языка поисковых запросов данной конкретной поисковой системы. Знание механизма, безусловно, позволяет существенно улучшить релевантность поисковой выдачи, но при одном единственном условии — если правильно задан поисковый запрос. Увы, если на этом этапе сделать ошибку, можно потерять очень много времени на уточнения и в результате часто может оказаться, что проще все начать заново. Как писал Михаил Талантов еще в 1999 году:

Начинать обычно приходится со всестороннего лексического анализа информации, подлежащей поиску. Необходимо получить из любого источника прецедент подробного и грамотного описания исследуемого вопроса. Таким источником вполне может стать как узкоспециальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики и клише, при необходимости — на нескольких языках. Заранее стоит побеспокоиться о потенциальной возможности уточнения поискового запроса — редких словах, возможно, названий и фамилий, тесно связанных c проблемой. Желательно также предвидеть, какие из выбранных терминов могут привнести в отклик поисковых систем нерелевантные документы. После накопления этого багажа можно перейти к получению предварительной информации из Сети.

С 1999 года Интернет изменился, но принципы остались теми же.

Впрочем, в этой заметке мне хотелось бы уделить больше внимания второй части искусства поиска, а именно каким образом можно оценить релевантность тех результатов, которые поисковая система выдает нам на наш запрос.

Существует много способов оценить насколько хорошо документы, найденные поисковиком, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами, релевантности, является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса. Так что в каждом конкретном случае оценка релевантности должна проводиться индивидуально по критериям, соответствующим цели исследования.

Представляется, что правильным подходом в оценке релевантности будет следование классическому журналистскому подходу к проверке достоверности информации:

  • подтверждение ее, как минимум, из двух независимых друг от друга источников;
  • проверка незаинтересованности источника информации в ее содержании;
  • сопоставление полученной информации с уже известной по этой теме;
  • проверка достоверности полученной информации у авторитетных экспертов;
  • затребование у источника информации дополнительных деталей, подтверждающих истинность основного сообщения.

В случае интернет-поиска это означает следующее:

  1. Найдя какую-то информацию в Сети, проверь, есть ли подтверждения ее существования в независимых источниках.  Легкость публикации в Интернет приводит к очень легкомысленному обращению с информацией многих блогеров, а зачастую и сетевых журналистов. Если найденная информация подтверждается несколькими сайтами, необходимо проверить, не являются ли они клонами. Увы, большинство «фейков» сегодня вбрасывается сразу на несколько ресурсов именно, чтобы преодолеть этот первый барьер. С другой стороны, если вы вдруг обнаруживаете, что найденная информация не совпадает с той, которая уже имеется в сети, возникает вопрос — а какую из них следует признать достоверной? Когда я готовлю аргументацию для своих дискуссий то очень часто сталкиваюсь с ситуациями, когда, казалось бы само собой разумеющиеся факты оказываются мифами. Важно уметь вовремя перестроиться и перестроить свои аргументы в связи с вновь открывшимися обстоятельствами.
  2. Самое главное при проверке качественности информации — это проверка незаинтересованности источника информации в ее содержании. В первую очередь сегодня нужно обращать внимание на наличие проплаченных ссылок и явно ангажированных материалов (обычно их можно «вычислить» по не очень тщательно выполненной логической привязке к контексту или тенденциозности изложения). Важно также избегать брать информацию с «помоечных сайтов»,  авторы которых публикуют информацию без разбора и не отвечают за ее качество. Признаком такого сайта может быть разнородность публикуемой информации, ее стилистическая и тематическая мозаичность. О сайтах, контент которых генерируется в автоматическом и полуавтоматическом режиме попросту умолчим.   Важным аргументом является понимание, не является ли информация противоречивой сама по себе. Противоречия, как правило, являются следствием либо небрежности, либо сознательного или бессознательного дезинформирования
  3. Вторым по значимости условием отбора качественной информации является сопоставление с уже известными данными по этой теме. Настоящие сенсации встречаются редко. Если информация правдоподобна, шансы на то, что она достоверна, намного больше, нежели у сенсационно скандальной (если вы на новостном сайте видите тизер с текстом «Просто введите ЛЮБУЮ ФАМИЛИЮ и через минуту узнайте о человеке всё.» здравый смысл должен подсказать вам, что на самом деле вы получите не совсем то, на что рассчитываете.
  4. Проверка у авторитетных экспертов. Если материал, который вы нашли, кажется вам настолько интересным, что он стоит ваших усилий, но вы не являетесь специалистом по данному вопросу, попробуйте найти мнение специалистов по этому вопросу. Как это делается я подробно рассказал вчера на примере истории с фильтром Причарда. Стоит заметить, что, если обсуждений данного вопроса экспертами не найдено, можно самому инициировать подобное обсуждение. Важно только грамотно выбрать площадку.
  5. В конце концов публикации в Интернете делают не жрецы фараона Аменхотепа, с которыми никак не связаться! Не забывайте о простом способе — попросту напишите автору. если, конечно, он указал на сайте свои контактные данные. Впрочем, если таковых нет, у вас лишний повод сомневаться в достоверности приведенной информации.

Впрочем, для большинства читателей все это пока — только общие слова. Критерии достоверности информации тут очень индивидуальны и, как следствие, весьма размыты.

Давайте перейдем к более конкретным примерам.

Игорь Ашманов рассматривает оценку релевантности полученных данных на примере популярного сервиса Вопросов и ответов. Как оценить, какой из ответов наиболее релевантен вашему вопросу?

Оценка достоверности предлагаемых в ответе данных — самая сложная задача оценки качества ответа. Эксперт вполне может ошибаться или сознательно вводить в заблуждение. Поэтому приходится не только оценивать предложенную информацию, но и ее источник. В связи с этим стоит ввести еще два термина: авторизованность и авторитетность.

Авторизованность — это привязка предлагаемых в ответе данных к известному источнику. В качестве источника могут быть использованы ссылка на сайт, книга и др.

Авторитетность — характеристика источника данных. Если эксперт в ответе не ссылается на источник, а говорит от первого лица, оценивается авторитетность самого эксперта

Применительно к поисковой выдаче для нас критериями релевантности найденного материала может быть ссылка на известный источник.

Характерный пример: вчера в социальной сети Вконтакте моя знакомая разместила заметку о том, что еще в 1988 году журнал “НАУКА И ЖИЗНЬ”  опубликовал статью о том, что компания Apple провела опрос среди студентов, каким, по их мнению, должен быть компьютер в 2000 году. И по ответам составила коллективный портрет «идеального компьютера», как две капли воды похожего на… iPad.

Друзья сразу закричали «Фейк! Фейк! Этого не может быть, потому что не может быть никогда!»

Однако тут же был представлен скан соответстующей страницы журнала и вопрос был исчерпан. Кстати, статья действительно интересная — стоит прочитать ее сегодня, в году 2011.

Наличие ссылки на авторитетный источник снимает проблему. По крайней мере наполовину. Потому что, как верно заметил Ашманов, «эксперт вполне может ошибаться или сознательно вводить в заблуждение». Фотожабы ведь никто не отменял (:-)

Игорь Ашманов подробно рассматривает, каким образом можно убедиться в квалификации эксперта (опять на примере «Вопросов и ответов», но его выводы применимы и для анализа блогов, в которых мы находим информацию.

Конечно, приведенный материал рассчитан скорее на экспертов, чтобы они сами могли взглянуть на себя со стороны. Но для нас важна и потребительская сторона вопроса.

И — последнее. А нельзя ли сделать такую машинку, чтобы — БАЦ! — и сказала она нам — этот сайт релевантен, а этот — сплошной фейк?

Вопрос сформулирован издевательски смешно, но в мире всерьез озабочены созданием автоматических алгоритмов оценки достоверности интернет-сайтов:

Исследователь австрийского научно-технического центраKnow-Center Андреас Юффингер отмечает, что эта проблема особенно актуальна из-за размножения блогов, в которых каждый может написать все что угодно. Г-н Юффингер и его коллеги работают над программой, которая будет анализировать веб-дневники и автоматически ранжировать их по степени достоверности. С этой целью ПО будет исследовать статистические свойства сайтов — к примеру, частотность употребления тех или иных слов в единицу времени — и сравнивать их с другими новостными ресурсами, уже заслужившими доверие.

«Результаты получились многообещающими, мы на верном пути, — заявил Андреас Юффингер на международной конференции WWW 2009, проходящей на этой неделе в Мадриде. — Оценка достоверности сайтов не может не быть автоматической, поскольку читатели не в состоянии сравнить все блоги друг с другом».

Возможно ли создание подобной автоматической системы?

Не знаю, не знаю. Мне по этому поводу ближе точка зрения А. В. Пурника, Главного специалиста исследовательского центра «Библиотека, Чтение, Интернет» при РГБ для молодёжи:

Во первых, неясно кто и по какой процедуре будет отбирать эталонные тексты и чью точку зрения они будут отражать? Эдак в Иране эталонными возьмут тексты Ахмадинежада и всякие-там «статистически несогласные» с президентом будут выявлены и вычищены…

А во вторых, кто и как без семантики будет решать с каким именно эталонным текстом надо соотносить.
Например как «статистический анализатор» поймет, что материал «Немцов подкрался незаметно» – это про выборы в Сочи? А если материал касается Иванова (у нас их только в верхних эшелонах публичных политики несколько), то как без семантики определить с текстом про какого именно Иванова надо сравнивать. И как быть с абсолютно достоверным милицейским протоколом про «Гражданин Иванов нарушал на тумбу. После многочисленных увещеваний с моей стороны прекратил, но не потому, что осознал, а потуму, что иссяк»? Отсеять как марающее светлый облик?…

И, наконец, в третих. Опыт подгонки сайтов и документов под критерии рейтинговой статистической оценки поисковых машин показывает, что «в топ» попадают отнюдь не самые релевантные и не самые лучщие материалы… Что, авторы публикуемых материалов не сумеют оформить «подгонку» под требования анализатора? Подгонят….

Неа, робяты. Без семантики это всё «не пляшет».
А кто сегодня может выполнять функцию семантического анализатора достоверности?
Человек, которого этому учили. Библиотекарь называется

В общем, что бы ни говорили, все зависит от Человека. От его способностей отделять зерна от плевел и выделять в мутном потоке информационного поиска те крохи, которые и составляют настоящее знание.

Метки:, , ,

, ,