Современный метапоиск в Интернете
Не секрет, что даже самые крупные поисковые системы не способны полностью охватить интернет-ресурсы: для наполнения индексных баз используются различные роботы и алгоритмы, а значит, их содержание на разных поисковиках может различаться. Следовательно, если пользователь работает только с одним поисковиком, то теряет определенный процент тех ссылок, которые просто не попали в индексные базы, но они вполне могут быть проиндексированы другой системой. Повторять в ручном режиме поиск на различных ресурсах — не самый рациональный путь.
Метапоисковые интернет-системы прошли в своем развитии достаточно долгий путь, и сейчас их лучшие представители используют самые современные технологии обработки информации, например кластеризацию. Суть такого подхода заключается в том, что полученное в ходе поиска по определенному ключевому слову подмножество страниц дополнительно анализируется, в результате чего выявляются новые ключевые слова, встречающиеся на веб-страницах вместе с терминами запроса. С большой вероятностью они относятся к отдельным аспектам интересующей пользователя темы. Далее найденные вебстраницы разделяются на отдельные кластеры в соответствии с наличием этих дополнительных ключевых терминов. Такая технология имеет ряд преимуществ. Пользователь получает подсказки, позволяющие уточнить запрос, что особенно важно при поиске по незнакомой предметной области. Применение кластеров также помогает поднять в результатах поиска узкотематические сайты, которые при обычном поиске могли оказаться далеко за пределами первой десятки результатов и, следовательно, вне поля зрения подавляющего большинства пользователей.
Далее мы рассмотрим лучшие в настоящее время интернет-метапоисковики, базирующиеся на кластерных технологиях.
Clusty
Сервис Clusty — один из крупнейших современных метапоискови-ков, «полноценная» версия экспериментальной машины Vivisimo, разрабатывающейся с 2004 г. Clusty работает с поисковиками Ask, Gigablast, Live (теперь— Bing), дополняя результаты данными, полученными в «Википедии», Yahoo! News и Open Directory. Эту систему вряд ли стоит рекомендовать для поиска по умолчанию, однако она станет отличным дополнением к поиску по иностранным ресурсам в Google или Yahoo!, поскольку позволяет в едином интерфейсе охватить индексные базы, обычно выпадающие из круга зрения пользователя, привыкшего обращаться только к самым крупным и известным поисковикам.
Интерфейс страницы выдачи данного сервиса четко разделен на две области: список результатов и боковую панель кластеров, на которой отображаются результаты кластеризации в виде перечня. Его отдельные элементы можно раскрыть, чтобы просмотреть вложенные кластеры. Clusty по умолчанию использует двухуровневую кластеризацию. Уточнить поиск поможет поле Find in clusters. Боковая панель содержит еще несколько закладок: Sources, на которой результаты разбиты на группы по отдельным поисковикам, и Sites, где ссылки сгруппированы по доменам.
В списке результатов рядом с каждой ссылкой присутствуют три кнопки. С их помощью можно открыть ссылку в новом окне, найти все ее вхождения в различных кластерах, а также воспользоваться режимом предварительного просмотра. В этом случае на странице выдачи создается небольшой фрейм, куда и подгружается найденная веб-страница.
Расширенные настройки поиска позволяютуказать языкискомых страниц, типы файлов (поддерживаются форматы Microsoft Office и PDF), а также количество ссылок в кластерах—200 или 500.
Помимо поиска по веб-сайтам, Clusty предлагает работу с базами изображений, новостей и блогов. Каждый из перечисленных режимов имеет свою специфику. Так, при поиске картинок задействован только один источник—Picsearch, однако достойно работает кластеризация результатов. Изменяются и вкладки на боковой панели, предлагающие сгруппировать найденный контент по размеру рисунка, типу файла и домену. При поиске новостей предлагается собственная группировка: «горячие» новости, наука, бизнес и другие подобные категории. Весьма интересен раздел Wikipedia. Это, по сути, кластерный интерфейс к крупнейшей сетевой энциклопедии, полезный в том случае, когда интересует достаточно широкая предметная область. Поиск по блогам ведется довольно медленно, причем обрабатываются сервисы Feedster, Technorati, Blogger и BlogPulce.
В настройках CLusty присутствует интересная возможность создать собственный режим поиска, включив в него необходимые поисковики из списка поддерживаемых системой. Это, например, позволит вести одновременный поиск и по сайтам, и по новостям, и по блогам.
Наряду с обычным веб-интерфейсом система обладает и сервисом, оптимизированным для просмотра на мобильных устройствах. Он выполнен достаточно удачно: кластеры выводятся в виде горизонтальной линейки над основным списком. Кроме того, сразу предлагается перечень уточненных запросов, что удобно, если вы пользуетесь обычным телефоном и не желаете лишний раз набирать на клавиатуре. В отличие от обычного поиска, мобильная версия выводит на одной странице результаты поиска и по веб-сайтам, и по базе изображений. Отдельно выделены статьи, найденные в «Википедии».
И еще Clusty предлагает поисковый плагин для Firefox и Internet Explorer, а также панели инструментов для браузеров Firefox, Safari и Opera.
В списке ссылок, выводящем ся в центральной колонке, как и в Clusty, доступна опция предвари тельного просмотра найденной веб-страницы во фрейме. Кроме того, уникальные результаты, об наруженные только одним из задействованных поисковиков, под свечиваются цветным фоном.
PolyMeta
Система PolyMeta — новинка в области метапоиска. Данный сервис работает с восемью крупными поисковиками: Google, Yahoo!, Bing, Ask, Exalead, AllTheWeb, GigaBIast и Cuil, что обеспечивает хороший охват при поиске. При желании допустимо вручную настроить список поисковиков, на которые будет отправлен запрос. Для этого служит ссылка Select Sources, расположенная рядом с полем ввода запроса. Кластерный алгоритм PolyMeta обрабатывает только первые две сотни результатов, полученные от назван ных поисковых систем, т. е. удаст ся увидеть лишь первые 25 ссылок с каждого из них. Следовательно, PolyMeta не слишком подходит для работы с так называемым «длин ным хвостом» результатов.
С помощью данной системы можно искать по веб-страницам, базам изображений и новостей, а также по блогам. Оригинальный раздел этого метапоисковика — поиск по микроблогам Twitter.
Поскольку речь зашла о метапоиске с визуализацией результатов, то нельзя не вспомнить проект Search Crystal, который, благодаря оригинальному интерфейсу со спиралевидной картой, отображал до нескольких сотен ссылок на одной странице, умел представлять кластеры в различных режимах — от облака тегов до иерархического списка, а также предлагал впечатляющий набор инструментов для работы с запросом. Н сожалению, сейчас проент не действует. Будем надеяться, что разработки SearchCrystal не пропадут и мы еще увидим их в Сети.
PolyMeta работает со всеми крупными поисковиками, но обрабатывает лишь верхние позиции их выдачи.
Система PolyMeta, обеспечивающая охват всех крупнейших индексных баз, может быть рекомендована для обзорного поиска по иностранным ресурсам. Заметим, что благодаря обращению к базам европейского поисковика Exalead, результаты по запросам на языках, отличных от английского, здесь иногда получаются лучше, чем на других метапоисковиках. К минусам PolyMeta относятся заметная «задумчивость» при обработке результатов, не всегда удачная сортировка ссылок, а также работа только с первыми позициями в выдаче отдельных поисковиков.
Интерфейс страницы выдачи разделен на три колонки. На ле вой панели содержатся результа ты кластеризации. Данная систе ма поддерживает несколько уров ней вложений в кластерах, благода ря чему можно достаточно быстро перечень кластеров в виде схемы уточнять запрос просто щелчками мыши. Отдельная закладка панели поможет отсортировать результаты по источникам поиска. Правая ко лонка интерфейса PolyMeta выво дит результаты поиска изображе ний, осуществляющегося гораздо медленнее, чем поиск веб-сайтов. При поиске видео система работа ет с YouTube, Google Video, Yahoo! Video и MySpace.
KartOO
Разработчики французского проекта KartOO бросили все силы на создание действительно оригинального визуального интерфейса. Построенный на основе технологии Flash, он внешне заметно отличается от большинства привычных нам интернет-поисковиков.
Система KartOO предла гает визуальный режим отображения результатов в виде нарты выводится информация о количе стве тех, которые получены с каж дого задействованного поискови ка. В системе PolyMeta также досту пен визуальный режим отображе ния кластеров.
Интерфейс KartOO доступен на трех языках: английском, французском и немецком. После отправки запроса можно выбирать из трех режимов просмотра результатов. Переключение между ними осуществляется с помощью кнопок на Панели инструментов, расположенной над основным рабочим пространством. Первые два режима—обычный горизонтальный список найденных ссылок, а также вывод ссылок вертикальными колонками. Вданном случае на одном экране помещается всего три ссылки, но они сопровождаются, во-первых, графической миниатюрой вёб-страницы и, во-вторых, расширенной аннотацией. Однако наиболее интересен третий режим, поскольку аналогов ему нет у конкурентов. Он включен на KartOO по умолчанию, и результаты демонстрируются в виде своеобразной визуальной карты. Каждая найденная ссылка представляется графической миниатюрой сайта, размер которой зависит от ее позиции в выдаче задействованных поисковиков. При наведении курсора на миниатюру появляется небольшое всплывающее окно с краткой текстовой выдержкой, характеризующей найденную веб-страницу.
Чтобы дополнительно обработать результаты, KartOO, как и другие участники данного обзора, использует технологию кластеризации. Ее результаты также выводятся на карте, но только получается не привычная панель с перечнем кластеров, а «тропинки» между отдельными миниатюрами на карте. Цветные связи в этом случае позволяют соединить веб-страницы из разных кластеров, что полезно для обработки сайтов широкой тематики. Если несколько сайтов принадлежат к одному кластеру, то они будут связаны между собой на карте, а рядом с такой сетью выводится название конкретного кластера. Щелкнув по нему, можно уточнить запрос и перейти к просмотру результатов. Пожалуй, наиболее близок к KartOO по своей идее интерфейс российского поисковика Quintura, однако там основой послужило простое облако тегов, без демонстрации связей между отдельными сайтами.
Есть у KartOO и боковая панель. По умолчанию там выводятся результаты поиска по новостям и картинкам. Ее содержание можно изменить в настройках поиска. Среди других настроек, доступных в этом поисковике, —детский фильтр, внешний вид карты и переключатель количества результатов на одной странице.
Nigma
С удовольствием следует отметить, что в области метапоиска российские разработчики не отстают от своих зарубежных коллег. Со всей ответственностью утверждаю, что поисковая система Nigma, выполненная на мировом уровне, является самым совершенным в настоящее время кластерным мета-поисковиком для русскоязычных веб-ресурсов.
Сервис Nigma был разработан в 2005 г. при поддержке специалистов МГУ им. М.В. Ломоносова и в сотрудничестве со Стэндфордским университетом. Он работает со всеми крупнейшими индексными базами, содержащими документы на русском языке. Это Google, «Яндекс», «Рамблер», Bing, Altavista, Yahoo!, Aport, а также собственная индексная база Nigma.
Действительно сильная сторона Nigma — это учет специфики русского языка при обработке запросов и формировании кластеров. По понятным причинам подобной точностью не может похвастаться ни один из зарубежных ресурсов. В Nigma также хорошо выполнено автодополнение при вводе поиско вого запроса. В отличие от большин ства интернет-поисковиков, здесь не только предлагаются вариан ты написания того или иного сло ва, да и выводятся прямые ссылки на справочные ресурсы.
Интересно, что, если системе удается автоматически распознать отдельные элементы веб-страницы, она выводит подробные сведения о ней на странице выдачи. Например, для авторских статей это могут быть заголовок и автор, для программ — название, размер, разработчик, издатель и даже список похожих программ. Это в определенной степени роднит Nigma с приложениями тан называемого поколения Semantic Web, или, как его еще иногда называют, Web 3.0.
Достойно выполненный алгоритм кластеризации Nigma в ходе поиска учитывает различные морфологические формы слов из запроса, умеет находить и обрабатывать синонимы, а также выявлять более общие понятия. Кроме того, система успешно обрабатывает запросы с орфографическими ошибками — их может быть до четырех в одном слове, а предлагаемые варианты написания ранжируются по близости к его звучанию. Nigma также без проблем справляется с запросами, по ошибке набранными в неправильной раскладке. Система обладает собственным словарем омонимов, что очень помогает при поиске по темам, относящимся к информационным технологиям, поскольку вариантов написания заимствованных из английского языка терминов может быть немало.
Интерфейс Nigma построен на выводе сформированных кластеров в виде списка на боковой панели. Включение и исключение отдельных кластеров осуществляются простым щелчком по соответствующим чекбоксам.
Наряду с поиском по вебстраницам в Nigma реализованы еще три вида поиска: «Картинки», «Библиотеки» и «Музыка». Поиск изображений также работает в метарежиме, обращаясь к трем внешним поисковикам: «Яндекс», Google и «Рамблер». Здесь, правда, кластеризация не работает, фильтровать изображения можно по более привычным признакам—размеру и типу файла.
Поиск книг, работающий с крупнейшими сетевыми библиотеками, ориентирован на нахождение полных текстов произведений. Здесь осуществляется кла-
стеризация, однако ее результаты далеко не такие впечатляющие, как при простом веб-поиске. Весьма достойно выглядит в работе поиск музыки. Как и в случае с книгами, система ориентируется на ресурсы, позволяющие прямое копирование файлов. Несмотря на то что сервис в данном режиме работает только с базами «Яндекс» и Nigma, результаты поиска весьма достойные, находятся даже довольно редкие вещи. Если файл позволительно воспроизвести без закачки, то рядом с найденными результатами выводится мини-плеер.
Nigma — лучший метапоисковик для русских документов
Июньское потепление
Уже шестой по счету ежегодный форум DfSTREE Digital Consumer Channel CIS прошел в Москве 17 — ig июня 2009 г. Впервые параллельно с «потребительским» форумом прошел и Digital Business Channel. Это объединенное мероприятие получило название DISTREE Channel IT Week. В форумах приняли участие не только вендоры, но и дистрибьюторы, ритейлеры, бизнес-партнеры, работающие в сфере ИТ на территории СНГ. В рамках мероприятия было проведено около 1500 личных встреч, что позволило наладить необходимые бизнес-контанты, Мы же больше внимания уделили проводимой в рамках DISTREE Channel IT Week выставке, на которой каждый из 6о производителей, участвовавших в ней, продемонстрировал образцы своей продукции. Из увиденного у нас вызвали большой интерес референсная версия нетбу-ка на платформе nVidia Ion и интегрированная системная плата формфактора Wini-ITX от Z0TAC на том же наборе системной логини. Кстати, образец этой платы мы получили для тестирования.
Кроме того, следует отметить продемонстрированную компанией Toshiba компактную видеокамеру, способную снимать видео с разрешением до 72ор (впоследствии планируется выпуск модели с разрешением до ю8ор). В качестве носителя информации используются карты SDHC. Камера оборудована 2,5-дюймовым дисплеем и объективом с 4-кратным оптическим эумом. Ожидается, что цена этого устройства составит около 9 тыс.
Кстати, в числе участников форума было довольно много вендоров, до насто-’ . у ящего времени официально не представленных на российском рынке, К их числу относится бельгийсная компания IRIS, производитель разнообразных портативных сканеров, чья продукция появится на отечественном рынке осенью этого года, ч Среди разработчиков программного обеспечения, присутствовавших на форуме, стоит упомянуть немецкую компанию С Data, производящую антивирусное ПО, которое вскоре должно появиться на российском рынке. По функциональности ее продукция не уступает известным у нас панетам безопасности, поэтому есть все основания считать, что C-Data сумеет завоевать популярность у отечественных пользователей. Интерес зарубежных номпаний к таким мероприятиям, нак-DISTREE Channel IT Week, — хороший признан, свидетельствующий о здоровой обстановке на отечественном рынке, и мы надеемся, что такая тенденция сохранится и в будущем.
Tags: Altavista, Aport, Ask, Bing, Blogger, BlogPulce, Clusty, Directory, DISTREE, Feedster, Gigablast, Google, KartOO, Live, Microsoft Office, News, Nigma, Open, Picsearch, PolyMeta, Search Crystal, Technorati, Toshiba, Twitter, Vivisimo, Wikipedia, Wini-ITX, Yahoo!, Z0TAC, «Рамблер», «Яндекс», Яндекс
[...] важный практический шаг по повышению эффективности СЭД—он определяет действия пользователя в ходе [...]