vipcomping.ru

Интернет!

Современный метапоиск в Интернете

Не секрет, что даже самые крупные поисковые системы не способны полно­стью охватить интернет-ресурсы: для наполнения индексных баз использу­ются различные роботы и алгоритмы, а значит, их содержание на разных по­исковиках может различаться. Следовательно, если пользователь работает только с одним поисковиком, то теряет определенный процент тех ссылок, которые просто не попали в индексные базы, но они вполне могут быть про­индексированы другой системой. Повторять в ручном режиме поиск на раз­личных ресурсах — не самый рациональный путь.

Метапоисковые интернет-системы прошли в своем развитии достаточно долгий путь, и сейчас их лучшие представители используют самые современные технологии об­работки информации, например кластеризацию. Суть такого подхо­да заключается в том, что получен­ное в ходе поиска по определенно­му ключевому слову подмножество страниц дополнительно анализиру­ется, в результате чего выявляются новые ключевые слова, встречающи­еся на веб-страницах вместе с тер­минами запроса. С большой вероят­ностью они относятся к отдельным аспектам интересующей пользова­теля темы. Далее найденные веб­страницы разделяются на отдель­ные кластеры в соответствии с на­личием этих дополнительных клю­чевых терминов. Такая технология имеет ряд преимуществ. Пользова­тель получает подсказки, позволя­ющие уточнить запрос, что особен­но важно при поиске по незнакомой предметной области. Применение кластеров также помогает поднять в результатах поиска узкотемати­ческие сайты, которые при обыч­ном поиске могли оказаться дале­ко за пределами первой десятки ре­зультатов и, следовательно, вне по­ля зрения подавляющего большин­ства пользователей.

Далее мы рассмотрим луч­шие в настоящее время интернет-метапоисковики, базирующиеся на кластерных технологиях.

Clusty

Сервис Clusty — один из круп­нейших современных метапоискови-ков, «полноценная» версия экспериментальной машины Vivisimo, разра­батывающейся с 2004 г. Clusty работает с поисковиками Ask, Gigablast, Live (теперь— Bing), дополняя ре­зультаты данными, полученными в «Википедии», Yahoo! News и Open Directory. Эту систему вряд ли стоит рекомендовать для поиска по умол­чанию, однако она станет отличным дополнением к поиску по иностран­ным ресурсам в Google или Yahoo!, поскольку позволяет в едином ин­терфейсе охватить индексные базы, обычно выпадающие из круга зре­ния пользователя, привыкшего об­ращаться только к самым крупным и известным поисковикам.

Интерфейс страницы выдачи данного сервиса четко разделен на две области: список результа­тов и боковую панель кластеров, на которой отображаются резуль­таты кластеризации в виде переч­ня. Его отдельные элементы можно раскрыть, чтобы просмотреть вло­женные кластеры. Clusty по умол­чанию использует двухуровневую кластеризацию. Уточнить поиск по­может поле Find in clusters. Боковая панель содержит еще несколько за­кладок: Sources, на которой резуль­таты разбиты на группы по отдель­ным поисковикам, и Sites, где ссылки сгруппированы по доменам.

В списке результатов рядом с каждой ссылкой присутствуют три кнопки. С их помощью мож­но открыть ссылку в новом окне, найти все ее вхождения в различ­ных кластерах, а также воспользо­ваться режимом предварительного просмотра. В этом случае на стра­нице выдачи создается небольшой фрейм, куда и подгружается най­денная веб-страница.

Расширенные настройки поис­ка позволяютуказать языкискомых страниц, типы файлов (поддержи­ваются форматы Microsoft Office и PDF), а также количество ссылок в кластерах—200 или 500.

Помимо поиска по веб-сайтам, Clusty предлагает работу с базами изображений, новостей и блогов. Каждый из перечисленных режи­мов имеет свою специфику. Так, при поиске картинок задействован только один источник—Picsearch, однако достойно работает класте­ризация результатов. Изменяются и вкладки на боковой панели, пред­лагающие сгруппировать найден­ный контент по размеру рисунка, типу файла и домену. При поиске новостей предлагается собствен­ная группировка: «горячие» ново­сти, наука, бизнес и другие подоб­ные категории. Весьма интересен раздел Wikipedia. Это, по сути, кла­стерный интерфейс к крупнейшей сетевой энциклопедии, полезный в том случае, когда интересует до­статочно широкая предметная об­ласть. Поиск по блогам ведется до­вольно медленно, причем обрабаты­ваются сервисы Feedster, Technorati, Blogger и BlogPulce.

В настройках CLusty присутству­ет интересная возможность создать собственный режим поиска, вклю­чив в него необходимые поисковики из списка поддерживаемых систе­мой. Это, например, позволит вести одновременный поиск и по сайтам, и по новостям, и по блогам.

Наряду с обычным веб-интерфейсом система облада­ет и сервисом, оптимизирован­ным для просмотра на мобильных устройствах. Он вы­полнен достаточно удачно: класте­ры выводятся в виде горизонталь­ной линейки над основным спи­ском. Кроме того, сразу предлага­ется перечень уточненных запро­сов, что удобно, если вы пользуе­тесь обычным телефоном и не же­лаете лишний раз набирать на кла­виатуре. В отличие от обычного по­иска, мобильная версия выводит на одной странице результаты поиска и по веб-сайтам, и по базе изобра­жений. Отдельно выделены статьи, найденные в «Википедии».

И еще Clusty предлагает поис­ковый плагин для Firefox и Internet Explorer, а также панели инстру­ментов для браузеров Firefox, Safari и Opera.

В списке ссылок, выводящем ся в центральной колонке, как и в Clusty, доступна опция предвари тельного просмотра найденной веб-страницы во фрейме. Кроме того, уникальные результаты, об наруженные только одним из задействованных поисковиков, под свечиваются цветным фоном.

PolyMeta

Система PolyMeta — новинка в области метапоиска. Данный сер­вис работает с восемью крупными поисковиками: Google, Yahoo!, Bing, Ask, Exalead, AllTheWeb, GigaBIast и Cuil, что обеспечивает хороший охват при поиске. При желании до­пустимо вручную настроить список поисковиков, на которые будет от­правлен запрос. Для этого служит ссылка Select Sources, расположен­ная рядом с полем ввода запроса. Кластерный алгоритм PolyMeta обрабатывает только первые две сотни результатов, полученные от назван ных поисковых систем, т. е. удаст ся увидеть лишь первые 25 ссылок с каждого из них. Следовательно, PolyMeta не слишком подходит для работы с так называемым «длин ным хвостом» результатов.

С помощью данной системы мож­но искать по веб-страницам, базам изображений и новостей, а также по блогам. Оригинальный раздел этого метапоисковика — поиск по микроблогам Twitter.

Поскольку речь за­шла о метапоиске с визуализацией ре­зультатов, то нельзя не вспомнить проект Search Crystal, кото­рый, благодаря ори­гинальному интер­фейсу со спирале­видной картой, ото­бражал до несколь­ких сотен ссылок на одной странице, умел представлять класте­ры в различных режи­мах — от облака те­гов до иерархическо­го списка, а также предлагал впечатля­ющий набор инстру­ментов для работы с запросом. Н сожа­лению, сейчас проент не действует. Будем надеяться, что раз­работки SearchCrystal не пропадут и мы еще увидим их в Сети.

PolyMeta работает со всеми крупными поиско­виками, но обрабатывает лишь верхние позиции их выдачи.

Система PolyMeta, обеспечи­вающая охват всех крупнейших индексных баз, может быть реко­мендована для обзорного поиска по иностранным ресурсам. Заметим, что благодаря обращению к базам европейского поисковика Exalead, результаты по запросам на языках, отличных от английского, здесь иногда получаются лучше, чем на других метапоисковиках. К мину­сам PolyMeta относятся заметная «задумчивость» при обработке ре­зультатов, не всегда удачная сортировка ссылок, а также работа толь­ко с первыми позициями в выдаче отдельных поисковиков.

Интерфейс страницы выдачи разделен на три колонки. На ле вой панели содержатся результа ты кластеризации. Данная систе ма поддерживает несколько уров ней вложений в кластерах, благода ря чему можно достаточно быстро перечень кластеров в виде схемы уточнять запрос просто щелчками мыши. Отдельная закладка панели поможет отсортировать результаты по источникам поиска. Правая ко лонка интерфейса PolyMeta выво дит результаты поиска изображе ний, осуществляющегося гораздо медленнее, чем поиск веб-сайтов. При поиске видео система работа ет с YouTube, Google Video, Yahoo! Video и MySpace.

KartOO

Разработчики французского проекта KartOO бросили все силы на создание действительно ориги­нального визуального интерфейса. Построенный на основе технологии Flash, он внешне заметно отличает­ся от большинства привычных нам интернет-поисковиков.

Система KartOO предла гает визуальный режим отображения результатов в виде нарты выводится информация о количе стве тех, которые получены с каж дого задействованного поискови ка. В системе PolyMeta также досту пен визуальный режим отображе ния кластеров.

Интерфейс KartOO доступен на трех языках: английском, француз­ском и немецком. После отправки за­проса можно выбирать из трех ре­жимов просмотра результатов. Пере­ключение между ними осуществля­ется с помощью кнопок на Панели инструментов, расположенной над основным рабочим пространством. Первые два режима—обычный го­ризонтальный список найденных ссылок, а также вывод ссылок вер­тикальными колонками. Вданном случае на одном экране помещается всего три ссылки, но они сопрово­ждаются, во-первых, графической миниатюрой вёб-страницы и, во-вторых, расширенной аннотаци­ей. Однако наиболее интересен тре­тий режим, поскольку аналогов ему нет у конкурентов. Он включен на KartOO по умолчанию, и результаты демонстрируются в виде своеобраз­ной визуальной карты. Каждая най­денная ссылка представляется гра­фической миниатюрой сайта, раз­мер которой зависит от ее позиции в выдаче задействованных поиско­виков. При наведении курсора на миниатюру появляется небольшое всплывающее окно с краткой тексто­вой выдержкой, характеризующей найденную веб-страницу.

Чтобы дополнительно обрабо­тать результаты, KartOO, как и дру­гие участники данного обзора, ис­пользует технологию кластериза­ции. Ее результаты также выво­дятся на карте, но только получа­ется не привычная панель с переч­нем кластеров, а «тропинки» между отдельными миниатюрами на кар­те. Цветные связи в этом случае по­зволяют соединить веб-страницы из разных кластеров, что полезно для обработки сайтов широкой те­матики. Если несколько сайтов при­надлежат к одному кластеру, то они будут связаны между собой на кар­те, а рядом с такой сетью выводит­ся название конкретного класте­ра. Щелкнув по нему, можно уточ­нить запрос и перейти к просмо­тру результатов. Пожалуй, наибо­лее близок к KartOO по своей идее интерфейс российского поискови­ка Quintura, однако там основой по­служило простое облако тегов, без демонстрации связей между отдель­ными сайтами.

Есть у KartOO и боковая па­нель. По умолчанию там выводят­ся результаты поиска по новостям и картинкам. Ее содержание мож­но изменить в настройках поиска. Среди других настроек, доступ­ных в этом поисковике, —детский фильтр, внешний вид карты и пере­ключатель количества результатов на одной странице.

Nigma

С удовольствием следует от­метить, что в области метапоиска российские разработчики не отста­ют от своих зарубежных коллег. Со всей ответственностью утверждаю, что поисковая система Nigma, вы­полненная на мировом уровне, яв­ляется самым совершенным в на­стоящее время кластерным мета-поисковиком для русскоязычных веб-ресурсов.

Сервис Nigma был разработан в 2005 г. при поддержке специа­листов МГУ им. М.В. Ломоносова и в сотрудничестве со Стэндфордским университетом. Он работа­ет со всеми крупнейшими индекс­ными базами, содержащими доку­менты на русском языке. Это Google, «Яндекс», «Рамблер», Bing, Altavista, Yahoo!, Aport, а также собственная индексная база Nigma.

Действительно сильная сторо­на Nigma — это учет специфики русского языка при обработке за­просов и формировании кластеров. По понятным причинам подобной точностью не может похвастаться ни один из зарубежных ресурсов. В Nigma также хорошо выполнено автодополнение при вводе поиско вого запроса. В отличие от большин ства интернет-поисковиков, здесь не только предлагаются вариан ты написания того или иного сло ва, да и выводятся прямые ссылки на справочные ресурсы.

Интересно, что, если системе удается автоматически рас­познать отдельные элементы веб-страницы, она выводит подробные сведения о ней на странице выдачи. Напри­мер, для авторских статей это могут быть заголовок и ав­тор, для программ — назва­ние, размер, разработчик, из­датель и даже список похо­жих программ. Это в опреде­ленной степени роднит Nigma с приложениями тан называе­мого поколения Semantic Web, или, как его еще иногда назы­вают, Web 3.0.

Достойно выполненный алго­ритм кластеризации Nigma в ходе поиска учитывает различные мор­фологические формы слов из запро­са, умеет находить и обрабатывать синонимы, а также выявлять более общие понятия. Кроме того, систе­ма успешно обрабатывает запросы с орфографическими ошибками — их может быть до четырех в одном слове, а предлагаемые варианты написания ранжируются по бли­зости к его звучанию. Nigma также без проблем справляется с запроса­ми, по ошибке набранными в непра­вильной раскладке. Система обла­дает собственным словарем омони­мов, что очень помогает при поис­ке по темам, относящимся к инфор­мационным технологиям, посколь­ку вариантов написания заимство­ванных из английского языка тер­минов может быть немало.

Интерфейс Nigma построен на выводе сформированных класте­ров в виде списка на боковой па­нели. Включение и исключение от­дельных кластеров осуществляются простым щелчком по соответству­ющим чекбоксам.

Наряду с поиском по веб­страницам в Nigma реализованы еще три вида поиска: «Картин­ки», «Библиотеки» и «Музыка». По­иск изображений также работает в метарежиме, обращаясь к трем внешним поисковикам: «Яндекс», Google и «Рамблер». Здесь, правда, кластеризация не работает, филь­тровать изображения можно по бо­лее привычным признакам—раз­меру и типу файла.

Поиск книг, работающий с крупнейшими сетевыми библи­отеками, ориентирован на нахож­дение полных текстов произведе­ний. Здесь осуществляется кла-

стеризация, однако ее результа­ты далеко не такие впечатляю­щие, как при простом веб-поиске. Весьма достойно выглядит в ра­боте поиск музыки. Как и в слу­чае с книгами, система ориенти­руется на ресурсы, позволяющие прямое копирование файлов. Не­смотря на то что сервис в данном режиме работает только с базами «Яндекс» и Nigma, результаты по­иска весьма достойные, находятся даже довольно редкие вещи. Если файл позволительно воспроизве­сти без закачки, то рядом с най­денными результатами выводит­ся мини-плеер.

Nigma — лучший метапоисковик для русских до­кументов

Июньское потепление

Уже шестой по счету ежегодный фо­рум DfSTREE Digital Consumer Channel CIS прошел в Москве 17 — ig июня 2009 г. Впервые параллельно с «по­требительским» форумом прошел и Digital Business Channel. Это объеди­ненное мероприятие получило назва­ние DISTREE Channel IT Week. В форумах приняли участие не только вендоры, но и дистрибьюторы, ритейлеры, бизнес-партнеры, работающие в сфере ИТ на территории СНГ. В рамках мероприя­тия было проведено около 1500 личных встреч, что позволило наладить необхо­димые бизнес-контанты, Мы же больше внимания уделили прово­димой в рамках DISTREE Channel IT Week выстав­ке, на которой каждый из 6о производителей, участвовавших в ней, продемонстрировал образ­цы своей продукции. Из увиденного у нас вызва­ли большой интерес референсная версия нетбу-ка на платформе nVidia Ion и интегрированная си­стемная плата формфактора Wini-ITX от Z0TAC на том же наборе системной логини. Кстати, об­разец этой платы мы получили для тестирования.

Кроме того, следует отметить продемонстриро­ванную компанией Toshiba компактную видеока­меру, способную снимать видео с разрешением до 72ор (впоследствии планируется выпуск моде­ли с разрешением до ю8ор). В качестве носителя информации используются карты SDHC. Камера оборудована 2,5-дюймовым дисплеем и объекти­вом с 4-кратным оптическим эумом. Ожидается, что цена этого устройства составит около 9 тыс.

Кстати, в числе участников форума было довольно много вендоров, до насто-’   . у ящего времени официально не представ­ленных на российском рынке, К их чис­лу относится бельгийсная компания IRIS, производитель разнообразных портатив­ных сканеров, чья продукция появится на отечественном рынке осенью этого года, ч Среди разработчиков программного обеспечения, присутствовавших на фо­руме, стоит упомянуть немецкую ком­панию С Data, производящую антиви­русное ПО, которое вскоре должно по­явиться на российском рынке. По функ­циональности ее продукция не уступа­ет известным у нас панетам безопасно­сти, поэтому есть все основания считать, что C-Data сумеет завоевать популярность у оте­чественных пользователей. Интерес зарубежных номпаний к таким меропри­ятиям, нак-DISTREE Channel IT Week, — хороший признан, свидетельствующий о здоровой обста­новке на отечественном рынке, и мы надеемся, что такая тенденция сохранится и в будущем.

Tags: , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

One Response to “Интернет!”

  • [...] важный практический шаг по повышению эффектив­ности СЭД—он определяет дей­ствия пользователя в ходе [...]

  • Leave a Reply