Реферат Метапоисковые системы
Работа добавлена на сайт bukvasha.net: 2015-10-28Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
от 25%
договор
Лабораторная работа №2
по курсу «Информационные системы в экономике»
Метапоисковые системы
1. Определение метапоисковых систем.
Отличия в стратегии и широте охвата материала различных поисковых систем часто приводят к тому, что разные средства поиска дают разноречивые ответы на один и тот же запрос. Этим воспользовались разработчики метапомсковых систем, которые в своей работе используют потенциал других средств информационного поиска (рис. 5.). Метапоисковые системы - это надстройки над поисковыми системами и электронными каталогами, которые не имеют собственной базы данных (индекса) и при поиске по поисковому предписанию пользователя самостоятельно формируют запросы для нескольких внешних средств
Рис. 5. Типовая схема метапоисковой системы
поиска, а затем анализируют полученные результаты и выдают список ссылок в порядке, определяемом соотношением рейтингов ответа сразу по нескольким средствам поиска. Иначе, такая система ведет опрос нескольких поисковых систем, а затем отбирает ссылки, следуя собственному алгоритму. Метапоисковые системы позволяют сократить время, затраченное на поиск информации, так как при обработке запроса пользователя эти системы одновременно обращаются к нескольким различным средствам поиска. Метапоисковые системы наиболее эффективны на начальных этапах поиска информации. Они помогают локализовать средства поиска, в которых присутствуют сведения об искомой пользователем информации.
2. Рассмотрим метапоисковые системы nigma, Exactus, Hot Bot.
а) Дата рождения проекта Нигма.РФ - 12 апреля 2005 года. Примерно за год до этой знаменательной даты родилась идея создания поисковой системы с новым методом обработки и анализа полученных данных - методом кластеризации.Создатель проекта - Виктор Лавренко - ранее работавший в компании Mail.ru. Активная работа по созданию принципиально новой поисковой системы началась в первой половине 2005 года и продолжается по сей день. Название Nigma (один из трех родов пауков семейства Dictunidae) появилось очень просто: во-первых, оно короткое и запоминающееся, во-вторых, нам нужна была аналогия с Сетью, Всемирной Паутиной, то есть Интернетом. В рамках проекта «Интеллектуальная поисковая система Нигма.РФ» команда программистов работает над созданием системы, построенной на основе разработок в области искусственного интеллекта. Конечная цель проекта — создание поисковой системы, позволяющей анализировать содержание документов и выдавать конкретную информацию на запрос пользователя, а не ссылки на другие сайты. Разработчиками были созданы такие сервисы, как «Нигма-математика» (решение математических задач), «Нигма-химия» (решение химических задач), сервис ответов на вопросы пользователей, табличный поиск и многие другие. Ежедневно пользователи поисковой машины «Нигма.РФ» делают более 1 миллиона переходов на сайты, ежемесячная аудитория сайта «Нигма.РФ» составляет более 3 000 000 уникальных посетителей.
б) Алгоритм поиска Exactus объединяет статистическую и лингвистическую составляющие. Из статистических характеристик текста Exactus учитывает TF*IDF веса термов и значимость фрагментов текстов (на основе HTML-разметки документов). Лингвистическая составляющая – значения синтаксем (минимальных семантико-синтаксических единиц текста) и их сочетаемость в конкретном предложении. Это позволяет отбирать только те тексты, в которых семантическое значение синтаксемы совпадает с ее семантическим значением в запросе (что невозможно в обычных статистических методах). Кроме того, это позволяет обработать ситуацию, когда целевая синтаксема является элементом более сложной синтаксической конструкции. Пример:
Запрос: «К чему приводит инфляция?».
Документ 1: «Инфляция приводит к снижению темпов экономического роста».
Документ 2: «Строительство непроизводственных мегаобъектов приводит к росту инфляции».
В результате для системы Exactus первый документ наиболее предпочтителен, так как во втором документе «инфляция» находится в другом семантическом значении. Пример показателен еще и тем, что для традиционных поисковых машин Интернет вопросительные слова и предлоги являются стоп-словами и не учитываются при поиске. Это приводит к невозможности отличить семантические значения слов и, как следствие, понижению точности поиска. В результате Документ1 и Документ2 являются равнозначными для традиционных поисковых машин, а для Exactus – совсем нет.
Поиск в Excatus может быть проведен только после предварительной индексации документов. На этапе индексации производится преобразование документов к внутреннему формату Exactus, обсчет TF*IDF весов термов с учетом морфологии русского языка. Параллельно этому производится синтаксический и семантический анализ текстов, что позволяет выявить подчинения синтаксем в тексте и их семантические значения. Полученные в результате анализа данные укладываются в линейные упорядоченные списки.
В результате поиск в Exactus представляет собой слияние и переранжирование линейных упорядоченных списков, что опять же аналогично концепции большинства поисковых машин. Особенностью алгоритма являются весовые коэффициенты и алгоритм предварительной индексации текстов, которые позволяют учесть как статистические, так и семантические составляющие единиц текста.
в) Поисковая система Hot Bot (Хот Бот) самая молодая из рассматриваемых нами всемирных поисковых систем. Так же как Yahoo и Infoseek, в ней имеется каталог, но кроме него информация выдаётся по запросам, как в системе Alta Vista. Обычный поиск в данной системе аналогичен такой же операции в других системах. Но расширенные возможности поиска в системе Hot Bot реализованы достаточно оригинально. Для ввода запросов не требуется знать специальные правила, запросы формируются вами прямо на данной странице путём ввода значений и выбора других значений из списка.
Система Hot Bot достаточно удобна для поиска. Количество ссылок в системе растёт быстрыми темпами, но при этом скорость работы системы остаётся достаточно высокой.
В предыдущих опытах мы рассмотрели поиск информации с помощью четырёх популярных систем. В настоящее время в Интернете работают сотни поисковых систем, и выбор той или другой зависит от вашего вкуса и ваших запросов. Однако основные принципы поиска остаются всегда неизменными.
3. Результаты поиска по запросу «информационные системы»:
Nigma.ru
При обычном поиске 536 млн. результатов,
При использовании расширенного поиска : с любым из слов 15 млн. результатов, с точной фразой 7,3 млн. результатов.
Excatus
При обычном поиске найдено 43 документа,
При использовании расширенного поиска: с семантическим профилем найдено 92 документа, с профилем «поиск по ключевым словам» найдено 88 документов, с профилем « поиск точных фактов» найден 91 документ.
Hot Bot
В этой системе поиск производится в Yahoo, lyGO, and MSN! В lyGO представляются в виде картинок. в Yahoo, MSN результаты представлены в виде ссылок. Количество не понятно.
4. В настоящее время в Интернете работают сотни поисковых систем, и выбор той или другой зависит от вашего вкуса и ваших запросов. Однако основные принципы поиска остаются всегда неизменными.
Мы выполнили операции поиска с помощью нескольких систем, обеспечивающих поиск в русскоязычной части Интернета и ведущих обширные каталоги. Какая из этих систем станет наиболее удобной – покажет время. Сейчас все они активно развиваются, а кроме того появляются и другие поисковые системы. Мы советуем вам посмотреть на описание систем через некоторое время, возможно одна из них станет намного удобнее и мощнее, чем другие, и вы предпочтёте пользоваться её услугами.