Реферат

Реферат Автоматизированная система поиска информации

Работа добавлена на сайт bukvasha.net: 2015-10-28

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 26.12.2024





Содержание

Введение........................................................................................................... 3

1 Автоматизированная система поиска информации................................ 6

2 Принцип работы поисковых систем.......................................................... 8

2.1 Виды поиска............................................................................................ 12

2.2 Методы поиска........................................................................................ 14

3 Индексирование информации.................................................................. 16

4 Кластеризация............................................................................................ 19

5 Выдача результата запроса...................................................................... 21

Заключение.................................................................................................... 24

Глоссарий....................................................................................................... 26

Список использованных источников......................................................... 27

Приложение А................................................................................................ 28






Введение
В современном Интернете очень многое зависит от автоматизированных поисковых систем. Существуют миллионы web-ресурсов, которые, даже имея нужную для нас информацию, так и не попадут в поле нашего зрения из-за того, что мы не смогли их найти. Как можно найти то, что нужно в интернете? Прошло то время, когда люди общались в конференциях, на форумах и давали друг другу ссылки на интересные сайты. Разумеется, такой обмен все еще существует, но его трудно назвать эффективным для поиска конкретной информации.  Для этого, чаще всего, пользуются системами автоматизированного поиска информации (поисковыми машинами или системами). Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах. По данным аналитической компании comScore все поисковые сайты в декабре 2007 года обработали 66 миллиардов 221 миллионов поисковых запросов.

Поисковые системы представляют собой специальные сайты в сети, которые устроены так, чтобы людям могли отыскать нужную им информацию в интернете. Для того  чтобы показать где находится нужный документ или файл, этот файл или документ должен быть уже когда то найден.

Для поиска информации в миллионах существующих сайтов, поисковики используют специальную программу-паук (движок, бот, робот). Эта программа составляет списки слов, найденных на страницах. Поисковых пауков часто называют - ботами. Каждый поисковый бот имеет свое название, чтобы можно было отличать ботов именно данной поисковой системы. Это имя отображается обычно в поле User-Agent запроса к серверу. Например, бот Google имеет имя - Googlebot, а Яндекса - Yandex. Эти названия вебпрограммист  может использовать, например, в файле robots.txt , чтобы запретить определенному поисковику индексировать некоторые страницы[1]. Лучшие поисковые системы обрабатывают миллионы запросов и индексируют миллионы страниц в день.

Достоинства и недостатки поисковых машин определяются различными характеристиками. Принципиальным является то, насколько полно система обследует документы: все ли слова заносятся в индексные файлы или же только термины из названий, заголовков, первых нескольких строк или страниц  текста,  и т. д. Важна также периодичность обновления данных и критерии оценки понятий при определении степени их соответствия запросу.

Не последнюю роль играют простота и удобство интерфейса, возможность использовать булевы операторы и операторы расстояния между словами в тексте документа, а также дополнительные сервисные функции, например, поиск новостей, музыкальных файлов, товаров, и т. д.

В обслуживание, осуществляемое информационно-поисковой системой, входит предварительная обработка текста, в том числе составление индекса, по которому затем происходит поиск. Такая поисковая система может быть организована как база данных с текстовыми полями.

Другой вариант организации - работа с внешними текстами. В этом случае тексты сохраняют первоначальный вид, то есть остаются файлами в файловой системе, страницами на сервере или полями какой-то другой базы данных, а индекс снабжается лишь ссылками на соответствующие источники.

Основные функции поисковых машин:

- по заданным ключевым словам они осуществляют поиск в интернете; 

- поисковики индексируют слова, которые они ищут и места, в которых их нашли 

- поисковики дают возможность искать по своим базам, в которые уже занесены проиндексированные ключевые слова или их комбинации.

Центральная задача информационного поиска — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь[2].

Задать правильный вопрос поисковой системе очень важно, так как система может понять не правильно запрос и выдать не те ссылки, которые нужны. Можно задать запрос по одному слову, несколько слов. Но надо знать, когда идет запрос нескольких слов, процесс поиска идет не как словосочетания, а слов по отдельности на всем сайте, то есть, если надо найти именно словосочетание надо задать запрос на точную фразу.

У поисковых систем есть расширенный поиск, в котором можно указать, на каком языке нужна информация, какой регион (страна, город и т.д.), какой формат искомого файла, в каком месте web-страницы должны быть искомые слова или словосочетания.

Так же, не давно, появилась возможность поиска картинок (изображения), в котором тоже предусмотрен расширенный вариант поиска. В расширенном поиске изображения можно задать тип картинок (любые, из новостей,  с лицами, фото, клипарт, черно-белые), размер, формат картинок.




1      
Автоматизированная система поиска информации

В Интернет сотни миллионов страниц с информацией. Проблема в том, как найти именно ту информацию, которая вам нужна. Именно потребность быстро найти необходимую информацию (желательно не один, а несколько источников) и породила сервисы поисковых систем. Поисковые системы - это сетевые сервисы в Интернет, созданные чтобы помочь пользователю в поиске информации хранящейся на различных сайтах.

Работа поисковых систем, к которым часто и при этом ошибочно относят и каталоги, полностью автоматизирована и ведется по следующей схеме: сканирование ресурсов с помощью программы-робота, формирование индексной базы данных и, наконец, обслуживание запросов по ключевым  словам  (Приложение А). Как бы ни были популярны каталоги, должно быть понятно, что реальную доступность информации в Интернете во всем ее объеме могут обеспечить только автоматические индексы.

Не последнюю роль играют простота и удобство интерфейса, возможность использовать булевы операторы и операторы расстояния между словами в тексте документа, а также дополнительные сервисные функции, например, поиск новостей, музыкальных файлов, товаров, и т. д.

В обслуживание, осуществляемое информационно-поисковой системой, входит предварительная обработка текста, в том числе составление индекса, по которому затем происходит поиск. Такая поисковая система может быть организована как база данных с текстовыми полями.

Другой вариант организации - работа с внешними текстами. В этом случае тексты сохраняют первоначальный вид, то есть остаются файлами в файловой системе, страницами на сервере или полями какой-то другой базы данных, а индекс снабжается лишь ссылками на соответствующие источники.

Файлы, с которыми может работать поисковая машина, могут быть как текстового формата (.html, .htm, .txt, .doc, .rtf, и т.д.), так и графического (.gif, .png, .svg, и т.д.) или мультимедийного (видео, звука и другой информации)[3].

Разные поисковые системы работают по-разному, однако есть основные задачи, которые решают все поисковики:

- Сканируют множество сайтов в сети и составляют индекс содержащейся на них информации (индексируют сайты)

- Позволяют пользователям искать слова и комбинации слов в своем индексе.

Достоинства и недостатки поисковых машин определяются различными характеристиками. Принципиальным является то, насколько полно система обследует документы: все ли слова заносятся в индексные файлы или же только термины из названий, заголовков, первых нескольких   строк   или страниц текста,   и т. д. Важна также периодичность обновления данных и критерии оценки понятий при определении степени их соответствия запросу.




2      
Принцип работы поисковых систем


Перед тем как поисковые системы выдадут вам информацию по вашему запросу, они должны сначала найти эту информацию. Разумеется, они не сканируют весь интернет при вводе каждого запроса. Это было бы слишком расточительно и очень долго.

Вместо этого поисковики создают некую базу данных по всем страницам, содержащимся в сети, и производят поиск в этой базе данных. Разумеется, это намного быстрее, чем множество раз проводить поиск по всем сайтам. Как же поисковики заполняют эту свою базу данных (обычно, базу данных называют индексом поисковой системы, а включение определенного сайта в этот индекс называют индексированием сайта).

Каждый поисковик имеет специальную программу - робота, которая и индексирует сайты. Эта программа называется пауком, а процесс индексирования - ползание паука. И, действительно, если подумать, то процесс напоминает ползание паука по различным сайтам и собирание информации с них (индексация).

Обычно, поисковые боты начинают свое путешествие с самых популярных и посещаемых сайтов и страниц в сети. Они индексируют слова на данной странице, а затем следуют по всем ссылкам с текущей страницы и с других страниц того же сайта. Таким образом поисковый бот довольно быстро сканирует наиболее широко используемые ресурсы сети.

Рассмотрим, что происходит, когда поисковый бот пришел на некую страницу и начал ее сканирование. Поисковик составляет список слов, присутствующих на странице и заносит эти слова в свою базу с некоторыми весовыми коэффициентами. Эти коэффициенты затем будут влиять на позиции данной страницы в выдаче поисковика по данному слову или словосочетанию, включающему данное слово[4].

Поисковые системы ищут информацию не в интернете, а в обратных индексах обработанных ими документов сети.

 Разные поисковики используют разные системы "весов" для слов на странице. К тому же, обычно поисковики не раскрывают принцип начисления "весов", для того, чтобы веб-мастера искусственно не завышали рейтинг сайта.

Однако можно выделить несколько общих моментов, которые, скорее всего, присутствуют во всех поисковых системах при начислении "веса" слова:

- Слово, присутствующее в заголовке страницы (тег title), получит больший вес, чем то же слово внутри текста на странице.

- Слово, присутствующее в тегах meta, добавит веса странице. Однако так как содержимое этих тегов не отображается пользователю, то возникает соблазн "запихать" в них как можно больше различных слов. Поэтому, есть мнение, что в настоящее время поисковики уделяют содержимому этих тегов все меньше и меньше внимания.

- Слово в заголовках и подзаголовках (теги H1, H2, и т.д.) имеет повышенный вес.

- Слово, выделенное тем или иным способом (например, жирным (тег B) или курсивом (тег I)), скорее всего более "ценное" для поисковика.

- Раньше бытовало мнение, что если слово расположено в первых 20 строках на странице, то оно более "ценно" для поисковика. Не думаю, что сейчас это имеет какое-либо значение.

- Слово, у которого форма точно соответствует введенному в строке запроса, явно имеет больший вес, чем другая форма этого слова. Например, если пользователь ввел "Слон", то слово "слон" на странице будет цениться больше, чем слово "слону".

- Есть понятие "вес слова на странице". Это отношение количества повторений данного слова на странице к общему количеству слов на странице. Раньше это был существенный фактор для поисковиков. Однако сегодня поисковики уделяют ему все меньше внимания, так как можно создать страницу заполненную одним и тем же словом, которая, очевидно, будет иметь "вес" близкий к 1. Другими словами, этот параметр может быть легко поднят нечестным на руку веб-мастером.

Существует еще множество различных приемов, как можно поднять "вес" слова на странице, однако, насколько поисковики учитывают тот или иной параметр, точно не знает никто.

Скорее всего, каждый поисковик создал свою собственную систему расчета "весов" слов на странице, которая базируется как на параметрах перечисленных выше, так и на других, уникальных для каждого поисковика значениях. Как я уже говорил, система расчета "весов" держится в строжайшей тайне. Разумеется, эти системы у поисковиков подвержены изменениям. Периодически стратегии подсчета корректируются, вводятся новые параметры, изменяются старые.

Поисковик проводит поиск в своей базе. Находит страницы, подходящие под запрос пользователя и выводит их в порядке убывания соответствия запросу. Соответствие запросу называется - релевантностью страницы. Соответствие запросу определяется по определенным алгоритмам. Именно здесь и применяются все "веса" и коэффициенты определенные поисковым ботом при индексировании страницы.

Все становится сложнее, если пользователь ввел не одно, а два или больше слов. Здесь в игру вступают другие факторы. Например, как близко расположены слова на странице друг относительно друга. Очевидно, что чем ближе в тексте искомые слова, тем страница релевантнее.

Что описано выше называется внутренними факторами, влияющими на положение страницы в выдаче поисковика. Существует так же и внешние факторы, причем они не менее (а зачастую даже и более) важны, чем внутренние.

Каждая поисковая система имеет свой параметр, который определяет популярность страницы среди других участников сети Интернет. У разных поисковиков он называется и определяется по-разному, но его назначение остается достаточно простым. Чем популярнее сайт у других участников сети, тем выше его шансы появиться в выдаче поисковой системы.

Это действительно логично. Если на сайт ссылается множество других сайтов, то, скорее всего, там размещен качественный и нужный пользователю контент. Хотя это не всегда так. Именно на этом часто выигрывают проекты, имеющие хороший бюджет. При раскрутке сайта, покупается множество ссылок с других сайтов, поднимая популярность до очень хороших значений[5].




2.1 Виды поиска
Систему поиска можно разделить на три вида:

- полнотекстовый поиск

- поиск по метаданным

- поиск изображений

Полнотекстовый поиск — поиск документа в базе данных текстов на основании содержимого этих документов. Первые версии программ полнотекстового поиска предполагали сканирование всего содержимого всех документов в поиске заданного слова или фразы. При использовании такой технологии поиск занимал очень много времени (в зависимости от размера базы), а в интернете был бы невыполним. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс — словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются.

Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой   название документа,  дата создания,  размер,  автор и т. д.  Метаданные — это информация об используемых данных. Информация об информации. Пример: Имя автора правки в тексте. Этот термин в широком смысле слова используется для любой информации о данных: именах таблиц, колонок в таблице в реляционных базах данных, номер версии в файле программы (то есть как информативная часть в бинарном файле) и т. п.

Метатеги служат для того, чтобы задавать ключевые слова и фразы для web-страницы, и определяют ее основное содержание. Когда ключевые слова повторяются на странице несколько раз, то мета-теги указывают поисковику правильный выбор ключевых слов для индексации страницы. Поисковые пауки умеют выявлять попытки накрутки страницы с помощью популярных поисковых слов, которые при этом не соответствуют содержимому страницы. Для этого они анализируют смысловую связь мета-тегов с содержимым web-страницы.

Структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими.

Для этого поиска веб-программисты чаще всего используют облако тегов, облако меток, или облако ключевых слов. Облако тегов – это — визуальное представление списка ярлыков (или категорий). Частота упоминаний, поисков, ссылок в интернете с определённого сайта неких слов, терминов, имён отображается в специальной области в виде изображения этих слов в формате гиперссылок. Размер изображения тем больше, чем чаще использовался данный тег (слово, термин или имя).

Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения.

Алгоритм поиска должен анализировать содержание изображения, например, цвет представленных на нём объектов, их форму, текстуру, композицию сцены. При отсутствии возможности проанализировать сцену при поиске рассматриваются метаданные: ключевые слова, метки.




2.2 Методы поиска
У системы автоматизированного поиска можно выделить 4 метода поиска:

- адресный поиск

- семантический поиск

- документальный поиск

- фактографический поиск

Адресный поиск - процесс поиска документов по чисто формальным признакам, указанным в запросе. Для осуществления нужны следующие условия:

- наличие у документа точного адреса

- обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.

Семантический поиск - процесс поиска документов по их содержанию. Для осуществления нужны следующие условия:

- перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.

- составление поискового описания, в котором указывается дополнительное условие поиска.

Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания.

При семантическом поиске находится множество документов без указания адресов. В этом принципиальное отличие каталогов и картотек. Библиотека — собрание библиографических записей без указания адресов.

Документальный поиск - процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.

Можно выделить два вида документального поиска:

- библиотечный, направленный на нахождение первичных документов.

- библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.

Фактографический поиск - процесс поиска фактов, соответствующих информационному запросу. К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.

Различают два вида фактографического поиска:

- документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.

- фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации[6].




3      
Индексирование информации

Поисковик мог бы просто разместить слово и URL адрес, где оно находится, но тогда не было бы информации о том, где конкретно на странице найдено это слово, сколько раз используется это слово, содержится ли оно в ссылке на другую страницу. Такой способ не позволил бы ранжировать сайты, и обеспечивать выдачу пользователям релевантных результатов. Поэтому поисковик сохраняет данные о количестве ключевых слов на странице и присваивает этому слову весовой коэффициент. В дальнейшем это позволяет выдавать результаты поиска, опираясь на вес данного слова и с учетом его положения на странице. У каждой поисковой системы существует свой алгоритм подсчета  весового коэффициента ключевых слов при индексации. Вот почему, по одному и тому же запросу поисковые системы выдают разные результаты.

Для уменьшения объема дискового пространства, вся информация при сохранении кодируется. Например, Google для хранения весовых коэффициентов слов использует 2 байта, это позволяет учитывать большими или прописными буквами написано слово, размер букв и другую необходимую для ранжирования информацию. После того, как информация сжата, начинается ее индексация, это нужно для того, чтобы обеспечивать быстрый поиск нужной информации. Самый эффективный способ для индексации - это построение хеш-таблиц. При хешировании каждому слову присваивается  числовое значение, для этого используется определенная формула.

С некоторых букв, в любом языке, начинается гораздо больше слов, чем с остальных букв. Поэтому на поиск слова, начинающегося с более популярной буквы уходит больше времени. Хешинг позволяет уравнять эту разницу, тем самым уменьшить среднее время поиска, кроме того, хешинг отделяет индекс от реальных данных. В хеш-таблице находятся хеш-значения и соответствующие им указатели на данные. Эффективное размещение и индексация совместно обеспечивают максимальную скорость поиска, даже при сложных поисковых запросах[7].

Очевидно, что метод простого перебора всех страниц (документов), хранящихся в базе данных поисковиков, не будет являться оптимальным. Этот метод называется алгоритмом прямого поиска и при том, что этот метод позволяет наверняка найти нужную информацию не пропустив ничего важного, он совершенно не подходит для работы с большими объемами данных, ибо поиск будет занимать слишком много времени.

Поэтому для эффективного поиска в больших объемах данных был разработан алгоритм обратных (инвертированных) индексов. И что примечательно, именно этот алгоритм используется всеми крупными поисковыми системами в мире. Поэтому на нем мы остановимся подробнее и рассмотрим принципы его работы.

При использовании алгоритма обратных (инвертированных) индексов, поисковые системы преобразовывают документы в текстовые файлы, содержащие список всех имеющихся в документе слов. Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым словом указаны в виде координат те места в документе, где это слово встречается. Кроме позиции в документе, для каждого слова приводятся еще и другие параметры, определяющие его значение в документе.

Алгоритм обратных индексов документов используется всеми поисковыми системами, т.к. он позволяет ускорить процесс поиска, но при этом будут неизбежны потери информации за счет искажений внесенных преобразованием документа в индекс-файл. Для удобства хранения файлы обратных индексов обычно хитрым способом сжимаются.

Для того, чтобы осуществлять поиск по обратным индексам документов, содержащимся в базе данных поисковых систем, используется математическая модель, позволяющая упростить процесс обнаружения нужных документов (по введенному пользователем поисковому запросу) и процесс определения релевантности всех найденных документов этому запросу. Чем больше документ соответствует данному запросу (чем он релевантнее), тем выше он должен стоять в поисковой выдаче.

Значит основная задача выполняемая математической моделью любой поисковой системы - это поиск документов (страниц) в своей базе обратных индексов соответствующих данному поисковому запросу и сортировка этих найденных документов в порядке убывания их релевантности поисковому запросу. Использование простой логической математической модели, когда документ будет являться найденным, если в нем встречается искомая фраза, нам не подойдет, в силу огромного количества таких документов, выдаваемых на рассмотрение пользователю.

Поисковая система должна не только предоставить список всех документов (веб-страниц), на которых встречаются слова из поискового запроса. Она должна предоставить этот список документов в такой форме, когда в самом начале этого списка будут находиться наиболее соответствующие запросу пользователя документы (осуществить сортировку найденных страниц по релевантности). Эта задача не тривиальна и по умолчанию не может быть выполнена идеально.




4      
Кластеризация

Кластеризация документов — одна из задач информационного поиска. Целью кластеризации документов является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов. Следует отметить, что группы формируются только на основе попарной схожести описаний документов, и никакие характеристики этих групп не задаются заранее, в отличие от классификации документов, где категории задаются заранее.

Кластерный анализ — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.

Кластерный анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке. Спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах. Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.

Кластерный анализ выполняет следующие основные задачи:

- разработка типологии или классификации.

- исследование полезных концептуальных схем группирования объектов.

- порождение гипотез на основе исследования данных.

- проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

— Отбор выборки для кластеризации.

— Определение множества переменных, по которым будут оцениваться объекты в выборке.

— Вычисление значений той или иной меры сходства между объектами.

— Применение метода кластерного анализа для создания групп сходных объектов.

— Проверка достоверности результатов кластерного решения.

Кластерный анализ предъявляет следующие требования к данным: во-первых, показатели не должны коррелировать между собой; во-вторых, показатели должны быть безразмерными; в-третьих, их распределение должно быть близко к нормальному; в-четвёртых, показатели должны отвечать требованию «устойчивости», под которой понимается отсутствие влияния на их значения случайных факторов; в-пятых, выборка должна быть однородна, не содержать «выбросов». Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» — изложенные требования выполняются автоматически самой процедурой факторного моделирования. В противном случае выборку нужно корректировать[8].



Глоссарий




п/п

Понятия

Содержание

1

FTP

протокол, предназначенный для передачи файлов

2

RSS

семейство XML-форматов, предназначенных для описания лент новостей

3

бот

программа, выполняющая автоматически и/или по заданному расписанию какие-либо действия.

4

булевы операторы

операторы математической логики.

5

дорвей

вид веб-страницы, специально оптимизированная под один или несколько поисковых запросов

6

клипарт

набор графических элементов дизайна для составления целостного графического дизайна.

7

контент

любое информационно значимое наполнение информационного ресурс.

8

корреляция

статистическая взаимосвязь двух или нескольких случайных величин

9

релевантность

семантическое соответствие поискового запроса и поискового образа документа.

10

хеш-таблиц

это структура данных, она позволяет хранить пары (ключ, значение) и выполнять три операции: операцию добавления новой пары, поиска и удаления пары


Список использованных источников



1  Ашманов И. С., Иванов А. А. «Продвижение сайта в поисковых системах» — М.: «Вильямс», 2007. — 304 с.

2  Байков В. Д.  «Интернет. Поиск информации. Продвижение сайтов» — СПб.: БХВ-Петербург, 2000. — 288 с.

3  Галкин В.А., Григорьев Ю.А. «Телекоммуникации и сети»    М.:  МГТУ им. Н.Э. Баумана, 2003. - 607 с.

4  Гусев В. С. «Аналитика Web-сайтов. Использование аналитических инструментов для продвижения в Интернет» — М.: «Диалектика», 2007. – 176 с.

5  Колисниченко Д. Н. «Поисковые системы и продвижение сайтов в Интернете» — М.: Диалектика, 2007. — 272 с.

6 Ландэ Д. В. «Поиск знаний в Internet» — М.: Диалектика, 2005. — 272 с.

7 Ландэ Д. В., Снарский А. А., Безсуднов И. В. «Интернетика: Навигация в сложных сетях: модели и алгоритмы» — M.: Либроком , 2009. — 264 с.

8 Мандель  И. Д.  «Кластерный анализ» —  М.:  Финансы и статистика,  1988. – 176 с.

9  Маннинг К., Рагхаван П., Шютце Х. «Введение в информационный поиск» — М.: Вильямс, 2010. – 528 с.

10  Севостьянов И. О. «Поисковая оптимизация. Практическое руководство по продвижению сайта в Интернете» — СПб.: «Питер», 2010. — 240 с.






Приложение А
Схема работы автоматизированной системы поиска информации





[1] Байков В. Д.  «Интернет. Поиск информации. Продвижение сайтов» — СПб.: БХВ-Петербург, 2000. —88 с.

[2] Байков В. Д.  «Интернет. Поиск информации. Продвижение сайтов» — СПб.: БХВ-Петербург, 2000. — 108 с.

[3] Колисниченко Д. Н. «Поисковые системы и продвижение сайтов в Интернете» — М.: Диалектика, 2007. —72 с.

[4] Гусев В. С. «Аналитика Web-сайтов. Использование аналитических инструментов для продвижения в Интернет» — М.: «Диалектика», 2007. –76 с.

[5] Колисниченко Д. Н. «Поисковые системы и продвижение сайтов в Интернете» — М.: Диалектика, 2007. —122 с.

[6] Гусев В. С. «Аналитика Web-сайтов. Использование аналитических инструментов для продвижения в Интернет» — М.: «Диалектика», 2007. – 96 с.



[7] Маннинг К., Рагхаван П., Шютце Х. «Введение в информационный поиск» — М.: Вильямс, 2010. – 228 с.

[8] Мандель  И. Д.  «Кластерный анализ» —  М.:  Финансы и статистика,  1988. – 86 с.

1. Реферат на тему Beowulf Essay Research Paper Authors often use
2. Диплом на тему Разработка программного продукта Отдел кадров ВПТ
3. Реферат на тему Литература - Топографическая анатомия сборник лекций
4. Реферат на тему A Study In Contrast The Views Of
5. Реферат Байкальский заповедник
6. Реферат на тему Reservation Gambling Essay Research Paper Jack A
7. Курсовая на тему Искусство управлять людьми
8. Курсовая Теорема Гурвица и ее приложение
9. Реферат на тему Russian Mafia Essay Research Paper The Russian
10. Диплом Рациональное использование земель железнодорожного транспорта