Реферат Информационные службы Internet
Работа добавлена на сайт bukvasha.net: 2015-10-28Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
от 25%
договор
СОДЕРЖАНИЕ
1. Информационные службы Internet: возможности и услуги ………………2
1.1. LYCOS……………………………………………………………………….3
1.2. Open Text…………………………………………………………………….5
1.3. CUSI…………………………………………………………………………10
1.4. GlOSS………………………………………………………………………..10
1.5. IS Workgroup, Search page………………………………………………….10
1.6. InfoSeek……………………………………………………………………...11
1.7. Internet Search Engines……………………………………………………...11
1.8. JumpStation Front Page……………………………………………………...11
1.9.
1.10.Yahoo………………………………………………………………………..12
1.11.WWW Search Engines……………………………………………………....12
1.12. NTIS………………………………………………………………………...12
1. Информационные службы Internet: возможности и услуги
Основная проблема Internet - это поиск необходимой информации. При загрузке программы просмотра гипертекстовых страниц World Wide Web подспудно ощущаешь, что необходимая информация в сети есть, но до нее никак не удается добраться. Очевидным решением, позволяющим решить эту проблему, является создание информационной службы с возможностью поиска с использованием ключевых слов и фраз. И такие службы в Internet есть. В данной статье будут рассмотрены основные из них, которые по объему заиндексированной в их базах данных информации занимают первые четыре места. Эти информационные службы, взявшие на вооружение механизмы поиска, занимают лидирующее положение в Internet. Перед пользователем стоит только одна проблема - какую службу не только в поиске) или механизм поиска выбрать. Главное, хорошо представлять себе, что ты хочешь найти и где искать. Internet, подобно спруту опутал своими щупальцами почти весь земной шар. Вряд ли найдется область интересов, предмет исследований, какого бы не было в Internet. Internet включает в себя огромное количество отдельных сетей и имеет свыше 20 млн. Пользователей. К тому же это - быстроразвивающаяся структура: темпы роста числа серверов Web удваиваются каждые 53 дня. В такой ситуации первопроходец может сутками продираться сквозь постоянно разрастающиеся щупальца, достигая, в конечном итоге, нулевой результат. Как же быть? Отдаться на волю случая? Конечно, нет. На выручку приходят информационные службы, помогающие не только первопроходцу, но и искушенному пользователю ориентироваться в бесчисленной паутине информации. По существу, информационная служба должна работать для отдельного конкретного пользователя, а последний оценивает ее деятельность по конкретно полученным результатам, принимая во внимание такие факторы как:
- полнота информационных ресурсов
- средства поиска
- обновляемость (расширяемость)
- дизайн.
Заглянем в самые популярные зарубежные информационные службы (каталоги). Сразу надо отметить, что они демонстрируют великолепный дизайн и расширенные средства поиска.
1.1. LYCOS
Lycos основана в Малборо, Массачусетс и имеет свои представительства в Питсбурге, Пенсильвании. Являясь абсолютно бесплатной службой для пользователей (нет платы на подписку, поиск и ответные справки), LYCOS обслуживает более 30 млн. запросов в месяц, что делает ее одной из самых популярных служб на WWW. LYCOS поддерживается на средства Carnegie Mellon University. Point, дочерняя компания LYCOS, является издателем первого обзора в on-line и руководства оценки для Internet, Point Survey. В настоящее время Point располагает наибольшей и свежей коллекцией Web обзоров, доступных в on-line, и обрабатывает 6 млн. Ответных справок (на запрос) в месяц. К тому же, недавно образованная и бесплатная служба Point Now обеспечивает в режиме реального времени обновление новостей и статей, представляющих общий интерес, со всего мира наряду с обновлениями по множеству специализированных предметных областей. И LYCOS, и Point извлекают доходы от рекламных объявлений. LYCOS дополнительно получает доходы от лицензий на использование своей технологии и Internet каталога таким компаниям как Microsoft Corp. и Frontier Technologies Corp. Возможности LYCOS по полноте информационных ресурсов поражают воображение. LYCOS заиндексировала свыше 10.75 млн. страниц по всему миру. Это составляет свыше 91% содержания World Wide Web. Никакой другой каталог, средство поиска или справочник даже не приближается к такой цифре. Купите ли вы энциклопедию в 1 томе вместо 17 или словарь, включающий только буквы A и B? А это эквивалент того, что вы можете получить от возможностей других каталогов. LYCOS обладает самой быстрой и наиболее мощной технологией поиска и индексирования. Используя технологию сделанных заявок на патент, LYCOS "паук" постоянно производит выборки на Web и сливает результаты поиска в LYCOS каталог еженедельно (LYCOS вырастает в неделю на 300.000 страниц. LYCOS ищет не только по http узлам, но и FTP и gopher адресам. В отличие от других Web каталогов и директорий, LYCOS индексирует и нетекстовые ресурсы Internet, включая графику, звуки, машинный фильм и исполняемые программы. По своей конструкции LYCOS не индексирует недолговечные или изменяющиеся данные или бесконечные виртуальные пространства. Следовательно, базы данных WAIS, новости USENET, telnet услуги, Email не попадают в сферу деятельности LYCOS.
Также LYCOS игнорирует файлы, начинающиеся на "/dev/tty/" и заканчивающиеся следующими расширениями: AU, AVI, BIN, DAT, DVI, EXE, FLI, GIF, GZ, HDF, HQX, JPEG, LHA, MAC, MPEG, PS, TAR, TGA, TIFF, UU, UUE, WAV, Z или ZIP. Средний размер загруженного текстового файла равнялся 7,920 символов. LYCOS выдает пользователю не только список всех узлов, выданных по запросу, но и ранжировку всех узлов, основываясь на оценке "популярности" каждого из узлов. Эта оценка для определенного узла вычисляется на основании общего количества других узлов, имеющих связи с этим узлом. Используя свою технологию, LYCOS также автоматически создает аннотации с наиболее популярных узлов, позволяя пользователям быстро и эффективно определить, какие узлы наиболее релевантны их запросам. Получается, что LYCOS растет быстрее, чем сам Web, т.е. очень скоро LYCOS закаталогизирует свыше 99% содержания Web. Механизм поиска LYCOS, PURSUIT, является программой на C, использующая поисковую систему с инвертированными файлами и простую сумму весов для подсчета документов. Уникальной особенностью является то, что PURSUIT оценивает, насколько глубоко слова появляются в документе. Таким образом, ответные справки в названии или первом параграфе оцениваются выше. Планируется модернизировать язык механизма поиска, включая больше стандартных булевых операторов. Также будут добавлены коррекция орфографии и семантические возможности из SCOUT проекта.
1.2. Open Text
Посмотрим, чем хороша эта информационная служба, какие продукты и услуги предоставляет своим пользователям? Open Text Corp. является пионером и одним из лидеров в технологии поиска с развитой логикой. Программные средства Open Text Corp. хорошо понимают структуру документов на Internet и быстро выдают релевантные результаты по запросам пользователя. Для достижения этой цели продукты и технология Open Text позволяют пользователю искать любое слово на любой странице, доступной на Internet - и в локальной, и в глобальной сети - в соответствии с критерием, определенным пользователем. Основанная в 1991, Open Text Corp. является частной компанией, главное правление которой расположено в Ватерлоо, Канаде. Ее основной высокопроизводительный инструмент поиска по тексту - Open Text 5 основан на технологии Центра разработок текстовой информации в Университете Ватерлоо. Технология используется как в академических и правительственных учреждениях, так и компаниями, связанными с такими отраслями деятельности как автопромышленность, финансовые услуги, здравоохранение, страхование, библиотеки, издательская деятельность. Компания работает с такими партнерами как Yahoo!, интегрирующая продукты Open Text в свои собственные продукты и услуги, а также другими деловыми компаниями, поддерживающими и продающими продукты компании в различных отраслях. Компания начала свою деятельность с создания средства поиска по полному тексту для Оксфордского английского словаря. Способность такого средства обрабатывать огромные массивы текста наряду с пониманием его структуры, выполненной в формате SGML, стала основой для Open Text IndexTM, наиболее объемлющего мощного средства по поиску на Internet. Создание Open Text LatitudeTM, системы распределения документов, позволяющей целым предприятиям искать и использовать все документы, было естественным результатом прежних усилий. Технология Web Search ServerTM предоставляет средства для расширения возможностей поиска текста в Internet и приложений по поиску, открывая доступ пользователям ко всем поисковым данным на Internet. С помощью "ползунов", Open Text программ-посредников по индексированию, Web Search Server индексирует каждое слово, каждую страницу на Internet. Кроме постоянного индексирования, "ползуны" регулярно посещают различные узлы, пополняя раздел "что нового" в основном индексе. Web Search Server "подпитывается" посредством Open TextTM, т.е. основан на разработке Open Text Index, гарантирующей следующие возможности: индексирование "слово за словом" и гибкие эффективные поисковые запросы, включающие многоуровневые булевы, структурированные поиски, ранжированные и простые поиски для определенных слов и фраз. Open Text 5 является сердцем индексирования Open Text INDEX на WWW. Это высокопроизводительный механизм поиска с развитыми логическими возможностями, разработанный для переработки огромных объемов информации.
Преимущества Open Text 5:
- Высокая производительность
- Способность индексирования свыше 40 различных типов файлов, включая систему подготовки текстов, SGML, HTML и PDF
- Индексирование каждого слова, каждой страницы, включая "stop" слова
- Осведомленность о структуре - знает элементы документа (такие как основные заголовки и сноски), в которых встречаются слова
- Многоязычный - индексирует европейские и неевропейские языки, такие как японский и арабский
- Монитор параллельного выполнения - способен выполнять запросы на многих серверах одновременно
- Ползуны - автоматически ищут на узлах для построения и пополнения индекса.
Open Text 5 разработан, чтобы стать магистралью приложений промышленного масштаба и утвердил себя на часто посещаемых узлах. Продукты Open Text Corp. первоначально были разработаны для индексирования сложных SGML документов. Посредством стандартизации Internet документов на HTML, подмножестве SGML, Open Text Corp. смогла начать индексирование Internet. Многие клиенты Open Text Corp. используют WWW в качестве "виртуальной внутренней сети" для совместного использования данных, связи и сотрудничества по всему предприятию.
Open Text Corp. имеет завершенное решение для организации баз данных на World Wide Web - Latitude Web Server, программное обеспечение, усиливающее Open Text Index на WWW. Этот сервер обладает многими свойствами, которые не доступны в стандартных системах:
- Open Text 5
- HTTP демон для обработки "деталей" ответа на вход пользователя в Web. Или вы можете сделать свой выбор - Latitude Web Server прекрасно работает с программными средствами Web сервера из Netscape, Open Market и др.
- Программы-ползуны (о них говорилось выше)
- Фильтры данных, автоматически переводящие форматы обработки текстов в HTML на лету, таким образом пользователи имеют доступ к документам, написанных в Microsoft Word, WordPerfect, др., т.е. не надо создавать второе параллельное множество, которое должно быть переведено в HTML
- Программные средства по администрированию и выписыванию счетов, которые отслеживают доступы к вашим данным, время ЦПУ, др. Таким образом, вы можете эффективно управлять своим узлом и даже выписывать счета за использование.
Несмотря на то, что большой объем и динамическая природа Internet не позволяют полного индексирования, а некоторые узлы не предоставляют доступа для любого механизма индексирования, средства Open Text Corp. по индексированию и поиску работают в пределах этих ограничений, создавая достаточно объемлющий и точный каталог Internet, включая WWW, Archie, Gopher и Usenet News (LYCOS, как мы уже знаем, не предоставляет такой возможности).
Остановимся поподробнее на уникальной возможности Open Text - поиске по полному тексту. Когда перед вами открываются огромные массивы информации (скажем, WWW), и вы хотите что-то найти, вам необходимо использовать каждый ключ и "дакти-лоскопический отпечаток", какими вы располагаете. Одним из способов поиска информации является ее организация по категориям, логическим подкатегориям и т.д. Так устроено содержание. То же мы наблюдаем в Yahoo. Но бывает, что вы хотите найти информацию, рассеянную по нескольким категориям, или она не входит ни в одну категорию, или вы просто не знаете, какую директорию просматривать, или, наконец, в выбранной вами категории содержится слишком много документов. Вот почему у книг есть индексы. Стандартный индекс по полному тексту (каким не является Open Text Index) во многом напоминает индекс в конце книге. Программные средства по индексированию пропускают весь материал, который необходимо заиндексировать и строят гигантский список. Существуют разные способы организации списка. Выбор определяется несколькими соображениями:
- Количество данных. Многие индексные разработки достаточно быстро ищут данные, пока вы не дошли до 1 Гб данных. Тогда очень быстро возрастает время ожидания и т.д.
- Точность и воспроизведение. Критерий точности заключается в определении "ошибочных утверждений", выданных вашим индексом пользователю. Критерием воспроизведения является количество "истинных утверждений", найденных индексом.
- Контекст. Каково количество информации вы записываете? Где появляется слово? Какое слово стоит следующим? Где в структуре документа встречается слово? Большинство индексов основано на модели "инвертированного слова", в которой за каждым уникальным словом следует множество указателей (электронный эквивалент номеров страниц) на документы, в которых слово найдено. Хотя во многих случаях это приемлемо, но подход имеет ряд слабых мест:
- Работа индексов по инвертированному слову быстро ухудшается после 1 Гб отметки.
- По этой причине(наряду с другими), индексы по инвертированному слову стараются избегать "стоп" слова (и, а, или, др.) - слова, встречающиеся на большинстве страниц (Это мы можем ощутить в LYCOS).
- Они не схватывают контекст, ограничивая тем самым пользователя выполнять производительные (power) поиски.
Open Text не использует индекс по инвертированному слову, а использует архитектуру "построчного" индекса: индексируется каждое слово, даже "стоп" слова, а также слова в контексте. Вот почему с помощью Open Text Index вы можете искать полные фразы и вот почему вы можете искать в пределах заглавий и других структурных элементов.
Информационные службы, взявшие на вооружение механизмы поиска, занимают лидирующее положение в Internet. Перед пользователем стоит только одна проблема - какую службу или механизм поиска выбрать. Главное, хорошо представлять себе, что ты vхочешь найти и где искать. Вы можете выбрать уже рассмотренные службы, но чтобы легче ориентироваться в море информационных ресурсов, мы представим краткий перечень других механизмов поиска. Надеемся, что они помогут вам найти что-то полезное для себя. Если один механизм не поможет вам, попробуйте другой.
1.3. CUSI
CUSI (Configurable Unified Search Engine) является настраиваемым поисковым интерфейсом для многих WWW ресурсов, доступных для поиска. Он позволяет вам быстро проверить связанные ресурсы, не настраиваясь на каждый из них и не перебивая ключевые слова. Механизм разработан и представлен как личная инициатива М.Костера в 1993. Теперь он является частью программы "NEXOR - профессиональная служба WEB".
1.4. GlOSS
GlOSS является системой, разработанной в Стэнфордском университете, помогающая найти источники данных, релевантные вашим запросам. Только представьте GlOSS перечень ключевых слов, и GlOSS отобразит ранжированный перечень источников, вероятно содержащих документы, какие вы ищете.
1.5. IS Workgroup, Search page
Во-первых, существует связь с собственным IS перечнем мест, представляющих интерес, содержащий некоторые определенные соединения к серверам, которые члены рабочей группы признали интересными. Оставшаяся часть этого документа представляет некоторые наиболее полезные механизмы поиска, доступные на WWW. Вводите ваш запрос, выбираете механизм поиска и нажимаете 'submit'.
1.6. InfoSeek
InfoSeek является одним из популярных механизмов поиска на Web. Поиск с его помощью очень легок и увлекателен. InfoSeek содержит достаточно большой индекс WWW страниц на Internet и наиболее полный в мире полнотекстовый индекс UseNet новостей (свыше 10,000 групп новостей охватывают почти любую тему, какую только можно вообразить). Вы можете ввести запрос на простом английском языке или ключевые слова и фразы, и высокоточный механизм поиска найдет информацию, какую вы ищите, за секунды.
1.7. Internet Search Engines
Internet - огромен и все более разрастается днем и ночью, и поиск ресурса, необходимый вам, может показаться устрашающим. Эта страница включает связи к достаточно продвинутым механизмам поиска для тех пользователей, кто более или менее точно знает, что он ищет. Если такого понимания нет, тот имеется в наличии перечень более дружелюбных для пользователя механизмов поиска Эти механизмы позволяют вам искать информацию разными способами - одни ищут названия документов, другие - сами документы и третьи- другие индексы и директории.
1.8. JumpStation Front Page
JumpStation является способом нахождения ссылок на информацию, доступную на WWW. Пользователи получают множество связей на другие страницы Web, соответствующих их запросу. Для сбора данных JumpStation использует Robot, обеспечивающий средства поиска для темы, на которую есть ссылка в названии документа.
1.9. Muscat
Muscat является механизмом поиска на естественном языке, который намного быстрее, чем другие статистические поисковые системы. Muscat помогает пользователям, предлагая родственные слова на лету: нет необходимости вручную создавать "темы" или тезаурус.
1.10. Yahoo
Yahoo считается одной из популярных и объемлющих директорий на WWW. Yahoo предлагает поиск по ключевым словам и директорию 'что на Web'. Но использование категорий директории может быть бесполезным, если вы точно не знаете, что хотите.
1.11. WWW Search Engines
Содержит 117 различных механизмов поиска на одной странице.
Теперь приведем пример информационной службы, совершенно отличной от выше рассмотренных как по источникам информации, так по поисковым возможностям.
1.12. NTIS
National Technical Information Service (Национальная служба технической информации) является необходимым средством для представления информации, субсидируемой правительством США. NTIS, агентство в Министерстве торговли, по праву служит в качестве самого большого центрального ресурса информации, касающейся научно-технических и инженерных работ, а также бизнеса. Служба предоставляет широкий спектр информации, которую трудно найти где-либо еще. NTIS обеспечивает доступ к более, чем 2.7 млн. Названий, представляющих собой доклады, описывающие исследования, ведущиеся или спонсирующиеся федеральными агентствами; статистическую и деловую информации; аудио-визуальные продукты; программные средства и базы данных, разработанные федеральными агентствами; и технические доклады, подготовленные международными исследовательскими организациями. Около 85.000 новых документов индексируется и добавляется ежегодно.
Информация поступает от многочисленных участников - правительства США, источников, распространенных по всему миру, и совместных предприятий. В соответствии со специальным законом, касающимся американских технологий, сотни федеральных агентств регулярно направляют в NTIS копию своих информационных продуктов для общедоступного распределения.
Только NTIS предоставляет следующие информационные услуги:
- FEDWORLD - служит в качестве электронного окна в NTIS. FedWorld стартовала в ноябре 1992, когда NTIS организовала небольшую систему доступа с установлением связи по телефонному номеру, которая позволяла пользователям связываться с более 50 другими правительственными "досками объявлений", а также получить информацию о различных информационных продуктах правительства, доступных из NTIS. Целью NTIS FedWorld является обеспечение доступа пользователям по централизованному размещению и заказу информации правительства США. Доступ к FedWorld осуществляется через модем или telnet команды на Internet (fedworld.gov) и обеспечивает связь с правительственными WWW серверами, NTIS файлами, документами и базами данных. FedWorld Telnet узел обеспечивает свободный межсетевой интерфейс со 140 правительственными интерактивными системами, многие из которых иными путями недоступны в Internet. Все правительственные W3 сервера отсортированы по предметным категориям - по таким же, как в NTIS сортируются более 700 новых информационных продуктов, получаемых каждую неделю - таким образом, пользователь может легко настроиться на сервер, соответствующий его интересам. В ближайшем будущем ожидается, что в перечень правительственных серверов США войдут правительственные Gopher и FTP серверы.
- NTIS Preview Database - Содержит библиографические ссылки на тысячи новые информационные продукты, поступившие в коллекцию NTIS в последние 30 дней и сейчас доступны для продажи.
- Библиографическая база данных NTIS - Не имеющий себе равных ресурс, обеспечивающий глубокий охват исследований в научной, технической, конструкторской и др. областях, спонсируемых правительством США и международными источниками. Полная база данных содержит более, чем 2 млн. записей. Многие из них являются уникальными; поэтому, недоступны из других источников.
- NTIS ALERT - Alerts обеспечивает эффективный и своевременный способ находиться в контакте с последними исследованиями, технологиями и разработками, доступными из NTIS. Эта служба два раза в месяц знакомит с новыми документами, добавленными в NTIS, которые могут представлять интерес. Более, чем 1,600 новых названий добавляются в NTIS каждую неделю.
- FEDRIP (база данных текущих федеральных исследованиях) - необходимый ресурс для тех, кому необходима информация о ведущихся исследованиях, инвестируемых федеральным правительством. Вы можете получить доступ к информации по 150,000 ведущихся исследовательских проектах в различных предметных областях.
- Foreign Broadcast Information Service Daily Reports (Широковещательная информационная служба по ежедневным отчетам) - Эти популярные отчеты, составленные правительством США, содержат политические, военные, экономические, экологические социологические новости, комментарии и др. информацию.
- World News Connection - Служба в режиме on-line, обеспечивающая информацией, включающей выдержки международных политических речей, телевизионных и радио программ, газетных статей, периодики и книг - все переведены на английский.
- Published Search (общедоступный поиск) - На основании кратких рефератов для каждого общедоступного поиска вы можете быстро и недорого определить какие из тысячи документов из базы данных релевантны для вас.
Free Catalogs - Предоставление бесплатных каталогов NTIS, которые можно посмотреть, загрузить или заказать в on-line (текстовые и PDF файлы). PDF файлы требуют программные средства Acrobat Reader для просмотра и печати документов.