Реферат

Реферат Лингвистичечкие ресурсы интернет

Работа добавлена на сайт bukvasha.net: 2015-10-28

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 21.9.2024




38




СОДЕРЖАНИЕ


ВВЕДЕНИЕ 2

1. КОМПЬЮТЕРНАЯ СЕТЬ ИНТЕРНЕТ 4
2. ИНТЕРНЕТ РЕСУРСЫ ПО ЯЗЫКУ 13

ЗАКЛЮЧЕНИЕ 33
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 35

Введение
Интернет как глобальная информационная среда представляет собой уникальный источник лингвистической информации, пока еще, к сожалению, не вполне освоенный переводчиками. Широкое использование Сети в повседневной работе не только позволяет оперативно решать многочисленные лингвистические проблемы, но и существенно повышает качество владения языка, поэтому можно с уверенностью сказать, что уже в ближайшем будущем умение пользоваться возможностями Интернета станет таким же естественным требованием к профессиональному филологу и переводчику, каким сегодня является умение работать на компьютере.
В целом можно выделить пять основных областей, в которых Интернет незаменим для филолога и переводчика:
1) быстрый доступ к огромным массивам справочной информации: электронные словари, энциклопедии, глоссарии, разнообразные терминологические ресурсы;
2) использование Сети в качестве универсального многоязычного корпуса текстов, из которого можно черпать разнообразную лингвистическую информацию, существенно повышающую качество перевода;
3) получение фоновых сведений по предметной области переводимого текста;
4) использование специализированных переводческих и лингвистических ресурсов;
5) оперативная связь: электронная почта и другие средства коммуникации облегчают и ускоряют обмен информацией с заказчиками и коллегами, делая лингвиста по-настоящему независимым, а рынок филологических и переводческих услуг - глобальным.
Помимо этого, Интернет как новая среда существования информации дает дополнительный импульс развитию перевода: возникла целая самостоятельная отрасль - перевод и локализация вэб-сайтов, и этот сегмент рынка стремительно растет с каждым годом.
Цель данного исследования:

Цель предопределяет решение следующих задач:

  1. Изучить научную и критическую литературу по теме.

  2. Рассмотреть разнообразие и своеобразие лингвистических ресурсов в Интернете.

  3. Подробное изучение Всемирной Информационной Сети (понятие, определение, история, развитие и использование).

  4. Провести анализ электронных словарей (разнообразие, структура, использование и применение).

Материалом для исследования послужили ресурсы Интернета и электронные словари, тезаурусы, Программы преобразования текстов, Программы анализа и лингвистической обработки текстов и Психолингвистические программы.


Во введении обосновывается актуальность темы работы, ставятся цель и задачи, предлагается обзор литературы.

В первой главе в процессе анализа научной литературы определяется местом Интернета в современном обществе.

Во второй главе на основе анализа лингвистических ресурсов выявляется их распространение, структура и эффективность использования.

В третьей главе проводится анализ самых распространённых лингвистических ресурсов - электронных словарей.

В заключении подводятся итоги исследования, делаются выводы.

Список использованных источников включает 20 наименований.


  1. Компьютерная сеть Интернет


ИСТОРИЯ ИНТЕРНЕТ

В начале семидесятых годов отдел Министерства обороны США, известный под названием ARPA (Агентство исследовательских проектов особой сложности), занимался проблемами поддержки и сохранения коммуникационного контроля в случае потери основных систем связи при ядерном взрыве, произведенном Советским Союзом. Следуя терминологии военных стратегов, опасения вызывала возможность «обезглавливающего» удара по национальному коммуникационному центру, который лишил бы военачальников связи с Американскими стратегическими силами и, тем самым, способности нанести ответный удар.

Единственным способом формирования такой компьютерной сети было особое соединение компьютеров, при котором коммуникация не зависела бы от какого-либо центрального сервера. При потере одного, нескольких или даже большей части компьютеров, подсистемы должны были продолжать работать, обеспечивая неотвратимость ответного удара.

В известном смысле это казалось нетрудной задачей. Каждое здание имеет систему электропроводки, при которой одна перегоревшая лампочка не влияет на работу других. Но с компьютерами это было невозможно. В американской компьютерной индустрии 1970х-80х годов разные производства выпускали массу компьютеров с различными оперативными системами (например, IBM, цифровые вычислительные машины, Microsoft и Apple), всевозможные устройства памяти с разными разрешающими возможностями. Пятьдесят компьютеров IBM могли быть успешно объединены в сеть IBM компьютеров, также как и пятьдесят отдельных компьютеров Макинтош, но пятьдесят IBM и пятьдесят Макинтошей было намного труднее объединить в сеть из ста компьютеров, способных на обмен информацией.

Некоторые историки Интернета ведут отсчет глобальной Сети с 1961 года, когда Леонард Кейнрок, нередко называемый отцом Интернета, опубликовал статью с изложением пакетной пересылки информации (packet switching theory). Сам же профессор считает, что первый значительный шаг в создании Интернета был сделан 2 сентября 1969 года в Калифорнийском университете (КУ), он вместе со своей командой успешно соединил компьютер с маршрутизатором (сетевое устройство передачи данных), известным под названием Interphase Message Processor, размером с холодильник. Первая же попытка соединить два компьютера в сеть закончилась неудачей. В интервью агентству Рейтер Леонард Клейнрок описал это следующим образом: 20 октября 1969 года группа компьютерщиков Калифорнийского университета решила соединить свой компьютер с компьютером в Стенфордском исследовательском институте (СИИ) на севере Калифорнии. Один ученый сидел за компьютером в КУ и разговаривал по телефону с ученым из СИИ. Когда все было соединено, первый должен был написать слово “log”, а специалист в СИИ в ответ должен был написать “in”, в результате чего должно было образоваться слово “login” (процедура идентификации пользователя при подключении к компьютеру по линии связи). Сидящий в КУ написал “l” и спросил по телефону коллегу в Стенфорде, получил ли тот букву. Ответ был положительный. Успешно была отправлена и буква “o”. Однако затем «все рухнуло». Но начало было положено. Поначалу сеть помогала лишь ученым пользоваться информацией, находящейся в компьютерах коллег в других центрах. Тогда еще никому не приходило в голову, каких масштабов достигнет Интернет. Однако профессор не считает, что он вместе с коллегами породил монстра.

Итак, первая проблема была связана с развитием программного обеспечения, способного объединить несколько сетей с разными оперативными системами. Вторая проблема заключалась в создании такого программного обеспечения, чтобы «сеть из сетей» могла продолжать функционирование даже в случае потери нескольких компьютеров. Решение этих двух проблем требовало огромного объема работы и талантливых специалистов, что, в конечном результате, привело к созданию программы TCP/IP.1

Среди преимуществ программы TCP/IP - ее крайне децентрализованная система. Ни правительство, ни корпорационные монополии не имеют контроль над ее работой. Соединение с Интернетом также не требует официального разрешения. Наоборот, как дикая земляника, ветви Интернета разрастаются горизонтально, демократично, в то время как новые региональные компьютерные службы Интернета (Internet Service Providers - ISPs) во всем мире покупают мощные серверы, устанавливают программу TCP/IP, подсоединяются к другому TCP/IP компьютеру сети и предоставляют доступ к Интернету отдельным лицам и местным организациям. Интернет развивается так быстро, что его рост измеряется в процентах в месяц.

ИНТЕРНЕТ СЕГОДНЯ


Эволюция Интернет еще не закончена. Фактически, история Сети только начинается. Как массовое явление Интернет существует всего четыре года, и за этот рекордно короткий срок она уже стала неотъем­лемой частью жизни доброй сотни миллионов людей на планете.

О статистике Интернет стоит поговорить более развернуто, ибо уже сами по себе эти цифры могут сказать многое.

В декабре 2000 года ирландская компания NUA сообщила следую­щие данные: число пользователей Интернет на конец года превысило 410 млн. чел. Из них в США и Канаде проживают 168 млн., еще 113 — в Европе, около 109 млн. приходится на долю Азии и Африки. Как ожида­ется, к 2003 году число пользователей Интернет достигнет одного милли­арда человек — наибольшие надежды в этой области связаны с быстро развивающимися странами Юго-Восточной Азии, Китаем и Россией.

В 2001 году число российских пользователей Сети, по данным агентства Monitoring.Ru (http://www.monitoring.ru) превысило 12 мил­лионов человек, из которых около 3 миллионов пользуются Сетью еже­дневно. Самая активная часть аудитории, работающая в Интернет око­ло 3 часов в день, составляет не более 1,4 миллиона человек, 70 % из ко­торых живут в Москве и Петербурге.

Число Интернет-сайтов, по данным сайта Domain statistics (http: 7/www.domainstats.com). по состоянию на конец 2000 года превы­сило 34 миллиона. Стоит учесть, что в феврале 1997 года, по оценкам той же службы, число серверов составляло всего лишь около 700 тыс. Российская же часть Интернета (или Рунет), по данным одного из крупнейших поисковых серверов Yandex, включала около 240 тыс. сай­тов общим объемом 133 Гбайт.

Интернет — самый массовый и оперативный источник информации.


Свое «представительство», собственную WWW-страничку в Сети имеет сегодня практически каждая крупная западная организация, фирма или компания. В Интернет расположены «электронные» варианты многих тысяч газет и журналов, через Сеть вещают сотни радиостанций и телекомпаний. Трудно найти какую-либо область человеческой дея­тельности, которая не была бы представлена в Интернет во всей своей полноте сотнями и тысячами «страничек». Другая популярная техноло­гия получения информации — через так называемые «группы» ново­стей. Их число приближается сегодня к ста тысячам.

Интернет — крупнейший в мире источник развлечений.


Игры и музы­ка, кино и театр — все виды искусства и все детища громадной индуст­рии развлечений представлены сегодня в Интернет. Вы можете сыграть в игру с партнером, находящимся на другом конце земли, узнать ново­сти о жизни любимой рок-группы и прослушать их последний диск, разгадать кроссворд и получить результаты последнего футбольного матча, зачитаться обширной коллекцией анекдотов и стать собирате­лем Очень Интересных Картинок, наконец, даже принять участие в за­седании Общества Любителей Жареных Каракатиц... Я затрудняюсь даже назвать вид развлечений и хобби, которому не посвящен в Сети хотя бы десяток страниц.

Интернет — самое прогрессивное средство общения и коммуникации.


Ежедневно пользователи Сети отправляют друг другу сотни миллионов электронных посланий — для многих из них Интернет полностью заменил обычную почту. Миллионы людей ежедневно знакомятся и общаются друг с другом на всевозможных «болтальных» каналах IRC. Пока сравнительно небольшое число людей пользуется услугами Интернет-телефонии и ви­деоконференций, однако эти технологии общения становятся все более популярными: «пик» спроса на них ожидается не позднее 2000 года.

Интернет — самое благоприятное пространство для бизнеса.


Все более популярной становится электронная торговля, позволяющая пользова­телю совершить покупку практически любого товара в любой точке планеты. По Интернет вы можете заказать и получить новые программ­ные продукты, послать букет цветов любимой девушке и даже приобре­сти автомобиль. А также узнать последние результаты торгов на биржах всего мира, осведомиться о курсе акций той или иной компании и про­вернуть с ними сделку. Для крупных фирм и корпораций Сеть стала идеальной средой для проведения всевозможных операций и расчетов, а также торговли по схеме business-to-business, совещаний в реальном времени. Впрочем, заработать на Сети может не только крупная фирма, но и практически любой человек, создавший свою страничку.

Интернет — это идеальный инструмент для рекламы.


Сеть дает любому человеку практически бесплатную возможность оповестить многомил­лионную аудиторию о предлагаемых им услугах или продукции. Интер­нет уравнивает частных лиц, фирмы средней руки и крупные корпора­ции: у всех есть одинаковые возможности для привлечения покупателей. Не надо платить тысячи и даже миллионы долларов за мгновения рекла­мы на телевидении, не надо покупать полосы в газетах — ваша странич­ка в Интернет будет функционировать круглосуточно, без перерывов.

Интернет — это громадный простор для творчества.


С помощью Сети вы можете заявить о себе на весь мир, создав личную домашнюю стра­ничку. О чем? О чем хотите. О любимой группе или композиторе, о по­роде кошек или о собирании поплавков. А можно — о себе, любимом, чтобы потом удивлять знакомых небрежным: «Зайди на мою страничку в Интернет, там лежат фотографии со вчерашнего дня рождения»...
РАЗВИТИЕ ИНТЕРНЕТА И ЕГО БУДУЩЕЕ

Во многих странах дальнейшее расширение доступа к Интернету лимитируется высокой стоимостью услуг связи и низкой распространенностью персональных компьютеров - как на работе, так и дома. По-видимому, важнейшим фактором, который будет стимулировать в будущем рост Интернета, является конкуренция на рынке доступа к информации. Традиционный каналы связи вытесняются кабельным (у нас такую услугу начало предоставлять кабельное телевидение Baltcom TV) и спутниковым телевидением, услугами местной проводной и беспроволочной связи, и даже электрокомпании теперь готовы представлять пользователям доступ в Сеть. Можно ожидать, что тарифы на услуги связи будут в будущем падать из-за конкуренции.

Считается, что переломный момент в распространение технических новшеств, связанных с распространением информации, наступает, когда они привлекают интерес 10% населения. В этом случае и вся общественность начинает проявлять к ним повышенное внимание. Именно этот процесс происходит сейчас в странах Северной Европы. На многих рынках аудитория пользователей Интернета становится более "репрезентативной" - в ней выравнивается соотношением мужчин и женщин и более широко становятся представленными различные возрастные группы.

Основой для превращения Интернета в информационную систему будущего является также прогнозируемое развитие электронной коммерции. Банки внедряют услуги, оказываемые по Интернету, создаются все более совершенные системы проведения коммерческих и финансовых операций и их подтверждения. Однако ко всем этим предсказаниям нужно относиться с большой осторожностью. Ни одна из исследовательских компаний не предсказывала бурный рост Интернета, несмотря на то, что необходимая для этого технология не только существовала и действовала в течение 20 лет. Хотя никто не сомневается, что число пользователей Интернета будет продолжать расти. Но, к примеру, вопреки всем ожиданиям, пользование Интернетом в Новой Зеландии сокращается. Работодатели ограничивают время доступа в Сеть для своих сотрудников, поскольку оно по большей части тратится впустую. И все же ни одна из исследовательских компаний не предсказывает уменьшение популярности Интернета.

С появлением браузеров все ресурсы Интернета стали легко доступны для широкой публики. Именно с этот времени стали интенсивно развиваться многие online услуги. Сначала ожидалось, что Сеть быстро превратится в место продажи "цифровых товаров", таких как музыка и электронные газеты. Однако очень скоро выяснилось, что эти ожидания совершенно не оправдались. В Сети оказалось гораздо выгоднее бесплатно распространять информацию, чем ограничивать доступ к ней тем, кто готов за это платить. Что же касается "цифровых продуктов", например, музыки, то Интернет стал кошмаром для музыкальной индустрии. Теперь любой подросток может выставить на сайте свою коллекцию CD, а любой другой человек на земном шаре может разыскать на нем и скопировать песни, защищенные авторскими правами. Именно это и происходит сейчас. "Проигрыватель" MP3 Man позволяет слушать музыку, "скачанную" из Интернета, где угодно - даже на пляже. Устройство было создано уже после появления в Интернете цифровой музыки - сама Сеть порождает новые "игрушки".

Одновременно с этим Интернет превратился в лидера по торговле потребительскими товарами. Огромный объем продаж компакт-дисков и книг новичками на рынке заставил и "ветеранов" разрабатывать стратегии торговли в Сети. Однако правила игры online отличаются от обычных. Сравнивать цены становится так легко, что компаниям приходится бороться за покупателей другими способами.

Что касается масс-медиа, то у традиционных СМИ - газет и вещателей - все еще достаточно крепкие позиции для выхода со своей продукцией online. Их огромное преимущество состоит в устоявшемся круге пользователей, в интересном содержании и в эффективно действующей системе производства. Они также осознают, что информационная online продукция приносит прибыль, хотя на первом этапе могут потребоваться инвестиции и терпение. Нужно понимать также, что для того, чтобы получить прибыль недостаточно одного лишь появления в Сети и ожидания посетителей сайта и рекламодателей. Успех может принести только объединение связи, услуг и коммерции. Что и можно сегодня увидеть на сайтах в основном сетевых СМИ.

Так, газета New York Times, имеющая пятимиллионную аудиторию читателей и более полутора тысяч связей с рекламодателями, потратила в 1998 г. на свое представительство в Интернете $10-15 млн., однако считает этот бизнес выгодным. Объясняется это тем, что при подписке на электронную версию газеты читатели заполняют на сайте бланк, куда вносят свои данные, и газета, таким образом, может направлять рекламу адресно, определенным группам людей и, следовательно, повышать расценки на размещение рекламных баннеров.

  1. Интернет-ресурсы по языку


В связи с постоянно растущими потребностями в средствах автоматической обработки документов и естественно-языковых, в том числе речевых, интерфейсах, возникает необходимость в эффективном доступе не только к публикациям, описывающим методы и подходы к обработке текстов, но и разного рода словарям, программным компонентам и алгоритмам, реализующим различные задачи обработки текста или речи. И, хотя в настоящее время в сети Интернет представлен большой объем знаний и информационных ресурсов по этой тематике, доступ к таким ресурсам значительно затруднен, так как они лишь частично систематизированы и при этом рассредоточены по различным Интернет-сайтам, каталогам и электронным архивам.

Для решения этой проблемы существует несколько подходов. В рамках одного из них создаются различные Интернет-ресурсы, выполняющие информационную поддержку разнообразных тематических сообществ. Самым известным ресурсом такого рода, имеющим отношение к компьютерной лингвистике, является англоязычный каталог LINGUIST List (http://linguistlist.org/), созданный для общения и обмена знаниями между лингвистами и содержащий информацию о публикациях, персоналиях, научных учреждениях и других организациях лингвистического направления, грантах, конкурсах, проектах, фондах и источниках финансирования, конференциях и семинарах лингвистической тематики. LINGUIST List предоставляет возможность поиска ресурсов по таким параметрам, как страна, язык, раздел лингвистики.

К российским аналогам LINGUIST List можно отнести научно-образовательный портал "Лингвистика в России: ресурсы для исследователей" (http://uisrussia.msu.ru/linguist/index.jsp) и сайт “Российская лингвистика (RUSLING)” (http://rusling.narod.ru), создаваемый в Отделении лингвистических исследований ВИНИТИ РАН.  Портал "Лингвистика в России” содержит иерархически организованный каталог ссылок на наиболее значимые лингвистические ресурсы и позволяет осуществлять навигацию по разделам портала  с помощью иерархических связей внутри этих разделов  и по ссылкам на связанные с ними области (разделы). Тематические категории этого портала представлены разделами по компьютерной, теоретической и прикладной лингвистике и их приложениям (смежным областям), а также разделами, посвященными  русскому языку, языкам мира и народов РФ. Портал “Российская лингвистика” предлагает лингвистам «информационную карту» для поиска информации об организациях, научных исследованиях и публикациях, лингвистических ресурсах и персоналиях. Он содержит обширный каталог ссылок на словари и корпуса текстов для различных языков (в том числе славянских), а также сведения о российских лингвистах, предоставляя возможность их поиска не только по алфавиту, но и по области и объекту  (языку) исследования.

Другой подход направлен на представление лингвистических ресурсов непосредственно для работы с лингвистическими данными. К таким проектам относятся работы по переводу текстов в цифровые форматы, созданию средств их хранения и обработки, построению лингвистических онтологий и web-интерфейсов для описания и наполнения ресурсов лингвистическими данными. Среди таких проектов можно отметить проект E-MELD (http://emeld.org), в рамках которого создается лингвистическая онтология GOLD (General Ontology for Linguistic Description), представляющая общеязыковые знания в виде иерархических структур.

Как правило, проекты, разрабатываемые в рамках описанных выше подходов, направлены на описание и сохранение общеязыковой лингвистической информации, а не для интеграции ресурсов по компьютерной лингвистике и обеспечения к ним содержательного доступа широкому кругу пользователей.

Практически все известные издательства словарей и энциклопедий предлагают электронные версии своих изданий на CD-ROM, каковые при наличии достаточных средств и терпения можно приобрести и в России. Многие издательства (Merriam Webster, Encyclopedia Britannica, Larousse, Hachette, Meyers, Brockhaus, Garzanti, Русский язык и др.) также предоставляют бесплатный доступ к некоторым из своих детищ через Интернет. В то же время доступ ко многим популярным справочникам платный (Oxford English Dictionary, Termium, Encyclopedie Larousse).

Помимо громких лексикографических имен, пожалуй, главное богатство "справочной" Сети - несметное множество специализированных словарей и глоссариев из всевозможных областей, от компьютерной терминологии и сленга биржевых маклеров до ухода за орхидеями, виндсерфинга и восточных единоборств. На одном только сайте YourDictionary.com представлены ссылки на 1500 словарей и глоссариев на 230 языках.

Доступ к крупным словарям обычно предоставляется в режиме онлайн, большинство же специализированных словарей и глоссариев можно загрузить (скачать) на жесткий диск своего компьютера и просматривать оффлайн, т.е. отключившись от Сети.

Ниже представленный каталог включает в себя описание программ, связанных с анализом текстов и лингвистикой, а также соответствующих ресурсов, доступных сегодня в глобальной сети Интернет. Упор при составлении каталога делался на бесплатные программы, доступные для загрузки. Однако также описаны некоторые on-line и коммерческие версии программ.

Программы анализа и лингвистической обработки текстов


Название

Автор(ы), Организация

Комментарий

Link Grammar Parser

John Lafferty
Daniel Sleator
Davy Temperley
Carnegi Melon University, USA




Link Grammar Parser – это синтаксический парсер английского языка. Работает со словарем, включающем около  60000 словарных форм. Реализован на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс.
Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки. Программа распространяется бесплатно.


Проекты Cíbola/Oleada


Computing Research Laboratory (CLR)
New-Mexico State University, USA


Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris.

Russian Morphological Dictionary

Sergey Sikorsky

Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с входным ASCII-текстом. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows.
Программа распространяется бесплатно.

On-line морфологический парсер

Яndex

On-line версия морфологического парсера русскоязычных текстов, реализованного в поисковой системе Яndex. В основе парсера - "Грамматический словарь русского языка" А.А.Зализняка (110 тыс.слов). Для просмотра результатов морфологического анализа нужно выбрать режим "разбор запроса".

Mystem

Илья Сегалович,
Виталий Титов
компания Яndex

Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.

Лингвоанализатор

Д.В.Хмелев

On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. (Авторский эталон - это набор текстов данного автора, взятый из ресурсов Русской Фантастики). Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.

Программные продукты фирмы LingSoft

LingSoft, Финляндия

Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.

Рабочее Место Лингвиста

компания Dialing
Москва

Анализ текстов для построения систем автоматического перевода с русского на английский язык (и наоборот). Включает ряд автономных компонентов:
 - синтаксический анализатор текстов на русском языке;
 - морфологический анализатор текстов на русском и английском языках;
 - построение конкордансов для заданной совокупности текстов.
Используются морфологические словари русского (80 тыс.слов) и английского (60 тыс.слов) языков. Для каждого компонента разработан COM-интерфейс, который может использоваться при разработке других прикладных систем. Доступна для загрузки бесплатная демо-версия системы РМЛ-99 1.0, которая к сожалению осталась незавершенной (по всей видимости эта разработка почила в бозе). Система написана на языке C++ и работает в среде Windows 9x/2000/NT.

Система StarLing

С.А.Старостин

СУБД StarLing, позволяющая работать с мультиязычными текстами большой длины, с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка, с переводом по словарю Мюллера. Есть функции для сравнительно-исторических исследований (глоттохронология). Для загрузки доступны полные DOS и Windows версии системы. Для обеих версий системы требуется предустановка системных фонтов, также доступных для загрузки (DOS, Windows).
Кроме этого можно загрузить словари Ожегова и Зализняка в DBF-формате.
В режиме on-line на сайте доступна этимологическая база для различных языков.

Морфологический анализатор

С.А.Старостин

On-line версия программы морофлогического анализа слов русского/английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.).

MonoConc

Michael Barlow
Dept of Linguistics, Rice University, Texas, USA


Две версии (MonoConc Pro 2.0 и MonoConc 1.5) программы построения конкорданса для заданного корпуса символьных (ASCII) текстов. Утверждается, что размер текстов может достигать нескольких миллионов слов. Реализованы возможности различных режимов поиска: с помощью символов маскирования, регулярных выражений, контекстно-чувствительного поиска. При обработке текстов c внутренней разметкой (HTML/SGML) теги включаются в состав конкорданса (это нехорошо). Различные варианты сортировки. Функции частоты встречаемости слов и словосочетаний. Различные режимы вывода конкорданса. Есть возможность генерации индексов и словников.
Обе программы реализованы для Windows 95 и выше. MonoConc 1.5 имеет вариант реализации для Windows 3.1 (16-разрядная версия).
Версия MonoConc 1.5 является несколько облегченной в сравнении с MonoConc Pro. К сожалению обе эти программы не бесплатны. Лицензия на использование MonoConc Pro в образовательных целях стоит $85.00; MonoConc 1.5 - $65.00. Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями.

ParaConc 0.7beta
ParaConc 1.0beta

Michael Barlow

Две бесплатные beta-версии программы построения параллельного конкорданса, т.е. конкорданса, основанного на двух сравниваемых текстах. Тексты должны быть выравнены по параграфам (предложениям), т.е. иметь одинаковое число этих элементов. Как и в программах MonoConc обрабатываются символьные ASCII тексты. Программа ParaConc реализована для Windows 95 и выше. Для установки версии 1.0 программы требуется загрузить файл Conc.exe в отдельную директорию и создать в ней поддиректорию AligneImport, в которую сохранить два dll-файла из архива paradll2.zip.

WordSmith Tools

Mike Scott

Бесплатная демо-версия программы WordSmith 3.0 для построения конкордансов. Программа, очень похожая по функциональности на MonoConc. Может обрабатывать корпус ASCII текстов, состоящий из множества отдельных файлов. Не понимает внутреннюю разметку. Имеет досадное ограничение на длину выходного конкорданса.
Включает в свой состав несколько полезных утилит - генерации списка слов для заданной совокупности текстовых файлов; разбиения больших текстов на совокупность фрагментов; пакетного редактирования множества текстов и другие.
Реализована для Windows 95 и выше.
Кроме программы WordSmith здесь же можно загрузить различные словари и словники.

Concordance 2.0.0

© R.J.C. Watt, 2000

Коммерческая программа для построения конкордансов и частотных списков для Win9x/NT/2000 (регистрация 80$). Обработка текстов в кодировках, поддерживаемых Windows, настройка на заданный алфавит. Сохранение результатов в виде HTML-файлов. Богатые средства анализа текстов. Возможность бесплатной загрузки для пробного ознакомления.

TextAnalyst 2.0

Научно-производственный инновационный центр "МикроСистемы"

Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста.
Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д.
Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг.
Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки. Интересно отметить, что на американском рынке технологию TextAnalyst продвигает фирма Megaputer Intelligence Inc.

Galaktika-ZOOM

корпорация Галактика, Москва

Автоматизированная система поиска и аналитической обработки информации. Мощный инструмент анализа и обработки текста (Text Mining), позволяющий извлекать необходимые сведения из огромного объема данных. Это коммерческая система, имеющая клиентов в рекламе, органах управления и средствах массовой информации.

Система Пропись 4.0

АО Агама

Набор средств для лингвистической обработки русскоязычных текстов:
 - проверка орфографии;
 - расстановка переносов;
 - построение списка синонимов и антонимов слова;
 - грамматическая и стилистическая проверка текста;
 - толкование слова (по Толковому словарю);
 - поиск и замена слов в тексте с учетом их форм;
 - статистический анализ текстов.
Работает в старых Windows 3.1/95. Windows 2000 и MS Office 97 не поддерживает. Цена 10$.



АО Агама

Словарно-справочная система по русскому языку для Microsoft Windows 3.1/95. Включает в себя ряд словарей, в том числе морфологический, словообразовательный и синонимов/антонимов.

Лингвистические компоненты, словари и библиотеки классов

Андрей Коваленко

Авторская страничка ведущего разработчика компании Рэмблер А.Коваленко, на которой представлены его лингвистические разработки, реализованные в ряде существующих информационно-поисковых систем - Апорт!, Рэмблер, Мета, системе Пропись 4.0 и других. Можно скачать описания и демо-версии компонентов.

netXtract

© 2000 Relevant Software Inc.

Замечательная компонента, подключаемая к Microsoft Internet Explorer (версии 5.0 и выше), которая позволяет в мгновение ока получить упорядоченный индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Можно скачать бесплатную версию.

Textual Analysis Computing Tools (TACT)

Library Electronic Text Resource Service
Indiana University, USA


Пакет программ обработки ASCII текстов, разработанный группой исследователей из Университета в Торонто. Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. К сожалению все программы старые и сделаны для DOS. Однако, имеется on-line версия пакета TACTWeb 1.0

Paai's text utilities

Dr. J.J. Paijmans, Нидерланды

Сборник различных утилит и Unix-скриптов для обработки ASCII-текстов. Все программы скомпилированы для использования в Linux.

WordTabulator v2.2

© Логичев С.В., 1997-2002

Новая версия программы, предназначенной для анализа текстов в среде Windows 9x/NT/2000/XP. Позволяет построить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов. Понимает тексты в основных русскоязычных кодировках и может обрабатывать документы в формате HTML 4.01, игнорируя их разметку. Возможности поиска с помощью символов маскирования; возможность поиска всех видоизменений словоформ, заданных базовой формой; контекстный просмотр результатов; сравнение двух совокупностей текстов. Удобный графический интерфейс. Выходной индекс в форме гипертекста. Public domain.

Худломер

Леонид Делицын

Проект "Худломер" связан с задачей автоматической классификации стиля русскоязычных текстов. Автором были собраны и проанализированы 4 корпуса текстов, взятых из русской сети. Сюда вошли художественные произведения, публицистика, научные статьи и протоколы диалогов через ICQ и IRC. В результате были получены эмпирические кривые распределения длин слов в текстах, в зависимости от стиля. Эти кривые используются в качестве эталонов при классификации. On-line версия Худломера (на основе Perl-скрипта) может быть опробована здесь. Программа классифицирует стиль входного текста как: РАЗГОВОРНАЯ РЕЧЬ, ХУДЛО (худ.литература), ГАЗЕТНАЯ СТАТЬЯ или НАУЧНАЯ СТАТЬЯ.
На сайте есть статья с теоретическим описанием алгоритма классификации. Автор проекта широко известен как издатель литературного журнала DE-LIT-ZYNE, основатель сетевого конкурса ТЕНЕТА и энтузиаст русской сетературы.
Еще один проект автора, "Штампомер", связан с нахождением наиболее часто встречающихся фраз (штампов) в авторских текстах. К сожалению, этот проект в настоящее время заморожен.

Свежий взгляд/Fresh Eye
версия 1.21, 1995

Дмитрий Кирсанов

DOS-утилита, реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Программа распространяется без каких-либо ограничений вместе с исходным текстом на C. Есть версия для OS/2.

URS версия 1.1
от 05.04.2001

М.А.Бендерский,
компания "НООЛаб", Новосибирск

Unique Record Set Management utility, Win9x/NT/2000. Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word. Возможности анализа и обработки пар словарных индексов как двух множеств. Экспорт результатов в выходной файл.

Update!
Машинный перевод

© Серж Слепов, 1999-2002

Развивающийся проект программиста из Снежинска, посвященный проблемам исследования машинного перевода. Один из разделов проекта связан с анализом морфологии русского языка. Описан ряд интересных программ, которые можно беспрепятственно скачать и испробовать.

WordStat

© Дубинский А.Г., 2001

Бесплатная утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Понимает основные русские кодировки, игнорирует html-разметку.

Алгоритм сравнения текстов

Владимир Чаплинский

Описан простой алгоритм сравнения двух текстов и даны примеры программ на FoxPro. Автор использует данный алгоритм для поиска дубликатов анектодов в своей личной коллекции.

АОТ (автоматическая обработка текста)

Алексей Сокирко и Co.

Сайт, на котором представлены разработки бывших сотрудников компании Диалинг, прекратившей свое существование в мае 2001г. Среди предлагаемых продуктов:
- модуль графематического анализа текста;
- компоненты морфологического анализа для русск. и англ.яз.;
- модуль автоматического уничтожения омонимии;
- модуль семантического анализа текста;
- различные тезаурусы.
Также опубликована диссертация А.Сокирко "Семантические словари в автоматической обработке текста" по теме машинного перевода.

Технологии поиска и анализа текстовой информации

Гарант-Парк-Интернет

Сайт, на котором представлены разработки известной компании Гарант-Парк-Интернет. Cреди представленных технологий:
- анализ и классификация текстов, автоматическое реферирование;
- различные варианты поиска текста;
- морфологичекий, синтаксический и семантический анализ текста;
- средства навигации по большим массивам текстов;
- различные научные публикации авторов проекта.

Толковые словари и тезаурусы:

Merriam Webster's Collegiate Dictionary словарь и тезаурус. www.m-w.com

Oxford English Dictionary в 20 томах, включая обновленные статьи, платный онлайновый доступ. www
.
oed
.
com


American Heritage Dictionary словарь и тезаурус. www.bartleby.com/reference

WordWeb скачиваемый тезаурус, основанный на семантической сети

WordNet Принстонского ун-та. www.netword.demon.co.uk/wweb

Wordsmyth независимый проект онлайнового интернет-словаря и тезауруса, спонсируемый IBM. www.wordsmyth.net

Roget's Thesaurus (1911) классический английский тезаурус. http
://
search
.
thesaurus
.
com


Webster's Unabridged Dictionary (1913) http://humanities.uchicago.edu/forms_unrest/webster.form.html

Le Petit Larousse популярный французский толковый словарь. http://larousse.compuserve.com/larousse/dico.htm

Dictionnaire de l'Academie Francaise http://zeus.inalf.cnrs.fr/academie.htm

Dictionnaire Universel de la Francophonie лексика всех региональных вариантов франц. языка. www.francophonie.hachette-livre.fr

Meyers Lexicon немецкий толковый словарь. www.iicm.edu/meyers

Garzanti итальянский толковый словарь. www.garzanti.it

Толковый словарь Ожегова www.agama.com/oz_demo.htm

Словарь Даля http://translate.spb.ru/cgi-bin/index.cgi?dict=24

Англо-русские, русско-английские словари:

Multilex 2.0 (МедиаЛингва) En-Ru-En словарь на основе БАРСа + 5 специализированных словарей (на СD + онлайн на сайте МедиаЛингва). www.multilex.ru/online.htm
www.medialingua.ru www.rambler.ru/dict/enru

Lingvo 6.5 (Abbyy) En-Ru-En словарь на основе Мюллера + множество специализированных словарей (на CD + онлайн на сайте Lingvo.ru). www.lingvo.ru/lingvo/index.asp

Translate.spb.ru поиск по 19 словарям, в том числе Мюллер, ряд специализированных словарей. http://translate.spb.ru

Словарь Смирницкого (Ru-En) онлайн. www.rambler.ru/dict/ruen

Polyglossum множество специализированных словарей (на CD, некоторые онлайн на сайте ETS). www.ets.ru
Энциклопедии и справочные материалы:

Encyclopedia Britannica все 32 тома, доп. материалы, ссылки на 125,000 специально отобранных сайтов по всем темам. www.eb.com www.britannica.com

Microsoft Encarta весьма популярная энциклопедия, полный онлайновый доступ, ссылки. www.encarta.msn.com

Columbia Encyclopedia американская энциклопедия среднего размера. www.bartleby.com/65

About.com информационный портал, 650 тем, каждую ведет свой специалист - справочные материалы, статьи, ссылки. www.about.com

World Factbook 2000 ежегодное справочное издание ЦРУ c подробной информацией обо всех странах мира www.odci.gov/cia/publications/factbook/index.html

Biography.com 25000 кратких биографий, от античных философов до современных поп-звезд. www.biography.com

Acronym Finder универсальный словарь англоязычных сокращений. www.AcronymFinder.com
Encyclopedie Larousse популярная французская энциклопедия, доступ платный ($20 / год). www1.kleio.fr

Encyclopedie Hachette французская энциклопедия. www.club-internet.fr/encyclopedie

Brockhaus однотомный немецкий энциклопедический словарь, онлайн.www.xipolis.net

Энциклопедия Кирилла и Мефодия российский справочный портал. www.km.ru

Slovari.ru словари русского языка (Ожегов, иностранных слов, орфографический, семантический). www.slovari.ru

Sokr.ru отличный и постоянно пополняемый словарь русских сокращений.www.sokr.ru

Компьютеры и телекоммуникации:

Microsoft Glossaries скачиваемые файлы с полным переводом пользовательского интерфейса Windows, Office, IE, OE и др. программ на все европ. языки, включая русский формат Excel). ftp://ftp.microsoft.com/developr/MSDN/NewUp/Glossary

Webopedia - PC and Internet terms www.webopedia.com

Computer Desktop Encyclopedia www.techweb.com/encyclopedia

Whatis.comThe IT-specific Encyclopedia. http://whatis.com

FOLDOC (Free On-Line Dictionary of Computing) скачиваемый словарь компьютерных терминов. http://foldoc.doc.ic.ac.uk/foldoc/contents.html
Многоязычные словари:

Кембриджские двуязычные словари среднего размера (En-Fr-En, En-De-En, En-It-En, En-Esp-En) http://wordreference.com

LOGOS многоязычный словарь итал. переводческ. агентства LOGOS, пополняется его сотрудниками и посетителями сайта (7,5 млн. слов на 184 языках). www.logos.it
Travlang.com небольшие словари, 16 языков, перевод осуществляется через посредство эсперанто - онлайн плюс скачиваемая программа Ergane). http://dictionaries.travlang.com
Списки словарей на российских порталах, посвященных изучению иностранных языков:

Study.ru www.study.ru/dict

ComplexSystems (Интернет-портал Английский язык). www.complexsystems.net

Anri Education Systems сервер бесплатного дистанционного образования. www.anriintern.com/slovari/toc.htm

Большой интерес представляют также словари сленга, идиом, англо-американских различий, справочники по грамматике, стилю и многие другие материалы, ссылки на которые можно найти на приведенных выше сайтах.

Заключение

Фен Олсон, президент компании "Диджитал эквипмент корпорейшн" в 1977 г. сказал: "Нет никаких причин для того, чтобы каждый имел дома свой компьютер". Однако ситуация очень быстро изменилась. Один из руководителей компании "ХХ век Фокс" Периел Ленек, 1946 г. утверждал следующее: "Телевидение не сможет удержать позиции на рынке через полгода. Люди скоро устанут каждый вечер смотреть деревянный играющий ящик". Сегодня можно с уверенностью сказать, что он ошибался. Один из основателей компании "Уорнер Бразерс", который являлся и основателем немого кино, говорил: "Кто, черт возьми, захочет слушать говорящих актеров?"

Сегодня некоторые думают так же, считая, что Интернет не имеет никакого значения. Но очевидно они глубоко ошибаются. Как говорит Билл Гейтс: Интернет - это двигатель технологий.

Интернет – глобальная компьютерная сеть, охватывающая весь мир. По разным данным доступ в Интернет имеют от 15 до 30 миллионов людей в более чем 150 странах мира. Ежемесячно размер сети увеличивается на 7 – 10 процентов. Интернет образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям во всем мире, одна с другой. Если ранее сеть использовалась исключительно в качестве среды передачи файлов и сообщений электронной почты, то сегодня решаются более сложные задачи распределения доступа к ресурсам. Интернет, служивший когда-то исключительно исследовательским и учебным группам, чьи интересы простирались вплоть до доступа к суперкомпьютерам, становится все больше популярной в деловом мире. Компании соблазняют быстрота, дешевизна, удобство для проведения совместных работ, доступные программы, уникальная база данных сети Интернет. При низкой стоимости услуг пользователи могут получить доступ к коммерческим и не коммерческим информационным службам США, Канады, Австралии и многих европейских стран. В архивах свободного доступа сети Интернет можно найти информацию по любым сферам деятельности человека, начиная с новых научных открытий до прогноза погоды на завтра.

И конечно же в Интернете имеется множество лингвистических ресурсов.

Для профессионального переводчика и филолога Интернет открывает чрезвычайно разнообразные возможности. Это хранилище электронных словарей, энциклопедий, глоссариев и разнообразных справочных материалов. Электронная почта и другие средства коммуникации облегчают и ускоряют обмен информацией с заказчиками и коллегами, делая переводчика по-настоящему независимым, а рынок переводческих услуг – глобальным.
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

  1. «Глобальные сети: информация и средста доступа» - издательство ПГТУ.

  2. Гиттель Э., Джеймс С., «ISDN просто и доступно» - 1999 г.

  3. Олифер В.Г., Олифер Н.А., «Компьютерные сети. Принципы, технологии, протоколы» - Издательство «Питер» 2000 г.

  4. «Microsoft TCP/IP: Учебный курс.» /официальное пособие Microsoft для самостоятельной подготовки/ - 1998 г.

  5. Фролов А.В., Фролов Г.В., «Глобальные сети компьютеров. Практическое введение в Internet» - 1998 г.

  6. Шафрин Ю. А., Основы компьютерной технологии. – М. АБФ. 1997 г.

  7. Кенин А. М., Печенкина Н. С., IBM PC для пользователей. – Екатеринбург, 1993 – 1997 г.г.

  8. http://www.ritmpress.ru/it/press/cwm/36_98/xdsl.htm

  9. Журналы «Компьютерра» и «LAN» за 1999-2000 г.г.

  10. Интернету – 30 лет», Рейтер, «Диена», 02.09.99.

  11. Масс-медиа второй республики», Глава четвертая – «Медиа-политическая система, Иван Засурский, www.smi.ru

  12. Интернет для Журналистов», Центр Международного Гражданского Общества, www.washington.edu

  13. Количественный и качественный состав аудитории Интернета, тенденции развития и их значение для рекламодателя, Тимофей Бокарев (Интернет агентство DOT), www.citforum.ru, 1998 год.

  14. Виртуальная семиотика, Евгений Горный, «Итоги», №16, 18.04.2000.

  15. Жизнь.Ру, Егор Быков, «Итоги», №47 23 ноября 1999 года.

  16. Медиа-пространство по имени Интернет, Александр Андреев, “Диена”, декабрь 1999

  17. И-медиа, Елена Мулярова, "Итоги", N47 23.11.1999

  18. Виртуальная реальность бытия, Григорий Макартчян, "Версия", N43, 09.11.1999

  19. Гончаров М., Панков А. Интернет в вопросах и ответах. // Библиотека. 1998. - №1,3.

  20. Хоффман Пол Е. Internet. Краткий справочник. М., Изд. "ЛОРИ", 1995, с. 313


1 Transmission Control Protocol / Internet Protocol (протокол управления передачей / межсетевой протокол), по определению Эдуарда Якубайтиса - "пара взаимосвязанных протоколов сетевого уровня и транспортного уровня, предложенных в США Агентством перспективных оборонных исследовательских проектов".

1. Контрольная работа Правовое регулирование рекламы 3
2. Реферат Рекреационное хозяйство Украины
3. Кодекс и Законы Зависимость цены и спроса 2
4. Реферат Тест по Отечественной истории
5. Реферат на тему Green Gene Essay Research Paper A Separate
6. Реферат Затратные методы ценообразования
7. Реферат Обучение технике письма младших школьноков
8. Кодекс и Законы Водный налог 3
9. Кодекс и Законы Понятие и содержание технических регламентов
10. Курсовая на тему Расчёт параметров изгиба однопролётной балки со свободно опертым и упруго защемленным концами