Реферат на тему Обзор методов обработки естественного языка в задачах дистанционного обучения
Работа добавлена на сайт bukvasha.net: 2013-11-18Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
от 25%
договор
Обзор методов обработки естественного языка в задачах дистанционного обучения.
Задача обработки естественного языка при помощи ЭВМ с каждым днем становится все актуальней и актуальней. Развитие научно-технического прогресса во всем мире привело к тому, что объем новой информации постоянно растет со стремительно увеличивающейся скоростью. Человек во многих случаях становится не в состоянии самостоятельно переработать всю необходимую для его профессиональной деятельности информацию. И тогда компьютерные системы, использующие новейшие алгоритмы обработки естественного языка, могут оказать ему реальную помощь.
В последнее время компьютеры стали активно внедряться в систему образования /1,2,3/. Создано огромное количество программных продуктов, направленных на обучение различного рода предметам. Если раньше дисциплины, изучаемые с помощью компьютерных программ относились в основном к техническим, то теперь компьютер широко используется и при подготовке специалистов по гуманитарным предметам, ведущую роль среди которых, бесспорно, занимают иностранные языки. Повышение интереса к иностранным языкам, и в особенности к английскому, за последние несколько лет легко объясняется изменениями политического и экономического характера, и как следствие, возрастанием роли знания иностранного языка.
Потребности нашего общества в компьютеризации обучения языку сегодня резко возросли в связи со следующими факторами:
- невозможность прохождения специальных языковых курсов без отрыва от основной работы;
- постоянный рост оснащенности персональными компьютерами населения России;
- ориентация учащейся молодежи на ЭВМ как на главное средство автоматизации интеллектуального труда;
- острый дефицит кадров педагогов языковых дисциплин;
и ряд других.
Стремительное развитие компьютерных и информационных технологий естественным образом отразились и на системе образования. Возможности, которые появились благодаря внедрению передовых сетевых технологий (Internet - технологий) на территории России, послужили поводом для начала серьезных проектов, связанных с новым типом обучения - дистанционным обучением (ДО). Под термином ДО понимается обучение, при котором преподаватель и обучаемый разделены пространственно.
Немного об истории и развитии ДО /1/. ДО возникло более века тому назад. Принято различать 4 поколения развития ДО.
Первое поколение ДО начало развиваться в конце 19, в начале 20 века. Самыми распространенными тогда материалами были отпечатанные в типографиях учебники и сборники упражнений к ним. Взаимодействие обучаемого с преподавателем происходило с помощью обычной почтовой связи (обмен письмами).
Второе поколение ДО начало развиваться в 70-е годы. Был создан ряд университетов (в основном в Англии), цель которых была готовить студентов, которые по тем или иным причинам не имели возможности обучаться в очной форме. Учебные материалы давались с использованием местного телевидения и радио или путем пересылки по почте аудио записей курсов. Аудио-конференции с использованием телефонных систем, тоже являются частью второго поколения развития ДО.
Третье поколение ДО (начало 80-х годов) связывают с появлением спутниковых технологий и развитием компьютерной техники. Доставка информации стала возможна с помощью компьютерных сетей в цифровом виде. К третьему поколению развития ДО также относят видеоконференции и использование носителей CD-ROM.
Четвертое поколение ДО возникло с момента распространением Internet-технологии по всему миру. Internet намного облегчил доступ у информации. Сделал возможным как синхронное (chat, видео и аудио конференции), так и асинхронное (e-mail) взаимодействие обучаемого с преподавателем. Использование в ДО технологий базирующихся на WEB дает возможность применять во время учебного процесса не только текстовую информацию, но и звук и видео.
Как видно из выше сказанного, основным вопросом в организации ДО является способ доставки и организации учебного материала /1/. Одним из перспективных способов передачи информации при организации ДО является e-mail. За последние годы в различных университетах мира проводилось обучение по экспериментальной методике, особенность которой была в том, что взаимодействие учащихся (студентов 2-ых и 3-их курсов) и преподавателей, либо полностью, либо частично, происходило с помощью e-mail /2/. Курсовые материалы, использованные в экспериментах, были хорошо структурированы и подготовлены для самостоятельного освоения. В результате было показано, что усвоение пройденного материала студентами обучающимися с помощью e-mail, происходит не хуже, а на некоторых курсах лучше студентов, обучающихся традиционно. Так же преподавателями и студентами, участвующими в эксперименте, был отмечен ряд преимуществ такого подхода к обучению /2/.
Преподавателями были отмечены следующие положительные качества этого метода:
- студент практически не зависит от расписания;
- доставка и “чтение” материалов курса регистрируется преподавателем (при открытии письма учащимся, автоматически высылается письмо преподавателю);
- работа с курсом практически не требует бумаги, что обеспечивает удобство работы и быстроту копирования материала;
- однажды подготовленный курсовой материал может быть использован в последующие годы.
Так же важно отметить ряд преимуществ использования e-mail, которые нашли для себя учащиеся:
- использование e-mail не требует присутствия на лекциях курса;
- возможность работы с материалом в удобное для учащихся время;
- весь курсовой материал хорошо систематизирован и может быть легко воспроизведен в полном объеме самостоятельно даже после окончания обучения.
Все перечисленные выше преимущества только малая часть того, что может дать образованию использование информационных технологий и методов ДО по сравнению с традиционными подходами.
Какие новые возможности позволяет использовать ДО по сравнению с широко известной заочной формой?
1. Возможность оперативного обмена информации по изучаемой проблеме, как с преподавателем, так и с другими участниками, изучающими курс.
2. Доступ к различным источникам информации, в том числе удаленным и распределенным базам данных, многочисленным конференциям по всему миру, огромному количеству библиотек.
3. Возможность организации совместных международных конференций по изучаемой проблеме, возможность запроса и получение ответа на интересующие вопросы через электронные конференции.
4. Возможность обучения в престижных зарубежных вузах, не покидая родного дома.
Из выше сказанного можно сделать вывод о необходимости и перспективности развития ДО. Важно сформулировать основные требования к создаваемым продуктам, ориентированным на применение для дистанционного обучения иностранному языку. Основные требования:
- организация знаний о языке в виде целостной модели;
- представление этой модели на ЭВМ в доступной для учащегося форме;
- использование алгоритмов и методов искусственного интеллекта (ИИ) с целью повышения эффективности обучаемого комплекса;
- обеспечение контроля знаний учащегося при помощи ЭВМ;
- обеспечение работы системы, как в локальной сети, так и в глобальной сети Internet;
- обеспечение открытости системы для удобства наполнения и корректировки базы знаний и тренажеров;
- обеспечение платформенной независимости системы;
- обеспечение модульности системы с целью быстрой замены, добавления или удаления приложений, используемых в обучении;
- обеспечение связи с преподавателем.
В данной работе уделяется особое внимание вопросу использования в такого рода проектах методов ИИ. Речь пойдет об алгоритмах работы с текстовой информацией.
Задача интеллектуальной обработки текстов на естественном языке впервые появилась на рубеже 60х—70х гг. /7/. С тех пор было предпринято множество различных попыток ее решения, созданы десятки экспериментальных программ, способных вести диалог с пользователем на естественном языке. Однако широкого распространения такие системы пока не получили — как правило, из-за невысокого качества распознавания фраз, жестких требований к синтаксису “естественного языка”, а также больших затрат машинного времени и ресурсов, необходимых для их работы. Практически во всех системах машинного понимания текста используется ограниченный естественный язык, поскольку полной и строгой формальной модели ни для одного естественного языка пока не создано.
Тем не менее естественно-языковые средства общения человека с ЭВМ постоянно развиваются, оставаясь одним из наиболее перспективных способов построения пользовательского интерфейса к сложным информационным системам.
Исследования этой области в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Серьезная работа в направлении решении проблем автоматической обработки ЕЯ началась с основанных ARPA программ в 1980-х годах /7/, среди которых:
- программа распознавания речи ATIS;
- программа, направленная на решение задач понимания и извлечение информации из текстов IE (Information Extraction);
- программа TIPSTER, существовавшая с 1991 по 1998 год, основной целью которой было сравнение и оценка результатов работы различных поисковых систем и систем реферирования.
Необходимо отметить, что такие задачи как распознавание и генерации речи, создание поисковых систем и систем реферирования, до настоящего времени решаются с минимальным участием лингвистов. Это обусловлено использованием при решении вышеупомянутых задач в основном статистических методов.
Несмотря на это, за долгие годы четко определились области, в которых наиболее сильны позиции профессиональных лингвистов. Это лексико-грамматический анализ (Part of Speech tagging) предложения /4,5,6/, синтаксический анализ (Text Parsing) предложения, нахождение имен собственных в тексте и автоматическое реферирование.
Задача лексико-грамматического анализа — автоматически распознать, какой части речи принадлежит каждое слово тексте. На рис.1 показан пример предложения, в котором каждому слову поставлен в соответствие лексико-грамматический класс.
The/AT man/NN still/RB saw/VBD her/PPO./.
Обозначения
RB - наречие
AT - опр. артикль
NN - существительное
VB – глагол
VBD – глагол в прошедшем времени
PPO – объектное местоимение
PP$ - личное местоимение
. - точка
Рис.1
Данную задачу не трудно выполнить для русского языка благодаря его развитой морфологии практически со стопроцентной точностью. В английском языке простой алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (часть речи) работает с точностью около 90%, что обусловлено лексической многозначностью английского языка.
Для улучшения точности лексико-грамматического анализа используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.
Большинство вероятностно-статистических алгоритмов /4/ использует два источника информации:
1. Словарь словоформ языка /5/, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы. Например, для словоформы well в словаре указано, что она может быть наречием, существительным, прилагательным и междометием. Для каждого лексико-грамматического класса словоформы указывается частота его встречаемости относительно других лексико-грамматических классов данной словоформы. Частота обычно подсчитывается на корпусе текстов, в котором предварительно вручную каждому слову приведен в соответствие лексико-грамматический класс. Таким образом, словоформа well в словаре будет представлена следующим образом (рис.2):
Рис.2
2. Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели. В биграмной модели используется информация о всех возможных последовательностях из двух кодов (рис.3):
Рис.3
В триграмной модели и квадриграмной модели используется соответственно информация о всех возможных последовательностях из 3-х и 4-х кодов.
Рассмотрим подробнее пример разбора предложения, представленного на рис.1. Прежде всего, определяются все возможные значения частей речи, входящих в предложение, словоформ. Так словоформа “The” может быть только AT; “man” - NN или VB; “still” - NN, VB или RB; “saw” - NN или VBD; “her”-PPO или PP$. Далее воспользовавшись таблицей частотности, присваиваем словоформам тот или иной лексико-грамматический класс. Пример таблицы частотности для нашего предложения приведен на рис. 4.
Рис.4
Например сочетание “The man” может быть либо (AT-NN) либо (AT-VB), c соответствующими вероятностями 186 и 1. Далее, аналогично, сравниваются вероятности p(AT-NN-NN)=744, p(AT-NN-VB)=1674 и p(AT-NN-RB)=7440 и т.д. В итоге мы получим следующую комбинацию: “AT-NN-RB-VBD-PPO”, что и будет являться результатом работы вероятностно-статистического алгоритма.
Представленная выше информация обрабатывается программой, использующей статистические алгоритмы, чаще всего алгоритм скрытых цепей Маркова /4/ для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.
Алгоритмы, основанные на продукционных правилах, используют правила, собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами. Примером могут быть следующие правила:
- Если словоформа может быть как глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным.
- Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом.
Оба подхода дают примерно одинаковый результат. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96-98 %. Поскольку точность при лексико-грамматическом анализе текста вручную также имеет определенную погрешность (0,5-2 %), можно считать, что автоматизация лексико-грамматического анализа достигла практически такой же точности.
Синтаксический анализ /8/. В отличие от лексико-грамматического анализа текста, синтаксический анализ — развивающаяся область прикладной лингвистики. Цель синтаксического анализа — автоматическое построение функционального дерева фразы, т.е. нахождение взаимозависимостей между разноуровневыми элементами предложения. Считается, что имея успешно построенное функциональное дерево фразы, можно выделить из предложения смысловые элементы: логический субъект, логический предикат, прямые и косвенные дополнения и различные виды обстоятельств. Существует большое количество различных подходов к синтаксическому анализу текстов, например система LTAG/8/. Главная особенность этой системы заключается в построении элементарных смысловых деревьев предложения. Каждое элементарное дерево содержит в себе всю синтаксическую и семантическую информацию о конкретном слове или группе слов. К этим деревьям могут быть применены операции примыкания и подстановки. Подстановка является простой операцией – подстановкой дерева к висящей вершине другого дерева. Примыкание является более сложной операцией – присоединение некоторого дерева к внутренним вершинам другого дерева. Данный алгоритм подробно описан в работе /8/. Ниже рассмотрен один из общих подходов синтаксического анализа предложения.
Синтаксический разбор предложения происходит путем набора последовательных преобразований:
- поиск грамматических идиом;
- лексико-грамматический анализ предложения с устранением неоднозначности в определении частей речи;
- нахождение именной группы объекта и субъекта;
- нахождение глагольной группы;
- выделение главных и придаточных предложений.
Приведем пример синтаксического разбора предложения рис.5.
[We] {have found} / that [subsequent addition] (of [the second inducer]) (of [either system]) <after {allowing} [single induction] {to proceed} +> (for [15 minutes]) (also) {results} (in [increased reproduction]) + \ + (of [both enzymes]).
Обозначения:
[…] – группа существительного;
(…) – группа дополнения;
{…} – глагольная группа;
/…\ и <…> - главные и придаточные предложения;
+ - окончание глагольного окружения.
Рис.5
В данной обзорной работе описаны лишь некоторые алгоритмы и наиболее общие подходы к проблеме автоматической обработки естественно-языковых текстов.
Сегодня в области компьютерной лингвистики ежегодно проводится более 40 конференций по всему миру, посвященных проблемам обработки естественного языка. Постоянно растет количество программных продуктов, связанных с данной темой, повышается их качество. Но, несмотря на это, те системы перевода, реферирования и экспертные системы, которые на сегодняшний день считаются лучшими, далеко не идеальны и требуют серьезных доработок. Все это говорит о необходимости продолжения исследований вопросов, связанных с обработкой естественного языка в задачах ДО и разработки новых подходов и алгоритмов, основанных на методах искусственного интеллекта.
Задача обработки естественного языка при помощи ЭВМ с каждым днем становится все актуальней и актуальней. Развитие научно-технического прогресса во всем мире привело к тому, что объем новой информации постоянно растет со стремительно увеличивающейся скоростью. Человек во многих случаях становится не в состоянии самостоятельно переработать всю необходимую для его профессиональной деятельности информацию. И тогда компьютерные системы, использующие новейшие алгоритмы обработки естественного языка, могут оказать ему реальную помощь.
В последнее время компьютеры стали активно внедряться в систему образования /1,2,3/. Создано огромное количество программных продуктов, направленных на обучение различного рода предметам. Если раньше дисциплины, изучаемые с помощью компьютерных программ относились в основном к техническим, то теперь компьютер широко используется и при подготовке специалистов по гуманитарным предметам, ведущую роль среди которых, бесспорно, занимают иностранные языки. Повышение интереса к иностранным языкам, и в особенности к английскому, за последние несколько лет легко объясняется изменениями политического и экономического характера, и как следствие, возрастанием роли знания иностранного языка.
Потребности нашего общества в компьютеризации обучения языку сегодня резко возросли в связи со следующими факторами:
- невозможность прохождения специальных языковых курсов без отрыва от основной работы;
- постоянный рост оснащенности персональными компьютерами населения России;
- ориентация учащейся молодежи на ЭВМ как на главное средство автоматизации интеллектуального труда;
- острый дефицит кадров педагогов языковых дисциплин;
и ряд других.
Стремительное развитие компьютерных и информационных технологий естественным образом отразились и на системе образования. Возможности, которые появились благодаря внедрению передовых сетевых технологий (Internet - технологий) на территории России, послужили поводом для начала серьезных проектов, связанных с новым типом обучения - дистанционным обучением (ДО). Под термином ДО понимается обучение, при котором преподаватель и обучаемый разделены пространственно.
Немного об истории и развитии ДО /1/. ДО возникло более века тому назад. Принято различать 4 поколения развития ДО.
Первое поколение ДО начало развиваться в конце 19, в начале 20 века. Самыми распространенными тогда материалами были отпечатанные в типографиях учебники и сборники упражнений к ним. Взаимодействие обучаемого с преподавателем происходило с помощью обычной почтовой связи (обмен письмами).
Второе поколение ДО начало развиваться в 70-е годы. Был создан ряд университетов (в основном в Англии), цель которых была готовить студентов, которые по тем или иным причинам не имели возможности обучаться в очной форме. Учебные материалы давались с использованием местного телевидения и радио или путем пересылки по почте аудио записей курсов. Аудио-конференции с использованием телефонных систем, тоже являются частью второго поколения развития ДО.
Третье поколение ДО (начало 80-х годов) связывают с появлением спутниковых технологий и развитием компьютерной техники. Доставка информации стала возможна с помощью компьютерных сетей в цифровом виде. К третьему поколению развития ДО также относят видеоконференции и использование носителей CD-ROM.
Четвертое поколение ДО возникло с момента распространением Internet-технологии по всему миру. Internet намного облегчил доступ у информации. Сделал возможным как синхронное (chat, видео и аудио конференции), так и асинхронное (e-mail) взаимодействие обучаемого с преподавателем. Использование в ДО технологий базирующихся на WEB дает возможность применять во время учебного процесса не только текстовую информацию, но и звук и видео.
Как видно из выше сказанного, основным вопросом в организации ДО является способ доставки и организации учебного материала /1/. Одним из перспективных способов передачи информации при организации ДО является e-mail. За последние годы в различных университетах мира проводилось обучение по экспериментальной методике, особенность которой была в том, что взаимодействие учащихся (студентов 2-ых и 3-их курсов) и преподавателей, либо полностью, либо частично, происходило с помощью e-mail /2/. Курсовые материалы, использованные в экспериментах, были хорошо структурированы и подготовлены для самостоятельного освоения. В результате было показано, что усвоение пройденного материала студентами обучающимися с помощью e-mail, происходит не хуже, а на некоторых курсах лучше студентов, обучающихся традиционно. Так же преподавателями и студентами, участвующими в эксперименте, был отмечен ряд преимуществ такого подхода к обучению /2/.
Преподавателями были отмечены следующие положительные качества этого метода:
- студент практически не зависит от расписания;
- доставка и “чтение” материалов курса регистрируется преподавателем (при открытии письма учащимся, автоматически высылается письмо преподавателю);
- работа с курсом практически не требует бумаги, что обеспечивает удобство работы и быстроту копирования материала;
- однажды подготовленный курсовой материал может быть использован в последующие годы.
Так же важно отметить ряд преимуществ использования e-mail, которые нашли для себя учащиеся:
- использование e-mail не требует присутствия на лекциях курса;
- возможность работы с материалом в удобное для учащихся время;
- весь курсовой материал хорошо систематизирован и может быть легко воспроизведен в полном объеме самостоятельно даже после окончания обучения.
Все перечисленные выше преимущества только малая часть того, что может дать образованию использование информационных технологий и методов ДО по сравнению с традиционными подходами.
Какие новые возможности позволяет использовать ДО по сравнению с широко известной заочной формой?
1. Возможность оперативного обмена информации по изучаемой проблеме, как с преподавателем, так и с другими участниками, изучающими курс.
2. Доступ к различным источникам информации, в том числе удаленным и распределенным базам данных, многочисленным конференциям по всему миру, огромному количеству библиотек.
3. Возможность организации совместных международных конференций по изучаемой проблеме, возможность запроса и получение ответа на интересующие вопросы через электронные конференции.
4. Возможность обучения в престижных зарубежных вузах, не покидая родного дома.
Из выше сказанного можно сделать вывод о необходимости и перспективности развития ДО. Важно сформулировать основные требования к создаваемым продуктам, ориентированным на применение для дистанционного обучения иностранному языку. Основные требования:
- организация знаний о языке в виде целостной модели;
- представление этой модели на ЭВМ в доступной для учащегося форме;
- использование алгоритмов и методов искусственного интеллекта (ИИ) с целью повышения эффективности обучаемого комплекса;
- обеспечение контроля знаний учащегося при помощи ЭВМ;
- обеспечение работы системы, как в локальной сети, так и в глобальной сети Internet;
- обеспечение открытости системы для удобства наполнения и корректировки базы знаний и тренажеров;
- обеспечение платформенной независимости системы;
- обеспечение модульности системы с целью быстрой замены, добавления или удаления приложений, используемых в обучении;
- обеспечение связи с преподавателем.
В данной работе уделяется особое внимание вопросу использования в такого рода проектах методов ИИ. Речь пойдет об алгоритмах работы с текстовой информацией.
Задача интеллектуальной обработки текстов на естественном языке впервые появилась на рубеже 60х—70х гг. /7/. С тех пор было предпринято множество различных попыток ее решения, созданы десятки экспериментальных программ, способных вести диалог с пользователем на естественном языке. Однако широкого распространения такие системы пока не получили — как правило, из-за невысокого качества распознавания фраз, жестких требований к синтаксису “естественного языка”, а также больших затрат машинного времени и ресурсов, необходимых для их работы. Практически во всех системах машинного понимания текста используется ограниченный естественный язык, поскольку полной и строгой формальной модели ни для одного естественного языка пока не создано.
Тем не менее естественно-языковые средства общения человека с ЭВМ постоянно развиваются, оставаясь одним из наиболее перспективных способов построения пользовательского интерфейса к сложным информационным системам.
Исследования этой области в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Серьезная работа в направлении решении проблем автоматической обработки ЕЯ началась с основанных ARPA программ в 1980-х годах /7/, среди которых:
- программа распознавания речи ATIS;
- программа, направленная на решение задач понимания и извлечение информации из текстов IE (Information Extraction);
- программа TIPSTER, существовавшая с 1991 по 1998 год, основной целью которой было сравнение и оценка результатов работы различных поисковых систем и систем реферирования.
Необходимо отметить, что такие задачи как распознавание и генерации речи, создание поисковых систем и систем реферирования, до настоящего времени решаются с минимальным участием лингвистов. Это обусловлено использованием при решении вышеупомянутых задач в основном статистических методов.
Несмотря на это, за долгие годы четко определились области, в которых наиболее сильны позиции профессиональных лингвистов. Это лексико-грамматический анализ (Part of Speech tagging) предложения /4,5,6/, синтаксический анализ (Text Parsing) предложения, нахождение имен собственных в тексте и автоматическое реферирование.
Задача лексико-грамматического анализа — автоматически распознать, какой части речи принадлежит каждое слово тексте. На рис.1 показан пример предложения, в котором каждому слову поставлен в соответствие лексико-грамматический класс.
The/AT man/NN still/RB saw/VBD her/PPO./.
Обозначения
RB - наречие
AT - опр. артикль
NN - существительное
VB – глагол
VBD – глагол в прошедшем времени
PPO – объектное местоимение
PP$ - личное местоимение
. - точка
Рис.1
Данную задачу не трудно выполнить для русского языка благодаря его развитой морфологии практически со стопроцентной точностью. В английском языке простой алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (часть речи) работает с точностью около 90%, что обусловлено лексической многозначностью английского языка.
Для улучшения точности лексико-грамматического анализа используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.
Большинство вероятностно-статистических алгоритмов /4/ использует два источника информации:
1. Словарь словоформ языка /5/, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы. Например, для словоформы well в словаре указано, что она может быть наречием, существительным, прилагательным и междометием. Для каждого лексико-грамматического класса словоформы указывается частота его встречаемости относительно других лексико-грамматических классов данной словоформы. Частота обычно подсчитывается на корпусе текстов, в котором предварительно вручную каждому слову приведен в соответствие лексико-грамматический класс. Таким образом, словоформа well в словаре будет представлена следующим образом (рис.2):
Словоформа | Часть речи | Частота |
Well | существительное | 4 |
Well | наречие | 1567 |
Well | прилагательное | 6 |
Well | междометие | 1 |
2. Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели. В биграмной модели используется информация о всех возможных последовательностях из двух кодов (рис.3):
Последовательность | Частота |
неопр.артикль + сущ.ед.ч | 35983 |
неопр.артикль + сущ.мн.ч | 7494 |
Опр.артикль + сущ.ед.ч | 13838 |
неопр.артикль + сущ.мн.ч | 47 |
В триграмной модели и квадриграмной модели используется соответственно информация о всех возможных последовательностях из 3-х и 4-х кодов.
Рассмотрим подробнее пример разбора предложения, представленного на рис.1. Прежде всего, определяются все возможные значения частей речи, входящих в предложение, словоформ. Так словоформа “The” может быть только AT; “man” - NN или VB; “still” - NN, VB или RB; “saw” - NN или VBD; “her”-PPO или PP$. Далее воспользовавшись таблицей частотности, присваиваем словоформам тот или иной лексико-грамматический класс. Пример таблицы частотности для нашего предложения приведен на рис. 4.
NN | PPO | PP$ | RB | VB | VBD | . | |
AT | 186 | 0 | 0 | 8 | 1 | 8 | 9 |
NN | 4 | 1 | 3 | 40 | 9 | 66 | 186 |
PPO | 7 | 3 | 16 | 164 | 109 | 16 | 313 |
PP$ | 176 | 0 | 0 | 5 | 1 | 1 | 2 |
RB | 5 | 3 | 16 | 164 | 109 | 16 | 313 |
VB | 22 | 694 | 146 | 98 | 9 | 1 | 59 |
VBD | 11 | 584 | 143 | 160 | 2 | 1 | 91 |
Например сочетание “The man” может быть либо (AT-NN) либо (AT-VB), c соответствующими вероятностями 186 и 1. Далее, аналогично, сравниваются вероятности p(AT-NN-NN)=744, p(AT-NN-VB)=1674 и p(AT-NN-RB)=7440 и т.д. В итоге мы получим следующую комбинацию: “AT-NN-RB-VBD-PPO”, что и будет являться результатом работы вероятностно-статистического алгоритма.
Представленная выше информация обрабатывается программой, использующей статистические алгоритмы, чаще всего алгоритм скрытых цепей Маркова /4/ для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.
Алгоритмы, основанные на продукционных правилах, используют правила, собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами. Примером могут быть следующие правила:
- Если словоформа может быть как глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным.
- Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом.
Оба подхода дают примерно одинаковый результат. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96-98 %. Поскольку точность при лексико-грамматическом анализе текста вручную также имеет определенную погрешность (0,5-2 %), можно считать, что автоматизация лексико-грамматического анализа достигла практически такой же точности.
Синтаксический анализ /8/. В отличие от лексико-грамматического анализа текста, синтаксический анализ — развивающаяся область прикладной лингвистики. Цель синтаксического анализа — автоматическое построение функционального дерева фразы, т.е. нахождение взаимозависимостей между разноуровневыми элементами предложения. Считается, что имея успешно построенное функциональное дерево фразы, можно выделить из предложения смысловые элементы: логический субъект, логический предикат, прямые и косвенные дополнения и различные виды обстоятельств. Существует большое количество различных подходов к синтаксическому анализу текстов, например система LTAG/8/. Главная особенность этой системы заключается в построении элементарных смысловых деревьев предложения. Каждое элементарное дерево содержит в себе всю синтаксическую и семантическую информацию о конкретном слове или группе слов. К этим деревьям могут быть применены операции примыкания и подстановки. Подстановка является простой операцией – подстановкой дерева к висящей вершине другого дерева. Примыкание является более сложной операцией – присоединение некоторого дерева к внутренним вершинам другого дерева. Данный алгоритм подробно описан в работе /8/. Ниже рассмотрен один из общих подходов синтаксического анализа предложения.
Синтаксический разбор предложения происходит путем набора последовательных преобразований:
- поиск грамматических идиом;
- лексико-грамматический анализ предложения с устранением неоднозначности в определении частей речи;
- нахождение именной группы объекта и субъекта;
- нахождение глагольной группы;
- выделение главных и придаточных предложений.
Приведем пример синтаксического разбора предложения рис.5.
[We] {have found} / that [subsequent addition] (of [the second inducer]) (of [either system]) <after {allowing} [single induction] {to proceed} +> (for [15 minutes]) (also) {results} (in [increased reproduction]) + \ + (of [both enzymes]).
Обозначения:
[…] – группа существительного;
(…) – группа дополнения;
{…} – глагольная группа;
/…\ и <…> - главные и придаточные предложения;
+ - окончание глагольного окружения.
Рис.5
В данной обзорной работе описаны лишь некоторые алгоритмы и наиболее общие подходы к проблеме автоматической обработки естественно-языковых текстов.
Сегодня в области компьютерной лингвистики ежегодно проводится более 40 конференций по всему миру, посвященных проблемам обработки естественного языка. Постоянно растет количество программных продуктов, связанных с данной темой, повышается их качество. Но, несмотря на это, те системы перевода, реферирования и экспертные системы, которые на сегодняшний день считаются лучшими, далеко не идеальны и требуют серьезных доработок. Все это говорит о необходимости продолжения исследований вопросов, связанных с обработкой естественного языка в задачах ДО и разработки новых подходов и алгоритмов, основанных на методах искусственного интеллекта.