Доклад

Доклад на тему Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Работа добавлена на сайт bukvasha.net: 2015-06-25

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 8.11.2024


           

            В СССР в середине 70-х годов активно ведутся работы по статистическому анализу нечисловых данных [1]. В настоящее время во Всесоюзном центре статистических методов и информатики мы при разработке методических документов и программных продуктов по прикладной статистике делим ее на четыре части соответственно виду обрабатываемых статистических данных: на статистику случайных величин, многомерный статистический анализ, статистику временных рядов и случайных процессов, статистику объектов нечисловой природы (другими словами, статистику нечисловых данных).

            Вероятностный и статистический анализ нечисловых данных сопровождали теорию вероятностей и математическую статистику с самого начала их развития. Типичными примерами являются урновые схемы и изучение рождаемости. Испытание Бернулли- вероятностная модель простейшего объекта нечисловой природы. Наиболее массовым применением статистических методов является, видимо, выборочный контроль качества продукции по альтернативному признаку (т. е. по признаку "годен” - “не годен"), относящийся, очевидно, к статистике объектов нечисловой природы [2].

            Развитие прикладных исследований привело к необходимости рассмотрения в качестве статистических данных различных объектов нечисловой природы. Этот термин применяем к объектам, которые нецелесообразно рассматривать как описанные числами. Другими словами, речь идет об элементах пространства, не являющихся линейными (векторными). Примеры: бинарные отношения (ранжировки, разбиения, толерантности и т. д.); множества; нечеткие множества; результаты измерений в шкалах, отличной от абсолютной; как обобщение перечисленных объектов - элементы пространств общей природы. Для результатов наблюдений, являющихся объектами нечисловой природы, рассматривают [1] классические задачи статистики: описание данных (включая классификацию) оценивание (параметров, характеристик, плотности распределения, регрессионной зависимости и т. д.).

            Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства, а на применении симметрик и метрик в нем, поэтому существенно отличается от классического.

            В прикладных работах наиболее распространенный пример объектов нечисловой природы - разнотипные данные. В этом случае реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых).

            Основная цель настоящего раздела - обосновать новый подход [3] к классификации в пространствах произвольной природы, основанный на построении не параметрических оценок плотности распределений вероятности в таких пространствах [4].

" Пусть  - измеримое пространство,.  и Классификация объектов нечисловой природы на основе непараметрических оценок плотности. суть  -конечные меры на ., причем  абсолютно непрерывна относительно , т. е. из равенства. . =0 следует равенство =0, где .. В этом случае на  существует неотрицательная измеримая функция  такая, что

для любого  Функция называется производной Родона-Никодима меры  по мере , а в случае, когда  - вероятностная мера, также плотностью вероятности   по отношению к . " [5]

                                          Будем считать, что в пространстве объектов нечисловой природы фиксирована некоторая мера , а мера  соответствует распределению Р случайного элемента  со знаниями в измеримом пространстве , т. е.

Если -  пространство из конечного числа точек, то в качестве меры  можно использовать считающую меру (приписывающую единичный вес каждой точке), т. е. , или

                                          В случае считающей меры значение плотности в точке  совпадает с вероятностью попасть в точку , т. е.

              Многие методы классификации используют расстояния или меры близости между объектами или признаками. Такие методы пригодны и для классификации объектов нечисловой природы, лишь бы в соответствующем пространстве было определено расстояние или мера близости. Таким образом, широко известные иерархические агломеративные алгоритмы ближайшего соседа, дальнего соседа, средней связи и др., результатом работы которых являются дендрограммы, на самом деле относятся к статистике объектов нечисловой природы.

              Не пытаясь рассмотреть все многообразие методов классификации в статистике объектов нечисловой природы (см., например, [6, 7]), сосредоточимся на тех из них, которые используют плотности распределения и их оценки. Зная плотности распределения классов, можно решать основные задачи классификации - как задачи выделения кластеров, так и задачи диагностики. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа динамических сгущений. В задачах диагностики (дискриминации, распознавания образов с учителя) можно принимать решения о классификации объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки. Корректность такой постановки, как правило, нетрудно обосновать, например, в стиле [8]. Таким образом, для переноса на пространства произвольной природы основных методов классификации рассматриваемого типа достаточно уметь оценивать плотность распределения вероятности в таких пространствах.

              Методы оценивания плотности вероятности в пространствах общего вида предложен и первоначально изучены в [4]. В частности, в задачах классификации объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена-Розенблатта (этот вид оценок и его название введены нами в [4]):

,

где К:  - ядерная функция  - выборка по которой оценивается плотностью,  - расстояние между элементом выборки  и точкой , в которой оценивается плотность последовательность  показателей размытости такова, что при 0 и nКлассификация объектов нечисловой природы на основе непараметрических оценок плотности, а  - нормирующий множитель, обеспечивающий выполнение условия

              Оценки типа Парзена-Розенблатта - частный случай линейных оценок [4]. В теоретическом плане они выделяются тем, что удается получать результаты такого же типа, что в классическом одномерном случае (), но, разумеется, с помощью совсем иного математического аппарата.

              Одна из основных идей состоит в том, чтобы согласовать между собой расстояние  и меры . А именно, рассмотрим шары радиуса

и их меры

              Предположим, что  как функция  при фиксированном  непрерывна и строго возрастает. Введем функцию

              Это - монотонное преобразование расстояния, а потому  - метрика или симметрика (т. е. неравенство треугольника может быть не выполнено), которую, как и , можно рассматривать как меру близости между  и Классификация объектов нечисловой природы на основе непараметрических оценок плотности.

              Введем

.

              Поскольку  определена однозначно, то

^

где ., а потому

              Переход от  к Классификация объектов нечисловой природы на основе непараметрических оценок плотности напоминает классическое преобразование, использованное Н. В. Смирновым, , переводящее случайную величину  с непрерывной функцией распределения  в случайную величину , равномерно распределенную на [ 0, 1]. Оба рассматриваемых преобразования существенно упрощают дальнейшие рассмотрения.

              Преобразование  зависит от точки , что не влияет на дальнейшие рассуждения, поскольку ограничиваемся изучением сходимости в точке.

              Функцию , для которой мера шара радиуса  равна , называют [4] естественным показателем различия или естественной метрикой. В случае пространства  и евклидовой метрики  имеем

где -объем шара единичного радиуса в .

              Поскольку можно записать, что

где

то переход от  к Классификация объектов нечисловой природы на основе непараметрических оценок плотности соответствует переходу от  к Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Выгода от такого перехода заключается в том, что утверждения приобретают более простую формулировку.

              ТЕОРЕМА 1. Пусть  - естественная метрика,

Классификация объектов нечисловой природы на основе непараметрических оценок плотности

Плотность  непрерывна в  и ограничена на , причем . Тогда , оценка  является состоятельной, т. е. по вероятности при ,

Теорема 1 доказана в [4]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, т. е. о поведении величины

и об оптимальном выборе показателей размытости .

              Введем круговое распределение  и круговую плотность .

              ТЕОРЕМА 2. Пусть ядерная функция  непрерывна и при Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Пусть круговая плотность допускает разложение

причем остаточный член равномерно ограничен [0, 1,...., ]. Пусть

Тогда

              Величина  достигает минимума, равного

при

что совпадает с классическими результатами для  (см. [9, с316]). Заметим, что для уменьшения смещения оценки приходится применять знакопеременные ядра .

              В случае дискретных пространств естественных метрик не существует. Однако можно получить аналоги теорем 1 и 2 переходя к пределу не только по объему выборки , но и по параметру дискретности .

              Пусть - последовательность конечных пространств, - расстояния в

 для любого .

              Положим

,

,

,

Тогда функции  кусочно постоянны и имеют скачки в некоторых точках , причем .

              ТЕОРЕМА 3. Если  при Классификация объектов нечисловой природы на основе непараметрических оценок плотности (другими словами,  при Классификация объектов нечисловой природы на основе непараметрических оценок плотности), то существует последовательность параметров дискретности  такая, что при , Классификация объектов нечисловой природы на основе непараметрических оценок плотности,  справедливы заключения теорем 1 и 2.

              ПРИМЕР 1. Пространство  всех подмножеств конечного множества  из Классификация объектов нечисловой природы на основе непараметрических оценок плотности элементов допускает [10, Пар 4. 3] аксиоматическое введение метрики , где Классификация объектов нечисловой природы на основе непараметрических оценок плотности - символ симметрической разности множеств. Рассмотрим непараметрическую оценку плотности типа Парзена - Розенблатта , где Классификация объектов нечисловой природы на основе непараметрических оценок плотности - функция нормального стандартного распределения. Можно показать, что эта оценка удовлетворяет условиям теоремы 3 .

              ПРИМЕР 2. Рассмотрим пространство функций , определенных на конечном множестве  со значениями в конечном множестве . Это пространство можно интерпретировать как пространство нечетких множеств [11]. Очевидно, . Будем использовать расстояние . Непараметрическая оценка плотности имеет вид: .

Если , Классификация объектов нечисловой природы на основе непараметрических оценок плотности, то при  выполнены условия теоремы 3, а потому справедливы теоремы 1 и 2.

.             ПРИМЕР 3. Рассматривая пространства ранжировок  объект непреов, в качестве расстояния  между ранжировками  и Классификация объектов нечисловой природы на основе непараметрических оценок плотности. Тогда . не стремиться к 0 при ., условия теоремы 3 не выполнены.

              Пространства разнотипных признаков - это декартово произведение непрерывных и дискретных пространств. Для него возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности сводится к произведению частоты попадания в точку в пространстве качественных признаков на классическую оценку Парзена-Розенблатта в пространстве количественных переменных. В общем случае расстояние  можно, например, рассматривать как сумму евклидова расстояния  между количественными факторами, расстояния  между номинальными признаками (, если  и Классификация объектов нечисловой природы на основе непараметрических оценок плотности, если ) и расстояния  между порядковыми переменными (если  и Классификация объектов нечисловой природы на основе непараметрических оценок плотности - номера градаций., то .

              Наличие количественных факторов приводит к непрерывности и строгому возрастанию , а потому для непараметрических оценок плотности в пространствах разнотипных признаков справедливы теоремы 1 - 3.

Литература

1.Орлов А.И. Устойчивость в социально-экономических моделях.-М.Наука,1979.-296 с.

2.Орлов А.И. Экспертные оценки / Вопросы кибернетики. Вып.58.-М.: Научный Совет СССР по комплексной проблеме "Кибернетика", 1979.С.17-33.

3.Орлов А.И. / Тезисы докладов Четвертой международной Вильнюсской конференции по теории вероятностей и математической статистике: Том 2.-Вильнюс, Вильнюсский госуниверситет, 1985.С.278-280.

4.Орлов А.И. / Анализ нечисловой информации в социологических исследованиях.-М.Наука, 1985.С.58-92.

5.Орлов А.И. / Статистика. Вероятность. Экономика.-М.Наука,1985. С.99-107.

6.Орлов А.И. / Заводская лаборатория. 1987.Т.58. N3.С.90-91.

7.Орлов А.И. /Надежность и контроль качества. 1987.N6.С.54-59.

8.Рекомендации. Прикладная статистика. Методы обработки данных. Основные требования и характеристики.- М.:ВНИИС,1987.-64 с.

9.Кривцов В.С., Фомин В.Н., Орлов А.И. / Стандарты и качество. 1988.N3.С.32-36.

11.Колмогоров А.Н. Статистический приемочный контроль при допустимом числе дефектных изделий, равном нулю. - Л.: ДНТП, 1951. - 22 с.

12. Гнеденко Б.В. Математика и контроль качества продукции.- М.: Знание, 1978. - 64 с.

13. Беляев Ю.К. Вероятностные методы выборочного контроля.-М.: Наука, 1975. - 408 с.

14. Лумельский Я.П. Статистические оценки результатов контроля качества. - М.: Из-во стандартов, 1979. - 200 с. 

15. Орлов А.И. Современные проблемы кибернетики: Прикладная статистика. - М.: Знание, 1981. с 3-14.

16. Статистические методы анализа экспертных оценок / Ученые записки по статистике, т. 29, -М.: Наука, 1977-384 с. 17.

17.Экспертные оценки в системных исследованиях / Сборник трудов. - Вып. 4. - М.: ВНИИСИ, 1970 - 120 с.

18. Экспертные оценки / Вопросы кибернетики. - Вып. 58. - М.: Научный Совет АН СССР по комплексной проблеме / "Кибернетика". 1979. - 200 с.



1. Курсовая Промышленная политика Украины концептуальные ориентиры на среднесрочную перспективу
2. Реферат Молодежные субкультура. Готы
3. Реферат Преступность в России и зарубежных странах. Сравнительный анализ
4. Реферат Бухгалтерская отчетность 23
5. Сочинение Изображение мирового пожара стихии революционного переустройства жизни в поэме Блока Двенадцать
6. Реферат Використання та облік вексельного обігу в Україні, його контроль, значения в діяльності підрпиєм
7. Реферат Контитуція Пилипа Орлика
8. Реферат Отходы производства
9. Реферат на тему Charles Dickens 3 Essay Research Paper Charles
10. Сочинение на тему Тема нравственности в современной литературе