Курсовая Многомерный статистический анализ в системе SPSS
Работа добавлена на сайт bukvasha.net: 2015-10-25Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
от 25%
договор
Оглавление
Введение
Глава 1. Множественный регрессионный анализ
Глава 2. Кластерный анализ
Глава 3. Факторный анализ
Глава 4. Дискриминантный анализ
Список используемой литературы
Введение
Исходная информация в социально-экономических исследованиях представляется чаще всего в виде набора объектов, каждый из которых характеризуется рядом признаков (показателей). Поскольку число таких объектов и признаков может достигать десятков и сотен, и визуальный анализ этих данных малоэффективен, то возникают задачи уменьшения, концентрации исходных данных, выявления структуры и взаимосвязи между ними на основе построения обобщенных характеристик множества признаков и множества объектов. Такие задачи могут решиться методами многомерного статистического анализа.
Многомерный статистический анализ - раздел математической статистики, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов.
Основное внимание в многомерном статистическом анализе уделяется математическим методам построения оптимальных планов сбора, систематизации и обработки данных, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов.
Исходным массивом многомерных данных для проведения многомерного анализа обычно служат результаты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений. Многомерный признак чаще всего интерпретируется как величина случайная, а последовательность наблюдений как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных статистических данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака.
По содержанию многомерный статистический анализ может быть условно разбит на три основных подраздела:
1. Многомерный статистический анализ многомерных распределений и их основных характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: оценивание статистическое исследуемых многомерных распределений и их основных параметров; исследование свойств используемых статистических оценок; исследование распределений вероятностей для ряда статистик, с помощью которых строятся статистические критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных.
2. Многомерный статистический анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и результаты, присущие таким методам и моделям, как регрессионный анализ, дисперсионный анализ, ковариационный анализ, факторный анализ и т.д. Методы, принадлежащие к этой группе, включают как алгоритмы, основанные на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки какой-либо вероятностной модели (последние чаще относят к методам анализа данных).
3.Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и результаты, свойственные таким моделям и методам, как дискриминантный анализ, кластерный анализ, многомерное шкалирование. Узловым для этих моделей является понятие расстояния, либо меры близости между анализируемыми элементами как точками некоторого пространства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в объектном пространстве).
Прикладное значение многомерного статистического анализа состоит в основном в решении следующих трех задач:
· задача статистического исследования зависимостей между рассматриваемыми показателями;
· задача классификации элементов (объектов или признаков);
· задача снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.
Множественный регрессионный анализ предназначен для построения модели, позволяющей по значениям независимых переменных получать оценки значений зависимой переменной.
Логистическая регрессия для решения задачи классификации. Это разновидность множественной регрессии, назначение которой состоит в анализе связи между несколькими независимыми переменными и зависимой переменной.
Факторный анализ занимается определением относительно небольшого числа скрытых (латентных) факторов, изменчивостью которых объясняется изменчивость всех наблюдаемых показателей. Факторный анализ направлен на снижение размерности рассматриваемой задачи.
Кластерный и дискриминантный анализ предназначены для разделения совокупностей объектов на классы, в каждый из которых должны входить объекты в определенном смысле однородные или близкие. При кластерном анализе заранее неизвестно, сколько получится групп объектов и какого они будут объема. Дискриминантный анализ разделяет объекты по уже существующим классам.
Глава 1. Множественный регрессионный анализ
Задание: Исследование рынка жилья в Орле (Советский и Северный районы).
В таблице приведены данные по цене квартир в Орле и по различным факторам, ее обусловливающим:
· цена;
· общая площадь;
· площадь кухни;
· жилая площадь;
· район;
· этаж;
· тип дома;
· количество комнат. (Рис.1)
Рис. 1 Исходные данные
В графе «Район» использованы обозначения:
3 – Советский (элитный, относится к центральным районам);
4 – Северный.
В графе «Тип дома»:
1 – кирпичный;
0 – панельный.
Требуется:
1. Проанализировать связь всех факторов с показателем «Цена» и между собой. Отобрать факторы, наиболее подходящие для построения регрессионной модели;
2. Сконструировать фиктивную переменную, отображающую принадлежность квартиры к центральным и периферийным районам города;
3. Построить линейную модель регрессии для всех факторов, включив в нее фиктивную переменную. Пояснить экономический смысл параметров уравнения. Оценить качество модели, статистическую значимость уравнения и его параметров;
4. Распределить факторы (кроме фиктивной переменной) по степени влияния на показатель «Цена»;
5. Построить линейную модель регрессии для наиболее влиятельных факторов, оставив в уравнении фиктивную переменную. Оценить качество и статистическую значимость уравнения и его параметров;
6. Обосновать целесообразность или нецелесообразность включения в уравнение п. 3 и 5 фиктивной переменной;
7. Оценить интервальные оценки параметров уравнения с вероятностью 95%;
8. Определить, сколько будет стоить квартира общей площадью 74,5 мІ в элитном (периферийном) районе.
Выполнение:
1. Проанализировав связь всех факторов с показателем «Цена» и между собой, были отобраны факторы, наиболее подходящие для построения регрессионной модели, используя метод включения «Forward»:
А) общая площадь;
Б) район;
В) количество комнат.
Включенные/исключенные переменные(a)
Модель | Включенные переменные | Исключенные переменные | Метод |
1 | Общая площадь | . | Включение (критерий: вероятность F-включения >= ,050) |
2 | Район | . | Включение (критерий: вероятность F-включения >= ,050) |
3 | Кол-во комнат | . | Включение (критерий: вероятность F-включения >= ,050) |
a Зависимая переменная: Цена
2. Переменная Х4 «Район» является фиктивной переменной, так как имеет 2 значения: 3-принадлежность к центральному району «Советский», 4- к периферийному району «Северный».
3. Построим линейную модель регрессии для всех факторов (включая фиктивную переменную Х4).
Полученная модель:
У = 348,349 + 35,788 Х1 -217,075 Х4 +305,687 Х7
Оценка качества модели.
Коэффициент детерминации R2 = 0,807
Показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 89% вариации зависимой переменной учтено и обусловлено в модели влиянием включенных факторов.
Коэффициент множественной корреляции R = 0,898
Показывает тесноту связи между зависимой переменной У со всеми включенными в модель объясняющими факторами.
Стандартная ошибка = 126,477
Коэффициент Дарбина - Уотсона = 2,136
Проверка значимости уравнения регрессии
Значение критерия F-Фишера = 41,687
Уравнение регрессии следует признать адекватным, модель считается значимой.
Самый значимый фактор – количество комнат (F=41,687)
Второй по значимости фактор- общая площадь (F= 40,806)
Третий по значимости фактор- район (F= 32,288)
4. Построим линейную модель регрессию со всеми факторами (кроме фиктивной переменной Х4)
По степени влияния на показатель «Цена» распределили:
Самый значимый фактор – общая площадь (F= 40,806)
Второй по значимости фактор- количество комнат (F= 29,313)
5. Включенные/исключенные переменные
Модель | Включенные переменные | Исключенные переменные | Метод |
1 | Общая площадь | . | Включение (критерий: вероятность F-включения >= ,050) |
2 | Район | . | Включение (критерий: вероятность F-включения >= ,050) |
3 | Кол-во комнат | . | Включение (критерий: вероятность F-включения >= ,050) |
a Зависимая переменная: Цена
6. Построим линейную модель регрессии для наиболее влиятельных факторов с фиктивной переменной, в нашем случае она и является одним из влиятельных факторов.
Полученная модель:
У = 348,349 + 35,788 Х1 -217,075 Х4 +305,687 Х7
Оценка качества модели.
Коэффициент детерминации R2 = 0,807
Показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 89% вариации зависимой переменной учтено и обусловлено в модели влиянием включенных факторов.
Коэффициент множественной корреляции R = 0,898
Показывает тесноту связи между зависимой переменной У со всеми включенными в модель объясняющими факторами.
Стандартная ошибка = 126,477
Коэффициент Дарбина - Уотсона = 2,136
Проверка значимости уравнения регрессии
Значение критерия F-Фишера = 41,687
Уравнение регрессии следует признать адекватным, модель считается значимой.
Самый значимый фактор – количество комнат (F=41,687)
Второй по значимости фактор- общая площадь (F= 40,806)
Третий по значимости фактор- район (F= 32,288)
7. Фиктивная переменная Х4 является значимым фактором, поэтому целесообразно включить ее в уравнение.
Интервальные оценки параметров уравнения показывают результаты прогнозирования по модели регрессии.
С вероятностью 95% объем реализации в прогнозируемом месяце составит от 540,765 до 1080,147 млн. руб.
8. Определение стоимости квартиры в элитном районе
Для 1 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 1
Для 2 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 2
Для 3 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 3
в периферийном
Для 1 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 1
Для 2 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 2
Для 3 комн У = 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 3
Глава 2. Кластерный анализ
Задание: Исследование структуры денежных расходов и сбережений населения.
В таблице представлена структура денежных расходов и сбережений населения по регионам Центрального федерального округа Российской федерации в
· ПТиОУ – покупка товаров и оплата услуг;
· ОПиВ – обязательные платежи и взносы;
· ПН – приобретение недвижимости;
· ПФА – прирост финансовых активов;
· ДР – прирост (уменьшение) денег на руках у населения.
Рис. 8 Исходные данные
Требуется:
1) определить оптимальное количество кластеров для разбиения регионов на однородные группы по всем группировочным признакам одновременно;
2) провести классификацию областей иерархическим методом с алгоритмом межгрупповых связей и отобразить результаты в виде дендрограммы;
3) проанализировать основные приоритеты денежных расходов и сбережений в полученных кластерах;
4) сравнить полученную классификацию с результатами применения алгоритма внутригрупповых связей.
Выполнение:
1) Определить оптимальное количество кластеров для разбиения регионов на однородные группы по всем группировочным признакам одновременно;
Для определения оптимального количества кластеров нужно воспользоваться Иерархическим кластерным анализом и обратиться к таблице «Шаги агломерации» к столбцу «Коэффициенты».
Эти коэффициенты подразумевают расстояние между двумя кластерами, определенное на основании выбранной дистанционной меры (Евклидово расстояние). На том этапе, когда мера расстояния между двумя кластерами увеличивается скачкообразно, процесс объединения в новые кластеры необходимо остановить.
В итоге, оптимальным считается число кластеров, равное разности количества наблюдений (17) и номера шага (14),после которого коэффициент увеличивается скачкообразно. Таким образом, оптимальное количество кластеров равно 3. (Рис.9)
статистический математический анализ кластерный
Рис. 9 Таблица «Шаги агломерации»
2) Провести классификацию областей иерархическим методом с алгоритмом межгрупповых связей и отобразить результаты в виде дендрограммы;
Теперь, используя оптимальное количество кластеров, проводим классификацию областей иерархическим методом. И в выходных данных обращаемся к таблице «Принадлежность к кластерам». (Рис.10)
Рис. 10 Таблица «Принадлежность к кластерам»
На Рис. 10 отчетливо видно, что в 3 кластер попали 2 области (Калужская, Московская) и г. Москва, во 2 кластер две (Брянская, Воронежская, Ивановская, Липецкая, Орловская, Рязанская, Смоленская, Тамбовская, Тверская), в 1 кластер – Белгородская, Владимирская, Костромская, Курская, Тульская, Ярославская.
Рис. 11 Дендрограмма
3) проанализировать основные приоритеты денежных расходов и сбережений, в полученных кластерах;
Для анализа полученных кластеров нам нужно провести «Сравнение средних». В выходном окне выводится следующая таблица (Рис. 12)
Рис. 12 Средние значения переменных
В таблице «Средних значений» мы можем проследить, каким структурам отдается наибольший приоритет в распределении денежных расходов и сбережений населения.
В первую очередь стоит отметить, что самый высокий приоритет во всех областях отдается покупке товаров и оплате услуг. Большее значение параметр принимает в 3 кластере.
2 место занимает прирост финансовых активов. Наибольшее значение в 1 кластере.
Наименьший коэффициент в 1 и 2 кластерах у «приобретение недвижимости», а в 3 кластере выявлено заметное уменьшение денег на руках у населения.
В целом особое значение для населения имеет покупка товаров и оплата услуг и незначительное покупка недвижимости.
4) сравнить полученную классификацию с результатами применения алгоритма внутригрупповых связей.
В анализе межгрупповых связей ситуация практически не изменилась, за исключением Тамбовской области, которая из 2 кластера попала в 1.(Рис.13)
Рис. 13 Анализ внутригрупповых связей
В таблице «Средних значений» никаких изменений не произошло.
Глава 3. Факторный анализ
Задание: Анализ деятельности предприятий легкой промышленности.
Имеются данные обследований 20 предприятий легкой промышленности (Рис. 14) по следующим характерным признакам:
· Х1 – уровень фондоотдачи;
· Х2 – трудоемкость единицы продукции;
· Х3 – удельный вес закупочных материалов в общих расходах;
· Х4 – коэффициент сменности оборудования;
· Х5 – премии и вознаграждения на одного работника;
· Х6 – удельный вес потерь от брака;
· Х7 – среднегодовая стоимость основных производственных фондов;
· Х8 – среднегодовой фонд заработной платы;
· Х9 – уровень реализуемости продукции;
· Х10 – индекс постоянного актива (отношение основных средств и прочих внеоборотных активов к собственным средствам);
· Х11 – оборачиваемость оборотных средств;
· Х12 – непроизводственные расходы.
Рис.14 Исходные данные
Требуется:
1. провести факторный анализ следующих переменных: 1,3,5-7, 9, 11,12, выявить и интерпретировать факторные признаки;
2. указать наиболее благополучные и перспективные предприятия.
Выполнение:
1. Провести факторный анализ следующих переменных: 1,3,5-7, 9, 11,12, выявить и интерпретировать факторные признаки.
Факторный анализ – это совокупность методов, которые на основе реально существующих связей объектов (признаков) позволяют выявить латентные (неявные) обобщающие характеристики организационной структуры.
В диалоговом окне факторного анализа выбираем наши переменные, указываем необходимые параметры.
Рис. 15 Полная объясненная дисперсия
По таблице «Полной объясненной дисперсии» видно, что выделены 3 фактора, объясняющие 74,8 % вариаций переменных – построенная модель достаточно хорошая.
Теперь интерпретируем факторные признаки по «Матрице повернутых компонент»: (Рис.16).
Рис. 16 Матрица повернутых компонент
Фактор 1 наиболее тесно связан с уровнем реализации продуктов и имеет обратную зависимость от непроизводственных расходов.
Фактор 2 наиболее тесно связан с удельным весом закупочных материалов в общих расходах и удельным весом потерь от брака и имеет обратную зависимость от премий и вознаграждений на одного работника.
Фактор 3 наиболее тесно связан с уровнем фондоотдачи и оборачиваемость оборотных средств и имеет обратную зависимость от среднегодовой стоимости основных производственных фондов.
2. Указать наиболее благополучные и перспективные предприятия.
Для того, чтобы выявить наиболее благополучные предприятия проведем сортировку данных по 3 факторным признакам по убыванию. (Рис.17)
Рис. 17
Наиболее благополучными предприятиями следует считать: 13,4,5, так как в целом по 3 факторам их показатели занимают наиболее высокие и стабильные позиции.
Глава 4. Дискриминантный анализ
Оценка кредитоспособности юридических лиц в коммерческом банке
В качестве значимых показателей, характеризующих финансовое состояние организаций-заемщиков, банком выбраны шесть показателей (табл. 4.1.1):
QR (Х1) — коэффициент срочной ликвидности;
CR (Х2) — коэффициент текущей ликвидности;
EQ/TA (Х3) — коэффициент финансовой независимости;
TD/EQ (Х4) — суммарные обязательства к собственному капиталу;
ROS (Х5) — рентабельность продаж;
FAT (Х6) — оборачиваемость основных средств.
Таблица 4.1.1. Исходные данные
Заемщик | QR | CR | EQ/TA | TD/EQ | ROS, % | FAT, раз |
1 | 0,614 | 2,982 | 0,592 | 0,303 | 13,179 | 2,712 |
2 | 8,604 | 4,496 | 0,284 | 0,109 | 17,181 | 10,115 |
3 | 6,207 | 4,423 | 0,366 | 0,228 | 15,385 | 2,151 |
Требуется:
На основе дискриминантного анализа с использованием пакета SPSS определить, к какой из четырех категорий относятся три заемщика (юридических лица), желающие получить кредит в коммерческом банке:
§ Группа 1 — с отличными финансовыми показателями;
§ Группа 2 — с хорошими финансовыми показателями;
§ Группа 3 — с плохими финансовыми показателями;
§ Группа 4 — с очень плохими финансовыми показателями.
По результатам расчета построить дискриминантные функции; оценить их значимость по коэффициенту Уилкса (λ). Построить карту восприятия и диаграммы взаимного расположения наблюдений в пространстве трех функций. Выполнить интерпретацию результатов проведенного анализа.
Ход выполнения:
Для того чтобы определить, к какой из четырех категорий относятся три заемщика, желающие получить кредит в коммерческом банке, строим дискриминантный анализ, который позволяет определить, к какой из ранее выявленных совокупностей (обучающих выборок) следует отнести новых клиентов.
В качестве зависимой переменной выберем группу, к которой может относиться заемщик в зависимости от его финансовых показателей. Из данных задачи, каждой группе присваивается соответствующая оценка 1, 2, 3 и 4.
Ненормированные канонические коэффициенты дискриминантных функций, приведенные на рис. 4.1.1, используются для построения уравнения дискриминантных функций D1(X), D2(X) и D3(X):
1.) D1(X) =
2.) D2(X) =
3.) D3(X) =
| Функция | ||
1 | 2 | 3 | |
Х1 | ,064 | ,363 | -,021 |
Х2 | 1,818 | 2,073 | -,573 |
Х3 | 9,328 | -10,089 | 4,726 |
Х4 | ,002 | ,003 | ,002 |
Х5 | ,129 | ,048 | -,097 |
Х6 | ,147 | ,092 | ,026 |
(Константа) | -6,112 | 1,170 | -1,183 |
Рис. 4.1.1. Коэффициенты канонической дискриминантной функции