Методология

Страница: 1 ... 119120121122123124125126127128129 ... 399

Преимущество метода главных компонент заключается в том, что зачастую первые несколько главных компонент (одна-две-три) объясняют б?льшую часть (например, 80-90 %) изменений большого числа (десятков, а иногда и сотен) показателей. Кроме того, может оказаться, что в первые несколько главных компонент входят не все исходные параметры. Тогда можно сделать вывод о том, какие параметры являются существенными, и на них следует обратить внимание в первую очередь.

Решив задачи описания данных, установления сходства/отличий, проанализировав качественно и количественно зависимости между переменными и выявив существенные переменные, можно анализировать соотношение групп переменных и пытаться прогнозировать значения одних переменных в зависимости от значений других переменных или времени развития того или иного процесса.

5. Классификация. Обширную группу задач анализа данных, основывающихся на применении статистических методов, составляют так называемые задачи классификации. В близких смыслах (в зависимости от предметной области) используются также термины: «группировка», «систематизация», «таксономия», «диагностика», «прогноз», «принятие решений», «распознавание образов». Обсудим некоторые различия между этими терминами. В [183] предложено выделить три подобласти теории классификации: дискриминация (дискриминантный анализ), кластеризация (кластерный анализ) и группировка. Здесь мы кратко остановимся на сути этих методов. Тех же читателей, которые заинтересуются, как ими пользоваться, мы адресуем к соответствующей литературе [183, 241].

В дискриминантном анализе классы предполагаются заданными (например, обучающими выборками, для элементов которых известно, каким классам они принадлежат: например, больной-здоровый, правильно-неправильно, легкая степень заболевания – средняя – тяжелая и т.д.). Задача заключается в том, чтобы каждый вновь появляющийся объект отнести к одному из этих классов. У термина «дискриминация» имеется множество синонимов: диагностика (например, в медицине требуется поставить диагноз из конечного списка возможных диагнозов, если известны определенные характеристики пациента и известно, какие диагнозы ставились пациентам, вошедшим в обучающую выборку), распознавание образов с учителем, автоматическая (или статистическая) классификация с учителем и т.д.

Если в дискриминантном анализе классы заданы, то кластеризация и группировка предназначены для выявления и выделения классов. Синонимами являются: построение классификации, таксономия, распознавание образов без учителя, автоматическая классификация без учителя и т.д.

— 124 —
Страница: 1 ... 119120121122123124125126127128129 ... 399