Первым применил кластер-анализ для реконструкции эмпирических систем значений известный американский психолингвист Дж. Миллер (Мiller, 1967, 1969). Он использовал алгоритм агтломератной иерархической классификации (HCS) С. Джонсона, ставший впоследствии самым популярным методом кластер-анализа. Дж. Миллер получал матрицы сходства слов с помощью процедуры сортировки: индекс сходства двух слов i и j выражал частоту, с которой испытуемые вклю чали эти слова в один класс при инструкции на произвольную класси фикацию. Реконструируемое дерево классификации в этом случае описывает, таким образом, групповую систему значений. На первом шаге алгоритма Джонсона отыскиваются два слова (стимула) с наибольшим коэффициентом по матрице сходства. Они объединяются в один класс,и размерность матрицы сходства сокращается на 1. Существуют три метода расчета сходства остальных слов с вновь образовавшимся классом как целым: 1) метод "ближнего соседа" (метод связи) : в качестве коэффициента сходства с классом берется максимальный коэффициент сходства из всех, связывающих старое слово с новым классом; 2) метод "дальнего" соседа" (метод диаметра) : берется минимальный коэффициент; 3) метод "средне-взвешенного расстояния": берется среднее арифметическое с поправкой на количество членов во вновь образованном классе, что существенно на более поздних этапах аггломерации. На последующих шагах процедура повторяется. Показано, что условием высокой репродуктивной надежности в описании матрицы сходства с помощью дерева классификации является сходство деревьев, получаемых с помощью противоположных методов — "ближнего" и "дальнего" соседа. Тождество этих деревьев может рассматриваться как эмпирический критерий проверки того, насколько имеющаяся матрица сходства удовлетворяет требованию ультраметрического неравенства: где rij — коэффициент эмпирического сходства между произвольной парой стимулов — i-тым и j-тым. Если меру расстояния рассматривать как обратную мере сходства, то данное неравенство можно интерпретировать как требование равнобедренности треугольника (в котором основание dij меньше боковых сторон dik и djk). Ультраметрическое неравенство выполняется, если коэффи- циент сходства, репродуцированный по дереву "ближнего" соседа, r min ij - коэффициент сходства, репродуцированный по дереву "дальнего" соседа. Если два построенных дерева сильно различаются между собой, то значит испытуемые сильно отклонялись в своих решениях от принципов концептуальной иерархии стимулов. — 57 —
|