Как построить дендрограмму в excel пошаговая инструкция

REDMOND

КЛАСТЕРНЫЙ АНАЛИЗ В EXCEL

Программа Excel из состава пакета MS Office является стандартным средством

хранения и обработки числовой информации. Кроме того, благодаря встроенному языку

программирования Visual Basic for Application (VBA), пользователи этой программы имеют уникальную возможность создавать собственные приложения, ориентированные на решение

специализированных задач практически любой степени сложности. В данном случае

средствами VBA реализован один из наиболее используемых методов статистических

исследований – кластерный анализ. В программе выполняется алгоритм иерархической

кластеризации, в качестве меры сходства объектов используется эвклидово расстояние (Q-

тип) или парный коэффициент корреляции (R-тип). Программа представляет собой

надстройку Excel (файл с расширением имени xla). Чтобы установить программу, надо

выполнить следующие действия: в меню

Сервисвыбрать команду Надстройки;

нажать кнопку Обзори найти файл,

содержащий программу; в окне Список

надстроекпоявится название надстройки

“Cluster” с установленным флажком.

Нажимаете кнопку ОКи после этого

программа готова к использованию. В Excel

появится дополнительная панель

инструментов с двумя кнопками: Q и R,

соответственно для анализа Q и R типа.

Загрузив файл, содержащий данные, следует

выделить диапазон ячеек, первая строка

которого обязательно должна содержать

имена переменных, а первая колонка – номера

образцов (анализов и т.п.). Выделение может

состоять из нескольких областей. Таким

образом можно, например, исключать из

REDMOND

расчета некоторые переменные или анализы.

Пример такого выделения показан на рисунке.

Многодиапазонное выделение выполняется

при нажатой клавише Ctrl. После выделения

данных кнопкой на панели инструментов

активизируется процедура кластерного анализа Q или R типа. Процесс вычислений

контролируется индикатором выполнения. После завершения расчетов на листе появится

окно, содержащее дендрограмму, построенную по результатам кластерного анализа.

Полученный график можно редактировать и распечатать непосредственно из Excel или

перенести, воспользовавшись буфером обмена, в какой-либо графический редактор,

например, в CorelDraw. Векторный формат изображения удобен для редактирования при

подготовке иллюстрационной графики. Основным преимуществом данного подхода является

возможность избежать утомительной процедуры экспорта данных из Excel в программу,

выполняющую статистические вычисления, что существенно экономит время.

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Кластерный анализ

Назначение . С помощью онлайн-калькулятора можно проводить классификацию объектов алгоритмами «ближайшего соседа» и «дальнего соседа» с построением дендрограммы.

  • Шаг №1
  • Шаг №2
  • Видеоинструкция
  • Оформление Word

Выбор конкретного метода кластерного анализа зависит от цели классификации.
Обычной формой представления исходных данных в задачах кластерного анализа служит матрица:

каждая строка которой, представляет результат измерений k , рассматриваемых признаков на одном из обследованных объектов.
Наиболее трудным считается определение однородности объектов, которые задаются введением расстояния между объектами хi и хj (p(xi, xj)).
Объекты будут однородными в случае p(xi, xj)£ pпор,
где pпор— заданное пороговое значение.
Выбор расстояния (р) является основным моментом исследования, от которого зависят окончательные варианты разбиения. Наиболее распространенными считаются принципы “ближайшего соседа” или “дальнего соседа”. В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором — между наиболее удаленными друг от друга.
В задачах кластерного анализа часто используют Евклидово и Хемингово расстояния.
Евклидово расстояние определяется по формуле:
;
сравнивается близость двух объектов по большому числу признаков.
Хемингово расстояние:
;
используется как мера различия объектов, задаваемых атрибутивными признаками.

Пример . Провести классификацию шести объектов, каждый из которых характеризуется двумя признаками (табл.9). В качестве расстояния между объектами принять , расстояние между кластерами исчислить по принципам: 1) “ближайшего соседа” и 2) “дальнего соседа”.

№ п/п 1 2 3 4 5 6
x1 2 4 5 12 14 15
x2 8 10 7 6 6 4

2. Полученные данные помещаем в таблицу (матрицу расстояний).

№ п/п 1 2 3 4 5 6
1 0 2.83 3.16 10.2 12.17 13.6
2 2.83 0 3.16 8.94 10.77 12.53
3 3.16 3.16 0 7.07 9.06 10.44
4 10.2 8.94 7.07 0 2 3.61
5 12.17 10.77 9.06 2 0 2.24
6 13.6 12.53 10.44 3.61 2.24 0

3. Поиск наименьшего расстояния.
Из матрицы расстояний следует, что объекты 4 и 5 наиболее близки P4;5 = 2 и поэтому объединяются в один кластер.

№ п/п 1 2 3 [4] [5] 6
1 0 2.83 3.16 10.2 12.17 13.6
2 2.83 0 3.16 8.94 10.77 12.53
3 3.16 3.16 0 7.07 9.06 10.44
[4] 10.2 8.94 7.07 0 2 3.61
[5] 12.17 10.77 9.06 2 0 2.24
6 13.6 12.53 10.44 3.61 2.24 0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №4 и №5.
В результате имеем 5 кластера: S(1), S(2), S(3), S(4,5), S(6)
Из матрицы расстояний следует, что объекты 4,5 и 6 наиболее близки P4,5;6 = 2.24 и поэтому объединяются в один кластер.

№ п/п 1 2 3 [4,5] [6]
1 0 2.83 3.16 10.2 13.6
2 2.83 0 3.16 8.94 12.53
3 3.16 3.16 0 7.07 10.44
[4,5] 10.2 8.94 7.07 0 2.24
[6] 13.6 12.53 10.44 2.24 0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №4,5 и №6.
В результате имеем 4 кластера: S(1), S(2), S(3), S(4,5,6)
Из матрицы расстояний следует, что объекты 1 и 2 наиболее близки P1;2 = 2.83 и поэтому объединяются в один кластер.

№ п/п [1] [2] 3 4,5,6
[1] 0 2.83 3.16 10.2
[2] 2.83 0 3.16 8.94
3 3.16 3.16 0 7.07
4,5,6 10.2 8.94 7.07 0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1 и №2.
В результате имеем 3 кластера: S(1,2), S(3), S(4,5,6)
Из матрицы расстояний следует, что объекты 1,2 и 3 наиболее близки P1,2;3 = 3.16 и поэтому объединяются в один кластер.

№ п/п [1,2] [3] 4,5,6
[1,2] 0 3.16 8.94
[3] 3.16 0 7.07
4,5,6 8.94 7.07 0

При формировании новой матрицы расстояний, выбираем наименьшее значение из значений объектов №1,2 и №3.
В результате имеем 2 кластера: S(1,2,3), S(4,5,6)

№ п/п 1,2,3 4,5,6
1,2,3 0 7.07
4,5,6 7.07 0

Таким образом, при проведении кластерного анализа по принципу “ближнего соседа” получили два кластера, расстояние между которыми равно P=7.07
Результаты иерархической классификации объектов представлены на рис. в виде дендрограммы.

Дендрограмма

Дендрограмма

REDMOND

Ссылка на основную публикацию