Как сделать ящик с усами в excel

Блочная диаграмма в EXCEL

history 22 ноября 2016 г.
    Группы статей

  • Описательная статистика

Блочная диаграмма (диаграмма размаха, ящик с усами) является наглядным и компактным способом представить распределение данных в выборке.

Чтобы для заданной выборки построить в MS EXCEL классическую блочную диаграмму (иногда она называется Диаграмма размаха или Ящик с усами, англ . box plot, box-and-whiskers diagram) необходимо предварительно вычислить пять показателей: медиану выборки , 1-й и 3-й квартиль , а также минимальное и максимальное значение.

Примечание : Определение квартилей дано в статье Квартили и интерквартильный интервал (IQR) в MS EXCEL . Там же показано как их вычислять в MS EXCEL.

Блочная диаграмма используется для оценки разброса значений в небольших выборках или для сравнения нескольких выборок .

Примечание : Характеристикой разброса значений в выборке является также дисперсия и стандартное отклонение .

Блочная диаграмма может быть полезна, когда количества значений в выборке недостаточно для построения полноценной гистограммы.

Построим блочную диаграмму с помощью Гистограммы с накоплением .

СОВЕТ : Для начинающих пользователей EXCEL советуем прочитать статью Основы построения диаграмм в MS EXCEL , в которой рассказывается о базовых настройках диаграмм, а также статью об основных типах диаграмм .

Примечание : Блочная диаграмма может строиться как вертикально (см. рисунок выше), так и горизонтально (см. ниже).

Для построения блочной диаграммы нам потребуются 5 наборов значений в строках 45-78 файла примера , лист Box-plot.

При вертикальном расположении нижняя сторона блока (ящика) соответствует Q1 (первому квартилю ), а верхняя сторона – Q3 (третьему квартилю ). Соответственно, высота блока равна интерквартильному размаху IQR . Линия внутри блока соответствует медиане (Q2).

Примечание : Чтобы вычислить квартили используйте функцию КВАРТИЛЬ.ВКЛ() .

Если для построения самого блока используется Гистограмма с накоплением , то для усов используются вертикальные планки погрешностей . Усы сверху и снизу блока заканчиваются соответственно максимальным и минимальным значением из набора.

Чтобы построить нижний ус необходимо выделить нижнюю (невидимую) часть гистограммы (см. рисунок выше). Затем, во вкладке Макет в группе Анализ выбрать команду Планки погрешностей , и, наконец, после раскрытия подменю, пункт Дополнительные параметры планок погрешностей … После этого откроется диалоговое окно.

Установите направление «Минус», выберите пользовательскую величину погрешности и нажмите кнопку Укажите значение . В появившемся окне, в поле Отрицательное значение ошибки, введите ссылку на ячейки содержащие разность значений Q1 и минимальных значений для каждого набора данных.

Для верхнего уса нужно проделать подобные действия, предварительно выделив часть гистограммы соответствующую верхней части блока.

Теперь, используя блочную диаграмму, попытаемся сравнить несколько наборов данных.

Предположим, что необходимо сравнить 5 различных ресторанов по доставке пиццы. В каждом ресторане было сделано по 30-20 заказов, а срок доставки пиццы фиксировался в таблице (в минутах). Пусть наши 5 блочных диаграмм соответствуют этим 5 наборам значений.

Для примера сравним первые 2 ресторана ( выборка №1 и №2).

Очевидно, что второй ресторан справляется гораздо лучше второго: типичное время доставки 1-го ресторана ( медиана ) чуть больше 60 минут, а у второго только 20. Кроме того, IQR (высота блока, соответствующая разбросу значений) у второго ресторана в несколько раз меньше, то есть его срок доставки гораздо более предсказуем, чем у первого. Очевидно, что сравнивать рестораны, используя блочные диаграммы, гораздо проще, чем анализировать данные непосредственно в таблице.

В файле примера также построены Блочная диаграмма с подписями и Блочная диаграмма с горизонтальным размещением .

Блочная диаграмма с подписями построена с помощью обычной гистограммы с группировкой (использованы ряды с перекрытием).

Кроме того, на диаграмме в качестве целевого значения, выведена горизонтальная линия (зеленая). Это целевое значение можно использовать в качестве порога: если типичное значение выборки ниже или выше порогового значения, то соответствующий объект не соответствует некому требованию.

Горизонтальное размещение диаграмм построено на основе диаграммы Линейчатая с группировкой .

Примечание : В файле примера для удобства написания формул использована функция ДВССЫЛ() . Подробнее об этой функции можно прочитать в статье Функция ДВССЫЛ() в MS EXCEL .

Визуализация статистических данных с помощью диаграммы ящик с усами

Предыстория. В связи с холодными днями в мае и июне 2017 г. я изучил климатические данные многолетних наблюдений, и хотел опубликовать заметку о статистическом взгляде на всё это безобразие. В качестве иллюстрации одной из своих идей я построил блочную диаграмму. Во время ее форматирования я обнаружил, что не вполне понимаю, по каким алгоритмам Excel рисует на ней границы квартилей. Углубившись в вопрос, я узнал много нового, о чем захотел поделиться с читателями блога. Но подумал, что описание тонких алгоритмов как бы повисает в воздухе, и поэтому решил начать с небольшого теоретического введения.

Рис. 1. Визуальное представление выборки: (а) диаграмма разброса показывает все элементы выборки; (б) 5-числовая сводка в виде графика ящик с усами

Скачать заметку в формате Word или pdf, примеры в формате Excel

5-числовая сводка данных

Изучая выборку, мы можем визуализировать все ее значения (рис. 1а), а можем научиться выражать в сжатом виде наиболее часто встречающиеся общие особенности. В последнем случае используют сводки данных. Сегодня наиболее популярными сводками (или статистиками) являются среднее значение и среднеквадратичное отклонение (подробнее см. Определение среднего значения, вариации и формы распределения. Описательные статистики). Однако, во-первых, так было не всегда, а во-вторых, не во всех случаях эти статистики лучше всего описывают выборку.

Любопытный пример приводит Нассим Николас Талеб (см. Черный лебедь. Под знаком непредсказуемости). Если вы определяете средний рост 100 человек, то нахождение среди этой сотни самого высокого человека в мире (2 м 72 см) не сильно изменит среднее значение. А вот если вы определяете среднее богатство 100 человек, то наличие среди них Билла Гейтса ($86,8 млрд.) полностью исказит картину. В этих случаях более релевантной сводкой является медиана.

Медиана – такое число, что ровно половина из элементов выборки больше него, а другая половина меньше него. Если случайные данные упорядочить по возрастанию, получится вариационный ряд. Если такой ряд содержит нечетное число элементов, то медиана – среднее из них; если четное, то медиана – половина суммы двух средних элементов.

В своей, уже ставшей классической, работе Анализ результатов наблюдений. Разведочный анализ Джон Тьюки предлагает 5-числовые сводки, которые включают: минимальное значение, первый квартиль, медиану, третий квартиль, максимальное значение. Процесс нахождения медианы, а затем квартилей можно представить себе, как складывание листа бумаги. Поэтому эти новые значения Тьюки называет сгибами (подробнее см. КВАРТИЛЬ: какие формулы расчета использует Excel). Чтобы представить 5-чиловую сводку визуально, Тьюки предлагает построить график ящик с усами (рис. 1б).

Диаграмма ящик с усами в Excel 2016

В предыдущих версиях Excel приходилось шаманить, чтобы представить статистические данные (см., например, Биржевая диаграмма, она же блочная, она же ящичная). В качестве альтернативы я иногда использовал R (см. Алексей Шипунов. Наглядная статистика. Используем R!). Сейчас же визуализация статистических данных выполняется в несколько кликов. Очень удобно! Вот только Microsoft почему-то сделал весьма краткое описание того, что же собственно отражают элементы диаграммы ящик с усами (см. поддержку MS). Восполним же этот пробел))

Построим диаграмму ящик с усами на основе данных о средних температурах июля за последние 30 лет (рис. 2).

Рис. 2. Основные настройки диаграммы ящик с усами

На рисунке под диаграммой рассчитана 5-числовая сводка. На диаграмме:

  • нижний ус соответствует минимальному значению в выборке данных,
  • низ ящика – 1-му квартилю,
  • линия внутри ящика – медиане,
  • верх ящика – 3-му квартилю,
  • верхний ус – второму максимальному значению (выбросы не учитываются); если бы данные не содержали выброса, верхний ус соответствовал бы максимальному значению,
  • опциально отдельными точками показаны выбросы.

Рассмотрим параметры ряда подробнее (см. Формат ряда данных на правой части рис. 2). Боковой зазор определяет ширину ящика и ширину горизонтальных границ усов, а также расстояние между ящиками, если их несколько (рис. 3). Параметр Показать внутренние точки – говорит сам за себя (рис. 4). Показать точки выбросов – любопытно, что Excel просто перестает показывать выбросы, при этом никак не меняет параметры ящика и усов (рис. 5). Показать средние метки – наряду с медианной линией отражает в виде крестика среднее арифметическое значение по выборке (рис. 6). Видно, что среднее арифметическое смещено относительно медианы вверх (в сторону выброса). Среднее арифметическое более чувствительно к выбросам по сравнению с медианой. Показать среднюю линию – соединяет средние значения разных категорий. У меня не получилось отразить эти линии. А у Дмитрия Езипова получилось.

Рис. 3. Боковой зазор: слева – 300%, справа – 100%

Рис. 4. Показать внутренние точки; слева параметр выключен, справа – включен

Рис. 5. Показать точки выбросов; слева параметр выключен, справа – включен

Рис. 6. Показать средние метки; слева параметр выключен, справа – включен

Какой метод расчета квартилей предпочесть

И, наконец, самый непонятный параметр форматирования диаграммы ящик с усами – Расчет квартиля. В сообществе статистиков нет единого мнения, по какому алгоритму считать квартили. В Excel используется два алгоритма. Если вы хотите в них досконально разобраться, рекомендую КВАРТИЛЬ: какие формулы расчета использует Excel. Если кратко, то в Excel есть две функции КВАРТИЛЬ.ИСКЛ() и КВАРТИЛЬ.ВКЛ(). Первая использует алгоритм эксклюзивной медианы, вторая – инклюзивной. Алгоритм расчета квартилей в первом случае дает значения чуть более далекие от медианы, т.е. ящик немного более вытянутый. Визуально это не разглядеть, и только если добавить подписи данных, то числа покажут этот эффект (рис. 7).

Рис. 7. Расчет квартиля: (а) эксклюзивная медиана, (б) инклюзивная медиана

Если вы обрабатываете данные в разных программах (Excel, R, SAS…), то для совместимости, наверное, лучше использовать квартили, рассчитанные по методу эксклюзивной медианы. Поскольку этот метод используется во всех продуктах, вы получите одинаковые числа в разных программах. Если же вы работаете только в Excel, я бы рекомендовал метод инклюзивной медианы. Он более чувствителен к выбросам, т.е. при прочих равных КВАРТИЛЬ.ВКЛ() определит точку как выброс при меньшем отклонении от медианы (рис. 8).

Рис. 8. (б) Точка, которая идентифицируется функцией КВАРТИЛЬ.ВКЛ(), как выброс, в то время, как (а) КВАРТИЛЬ.ИСКЛ() еще не считает эту точку выбросом

Ссылка на основную публикацию