Что такое гистограмма и когда используется кратко

Обновлено: 04.07.2024

Для гистограммы , используемой при обработке цифровых изображений, см гистограмму изображения и цвета гистограммы .

Гистограмма
Один из семи основных инструментов качества
Впервые описано Карл Пирсон
Цель Для грубой оценки распределения вероятности данной переменной, отображая частоты наблюдений, происходящих в определенных диапазонах значений.

Однако бункеры не обязательно должны быть одинаковой ширины; в этом случае возведенный прямоугольник определяется так, чтобы его площадь была пропорциональна частоте случаев в бункере. [3] Тогда по вертикальной оси отложена не частота, а плотность частоты - количество наблюдений на единицу переменной на горизонтальной оси. Примеры переменной ширины бункера показаны ниже в данных бюро переписи.

Поскольку соседние интервалы не оставляют промежутков, прямоугольники гистограммы касаются друг друга, чтобы указать, что исходная переменная является непрерывной. [4]

Гистограммы дают приблизительное представление о плотности основного распределения данных, и часто для оценки плотности : оценки функции плотности вероятности основной переменной. Общая площадь гистограммы, используемой для плотности вероятности, всегда нормализована к 1. Если длина интервалов на оси x равна 1, то гистограмма идентична графику относительной частоты .

Гистограмму можно рассматривать как упрощенную оценку плотности ядра , которая использует ядро для сглаживания частот по ячейкам. Это дает более гладкую функцию плотности вероятности, которая в целом будет более точно отражать распределение базовой переменной. Оценка плотности может быть нанесена на график в качестве альтернативы гистограмме и обычно отображается в виде кривой, а не набора прямоугольников. Тем не менее гистограммы предпочтительны в приложениях, когда необходимо моделировать их статистические свойства. Коррелированное изменение оценки плотности ядра очень сложно описать математически, в то время как это просто для гистограммы, где каждый интервал изменяется независимо.

Альтернативой оценке плотности ядра является гистограмма со смещением среднего значения [5], которая быстро вычисляется и дает оценку плотности сглаженной кривой без использования ядер.

Гистограммы иногда путают с гистограммами. Гистограмма используется для непрерывных данных , где ячейки представляют диапазоны данных, а гистограмма представляет собой график категориальных переменных. Некоторые авторы рекомендуют, чтобы на гистограммах были промежутки между прямоугольниками, чтобы прояснить различие. [7] [8]

image



Рассмотрим произвольную выборку вещественных чисел , будем обозначать порядковую статистику , такую что .

Скорее всего все поменять этот тип графика из школьной или университетской программы, который выглядит приблизительно так как на картинке.

Пример гистограммы

  • число столбцов (которые называются bins или bars)
  • абсолютные или плотностные отсчеты по оси y
  • как сгруппированы данные

Столбцы

В подавляющем большинстве случаев гистограмма определена на отрезке , где — исходная выборка, вспомогательные константы, округляющие до ближайших “читаемых” чисел, которые в каждом случае зависят от масштаба и, обычно, это делители десятки в масштабе исходных данных. Если вдруг стало интересно, как ставить отсечки в данных, то можно посмотреть ссылку: R (pretty).

  • Правило Стёрджеса (Не фотограф).
  • Правило Скотта.
  • Правило Фридмана-Дьякониса.
  • хорошо чтобы в большинстве столбцов было больше одного исходного значения
  • каждый столбец гистограммы требует хотя бы одного пикселя по ширине, и в целом ограничение “не более 200” столбцов достаточно распространено

Штрихкод

Ось Y

Гистограммы бывают в абсолютных значениях, когда по оси y откладывается количество элементов исходной выборки попавших в каждый из интервалов, и в относительных, когда сумма столбцов нормируются на единицу, в этом случае гистограмма является оценкой плотности распределения и с точки зрения графика меняется лишь масштаб.

Так как обычная гистограмма является оценкой плотности, то мы можем суммировать столбцы и получить оценку функции вероятности следующим образом: . Два следующих графика построены по одним и тем же данным, слева не нормализованная гистограмма, справа аккумулированные значения нормализованной гистограммы.

Группировка данных

До сих пор был рассмотрен случай, когда у нас есть характеристика, на которую мы просто хотим взглянуть, обычно намного более интересно сравнивать поведение одной и той же характеристики для различных подгрупп. В таком случае гистограмма будет иметь следующий вид.

Гистограмма с тремя группами c уклонением

Гистограмма с тремя группами с перекрытием

В данном случае, ширина каждого столбца для каждой группы уменьшается пропорционально числу групп и слегка сдвигаются друг относительно друга, в качестве альтернативы можно рассмотреть полупрозрачное перекрытие, которое будет выглядеть следующим образом для тех же данных.

В сухом остатке

  • Число столбцов
  • Нужна ли нормализация и аккумулирование данных
  • Способ отображения различных групп
  • значение границ столбцов, где самое первое значение -координата левой границы самого левого столбца, а последнее — -координата правой границы самого правого столбца
  • значений — количество элементов попавших в каждый из столбцов.

“Ящик с усами” не имеет официально устоявшегося названия, а называть его “ящиком с усами“ у меня язык не поворачивается, тем более когда ящиков несколько, а диаграмма размаха хоть и не очень частотное, но более благозвучное название. Приведем пример трех ящиков слева отображены соответствующие значения исходных данных (не являются частью диаграммы размаха). Прежде всего необходимо отметить, что в случае диаграмм размаха, исходная характеристика откладывается по оси Y, а ось X условна и представляет собой группирующую переменную.

Диаграмма размаха, пример

  • Первый квартиль
  • Медиану
  • Третий квартиль
  • Минимум
  • Максимум
  • Пятипроцентный персентиль
  • Девяностопятипроцентный персентиль
  • Множество экстремальных значений ,

Ящик с усами в разрезе

Некоторые моменты требуют пояснения. Ящик, то есть объект между и , практически везде ограничен этими значениями, а вот “усы” могут различаться и если вас действительно интересуют числа, необходимо уточнять, что имеется в виду в каждом отдельном случае. Самое важное это длина усов: исходим из того, что она .

Отметки минимума и максимума часто опускаются, экстремальные точки, то есть выходящие за пределы усов тоже опускаются либо рисуются точками или звездочками. В зависимости от структуры данных желание отрисовывать экстремальные значения может значительно увеличить объем данных для отрисовки диаграммы размаха.

Магическое число появилось в работе Тьюки Exploratory Data Analysis (1977) и причина его появления не очень ясна, но с тех времен ничего не менялось, многие инструменты предлагают его в качестве значения по умолчанию, но позволяют выставлять произвольное, вплоть до нуля, в этом случае, “усы” будут покрывать весь отрезок от минимального до максимального значений исходных данных.

Есть предположение, что возникло следующим образом. Ширина усов составляет , известно, что для симметричных распределений совпадает с абсолютным отклонением от медианы (MAD), которая в свою очередь, является оценкой дисперсии с коэффициентом . А значит, , мы получаем не безызвестные 3 сигмы влево, 3 сигмы вправо.
Иногда в качестве концов усов предлагается интервал , в таком случае очевидно, что всегда (если исходных данных больше 20) должны получаться точки, не попадающие внутрь интервала и поэтому их обычно игнорируют при таком подходе.

столбчатая диаграмма, один из видов графического изображения статистического распределении каких-либо величин по количественному признаку. Г. представляет собой совокупность смежных прямоугольников, построенных на прямой линии. Площадь каждого прямоугольника пропорциональна частоте нахождения данной величины в изучаемой совокупности. Пусть, например, измерение диаметров стволов 624 сосен дало следующие результаты:

На горизонтальной оси откладываются границы групп, на которые стволы разбиты по их диаметру, и на отрезке, соответствующем каждой группе, строится как на основании прямоугольник с площадью, пропорциональной числу стволов, попавших в данную группу (рис. 1).

В виде Г. часто изображают гранулометрический состав горных пород. В этом случае на вертикальной оси откладывают процентное содержание полученных групп частиц т. н. фракций, а на горизонтальной оси — логарифмы их граничных размеров (рис. 2). Использование логарифмов вызвано тем, что при гранулометрическом анализе частицы подразделяются на фракции, размеры которых убывают в геометрической прогрессии. Иногда Г. строятся на произвольно выбранных равных отрезках, независимо от разности граничных размеров фракций. Тогда высоты столбиков пропорциональны содержанию размеров фракций.

Большая советская энциклопедия. — М.: Советская энциклопедия . 1969—1978 .

Полезное

Смотреть что такое "Гистограмма" в других словарях:

гистограмма — гистограмма … Орфографический словарь-справочник

ГИСТОГРАММА — (histogram) Диаграмма, представляющая распределение переменной величины, в том случае если имеется информация об отдельных ее значениях. Площади на диаграмме пропорциональны числу соответствующих наблюдений в каждом интервале, например ежегодных… … Экономический словарь

Гистограмма — (histogram) График распределения частот, который строится при помощи прямоугольников, чья площадь пропорциональна частоте нахождения данной величины в интервале, на котором построен данный прямоугольник. Бизнес. Толковый словарь. М.: ИНФРА М ,… … Словарь бизнес-терминов

ГИСТОГРАММА — (от греч. histos здесь столб и . грамма) (столбчатая диаграмма), один из видов графического изображения статистических распределений какой либо величины по количественному признаку. Гистограмма представляет собой совокупность смежных… … Большой Энциклопедический словарь

Гистограмма — фигура, получающаяся на плоскости, где введены декартовы координаты и по оси абсцисс отложены группированные наблюдения, а по оси ординат число соответствующих наблюдений. Верхняя часть контура Г. есть статистический аналог плотности… … Геологическая энциклопедия

Гистограмма — в техническом анализе интервальный график, на котором каждому временному интервалу ставится в соответствие отрезок прямой (палочка), начало и конец которого есть высшая и низшая цены периода. При этом цены открытия и закрытия отмечаются на… … Финансовый словарь

гистограмма — – это способ графического представления распределения числовых (непрерывных) данных, часто используемый в разведочном анализе данных для иллюстрации основных характеристик распределения. Диапазон возможных значений переменной делится на отрезки,… … Словарь социологической статистики

ГИСТОГРАММА — ГИСТОГРАММА, столбчатовидная диаграмма, столбцы которой представляют собой частоту (в абсолютных величинах или процент от общего), с которой определенные величины (или диапазоны величин) встречаются в пределах некоторого набора данных. см. также… … Научно-технический энциклопедический словарь

гистограмма — сущ., кол во синонимов: 1 • диаграмма (9) Словарь синонимов ASIS. В.Н. Тришин. 2013 … Словарь синонимов

Гистограмма – это графическое представление, которое упорядочивает группу точек данных в определенные пользователем диапазоны. По внешнему виду он похож на гистограмму . Гистограмма уплотняет ряд данных в легко интерпретируемый визуальный элемент, беря множество точек данных и группируя их в логические диапазоны или интервалы.

Ключевые моменты

  • Гистограмма – это представление данных в виде гистограммы, которое объединяет диапазон результатов в столбцы по оси x.
  • Ось Y представляет собой количество или процент вхождений в данные для каждого столбца и может использоваться для визуализации распределения данных.
  • В торговле гистограмма MACD используется техническими аналитиками для обозначения изменений импульса.

Пример гистограммы

Как работают гистограммы

Гистограммы обычно используются в статистике, чтобы продемонстрировать, сколько переменных определенного типа встречается в определенном диапазоне. Например, перепись населения, ориентированная на демографию страны, может использовать гистограмму, чтобы показать, сколько людей находится в возрасте от 0 до 10, 11 и 20, 21 и 30, 31 и 40, 41 и 50 и т. Д. Эта гистограмма будет выглядеть аналогично приведенному выше примеру.

Многие трейдеры знакомы с гистограммой расхождения конвергенции скользящих средних (MACD), которая является популярным техническим индикатором , показывающим разницу между линией MACD и сигнальной линией.

Например, если разница между двумя линиями составляет 5 долларов, гистограмма MACD графически представляет эту разницу. Гистограмма MACD нанесена на график, чтобы трейдер мог легко определить импульс конкретной ценной бумаги.

Полоса гистограммы является положительной, когда линия MACD находится выше сигнальной линии , и отрицательной, когда линия MACD находится ниже сигнальной линии. Возрастающая гистограмма MACD указывает на увеличение восходящего импульса, в то время как убывающая гистограмма используется для сигнала нисходящего импульса.

Пример гистограммы MACD

Торговля с гистограммой MACD

Трейдеры часто упускают из виду гистограмму MACD при использовании этого индикатора для принятия торговых решений. Слабость использования индикатора MACD в его традиционном понимании, когда линия MACD пересекает сигнальную линию, заключается в том, что торговый сигнал отстает от цены. Поскольку две линии являются скользящими средними, они не пересекаются до тех пор, пока не произойдет движение цены. Это означает, что трейдеры отказываются от части этого начального движения.

Гистограмма MACD помогает решить эту проблему, генерируя более ранние сигналы входа. Трейдеры могут отслеживать длину столбцов гистограммы по мере их удаления от нулевой линии. Индикатор генерирует торговый сигнал, когда столбец гистограммы короче предыдущего бара. Как только меньшая полоса гистограммы завершается, трейдеры открывают позицию в направлении снижения гистограммы. Другие технические индикаторы следует использовать вместе с гистограммой MACD, чтобы повысить надежность сигнала. Трейдеры должны разместить стоп-лосс, чтобы закрыть сделку, если цена ценной бумаги не изменится, как ожидалось.

Гистограмма представляет собой диаграмму (обычно столбиковую), которая используется в статистике для графического представления распределения вероятностей значений случайной величины. По горизонтальной оси гистограммы откладывается диапазон наблюдаемых значений величины, разбитый на определенное число (обычно 10-15) интервалов, а по вертикальной — вероятность или частота ее попадания в каждый интервал. Тогда столбик будет отражать значения этих показателей для интервала, на который он опирается.

Чтобы построить гистограмму частот, просто подсчитывают, сколько раз значение случайной величины попало в каждый интервал. Для перехода к вероятностям достаточно разделить количество значений в каждом интервале на общее число наблюдений. Очевидно, что в этом случае сумма всех столбцов гистограммы будет равна 1, как и площадь под кривой закона распределения.

Гистограмма частот представлена на следующем рисунке.

По гистограмме частот на рисунке можно предположить, что случайная величина x описывается законом, близким к нормальному, и имеет наиболее вероятное значение, лежащее в пределах 80-90. Достаточно вероятными будут значения из интервала 60-100 и очень маловероятными — меньше 30 и больше 120.

Так, если x — сумма кредитов, взятых за месяц, то гистограмму можно интерпретировать следующим образом. За период наблюдений наиболее востребованными являлись кредиты на сумму от 60 до 100 тыс. руб. Кредиты на сумму менее 40 тыс. руб. и более 110 тыс. руб. практически не выдавались. Данная информация может быть использована при разработке маркетинговой стратегии банка.

На следующем рисунке представлена гистограмма вероятностей.

Иногда применяют так называемую кумулятивную гистограмму, или гистограмму с накоплением, в которой каждый столбец содержит в себе сумму частот предыдущих.

В Loginom существует специализированный визуализатор Статистика, который предназначен для просмотра различных статистических показателей (одним из которых является гистограмма) по каждому полю набора данных.

Читайте также: