Что такое избыточное сообщение

Обновлено: 05.07.2024

M – количество различных букв в алфавите;

H(X) – средняя энтропия на одну букву.

Избыточность источника R показывает на сколько хорошо используются буквы в данном источнике. Чем меньше R, тем большее количество информации вырабатывается источником на одну букву. Однако, не всегда необходимо стремиться к R = 0. С повышением избыточности повышается помехоустойчивость (надежность) источника. Выяснение количества избыточности важно потому, что мы должны вводить ее разумно, чтобы получить максимальный эффект помехозащищенности, а не полагаться на стихию. Например, избыточность любого языка оказывается порядка 50-70%, то есть если бы все буквы имели одинаковую вероятность использования и можно было бы использовать любые комбинации букв, то среднюю длину слова можно было бы значительно уменьшить. Однако разбираться в этой записи было бы значительно труднее, особенно при наличии ошибок (лектора или студента).

Современные системы связи построены без учета ограничений, существующих в языке, а поэтому не достаточно эффективны, так как они приспособлены для передачи равновероятных букв алфавита, которые могут следовать друг за другом в любых комбинациях.

Колоссальная избыточность присуща телевизионным изображениям: естественно передавать не весь кадр, а только информацию соответствующую тому, чем отличается один кадр от другого. Этим можно существенно сократить требуемую (в среднем) полосу частот.

Различают две составляющие избыточности:

избыточность, обусловленная статистической взаимосвязью букв между собой:

где H(X) – энтропия для букв, когда они неравновероятны и взаимосвязаны;

H₁(X) – энтропия для букв, когда они статистически не взаимосвязаны и неравновероятны.

избыточность, обусловленная распределением вероятностей между буквами алфавита:

Но статистические связи между элементами укрупненного алфавита падают R_с ≈ 0; следовательно возрастает неравномерность употребления отдельных букв алфавита M₂, то есть R_р2 >> R_р1; R_р2 ≈ R₁ ≈ R₂.

Доказательство, что R₁ ≈ R₂ сводится к следующему:

Из свойства аддитивности информации следует, что в одном элементе второго алфавита содержится столько же информации, сколько ее содержится в n элементах первичного алфавита. Среднее количество информации на один элемент первого алфавита – H₁; математическое ожидание на n элементов первого алфавита – n · H₁ равно информации на один элемент второго алфавита H₂(X) = n · H₁.

2. Избыточность второго алфавита

Избыточность языка подсчитывается по формуле:

где H_max = log M, а M – число букв в алфавите.

а 0; 1; 2… – количество букв между которыми учитываются взаимосвязи.

Примеры

1. Во сколько раз больше содержится информации на странице текста для иностранца, начавшего изучать новый для себя язык (например, русский) и для носителя языка?

Ответ. Для носителя языка среднее количество информации на одну букву определяется как H_языка ≈ H₃₀ = 1.35 бит ⁄_буква, а для иностранца, плохо знающего словарь и не учитывающему взаимосвязь букв между собой H = H₀ или H₁, что соответствует

То есть на странице текста для носителя языка содержится информации в

2. Во сколько раз удлиняется текст в деловых бумагах, если их избыточность составляет 90÷95%?

Ответ. При такой избыточности энтропия на одну букву составляет:

В то время как в письменной речи: H_∞(X) = 0.87÷1.37 бит ⁄_буква.

Большая советская энциклопедия. — М.: Советская энциклопедия . 1969—1978 .

Полезное

Избыточность — наличие в техническом устройстве возможностей сверх тех, которые могли бы обеспечить его нормальное функционирование. И. вводится для повышения надёжности работы изделия в различных условиях эксплуатации или для исключения влияния на… … Большая советская энциклопедия

Избыточность информации — В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете … Википедия

Избыточность данных — Обнаружение ошибок в технике связи действие, направленное на контроль целостности данных при записи/воспроизведении информации или при её передаче по линиям связи. Исправление ошибок (коррекция ошибок) процедура восстановления информации после… … Википедия

MIL-STD-1553 — (MIL STD 1553B) стандарт Министерства обороны США, распространяется на магистральный последовательный интерфейс (МПИ) с централизованным управлением, применяемый в системе электронных модулей. Изначально разрабатывался по заказу МО США для… … Википедия

КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ — процесс представления информации в определенной стандартной форме и обратный процесс восстановления информации по ее такому представлению. В математич. литературе кодированием наз. отображение произвольного множества Ав множество конечных… … Математическая энциклопедия

ИЗБЫ́ТОЧНОСТЬ СООБЩЕ́НИЙ, понятие теории информации, численно оценивающее возможность сокращения записи сообщений. Наличие избыточности в записи сообщений к.-л. источника информации проявляется в возможности записать их в среднем более кратко, используя те же самые знаки (т. е. используя код с тем же алфавитом, см. Кодирование ). Напр., если рассматриваемые сообщения представляют собой последовательности знаков $0$ и $1$ , в которых единица встречается в среднем один раз на десять знаков, то, применяя кодирование по правилу $00 → 0, 01 → 10, 10 → 110, 11 → 111$ , можно в среднем сократить запись почти вдвое. Макс. доля лишних знаков определяется по статистич. свойствам источника сообщений и называется его избыточностью. Для И. с. $R$ справедлива формула $R = 1 – H/\text_2m$ , где $m$ – число букв алфавита, $H$ – энтропия источника на букву сообщения. В приведённом примере И. с. равна 0,53. Минимальной И. с., равной нулю, обладает только последовательность, в которой знаки независимы и с вероятностью $1/m$ могут совпадать с любой из букв алфавита.

Связь может быть проведена устойчива к ошибкам через избыточную информацию через информационный канал , так как потеряна или фальсифицирован частичная информация может быть восстановлена из своего контекста на получателе при определенных обстоятельствах . Расстояние Хэмминга является мерой отказоустойчивости .

Средняя длина кодового слова

Средняя длина кодового слова исходного кода с распределением вероятностей определяется как: Л. ( С. ) С. ( z ) п ( z )

Избыточность кода

Избыточность кода разница между средней длиной кодового слова и энтропией . (Пример: кодирование Хаффмана для оптимального (= минимального) ). Л. ( С. ) ЧАС ( Икс ) Л. ( С. )

Поскольку длина кодового слова не может быть меньше энтропии, избыточность никогда не бывает отрицательной.

Кодирование

В теории кодирования различают два проявления избыточности:

В распределении резервирования заключается в различной вероятности появления отдельных символов алфавита.
Избыточность галстука является то , что после определенных символов, появление некоторого другого характера, в частности , скорее всего. Например, в немецком тексте за q почти всегда следует u.

Базы данных и структуры данных

При разработке баз данных и в структурах данных программ важно как можно полнее избегать избыточности, поскольку это может привести к более высоким требованиям к памяти и несогласованности . Поэтому избыточности считаются аномалиями . Свобода от избыточности - основной принцип логической модели данных.

Избыточности можно в значительной степени избежать , нормализовав схему базы данных. Есть также дублирование, которое неизбежно (например, дублирование ключей ) и поэтому принимается как неизбежное зло . Также допустимы избыточности, поскольку их устранение потребовало бы слишком больших усилий по отношению к их проблеме, например, многократное вхождение значения атрибута или двойное хранение имени Мюллер для г-на Мюллера и для г-жи Мюллер.

Преднамеренное принятие избыточности для повышения производительности чтения называется денормализацией .

недостаток

Избыточность структур данных программ и баз данных может привести к программным ошибкам. Программист должен убедиться, что он также поддерживает согласованность избыточных данных со всеми изменениями . Это требует больших усилий по синхронизации. Чем крупнее проект и чем дольше он разрабатывается, тем сложнее. Когда несколько программистов неосознанно работают независимо с избыточными данными, поддерживать согласованность изменений практически невозможно.

преимущества

В некоторых случаях намеренно созданная избыточность данных сокращает время вычислений программного обеспечения. Этого можно добиться за счет целевой денормализации . Однако эту точно рассчитанную и желаемую избыточность следует четко отличать от небрежно созданной избыточности, поскольку кто-то не применяет правила нормализации. Денормализация обычно улучшает производительность чтения, но снижает производительность записи.

литература

веб ссылки

Основы теории информации (по состоянию на 23 февраля 2018 г.)
Coding Theory (по состоянию на 23 февраля 2018 г.)

Эта страница последний раз была отредактирована 5 июля 2021 в 16:37.

Читайте также: