Что такое избыточное сообщение

Обновлено: 09.05.2024

M – количество различных букв в алфавите;

H(X) – средняя энтропия на одну букву.

Избыточность источника R показывает на сколько хорошо используются буквы в данном источнике. Чем меньше R, тем большее количество информации вырабатывается источником на одну букву. Однако, не всегда необходимо стремиться к R = 0. С повышением избыточности повышается помехоустойчивость (надежность) источника. Выяснение количества избыточности важно потому, что мы должны вводить ее разумно, чтобы получить максимальный эффект помехозащищенности, а не полагаться на стихию. Например, избыточность любого языка оказывается порядка 50-70%, то есть если бы все буквы имели одинаковую вероятность использования и можно было бы использовать любые комбинации букв, то среднюю длину слова можно было бы значительно уменьшить. Однако разбираться в этой записи было бы значительно труднее, особенно при наличии ошибок (лектора или студента).

Современные системы связи построены без учета ограничений, существующих в языке, а поэтому не достаточно эффективны, так как они приспособлены для передачи равновероятных букв алфавита, которые могут следовать друг за другом в любых комбинациях.

Колоссальная избыточность присуща телевизионным изображениям: естественно передавать не весь кадр, а только информацию соответствующую тому, чем отличается один кадр от другого. Этим можно существенно сократить требуемую (в среднем) полосу частот.

Различают две составляющие избыточности:

избыточность, обусловленная статистической взаимосвязью букв между собой:

где H(X) – энтропия для букв, когда они неравновероятны и взаимосвязаны;

H₁(X) – энтропия для букв, когда они статистически не взаимосвязаны и неравновероятны.

избыточность, обусловленная распределением вероятностей между буквами алфавита:

Но статистические связи между элементами укрупненного алфавита падают R_с ≈ 0; следовательно возрастает неравномерность употребления отдельных букв алфавита M₂, то есть R_р2 >> R_р1; R_р2 ≈ R₁ ≈ R₂.

Доказательство, что R₁ ≈ R₂ сводится к следующему:

Из свойства аддитивности информации следует, что в одном элементе второго алфавита содержится столько же информации, сколько ее содержится в n элементах первичного алфавита. Среднее количество информации на один элемент первого алфавита – H₁; математическое ожидание на n элементов первого алфавита – n · H₁ равно информации на один элемент второго алфавита H₂(X) = n · H₁.

2. Избыточность второго алфавита

Избыточность языка подсчитывается по формуле:

где H_max = log M, а M – число букв в алфавите.

а 0; 1; 2… – количество букв между которыми учитываются взаимосвязи.

Примеры

1. Во сколько раз больше содержится информации на странице текста для иностранца, начавшего изучать новый для себя язык (например, русский) и для носителя языка?

Ответ. Для носителя языка среднее количество информации на одну букву определяется как H_языка ≈ H₃₀ = 1.35 бит ⁄_буква, а для иностранца, плохо знающего словарь и не учитывающему взаимосвязь букв между собой H = H₀ или H₁, что соответствует

То есть на странице текста для носителя языка содержится информации в

2. Во сколько раз удлиняется текст в деловых бумагах, если их избыточность составляет 90÷95%?

Ответ. При такой избыточности энтропия на одну букву составляет:

В то время как в письменной речи: H_∞(X) = 0.87÷1.37 бит ⁄_буква.

Итерация в программировании — в широком смысле — организация обработки данных, при которой действия повторяются многократно, не приводя при этом к вызовам самих себя (в отличие от рекурсии). В узком смысле — один шаг итерационного, циклического процесса.

Гибри́дная (или комбини́рованная) криптосисте́ма — это система шифрования, совмещающая преимущества криптосистемы с открытым ключом с производительностью симметричных криптосистем. Симметричный ключ используется для шифрования данных, а асимметричный для шифрования самого симметричного ключа, иначе это называется числовой упаковкой.

В программировании понятие флаг относится к одному или нескольким битам памяти, используемым для хранения двоичной комбинации или кода, который характеризует состояние некоторого объекта. Флаги обычно входят в определённые структуры данных, такие как записи баз данных, и их значения, как правило, связаны со значением структур данных, частью которых они являются. Во многих случаях двоичное значение флага представляет собой кодированное представление одного из нескольких возможных состояний или статусов.

Мемоизация (запоминание, от англ. memoization (англ.) в программировании) — сохранение результатов выполнения функций для предотвращения повторных вычислений. Это один из способов оптимизации, применяемый для увеличения скорости выполнения компьютерных программ. Перед вызовом функции проверяется, вызывалась ли функция ранее.

Таблица векторов прерываний (англ. Interrupt Descriptor Table, IDT) используется в архитектуре x86 и служит для определения корректного ответа на прерывания и исключения.

Упоминания в литературе

Связанные понятия (продолжение)

Экранирование символов — замена в тексте управляющих символов на соответствующие текстовые подстановки. Один из видов управляющих последовательностей.

Коди́рование — процесс написания программного кода, скриптов, с целью реализации определённого алгоритма на определённом языке программирования.

Выравнивание данных в оперативной памяти компьютеров — способ размещения данных в памяти особым образом для ускорения доступа.

Метка (англ. label) — символьное имя, идентификатор для более удобного указания данных и кода в языках программирования. Позволяет программисту обходиться без вычисления и пересчёта адресов и смещений внутри программы (эти действия за него выполняет компилятор). Несмотря на то, что большинство языков программирования высокого уровня поддерживают операции с метками, их использование крайне нежелательно, так как программный код становится плохочитаемым, и отладка такой программы занимает большее время.

Глобальная переменная в программировании — переменная, областью видимости которой является вся программа, кроме специально затенённых областей. Механизмы взаимодействия с глобальными переменными называют механизмами доступа к глобальному окружению или состоянию (англ. global environment, global state). Глобальные переменные могут использоваться для взаимодействия между процедурами и функциями как альтернатива передачи аргументов и возвращения значений.

Атака возврата в библиотеку (англ. Return-to-libc attack) — один из видов компьютерных атак, популярных на x86-совместимых машинах и схожие с ними, связанных с переполнением буфера, когда адрес возврата функции на стеке подменяется адресом иной функции в программе, и в последующую часть стека записываются параметры для вызываемой функции. Эта техника позволяет нападающему выполнить какую-либо существующую функцию без необходимости внедрять вредноносный код в программу.

Кома́нда перехо́да — команда процессора, которая нарушает непрерывную последовательность исполнения команд, вынуждая выбирать и исполнять последующие команды с произвольно заданного адреса. Используется для организации условных операторов, циклов, для связи с подпрограммами. Исполнение команды перехода в современных микропроцессорах чревато потерями производительности из-за простоев конвейера.

Управляющая последовательность (исключённая последовательность, экранированная последовательность, от англ. escape sequence) — совокупность идущих подряд значащих элементов, в группе теряющих для обрабатывающего механизма своё индивидуальное значение, одновременно с приобретением этой группой нового значения.

Индексный регистр — регистр процессора в современных ЦПУ, используемый для автоматического изменения адреса операнда во время исполнения программы.

В статистике метод оценки с помощью апостериорного максимума (MAP) тесно связан с методом максимального правдоподобия (ML), но дополнительно при оптимизации использует априорное распределение величины, которую оценивает.

Число́ полови́нной то́чности (англ. half precision) — компьютерный формат представления чисел, занимающий в памяти половину компьютерного слова (в случае 32-битного компьютера — 16 бит или 2 байта). Диапазон значений ± 2−24(5.96E-8) — 65504. Приблизительная точность — 3 знака (10 двоичных знаков, log10(211)).

Псевдопреобразова́ние Адама́ра (англ. Pseudo-Hadamard Transform, PHT) — обратимое преобразование битовых строк, используемое в криптографии для обеспечения диффузии при шифровании. Количество бит на входе преобразования должно быть чётным, чтобы было возможным разделение строки на две части равной длины. Создателем преобразования является французский математик Жак Адамар.

Маршалинг (от англ. marshal — упорядочивать) в информатике — процесс преобразования информации (данных, двоичного представления объекта), хранящейся в оперативной памяти, в формат, пригодный для хранения или передачи. Процесс похож на сериализацию (отличия см. ниже). Обычно применяется тогда, когда информацию (данные, объекты) необходимо передавать между различными частями одной программы или от одной программы к другой.

Дескриптор сегмента (в архитектуре x86) — служебная структура в памяти, которая определяет сегмент. Длина дескриптора равна 8 байт .

Прототипом функции в языке Си или C++ называется объявление функции, не содержащее тела функции, но указывающее имя функции, арность, типы аргументов и возвращаемый тип данных. В то время как определение функции описывает, что именно делает функция, прототип функции может восприниматься как описание её интерфейса.

Менеджер памяти — часть компьютерной программы (как прикладной, так и операционной системы), обрабатывающая запросы на выделение и освобождение оперативной памяти или (для некоторых архитектур ЭВМ) запросы на включение заданной области памяти в адресное пространство процессора.

Условная переменная — примитив синхронизации, обеспечивающий блокирование одного или нескольких потоков до момента поступления сигнала от другого потока о выполнении некоторого условия или до истечения максимального промежутка времени ожидания. Условные переменные используются вместе с ассоциированным мьютексом и являются элементом некоторых видов мониторов.

Цепочка хешей — результат последовательного применения криптографической хеш-функции к некоторой строке. В компьютерной безопасности цепочка хешей используется для воспроизведения множества одноразовых паролей по одному ключу или паролю. Цепочки хешей используются для реализации неотказуемости путём применения к данным для записи хронологии их существования.

В программировании, ассемблерной вставкой называют возможность компилятора встраивать низкоуровневый код, написанный на ассемблере, в программу, написанную на языке высокого уровня, например, Си или Ada. Использование ассемблерных вставок может преследовать следующие цели.

Аккумулятор (регистр процессора) — регистр процессора, в котором сохраняются результаты выполнения арифметических и логических команд. Кроме регистра-аккумулятора результаты работы команд могут сохраняться в регистрах общего назначения или в оперативной памяти.

Точка следования (англ. sequence point) — в программировании любая точка программы, в которой гарантируется, что все побочные эффекты предыдущих вычислений уже проявились, а побочные эффекты последующих ещё отсутствуют.

В информатике объединение (англ. union) представляет собой значение или структуру данных, которое может иметь несколько различных представлений.

В языках программирования единица трансляции — минимальный блок исходного текста, который физически можно оттранслировать (преобразовать во внутреннее машинное представление; в частности, откомпилировать). Важная концепция языков Си и Си++.

Недостижимый код часто относят к одному из типов мёртвого кода, такая терминология обычно применяется при рассмотрении исходного кода программ. Однако в теории компиляторов, эти понятия никак не связаны, мёртвым кодом там называют только достижимый, но не влияющий на вывод программы код.

В программировании то́чка остано́ва (англ. breakpoint) — это преднамеренное прерывание выполнения программы, при котором выполняется вызов отладчика (одновременно с этим программа сама может использовать точки останова для своих нужд). После перехода к отладчику программист может исследовать состояние программы (логи, состояние памяти, регистров процессора, стека и т. п.), с тем чтобы определить, правильно ли ведёт себя программа. В отличии от полной остановки, с помощью останова, после работы в.

Зако́н Амдала (англ. Amdahl's law, иногда также Закон Амдаля-Уэра) — иллюстрирует ограничение роста производительности вычислительной системы с увеличением количества вычислителей. Джин Амдал сформулировал закон в 1967 году, обнаружив простое по существу, но непреодолимое по содержанию ограничение на рост производительности при распараллеливании вычислений: «В случае, когда задача разделяется на несколько частей, суммарное время её выполнения на параллельной системе не может быть меньше времени выполнения.

Веду́щие нули́ в записи числа при помощи позиционной системы счисления — последовательность из одного или более нулей, занимающая старшие разряды. Понятие ведущих нулей возникает при использовании представлений чисел, имеющих фиксированное количество разрядов. В остальных случаях, как правило, ведущие нули не пишутся.

Протокол маршрутизации — сетевой протокол, используемый маршрутизаторами для определения возможных маршрутов следования данных в составной компьютерной сети. Применение протокола маршрутизации позволяет избежать ручного ввода всех допустимых маршрутов, что, в свою очередь, снижает количество ошибок, обеспечивает согласованность действий всех маршрутизаторов в сети и облегчает труд администраторов.

Инве́ртор (лат. inverto — поворачивать, переворачивать) — элемент вычислительной машины, осуществляющий определённые преобразования сигнала. Различают два основных типа инверторов: аналоговые и цифровые.

Дескриптор шлюза — служебная структура данных, служащая для различных переходов. Используется только в защищённом режиме. В реальном режиме некоторым аналогом может служить дальний адрес. Длина дескриптора стандартна и равна восьми байтам.

Парсер (англ. parser; от parse – анализ, разбор) или синтаксический анализатор — часть программы, преобразующей входные данные (как правило, текст) в структурированный формат. Парсер выполняет синтаксический анализ текста.

Маши́нный цикл — промежуток времени между двумя последовательными обращениями центрального процессора к внешней оперативной памяти команд/данных, или обмена 1 словом данных с периферийными устройствами, в том числе в циклах обработки аппаратных прерываний и является составляющей частью исполнения машинной команды.

Гигаби́т — (Гб) м., скл. — единица измерения количества двоичной информации. Используется при оценке скорости передачи информации в цифровых сетях.

Секционирование (англ. partitioning) — разделение хранимых объектов баз данных (таких как таблиц, индексов, материализованных представлений) на отдельные части с раздельными параметрами физического хранения. Используется в целях повышения управляемости, производительности и доступности для больших баз данных.

Не путайте с ECC памятью, хотя регистровые модули всегда используют ECC.Регистровая память (англ. Registered Memory, RDIMM, иногда buffered memory) — вид компьютерной оперативной памяти, модули которой содержат регистр между микросхемами памяти и системным контроллером памяти. Наличие регистров уменьшает электрическую нагрузку на контроллер и позволяет устанавливать больше модулей памяти в одном канале. Регистровая память является более дорогой из-за меньшего объема производства и наличия дополнительных.

Функциональный объект (англ. function object), также функтор, функционал и функционоид — распространённая в программировании конструкция, позволяющая использовать объект как функцию. Часто используется как callback, делегат.

В области телекоммуникаций и информатике параллельным соединением называют метод передачи нескольких сигналов с данными одновременно по нескольким параллельным каналам. Это принципиально отличается от последовательного соединения; это различие относится к одной из основных характеристик коммуникационного соединения.

ИЗБЫ́ТОЧНОСТЬ СООБЩЕ́НИЙ, понятие теории информации, численно оценивающее возможность сокращения записи сообщений. Наличие избыточности в записи сообщений к.-л. источника информации проявляется в возможности записать их в среднем более кратко, используя те же самые знаки (т. е. используя код с тем же алфавитом, см. Кодирование ). Напр., если рассматриваемые сообщения представляют собой последовательности знаков $0$ и $1$ , в которых единица встречается в среднем один раз на десять знаков, то, применяя кодирование по правилу $00 → 0, 01 → 10, 10 → 110, 11 → 111$ , можно в среднем сократить запись почти вдвое. Макс. доля лишних знаков определяется по статистич. свойствам источника сообщений и называется его избыточностью. Для И. с. $R$ справедлива формула $R = 1 – H/\text_2m$ , где $m$ – число букв алфавита, $H$ – энтропия источника на букву сообщения. В приведённом примере И. с. равна 0,53. Минимальной И. с., равной нулю, обладает только последовательность, в которой знаки независимы и с вероятностью $1/m$ могут совпадать с любой из букв алфавита.

Связь может быть проведена устойчива к ошибкам через избыточную информацию через информационный канал , так как потеряна или фальсифицирован частичная информация может быть восстановлена из своего контекста на получателе при определенных обстоятельствах . Расстояние Хэмминга является мерой отказоустойчивости .

Средняя длина кодового слова

Средняя длина кодового слова исходного кода с распределением вероятностей определяется как: Л. ( С. ) С. ( z ) п ( z )

Избыточность кода

Избыточность кода разница между средней длиной кодового слова и энтропией . (Пример: кодирование Хаффмана для оптимального (= минимального) ). Л. ( С. ) ЧАС ( Икс ) Л. ( С. )

Поскольку длина кодового слова не может быть меньше энтропии, избыточность никогда не бывает отрицательной.

Кодирование

В теории кодирования различают два проявления избыточности:

В распределении резервирования заключается в различной вероятности появления отдельных символов алфавита.
Избыточность галстука является то , что после определенных символов, появление некоторого другого характера, в частности , скорее всего. Например, в немецком тексте за q почти всегда следует u.

Базы данных и структуры данных

При разработке баз данных и в структурах данных программ важно как можно полнее избегать избыточности, поскольку это может привести к более высоким требованиям к памяти и несогласованности . Поэтому избыточности считаются аномалиями . Свобода от избыточности - основной принцип логической модели данных.

Избыточности можно в значительной степени избежать , нормализовав схему базы данных. Есть также дублирование, которое неизбежно (например, дублирование ключей ) и поэтому принимается как неизбежное зло . Также допустимы избыточности, поскольку их устранение потребовало бы слишком больших усилий по отношению к их проблеме, например, многократное вхождение значения атрибута или двойное хранение имени Мюллер для г-на Мюллера и для г-жи Мюллер.

Преднамеренное принятие избыточности для повышения производительности чтения называется денормализацией .

недостаток

Избыточность структур данных программ и баз данных может привести к программным ошибкам. Программист должен убедиться, что он также поддерживает согласованность избыточных данных со всеми изменениями . Это требует больших усилий по синхронизации. Чем крупнее проект и чем дольше он разрабатывается, тем сложнее. Когда несколько программистов неосознанно работают независимо с избыточными данными, поддерживать согласованность изменений практически невозможно.

преимущества

В некоторых случаях намеренно созданная избыточность данных сокращает время вычислений программного обеспечения. Этого можно добиться за счет целевой денормализации . Однако эту точно рассчитанную и желаемую избыточность следует четко отличать от небрежно созданной избыточности, поскольку кто-то не применяет правила нормализации. Денормализация обычно улучшает производительность чтения, но снижает производительность записи.

литература

веб ссылки

Основы теории информации (по состоянию на 23 февраля 2018 г.)
Coding Theory (по состоянию на 23 февраля 2018 г.)

Эта страница последний раз была отредактирована 5 июля 2021 в 16:37.

Читайте также: