Дискретный источник вырабатывает двоичное сообщение вида 11101010101

Обновлено: 18.05.2024

В каналах связи передаётся информация, преобразованная в сигналы.

Для согласования объёма информации с каналом необходимо научиться определять количество информации, подлежащее передаче. Без решения этого вопроса невозможно строить современные системы передачи информации.

Под термином “информация” понимают различные сведения, которые поступают к получателю. В более строгой форме определение информации следующее:

Информация– это сведения, являющиеся объектом передачи, распределения, преобразования, хранения или непосредственного использования.

В дальнейшем нас будут интересовать лишь вопросы, связанные с информацией как объектом передачи.

В технических устройствах и системах прием, обработка и передача информации осуществляется с помощью сигналов.

Сигнал (от латинского signum знак) представляет собой любой процесс, несущий информацию.

Сигналы отражают физические характеристики изучаемых объектов и процессов. Посредством сигналов информация может передаваться на короткие и большие расстояния. Информация в виде сигнала может различным образом перерабатываться, сохраняться, уничтожаться и т. п.

Различают несколько видов сигналов: звуковые, которые можно услышать при работе милицейской сирены; световые, передающие информацию от пульта дистанционного управления к телевизору, а также электрические.

Вид передаваемого сигнала определяет тип канала связи.

Понятие информации, постановка задачи её определения.

Вероятностный подход

Формула Хартли:

; (1.1)
где количество информации
число возможных состояний

Ту же формулу можно представить иначе:

Формула Шеннона:

Если вероятности равны, то каждая из них равна , и формула Шеннона превращается в формулу Хартли.

Анализ формулы показывает, что чем выше вероятность события, тем меньшее количество информации возникает после его осуществления, и наоборот.

Если вероятность равна (т.е. событие достоверно), количество информации равно . Если вероятность свершения или не свершения, какого либо события одинакова, т.е. равна , то количество информации, которое несет с собой это событие, равно .

Это – единица измерения информации. Она получила наименование бит.

Если событие имеет равновероятных исходов, как при подбрасывании монеты или при игре в кости, то вероятность конкретного исхода равна , и формула Шеннона приобретает вид: .

Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена таблица вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.

Воспользуемся для подсчета формулой Шеннона; бит. Полученное значение , как и можно было предположить, меньше вычисленного ранее. Величина ,вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак.

Таблица . Частотность букв русского языка

i Символ P(i) i Символ P(i) i Символ P(i)
Пробел 0,175 К 0,028 Г 0.012
0,090 М 0,026 Ч 0,012
Е 0,072 Д 0,025 И 0,010
Ё 0,072 П 0,023 X 0,009
А 0,062 У 0,021 Ж 0,007
И 0,062 Я 0,018 Ю 0,006
Т 0,053 Ы 0,016 Ш 0.006
Н 0,053 З 0.016 Ц 0,004
С 0,045 Ь 0,014 Щ 0,003
Р 0,040 Ъ 0,014 Э 0,003
В 0,038 Б 0,014 Ф 0,002
Л 0,035

Запомните комбинацию из наиболее повторяющихся букв русского алфавита СЕНОВАЛИТР. Эти знания использовали дешифровальщики при вскрытии тайных переписок в различные исторические периоды.

Рассмотрим алфавит, состоящий из двух знаков и . Если считать, что со знаками и в двоичном алфавите связаны одинаковые вероятности их появления , то количество информации на один знак при двоичном кодировании будет равно:

Количество информации, равное битам, называется байтом.

В восьми разрядах можно записать различных целых двоичных чисел от до . Этого вполне достаточно для представления в двоичной форме информации об алфавитах Русском и Латинском, всех знаках препинания, цифрах от до , арифметических и алгебраических действиях, а так же специальных символов (например § @ $).

Отметим, что создатели компьютеров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п.

Выводы

1. Единицей количества информации является 1 бит.

2. Для определения частного количества информации используется логарифмическая величина.

Свойства энтропии:

Введём обозначения: , , тогда

Отсюда видно, что при и или и . Максимум энтропии достигается, если , т. е.

Зависимость энтропии этого источника от (1) показана на рисунке 2.


Рис. 2. Энтропия двоичного источника без памяти

3. Энтропия аддитивна. Это вытекает из свойств логарифмической функции.

Аддитивность (лат. additivus — прибавляемый) — свойство величин, состоящее в том, что значение величины, соответствующее целому объекту, равно сумме значений величин, соответствующих его частям, в некотором классе возможных разбиений объекта на части. Например, аддитивность объёма означает, что объём целого тела равен сумме объёмов составляющих его частей.

Выводы

1. Среднее количество информации, содержащееся в одном символе источника, оценивается энтропией.


I = log = log P2 – log P1 (4.1)

Применение логарифмической функции для количественной оценке прироста информации дает существенные преимущества:


Н = I1 = (бит/букву) (4.4)

4.2 Дискретный источник информации. Его характеристики и модели.

(i = 1, 2, 3, . . . . , N)

Например, типичным дискретным источником может служить выход телеграфного аппарата.

Дискретный источник следует представлять из двух частей (рис.4.1.)

Текст
Считывающее устройство

Текст– определяет содержание и ценность информации

Считывающее устройство – скорость передачи во времени.

(скорость передачи – определяется физическими характеристиками считывающего устройства и скоростью переходных процессов в канале передачи.)

4.2.1 Дискретный источник информации, работающий равновероятными и

независимыми буквами.

Рассмотрим схему (рис.4.2.)


Пусть источник информации пользуется алфавитом


L1 = N (4.6.)

Действительно, число трех элементных двоичных комбинаций 8 = 2 3 и т.д.

010 101 111 = 8 = 2 3 n=3, N=2

В этой связи, длина двоичных кодовых комбинаций n2 должна удовлетворять соотношению:


L2 = 2 n 2 ≥ L1 = N (4.7)

Переходя к равенству, получим, что

т. е для кодирования одной буквы Кириллицы требуется 5 двоичных знаков.


Таким образом, если каждая буква двоичного кода несет 1 бит информации, то ее количество в тексте

В вычислительной технике для измерения количества информации часто применяют более крупную единицу:

1 слово = 4 байта = 32 бита.


L2 = 2 n 2 ≥ L1 = N

Из (4.9) следует, что количество информации обладает обязательным свойством – аддитивностью.

Действительно, пусть, например, имеются два одинаковых источника информации, работающих десятибуквенными алфавитами:

Каждый из них может давать десять различных простейших сигналов 0….9.

Если использовать два таких источника совместно, то от них можно получить 100 различных двухбуквенных сочетаний 00,01, …. 99.

В этих сочетаниях первая цифра передается первым источником, а вторая-вторым.

Таким образом, два источника с 10-буквенными алфавитами А=(0,1,…,9) образовали источник со 100-буквенным алфавитом А=(00,01,…,99).

Количество информации, передаваемой двумя одинаковыми источниками должно быть в 2 раза больше, чем одним. Этому условию как раз удовлетворяет формула (4.9), так как

Таким образом, количество информации выдаваемой двумя одинаковыми источниками – удваивается.

4.2.2 Модель источника, работающего не равновероятными и не зависимыми буквами (источник без памяти).

Рассмотрим уже известный случай, когда источник информации работает алфавитом из № букв и все буквы встречаются в тексте одинаково часто и таким образом равновероятны. Тогда вероятность какой-либо одной i-той буквы будет:


P(ai) = P = (4.11)

В соответствии с (4.11) (4.9) может быть переписана в виде


I=log2N=log2= -log2P. (4.12)

Количество информации, приносимое буквой ai и устраняющее имеющуюся неопределенность, является мерой этой неопределенности.

Для стационарных эргодических источников информации, если все буквы алфавита взаимонезависимы, алфавит и вероятносные свойства источника информации удобно задавать таблицей, указывающей вероятности появления каждой из букв:

а1 а2 а3 …… аi …….. аN
Р(а1) Р(а2) Р(а3) …… Р(аi) …….. Р(аN)

Табл.4.1 определяет состояние неопределенности перед получением очередной буквы аi в случае неодинаковых р(аi) чем более равномерно распределены р(аi), тем больше неопределенность.

Если некоторые р(аi) велики, а остальные малы, то неопределенность меньше.

Используя формулу (4.12), найдем, что буква аi несет количество информации.


I = - (4.13)


(4.14)

При большом n (т.е. при n ) , т.е.


H = - (4.15)

где К — объем алфавита источника.

где вероятность того, что на выходе источника появляется буква

Очевидно, имеют место следующие неравенства:

(буквами); - энтропия источника с учетом трехбуквенных сочетании и т. д.

называется избыточностью источника, а

определяет эффективность кодека источника. Для оиенки эффективности устройств сжатия данных часто вводится величина обратная величине

которая называется коэффициентом сжатия.

В табл. 8.2 приведены значения энтропии для литературного текста на русском, английском и французском языках [179]. Оценка энтропии данным различных авторов, для русского языка лежит в пределах бит на букву, для английского 0,6 1,3 бит. Расчеты показывают, что (различие не превышает

Таблица 8.2. (см. скан)

Согласно табл. 8.2 для русского языка Следовательно, основная избыточность языка обусловлена статистической связью между буквами

При этом стремятся минимизировать среднее число битов на букву источника. Этот минимум, как известно, определяется энтропией источника . В теории информации доказывается следующая теорема.

Теорема 1 К При любом способе кодирования: 1) ; 2) существует способ кодирования, при котором величина будет сколь угодно близкой к

Таким образом, энтропия источника определяет предельное значение двоичных символов, необходимых для представления букв источника. Теорема 1 остается справедливой и в том случае, когда вместо двоичного используется -ичное кодирование, по с той разницей, что логарифм при определении энтропии берется по основанию Для источника, все буквы которого независимы и равновероятны, оптимальным будет равномерный код. В этом случае Выберем для передачи каждой буквы последовательность из бинарных символов. Количество различных последовательностей равно Далее можно потребовать, чтобы (предполагается, что К — целая степень двух). Отсюда

Таким образом, равномерный код, который широко используется в телеграфии (код Бодо), не является оптимальным для передачи текста телеграмм. При таком кодировании не учитывают статистические свойства источника и на передачу каждой из 32 букв русского языка тратится максимальное число двоичных символов, равное 5 бит. Согласно теореме 1 и статистике языка (см. табл. 8.2) возможно более аффективное кодирование, при котором в среднем на букву русского текста будет затрачено не более 1,5 бит, т. е. примерно в 3 раза меньше, чем в коде Бодо.

Задача эффективного кодирования наиболее актуальна не для передачи текста (телеграфии), а для других источников, обладающих большой избыточностью. К ним, в частности, относятся

Итак, пусть m=2, и это означает, что речь идет о двоичным источнике. Заданы также вероятность появления нулевого элемента и, следовательно, вероятность единицы . Это соотношение очевидно, поскольку мы знаем, что существует условия нормировки, состоящее в том, что сумма вероятностей всегда должна равняться единице.

Мы можем записать формулу, которая определяет энтропию источника:


Рисунок 15 – Зависимость энтропии от вероятности двоичного ансамбля

На рисунке показана зависимость энтропии от вероятности двоичного ансамбля. Видно, что при и ; достигается при . Размерность энтропии: [бит/символ].

Как уже отмечалось, теория информации возникла с целью теоретического рассмотрения того, что происходит в системах связи.

Именно такого рода источники мы рассматривали до сих пор, определяли количество информации, среднее значение количества информации (энтропию) и изучали её свойства.

На рисунке 16 представлены две диаграммы, которые с общих позиций ещё раз поясняют это.


Условимся ранжировать значения этих сигналов, полагая, что x1 0, первое слагаемое станет

Второе слагаемое при –> 0, с учетом , будет равно:

При –> 0, 2-ое слагаемое будет стремиться к бесконечности. Таким образом, энтропия непрерывного источника при –>0, так же стремится к бесконечности.

Когда эта оценка принята, то непрерывный источник трансформируется в дискретный источник с оценкой погрешности В случае, если мы хотим иметь более точное описание, это будет означать, что меньше, нам стоит заново оценить энтропию непрерывного источника.

Получим подобные оценки для непрерывного источника.

Тогда при и рассмотрим

После определенных преобразований по нахождению экстремума, получим выражение, доказывающее, что энтропия в этом случае максимальна при нормальном центрированном распределении плотности, а именно, когда

Подставив данное выражение в (22) получаем

Помимо случая, когда дисперсия состояния элементов ограничена, рассмотрим другой случай, когда дисперсия не ограничена. Для непрерывного источника при этом условии и условии нормировки, а именно , значение энтропии будет максимально уже не при нормальном законе распределения, а при равномерном распределении на интервале от a до b.

Плотность распределения в данном случае должна быть равномерной, чтобы энтропия была максимальной и равна

сама же энтропия

Полученные результаты указывают на максимальное значение энтропии для дискретных и непрерывных источников. При этом видны существенные отличия между ними.

Тут вы можете оставить комментарий к выбранному абзацу или сообщить об ошибке.

В каналах связи передаётся информация, преобразованная в сигналы.

Для согласования объёма информации с каналом необходимо научиться определять количество информации, подлежащее передаче. Без решения этого вопроса невозможно строить современные системы передачи информации.

Под термином “информация” понимают различные сведения, которые поступают к получателю. В более строгой форме определение информации следующее:

Информация– это сведения, являющиеся объектом передачи, распределения, преобразования, хранения или непосредственного использования.

В дальнейшем нас будут интересовать лишь вопросы, связанные с информацией как объектом передачи.

В технических устройствах и системах прием, обработка и передача информации осуществляется с помощью сигналов.

Сигнал (от латинского signum знак) представляет собой любой процесс, несущий информацию.

Сигналы отражают физические характеристики изучаемых объектов и процессов. Посредством сигналов информация может передаваться на короткие и большие расстояния. Информация в виде сигнала может различным образом перерабатываться, сохраняться, уничтожаться и т. п.

Различают несколько видов сигналов: звуковые, которые можно услышать при работе милицейской сирены; световые, передающие информацию от пульта дистанционного управления к телевизору, а также электрические.

Вид передаваемого сигнала определяет тип канала связи.

Понятие информации, постановка задачи её определения.

Вероятностный подход

Формула Хартли:

; (1.1)
где количество информации
число возможных состояний

Ту же формулу можно представить иначе:

Формула Шеннона:

Если вероятности равны, то каждая из них равна , и формула Шеннона превращается в формулу Хартли.

Анализ формулы показывает, что чем выше вероятность события, тем меньшее количество информации возникает после его осуществления, и наоборот.

Если вероятность равна (т.е. событие достоверно), количество информации равно . Если вероятность свершения или не свершения, какого либо события одинакова, т.е. равна , то количество информации, которое несет с собой это событие, равно .

Это – единица измерения информации. Она получила наименование бит.

Если событие имеет равновероятных исходов, как при подбрасывании монеты или при игре в кости, то вероятность конкретного исхода равна , и формула Шеннона приобретает вид: .

Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена таблица вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.

Воспользуемся для подсчета формулой Шеннона; бит. Полученное значение , как и можно было предположить, меньше вычисленного ранее. Величина ,вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак.

Таблица . Частотность букв русского языка

i Символ P(i) i Символ P(i) i Символ P(i)
Пробел 0,175 К 0,028 Г 0.012
0,090 М 0,026 Ч 0,012
Е 0,072 Д 0,025 И 0,010
Ё 0,072 П 0,023 X 0,009
А 0,062 У 0,021 Ж 0,007
И 0,062 Я 0,018 Ю 0,006
Т 0,053 Ы 0,016 Ш 0.006
Н 0,053 З 0.016 Ц 0,004
С 0,045 Ь 0,014 Щ 0,003
Р 0,040 Ъ 0,014 Э 0,003
В 0,038 Б 0,014 Ф 0,002
Л 0,035

Запомните комбинацию из наиболее повторяющихся букв русского алфавита СЕНОВАЛИТР. Эти знания использовали дешифровальщики при вскрытии тайных переписок в различные исторические периоды.

Рассмотрим алфавит, состоящий из двух знаков и . Если считать, что со знаками и в двоичном алфавите связаны одинаковые вероятности их появления , то количество информации на один знак при двоичном кодировании будет равно:

Количество информации, равное битам, называется байтом.

В восьми разрядах можно записать различных целых двоичных чисел от до . Этого вполне достаточно для представления в двоичной форме информации об алфавитах Русском и Латинском, всех знаках препинания, цифрах от до , арифметических и алгебраических действиях, а так же специальных символов (например § @ $).

Отметим, что создатели компьютеров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п.

Выводы

1. Единицей количества информации является 1 бит.

2. Для определения частного количества информации используется логарифмическая величина.

Свойства энтропии:

Введём обозначения: , , тогда

Отсюда видно, что при и или и . Максимум энтропии достигается, если , т. е.

Зависимость энтропии этого источника от (1) показана на рисунке 2.


Рис. 2. Энтропия двоичного источника без памяти

3. Энтропия аддитивна. Это вытекает из свойств логарифмической функции.

Аддитивность (лат. additivus — прибавляемый) — свойство величин, состоящее в том, что значение величины, соответствующее целому объекту, равно сумме значений величин, соответствующих его частям, в некотором классе возможных разбиений объекта на части. Например, аддитивность объёма означает, что объём целого тела равен сумме объёмов составляющих его частей.

Выводы

1. Среднее количество информации, содержащееся в одном символе источника, оценивается энтропией.

Читайте также: