Что такое шенноновское сообщение

Обновлено: 02.07.2024

На этом шаге мы рассмотрим информацию и алфавит .

Это и есть знаменитая формула К.Шеннона , с работы которого "Математическая теория связи" (1948) принято начинать отсчет возраста информатики, как самостоятельной науки. Объективности ради следует заметить, что и в нашей стране практически одновременно с Шенноном велись подобные исследования, например, в том же 1948 г. вышла работа А.Н.Колмогорова "Математическая теория передачи информации" .

Последующие (второе и далее) приближения при оценке значения информации, приходящейся на знак алфавита, строятся путем учета корреляций, т.е. связей между буквами в словах. Дело в том, что в словах буквы появляются не в любых сочетаниях; это понижает неопределенность угадывания следующей буквы после нескольких, например, в русском языке нет слов, в которых встречается сочетание щц или фъ. И напротив, после некоторых сочетаний можно с большей определенностью, чем чистый случай, судить о появлении следующей буквы, например, после распространенного сочетания пр- всегда следует гласная буква, а их в русском языке 10 и, следовательно, вероятность угадывания следующей буквы 1/10, а не 1/33. В связи с этим примем следующее определение:

Как указывается в книге Л.Бриллюэна [с.46], учет в английских словах двухбуквенных сочетаний понижает среднюю информацию на знак до значения I₂ (e) =3,32 бит, учет трехбуквенных – до I₃ (e) =3,10 бит. Шеннон сумел приблизительно оценить I₅ (e) 2,1 бит, I₈ (e) 1,9 бит. Аналогичные исследования для русского языка дают: I₂ (r) = 3,52 бит; I₃ (r) = 3,01 бит.

Последовательность I₀, I₁, I₂. является убывающей в любом языке. Экстраполируя ее на учет бесконечного числа корреляций, можно оценить предельную информацию на знак в данном языке , которая будет отражать минимальную неопределенность, связанную с выбором знака алфавита без учета семантических особенностей языка, в то время как I₀ является другим предельным случаем, поскольку характеризует наибольшую информацию, которая может содержаться в знаке данного алфавита. Шеннон ввел величину, которую назвал относительной избыточностью языка :

Избыточность является мерой бесполезно совершаемых альтернативных выборов при чтении текста. Эта величина показывает, какую долю лишней информации содержат тексты данного языка; лишней в том отношении, что она определяется структурой самого языка и, следовательно, может быть восстановлена без явного указания в буквенном виде.

Исследования Шеннона для английского языка дали значение 1,4÷1,5 бит, что по отношению к I₀=4,755 бит создает избыточность около 0,68. Подобные оценки показывают, что и для других европейских языков, в том числе русского, избыточность составляет 60 – 70%. Это означает, что в принципе возможно почти трехкратное (!) сокращение текстов без ущерба для их содержательной стороны и выразительности. Например, телеграфные тексты делаются короче за счет отбрасывания союзов и предлогов без ущерба для смысла; в них же используются однозначно интерпретируемые сокращения "ЗПТ" и "ТЧК" вместо полных слов (эти сокращения приходится использовать, поскольку знаки "." и "," не входят в телеграфный алфавит). Однако такое "экономичное" представление слов снижает разборчивость языка, уменьшает возможность понимания речи при наличии шума (а это одна из проблем передачи информации по реальным линиям связи), а также исключает возможность локализации и исправления ошибки (написания или передачи) при ее возникновении. Именно избыточность языка позволяет легко восстановить текст, даже если он содержит большое число ошибок или неполон (например, при отгадывании кроссвордов или при игре в "Поле чудес"). В этом смысле избыточность есть определенная страховка и гарантия разборчивости.

Шенноновская теория информации

В таких условиях В.Э. начал разрабатывать свою информатику. Целью этой разработки было построение такой системы понятий (определения понятия информации и связанных с нею), чтобы:

1) информацией называлась некоторая объективная вещь (не зависящая от субъекта – передатчика и субъекта – приемника);

2) чтобы информация была не просто разнообразием – любым уменьшением энтропии, а информацией о чем-то, несла какие-то сведения о каких-то вещах;

3) чтобы количество информации измерялось не количеством букв, зависящим от системы кодировки (от языка и алфавита), а по ее смыслу – оставалось одинаковым при любом способе кодировки; 4) при этом чтобы мерой количества информации оставалась шенноновская величина Н = – Σ рi ∙ log рi.

Основные черты информатики

Информатика базировалась на теории изоморфизмов: в объективном мире существуют изоморфизмы – сходство (в определенном аспекте) между системами А и В. Эти изоморфизмы могут быть естественными (возникшими, например, в результате единого происхождения); тогда система В не содержит информацию о системе А (несмотря на их сходство – изоморфизм). И изоморфизм может быть искусственным – возникшим в результате воздействия системы А на систему В. В этом случае система В содержит информацию о системе А – несет след ее воздействия, ее отпечаток. Если система В, в свою очередь, воздействует на систему С и передаст этот отпечаток ей, то уже и система С будет содержать информацию (по процессу воздействия – о системе В, а в силу транзитивности изоморфизма – одновременно также и о системе А). Так возникает передача информации. Количество информации, содержащейся в системах В и С о системе А измеряется по формуле Шеннона, но при этом для расчета берутся не какие-то случайные, внешние элементы кодировки (типа букв или импульсов сигнала), а позиции аспекта изоморфизма, существующего между системами А, В, С и определяющего информацию. Поэтому количество информации сохраняется неизменным, пока сохраняется неизменным аспект изоморфизма, как бы информация в системах В и С ни кодировалась. Такая информация не зависит ни от субъекта, ее передающего, ни от субъекта, ее принимающего; это могут быть как люди или машины, так и просто природные объекты. Например, звезда излучает электромагнитное поле, несущее информацию о ее химическом составе, температуре и т.д., но эта информация не предназначена ни для кого и никем сознательно не кодирована; она возникла просто в результате воздействия системы А (атомов) на систему В (фотоны). Она может никем не использоваться, но может быть кем-то прочитана (например, астрофизиком на Земле при помощи спектроскопа).

Дальнейшее

Рассматривая формы представления информации, отметили то обстоятельство, что, естественной для органов чувств человека является аналоговая форма, универсальной все же следует считать дискретную форму представления информации с помощью некоторого набора знаков. В частности, именно таким образом представленная информация обрабатывается компьютером, передается по компьютерным и некоторым иным линиям связи.

Буква	o	e,ё	а	и	т	н	с
Относительная частота	0.175	0.090	0.072	0.062	0.062	0.053	0.053
Буква	р	в	л	к	м	д	п
Относительная частота	0.040	0.038	0.035	0.028	0.026	0.025	0.023
Буква	я	ы	з	ь,ъ	б	г	ч
Относительная частота	0.018	0.016	0.016	0.014	0.014	0.013	0.012
Буква	ч	ж	ю	ш	ц	щ	э
Относительная частота	0.009	0.007	0.006	0.006	0.004	0.003	0.003

Несовпадение значений средней информации для английского, французского и немецкого языков, основанных на одном алфавите, связано с тем, что частоты появления одинаковых букв в них различны.

Следующими приближениями при оценке значения информации, приходящейся на знак алфавита, должен быть учет корреляций, т.е. связей между буквами в словах. Дело в том, что в словах буквы появляются не в любых сочетаниях; это понижает неопределенность угадывания следующей буквы после нескольких, например, в русском языке нет слов, в которых встречается сочетание ”щц” или ”фъ”. И напротив, после некоторых сочетаний можно с большей определенностью, чем чистый случай, судить о появлении следующей буквы, например, после распространенного сочетания ”пр-” всегда следует гласная буква, а их в русском языке 10 и, следовательно, вероятность угадывания следующей буквы %%\frac%%, а не %%\frac%%. Учет в английских словах двухбуквенных сочетаний понижает среднюю информацию на знак до значения %%I_2(e) = 3,32 бит%%, учет трехбуквенных - до %%I_3(e) = 3,10 бит%%.

Шеннон сумел приблизительно оценить

Аналогичные исследования для русского языка дают:

$$I_2(r) = 3,52 бит%%; %%I_3(r) = 3,01\; бит$$

Последовательность %%I_0, I_1, I_2. %% является убывающей в любом языке. Экстраполируя ее на учет бесконечного числа корреляций, можно оценить предельную информацию на знак в данном языке %%I_∞%%, которая будет отражать минимальную неопределенность, связанную с выбором знака алфавита без учета семантических особенностей языка, в то время как %%I_0%% является другим предельным случаем, поскольку характеризует наибольшую информацию, которая может содержаться в знаке данного алфавита. Шеннон ввел величину, которую назвал относительной избыточностью языка:

Исследования Шеннона для английского языка дали значение %%I_∞ ≈ 1,4÷1,5%% бит, что по отношению к %%I_0 = 4,755\; бит%% создает избыточность около 0,68. Подобные оценки показывают, что и для других европейских языков, в том числе русского, избыточность составляет 60 - 70%. Это означает, что в принципе возможно почти трехкратное сокращение текстов без ущерба для их содержательной стороны и выразительности.

Поскольку сами знаки и содержащаяся в них информация известны заранее, существенный момент при поступлении некоторого знака состоит в самом факте, какой именно из заданных знаков получен, т. е. какой из знаков был „выбран". Эти „выборы" исследуются теорией информации Шеннона. К. Шеннон в 1948 г. ввёл в связи с этим математическое понятие количества информации. Это мера тех затрат, которые необходимы для того, чтобы расклассифицировать („разобрать") переданные знаки. Слово „информация" употребляется здесь, очевидно, в некотором специальном смысле, не совпадающим с тем, в котором оно использовалось нами ранее.

Тут вы можете оставить комментарий к выбранному абзацу или сообщить об ошибке.

Читайте также: