Подходы к оценке количества информации кратко

Обновлено: 04.07.2024

На сегодняшний день наиболее известны следующие способы измерения информации:

Объемный является самым простым и грубым способом измерения информации. Соответствующую количественную оценку информации естественно назвать объемом информации.

Поскольку, например, одно и то же число может быть записано многими разными способами (с использованием разных алфавитов):

В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

В двоичной системе счисления единица измерения - бит (знаки 0 и 1 ) Отметим, что создатели компьюте­ров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаря­женный и т.п. В компьютере бит является наименьшей возможной единицей инфор­мации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозмож­но нецелое число битов (в отличие от вероятностного подхода).

Для удобства использования введены и более крупные, чем бит, единицы коли­чества информации: 1 байт = 8 битов

1Кбайт= 1024 байта

1024 килобайта - мегабайт (Мбайт)

1024 мегабайта - гигабайт (Гбайт).

В десятичной системе счисления единица измерения - дит (десятичный разряд)

К.Шенноном было введено понятие энтропии - количественной меры информации, как меры неопределенности состояния объекта или некоторой ситуации с конечным числом исходов. В статистической теории основное внимание обращается на распределение вероятности появления отдельных событий и построение на его основе обобщенных характеристик, позволяющих оценить количество информации в одном событии либо в их совокупности.

Таким образом, статистическая количественная мера информации – это мера снимаемой в процессе получения информации неопределенности системы. Количество информации зависит от закона распределения состояния системы.

Семантический подход базируется на ценности информации. Термин "семантика" исторически применялся в металогике и семиотике. В металогике под семантикой понимается совокупность правил соответствия между формальными выражениями и их интерпретацией (истолкованием). Под семиотикой понимают комплекс научных теорий, изучающих свойства знаковых систем, т.е. систем конкретных или абстрактных объектов, с каждым из которых сопоставлено некоторое значение. Примерами знаковых систем являются естественные языки и искусственные языки: алгоритмические языки, языки программирования, информационные языки и др. Обобщенно термин "знаковые языки" подразумевает любые устройства, рассматриваемые как "черные ящики". В информатике языки различного уровня занимают все большее место.




Семантическая теория оценивает содержательный аспект информации, семантический подход базируется на анализе её ценности. Ценность информации связывают со временем, поскольку с течением времени она стареет и ценность её, а следовательно и "количество" уменьшается.

Семантический подход имеет особое значение при использовании информации для управления, т.к. количество информации тесно связано с эффективностью управления в системе.

Структурный подход рассматривает построение информационных массивов, что имеет особое значение при хранении информации. Универсальным средством как оперативного, так и долговременного хранения различной информации стали ЭВМ. Оценка количества информации с позиций структурного подхода оказывается исключительно плодотворной, так как за единицы информации принимаются некоторые "ранговые" структурные единицы: реквизиты – логически неделимые элементы документации, описывающие определенные свойства объекта (реквизиты – основания, определяющие числовые данные: вес, количество, стоимость, номер, год, реквизиты – признаки: фамилия, цвет, марка), записи, информационные массивы, комплексы информационных массивов, информационная база, банк данных.

Структурный подход к оценке количества информации в настоящее время приобретает все большее значение, поскольку необходимо оценивать все возрастающее количество хранимой информации.

Таким образом, статистическая количественная характеристика информации – это мера снимаемой в процессе получения информации неопределенности системы. Количество информации зависит от закона распределения состояний системы.

Аналоговые вычислительные машины (АВМ) оперируют с информацией, представленной в виде непрерывных изменений некоторых физических величин (ток, напряжение, угол поворота, скорость движения тела и т.п.). Используя тот факт, что многие явления в природе, обществе, технике математически описываются одними и теми же уравнениями, АВМ обычно предназначаются для решения определенного класса задач.

Как и для характеристик вещества, так и для характеристик информации имеются единицы измерения, что позволяет некоторой порции информации приписывать числа — количественные характеристики информации.

На сегодняшний день наиболее известны следующие способы измерения информации:

Объемный является самым простым и грубым способом измерения информации. Соответствующую количественную оценку информации естественно назвать объемом информации.

Поскольку, например, одно и то же число может быть записано многими разными способами (с использованием разных алфавитов):

В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

В двоичной системе счисления единица измерения - бит (знаки 0 и 1 ) Отметим, что создатели компьюте­ров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаря­женный и т.п. В компьютере бит является наименьшей возможной единицей инфор­мации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозмож­но нецелое число битов (в отличие от вероятностного подхода).

Для удобства использования введены и более крупные, чем бит, единицы коли­чества информации: 1 байт = 8 битов

1Кбайт= 1024 байта

1024 килобайта - мегабайт (Мбайт)

1024 мегабайта - гигабайт (Гбайт).

В десятичной системе счисления единица измерения - дит (десятичный разряд)

К.Шенноном было введено понятие энтропии - количественной меры информации, как меры неопределенности состояния объекта или некоторой ситуации с конечным числом исходов. В статистической теории основное внимание обращается на распределение вероятности появления отдельных событий и построение на его основе обобщенных характеристик, позволяющих оценить количество информации в одном событии либо в их совокупности.

Таким образом, статистическая количественная мера информации – это мера снимаемой в процессе получения информации неопределенности системы. Количество информации зависит от закона распределения состояния системы.

Семантический подход базируется на ценности информации. Термин "семантика" исторически применялся в металогике и семиотике. В металогике под семантикой понимается совокупность правил соответствия между формальными выражениями и их интерпретацией (истолкованием). Под семиотикой понимают комплекс научных теорий, изучающих свойства знаковых систем, т.е. систем конкретных или абстрактных объектов, с каждым из которых сопоставлено некоторое значение. Примерами знаковых систем являются естественные языки и искусственные языки: алгоритмические языки, языки программирования, информационные языки и др. Обобщенно термин "знаковые языки" подразумевает любые устройства, рассматриваемые как "черные ящики". В информатике языки различного уровня занимают все большее место.

Семантическая теория оценивает содержательный аспект информации, семантический подход базируется на анализе её ценности. Ценность информации связывают со временем, поскольку с течением времени она стареет и ценность её, а следовательно и "количество" уменьшается.

Семантический подход имеет особое значение при использовании информации для управления, т.к. количество информации тесно связано с эффективностью управления в системе.

Структурный подход рассматривает построение информационных массивов, что имеет особое значение при хранении информации. Универсальным средством как оперативного, так и долговременного хранения различной информации стали ЭВМ. Оценка количества информации с позиций структурного подхода оказывается исключительно плодотворной, так как за единицы информации принимаются некоторые "ранговые" структурные единицы: реквизиты – логически неделимые элементы документации, описывающие определенные свойства объекта (реквизиты – основания, определяющие числовые данные: вес, количество, стоимость, номер, год, реквизиты – признаки: фамилия, цвет, марка), записи, информационные массивы, комплексы информационных массивов, информационная база, банк данных.

Структурный подход к оценке количества информации в настоящее время приобретает все большее значение, поскольку необходимо оценивать все возрастающее количество хранимой информации.

Таким образом, статистическая количественная характеристика информации – это мера снимаемой в процессе получения информации неопределенности системы. Количество информации зависит от закона распределения состояний системы.

Аналоговые вычислительные машины (АВМ) оперируют с информацией, представленной в виде непрерывных изменений некоторых физических величин (ток, напряжение, угол поворота, скорость движения тела и т.п.). Используя тот факт, что многие явления в природе, обществе, технике математически описываются одними и теми же уравнениями, АВМ обычно предназначаются для решения определенного класса задач.

Понимая информацию как один из основных стратегических ресурсов, без которого невозможна деловая, управленческая, вообще любая социально значимая деятельность, необходимо уметь оценивать ее как с качественной, так и с количественной стороны. На этом пути существуют большие проблемы из-за нематериальной природы этого ресурса и субъективности восприятия конкретной информации различными индивидуумами человеческого общества. С этой точки зрения классификация информации является важнейшим средством создания систем хранения и поиска информации, без которых сегодня невозможно эффективное функционирование информационного обеспечения управления.

Целью работы является рассмотрение видов информации, областей применения и подходов к ее количественной оценке. Для этого нужно рассмотреть следующие задачи и вопросы. Первой задачей является изучение общих понятий по данной теме. Рассмотрение конкретных способов оценки количества информации – вторая задача.

Что такое информация и ее классификация

Термин "информация" происходит от латинского слова "informatio", что означает сведения, разъяснения, изложение. Несмотря на широкое распространение этого термина, понятие информации является одним из самых дискуссионных в науке. В настоящее время наука пытается найти общие свойства и закономерности, присущие многогранному понятию информация, но пока это понятие во многом остается интуитивным и получает различные смысловые наполнения в различных отраслях человеческой деятельности:

· в кибернетике под информацией понимает ту часть знаний, которая используется для ориентирования, активного действия, управления, т.е. в целях сохранения, совершенствования, развития системы (Н. Винер).

Клод Шеннон, американский учёный, заложивший основы теории информации — науки, изучающей процессы, связанные с передачей, приёмом, преобразованием и хранением информации, — рассматривает информацию как снятую неопределенность наших знаний о чем-то.

Применительно к информации как к объекту классификации выделенные классы называют информационными объектами. С этой точки зрения классификация информации является важнейшим средством создания систем хранения и поиска информации, без которых сегодня невозможно эффективное функционирование информационного обеспечения управления. Классификация носит всеобщий характер вследствие той роли, которую она играет как инструмент научного познания, прогнозирования и управления. Одновременно классификация выполняет функцию объективного отражения и фиксации результатов этого познания. при этом характер классификационной схемы, состав признаков классификации и глубина классификации определяется теми практическими целями, для реализации которых используется классификация, типом объектов классификации, а также условиями, в которых классификация будет использоваться.

1.2 Виды информации

Основные виды информации по ее форме представления, способам ее кодирования и хранения, что имеет наибольшее значение для информатики, это:

1. Графическая или изобразительная — первый вид, для которого был реализован способ хранения информации об окружающем мире в виде наскальных рисунков, а позднее в виде картин, фотографий, схем, чертежей на бумаге, холсте, мраморе и др. материалах, изображающих картины реального мира;

2. Звуковая — мир вокруг нас полон звуков и задача их хранения и тиражирования была решена с изобретение звукозаписывающих устройств в 1877 г. ее разновидностью является музыкальная информация — для этого вида был изобретен способ кодирования с использованием специальных символов, что делает возможным хранение ее аналогично графической информации;

3. Текстовая — способ кодирования речи человека специальными символами — буквами, причем разные народы имеют разные языки и используют различные наборы букв для отображения речи; особенно большое значение этот способ приобрел после изобретения бумаги и книгопечатания;

4. Числовая — количественная мера объектов и их свойств в окружающем мире; особенно большое значение приобрела с развитием торговли, экономики и денежного обмена; аналогично текстовой информации для ее отображения используется метод кодирования специальными символами — цифрами, причем системы кодирования (счисления) могут быть разными;

1.3 Виды подходов к оценке количества информации


(РИСУНОК 1)

При всем многообразии подходов к определению понятия информации, с позиции измерения информации нас будут интересовать два из них: определение К. Шеннона, применяемое в математической теории информации (содержательный подход), и определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров (алфавитный подход). (рисунок 1)

1.4 Содержательный подход

Содержательный подход к измерению информации.

Для человека информация — это знания человека. Рассмотрим вопрос с этой точки зрения.

Проще всего определить объем информации в том случае, когда все результаты события могут быть реализованы с равной вероятностью. В этом случае формула Хартли используется для расчета информации.

Причем обычно значение N известно, а I приходится подбирать, что не совсем удобно. Поэтому те, кто знает математику получше, предпочитают преобразовать данную формулу так, чтобы сразу выразить искомую величину I в явном виде: I = log2 N

В более сложной ситуации, когда исход события ожидается с различной степенью достоверности, требуются более сложные вычисления с использованием формулы Шеннона.

Формула Шеннона: I = - ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN),

Легко заметить, что если вероятности p1, . pN равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.

1.5 Алфавитный подход

Алфавитный подход используется для измерения количества информации в тексте, представленном в виде последовательности символов некоторого алфавита. Такой подход не связан с содержанием текста. Количество информации в этом случае называется информационным объемом текста, который пропорционален размеру текста — количеству символов, составляющих текст. Иногда данный подход к измерению информации называют объемным подходом.

Каждый символ текста несет определенное количество информации. Его называют информационным весом символа. Поэтому информационный объем текста равен сумме информационных весов всех символов, составляющих текст.

Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле Хартли:

Алфавит - множество используемых символов в языке.

Мощность алфавита (N) - количество символов, используемых в алфавите.

i=log2N , где N - мощность алфавита.

Формула Хартли задает связь между количеством возможных событий N и количеством информации i :

Заключение

Целью настоящей работы является рассмотрение видов информации, областей применения и подходов к ее количественной оценке. Для этого нужно рассмотреть следующие задачи и вопросы. Первой задачей является изучение общих понятий по данной теме. Рассмотрение конкретных способов оценки количества информации – вторая задача.

Содержимое работы - 1 файл

Подходы к оценке количества информации.doc

Информация на сегодняшний день, пожалуй, самое дорогое и ценное приобретение человечества. Она позволяет обществу жить и развиваться. Поэтому сейчас она ценится на вес золота, и тот, кто ею владеет, владеет всем миром.

Понимая информацию как один из основных стратегических ресурсов, без которого невозможна деловая, управленческая, вообще любая социально значимая деятельность, необходимо уметь оценивать ее как с качественной, так и с количественной стороны. На этом пути существуют большие проблемы из-за нематериальной природы этого ресурса и субъективности восприятия конкретной информации различными индивидуумами человеческого общества. С этой точки зрения классификация подходов к оценке количества информации является важнейшим средством создания систем хранения и поиска информации, без которых сегодня невозможно эффективное функционирование информационного обеспечения управления.

Целью настоящей работы является рассмотрение видов информации, областей применения и подходов к ее количественной оценке. Для этого нужно рассмотреть следующие задачи и вопросы. Первой задачей является изучение общих понятий по данной теме. Рассмотрение конкретных способов оценки количества информации – вторая задача.

1 Информация. Виды информации

Информация - это настолько общее и глубокое понятие, что его нельзя объяснить одной фразой. В это слово вкладывается различный смысл в технике, науке и в житейских ситуациях.

Информация — сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые воспринимают информационные системы (живые организмы, управляющие машины и др.) в процессе жизнедеятельности и работы.

Информация может существовать в виде:

а) текстов, рисунков, чертежей, фотографий;

б) световых или звуковых сигналов;

г) электрических и нервных импульсов;

д) магнитных записей;

е) жестов и мимики;

ё) запахов и вкусовых ощущений;

ж) хромосом, посредством которых передаются по наследству признаки и свойства организмов, и т. д.

Информация по своему характеру может быть:

а) статической (постоянной) или динамической (переменной);

б) первичной (входной), производной (промежуточной) или выходной;

в) осведомляющей или управляющей;

г) объективной или субъективной.

По назначению информация делится на массовую и специальную.

Логическая информация, адекватно отображающая объективные закономерности природы, общества и мышления, получила название научной информации. Ее делят по областям получения или использования на следующие виды:

д) физиологическую и т.п.

Информация обладает следующими свойствами:

ж) краткость и т. д.

Информация достоверна, если она отражает истинное положение дел. Недостоверная информация может привести к неправильному пониманию или принятию неправильных решений. Достоверная информация со временем может стать недостоверной, так как она обладает свойством устаревать, т. е. перестает отражать истинное положение дел.

Информация полна, если ее достаточно для понимания и принятия решений. Как неполная, так и избыточная информация сдерживает принятие решений или может повлечь ошибки.

Точность информации определяется степенью ее близости к реальному состоянию объекта, процесса, явления и т. п.

Ценность информации зависит от того, насколько она важна для решения задачи, а также от того, насколько в дальнейшем она найдет применение в каких-либо видах деятельности человека.

Только своевременно полученная информация может принести ожидаемую пользу. Одинаково нежелательны как преждевременная подача информации (когда она еще не может быть усвоена), так и ее задержка.

Если ценная и своевременная информация выражена непонятным образом, она может стать бесполезной. Информация становится понятной, если она выражена языком, на котором говорят те, кому предназначена эта информация.

Информация должна преподноситься в доступной (по уровню восприятия) форме. Поэтому одни и те же вопросы по-разному излагаются в школьных учебниках и научных изданиях.

Информацию по одному и тому же вопросу можно изложить кратко (сжато, без несущественных деталей) или пространно (подробно, многословно). Краткость информации необходима в справочниках, энциклопедиях, всевозможных инструкциях.

Информация - очень емкое понятие, в которое вмещается весь мир: все разнообразие вещей и явлений, вся история, все тома научных исследований, творения поэтов и прозаиков. И все это отражается в двух формах - непрерывной и дискретной. Обратимся к их сущности.
Объекты и явления характеризуются значениями физических величин. Например, массой тела, его температурой, расстоянием между двумя точками, длиной пути (пройденного движущимся телом), яркостью света и т.д. Природа некоторых величин такова, что величина может принимать принципиально любые значения в каком-то диапазоне. Эти значения могут быть сколь угодно близки друг к другу, исчезающе малоразличимы, но все-таки, хотя бы в принципе, различаться, а количество значений, которое может принимать такая величина, бесконечно велико.
Такие величины называются непрерывными величинами, а информация, которую они несут в себе, непрерывной информацией.
Слово “непрерывность” отчетливо выделяет основное свойство таких величин - отсутствие разрывов, промежутков между значениями, которые может принимать величина. Масса тела - непрерывная величина, принимающая любые значения от 0 до бесконечности. То же самое можно сказать о многих других физических величинах - расстоянии между точками, площади фигур, напряжении электрического тока.
Кроме непрерывных существуют иные величины, например, количество людей в комнате, количество электронов в атоме и т.д. Такого рода величины могут принимать только целые значения, например, 0, 1, 2, . и не могут иметь дробных значений. Величины, принимающие не всевозможные, а лишь вполне определенные значения, называют дискретными. Для дискретной величины характерно, что все ее значения можно пронумеровать целыми числами 0,1,2. Примеры дискретных величин: геометрические фигуры (треугольник, квадрат, окружность); буквы алфавита; цвета радуги.
Традиционно информация об объектах и явлениях окружающего мира представляется в форме слов и их последовательностей.Основной элемент в этой форме - слово. Слово - имя объекта, действия, свойства и т.п., с помощью которого выделяется именуемое понятие в устной речи или в письменной форме.

Слова строятся из букв определенного алфавита (например, А, Б, . , Я). Кроме букв используются специальные символы - знаки препинания, математические символы +, -, знак интеграла, знак суммы и т.п. Все разнообразие используемых символов образует алфавит, на основе которого строятся самые разные объекты:

а) из цифр - числа;

б) из букв - собственно слова;

в) из цифр, букв и математических символов - формулы и т.д.

И все эти объекты несут в себе информацию :

а) числа - информацию о значениях;

б) слова - информацию об именах и свойствах объектов;

в) формулы - информацию о зависимостях между величинами и т.д.

Эта информация (и это очевидно) имеет дискретную природу и представляется в виде последовательности символов. О такой информации говорят как об особом виде дискретной информации и называют этот вид символьной информацией.

Наличие разных систем письменности, в том числе таких, как иероглифическое письмо, доказывает, что одна и та же информация может быть представлена на основе самых разных наборов символов и самых разных правил использования символов при построении слов, фраз, текстов.

Из этого утверждения можно сделать следующий вывод:

Разные алфавиты обладают одинаковой “ изобразительной возможностью”, т.е. с помощью одного алфавита можно представить всю информацию, которую удалось представить на основе другого алфавита. Можно, например, ограничиться алфавитом из десяти цифр - 0, 1, . 9 и с использованием только этих символов записать текст любой книги или партитуру музыкального произведения. При этом сужение алфавита до десяти символов не привело бы к каким-либо потерям информации. Более того, можно использовать алфавит только из двух символов, например, символов 0 и 1. И его “изобразительная возможность” будет такой же.

Итак, символьная информация может представляться с использованием самых различных алфавитов ( наборов символов) без искажения содержания и смысла информации: при необходимости можно изменять форму представления информации - вместо общепринятого алфавита использовать какой-либо другой, искусственный алфавит, например, двухбуквенный.

Форма представления информации, отличная от естественной, общепринятой, называется кодом. Коды широко используются в нашей жизни: почтовые индексы, телеграфный код Морзе и др. Широко применяются коды и в ЭВМ и в аппаратуре передачи данных. Так, например, широко известно понятие “программирование в кодах”.

Кроме рассмотренных существуют и другие формы представления дискретной информации. Например, чертежи и схемы содержат в себе графическую информацию.

Информация, наряду с материей и энергией является первичным понятием нашего мира и поэтому в строгом смысле не может быть определена.

Вместе с тем, слово информация является одним из тех терминов, которые достаточно часто встречаются не только в научных трудах специального характера, но и во множестве обиходных ситуаций и являются интуитивно понятными каждому человеку.

Знаки или первичные сигналы, организованные в последовательности, несут информацию не потому, что они повторяют объекты реального времени, а по общественной договоренности об однозначной связи знаков и объектов. Например: предметы и слова для их обозначения.

Кроме того, первичные сигналы могут быть порождены естественными законами реального мира. Например: напряжение на выходе термопары под действием температуры.

Информация, основанная на однозначной связи знаков или сигналов с объектами реального мира, называется семантической или смысловой.

Также, в общей науке о знаках (семиотики), кроме перечисленных, выделяют сигматический и прагматический аспекты информации:

а) в первом случае изучается вопрос о выборе знаков для обозначения объектов реального мира;

б) во втором случае о ценности информации для достижения поставленных целей.

Наибольший практический интерес представляют смысловой, семантический и прагматический аспекты. Однако до сих пор не определены объективные количественные критерии меры ценности и полезности информации.

Синтаксическая мера информации имеет практическую ценность потому, что интересующая в конечном итоге получателя семантическая информация заключена в заданной последовательности знаков или первичных сигналов. Чем больше знаков передается в определенный интервал времени, тем в среднем больше передается и смысловой информации.

Используется два подхода: вероятностный или алфавитный.

Вероятностный подход к измерению информации

Любая информация может рассматриваться как уменьшение неопределенности наших знаний об окружающем мире (в теории информации принято говорить именно об уменьшении неопределенности, а не об увеличении объема знаний). Математически это высказывание эквивалентно простой формуле

где I — это количество информации, а H1 и H2 — начальная и конечная неопределенность соответственно. Величину H, которая описывает степень неопределенности, в литературе принято называть энтропией.

Важным частным случаем является ситуация, когда некоторое событие с несколькими возможными исходами уже произошло, а, значит, неопределенность его результата исчезла. Тогда H2 = 0 и формула для информации упрощается:

Вычисление энтропии при вероятностном подходе базируется на рассмотрении данных о результате некоторого случайного события, т.е. события, которое может иметь несколько исходов. Случайность события заключается в том, что реализация того или иного исхода имеет некоторую степень неопределенности.

Пусть, например, абсолютно незнакомый нам ученик сдает экзамен, результатом которого может служить получение оценок 2, 3, 4 или 5. Поскольку мы ничего не знаем о данном ученике, то степень неопределенности всех перечисленных результатов сдачи экзамена совершенно одинакова. Напротив, если нам известно, как он учится, то уверенность в некоторых исходах будет больше, чем в других: так, отличник скорее всего сдаст экзамен на пятерку, а получение двойки для него — это нечто почти невероятное.

Наиболее просто определить количество информации в случае, когда все исходы события могут реализоваться с равной долей вероятности. В этом случае для вычисления информации используется формула Хартли. В более сложной ситуации, когда исходы события ожидаются с разной степенью уверенности, требуются более сложные вычисления по формуле Шеннона. Очевидно, что формула Хартли является некоторым частным случаем более общей формулы Шеннона.

2 I = N

Причем обычно значение N известно, а I приходится подбирать, что не совсем удобно. Поэтому те, кто знает математику получше, предпочитают преобразовать данную формулу так, чтобы сразу выразить искомую величину I в явном виде:

I = log2 N

Все карты одинаковы, поэтому любая из них могла быть перевернута с одинаковой вероятностью. В таких условиях применима формула Хартли.

Событие, заключающееся в открытии верхней карты, для нашего случая могло иметь 16 возможных исходов. Следовательно, информация о реализации одного из них равняется

I = log216 = 4 бита

В этом случае, прежде чем воспользоваться формулой Хартли, необходимо вспомнить, что информация есть уменьшение неопределенности знаний:

I = H1 – H2

До переворота карты неопределенность (энтропия) составляла

H1 = log2 N1

H2 = log2 N2

(причем для нашей задачи N1 = 16, а N2 = 2).

В итоге информация вычисляется следующим образом:

I = H1 – H2 = log2 N1 – log2 N2 = log2 N1/N2 = log2 16/2 = 3 бита

Заметим, что в случае, когда нам называют карту точно (см. предыдущий пример), неопределенность результата исчезает, N2 = 1, и мы получаем “традиционную” формулу Хартли. И еще одно полезное наблюдение. Полная информация о результате рассматриваемого опыта составляет 4 бита (см. пример 1). В данном же случае мы получили 3 бита информации, а оставшийся четвертый описывает сохранившуюся неопределенность выбора между двумя дамами черной масти.


Легко заметить, что если вероятности pi равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

Читайте также: