В чем суть алфавитного подхода к измерению информации кратко

Обновлено: 07.07.2024

Измерение информации: содержательный и алфавитный подходы. Единицы измерения информации.

Алфавитный подход к измерению информации.

1 бит - это минимальная единица измерения информации!

Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов.

В любой системе единиц измерения существуют основные единицы и производные от них.

Для измерения больших объемов информации используются следующие производные от байта единицы:

Алфавит — это набор символов, которые используются в некотором языке с целью представления информации.

Например, мощность алфавита, состоящего из \(26\) латинских букв и дополнительных символов (скобки, пробел, знаки препинания (\(11\) шт.), \(10\) цифр), — \(47\).

1. определим, какое количество бит необходимо для кодировки одного символа. Так как мощность используемого алфавита \(N\)\(=\) 256 , то \(i\) \(=\) 8 (использовали формулу N = 2 i ).

\(1\) байт\(8\) бит \(=\) 2 3 бит
\(1\) Кбайт (килобайт) 2 10 байт
\(1\) Мбайт (мегабайт) 2 10 Кбайт
\(1\) Гбайт (гигабайт) 2 10 Мбайт
\(1\) Тбайт (терабайт) 2 10 Гбайт

1) определить, сколько Мбайт информации содержится в \(512\) битах. Ответ дай в виде степени числа \(2\).


Как и любую другую физическую величину, информацию можно измерить. Существуют разные подходы к измерению информации. Один из таких подходов рассматривается в курсе информатики за 7 класс.

Что такое измерение информации

Алфавитный подход к измерению информации

Вес отдельного знака зависит от их количества в алфавите. Число символов алфавита называют мощностью (N). Например, мощность алфавита английского языка по числу символов равно 26, русского языка 33. Но на самом деле, при написании текста используются и прописные и строчные буквы, а также знаки препинания, пробелы и специальные невидимые символы, обозначающие конец абзаца и перевод к новой строке. Поэтому имеют дело с мощностью 128 или в расширенной версии 256 символов.


Рис. 1. Таблица символов – латиница.

Бит, байт и другие единицы измерения

Восемь бит образуют байт.


Рис. 2. Портрет Вернера Бухгольца.

На практике величина объема информации выражает в более крупных единицах: килобайтах, терабайтах, мегабайтах.

Следует запомнить, что килобайт равен 1024 байта, а не 1000. Как, например, 1 километр равен 1000 метрам. Эта разница получается за счет того, 1 байт равен 8 битам, а не 10.

Для того, чтобы легче запомнить единицы измерения, следует воспользоваться таблицей степени двойки.

Таблица степеней двойки

Показатель степени

Значение

Единицы измерения информации

Рис. 3. Единицы измерения информации.

То есть, 2 3 = 8 – это 1 байт, состоящий из 8 бит, 2 10 = 1024 это 1 килобайт, 2 20 = 1048576 представляет собой 1 мегабайт, 2 30 = 1 гигабайт, 2 40 = 1 терабайт.

Определение количества информации

Вес символа (i) и мощность алфавита (N) связаны между собой соотношением: 2 i = N.

Что мы узнали?

Свидетельство и скидка на обучение каждому участнику

Зарегистрироваться 15–17 марта 2022 г.

7. Алфавитный (объёмный) подход к измерению информации

Алфавитный (объёмный) подход к измерению информации позволяет определить количество информации, заключенной в тексте, записанном с помощью некоторого алфавита.

Алфавит - множество используемых символов в языке.

Обычно под алфавитом понимают не только буквы, но и цифры, знаки препинания и пробел.

Мощность алфавита ( N ) - количество символов, используемых в алфавите.

Например, мощность алфавита из русских букв равна 32 (буква ё обычно не используется).

Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле Хартли :

где N - мощность алфавита.

Формула Хартли задает связь между количеством возможных событий N и количеством информации i :

Из базового курса информатики известно, что в компьютерах используется двоичное кодирование информации. Для двоичного представления текстов в компьютере чаще всего используется равномерный восьмиразрядный код. С его помощью можно закодировать алфавит из 256 символов, поскольку 256=2 8 .

В стандартную кодовую таблицу (например, ASCII) помещаются все необходимые символы: английские и русские прописные и строчные буквы, цифры, знаки препинания, знаки арифметических операций, всевозможные скобки и пр.

В двоичном коде один двоичный разряд несет одну единицу информации, которая называется 1 бит .

Один символ из алфавита мощностью 256 ( 2 8 ) несет в тексте 8 битов информации. Такое количество информации называется байтом .

1 байт =8 битов

Информационный объем текста в памяти компьютера измеряется в байтах . Он равен количеству знаков в записи текста.

10 , где n =3,6,9 и т. д.

Для устранения этой некорректности Международная электротехническая комиссия , занимающаяся созданием стандартов для отрасли электронных технологий, утвердила ряд новых приставок для единиц измерения количества информации: киби (kibi), меби (mebi), гиби (gibi), теби (tebi), пети (peti), эксби (exbi). Однако пока используются старые обозначения единиц измерения количества информации, и требуется время, чтобы новые названия начали широко применяться.

Если весь текст состоит из K символов, то при алфавитном подходе объём V содержащейся в нем информации равен:

где i - информационный вес одного символа в используемом алфавите.

Зная, что i = log 2 N , данную выше формулу можно представить в другом виде:

При алфавитном подходе к измерению информации информационный объем текста зависит только от размера текста и от мощности алфавита, а не от содержания. Поэтому нельзя сравнивать информационные объемы текстов, написанных на разных языках, по размеру текста.


1) Обучающая: рассмотреть алфавитный подход к измерению количества информации, научиться вычислять количество информации с точки зрения алфавитного подхода.

2) Развивающая: развитие у учащихся самостоятельности и познавательной активности.

3) Воспитывающая: воспитывать дисциплинированность, аккуратность, собранность.

Литература:

Тип урока: ознакомление с новым материалом

План урока:

1. Организационный этап.

2. Актуализация знаний.

3. Подготовка учащихся к усвоению нового материала.

4. Этап получения новых знаний.

5. Этап обобщения и закрепления нового материала.

7. Заключительный этап.

Ход урока

1. Организационный этап.

Здравствуйте. Прежде чем мы приступим к уроку, хотелось бы, чтобы каждый из вас настроился на рабочий лад.

2. Актуализация знаний.

2) Какую минимальную единицу информации используют для измерения количества информации? (Бит)

3) Какую формулу используют для определения количества информации? (Формулу Хартли)

3. Этап получения новых знаний.

Содержательный подход к измерению информации рассматривает информацию с точки зрения человека, как уменьшение неопределенности наших знаний.

Однако любое техническое устройство не воспринимает содержание информации. Поэтому в вычислительной технике используется другой подход к определению количества информации. Он называется алфавитным подходом.

Проще всего разобраться в этом на примере текста, написанного на каком-нибудь языке. Для нас удобнее, чтобы это был русский язык.

Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, пропуск между словами.

Алфавит — это множество символов, используемых при записи текста.

Мощность (размер) алфавита — это полное количество символов в алфавите.

Мощность алфавита обозначается буквой N.

· мощность алфавита из русских букв равна 33;

· мощность алфавита из латинских букв — 26;

· мощность алфавита текста набранного с клавиатуры равна 256 (строчные и прописные латинские и русские буквы, цифры, знаки арифметических операций, скобки, знаки препинания );

· мощность двоичного алфавита равна 2.

При алфавитном подходе считается, что каждый символ текста имеет информационную емкость. Информационная емкость знака зависит от мощности алфавита.

Тогда в формуле

N — количество знаков в алфавите знаковой системы, I — количество информации, которое несет каждый знак.

Например, из формулы можно определить количество информации, которое несет знак в двоичной знаковой системе

Информационная емкость знака двоичной знаковой системы составляет 1 бит.

Задача 1. Определите, какое количество информации несет буква русского алфавита (без буквы ё).

Буква русского алфавита несет 5 битов информации.

Давайте решим с вами задачу.

Что нам для этого дано?

4. Этап обобщения и закрепления нового материала.

2) Определить количество информации, содержащееся в слове из 10 символов, если известно, что мощность алфавита равна 32 символам. (50 бит)

Читайте также: