Расчет количества текстовой информации реферат

Обновлено: 08.07.2024

Понимая информацию как один из основных стратегических ресурсов, без которого невозможна деловая, управленческая, вообще любая социально значимая деятельность, необходимо уметь оценивать ее как с качественной, так и с количественной стороны. На этом пути существуют большие проблемы из-за нематериальной природы этого ресурса и субъективности восприятия конкретной информации различными индивидуумами человеческого общества. С этой точки зрения классификация информации является важнейшим средством создания систем хранения и поиска информации, без которых сегодня невозможно эффективное функционирование информационного обеспечения управления.

Целью работы является рассмотрение видов информации, областей применения и подходов к ее количественной оценке. Для этого нужно рассмотреть следующие задачи и вопросы. Первой задачей является изучение общих понятий по данной теме. Рассмотрение конкретных способов оценки количества информации – вторая задача.

Что такое информация и ее классификация

Термин "информация" происходит от латинского слова "informatio", что означает сведения, разъяснения, изложение. Несмотря на широкое распространение этого термина, понятие информации является одним из самых дискуссионных в науке. В настоящее время наука пытается найти общие свойства и закономерности, присущие многогранному понятию информация, но пока это понятие во многом остается интуитивным и получает различные смысловые наполнения в различных отраслях человеческой деятельности:

· в кибернетике под информацией понимает ту часть знаний, которая используется для ориентирования, активного действия, управления, т.е. в целях сохранения, совершенствования, развития системы (Н. Винер).

Клод Шеннон, американский учёный, заложивший основы теории информации — науки, изучающей процессы, связанные с передачей, приёмом, преобразованием и хранением информации, — рассматривает информацию как снятую неопределенность наших знаний о чем-то.

Применительно к информации как к объекту классификации выделенные классы называют информационными объектами. С этой точки зрения классификация информации является важнейшим средством создания систем хранения и поиска информации, без которых сегодня невозможно эффективное функционирование информационного обеспечения управления. Классификация носит всеобщий характер вследствие той роли, которую она играет как инструмент научного познания, прогнозирования и управления. Одновременно классификация выполняет функцию объективного отражения и фиксации результатов этого познания. при этом характер классификационной схемы, состав признаков классификации и глубина классификации определяется теми практическими целями, для реализации которых используется классификация, типом объектов классификации, а также условиями, в которых классификация будет использоваться.

1.2 Виды информации

Основные виды информации по ее форме представления, способам ее кодирования и хранения, что имеет наибольшее значение для информатики, это:

1. Графическая или изобразительная — первый вид, для которого был реализован способ хранения информации об окружающем мире в виде наскальных рисунков, а позднее в виде картин, фотографий, схем, чертежей на бумаге, холсте, мраморе и др. материалах, изображающих картины реального мира;

2. Звуковая — мир вокруг нас полон звуков и задача их хранения и тиражирования была решена с изобретение звукозаписывающих устройств в 1877 г. ее разновидностью является музыкальная информация — для этого вида был изобретен способ кодирования с использованием специальных символов, что делает возможным хранение ее аналогично графической информации;

3. Текстовая — способ кодирования речи человека специальными символами — буквами, причем разные народы имеют разные языки и используют различные наборы букв для отображения речи; особенно большое значение этот способ приобрел после изобретения бумаги и книгопечатания;

4. Числовая — количественная мера объектов и их свойств в окружающем мире; особенно большое значение приобрела с развитием торговли, экономики и денежного обмена; аналогично текстовой информации для ее отображения используется метод кодирования специальными символами — цифрами, причем системы кодирования (счисления) могут быть разными;

1.3 Виды подходов к оценке количества информации


(РИСУНОК 1)

При всем многообразии подходов к определению понятия информации, с позиции измерения информации нас будут интересовать два из них: определение К. Шеннона, применяемое в математической теории информации (содержательный подход), и определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров (алфавитный подход). (рисунок 1)

1.4 Содержательный подход

Содержательный подход к измерению информации.

Для человека информация — это знания человека. Рассмотрим вопрос с этой точки зрения.

Проще всего определить объем информации в том случае, когда все результаты события могут быть реализованы с равной вероятностью. В этом случае формула Хартли используется для расчета информации.

Причем обычно значение N известно, а I приходится подбирать, что не совсем удобно. Поэтому те, кто знает математику получше, предпочитают преобразовать данную формулу так, чтобы сразу выразить искомую величину I в явном виде: I = log2 N

В более сложной ситуации, когда исход события ожидается с различной степенью достоверности, требуются более сложные вычисления с использованием формулы Шеннона.

Формула Шеннона: I = - ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN),

Легко заметить, что если вероятности p1, . pN равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.

1.5 Алфавитный подход

Алфавитный подход используется для измерения количества информации в тексте, представленном в виде последовательности символов некоторого алфавита. Такой подход не связан с содержанием текста. Количество информации в этом случае называется информационным объемом текста, который пропорционален размеру текста — количеству символов, составляющих текст. Иногда данный подход к измерению информации называют объемным подходом.

Каждый символ текста несет определенное количество информации. Его называют информационным весом символа. Поэтому информационный объем текста равен сумме информационных весов всех символов, составляющих текст.

Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле Хартли:

Алфавит - множество используемых символов в языке.

Мощность алфавита (N) - количество символов, используемых в алфавите.

i=log2N , где N - мощность алфавита.

Формула Хартли задает связь между количеством возможных событий N и количеством информации i :

Заключение

Содержание работы

Введение 2
Понятие кодирования информации 2
Основная часть 3
История кодирования информации 3
Криптография 3
Сурдожест 3
Кодирование различных типов информации 4
История кодирования символов 4
Азбука Морзе 4
Язык программирования - лого 7
Кодировка CP866 9
Кодировка Mac 9
Кодировка ISO 8859-5 10
Кодировка CP1251 10
Unicode 11
Кодировка символов русского языка 14
Кодовая таблица 14
Кодирование цвета 15
Цветовая модель RGB 15
Цветовая модель CMYK 15
Цветовая модель HSB (HSV) 16
Цветовая модель HSL 17
Цветовая модель LAB 17
Кодирование графической информации 18
Кодирование растровых изображений 20
Пример векторного изображения 2 21
Пример векторного изображения 21
2.4. Кодирование целых и действительных чисел 22
Кодирование звуковой информации 22
Аналоговый сигнал в цифровой форме 23
Кодирование текстовой информации 25
Расчет количества текстовой информации 26
Расчёт колличества текстовой информации 26
Заключение 28
Список используемой литературы 29

Файлы: 1 файл

Кодирование информации Измайлова.doc

В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, то есть преобразование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Расчет количества текстовой информации

Расчёт колличества текстовой информации

Задача 2: Считая, что каждый символ кодируется одним байтом, оцените информационный объем следующего предложения:

“Мой дядя самых честных правил,

Когда не в шутку занемог,

Он уважать себя заставил

И лучше выдумать не мог.”

Решение: В данной фразе 108 символов, учитывая знаки препинания, кавычки и пробелы. Умножаем это количество на 8 бит. Получаем 108*8=864 бита.

Задача 3: Два текста содержат одинаковое количество символов. Первый текст записан на русском языке, а второй на языке племени нагури, алфавит которого состоит из 16 символов. Чей текст несет большее количество информации?

1) I = К * а (информационный объем текста равен произведению числа символов на информационный вес одного символа).

2) Т.к. оба текста имеют одинаковое число символов (К), то разница зависит от информативности одного символа алфавита (а).

3) 2 а1 = 32, т.е. а1 = 5 бит, 2 а2 = 16, т.е. а2 = 4 бит.

4) I1 = К * 5 бит, I2 = К * 4 бит.

5) Значит, текст, записанный на русском языке в 5/4 раза несет больше информации.

2) а = I / К = 16384 /1024 =16 бит – приходится на один символ алфавита.

3) 2*16*2048 = 65536 символов – мощность использованного алфавита.

1) Находим количество информации, содержащейся на 1 странице: 45 * 70 * 8 бит = 25200 бит

2) Находим количество информации на 8 страницах: 25200 * 8 = 201600 бит

3) Приводим к единым единицам измерения. Для этого Мбиты переводим в биты: 6,3*1024=6451,2 бит/сек.

4) Находим время печати: 201600: 6451,2 =31 секунда.

Заключение

Выполнение функций кодирования и декодирования вычислительными или управляющими процессорами открывает новые возможности анализа данных, их преобразования, формирования помехозащищенных кодовых последовательностей и накладывает новые требования на выбор методов помехоустойчивого кодирования. Необходимы коды, эффективные и в канале связи при аппаратной реализации, и в ЭВМ при программной реализации. Введенную избыточность используют для повышения достоверности при передаче по каналу связи и при обработке данных в ЭВМ. При этом код должен быть простым в использовании его человеком.

Средства обучения. Аппаратно – программная база: компьютер, мультимедийный проектор, принтер; Windous XP, Microsoft Word, Microsoft Power Point, браузер Internet Excplorer.

Подготовка студентов к занятию

Н. Угринович. – М.: БИНОМ. Лаборатория знаний. 2006г. Информатика и информационные технологии (стр. 72 -119).

Пояснения к выполнению работы

Презентация

Кодирование текстовой информации (слайд 1).

Рассматриваемые вопросы (слайд 2):

- двоичное кодирование текстовой информации;

- расчет количества текстовой информации.

Исторический экскурс

Человечество использует шифрование (кодировку) текста с того самого момента, когда появилась первая секретная информация. Перед вами несколько приёмов кодирования текста, которые были изобретены на различных этапах развития человеческой мысли (слайд 3):

- криптография – это тайнопись, система изменения письма с целью сделать текст непонятным для непосвященных лиц;

- азбука Морзе или неравномерный телеграфный код, в котором каждая буква или знак представлены своей комбинацией коротких элементарных посылок электрического тока (точек) и элементарных посылок утроенной продолжительности (тире);

- сурдожесты – язык жестов, используемый людьми с нарушениями слуха.

Вопрос: Какие примеры кодирования текстовой информации можно привести еще?

(Показ слайда 4). Один из самых первых известных методов шифрования носит имя римского императора Юлия Цезаря (I век до н.э.) [4]. Этот метод основан на замене каждой буквы шифруемого текста, на другую, путем смещения в алфавите от исходной буквы на фиксированное количество символов, причем алфавит читается по кругу, то есть после буквы я рассматривается а. Так слово байт при смещении на два символа вправо кодируется словом гвлф. Обратный процесс расшифровки данного слова – необходимо заменять каждую зашифрованную букву, на вторую слева от неё.

(Показ слайда 5) Расшифруйте фразу персидского поэта Джалаледдина Руми “кгнусм ёогкг фесл тцфхя фзужщз фхгрзх ёогксп”, закодированную с помощью шифра Цезаря. Известно, что каждая буква исходного текста заменяется третьей после нее буквой. В качестве опоры используйте буквы русского алфавита, расположенные на слайде.

Что у вас получилось?

Закрой глаза свои пусть сердце станет глазом

Ответ сравнивается с появившемся на слайде 5 правильным ответом.

Двоичное кодирование текстовой информации

Вопрос: В каком из перечисленных приёмов кодирования используется двоичный принцип кодирования информации?

Ответ : В азбуке Морзе.

В компьютере также используют принцип двоичного кодирования информации. Только вместо точки и тире используют 0 и 1 (слайд 6).

Традиционно для кодирования одного символа используется 1 байт информации.

Вопрос: Какое количество различных символов можно закодировать?

Ответ: N = 2 I = 2 8 = 256.

Достаточно ли этого для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры и другие символы?

Подсчитайте количество различных символов:

- 33 строчные буквы русского алфавита + 33 прописные буквы = 66;

- для английского алфавита 26 + 26 = 52;

- цифры от 0 до 9 и т.д.

Вывод: Получается, что нужно 127 символов. Остается еще 129 значений, которые можно использовать для обозначения знаков препинания, арифметических знаков, служебных операций (перевод строки, пробел и т.д.. Следовательно, одного байта вполне хватает, чтобы закодировать необходимые символы для кодирования текстовой информации.

В текстовом редакторе MS Word чтобы вывести на экране символ по его номеру кода, необходимо удерживая на клавиатуре клавишу “ALT” набрать код символа на дополнительной цифровой клавиатуре. Запустите текстовый редактор MS Word. Удерживая клавишу “ALT”, наберите коды на дополнительной цифровой клавиатуре (слайд 10): 133 232 242

Какое слово получили?

Закройте файл без сохранения.

Понятие кодировки Unicode (слайд 11). В мире существует примерно 6800 различных языков. Если прочитать текст, напечатанный в Японии на компьютере в России или США, то понять его будет нельзя. Чтобы буквы любой страны можно было читать на любом компьютере, для их кодировки стали использовать два байта (16 бит).

Вопрос: Сколько символов можно закодировать двумя байтами

Такая кодировка называется Unicode и обозначается как UCS-2. Этот код включает в себя все существующие алфавиты мира, а также множество математических, музыкальных, химических символов и многое другое.

Существует кодировка и UCS-4, где для кодирования используют 4 байта, то есть можно кодировать более 4 млрд. символов.

Расчет количества текстовой информации

Так как каждый символ кодируется 1 байтом, то информационный объем текста можно узнать, умножив количество символов в тексте на 1 байт.

Проверим это на практике. Включите монитор, создайте текстовый документ в редакторе Блокнот и напечатайте в нём пословицу (слайд 12): “Ученье – атаман, а неученье – комар”. Сколько в ней символов?

Кодирование информации с физической точки зрения. С точки зрения технической реализации использование двоичной системы счисления для кодирования информации оказалось намного более простым, чем применение других способов. Действительно, удобно кодировать информацию в виде проследовательность нулей и единиц, если представить эти значения как два возможных устойчивых состояния электронного элемента:

  • 0 – отсутствие электрического сигнала;
  • 1 – наличие электрического сигнала.

Эти состояния легко различать. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим количеством простых элементов, чем с небольшим числом сложных. Вам приходится постоянно сталкиваться с устройством, которое может находится только в двух устойчивых состояниях: включено/выключено. Конечно же, это хорошо знакомый всем выключатель. А вот придумать выключатель, который мог бы устойчиво и быстро переключаться в любое из 10 состояний, оказалось невозможным. В результате после ряда неудачных попыток разработчики пришли к выводу о невозможности построения компьютера на основе десятичной системы счисления. И в основу представления чисел в компьютере была положена именно двоичная система счисления. Таким образом, информация, которою обработает компьютер, должна быть представлена двоичным кодом с помощью двух цифр – 0 и 1.
Эти два символа 0 и 1 принято называть битами (от англ. binary digit – двоичный знак).

  • кодирование – преобразование входной информации в форму, воспринимаемую компьютером, т.е. двоичный код
  • декодирование – преобразование данных из двоичного кода в форму, понятную человеку.

Способы кодирования и декодирования информации в компьютере, в первую очередь, зависит от вида информации, а именно, что должно кодироваться: числа, текст, графические изображения или звук.

Рассмотрим основные способы двоичного кодирования информации в компьютере.

Для записи информации о количестве объектов используются числа. Числа записываются с использование особых знаковых систем, которые называют системами счисления.

Система счисления – совокупность приемов и правил записи чисел с помощью определенного набора символов. Все системы счисления делятся на две большие группы: позиционные и непозиционные.
Позиционные - количественное значение каждой цифры числа зависит от того, в каком месте (позиции или разряде) записана та или иная цифра.
Непозиционные - количественное значение цифры числа не зависит от того, в каком месте (позиции или разряде) записана та или иная цифра.

Самой распространенной из непозиционных систем счисления является римская. В качестве цифр используются: I(1), V(5), X(10), L(50), C(100), D(500), M(1000).
Величина числа определяется как сумма или разность цифр в числе.
MCMXCVIII = 1000+(1000-100)+(100-10)+5+1+1+1 = 1998
Первая позиционная система счисления была придумана еще в Древнем Вавилоне, причем вавилонская нумерация была шестидесятеричная, т.е. в ней использовалось шестьдесят цифр! В XIX веке довольно широкое распространение получила двенадцатеричная система счисления. В настоящее время наиболее распространены десятичная, двоичная, восьмеричная и шестнадцатеричная системы счисления. Количество различных символов, используемых для изображения числа в позиционных системах счисления, называется основанием системы счисления.

Цель: получить навыки измерения количества информации. Научится рассчитывать размер файлов в зависимости от типа данных в файле и количества информации, занимаемого логической единицей данных.

Теоретическая часть

Производные единицы измерения количества информации. Минимальной единицей измерения количества информации является бит, а следующей по величине единицей - байт, причем:

1 байт = 8 битов = 23 битов.

В информатике система образования кратных единиц измерения несколько отличается от принятых в большинстве наук. Традиционные метрические системы единиц, например Международная система единиц СИ, в качестве множителей кратных единиц используют коэффициент 10 n , где n = 3, 6, 9 и т. д., что соответствует десятичным приставкам "Кило" (10 3 ), "Мега" (10 6 ), "Гига" (10 9 ) и т. д.

В компьютере информация кодируется с помощью двоичной знаковой системы, и поэтому в кратных единицах измерения количества информации используется коэффициент 2 n . Так, кратные байту единицы измерения количества информации вводятся следующим образом:

1 Килобайт (Кбайт) = 210 байт = 1024 байт;

1 Мегабайт (Мбайт) = 210 Кбайт = 1024 Кбайт;

1 Гигабайт (Гбайт) = 210 Мбайт = 1024 Мбайт.

1 Терабайт (Тб) = 1024 Гбайта = 240 байта,

1 Петабайт (Пб) = 1024 Тбайта = 250 байта.

Рассмотрим некоторый алфавит из m символов: и вероятность выбора из этого алфавита какой-то i-й буквы для описания (кодирования) некоторого состояния объекта. Каждый такой выбор уменьшит степень неопределенности в сведениях об объекте и, следовательно, увеличит количество информации о нем. Для определения среднего значения количества информации, приходящейся в данном случае на один символ алфавита, применяется формула

В случае равновероятных выборов p=1/m. Подставляя это значение в исходное равенство, мы получим

Рассмотрим следующий пример. Пусть при бросании несимметричной четырехгранной пирамидки вероятности выпадения граней будут следующими: p1=1/2, p2=1/4, p3=1/8, p4=1/8, тогда количество информации, получаемое после броска, можно рассчитать по формуле:

В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ два байта (16 бит). С его помощью можно закодировать 2 16 = 65536 различных символов.

Информация в кодировке Unicode передается со скоростью 128 знаков в секунду в течение 32 минут. Какую часть дискеты ёмкостью 1,44Мб займёт переданная информация?

Дано:
v = 128 символов/сек;
t = 32 минуты=1920сек;
i = 16 бит/символ

nсимв = v*t = 245760 символов
V=nсимв*i = 245760*16 = 3932160 бит = 491520 байт = 480 Кб = 0,469Мб, что составляет 0,469Мб*100%/1,44Мб = 33% объёма дискеты

Читайте также: