Кодирование текстовой информации кратко 8 класс

Обновлено: 05.07.2024

Кодирование текстовой информации

Одна и та же информация может быть представлена (закодирована) в нескольких формах. C появлением компьютеров возникла необходимость кодирования всех видов информации, с которыми имеет дело и отдельный человек, и человечество в целом. Но решать задачу кодирования информации человечество начало задолго до появления компьютеров. Грандиозные достижения человечества - письменность и арифметика - есть не что иное, как система кодирования речи и числовой информации. Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами.

Т радиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов можно закодировать (считая, что символы - это возможные события): К = 2 I = 2 8 = 256, т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.

Удобство побайтового кодирования символов очевидно, поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, то есть преобразование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Виды таблиц кодировок

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange - Американский стандартный код для информационного обмена), кодирующая первую половину символов с числовыми кодами от 0 до 127 ( коды от 0 до 32 отведены не символам, а функциональным клавишам).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Порядковый номер

Символы с номерами от 0 до 31 принято называть управляющими.

Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.

Символ 32 - пробел, т.е. пустая позиция в тексте.

Все остальные отражаются определенными знаками.

Альтернативная часть таблицы (русская).

Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.

Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница").

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.

Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Внутреннее представление слов в памяти компьютера

с помощью таблицы ASCII

Иногда бывает так, что текст, состоящий из букв русского алфавита, полученный с другого компьютера, невозможно прочитать - на экране монитора видна какая-то "абракадабра". Это происходит оттого, что на компьютерах применяется разная кодировка символов русского языка.

Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

Оборудование: доска, интерактивная доска, компьютер, мультимедийный проектор, рабочие места учеников (персональный компьютер).

Оформление доски: дата, тема урока, N = 2 I , домашнее задание § 3.1, стр.74, задание 3.1. стр.77.

Ход урока

I. Организационный момент.

II. Актуализация и систематизация знаний.

(в скобках ответ на вопрос)

III. Изучение нового материала.

Двоичное кодирование текстовой информации в компьютере.

В процессах восприятия, передачи и хранения информации живыми организмами, человеком и техническими устройствами происходит ее кодирование. Человечество использует шифрование (кодировку) текста с того момента, когда появилась первая секретная информация. Текст – последовательность символов компьютерного алфавита.

Текстовая информация – это информация, выраженная с помощью естественных и формальных языков в письменной форме (прописные и строчные буквы русского и латинского алфавитов, цифры, знаки и математические символы).

Для представления текстовой информации достаточно 256 различных знаков.

По формуле N=2 I можно вычислить, какое количество информации необходимо, чтобы закодировать каждый знак: N = 2 I => 256 = 2 I => 2 8 = 2 I => I = 8 битов.

Для обработки текстовой информации на компьютере необходимо представить ее в двоичной знаковой системе (в виде 0 и 1). Для кодирования каждого знака требуется количество информации, равное 8 битам, т. е. длина двоичного кода знака составляет восемь двоичных знаков. Каждому знаку необходимо поставить в соответствие уникальный двоичный код из интервала от 00000000 до 11111111 (в десятичном коде от 0 до 255)

Человек различает знаки по их начертанию, а компьютер - по их двоичным кодам. При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение знака преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу со знаком, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код знака). Код знака хранится в оперативной памяти компьютера, где занимает одну ячейку.

В процессе вывода знака на экран компьютера производится обратное перекодирование, т. е. преобразование двоичного кода знака в его изображение.

Различные кодировки знаков.

При кодировании каждому символу алфавита ставиться в соответствие уникальный двоичный код.

Таблица кодировки – таблица, в которой всем символам компьютерного алфавита поставлена в соответствие порядковые номера (коды)

Присваивание знаку конкретного двоичного кода - это вопрос соглашения, которое фиксируется в кодовой таблице.

В существующих кодовых таблицах:

десятичные коды с 0 по 32 соответствуют не знакам, а операциям (перевод строки, ввод пробела и т. д.).
десятичные коды с 33 по 127 являются интернациональными и соответствуют знакам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
десятичные коды с 128 по 255 являются национальными, т. е. в различных национальных кодировках одному и тому же коду соответствуют разные знаки.

В настоящее время существуют пять различных кодовых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO) поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой. Для разных типов ЭВМ используются различные таблицы кодировки. С распространением персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки под названием ASCII (American Standart Code for Information Interchange) – американский стандартный код для информационного обмена.

Рисунок 2. Десятичные коды некоторых символов в различных кодировках

Например, в кодировке Windows последовательность числовых кодов 221, 194, 204 образует слово "ЭВМ", тогда как в других кодировках это будет бессмысленный набор символов.

Понятие кодировки Unicode(UCS - 2)

В последние годы широкое распространение получил новый международный стандарт кодирования текстовых символов Unicode, который отводит на каждый символ 2 байта (16 битов). По формуле можно определить количество символов, которые можно закодировать согласно этому стандарту: N = 2 I = 2 16 = 65 536.

Такого количества символов достаточно, чтобы закодировать не только русский и латинский алфавиты, цифры, знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты.

IV. Закрепление нового материала.

Выполнение практической работы учащимися за компьютерами. (см. Приложение 1)

V. Домашнее задание.

Записать домашнее задание в дневник или тетрадь.

учебник Информатика и ИКТ. Базовый курс: Учебник для 8 класса/ Н.Д. Угринович. § 3.1, стр.74 , задание для самостоятельного выполнения №3.1. стр.77.

VI. Итог урока.

Подведение итога урока. Ответить на вопросы учителя (в скобках ответ на вопрос).

Свидетельство и скидка на обучение каждому участнику

Зарегистрироваться 15–17 марта 2022 г.

Описание презентации по отдельным слайдам:

Кодирование текстовой информации

Содержание Вопросы для повторения Двоичное кодирование текстовой информации в компьютере Кодовая таблица Код ASCII Принцип последовательного кодирования алфавита Различные кодировки знаков Примеры Тестовая проверочная работа

Вопросы для повторения Какие виды информации по способу представления вы знаете? Кодирование каких видов информации вы изучили на прошлых уроках? Вспомните главную форму информатики? Что принято за единицу количества информации? Назовите производные единицы измерения количества информации.

Двоичное кодирование текстовой информации в компьютере Для представления текстовой информации достаточно 256 различных символов. N = 2I, 256 = 2I , 28 = 2I ,I = 8 битов Для кодирования каждого знака требуется количество информации, равное 8 битам. Для представления текста в памяти компьютера необходимо представить его в двоичной знаковой системе. Каждому знаку необходимо поставить в соответствие уникальный двоичный код в интервале от 00000000 до 11111111 (в десятичном коде от 0 до 255)

Кодовая таблица Для представления символов и соответствующих им кодов используется кодовая таблица. В качестве стандарта во всем мире принята таблица ASCII (American Standard Code for Information Interchange – Американский стандартный код для обмена информацией). Условно таблица разделена на части: от 0 до 32 коды соответствуют операциям; с 33 по 127 соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания; со 128 по 255 являются национальными.

Различные кодировки знаков В настоящее время существуют пять различных кодировок для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO), поэтому тексты созданные в одной кодировке не будут правильно отображаться в другой. В последние годы широкое распространение получил новый международный стандарт кодирования текстовых символов Unicode, который отводит на каждый символ 2 байта (16 битов), что позволило закодировать многие алфавиты в одной таблице. N = 2I, N = 216 , N = 65536

Ответы для проверки Вариант 1 Вариант 2 1 2 3 4 5 2 3 2 2 4 1 2 3 4 5 1 2 2 4 3

Домашнее задание Повторить изученный материал, воспользовавшись конспектом лекции и учебником стр. 49- 52, ответить на контрольные вопросы. Выполнить задания 2.1, 2.2 по учебнику В таблице ниже представлена часть кодовой таблицы ASCII: Определить 16-ричный код символа “q”. Символ 1 5 А В Q a b Десятичный код 49 53 65 66 81 97 98 16-ричный код 31 35 41 42 51 61 62

Для начала разберемся, что такое текстовая информация, что именно мы будем считать текстовой информацией. Рассмотрим, как происходит кодирование текстовой информации в реальной жизни и в компьютере. Говорим о том, что любой символ текста мы можем закодировать с помощью таблицы кодировок и рассказываем, как это можно реализовать. Рассматриваем таблицы кодировок ASCII и её расширения Windows-1251, КОИ-8, ISO. Далее говорим о существовании единой 2-хбайтной кодировки Unicode.

Если у вас есть вопросы, уточнения, дополнения или замечания, пишите все в комментариях.

Читайте также: