Лекция Двоичное кодирование текстовой информации
Работа добавлена на сайт bukvasha.net: 2015-10-29Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
от 25%
договор
Двоичное кодирование текстовой информации.
p align="justify">Традиционно для кодирования одного символа используется 1 байт (8 двоичных разрядов). Это позволяет закодировать N = 28 = 256 различных символов, которых обычно бывает достаточно для представления текстовой информации (прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т.д.).
Начиная с 60 годов, компьютеры все больше стали использоваться для обработки текстовой информации.
Традиционно для кодирования одного символа используется 1 байт (8 двоичных разрядов). Это позволяет закодировать N = 28 = 256 различных символов, которых обычно бывает достаточно для представления текстовой информации (прописные и заглавные буквы русского и латинского алфавита, цифры, знаки, графические символы и т.д.).
При двоичном кодировании текстовой информации каждому символу ставится в соответствие своя уникальная последовательность из восьми нулей и единиц, свой уникальный двоичный код от 00000000 до 11111111 (десятичный код от 0 до 255).
Присвоение символу конкретного двоичного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и т.д.). Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Коды с 128 по 255 являются национальными, т.е. в национальных кодировках одному и тому же коду соответствуют различные символы. К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв, поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
Хронологически одним из первых стандартов кодирования русских букв на компьютерах был код КОИ-8 («Код обмена информацией 8-битный»). Эта кодировка применяется на компьютерах с операционной системой UNIX.
Наиболее распространенная кодировка- это стандартная кириллическая кодировка Microsoft Windows, обозначаемая сокращением СР1251 («СР» означает «Code Page», «кодовая страница»). Все Windows-приложения, работающие с русским языком, поддерживают эту кодировку.
Таблица 3.2. Кодировки символов
Двоичный код | Десятичный код | КОИ8 СР1251 СР866 Mac _ ISO | |||||
00000000 | 0 | | |||||
| | | |||||
00001000 | 8 | Удаление последнего символа (клавиша Backspace) | |||||
| | | |||||
00001101 | 13 | перевод строки (клавиша Enter) | |||||
| | | |||||
00100000 | 32 | пробел | |||||
00100001 | 33 | ! | |||||
| | | | | | | |
01011010 | 90 | | | Z | | | |
| | | | | | | |
01111111 | 127 | | | п | | | |
| 128 | - | Ъ | А | А | к | |
| | | | | | | |
11000010 | 194 | Б | В | - | - | Т | |
| | | | | | | |
11001100 | 204 | Л | м | i i | i i | Ь | |
| | | | | | | |
11011101 | 221 | Щ | э | - | Ё | н | |
| | | | | | | |
11111111 | 255 | ь | я | нераэ. пробел | нераз. пробел | п | |
| | | | | | | |
Для работы в среде операционной системы MS-DOS используется «альтернативная» кодировка, в терминологии фирмы Microsoft - кодировка СР866.
Фирма Apple разработала для компьютеров Macintosh свою собственную кодировку русских букв (Мае).
Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.
Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы. Каждая кодировка задается своей собственной кодовой таблицей.
Например, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово ЭВМ, тогда как в других кодировках это будет бессмысленный набор символов.
К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов. При работе в приложениях Windows предусмотрена возможность автоматической перекодировки документов, созданных в приложениях MS-DOS. При работе в Интернет с использованием броузеров Internet Explorer и Netscape Communicator происходит автоматическая перекодировка Web-страниц.
В последнее время появился новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а N = 216 = 65536 различных символов. Эту кодировку поддерживает платформа Microsoft WindowsOffice 97.
Двоичное кодирование графической информации
С 80-х годов интенсивно развивается технология обработки на компьютере графической информации. Компьютерная графика позволяет создавать и редактировать рисунки, схемы, чертежи, преобразовывать изображения (фотографии, слайды и т.д.), представлять статистические данные в форме деловой графики, создавать анимационные модели (научные, игровые и т.д.), обрабатывать «живое видео».
Графическая информация на экране монитора представляется в виде изображения, которое формируется из точек (пикселей). В простейшем случае (черно-белое изображение без градаций серого цвета) каждая точка экрана может иметь лишь два состояния — «черная» или «белая», т.е. для хранения ее состояния необходим 1 бит.
Цветные изображения могут иметь различную глубину цвета (бит на точку 4, 8, 16, 24). Каждый цвет можно рассматривать как возможное состояние точки, и тогда по формуле N = 21 может быть вычислено количество цветов, отображаемых на экране монитора.
Таблица 3.3. Количество отображаемых цветов
Изображение может иметь различный размер, который определяется количеством точек по горизонтали и по вертикали В современных персональных компьютерах обычно используются четыре основных размера изображения или разрешающих способностей экрана: 640*480, 800*600, 1024*768 и 1280*1024 точки.
Для того чтобы на экране монитора формировалось изображение, информация о каждой его точке (цвет точки) должна храниться в видеопамяти компьютера. Рассчитаем необходимый объем видеопамяти для наиболее распространенного в настоящее время графического режима (800*600 точек, 16 бит на точку).
Всего точек на экране: 800 * 600 = 480000
Необходимый объем видеопамяти: 16 бит * 480000 = 7680000 бит = 960000 байт = 937,5 Кбайт.
Аналогично рассчитывается необходимый объем видеопамяти для других графических режимов.
Таблица 3.4. Объем видеопамяти для различных графических режимов
Режим экрана | Глубина цвета (бит на точку) | |||
4 | 8 | 16 | 24 | |
640 на 480 | 150 Кбайт | 300 Кбайт | 600 Кбайт | 900 Кбайт |
800 на 600 | 234 Кбайт | 469 Кбайт | 938 Кбайт | 1,4 Мбайт |
1024 на 768 | 384 Кбайт | 768 Кбайт | 1,5 Мбайт | 2,25 Мбайт |
1280 на 1024 | 640 Кбайт | 1,25 Мбайт | 2,5 Мбайт | 3,75 Мбайт |
Современные компьютеры обладают такими техническими характеристиками, которые позволяют обрабатывать и выводить на экран, так называемое «живое видео», т.е. видеоизображение естественных объектов. Видеоизображение формируется из отдельных кадров, которые сменяют друг друга с высокой частотой (не воспринимаемой глазом). Обычно частота кадров составляет 25 Гц, т.е. за 1 секунду сменяется 25 кадров.
Двоичное кодирование звуковой информации
С начала 90-х годов персональные компьютеры получили возможность работать со звуковой информацией Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию С помощью специальных программных средств (редакторов аудиофайлов) открываются широкие возможности по созданию, редактированию и прослушиванию звуковых файлов Создаются программы распознавания речи и появляется возможность управления компьютером при помощи голоса
Звуковой сигнал - это непрерывная волна с изменяющейся амплитудой и частотой Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон Для того чтобы компьютер мог обрабатывать непрерывный звуковой сигнал, он должен быть дистретизирован, те превращен в последовательность электрических импульсов (двоичных нулей и единиц)
При двоичном кодировании непрерывного звукового сигнала он заменяется серией его отдельных выборок- отсчетов
Каждая выборка фиксирует реальную амплитуду сигнала и присваивается ей определенное, наиболее близкое, дискретное значение Чем большее количество дискретных значений может обеспечить звуковая карта и чем большее количество выборок производится за 1 секунду, тем точнее процедура двоичного кодирования
Современные звуковые карты могут обеспечить кодирование 65536 различных уровней сигнала или состояний Для определения количества бит, необходимых для кодирования, решим показательное уравнение
65536 = 21, т к 65536 = 216 , то I = 16 бит
Таким образом, современные звуковые карты обеспечивают 16-битное кодирование звука При каждой выборке значению амплитуды звукового сигнала присваивается 16-битный код
Количество выборок в секунду может быть в диапазоне от 8000 до 48000, т е частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 Кгц При частоте 8 Кгц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 Кгц - качеству звучания аудио-CD Следует также учитывать, что возможны как моно-, так и стерео-режимы
Можно оценить информационный объем моноаудиофайла длительностью звучания 1 секунду при среднем качестве звука (16 бит, 24 Кгц) Для этого количество бит на одну выборку необходимо умножить на количество выборок в 1 секунду
16 бит * 24000 = 384000 бит = 48000 байт » 47 Кбайт