Информатика и ИТ. Нейросети
© Николай Петрович Морозов, 2024
ISBN 978-5-0062-7407-5
Создано в интеллектуальной издательской системе Ridero
АННОТАЦИЯ
Электронная книга «Информатика и информационные технологии» предназначена для подготовки бакалавров гуманитарных направлений. и во многом опирается на материал, изложенный в моих книгах «Виды информации и ИТ ее обработки», «Информатика и ИТ». В учебнике изложены теоретические основы информатики, рассмотрены базовые виды информационных технологий для обеспечения основных видов информационных процессов (технологии создания текстовых документов, технологии обработки данных в электронных таблицах, технологии разработки баз данных, технологии алгоритмизации, программирования, компьютерного моделирования), представлены эффективные приемы работы с распространенными программными продуктами. Содержание учебника соответствует требованиям Федеральных государственных образовательных стандартов высшего профессионального образования к уровню подготовки бакалавров по направлениям, реализуемым в Санкт-Петербургском государственном институте культуры.
Учебник позволяет унифицировать содержание читаемых студентам информационных дисциплин, не исключая возможности для преподавателей варьировать содержание курса с учетом специфики дисциплины, специализации, уровня подготовки студентов.
Учебник ориентирован на формирование и развитие у студентов соответствующих компетенций в области информатики и информационных технологий. Электронный формат учебника позволяет повысить качество и эффективность самостоятельной работы студентов. Учебник может быть также использован в системах и учреждениях открытого и дополнительного образования.
Оглавление
ВВЕДЕНИЕ
Формирование информационного общества связано с развитием и широким использованием информационных технологий во всех сферах человеческой деятельности. В настоящее время информационные технологии стали привычным инструментарием как в учебной, научной, так и практической деятельности. Эффективная деятельность специалиста любого профиля сегодня не мыслится без применения современных информационных технологий.
Многообразные информационные технологии, функционирующие в образовании, финансовых операциях, проектировании и т.п., имея общие черты, в то же время существенно различаются между собой. Объединить их в одном подходе призвана информатика.
Сегодня информатика занимает достойное место среди базовых дисциплин и является неотъемлемой компонентой учебных планов всех без исключения направлений и специальностей высших учебных заведений, в том числе гуманитарных. Информатика – одна из немногих дисциплин, развивающих такие практические навыки, которые востребуются напрямую и немедленно, сразу после включения молодого специалиста в профессиональную деятельность.
Процесс изучения информатики и информационных технологий направлен на формирование общекультурных (ОК) и профессиональных (ПК) компетенций. В частности, студент должен быть способным самостоятельно приобретать и использовать в практической деятельности новые знания и умения, стремиться к саморазвитию (ОК); быть способным использовать современное электронное оборудование и информационно-коммуникационные технологии в соответствии с целями образовательной программы бакалавра (ПК).
У выпускника должно быть сформировано на достаточном уровне умение самостоятельно расширять и применять полученные знания в профессиональной сфере, осваивать новые программные продукты.
Для плодотворного применения персонального компьютера в профессиональных областях деятельности пользователю следует знать, что означают такие информационные термины, как «бит», «байт», «файл», «информационная система» и др., уметь работать с системным и прикладным программным обеспечением, владеть технологиями подготовки документов, обработки и анализа данных, разработки баз данных, основами алгоритмизации, программирования, моделирования, что позволит автоматизировать расчеты и облегчить работу с массивами информации.
Коренное отличие информатики от других дисциплин, изучаемых в высшей школе, состоит в том, что предметная область информатики изменяется чрезвычайно динамично. Сегодня в среднем один раз в полтора года удваиваются основные технические параметры аппаратных средств, один раз в два-три года меняются поколения программного обеспечения, и один раз в пять-семь лет меняется база стандартов, интерфейсов и протоколов.
Формат электронного учебника, в отличие от традиционных учебников, представляет собой динамичную структуру, что позволяет своевременно вносить изменения и дополнения, соответствующие современному развитию живой науки – информатики, ее аппаратных и программных средств. На современном этапе такая возможность является одной из ключевых для организации учебного процесса в высшем учебном заведении.
Современные образовательные технологии (дистанционное образование) также требуют современного методического обеспечения учебного процесса, и в первую очередь, электронных учебников с удобной навигацией, развитым поисковым механизмом, встроенным автоматизированным контролем уровня знаний студента.
Ныне информатика сталкивается с парадоксальным фактом. Ее основная задача состоит в преодолении общечеловеческого кризисного явления, называемого «информационным бумом», путем внедрения средств и методов, автоматизирующих операции с данными. Однако в собственной предметной области информатика испытывает такой информационный бум, какого не знает ни одна область человеческой деятельности. Например, мировой ассортимент изданий, имеющих прямое отношение к информатике (не считая периодических и электронных), составляет порядка десяти тысяч томов в год и полностью обновляется не реже, чем раз в два года.
Таким образом, для преподавания информатики в современных условиях необходимо расширенное взаимодействие между учебными программами общих и специальных дисциплин и учебной программой курса информатики. Формат электронного учебника позволит решать эту задачу наиболее эффективно.
Не только по форме, но и по содержанию учебник является актуальным. Необходимость разработки данного электронного учебника вызвана отсутствием подобного издания для подготовки бакалавров в вузах министерства культуры. Данное электронное издание учитывает специфику гуманитарного вуза и ориентировано на студентов гуманитарных специальностей и направлений. В книге отражены основные принципы и положения информатики как науки, современные аспекты и тенденции развития информационных технологий.
Электронный учебник содержит теоретические основы информатики, рассмотрены базовые виды информационных технологий для обеспечения основных видов информационных процессов (технологии создания текстовых документов, технологии обработки данных в электронных таблицах, технологии разработки баз данных, технологии алгоритмизации, программирования, компьютерного моделирования). В учебнике представлены эффективные приемы работы с распространенными программными продуктами.
Учебник обобщает многолетний опыт работы профессорско-преподавательского состава кафедры информатики и математики Санкт-Петербургского государственного института культуры (СПбГИК), прошел успешную экспериментальную проверку при обучении студентов информационным дисциплинам. Содержание учебника соответствует требованиям Федеральных государственных образовательных стандартов высшего профессионального образования к уровню подготовки бакалавров по направлениям, реализуемым в СПбГИК.
Электронный формат учебника позволяет повысить качество и эффективность самостоятельной работы студентов. Учебник может быть также использован в системах и учреждениях открытого и дополнительного образования.
Глава 1. ИНФОРМАЦИЯ И ИНФОРМАТИКА
1.1.Информация, данные, свойства информации
Информация (от лат. informatio – разъяснение, изложение, осведомленность) – одно из наиболее общих понятий науки, обозначающее некоторые сведения, совокупность каких-либо данных, знаний и т. п. В связи с широким распространением этого понятия трудно дать его однозначное определение. Существует много определений информации, отображающих разные точки зрения на нее.
Отметим, что понятие информации рассматривается всегда не само по себе, а в связи с представлением о так называемой коммуникации, когда нечто передается от источника к получателю.
Самое лаконичное определение выглядит так: «Информация – сведения, передаваемые источником получателю».
Это определение легко запомнить, но на самом деле необходимо разобраться в значении всех терминов этого определения: что такое «сведения», «передача сведений», «источник», «получатель».
Прежде всего, укажем на двойственный характер понятия «информация».
Широко известно определение, данное в Большой Советской Энциклопедии (БСЭ):
«Информация, первоначально – сведения, передаваемые людьми устным, письменным или другим способом (с помощью условных сигналов, технических средств и т.д.); с середины 20 века – общенаучное понятие, включающее обмен сведениями между людьми, человеком и автоматом, автоматом и автоматом, обмен сигналами в животном и растительном мире, передачу признаков от клетки к клетке, от организма к организму».
В приведенном определении информация – это то, что источник передает получателю.
Не менее известным является определение, данное в ГОСТ 7.0—99 «Информационно-библиотечная деятельность. Термины и определения»:
«Информация – сведения, воспринимаемые человеком и (или) специальными устройствами как отражение фактов материального или духовного мира в процессе коммуникации».
В этом определении информация – это то, что воспринимает получатель.
Указанные различия в определениях, двойственность подхода к понятию информации не случайны. Дело в том, что процесс информационной коммуникации содержит, как минимум, два этапа, два взаимодействия:
Этап 1 – сведения от источника информации доходят до некоего материального объекта (носителя данных), преобразуются и фиксируются на нем в виде данных.
Этап 2 – данные передаются получателю, который воспринимает содержащуюся в данных информацию.
Источник информации. В вышеприведенном определении из БСЭ в качестве источника информации упоминаются достаточно сложные системы: человек, животное, организм, автомат. Однако следует отметить, что роль источника могут играть любые объекты реального мира: камень, следы пожара, пейзаж за окном, пейзаж на картине художника, сам художник и т. п.
Сведения. По определению В. М. Глушкова «информация в самом общем ее понимании представляет собой меру неопределенности распределения материи и энергии в пространстве и во времени, меру изменений, которыми сопровождаются все протекающие в мире процессы». Эти процессы протекают как в материальном мире, так и в духовном мире, в мышлении людей.
А. Д. Урсул называет неоднородность распределения материи в пространстве и времени, неравномерность протекания процессов на всех уровнях движения и эволюции в мироздании разнообразием. С каждым объектом реального мира связано свое разнообразие, т.е. своя совокупность характеристик неоднородности распределения материи и неравномерности протекания процессов.
Например, камень может характеризоваться массой, Луна – особенностями рельефа поверхности, результаты мыслительной деятельности человека – неким «текстом» в мозгу.
Между объектами реального мира постоянно осуществляются различные взаимодействия. В ходе взаимодействия объектов А и В в зависимости от значений характеристик объекта А происходит изменение некоторых вещественно-энергетических характеристик объекта В. Эти изменения реализуются либо в виде изменения параметров динамических процессов, либо в виде изменения свойств физических объектов (характеристик их внутренней структуры).
Например, взаимодействие между Луной и фотоаппаратом заключается в том, что электромагнитное излучение (лучи Солнца), отражаясь от поверхности Луны, преобразуется в отраженные лучи, параметры которых зависят от того, от какого участка рельефа они отразились. В свою очередь, эти лучи, попав на Земле в объектив фотоаппарата, произведут изменения в характеристиках светочувствительного слоя пленки в этом аппарате. Взаимодействие между мозгом и бумагой: результаты мыслительной деятельности человека преобразуются в механические движения руки, создающие текст на бумаге – специальным образом организованную совокупность черных и белых участков. Взаимодействие между бумагой и мозгом: лучи света по-разному отражаются от чистой поверхности бумаги и от букв текста, написанного на бумаге, попадают в глаз, воспринимаются его рецепторами, далее преобразуются в определенные нервные импульсы и поступают в мозг.
Изменения в характеристиках объекта В неким образом зависят от характеристик объекта А и тем самым отражают состояние разнообразия RА. Те значения характеристик объекта А, которые повлияли на изменение характеристик объекта В, суть сведения об объекте А. Объект А выступает как источник информации, а сведения о нем и есть информация, передаваемая источником.
Передача информации (сведений) с точки зрения теории отражения. Взаимодействие между объектами А и В и есть процесс передачи сведений: сведения о состоянии объекта А в результате взаимодействия отразились в изменении значений каких-то характеристик состояния объекта В.
Процесс передачи сведений от объекта А к объекту В, как правило, представляется как последовательность нескольких (элементарных) отражений, связанных с последовательностью физических взаимодействий – физических процессов. Каждое физическое взаимодействие, как уже упоминалось, приводит к изменению либо параметров динамических процессов, либо свойств физических объектов. Разнообразие, характеризуемое значениями параметров динамических процессов, само динамично, постоянно меняется, преобразуется в разнообразие, связанное с последующими процессами взаимодействия. Результаты же изменения характеристик физических объектов статичны, они могут сохраняться во времени до тех пор, пока не будут изменены в процессе какого-нибудь другого взаимодействия.
Два физических объекта могут взаимодействовать друг с другом только посредством связывающего их динамического процесса. В этом случае взаимодействие объектов А и В состоит, как минимум, из двух взаимодействий: объекта А с динамическим процессом ψ и процесса ψ с объектом В. Параметры динамического процесса ψ отражают сведения об объекте А, а сведения о процессе ψ (а, значит, и об объекте А) фиксируются в значениях характеристик физического объекта В.
Если объект В – физический объект, то состояние его вещественно-энергетических характеристик, возникшее в результате взаимодействия, представляет собой данные, в которых отражены сведения об объекте А.
Подытоживая обсуждение процесса передачи информации от объекта А к объекту В, можно ввести следующие определения.
– Процесс передачи информации от А к В – физическое взаимодействие, в результате которого значения некоторых характеристик объекта А отражаются в изменении значений каких-либо характеристик объекта В.
– Передаваемая информация – сведения об источнике, т.е. совокупность тех значений характеристик объекта А, которые повлияли на изменение характеристик объекта В.
– Сигнал – динамический физический процесс, реализующий взаимодействие объектов А и В, влияющий на изменение характеристик объекта B в соответствии с состоянием объекта А.
– Фиксация (регистрация) сигнала – изменение свойств физических объектов (характеристик их внутренней структуры) под действием сигнала.
– Материальный носитель данных – физический объект, характеристики которого меняются под действием сигнала.
– Данные – результат фиксации (регистрации) сигнала на материальном носителе, т.е. совокупность тех характеристик объекта В, в которых отражаются сведения об объекте А.
Более коротко определения сигнала и данных могут быть сформулированы так:
– Сигнал – динамический физический процесс, реализующий процесс передачи информации.
– Данные – результат фиксации, представления информации на материальном носителе.
Например, данные – это и текст книги или письма (в рукописном, печатном или электронном виде), и фотография поверхности Луны, и картина художника, и молекула ДНК, и следы падения Тунгусского или Челябинского метеорита.
Передача информации с точки зрения коммуникационного подхода. Процесс информационной коммуникации разбивается на два этапа. На первом этапе сведения об источнике S фиксируются на материальном носителе в виде данных D (от Data). На втором этапе получатель R воспринимает переданную информацию, т.е. извлекает сведения, зафиксированные в данных D, и преобразует их в сведения об источнике.
Передача информации происходит:
– либо в режиме непосредственного общения (синхронно), когда события материального мира, результаты духовной или мыслительной деятельности немедленно передаются получателю;
– либо, в режиме отложенного общения (диахронно), когда сначала создается некий текст (результат фиксации событий или текст, сочиненный человеком), а затем, через неопределенный отрезок времени этот текст воспринимается получателем.
Очевидно, что в режиме отложенного общения исходящий от источника текст вначале должен быть зарегистрирован на носителе в виде данных, а через некоторое время извлечен из этих данных получателем (а, может быть, и никогда никем не извлечен). В режиме непосредственного общения, казалось бы, не требуется использование промежуточной сущности – данных. Однако на самом деле сигналы, получаемые человеком, после первичного преобразования на короткое время откладываются (фиксируются) в кратковременной (оперативной) памяти, а затем уже поступают в дальнейшую обработку, результаты которой загружаются в долговременную память.
Получатель информации. На втором этапе коммуникационного процесса сведения, содержание (смысл), зафиксированное в данных, извлекается из данных, если нужно, преобразуется и поступает в распоряжение воспринимающей системы – получателя информации. Роль такой системы может играть конкретный человеческий мозг, конкретный мозг животного, наследственная система конкретного организма или совокупность специальных программ в компьютере. Последний вид воспринимающей системы при желании можно считать подвидом первого – ведь исполнение программ в компьютере можно считать особым способом проявления деятельности человеческого мозга, инструментально поддерживаемой компьютером.
Воспринимающая система может быть и более простой. Например, в механическом будильнике весьма простая подсистема управления звонком реагирует на информацию (когда включать звонок), заданную устанавливаемым извне положением одной из деталей.
Восприятие информации. Для того чтобы воспринять сведения, отраженные в данных, необходимо сначала выявить какие-то неоднородности в свойствах материального носителя данных, а затем понять их смысл, т.е. понять, какие свойства источника повлияли на возникновение этих неоднородностей. Для понимания этого получатель информации должен обладать определенным набором знаний.
Например, рассматривая снимок Луны, нужно сначала выявить наличие более светлых и более темных участков снимка. Затем суметь понять, как они отражают особенности рельефа, что соответствует низменным областям, а что – гористым (для этого необходимо иметь некоторые предварительные знания о Луне, о свойствах световых лучей, об особенностях их отражения от разных поверхностях, об особенностях изменения свойств фотопленки под действием света и пр.).
Другой пример. Пусть на клочке бумаги нанесены штрихи, образующие такую картину: maximum. Во-первых, нужно понять, что эти штрихи изображают последовательность букв, во вторых, надо понять, что это за буквы, какое слово, какого языка они изображают, в-третьих – каков смысл этого слова. Если предварительно известно, что это обрывок дореволюционного текста на русском языке, то это слово можно прочесть как «тахитит», т.е. слово, не имеющее смысла. Однако, если еще известно, что текст математический, то это слово можно прочесть как имеющее вполне определенный смысл слово «максимум».
Вышеупомянутые «неоднородности в свойствах материального носителя данных», смыслом которых являются некие сведения об источнике, образуют «знаки».
Знаком может быть буква, слово, пиктограмма, рисунок и пр.
Информацию, циркулирующую в человеческом обществе, в настоящее время часто называют «семантической». В «Философии информации» А.В.Соколов приводит определение:
«Семантическая информация – смысловое сообщение, выраженное знаками (одним знаком или их организованной последовательностью). Под смыслом сообщения понимаются знания, умения, эмоции, волевые побуждения, фантазии, являющиеся продуктами индивидуальной психической деятельности, которые могут быть поняты другими людьми». Организованную совокупность знаков принято называть текстом.
Таким образом, информация, фиксируемая на первом этапе коммуникационного процесса, выражается текстом. И, следовательно, данные (т.е. те характеристики объекта В, которые отображают сведения об объекте А), образуют некоторый текст.
Под расширенно толкуемое понятие текста подпадают и обычные письменные и печатные тексты, и результаты регистрации показаний прибора, и картина художника, и запись симфонического концерта и пр.
На втором этапе коммуникационного процесса текст, отображаемый данными, играет роль входной информации, которая далее обрабатывается совместно с другой информацией (знаниями), известной воспринимающей системе.
Совокупность сведений (знаний), которыми располагает получатель (человек или система) называется тезаурус. Тезаурус обычно включает некое представление воспринимающей системы о той предметной области, к которой принадлежит источник данных, и о самом источнике данных.
В процессе обработки входной информации, сопоставления ее с тезаурусом получателя происходит понимание информации (выявление ее смысла) и выделение в ней полезной информации, т.е. сведений, новых для получателя, еще не включенных в его тезаурус. Пополнение тезауруса получателя вновь выявленными сведениями и является результатом восприятия информации.
Для понимания полученной информации получатель (называемый также пользователем) должен изначально обладать определенным запасом знаний о некоторой предметной области.
Количество семантической информации, извлекаемой пользователем из поступающих сообщений, зависит от степени подготовленности его тезауруса для восприятия такой информации. Полное незнание предмета не позволяет извлечь полезную информацию из принятого сообщения об этом предмете. По мере роста знаний пользователя о предмете растет количество полезной информации, извлекаемой из сообщения.
В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в свой тезаурус. Характер такой зависимости показан на рис.1.1. Этот рисунок демонстрирует следующее:
– при Sp = 0 пользователь не имеет знаний о предметной области, поэтому не понимает поступившее сообщение S и количество полученной им семантической информации равно нулю (Ic = 0);
– если тезаурус пользователя Sp, т.е. он уже «все знает» о предметной области, то очередное сообщение не содержит для него ничего нового, и Ic = 0;
– вначале по мере роста объема тезауруса Sp возрастает количество информации, понимаемой пользователем, и, следовательно, растет количество извлекаемой полезной информации Ic, пополняющей тезаурус пользователя;
– максимальное количество семантической информации пользователя получает тогда, когда объем тезауруса Sp позволяет ему понимать всю поступающую информацию (это значение Sp обозначено как Sp opt);
– при дальнейшем увеличении Sp количество понятой информации уже не увеличивается, но все больше информации из поступающего сообщения оказывается пользователю известной; поэтому количество Ic начинает уменьшаться.
Рис. 1.1. Зависимость Ic (количества семантической информации,
воспринимаемой пользователем) от его тезауруса Sp.
Из вышесказанного следует, что количество новых знаний, получаемых пользователем информации, является величиной относительной. Одно и то же сообщение может иметь определенный смысл для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.
Так, например, источником информации может быть китайский врач, написавший книгу (данные) об особенностях китайской медицины. Открыть эту книгу может каждый, прочесть – только тот, кто умеет читать по-китайски. Такой читатель сумеет воспринять текст, составленный автором. Но, чтобы понять и воспринять этот текст необходимо иметь знания по медицине вообще, и китайской медицине в частности. Эти знания отсутствуют в исходном тексте, но автор, когда писал свой текст, имел их в виду, рассчитывал на то, что читатель тоже будет в той или иной мере иметь эти знания. Получить из книги информацию, адекватную той, которую вложил автор, может лишь соответствующим образом подготовленная, владеющая необходимыми знаниями воспринимающая система (конкретный читатель).
Содержимое тезауруса пользователя в начале процесса информационной коммуникации называют также априорной информацией, а семантическую информацию, полученную пользователем в результате коммуникации – актуальной информацией. Т.е. актуальная информация – это сведения, расширяющие состав априорной информации.
Таким образом, в процессе информационной коммуникации выделяются три основных компонента:
исходная информация – отражаемые сведения об источнике, т.е. совокупность тех значений характеристик источника, которые повлияли на изменение данных;
данные – представление переданных сведений, т.е. совокупность характеристик промежуточного материального носителя, изменившихся в результате фиксации передаваемых сведений;
воспринятая информация – актуальные сведения, полученные воспринимающей системой в результате совместной обработки сведений, зафиксированных в данных, со сведениями, знаниями, априорно доступными воспринимающей системе.
Как видим, информация в этом процессе предстает в двух видах, разделенных во времени: исходная и воспринятая информация. Эта особенность информации называется ее дуализмом. Третий компонент – данные выступает как канал передачи информации во времени.
Информация, т.е. сведения о распределении материи и энергии, об изменениях в процессах – суть знания человека об окружающем мире, в том числе о человеческой деятельности. Информация – это знание, которое существует не только для данного человека, но и для других людей.
Способом, обеспечивающим доступность знаний, информации разным людям, является представление и хранение информации в виде данных на материальном носителе. Таким образом, вся информация, употребляемая человечеством в его деятельности, воплощающая интеллектуальный и духовный потенциалы человечества, хранится в форме данных. Отсюда следует, что и третий компонент информационной коммуникации (данные) может рассматриваться как вид представления информации – хранимая информация (см. схему на рис.1.2.).
Рис. 1.2. Информационная коммуникация
Свойства информации. Любая информация обладает рядом свойств, которые в совокупности определяют степень ее соответствия потребностям пользователя (качество информации). В научной литературе описывается немало разнообразных свойств информации, так как каждая научная дисциплина рассматривает те свойства, которые ей наиболее важны.
Рассмотрим свойства информации с точки зрения основных этапов коммуникационного процесса.
– Свойства исходной информации.
В зависимости от способа восприятия исходная информация подразделяется на визуальную, аудиальную, тактильную, обонятельную, вкусовую; в соответствии с видами воспринимающих ее органов чувств -зрения, слуха, ощущения, запаха, вкуса.
– Свойства хранимой информации (данных).
Данные фиксируются в некоторой материальной запоминающей среде посредством изменения ее физических, химических или механических свойств.
По видам носителей данные подразделяются, во-первых, по материалу носителя. Издавна известны, такие носители как камень (наскальные рисунки, каменные плиты), глиняные таблички, пергамент, папирус, береста и другие. Затем появились следующие носители: бумага, пластмасса, фотоматериалы, магнитные и оптические материалы и другие.
Кроме того носители делятся на традиционные и машиночитаемые. Под традиционными понимаются: бумага, холст, пластмасса (грампластинка), магнитная лента (аудио и видеокассета), фотографические материалы (фотопленка, фото-пластина, фотоотпечаток, микро-носитель) и т. п.
К машиночитаемым носителям относятся: дискеты (гибкие магнитные диски), жёсткие магнитные и компактные (оптические, магнитооптические и иные) диски, флеш -карты и другие носители информации, предназначенные для использования в компьютерных устройствах, комплексах, системах и сетях.
По форме представления данных на материальном носителе данные подразделяются на:
– изобразительные (или графические): наскальные рисунки, картины, схемы, фотографии и пр.
– текстовые, изображающие речь с помощью символов (букв) в виде лексем естественного языка,
– числовые, в виде комбинаций цифр и математических знаков,
– звуковые, отображающие записанную с помощью звукозаписывающих устройств аудиальную информацию,
– музыкальные тексты – разновидность звуковой информации, записанной с использованием специальных символов (нот),
– видеоинформация – способ хранения «живых», динамичных картин окружающего мира в виде видеозаписи.
– Фиксация информации в виде данных
Взаимодействие различных объектов в реальности происходит постоянно, и поэтому постоянно реализуются процессы фиксации следов этих взаимодействий на материальных носителях. Эти процессы могут происходить непреднамеренно, целенаправленно или сознательно.
Непреднамеренный процесс фиксации информации. В реальном мире обычно процесс взаимодействия объектов «не имеет цели» нести информацию, «не знает», что он связан с отражением (оценкой разнообразия) и с информацией. Он просто происходит. Результаты изменения характеристик материального носителя «не знают», что они данные и отражают информацию. Они просто возникают в процессе взаимодействия. Однако может найтись некий получатель, который захочет извлечь информацию из результатов этого взаимодействия. Тогда эти результаты станут играть роль данных на втором этапе процесса информационной коммуникации.
Целенаправленная фиксация информации происходит в системах, в которых одни процессы используют результаты других процессов. Например, в системе «родители – дети» в одном организме происходит порождение молекул ДНК, содержащих генетическую информацию, которая предназначена для использования другими организмами. Или: результаты протекания некоторого наблюдаемого процесса регистрируются специальными устройствами для последующей обработки наблюдений. Обработка результатов опирается на некоторую модель процесса, которую учитывали разработчики системы обработки. При этом происходит объективная потеря информации, обусловленная характеристиками аппаратуры, ее точности и пр.
Процесс отражения результатов духовной или мыслительной деятельности человека предусматривает сознательное порождение одним человеком текстов, предназначенных для последующего их восприятия другим человеком. В этом случае возможно искажение смысла. Как сказано Ф. Тютчевым: «Мысль изреченная есть ложь». Это искажение определяется возможностями автора («регистрирующего устройства»): его мастерством «изречения» и умением переносить мысль в данные.
Как видим, в любом случае зафиксированная информация несколько отличается от исходной, передает свойства отображаемой реальности с искажением. И чем больше шагов преобразования происходит на пути от отображаемой реальности к данным, тем больше оказывается степень искажения. Но при этом процесс фиксации информации характеризуется довольно высокой степенью объективности – он зависит от условий фиксации и «технических характеристик» процесса фиксации, но не зависит от чьего-нибудь мнения или сознания. Даже если человек выдает заведомо лживое сообщение (дезинформацию), запись этого сообщения есть объективное отображение того, что произнесено (а определение истинности сказанного – это уже другой вопрос).
– Свойства воспринятой информации.
Результаты восприятия информации всегда субъективны, определяются возможностями получателя, его знаниями, прагматическими целями, с которыми он воспринимает информацию, и т. п. Одни и те же данные могут быть использованы различными людьми (и даже одним и тем же человеком в разные моменты времени) по-разному; информация, заложенная в молекуле ДНК, может по-разному использоваться здоровым и больным организмом; одни и те же данные в памяти компьютера по-разному используются разными программами и т. п. Восприятие непреднамеренно оставленных следов физических процессов заключается в том, что сначала воспринимающей системой создается некая модель источника – принимаются соглашения о правилах соответствия этих следов (данных), характеристикам источника, о том, как эти следы структурируются (каков их синтаксис) и как осмысливаются (какова их семантика); а потом уже происходит непосредственное восприятие и осмысление данных.
Отметим также, что передача исходной информации (создание данных) осуществляется один раз, а использование данных может осуществляться многократно и по-разному.
Свойства информации с точки зрения восприятия подразделяют на две группы: прагматические и атрибутивные.
Прагматические свойства информации – это те свойства, которые характеризуют степень полезности информации для пользователя в его практике. С прагматической точки зрения информация может быть:
– Объективная – существующая вне и независимо от человеческого сознания.
– Актуальная – информация, ценная в данный момент времени.
– Достоверная – информация, полученная без искажений.
– Понятная – информация, выраженная на языке, понятном тому, кому она предназначена.
– Полная – информация, достаточная для принятия правильного решения или понимания.
– Полезная – полезность информации определяется субъектом, получившим информацию в зависимости от объёма возможностей её использования.
Атрибутивные свойства – это те влияющие на восприятие свойства информации, которые отображают особенности информации, связанные с ее хранением в совокупностях данных и в тезаурусах пользователей. Эти свойства следующие:
– Кумулятивность информации – накопление информации; способность к более строгому, обобщенному и компактному восприятию накопленной информации в процессе создания новой информации
– Преемственность информации – способность освоения новой информации с учетом уже накопленной.
– Концентрация информации проявляется в том, что по мере накопления определенных единиц информации они имеют тенденцию к объединению в более информационно-ёмкие формы.
– Эмерджентность информации – проявление в результате совместного рассмотрения элементов информации таких смыслов, которые не наблюдаются ни в одном из элементов, если они рассматриваются отдельно. То есть система больше суммы своих элементов.
– Неассоциативность и некоммутативность информации – любая информация это не арифметическая сумма составляющих её элементов, эти элементы нельзя использовать в другой последовательности. Как говорится, сначала надо думать, а потом делать, но никак не наоборот.
– Старение информации – с течением времени хранимая информация начинает устаревать, утрачивать ценность для пользователя. Абсолютно устаревшая информация – это информация, которая с появлением новой информацией оказалась недостоверной. Относительно устаревшей информация называется тогда, когда она может быть дополнена новой информацией.
Структура данных. Как уже говорилось, данные представляют собой результаты отражения, как процессов реального мира, так и результатов осознанной деятельности человека. Происходит это в режиме как непосредственного, так и отложенного общения.
В режиме отложенного общения данные фиксируются на материальном носителе и через некоторое время воспринимаются получателем (пользователем). Выше отмечалось, что при этом воспринимающая система извлекает из сообщения полезную актуальную информацию и расширяет свой тезаурус. Казалось бы, после этого сведения, отраженные в данных, уже не содержат полезной информации, являются бесполезными. Однако, во-первых, эти же сведения могут быть использованы тем же пользователем в других целях, для решения других задач, а, во-вторых, они могут быть полезными другим пользователям. Поэтому возникает необходимость длительного сохранения данных на материальном носителе.
Таким образом, огромное количество информации хранится в виде данных на различных материальных носителях: в книгах, тетрадях, архивных документах, файлах интернета и пр. В этом море информации выделяются большие хранилища данных: библиотеки, архивы, базы данных, информационные фонды.
Для того, чтобы указать, где находится необходимая информация, необходимо назвать соответствующее хранилище. Но, кроме того, нужно указать конкретный элемент данных, содержащий нужную информацию, назвать необходимую «порцию» информации.
В процессе фиксации информации происходит занесение некоторой «порции информации» на какой-то материальный носитель в виде текста, представляющего собой «порцию данных». Будем далее «порцию информации» обозначать термином «сообщение».
При непосредственном общении «порция данных» сразу же поступает в «обработку», т.е. реализуется передача данных в режиме «адресант – адресат». При отложенном общении «порция хранимых данных» поступает к получателю в режиме поиска: «запрос – ответ». По инициативе получателя задается запрос, в соответствии с которым воспринимающая система выдает ответ. Для обеспечения этого процесса необходимо, чтобы воспринимающая система могла найти ту «порцию данных», где зафиксировано нужное сообщение.
Поэтому важнейшими вопросами построения процесса обработки информации (данных) являются вопросы о том, какова структура хранимых данных и как сопоставляются «порция информации» (сообщение) и соответствующая ей «порция данных» (текст).
Структура данных определяется, прежде всего, структурой материального носителя, на котором находятся данные. Материальный носитель представляется как совокупность некоторых «кусков», т.е. материальных объектов с определенными физическими свойствами. В качестве материального объекта может выступать лист бумаги, сброшюрованная пачка листов бумаги, магнитный или оптический диск, кусок холста и др.
Все пространство хранения данных – это совокупность материальных объектов, на которых зафиксированы те или другие данные. Таким образом, основным структурным элементом данных является совокупность данных, расположенных на одном материальном объекте. Такую совокупность обычно связывают с понятием «документ».
Не всякий материальный объект с зафиксированными на нем данными является документом. Например, только что найденный в Великом Новгороде кусочек бересты с текстом не является документом, и станет им тогда, когда будет зафиксировано, где и когда он был найден, а сам кусочек получит учетный номер.
Для того чтобы выбрать объект, идентифицировать, т.е. однозначно обозначить его, нужно знать его характеристики, отличающие его от других объектов. Если выбор осуществляет непосредственно человек, то он может ориентироваться как на «информационные» характеристики объекта (название, автор, год издания, текстовое описание и пр.), так и на характеристики, воспринимаемые чувственно (цвет, форма, размер, вид носителя и пр.). Например: «Дедушкина толстая синяя записная книжка». Если же поиск осуществляется с помощью вспомогательных средств (каталоги, компьютер), то объект можно идентифицировать только «информационно», с помощью таких характеристик как шифр, инвентарный номер, и т. п.
Документ – это идентифицируемый материальный объект, содержащий информацию.
Это определение имеет наиболее общий характер. В разных отраслях деятельности человек имеет дело с документами разного вида, к ним применяются различные дополнительные требования. Например, юридически значимые документы должны быть оформлены специальным образом, содержать подписи, печати и т. д. Документом является и паспорт человека, и завещание, и надгробная плита, и книга, и картина художника, и аудиозапись, и файл на магнитном носителе.
Определение документа отражает две разные ипостаси документа, в соответствии с которыми он может быть интересен потребителю: «что это за информационный объект» и «про что он». А именно: иногда интересно иметь сведения о документе как объекте, о его правовом статусе и других характеристиках, в том числе, может быть, и об информации, отражаемой в этом документе. В других случаях потребителя интересует собственно информация о чем-то, в том числе, может быть, сведения о документе (объекте), содержащем эту информацию.
Чаще всего, конечно, документ интересен с точки зрения его информации. Но чтобы найти нужный документ, необходимо найти тот материальный объект, на котором зафиксирована эта информация.
Документ является особым типом объектов. Объект – это нечто, существующее в реальной действительности. Объекты характеризуются какими-то свойствами: цвет, форма, размер, назначение и пр. Объекты отличаются друг от друга разными значениями их свойств. Для того, чтобы обозначить объект, следует назвать отличающие его значения некоторых свойств. Например: марка, год выпуска, цвет, номер регистрации автомобиля; фамилия, должность, табельный номер сотрудника. Значения некоторых свойств однозначно определяют объект (номер регистрации автомобиля или табельный номер сотрудника), значения других свойств позволяют найти несколько объектов (все красные автомобили или все инженеры).
Документы представляют собой особый тип объектов: «Документ – это объект, отличающийся от обычного объекта тем, что он содержит информацию». Поэтому для того, чтобы описать документ, необходимо, во-первых, описать некий материальный объект, а во-вторых, описать содержащуюся на нем информацию. И при поиске документов можно задавать как их свойства, характеризующие объект (год издания книги, название, автор), так и характеристики информации, содержащейся в документе. Например: найти произведения А.С.Пушкина, изданные в 1999 г, в которых говорится о Пугачеве и о заячьем тулупчике.
1.2.Операции с данными. Двоичный код. Единицы измерения информации
Операции с данными. В ходе информационного процесса данные преобразуются из одного вида в другой. Обработка данных включает в себя множество различных операций. В ходе развития человечества усложняются условия управления производством и обществом, увеличивается и объем обрабатываемых данных. Появляются и внедряются новые носители данных, средства их хранения и доставки. В структуре возможных операций с данными можно выделить следующие основные:
– Сбор данных – накопление информации с целью обеспечения достаточной полноты ее для принятия решений;
– Формализация данных – приведение данных, поступающих из различных источников, к одинаковой форме, чтобы сделать их сопоставимыми между собой, то есть повысить их уровень доступности;
– Фильтрация данных – отсеивание «лишних» данных, в которых нет необходимости для принятия решений;
– Сортировка данных – упорядочение данных по заданному признаку с целью удобства использования, повышает доступность информации;
– Архивация данных – организация хранения данных в удобной и легко доступной форме;
– Защита данных – комплекс мер, направленных на предотвращения утраты, воспроизведения и модификации данных;
– Транспортировка данных – прием и передача данных между удаленными участками информационного процесса, при этом источник данных принято называть сервером, а потребителя — клиентом;
– Преобразование данных – перевод данных их одной формы в другую или из одной структуры в другую.
Преобразование данных часто связано с изменением типа носителя, например книги можно хранить в обычной бумажной форме или в электронной. Необходимость в многократном преобразовании данных возникает также при транспортировке, особенно если она осуществляется средствами, не предназначенными для транспортировки данного вида данных. Например, для транспортировки цифровых потоков данных по каналам телефонных сетей необходимо преобразование цифровых данных в некое подобие звуковых сигналов. Этим занимаются специальные устройства – телефонные модемы.
Кодирование данных двоичным кодом. Для автоматизации работы с данными, относящимися к различным типам, очень важно унифицировать их форму представления – для этого обычно используется прием кодирования, то есть выражение данных одного типа через данные другого типа. Естественные человеческие языки – это не что иное, как системы кодирования понятий для выражения мыслей посредством речи. К языкам близко примыкают азбуки – системы кодирования компонентов языка графическими символами. Системы универсального кодирования существуют в отдельных отраслях науки и техники. Например, система записи математических выражений, телеграфная азбука, морская флажковая азбука, система Брайля для слепых и многое другое.
Своя система существует и в вычислительной технике – она называется двоичным кодированием и основана на представлении данных последовательностью всего двух знаков: 0 и 1. Эти знаки называются двоичными цифрами.
Двоичная структура информации весьма просто реализуется на электронных схемах с двумя устойчивыми состояниями элементов: есть сигнал – 1, нет сигнала – 0, и поэтому именно бит принят как единица измерения хранимой информации.
Одним битом могут быть выражены два понятия: 0 или 1 (да или нет, белое или черное, истина или ложь и т.д.). Если количество битов увеличить до двух, то уже можно выразить четыре различных понятия: 00 01 10 11
Тремя битами можно закодировать восемь различных значений:
000 001 010 011 100 101 110 111
Единицы измерения информации. За минимальную единицу информации принят один бит (англ. bit – BInary digiT— двоичная цифра). Это минимальное количество информации, подлежащее рассмотрению, его смысл – логическая «1» или «0».
Бит очень малая единица измерения информации, поэтому на практике используются составные, более крупные единицы, например – байт, являющийся последовательностью из восьми бит. Байт – сокращенное словосочетание от BinarY TErm, (терм – выражение).
Широко используются еще более крупные производные единицы информации. Старшие производные единицы представляют собой соответствующие степени основания числа 2, названия их формируются по общим принципам формирования названий единиц (приставки кило, мега, гига и т.д.), при этом проявляется несоответствие «десятичных приставок» и степени основания.
Таблица 1.1.
Единицы информации
1.3.Информатика, ее предмет и структура
Термин «информатика» предложен Карлом Штейнбухом в 1957. В 1962 этот термин был введён во французский язык Ф. Дрейфусом. Отдельной наукой информатика была признана в 1970-х; до того она развивалась в составе математики и электроники. Сейчас информатика обладает собственными методами и терминологией.
Как наука, информатика изучает общие закономерности, свойственные информационным процессам. При разработке новых носителей информации, каналов связи, приёмов кодирования, визуального отображения информации и т.п., конкретная природа информации не имеет значения. Здесь важны общие принципы организации и эффективность поиска данных, а не то, какие конкретно данные будут заложены в базу пользователями.
Эти общие закономерности есть предмет информатики как науки.
Инфоpматика – научная дисциплина с широким диапазоном применения. Её основные направления:
– pазpаботка вычислительных систем и пpогpаммного обеспечения;
– теоpия инфоpмации, изучающая процессы, связанные с передачей, приёмом, преобразованием и хранением информации;
– методы искусственного интеллекта, позволяющие создавать программы для решения задач, требующих определённых интеллектуальных усилий при выполнении их человеком (логический вывод, обучение, понимание речи, визуальное восприятие, игры и др.);
– системный анализ, заключающийся в анализе назначения проектируемой системы и в установлении требований, которым она должна отвечать; методы машинной графики, анимации, средства мультимедиа;
– средства телекоммуникации, в том числе, глобальные компьютерные сети, объединяющие всё человечество в единое информационное сообщество; разнообразные пpиложения, охватывающие производство, науку, образование, медицину, торговлю, сельское хозяйство и все другие виды хозяйственной и общественной деятельности.
Информатика – совокупность научных направлений, изучающих информацию, информационные процессы в природе, обществе, технике, формализацию и моделирование, методы познания, способы представления, накопления, обработки и передачи информации.
Способы получения, переработки, передачи, хранения и воспроизведения информации с помощью технических средств составляют сущность информационных технологий.
Теоретическую основу информатики образует группа фундаментальных наук, которую в равной степени можно отнести как к математике, так и к кибернетике: теория информации, теория алгоритмов, математическая логика, теория формальных языков и грамматик, комбинаторный анализ, теория вероятностей и математическая статистика и т. д.
Главная функция информатики заключается в разработке методов и средств преобразования информации и их использовании в организации технологического процесса переработки информации.
Сюда входит исследование информационных процессов любой природы; создание новейших технологий переработки информации на базе полученных результатов исследования информационных процессов; решение научных и инженерных проблем создания, внедрения и обеспечения эффективного использования компьютерной техники и технологии во всех сферах общественной жизни.
Предметная область науки «информатика» – информационные процессы и системы, модели, языки их описания, технологии их актуализации, направленные как на получение знаний (это – внутренняя сущность информатики), так и на применение знаний, принятие на их основе решений в различных предметных областях (это – внешняя сущность информатики). Эти информационные процессы могут происходить в живых существах (организмах), автоматах (технических устройствах), обществе, в индивидуальном и общественном сознании.
Вопросы для самопроверки
– Дайте определение сигнала, информации.
– Какие свойства характеризуют информацию?
– Какое свойство информации характеризует ее способность менять способ и форму своего существования?
– Какое свойство информации характеризует ее независимость от чьего-либо мнения?
– Какие операции могут производиться с данными?
– Что такое двоичная цифра?
– Для чего применяются дискретизация и квантование сигналов?
– Какие единицы измерения информации вы знаете?
– Перевести 1,5 MB в KB, 20 KB в bit.
– Почему информация в ПК представлена в двоичном коде?
– Что изучает информатика?
– Какова главная функция информатики?
Глава 2. Системы счисления. Компьютерная арифметика
2.1. Системы счисления. Перевод чисел из одной системы счисления в другую
Системы счисления. Совокупность приемов записи и наименования чисел называется системой счисления. Системы счисления подразделяются на позиционные и непозиционные.
Если в записи числа значение цифры не зависит от ее положения в структуре числа и при записи может использоваться неограниченное множество символов, то система счисления называется непозиционной. Примером такой непозиционной системы является римская система.
В современном мире наиболее широко используются позиционные системы счисления. В позиционных системах счисления для записи чисел используют ограниченных набор символов, а значение числа зависит от позиции занимаемой цифрой. В повседневной жизни мы пользуемся десятичной позиционной системой счисления.
В современном представлении информации большое значение имеет двоичная система счисления, именно эта система лежит в основе стандарта представления любых видов информации. Также довольно часто используются для представления числа в восьмеричной и шестнадцатеричной системах счисления, преобразования чисел в этих системах счисления и будут рассматриваться далее.
Набор цифр, из которых будет состоять двоичное число, очень мал – это 0 и 1. Восьмеричная система счисления имеет восемь цифр (0 – 7), шестнадцатеричная система имеет шестнадцать, причем первые десять цифр совпадают по написанию с цифрами десятичной системы счисления, а для обозначения оставшихся шести цифр применяются латинские буквы.
Так как из контекста не всегда понятно, к какой системе счисления относится запись, то основание недесятичной системы счисления записывается в виде нижнего индекса числа:
1112 =7 (10) 1118 =73 (10) 11116 =273 (10)
Запись чисел в десятичной, двоичной, восьмеричной и шестнадцатеричной системах счисления представлены в таблице кодирования.
Таблица 2.1.
Таблица кодирования
Одинаковый принцип формирования чисел в позиционных системах счисления позволяет использовать алгоритм перевода из одной системы счисления в другую.
Правила перевода чисел из одной системы счисления в другую
Правила перевода числа произвольной системы счисления в десятичную систему счисления:
– Проставить номера позиций цифр в числе (начиная от запятой влево и вправо);
– Каждую цифру числа умножить на основание системы счисления в степени соответствующей номеру позиции;
– Перевести значения цифр в десятичные (для 16-ричных чисел, для систем счисления с основаниями 2 и 8 не требуется);
– Вычислить сумму полинома.
Рассмотрим пример использования данного алгоритма для числа FB,0C16
FB,0C16 = F·161 + B·160 +0·16—1 +C·8—2=
- = 15·161 +11·160 +0·16—1 +13·8—2=
- = 251.468
- Итак, FB,0C16 = 251.468
Правила перевода десятичного числа в иную систему счисления
– Целую часть числа последовательно делить нацело на основание системы счисления. «Собрать» остатки от деления, начиная с остатка от последнего.
– Дробную часть числа последовательно умножать на основание системы счисления, «сдвигая» целую часть произведений и продолжая умножение только дробной части, до заданной точности. «Собрать» целые части произведений, начиная с первого.
– При переводе в шестнадцатеричную систему счисления перевести значения результирующих цифр в шестнадцатеричные.
– Записать число (целую и дробную часть) и указать систему счисления.
Рассмотрим пример использования данного алгоритма для перевода числа 3338,78 в шестнадцатеричную систему счисления с точностью до четырех знаков после запятой
Из таблицы кодирования: 13= D16; 10=A16; 11=B16; 14=E16 4. D0A, BAE116
После выполнения преобразований 3338,78 в десятичной системе счисления записывается как D0A, BAE116
Итак, 3338,78= D0A, BAE116
Связь двоичной, восьмиричной и шестнадцатиричной систем счисления
Между системами счисления с основаниями 2, 8 и 16 существует связь, позволяющая легко переводить числа из одной системы в другую, используя следующий метод:
В двоичном числе от десятичной запятой вправо и влево выделять группы цифр по три – для перевода в восьмеричную и по четыре – для перевода в шестнадцатеричную (такие группы называются соответственно триадами и тетрадами). Если в конечных группах будет недостаточно цифр, то в группы следует добавить нули.
Каждую группу независимо от других перевести в одну соответственно восьмеричную или шестнадцатеричную цифру. Для обратного перевода (из восьмеричной или шестнадцатеричной – в двоичную) нужно проделать обратную операцию – каждую цифру вправо и влево заменить группой соответственно из трех или четырех двоичных знаков.
Примеры
Пример №1
Рассмотрим пример перевода двоичного числа 1010011110,110112 в шестнадцатеричную систему счисления.
1010011110,110112
В двоичном числе от запятой вправо и влево выделим группы цифр по четыре – тетрады. При недостатке цифр в тетраде добавим нули (в начале или конце).
10 \ 1001 \ 1110,1101 \ 12
0010 \ 1001 \ 1110,1101 \ 10002
По таблице кодирования определим соответствие записей в двоичной и шестнадцатеричной системам:
00102 = 216
10012 = 916.
11102 = E16.
11012 = D16.
10002 = 816.
Проведем замену тетрад цифрами шеснадцатиричной системы:
0011 \ 1001 \ 1110,1101 \ 10002 = 29E,D816.
Ответ: 1010011110,110112=29E,D816.
Пример №2
Рассмотрим пример перевода восьмеричного числа 5430,678 в двоичную систему счисления.
5430,678
- Цифре 5 восьмиричной системы счисления в таблице кодирования соответствует триада двоичной системы 101, таким же образом определяем триады для других цифр.
- 58=1012
- 48=1002
- 38=0112
- 08=0002
- 68=1102
- 78=1112
- Ответ запишем, заменив восьмиричную цифру триадой:
- 5430,678=101100011000,1101112
- Представление чисел в компьютере
Современный персональный компьютер позволяет работать с разнообразными данными: числами, символьными данными (текстом), графическими данными, звуковыми данными.
Все данные в компьютере хранятся и обрабатываются в унифицированном (единообразном) виде – двоичном цифровом коде. Требуется это для того, чтобы большое количество различных видов данных можно было обрабатывать одним устройством.
Числа, используемые человечеством, представляют бесконечно непрерывный ряд, различаются на положительные и отрицательные числа, целые и дробные, рациональные и иррациональные. Реализовать представление такого бесконечного множества в технических устройствах невозможно. Необходимы ограничения, как диапазона, так и точности представления чисел, система компьютерного представления чисел конечна и дискретна. В компьютерах размеры ячеек памяти (регистров) фиксированы, причем ограничения налагаются и на диапазон, и на точность представления чисел. Кроме того целесообразно представлять числа в той форме, на которую требуется меньшее количество компьютерной памяти.
При разделении записи числа на составляющие (знак числа, значение числа, знак порядка, значение порядка) легче перейти к конечной и дискретной форме, необходимой для представления в компьютере.
Любое действительное число можно записать в нормальной форме:
A=±m* P q, где
m – правильная дробь, называемая мантиссой числа
P – основание системы счисления
q – целое число, называемое характеристикой.
Например, запись числа в нормальной форме имеет вид:
12345,67 = 0,1234567́10 5;
– 9875=– 0,9875́10 4
Каждый разряд десятичного числа отличается от соседнего на степень числа 10, умножение на 10 равносильно смещению десятичного разделителя на одну позицию вправо. Деление на 10 сдвигает десятичный разделитель на позицию влево. Поэтому можно продолжить любое равенство:
12345,67 = 0,1234567́10 5= 1,234567́10 4= 0,01234567́10 7= 1234567́10—2
Десятичный разделитель «плавает» в числе и не является абсолютной позицией.
В целях эффективного использования памяти для представления в компьютере целых чисел (вещественных с нулевой дробной частью) и вещественных (дробная часть которых предполагается ненулевой) используются различные форматы. Стандартными форматами для целочисленного хранения являются байт, слово (двухбайтовый регистр) и двойное слово (четырехбайтовый регистр).
При хранении вещественного числа используются форматы одинарной точности (32-разрядный) и двойной точности (64 – разрядный).
Разделение способов хранения целых и вещественных чисел объясняется тем, что большое количество информации представляет собой именно целочисленные данные, а, как было указано выше, форматы хранения целых чисел экономичнее форматов хранения вещественных чисел.
Компьютерное представление целых чисел
Целые числа хранятся в компьютере в форме записи с фиксированной точкой (в англоязычных странах разделитель целой и дробной части числа обозначается точкой). Такое представление предполагает, что разделить целой и дробной части находится вне разрядной сетки числа, справа от младшего цифрового разряда, т.е. дробная часть равна нулю.
Всего в разрядную сетку регистра-байта с помощью двоичного кода можно записать 256 вариантов значений: 28=256. Иначе говоря, одного байта достаточно, чтобы записать целое положительное число (в двоичной системе счисления) в диапазоне от 0 до 256.
Еще одна возможность использования одного байта – хранение знакового диапазона: в этом случае старший (самый левый) бит разрядной сетки отводится под признак знака (1 – отрицательное число, 0 – положительное число), при этом количество значимых байтов уменьшается до семи, а диапазон числа будет иным, от -27=-128 до 27=128.
Такой диапазон чисел явно недостаточен даже для бытовых расчетов. Для записи числа, принадлежащего большему диапазону, требуется памяти больше, чем один байт. Двухбайтовая ячейка (часто ее называют словом) дает диапазон хранения чисел соответственно 0—65536 либо, для знаковых целых чисел -32768 – 32767.
В редких случаях также используется представление целых чисел в четырехбайтовых ячейках. В некоторых случаях для хранения целых чисел небольшого разряда используют упаковку в 64-разрядное слово. Такое случается при использовании мультимедийной информации.
В современной микропроцессорной технике используются все указанные форматы хранения целых чисел.
Компьютерное представление вещественных чисел
Говоря о хранении вещественных чисел, следует особо рассмотреть вопрос точности их представления. При бытовых исчислениях обычно обходятся точностью до 2-3-го десятичного знака после запятой, практика научных и инженерных измерений использует 5—6 знаков. Однако нельзя исключать возможность использования очень длинной дробной части числа (допустим, числа {х} с высокой точностью) или бесконечной периодической дроби (например, результат деления 1/3).
Длина ячейки памяти конечна (кратна 8, разрядной длине байта), следовательно, имея в виду вышесказанное дробную часть нужно усекать до некоторой длины – для обеспечения оговоренной точности. В дальнейшем, при выполнении арифметических действий, неточности такого рода нарастают.
В компьютерах используется представление рациональных чисел с плавающей точкой.
Для представления двоичного числа с плавающей точкой требуется два битовых поля разной длины для отдельного хранения мантиссы и порядка. Точность хранения числа определяется количеством разрядов, отведенных для хранения мантиссы.
В целях увеличения количества разрядов мантиссы (а значит количества значащих цифр) вещественные числа хранятся в нормализованном виде. Нормализованное число в старшем разряде мантиссы обязательно имеет цифру отличную от нуля:
0,005432110*103=0,5432110*105 – нормализованное десятичное число
0,01001012*2—2 = 0,1001012*2—1– нормализованное двоичное число
Как и в случае целых чисел, в программных системах могут использоваться несколько типов хранимых данных: Стандарты программного обеспечения требуют наличия 4-байтового и 8-байтового представления чисел, это числа одинарной и двойной точности.
Формат чисел одинарной точности использует старший бит как знаковый флаг, 8 разрядов для хранения порядка и 23 разряда для хранения мантиссы.
В представленной на рис.2.1. разрядной сетке числа -2,21*10—5 старший разряд равен 1 (число отрицательное). Следующие восемь бит хранят характеристику – смещенный порядок, т.е. порядок числа, увеличенный на значение смещения. Значение смещения для четырехбайтового представления равно 127. Смещение порядка применяют для упрощения операций над числами с плавающей точкой. В рассматриваемом примере характеристика равна: 127+ (-5) =12210= 11110102.
С девятого разряда размещается мантисса: 22110= 110111012.
Громоздкая двоичная запись часто заменяется шестнадцатеричным представлением: BD6E10000.
Четырех байтовый формат хранения представляет числа в диапазоне 3,4*10-38-3,4*1038; точность этого формата составляет 7 знаков в десятичном представлении.
В случае если мантисса числа превышает имеющуюся у формата разрядность, младшие разряды округляются и отбрасываются: 123456789,987654321 → 123456800,0.
Числа двойной точности обычно не являются результатами измерений, но позволяют избежать накопления ошибок округления при вычислениях.
В двойном формате порядок занимает 11 разрядов, а мантисса – 52 разряда.
8 -ми байтовый формат представляет числа в диапазоне ±4,9*10—324 – 4,9*10324; формат двойной точности в десятичном представлении составляет 15 знаков, смещение порядка равно 1024.
Фиксированное представление чисел позволяет хранить точное значение числа, а представление с плавающей точкой – округляется до точности представления и отображается на экране (без форматирования) в экспоненциальном виде: 1.234568Е+08, где конструкция Е+08 указывает на сдвиг запятой на количество знаков вправо (+) или влево (-).
2.2.Компьютерная арифметика. Булевы функции
Компьютерная арифметика.
В двоичной системе, как и в любой системе счисления возможны все арифметические операции: сложение, вычитание, умножение, деление.
При этом, целочисленное представление чисел позволяет применить правила непосредственно к хранящимся данным. Использование представления с плавающей точкой в операциях сложения и вычитания требует предварительного выравнивания порядков чисел-операндов, и результат вычислений подвергается нормализации. При умножении и делении вещественных чисел порядок результата вычисляется соответственно сложением (вычитанием) порядков операндов, а мантисса – перемножением (делением) мантисс операндов.
Сложение. Правила сложения двоичных чисел те же, что в десятичной системе счисления, только каждый разряд суммы может принимать одно из двух значений – ноль или единица. Точно так же, как и в десятичной системе, для сложения чисел их удобно записать в столбик.
Сложение чисел нужно производить поразрядно, начиная с младшего разряда. При этом применяются следующие правила:
При сложении двух единиц мы получим ноль в текущем разряде и единицу переноса в старший разряд. Образующийся дополнительный бит называется битом переноса. Если бит переноса выходит за отведенное количество разрядов хранения числа, он оказывается утерянным.
Умножение. Умножение двоичных чисел, также схоже на умножение десятичных. Вот пример умножения двоичных чисел столбиком.
Точно так же, как и при умножении двоичных чисел, мы умножаем первое число на каждый разряд второго и записываем полученные результаты под первой чертой, одно под другим со сдвигом. Затем полученные промежуточные результаты складываем с учетом сдвига. Однако в случае с двоичными числами имеется одно существенное отличие. Так как любой разряд двоичного числа либо ноль, либо единица, то промежуточное умножение сильно облегчается. В самом деле, любое число, умноженное на единицу, равно самому себе. Любое число, умноженное на ноль, равно нулю. Именно поэтому умножение двух двоичных чисел сводится к операциям сдвига и сложения. Это очень важно для построения вычислительных машин. Для реализации операций сложения и умножения нужны только сумматоры и сдвиговые регистры.
Вычитание и деление. Для того чтобы упростить (для машинной обработки) операцию вычитания, был придуман так называемый «дополнительный код». Можно сказать, что при помощи этого кода записываются отрицательные числа. Чтобы записать двоичное число в дополнительном коде:
– необходимо инвертировать все его разряды (т.е. перевести число в обратный код — заменить его содержимое на противоположное),
– а затем прибавить единицу.
- Таблица 2.2.
- Запись числа в дополнительном коде
- Правило вычитания двух двоичных чисел:
- – Перевести вычитаемое в дополнительный код.
– Сложить эти два числа (уменьшаемое и вычитаемое в дополнительном коде).
– При сложении бит переноса не учитывать.– Полученный результат – разность.
- Например, найдем разность между числами 13 и 5
- Запишем в двоичном коде: 13 (00001101), 5 (00000101).
- Переведем в дополнительный код вычитаемое: (5 (11111011).
- Бит переноса из старшего разряда отбрасываем. Результат: 10002=810.
Деление в двоичной системе происходит так же как в десятичной системе счисления.
Правила деления чисел сводятся к сдвигу разрядов числа и вычитанию. Вычитание сводится к сложению чисел, одно из которых представлено в дополнительном коде.
При выполнении действий двоичной арифметики возможны ситуации, приводящие к неточности результата или ошибке. Так, при использовании целочисленного представления возможна ситуация потери старших разрядов результата (в случае превышения разрядов сетки). Еще одна парадоксальная ошибка «целочисленной арифметики» – при использовании знакового формата при сложении или умножении положительных чисел возможно получение результата, неверного по знаку (с единицей в знаковом бите) и модулю (без учета знакового бита). Для форматов с плавающей точкой возможна другая опасность: выход за границу допустимого диапазона значений. Это может произойти, если порядок результата оказывается больше максимального возможного значения. Обычно в такой ситуации выполнение программы прерывается по ошибке – «арифметическое переполнение». Схожая ситуация, когда результат меньше минимально возможного приведет к исчезновению числа (превращению в нуль, что опасно, например, при делении).
Булевы функции. Сложение по модулю два
Говоря об арифметических операциях с двоичными числами нельзя не сказать о логических операциях с ними. В XIX веке английский математик Джордж Буль разработал основные положения алгебры логики, ныне используемые для формального описания узлов ЭВМ. В алгебре логики (булевой алгебре) различают двоичные переменные и булевы функции.
Двоичные переменные могут принимать два значения: 0 и 1. Они обозначаются символами x1, x2, x3,…
Булевы функции зависят от двоичных переменных. Они, как и аргументы, могут принимать лишь два значения: 0 или 1, и обозначаются как f (x1,x2,x3,…) Булевы функции принято задавать таблицами истинности, где для всех наборов переменных указываются соответствующие им значения функции. Вместо значений 0,1 может использоваться любая другая пара подходящих символов, например false и true (F и T, «ложь» и «истина»). Элементарные булевы функции служат аргументами еще более сложных логических функций.
К элементарным логическим функциям относятся:
Логическое отрицание – инверсия (логическая функция НЕ). Логическим отрицанием переменной x называется такая булева функция f1 (x), которая имеет значение 1, когда x = 0 и значение 0, когда x = 1. Булева функция НЕ обозначается в виде f1 = x и читается: «f1 есть (эквивалентно) не x».
Логическое умножение – конъюнкция (логическая функция И). Конъюнкция двух (или любого другого числа) переменных x1 и x2 принимает значение 1 только на наборе, в котором все переменные имеют значения 1. На остальных наборах эта функция имеет значение 0.
Логическое сложение – дизъюнкция (логическая функция ИЛИ). Дизъюнкция двух (или любого другого числа) переменных x1 и x2 имеет значение 0 только на наборе, в котором все переменные имеют значение 0. Если хотя бы одна из переменных равна 1, функция будет иметь значение 1.
Элементарные логические функции НЕ, И, ИЛИ являются основными логическими функциями.
Весьма значимой также является еще одна булева функция: сложение по модулю 2
Сложение по модулю 2 – строгая дизъюнкция (исключающее ИЛИ). Эта функция переменных x1 и x2 имеет значение 0 на наборе, в котором переменные равны. Иначе говоря, результат равен 0, если оба операнда равны; во всех остальных случаях результат равен 1.
Приведем пример суммирования по модулю 2 двух двоичных чисел:
Вопросы для самопроверки
– Дайте определение системы счисления.
– Что называется основанием позиционной системы счисления?
– Число записано как 677,42 без указания основания системы счисления. В каких системах счисления могло быть записано это число?
– Какое число будет следующим за 10110012?
– Какое число будет предшествовать числу 1008?
– Перевести число 208.12 из десятичной системы счисления в двоичную.
– Перевести число 242 из десятичной системы счисления в шестнадцатеричную.
– Перевести число 1001.0012 из двоичной системы счисления в десятичную.
– Перевести число 10F.6A16 из шестнадцатеричной системы счисления в двоичную.
– Перевести число 10101.012 из двоичной системы счисления в десятичную.
– Представьте в стандартном виде числа: 12, 34; 0,0987; 100,1.
– Почему для хранения чисел в компьютере используют форматы целых и вещественных чисел?
– Запишите в экспоненциальном виде числа: 456, 789; 65,321; 0,753.
– К каким операциям сводят все арифметические действия в двоичной арифметике?
– Какие элементарные логические функции являются базовыми для построения логических выражений?
– Переведите в обратный код число 10000002.
– Переведите в дополнительный код число 10000012.
– Выполните операцию двоичного вычитания с использованием дополнительного кода (в двухбайтовом формате) 1101011101102 – 101110112.
– Какие элементарные логические (Булевские) функции Вы можете назвать?
– Выполните операцию двоичного сложения: 1110110 +10101010.
– Выполните операцию двоичного сложения по модулю 2:
11010110 и 1010111.
– Выполните операцию двоичного вычитания с использованием дополнительного кода 11000001 – 1011101.
Глава 3
Представление информации в компьютере
Аналоговые и дискретные сигналы. Дискретное представление информации.
Информационное взаимодействие в природе носит волновой характер, так звук – это акустические (механические) волны, свет – электромагнитные волны, люди видят предметы в отраженном от них свете. Потребность в сохранении и передаче информации привела к возникновению письменности – преобразовании звуковой волны в символьные коды – буквы.
Изобретение фонографа, а потом и магнитофона дало возможность сохранять и воспроизводить звук. Люди научились записывать и воспроизводить видеосигналы.
Появление компьютерной техники и использование универсальной цифровой системы кодирования открыло перед человечеством новые широкие возможности записи, сохранения и воспроизведения информации.
Информация в компьютере может быть представлена с помощью сигналов двух видов.
Аналоговые – сигналы, величина которых сохраняется непрерывно на каком-то отрезке времени, аналогичные порождающим процессам.
Дискретные – сигналы, величина которых сохраняется в виде значений в определенные моменты времени и принимающие фиксированные значения уровня.
Непрерывные сообщения можно преобразовывать в дискретные, применяя дискретизацию и квантование по уровню.
Дискретизация (англ. discretisation) – устранение непрерывности (пространственной или по времени) волновых информационных сигналов.
Квантование (англ. quantization) – преобразование диапазона всех возможных значений входного сигнала в конечное число выходных элементов
Передачу практически любых сообщений можно свести к передаче их отсчетов, следующих друг за другом с интервалом дискретизации t.
Для абсолютно точного представления информации в общем случае необходимо бесконечное число разрядов. На практике же в этом нет необходимости, так как получатели информации (органы чувств человека, механизмы и т.д.) обладают конечной разрешающей способностью, то есть не замечают незначительной разницы между абсолютно точным и приближенным значениями воспроизводимого.
С учетом этого можно подвергнуть дискретные отсчеты квантованию. Интервал между соседними разрешенными уровнями называется шагом квантования. На практике чаще применяется равномерное квантование, при котором шаг квантования постоянный. На рис.3.1 представлена схема дискретизации и квантования звукового сигнала, где ΔА – шаг квантования устанавливает сохраняемые уровни значения амплитуды звуковой волны; Δt – шаг дискретизации звука (интервал снятия значений амплитуды звуковой волны по времени).
Рис.3.1. Дискретизация и квантование акустического сигнала
На рис.3.2 показана схема пространственной дискретизации. Изображение (слева) разбивается на геометрические элементы с шагом дискретизации Δl, в пределах которого значение цветовой характеристики может считаться неизменным. Результат применения шкалы квантования цвета по уровням градации с шагом ΔС показан справа на рисунке.
Рис. 3.2. Схема пространственной дискретизации
Достоинством дискретного представления информации является, в первую очередь, возможность автоматизации передачи и обработки сигналов с помощью компьютеров. Современный персональный компьютер позволяет работать с разнообразными данными: числами, символьными данными (текстом), графическими данными, звуковыми данными, и все данные в компьютере представлены в двоичном цифровом коде.
Формы представления чисел в компьютере и кодирование числовой информации рассматривались в предыдущей главе. Важными источниками информации являются кроме числовых текстовые, звуковые и графические данные.
Для записи слов была изобретена дискретная система кодирования – алфавит, но она не подходит для хранения и автоматической обработки в вычислительной технике. Двоичное кодирование символьных данных производится с помощью кодовых таблиц, в которых каждому символу соответствует двоичный код.
Для представления изображений используют два способа – растровый и векторный. Оба они используют двоичный код для хранения цветовых и пространственных характеристик.
Для представления звука в виде цифрового кода сигнал дискретизируют по времени и квантуют по уровню с помощью аналого-цифрового преобразователя.
3.1.Компьютерное представление текстовой информации
Текстовые данные являются важнейшим источником информации. Для записи слов человечеством были изобретены буквы, для указания оттенков речи – знаки препинания. Все это – символы, символьный способ хранения изначально дискретен, и способ компьютерного представления сводится к кодированию символов численным способом.
Все используемые способы представления символов в памяти компьютера, так или иначе, сводятся к нумерации символов алфавита и хранения полученных кодов как целых чисел. Этому коду драйвер видеокарты ставит в соответствие начертание символа (тем или иным шрифтом).
Такое кодирование производится размещением кодовых таблиц в оперативной памяти компьютера, по которым каждому символу ставится в соответствие двоичный код.
При кодировании языков, использующих алфавитную (не иероглифическую) письменность, достаточно 127 символов (в английском языке 26 букв +26 прописных «заглавных» +10 цифр + знаки препинания и арифметические знаки). Следовательно, для кодировки достаточно по 7 бит на каждый символ, этот принцип использует самая распространенная система кодирования латиницы – ASCII (American Standard Code for Information Interchange – американский стандартный код для обмена информацией). Код ASCII был разработан в 60-х годах XX века для любых видов передачи информации (телеграфа, телетайпа) и поэтому в нём, кроме информационных символов, используются символы-команды для управления связью. Эти символы: Начало текста, Конец текста, Звуковой сигнал, Горизонтальная табуляция и т. д. ныне вышли из употребления. Их коды являются служебными и трактуются большинством форматов как управляющие команды. Они занимают первые 31 позиции в таблице.
Таблица 3.1.
Таблица символов ASCII (128 – 255)
С 1981 г. в таблице ASCII для представления 1 символа используется 1 байт, т.е. таблица может описывать 28=256 символических кодов.
Коды с десятичными номерами 0—127 образуют основную страницу таблицы. В основной странице располагаются управляющие команды для принтеров (0—31 – возврат каретки, перевод строки и т.д.), затем спецсимволы (#$%&*@ пр.), цифры и латинские буквы, прописные и строчные.
Коды с номерами 128—255 (табл. 3.1) отданы под знаки национальных алфавитов и символов псевдографики (псевдографика широко использовалась в 80-е годы). Вид символов, имеющих значение кода больше 127, зависит от выбранного шрифта.
С распространением компьютеров, программных продуктов и использования информационных ресурсов по миру выяснилось, что во многих странах Юго-Восточного региона 128 кодов под национальные символы не хватает, и в 1991 г. был принят стандарт ISO-10646-1 (иначе UNICODE-3). Для этого стандарта на кодирование символа отводится 3 байта.
В Юникоде первые 128 символов тоже совпадают с соответствующими символами ASCII. Далее размещены основные алфавиты современных языков. В целом, UNICODE-3 описывает алфавиты всех известных (в том числе и «мертвых» языков; в кодировку внесены все математические и иные научные, и символьные обозначения, и даже придуманные языки – письменность эльфов и Мордора.
В современных компьютерах используется укороченная, 16-битовая версия UNICODE. По этой системе каждый символ кодируется двухбайтовым числом, следовательно, таблица описывает 216=65536 кодов, этой емкости вполне хватает для алфавитов современных широко используемых языков. Текстовые документы, созданные по такой таблице кодировки, имеют в два раза больший объем, по сравнению с кодировкой ASCII, но при современных технических средствах это не представляет особых проблем и затруднений.
Существуют и другие таблицы кодирования.
UTF (Unicode Transformation Format) – применяется в UNIX-подобных операционных системах, кодировка с переменным количеством байт/символ.
CP1251 – «Code Page 1251» – однобайтовая кодовая страница кодировки ОС Windows
Для представления русского варианта кириллицы были разработаны несколько кодовых таблиц, наиболее распространенной была КОИ-8 (Код Обмена Информацией, 8-ми битный).
3.2.Компьютерное представление графической информации
На сегодняшний день компьютерную графику по способу формирования и хранения изображений в памяти компьютера принято подразделять на растровую и векторную.
Растровое изображение формируется цветовыми точками. Растровые графические данные, в зависимости от способа сжатия, выбора глубины цветовой палитры, возможности хранения слоев и прочих возможностей при кодировании подразделяются по форматам стандартных способов записи файлов.
Векторное изображение формируется из набора объектов, описываемых с помощью математических формул.
Векторную графику, в свою очередь, по методу отображения можно разделить на большие категории:
– 2D-графику (плоскостную);
– 3D-графику (объемную);
– фрактальную графику (создание регулярных структур).
Изображения векторной графики также имеют собственные стандарты форматов хранения файлов.
По назначению компьютерную графику можно разделить на:
– Конструкторскую (инженерную) графику;
– Полиграфическую;
– Web-графику и т. д.
В таком делении учитываются требования области применения: для конструкторских работ важна точность отображения, но не слишком велики требования к цветовым характеристикам; для полиграфии – наоборот, точная цветопередача является основным требованием; в Web-графике существуют ограничения по объему файлов, к тому же, во всемирной паутине весьма ограничены цветовые палитры.
Цветовые модели. Разрешение
Для каждой точки растрового изображения (или для каждого объекта векторного изображения) должна сохраняться цветовая характеристика.
Если изображение монохромное (черно-белое) то хранить нужно только один признак цвета – есть цвет или нет, т.е. достаточно одного бита на каждый пиксель (объект) изображения.
Для описания градации одного цвета применяется обычное кодирование, в котором номер обозначает градацию. Чем больше значение, тем сильнее проявляется цвет. Таким образом, появляется возможность задавать оттенок цвета. Чтобы получить реальные полутона (для монохромного изображения), для хранения каждой цветовой точки нужно отводить большее количество разрядов. В этом случае черный цвет будет представлен нулевым значением, а белый – максимально возможным числом. Например, при восьмибитном кодировании получится 256 разных значений яркости (оттенки серого, Grayscale).
В более сложных случаях, когда речь идет о кодировании сложного цвета с большим количеством оттенков, рассматривают разложение цвета на несколько отдельных компонентов, которые, смешиваясь (т.е. действуя в одной точке), образуют заданный цвет.
Для цветных изображений нужно закодировать яркость и оттенок точки. Для получения наивысшей точности цветопередачи необходимо иметь по 256 значений для каждого из основных цветов (вместе это дает 23*8 – более 16 миллионов оттенков).
Рис. 3.3 Пространство цветов в модели RGB
Цветовое пространство характеризуют количеством битов, отводимых на сохранение цвета. Чаще всего используются режимы TrueColor (24 бита, в соотношении 8:8:8) и HighColor (16 бит, в соотношении 5:6:5).
Компоненты цвета и способ образования из них видимого оттенка образуют цветовую модель.
Теория цвета построена на особенностях зрения человека. Считается, что в глазу имеются сенсоры «колбочки», воспринимающие красный, зеленый и синий цвета, их отнесли к базовым (Red – красный; Green – зеленый; Blue – голубой). Остальные цвета получаются как смешение долей цвет. Белый – смешение максимального значения цветовых каналов, черный – отсутствие свечения по всем каналам. Эта модель цветового пространства названа аддитивной (суммирующей) и именуется RGB. Мониторы работают именно в этой системе, т.к. физически монитор излучает именно эти цвета.
Распространена и другая – субтрактивная (разделяющая) модель цветового пространства, получаемая вычитанием из белого базовых цветов. В итоге получены голубой, пурпурный и желтый цвета. Cyan – голубой; Magenta – фиолетовый; Yellow – желтый. При смешивании в равных максимальных долях они должны давать черный цвет. Поскольку на практике точного черного цвета при смешивании не получается, то в модель добавляется компенсирующий четвертый компонент – blacK, поэтому модель носит название CMYK. В этом пространстве работает большинство печатающих устройств.
Говоря о любом виде компьютерной графики нельзя не упомянуть о разрешении – понятии, которое применяется в очень разных смыслах:
Разрешение экрана – свойство видеоподсистемы, и настроек ОС, определяет размер изображения на экране; единицы измерения – PICSEL.
Разрешение электронного изображения – свойство файла, задается при создании (при сканировании, фотографировании и т.д.), определяет размер самого изображения; единицы изменения PPI – PICSEL PER INCH.
Разрешение печатного изображения – свойство принтера, количество точек, которые могут быть напечатаны на участке заданной длины, определяет качество изображения при заданном размере; единицы измерения DPI – DOTS PER INCH.
Чем больше разрешение – тем выше качество изображения, но и больше места требует сохраняемый графический файл. Для экранного отображения достаточно разрешения 70—75 ppi, для качественной распечатки на струйном/лазерном принтере потребуется 150—200 dpi, полиграфическим считается разрешение более 250 dpi.
Растровая графика
Растровые изображения формируются цветовыми точками, называемыми пикселями (PICSEL – PICtureS ELement). Из них создается двумерный массив (матрица).
Растровая графика – основное средство представления и обработки фотографических изображений, стилизованных художественных рисунков, с помощью именно этого способа представления информации строятся современные человеко-машинные интерфейсы. Но, несмотря на универсальность, этот способ представления информации имеет целый ряд недостатков. К ним относятся: зависимость качества изображения от его объема, трудность выделения и манипуляции отдельными элементами, существенное снижение качества изображения в результате геометрических преобразований (масштабирования, поворотов).
Устройствами, создающими растровое изображение, помимо собственно компьютера с растровым графическим редактором, являются:
– сканер;
– цифровая фото- и видео- аппаратура;
– программы – захватчики кадров теле- и видео- программ;
– программы создания растровой графики.
Сканеры и цифровая аппаратура используют светочувствительные элементы, при попадании на которые световой или лазерный луч передает характеристики точек. Эти характеристики в цифровом формате сохраняются на элементах памяти и, тем самым, достигается возможность передать изображение в компьютерную обработку.
Из-за разнообразия типов изображений и областей из использования существует огромное количество разнообразных графических форматов. Для того, чтобы программы понимали файлы разных форматов, существуют конвертеры – программы, переводящие файлы из формата в формат. Существует несколько наиболее употребительных форматов:
– .bmp – для хранения и передачи изображений в среде Windows;
– .jpg – для хранения изображений с применением сжатия (удаления избыточной информации);
– .gif – для хранения сжатых изображений с фиксированным количеством цветов, разрабатывался для применения в Интернете;
– .tif – предназначен для хранения изображений высокого (полиграфического) качества, имеется возможность перенесения на другие аппаратные платформы и т.д..
Векторная графика
Векторные изображения формируется из набора математически представленных геометрических объектов.
Рисунок хранится как набор координат, векторов и других чисел, характеризующих набор примитивов. Наиболее распространенными примитивами являются: отрезки, прямоугольники и их производные (со сглаженными углами), эллипсы и их части, кривые Безье (математические кривые третьего порядка, задаваемые 4 точками), а также составленные из них сложные контуры.
Линии – это кривые разных порядков, при этом прямая рассматривается как частный случай кривой; они обладают свойствами – толщиной, цветом, начертанием (сплошная, штриховая). Из минимальных объектов-линий создаются контуры. Каждый контур имеет 2 или более опорные точки-узлы. Если 1-ая точка совпадает с последней – конур замкнут, и приобретает свойство заполнения (цветом, рисунком-текстурой, градиентной заливкой).
Большим преимуществом векторного представления графики является значительно меньший объем файлов по сравнению с растровой – изображение описывается не битовой картой, а несколькими формулами, при этом объем файла не зависит от размеров изображения. Еще одно достоинство векторного представления – его объектность: объекты легко выделять, при всех трансформациях (уменьшение, увеличение, искажение) качество не ухудшается и не зависит от разрешения.
Недостатком этой формы представления относится большая сложность создания фотореалистичных изображений и высокие требования к ресурсам вычислительной системы, необходимым для пересчета координат объектов при трансформации.
Устройством ввода векторного изображения является дигитайзер (сколка). Механическое воздействие на панель этого устройства позволяет фиксировать координаты точек, а сила нажатия – определять толщину линии между точками.
Распространенными форматами хранения векторных изображений являются:
– .wmf – формат хранения векторных изображений в Windows;
– .ai,.cdf – собственные форматы векторных редакторов AdobeIllustrator и CorelDraw, совместимые друг с другом.
– .dwg – формат файлов конструкторского программного пакета AutoCad.
3.3.Компьютерное представление звука
Звук – это продольная механическая волна, распространяемая в воздухе или другой среде во всех направлениях от источника колебаний.
Всякий звук (игра музыкальных инструментов, голос человека) – это своеобразная смесь многих гармонических колебаний с определенным набором частот. Как и любая волна, звуковая волна характеризуется двумя основными параметрами – амплитудой и частотой.
Частота – это количество звуковых колебаний в секунду; измеряется в герцах (Гц). Чем выше частота, тем выше тон звука.
Амплитуда колебаний определяет громкость звука и зависит в первую очередь от мощности источника звука.
Абсолютную величину звукового давления измеряют в паскалях (Па). Порогом слышимости обладают звуки, имеющие амплитуду около 20мкПа (2*10—5 Па). Уровень болевого порога слышимости около 200 Па, т.е минимальное и максимальное значения отличаются на 6—7 порядков. Из-за большого разброса величин абсолютными значениями пользоваться неудобно, и используют логарифмическую шкалу децибелов.
Десятичный логарифм отношения некоторой величины к ее эталонному значению (порогу слышимости) называется белом (Б), а его десятая часть – децибелом (дБ).
,
где L – уровень звука в дБ
РЗВ – измеряемое звуковое давление
РПС – звуковое давление порога слышимости
Звук можно представить в виде кривой, которая показывает зависимость звукового давления от времени. Замеряя напряжение через равные промежутки времени и сохраняя полученные численные значения можно дискретизировать (оцифровать звук). При этом сохраняются мгновенные значения звукового сигнала в определенные моменты времени (выборки). Чем чаще берутся выборки, тем точнее цифровая копия звука.
Частота следования отсчетов называется частотой дискретизации, а диапазон значений отсчета определяется разрядностью его двоичного представления.
При цифровом способе хранения звука не сохраняется весь профиль кривой звукового давления (и соответственно, сопоставленного ему напряжения). На рис.3.4 проиллюстрированы потери информации об истинном изменении времени и значениях амплитуды.
Для того чтобы воспроизвести закодированный таким образом звук, нужно выполнить обратное преобразование, и сгладить получившийся ступенчатый сигнал.
Рис. 3.4. Потери информации при дискредитации звука
Устройство, выполняющее оцифровку (кодирование аналогового сигнала), называется аналого-цифровым преобразователем (АЦП).
Для обратного преобразования служит цифро-аналоговый преобразователь (ЦАП).
Дискретизация сигнала с произвольной частотой не всегда дает возможность восстановить форму входного сигнала, а использование частоты в два раза большей, чем частота фиксируемого сигнала однозначно даст восстановление искомой формы.
Это утверждение является одной из важнейших теорем, используемых в теории информации, теорема В.А.Котельникова (в англоязычной литературе – теорема Найквиста-Шеннона):
Непрерывная функция Х (t) не имеющая в своем спектре составляющих с частотами, лежащими за пределами полосы f (-Fm, Fm), полностью определяется последовательностью своих отсчетов в дискретные моменты времени X (ti), следующих с шагом t <1/2Fm.
Таким образом, по дискретной последовательности отсчетов всегда можно восстановить исходную непрерывную функцию Х (t), если отсчеты брались с интервалом t <1/2Fm. То есть любой непрерывный сигнал может быть преобразован в дискретную последовательность, а затем восстановлен по последовательности своих дискретных значений.
Человеческое ухо воспринимает чистые гармонические тоны в том случае, если их частоты не превышают 20 килогерц, т.е. 20 тысяч колебаний в секунду. Остальные тоны, частоты которых выше 20 килогерц, оказываются неслышимыми для человека – ультразвук. Этот факт ограниченности возможностей человеческого уха по частоте и предоставляет возможность установления разумного интервала для снятия значений звукового давления.
Точная формулировка теоремы Котельникова применима только к сигналам с неизменными частотными характеристиками и бесконечной длительностью, и поэтому для оцифровки реальных звуковых сигналов выбирают несколько большую частоту дискретизации (с запасом).
Предел восприятия частоты звука составляет 20 КГц, и частоты 40 КГц будет вполне достаточно для осуществления цифровой записи, лишенной искажений, но при этом некоторые шумы и искажения в записи все же будут присутствовать. В современной цифровой записи звука принят стандарт записи с частотой снятия значения звукового давления, или частотой дискретизации, равной 44100 герц. Компьютер позволяет записывать звук, как с большими, так и с меньшими частотами дискретизации.
Разрядность цифрового звука (глубина цифрового звука) – количество бит, отведенных для хранения значений звукового давления. Поскольку «единицей» хранения информация в компьютере является байт, то стандартный цифровой звук бывает 8 битным, 16 битным и 24 битным.
Одна секунда стереозвука (на два канала) вмещает 44100 х 2 = 88200 записей, при разрядности 16 (2 байта) это соответствует 176400 байтам (без учета заголовков и другой информации). Одна минута 8-битового одноканального (моно) звука будет занимать 44100 х 60 = 2646000 байт, или 2584 кБ, или 2,5 мБ.
Такие значительные требования к памяти при хранении аудиоинформации способствуют применению различных методов сжатия и иных принципов хранения звука.
Методы компьютерного синтеза звука. С появлением мини – ЭВМ, а позднее – персональных компьютеров, в составе аппаратных средств появились и средства, обеспечивающие взаимодействие компьютеров с простейшими генераторами звука – динамиками. Эти простейшие средства работы со звуком использовались в основном (и используются до сих пор) как средство диагностики и реакции на действия оператора системы.
Современное устройство для воспроизводства и записи звука (музыки, речи, шумов) – это звуковая карта, или адаптер.
В режиме записи звуковая плата производит оцифровку звука для последующей записи в память компьютера. В режиме воспроизведения, как цифровой аудиоплеер, считывает из памяти цифровые сигналы и преобразует их в аналоговые звуковые. В режиме создания звука плата действует как музыкальный инструмент (синтезатор), при этом используются два основных метода: частотная модуляция (FM-синтез) и таблично-волновой синтез (WT).
FM-синтез – использует специальные генераторы сигналов, определяющие частоту (высоту) тона и амплитуду (громкость). Для синтеза звука каждого музыкального инструмента требуется два таких генератора. Современные платы могут воспроизводить до 9—10 разных голосов инструментов (чаще 2—4), но звук при FM-синтезе имеет «металлический оттенок».
WT синтез – дает возможность хранить музыкальный звук в виде коллекции заранее созданных наборов звуков. Такие сэмплы (sample – пример, образец) соответствующих тембрам различных инструментов хранятся в памяти звуковой платы в MIDI-файлах. Лучшие звуковые платы могут хранить и использовать до 8 Мбайт сэмплов, выпускаются также табличные расширители, позволяющие нарастить массив MIDI-файлов.
Файл. mid содержит в себе запись действий музыканта о том, какая клавиша была нажата, в какой момент времени, с какой силой, как долго удерживалась, с какой силой (этот параметр особенно важен не для клавишных инструментов, а, например, для смычковых), была ли нажата педаль и т. п. Для озвучивания таких файлов важно наличие механизма преобразования записанных инструкций в звук.
Для ввода мелодии в стандарте MIDI в компьютер применяется специальное средство ввода – MIDI-клавиатура. Она похожа на клавиатуру пианино, но предназначена для передачи соответствующих нот звуковой карте – для последующего синтеза звука заданным инструментом. Программы синтеза мелодий отображают набранные ноты в соответствии с музыкальной нотацией и позволяют редактировать их.
Понятие формата компьютерного звука используется в двух различных смыслах. При использовании специализированного носителя или способа записи и специальных устройств чтения/записи в понятие формата входят физические характеристики носителя звука – размеры кассеты с магнитной лентой или диском и т. п.
При использовании универсального информационного носителя широкого применения – например, компьютерного гибкого или жесткого диска – под форматом понимают только способ кодирования цифрового сигнала, особенности расположения битов и слов и структуру служебной информации; вся «низкоуровневая» часть, относящаяся непосредственно к работе с носителем, в этом случае остается в ведении компьютера и его операционной системы.
Специализированные форматы относятся к устаревшим, но в качестве примера можно привести следующие:
– DCC (Digital Compact Cassette – цифровая компакт-кассета) – бытовая система записи в продольном направлении на стандартную компакт-кассету
– CD (Compact Disk – компакт-диск) – односторонний пластмассовый диск с оптической лазерной записью и считыванием, диаметром 120 или 90 мм, вмещающий максимум 74 минуты стереозвучания с частотой дискретизации 44.1 кГц и 16-разрядным линейным квантованием. Система предложена фирмами Sony и Philips и носит название CD-DA (Compact Disk – Digital Audio). Различаются штампованные (CD) однократно записываемые (CD-R) и многократно перезаписываемые (CD-RW) компакт-диски.
– MD (MiniDisk) – бытовая и концертная система записи на магнитооптический диск, разработанная Sony (диаметром 64 мм).
В настоящее время стандартом универсального носителя являются форматы:
– .WAV (Wave Microsoft RIFF – Resource Interchange File Format) – содержит оцифрованный звук (моно/стерео, 8/16 разрядов, с разной частотой оцифровки),
– .MID (SMF Standard MIDI File) – «партитура» для MIDI-инструментов (ноты, команды смены инструментов, управления и т.п.).
– .MP3 – сжатый звук по технологии MPEG (Motion Pictures Experts Group, Layers 3).
3.4.Представление видеоинформации в компьютере
С точки зрения информатики фильм представляет собой сочетание звуковой и графической информации. При традиционных видео-технологиях для создания на экране эффекта движения используется технология быстрой смены статических картинок. В традиционном кадре на кинопленке основную его часть, разумеется, занимает видеоизображение, а сбоку размещена звуковая дорожка – графически зафиксированные колебания.
При использовании традиционных методов сохранения информации компьютерная (оцифрованная) версия фильма получится слишком большой.
До 90-х годов основными методами представления видеоданных были аналоговые методы. Обработка и редактирование данных выполнялись с помощью подхода, который сейчас называется линейный видеомонтаж (Linear Video Editing). При этом подходе данные всегда поступают на вход системы обработки последовательно, и система не может произвольно выбирать материалы, то есть монтаж из нескольких фрагментов выполняется всегда линейно.