Жизнь VS Энтропия

ВМЕСТО ПРЕДИСЛОВИЯ
Scio me nihil scire.
Отношение того, что знаю, к тому, чего не знаю, неотличимо от нуля
И вдруг раздался Большой Взрыв. Почему, а главное, зачем – никто не знает. Даже те, кто имеет смелость утверждать обратное. Но все великие умы сходятся на том, что ОН произошел. Появилось Пространство × Время и началась космическая эволюция Вселенной. За ничтожно малое время ~10-43 секунды (планковская эпоха) стали действовать известные сегодня законы природы. Появились и разделились фундаментальные силы – гравитационные, ядерные, электромагнитные и слабые. Началась эпоха инфляции – чрезвычайно быстрого расширения и остывания Вселенной. Она продлилась до ~10-32 секунды. В эту эпоху «свет отделился от тьмы» и из него стали рождаться элементарные частицы.
Почему-то частиц оказалось на ~ 0.001 долю больше, чем античастиц. Это счастливое обстоятельство позволило Вселенной прийти к относительной стабильности, так как иначе массовые процессы аннигиляции частиц и античастиц происходили бы все время. Асимметрия нашего Мира по дихотомии частицы/античастицы говорит о некой фундаментальной асимметрии самого Большого Взрыва. Рассуждая философски можно прийти к выводу, что абсолютно симметричный объект не может изменяться. Современная физика основывается на том, что с каждой формой симметрии связан некоторый интеграл движения (теорема Нетер). Эти интегралы, будучи важными характеристиками системы, остаются неизменными во времени константами. Следовательно, абсолютно симметричный объект есть константа. Внутри такого объекта невозможно понятие времени. Применительно к нашей теме это означает, что само время есть продукт асимметрии Большого Взрыва. Есть и асимметрия – кандидат, ответственная за однонаправленность оси времени – это неравноправие левого и правого (нарушение четности в квантовой механике).
При остывании Вселенной вследствие расширения до ~ 109 градусов Кельвина начали образовываться простейшие ядра и элементы. При образовании атомов водорода испускаются фотоны определенной энергии. Образовавшиеся более 13 миллиардов лет назад такие фотоны заполнили всю Вселенную и сохранились до сегодняшнего дня в виде так называемого реликтового излучения. Его особенности (изотропность, теоретически предсказанная температура 2,725 К и другие) позволили обнаружить его экспериментально, как одно из немногих прямых подтверждений Большого Взрыва.
Под воздействием сил тяготения облака атомов водорода, дейтерия, гелия стягивались во все более плотные образования. Энергия тяготения превращалась в рост температуры объектов, пока в них не загоралась термоядерная реакция. Такие объекты превращались в звезды. Если массы у объекта недоставало, то они превращались в газовые планеты типа Юпитера или Сатурна. Загоревшиеся и загорающиеся сегодня звезды проходят свою эволюцию. В особенно массивных из них рождаются все химические элементы вплоть до самых тяжелых. При взрыве таких звезд в конце их эволюции (сверхновые звезды) эти элементы рассеиваются по всей Вселенной и дают материал для постройки планетных систем, комет, астероидов и т. п. Эти небесные тела проходят свою эволюцию. Ее можно называть геологической, несмотря на земной смысл этого термина.
Звездные системы силами гравитации собираются в галактики, галактики – в скопления галактик и даже в сверхскопления галактик. Возникает иерархическая структура Вселенной. Этот период эволюции Вселенной называют иерархической эпохой. В прошлом она носила весьма бурный характер и вяло продолжается в наше время. Вселенная по-прежнему расширяется и даже хорошо измерен коэффициент этого расширения – постоянная Хаббла. Что ждет Вселенную в далеком будущем? Теорий много – понимания мало.
В одной маленькой части Вселенной, на краю галактики Млечный Путь, в планетной системе звезды Солнце, на планете Земля сложились столь удачные условия, что ее геологическая эволюция каким-то удивительным образом превратилась в эволюцию биологическую. Из простых химических соединений синтезировалась молекула ДНК, структура которой представляет собой некий текст – генетический код. Алфавит этого кода состоит всего из четырех химических «букв» – нуклеотидов: аденина (А), гуанина (Г), тимина (Т) и цитозина (Ц). Тройки (триплеты или кодоны) этих букв кодируют двадцать новых химических «букв» – аминокислот. Молекулы ДНК обладают способностью соединять эти буквы в тексты. Тексты из аминокислот представляют собой химические формулы молекул белков, из которых и состоят живые организмы на Земле. Некоторые кодоны кодируют одни и те же аминокислоты, а некоторые их не кодируют вовсе. Такой код в теории информации называют каскадным и вырожденным. Смысл такого кодирования состоит в том, что он позволяет исправлять ошибки в генетических текстах.
Пары букв (А – Т) и (Г – Ц) связываются химическими связями внутри пар. В результате этого свойства образуются знаменитые двойные спирали ДНК – геном организма. Биологическая эволюция есть размножение и постепенная модификация текстов описанного кода. Размножение генетических текстов производится очень сложными и тонкими молекулярными «типографиями». Сначала расщепляется двойная спираль ДНК и с каждой половинки делается «оттиск» в виде другой, столь же сложной молекулы РНК. В этой молекуле в алфавите (А,Г,Т,Ц) буква Ц заменяется на У (урацил). В результате этого молекулы РНК уже не образуют двойную спираль, но позволяют молекулярным «печатным» машинам восстанавливать куски исходного текста – гены, отвечающие за синтез белков. Молекулы белков собираются (синтезируются) из отдельных букв – аминокислот, поступающих из окружающей среды. Молекулы белков имеют сложные вторичные и третичные пространственные конфигурации, устроенные таким хитрым способом, что они собираются в клетки живых организмов. В свою очередь клетки устроены так, что их многократное деление приводит к развитию в Пространстве × Времени всех живых организмов на Земле. Это означает, что в молекуле ДНК закодирована в сжатом виде вся информация о будущем живом объекте. Биологическая эволюция является, таким образом, информационным процессом.
Опытные данные свидетельствуют, что сначала образовались сравнительно просто устроенные организмы, а затем они превращались во все более сложные и, в конце концов, в разумные. Механизм этого усложнения сегодня представляется как процесс естественного отбора вариаций генетических текстов, возникающих в результате ошибок их «перепечатки» (мутаций). Организмы с очень малыми отличиями генетических текстов столь же мало отличаются друг от друга и биологически. Сообщества таких организмов образуют виды (species). Отбираются те вариации, которые оказываются полезными для выживания и размножения в изменяющихся условиях внешней среды. Близкие виды образуют роды, роды – семейства, семейства – отряды, отряды – классы, классы – типы и т.д. Биологическая наука построила такую иерархическую классификацию живого мира с учетом общности происхождения видов от общих предков.
Сложность живого организма, как показывают исследования, прямо связана с длиной его генома. Простейшие организмы – вирусы, имеют длины геномов порядка десятков тысяч (вирус полиомиелита – 7200, коронавирус COVID-19 – более 29 тысяч). Для сравнения, геном человека содержит около 3 млрд. пар букв (А – Т) и (Г – Ц). Биологическая эволюция развивается, в целом, от простого к сложному. Имеющиеся исключения (например, многие паразиты претерпели обратную эволюцию от сложно устроенного предка к примитивному организму) лишь подтверждают правило. Этим биологическая эволюция принципиально отличается от эволюции геологической. Предоставленный самому себе неживой объект деградирует на отдельные и все более простые части. Этот процесс происходит в полном соответствии с одним из фундаментальных постулатов физической науки – Второму началу термодинамики. Этот постулат утверждает, что в замкнутой физической системе упорядоченность ее элементов, т.е. усложнение ее структуры, не может возрастать. А возрастать может лишь особая термодинамическая величина, названная физиком Р. Клаузиусом энтропией. Еще в XIX веке физики поняли, что ее смысл – это мера хаоса, беспорядка, неопределенности.
Можно ли считать биологическую эволюцию нарушением этого принципа? Для отдельного живого организма это, очевидно, не так – для него со временем все возвращается на «круги своя». Но касается ли это всего феномена живого? И касается ли это всей Вселенной как целого? Ведь описанная в начале повествования картина ее эволюции скорее подобна эволюции биологической. Наука пока не отвечает достаточно обоснованно на эти вопросы. Трудности, которые возникают на этом пути, начинаются уже с определения, а что же такое простота и что же такое сложность. То, что человек устроен сложнее вируса, кажется очевидным. Но когда-то очевидным казалось, что Земля плоская, а галилеевский закон сложения скоростей верен. Сегодня же очевидно, что это не так. Также не прост и вопрос: что такое сложность? Выдающийся физик И. Пригожин так и назвал свой итоговый труд – «Познание сложного».
Самый надежный путь понять какое то явление – это его измерить. В 60 – 70-е годы XX-го века в трудах математиков А.Н. Колмогорова, Р. Соломонова, Г. Чайтина и других, был предложен способ измерения понятия сложность для специфического множества объектов. Это множество конечных последовательностей букв произвольного конечного алфавита. Примерами служат тексты на естественных языках, телеграфные сообщения и т.п. К этому множеству относятся и геномы живых организмов на Земле. Более того, любая формальная математическая модель какого-либо объекта может быть сведена к таким последовательностям (формулам). Колмогоровская сложность последовательности, принадлежащей указанному множеству, упрощенно может быть определена, как длина генерирующей ее программы, выполняемой на абстрактной вычислительной машине (например, на так называемой машине Тьюринга). Смысл этого определения состоит в том, что если последовательность имеет регулярные свойства, (например, серии одинаковых букв), то ее можно заменить на более короткую последовательность (программу). Иначе говоря, простую последовательность можно сжать до значительно более короткой, а сложную либо вовсе нельзя сжать, либо можно сжать очень незначительно. Колмогоровская сложность есть, таким образом, количественная характеристика и сравнение объектов по сложности превращается в арифметическое действие. К сожалению, колмогоровская сложность оказалась невычислимой функцией (есть в математике и такие). Но тут снова в деле появляется энтропия, но уже не термодинамическая, а информационная. Ее ввел в теорию информации К. Шеннон и ее часто называют шенноновской. Она является мерой хаоса в тех самых последовательностях букв, с которыми и связана колмогоровская сложность. Интуитивно понятно, что чем хаотичней последовательность, тем выше ее колмогоровская сложность. Более точно эта связь формулируется следующим образом: «нормализованная колмогоровская сложность последовательности с ростом ее длины стремится к ее энтропии». Шенноновская энтропия последовательностей вычисляется по довольно простой формуле, что позволяет оценить и их колмогоровскую сложность.
Шенноновская энтропия возникла в теории информации в связи с экономным, т.е. наиболее коротким кодированием сообщений. Выяснилось, что наиболее экономными являются способы кодирования, доставляющие сообщениям максимальную энтропию. Их нельзя сжать, т.е. они наиболее сложны по Колмогорову. Но тогда оказывается, что тексты на естественных языках гораздо проще, чем телеграфные их эквиваленты. Дело в том, что наличие по законам грамматики внутреннего порядка в этих текстах очевидно. Часто встречаются устойчивые буквосочетания, связки слов и т. п. Компьютерные программы эффективно сжимают файлы этих текстов. Еще в 50-е годы XX века были проведены измерения так называемой избыточности письменной формы некоторых языков. Нулевая избыточность означает, что текст нельзя сжать, т. е. он наиболее сложен по Колмогорову. И одновременно это означает, что его энтропия максимальна, т. е. он совершенно хаотичен и не несет никакого смысла. В то же время полные смысла великие тексты стремятся к некому пределу минимума энтропии. Этому пределу соответствует избыточность в 100%. Избыточность текстов естественных языков дают значения, значительно превышающие 50 и даже 70 процентов. Это означает, что они имеют низкую энтропию и нормализованную колмогоровскую сложность. Минимальными единицами языка, обладающими смыслом, являются предложения. Грамматика языка дополнительно упорядочивает их структуру, а порядок снижает энтропию. Можно сказать, что производство смысла и снижение энтропии – это взаимосвязанные явления.
Получается, что колмогоровская сложность противоположна интуитивно понимаемой нами сложности. И это далеко не единственный пример парадоксов сложности.
Естественные языки эволюционируют со временем. Является ли это эволюцией от простого к сложному? Одним из способов развития языка являются заимствования слов из чужих языков. При этом в язык вносятся дополнительные комбинации букв, не характерные для него. Например, заимствованные в русский язык английские джаз, джоуль, джинсы и т.д., создали дополнительные комбинации сочетаний букв дж. Очевидно, что это повысило его избыточность, и, следовательно, понизило его энтропию. В данном случае эволюция также идет с нарушением Второго начала. Можно ли это считать общей закономерностью?
Как обнаружили генетики, все, что здесь было сказано о естественных языках, переносится и на генетические тексты. Предложения в них – это гены. Смысл, заложенный в отдельном гене, это директива на производство определенного вида белка. Законченный генетический текст (геном) – это директива на производство определенного вида организма. Существует и своеобразная генетическая грамматика, регулирующая структуру предложений-генов. Генетиками выявлено, что только 1,5 – 3% генома высших животных принимают участие в передаче генетической информации (кодируют белки и другие необходимые для «развертывая» организма–потомка вещества). Остальная часть генома выполняет регуляторные функции в самом процессе передачи информации либо вообще не влияет на наследственность (так называемая, мусорная ДНК). И тогда снова оказывается, что геномы сложных организмов более просты, чем геномы организмов примитивных!
Для сохранения интуитивного представления о сложности организмов генетиками изобретена эволюционная энтропия генома. Она вычисляется путем вычленения только функциональных участков ДНК. Определенная через эволюционную энтропию биологическая сложность организмов действительно возрастает в процессе эволюции. При этом оказывается, что нормализованная на длину генома сложность, т.е. плотность хранимой в геноме информации, наоборот, падает в процессе эволюции. Также выясняется, что количество генов у низших животных (типа мухи дрозофилы) не намного меньше, чем у человека. Наоборот, у многих близких видов размеры генома отличаются в сотни раз. Эти выводы в генетике получили название парадокса сложности или С-парадокса.
А теперь зададимся вопросом: что сложнее – солнечная система или газопылевое облако, из которого она образовалась? Если газопылевое облако предоставить «самому себе», т.е. удалить на достаточное расстояние от других объектов, то оно начнет эволюционировать под воздействием внутренних сил гравитации. При достаточной массе в его центре возгорится звезда, а прочий периферийный материал образует некоторое количество планет и более мелких объектов. Для описания движения газопылевого облака в классической физике необходимо выписать невообразимо большое количество уравнений Эйлера – Гамильтона для каждой пылинки/молекулы плюс задать еще большее количество начальных условий. Описание же системы звезда – планета даже в общей теории относительности требует вполне обозримых средств и даже допускает аналитические решения. Снова парадоксальный вывод – колмогоровская сложность описания газопылевого облака выше, чем солнечной системы. С позиции статистической физики газопылевое облако находится гораздо ближе к термодинамическому равновесию, чем солнечная система (это следует уже из того, что Солнце испускает мощное излучение). Это означает, что термодинамическая энтропия газопылевого облака выше, чем солнечной системы. Удивительным образом совершенно разные виды эволюции оказываются связанными понятием энтропии. Противоречие эволюции газопылевого облака Второму началу термодинамики в принципе можно объяснить учетом излучения энергии звездой и другими телами в окружающее пространство. В конце – концов, это приводит к их деградации в будущем. Но этот ход мысли неприменим к Вселенной в целом! Чтобы объяснить видимое невооруженным глазом противоречие современной структуры Вселенной с постулатом Второго начала термодинамики предлагаются весьма экзотические космологические модели открытой Вселенной. В этих моделях полная энтропия нашей Вселенной убывает в результате взаимодействия с другими Вселенными (например, через черные дыры). При этом сама наша Вселенная является черной дырой для «вышестоящей» Вселенной. Менее экстравагантные идеи связывают нарушение Второго начала с гравитационным взаимодействием в трактовке общей теории относительности. Для снижения энтропии требуется приток энергии. Последнее время много говорят о разлитой по всей Вселенной некой темной энергии. Эта энергия заставляет Вселенную не только расширяться, но расширяться с ускорением. Возможно, что темная энергия и питает эволюцию, как процесс со снижением энтропии. Все такого рода идеи нуждаются в некоторых постулатах, которые отнюдь не очевидней, чем постулат о естественном убывании энтропии в ходе эволюции Вселенной. К каким выводам приводит принятие этого постулата?
Первое начало Эволюции: естественная эволюция систем развивается с уменьшением их энтропии.
Второе начало Эволюции: эволюция систем с ростом их энтропии возможна лишь в ограниченных участках Вселенной и компенсируется естественной эволюцией всей Вселенной.
Третье начало Эволюции: наличие естественных условий уменьшения энтропии в ограниченных участках Вселенной с высокой вероятностью приводит к появлению высших форм организации материи.
Из этих постулатов следует, что колмогоровская (информационная, алгоритмическая) сложность убывает в ходе естественной эволюции и тем самым она находится в обратном отношении с интуитивным представлением о сложности.
Появление жизни на Земле в соответствии с Третьим началом подтверждается некоторыми физическими моделями системы звезда – планета. Эта система открыта в представлении классической физики и противоречия со Вторым началом термодинамики не возникает. Но в этих моделях выявляются механизмы «сброса» планетой энтропии в окружающее пространство за счет переизлучения энергии, поступающей от звезды. В этой системе звезда выступает в роли нагревателя, а космос с близкой к абсолютному нулю температурой, в роли холодильника.
Высшие формы организации материи на Земле – это жизнь. Переход от геологической фазы эволюции к биологической произошел несколько миллиардов лет назад. Сегодня можно воочию зреть ее результаты. Многое открыто и в истории этой фазы. Геномы видов можно рассматривать, как сообщения с пониженной энтропией. Как известно из теории информации, смысл сообщения (взаимная информация) возникает именно за счет снижения энтропии источника сообщений. Естественный отбор – это межвидовая борьба (конкуренция) за ресурсы понижения энтропии – пищу, солнечный свет и т.п.
Чисто биологическая фаза перешла однажды в фазу социальную. Эволюция в этой фазе – это внутривидовая борьба за те же ресурсы. Переход в эту фазу, по-видимому, связан с тем, что один из видов (homo sapience, естественно) достиг некоторой точки «фазового перехода», которая и была целью биологической Эволюции. Социальная эволюция также имела разные «внутренние» фазы. У нее есть свои наборы «социальных геномов» – сословия, племена, народы, нации, цивилизации. Социальные геномы состоят из генов культуры. Культура, как система ограничений, упорядочивает социальную структуру, т.е. снижает ее энтропию. Как и в биологической фазе, есть близкие и комплементарные геномы (симбиозы), но более всего – конкурентные и антагонистические. Судя по всему, здесь также действует Естественный отбор. Его целью должна быть некая единая цивилизация. Это следует из того, что энтропия есть мера упорядоченности системы и нетрудно показать, что унификация снижает энтропию. Вопрос состоит лишь в том, какими путями будет достигнута цель!
Сценарий первый (оптимистический, фантастический).
Человечество вырабатывает единый цивилизационный геном в результате длительных и упорных совместных усилий. Реализуемость этого сценария сопоставима с выработкой отрядами травоядных и хищников нового биологического вида, питающегося солнечным светом. Крах политики мультикультурализма в разных частях мира экспериментально подтверждает скепсис относительно реализуемости этого сценария. Гены, в том числе культурные, сами по себе есть продукты с пониженной энтропией. Они вырабатываются в условиях естественного отбора, занимая энтропийные ямы-ниши в определенных природных условиях. Их универсализация в условиях различия природных и социальных условий не приводит к снижению энтропии.
Сценарий второй (пессимистический, реалистический).
Одна цивилизация элиминирует прочие всеми доступными средствами. В качестве промежуточных фаз образуются системы с несколькими цивилизациями, «всасывающими» в себя близкие друг к другу цивилизационные геномы. Снижение энтропии на этих этапах достигается за счет универсализации «мягких» культурных генов (язык, календарь и т.п.) либо жесткой ассимиляции, вплоть до прямого геноцида. Конечная же цель достигается настоящими Мировыми Войнами в духе «Столкновения цивилизаций» Самюэля Хантингтона.
Сценарий третий (нейтральный, футуристический).
Социальная Эволюция, как вершина биологической фазы, переходит в следующую фазу – кибернетическую (можно изобрести и более удачное название). Успехи генной инженерии достигают столь высоких показателей, что возникает возможность управляемой эволюции живых организмов. К чему можно прийти в этой фазе – тут фантазия пока не знает пределов. А вот подробности всего того, что тут понаписано, в последующих главах.
ГЛАВА 1. Что такое жизнь с точки зрения информатики
В 1945 году один из отцов-основателей современной физики Э. Шредингер публикует работу «Что такое жизнь с точки зрения физики?» [1]. В ней он обращает внимание на то, что существование «живой материи» находится в явном противоречии с одним из основных принципов физики – Вторым Началом термодинамики, иначе называемым Законом возрастания энтропии. Этот принцип постулирует невозможность длительного самопроизвольного движения материи без возрастания особой физической величины – энтропии. Понятие энтропии возникло в физике в середине XIX века. Обобщая исследования по термодинамике, Р. Клаузиус ввел отношение количества теплоты Q, передаваемое или принимаемое телом, имеющим температуру T, как новую величину, которую в 1865 году предложил назвать энтропией S
S = Q/T.
Из, казалось бы, очевидного факта, что тепло всегда перетекает от более горячего тела к более холодному, следовало, что приращение энтропии ΔS в замкнутой физической системе может только возрастать
ΔS(t+) ≥ 0. (1)
Фундаментальные законы физики инвариантны относительно изменения знака времени, что исключает логический вывод из них соотношения (1). Тем не менее, неоднократно предпринимались попытки сделать это, привлекая понятие вероятности. Наиболее строго это проделал Л. Больцман, предложивший формулу, связывающую энтропию со случайностью движения материи на уровне микромира
S = k logW. (2)
В этой формуле W обозначает число всевозможных значений энергии, которые могут принимать элементарные частицы, образующие тело. Коэффициент k, который со временем получил название константа Больцмана, является одной из фундаментальных постоянных современной физики. Независимо от Больцмана, Дж. Гиббс, развивавший последовательный статистический подход к описанию движения микрочастиц, вывел более общее соотношение для энтропии
S = k H,
где функция H напрямую зависит от распределения вероятностей pi энергетических уровней частиц
H = – Σ pi log pi. (3)
Определенную таким образом энтропию называют энтропией Гиббса. Если в (3) положить, что все вероятности pi равны между собой, то получится выражение для энтропии Больцмана (2).
Уже в XX веке, после долгой полемики, в которой приняли активное участие такие величины, как А. Эйнштейн и Н. Бор, физики пришли к выводу, что случайность носит в природе неустранимый, более того, фундаментальный характер. Вероятностная трактовка энтропии получила глубокое обоснование. Однако Второе Начало не стало от этого Законом. Все попытки доказать его содержали логические, иногда очень тонкие, погрешности (в отличие от Первого Начала, оказавшегося, в конце концов, просто Законом сохранения энергии). Поэтому энтропия по-прежнему остается довольно загадочным понятием физики. Тем более, когда она проникает в столь же загадочное явление как жизнь.
Книга Э. Шредингера заканчивается таким пассажем:
«Физикой управляют статистические законы. В биологии мы встречаемся с совершенно иным положением. Единичная группа атомов, существующая только в одном экземпляре, производит закономерные явления, чудесно настроенные одно в отношении другого и в отношении внешней среды, согласно чрезвычайно тонким законам».
«Единичная группа атомов», о которой идет речь, это молекула дезоксирибонуклеииновой кислоты (ДНК). Это открытое в 1869 году вещество к 1944 году было надежно определено как носитель наследуемых свойств живых организмов. Особенно поразительным было осознание того, что эта молекула есть некий код, в котором записана вся информация о живом организме. Более того, это не просто код, а программа развития зародыша организма в полноценную форму. Вот как об этом написано у Шредингера:
«Но термин шифровальный код, конечно, слишком узок. Хромосомные структуры служат в то же время и инструментом, осуществляющим развитие, которое они же предвещают. Они являются и кодексом законов и исполнительной властью или, употребляя другое сравнение, они являются и планом архитектора и силами строителя в одно и то же время».
Помещенный в соответствующую «вычислительную» среду единственный экземпляр ДНК запускает невероятный с точки зрения статистической физики динамический процесс, нарушающий Второе Начало. Для этого достаточно, чтобы в среде поддерживались определенные физические условия (температура, давление, поток света и т. п.) и содержались достаточно простые компоненты.
Книга Э. Шредингера всего на три года опередила новое революционное событие в науке, связанное с понятием энтропии. В 1948 году американский математик К. Шеннон, исследуя передачи сообщений в больших системах связи, пришел к формуле (3) как меры неопределенности состояний таких систем. Это было предопределено аналогией случайного поведения сообщений и микрочастиц. Знакомство Шеннона с корифеем науки XX века Дж. фон Нейманом имело следующие последствия:
«Больше всего меня беспокоило, как это назвать. Я думал назвать это "информацией", но это слово использовалось слишком часто, поэтому я решил назвать это ‘неопределенностью’. Когда я обсуждал это с Джоном фон Нейманом, у него появилась идея получше. Фон Нейман сказал мне: "Вы должны называть это энтропией по двум причинам: во-первых, ваша функция неопределенности использовалась в статистической механике под этим названием, так что у нее уже есть название. Во-вторых, и это более важно, никто не знает, что такое энтропия на самом деле, поэтому в дебатах у вас всегда будет преимущество»».
На идеях К. Шеннона, Р. Хэмминга и других исследователей быстро развилась новая отрасль науки – теория информации. Она базируется на следующих постулатах:
–1) существует множество X элементов, называемых сообщениями;
–2) существует множество A, называемое алфавитом, элементы которого называются символами;
–3) существуют объекты, называемые передатчик, приемник и канал передачи сообщений;
–4) сообщения передаются от передатчика к приемнику по каналу передачи в виде конечных упорядоченных множеств символов;
–5) в силу неустранимой случайности состояний канала передачи, передаваемые сообщения множества X преобразуются им в принятые сообщения множества Y, включающего X;
–6) количество информации1 I(x;y), доставляемое принятым сообщением y при передаче сообщения x, есть
где P(x) – априорное, а P(x|y) – апостериорное распределение вероятностей сообщений x после приема сообщения y. Назовем эти постулаты Системой Символьной Передачи Сообщений (ССПС).
Интегральная характеристика всей системы передачи – это среднее количество взаимной информации I(X;Y) между множествами X и Y. Прямое вычисление по формулам теории вероятности дает
I (X ; Y) = H(X) – H(X | Y),
где H(X), H(X | Y) – априорная и апостериорная энтропия распределений вероятностей множества X, преобразуемого каналом в множество Y [2]. Эта формула определяет глубинный смысл информации, как меры снижения энтропии.
В том же 1948 году математик Н. Винер опубликовал книгу «Кибернетика, или Управление и связь в животном и машине». Эта работа открыла целое направление моделирования «живого» техническими средствами. Дж. фон Нейман формулирует концепцию самовоспроизводящихся машин. В ней он приходит к выводу, что их конструкция требует наличия памяти и канала передачи наследственной информации. Он же формулирует принципы построения вычислительных машин «фон-Неймановского» типа, которые до сих пор доминируют в компьютерном мире. Их особенностью является наличие памяти, хранящейся в ней программы и обрабатывающего ее инструкции процессора. Несколько позже Ф. Розенблатт создает персептрон – альтернативу фон-Неймановским компьютерам. Персептрон непосредственно моделировал процессы распознавания образов в животном мире. Алгоритм работы персептрона задавался не в виде текста на неком языке программирования, а в виде структуры связей между его элементами. Важным его отличием от машин фон-Неймана является наличие процедуры обучения в процессе работы. Сегодня «машины Розенблатта» превратились в нейронные сети, а распознавание образов в искусственный интеллект.
Синтез этих новых направлений привел к формированию обширной области современной науки – информатики. Новое великое открытие XX века – расшифровка в 1953 году Ф. Криком и Дж. Уотсоном структуры молекулы ДНК, стимулировало бурное проникновение ее в генетику. Выяснилось, что эта молекула действительно представляет собой закодированный текст. Алфавитом этого текста служат четыре вида химических соединений – нуклеотидов. Их обозначают буквами А (аденин), Г (гуанин), Т (тимин) и Ц (цитозин). Текст линеен, т. е. представляет собой полимерные цепи, состоящие из названных нуклеотидов. Но его общая структура гораздо сложнее, чем просто последовательность букв (А, Г, Т, Ц). У сложных организмов, состоящих из клеток, имеющих ядро (эукариот), цепи двойные. Буквы одной цепи соединены с буквами другой по принципу комплементарности: аденин соединяется только с тимином, а гуанин только с цитозином. Химические свойства нуклеотидов таковы, что цепи закручиваются в знаменитую «двойную спираль», которую математически корректно было бы называть «двойным винтом». Еще нагляднее модель закручивающейся веревочной лестницы. Аналогия с веревочной лестницей возникает потому, что молекула ДНК способна, сохраняя кручение, сворачиваться в клубок и вообще образовывать сложные вторичные формы. Ее текст может разбиваться на отдельные «главы», называемые хромосомами. Например, ДНК человека образует структуру из 23 отдельных частей, каждая из которых состоит из пары хромосом (рис. 1).
Рис. 1. 23 пары хромосом человека, пара X/Y определяет мужской пол
Хромосомы в парах содержат, как норму, один и тот же «по смыслу» текст. Их поэтому называют гомологичными. Как и положено осмысленному тексту, текст ДНК состоит из «предложений», получивших название генов. При передаче наследственной информации между поколениями живых организмов именно гены являются минимальными неделимыми смысловыми единицами. Заложенный в них смысл – это программа синтеза белков. «Жизнь есть способ существования белковых тел…» – Ф. Энгельс. Уже во времена этого классика было известно, что основным материалом живого служат химические соединения, по-русски названные белки, а по-научному – полипепти́ды. Их формулы представляют собой линейные полимерные цепи, составленные из 20 видов химически модифицированных молекул из класса аминокислот. Иначе говоря, это тоже тексты, но написанные алфавитом из 20 букв. Помимо основных полимерных связей между соседними звеньями цепи, в молекулах белков образуются дополнительные связи между разными их участками. В результате молекулы белков образуют весьма сложные пространственные вторичные, третичные и даже четвертичные структуры. На рис. 2 показана такая структура белка аспартатаминотрансфераза (АСТ), первого белка, текст которого был установлен в полном объеме в 1972 году.
Рис. 2. Молекула белка аспартатаминотрансфераза (АСТ)
Эти свойства белков позволили им образовать следующий по уровню сложности элемент жизни – клетку. Клетка является уже не просто белковой структурой, а процессором, способным выполнять записанные в генетических текстах программы. В клетках высших форм жизни (эукариот) важнейшей операцией является исполнение алгоритма деления (митоз). В процессе исполнения этого алгоритма происходит копирование генетических текстов путем удвоения хромосом и образование пары генетически эквивалентных клеток. Взаимодействие между клетками приводит к их дифференциации и образованию все более сложных структур – органов. Многократное повторение митоза приводит, в конечном счете, к образованию полноценных особей различных видов эукариот. Можно сказать, что человек – это некая n-ричная белковая структура. Компактные образования внутри клетки (органеллы) по-сути являются блоками молекулярного компьютера. Ядро и ядрышко это хранилище самой ДНК («накопитель» генетической памяти). Для достижения клеткой состояния, способного к митозу, она непрерывно производит весь необходимый для поддержания ее статуса живого объекта комплекс белков – рис. 3.
Рис. 3
Каждый ген отвечает за производство определенного белка, в некоторых случаях – нескольких белков. Для разделения текста ДНК на предложения-гены в нем существуют специально закодированные знаки – «генетические точки». Производство белка начинается с процесса, называемого транскрипцией. В транскрипции участвует только одна из ветвей ДНК, которая определяется по наличию определенного маркера-стартера начала текста. Суть этого процесса состоит в отображении предложений языка ДНК на язык другого носителя генетической информации – матричных рибонуклеиновых кислот (мРНК). Также этот носитель называют информационной РНК (иРНК). Термин транскрипция здесь отражает аналогию по переписыванию текста, например, английского, в алфавит звуков речи (фонем). При этом могут выбрасываться (сплайсинг) и трансформироваться куски текста ДНК (сравните английские daughter и [do:te]). Для определения направления чтения текста мРНК на его краях образуются специальные маркеры «начало» и «конец». Оформленный таким образом текст затем транслируется в молекулы одного или нескольких белков. Термином трансляция в информатике принято называть перевод с одного языка на другой. В данном случае производится перевод предложений языка мРНК на язык белков.
Предложения языка мРНК обладают некоторой «грамматикой». Во-первых, имеются химические знаки «начало» и «конец», которые не определяют формулу белка, а лишь управляют процессом трансляции (они получили названия «5’-кэп» и «3’-кэп»). Эту же роль играют примыкающие к ним не транслируемые области (НТО). Собственно формулу белка определяет кодирующая последовательность – рис. 4.
Рис. 4. Грамматика предложений мРНК.
Алфавит и, соответственно, текст кодирующей последовательность мРНК наследуется от ДНК заменой одной буквы (тимин (Т) на урацил (У)). Иначе говоря, это четверка букв-нуклеотидов (А, Г, У, Ц) или в латинском алфавите (A, G, U, C). Алфавит языка белков содержит двадцать букв, химически представляющих собой остатки α-L-аминокислот. Вопрос «как кодирующие последовательности мРНК из четырех нуклеотидов хранят информацию о последовательностях белковых молекул из двадцати аминокислотных остатков» занимал умы многих выдающихся ученых в 50-е годы. Среди них физики Г. Гамов и Р. Фейнман, биохимики Ф. Крик и Дж. Уотсон и многие другие. Были предложены различные виды генетического кода, основанные на чисто информационных подходах. В теории информации к тому времени уже были решены многие задачи оптимального кодирования сообщений. Казалось, что генетический код может иметь отношение к одному из таких решений. Наиболее компактный код при кодировании сообщений относится к классу «кодов без запятой», т. е. в алфавите нет выделенного знака, разделяющего отдельные смысловые единицы («слова»). В современной письменности естественных языков таковыми служат «пробел», «запятая» или другие знаки препинания. Если полагать, что «запятые» проставляются безошибочно, то выделение отдельных слов – тривиальная задача. Но, например, в новгородских берестяных грамотах разделители почти не вписывались в текст, и эта задача становилась иногда весьма трудной, а при определенном контексте, однозначно неразрешимой. Коды без запятой, обладающие свойством однозначного решения такой задачи называются префиксными. Информатиками еще в начале 60-ых годов XX-го века найдены оптимальные (имеющие статистически минимальную длину сообщений) способы построения кодов без запятой (код Фано, код Хаффмена). Одна из гипотез относительно генетического кода, выдвинутая Ф. Криком, базировалась именно на этих идеях. В коде без запятой слова имеют разную длину, но любая их комбинация, даже записанная подряд без разделителей, может быть декодирована, т. е. разделена на слова, единственным образом. Эта идея казалась весьма продуктивной, а при некоторых предположениях даже объясняла возникновение сакрального числа 20 аминокислот. Но в итоге оказалась неверной.
Простой способ построить однозначно декодируемый код без запятой – сделать все его слова одной длины. Такие коды называются блочными. По этому пути пошел Г. Гамов, предложивший первый вариант генетического кода в 1954 году. Для кодирования 20 букв-аминокислот в четырехбуквенном алфавите минимальная необходимая длина слов равна трем (42<20< 43). Примечательно, что при определенных допущениях код Гамова также давал объяснение загадочному числу 20. Более того, в части идеи трехбуквенного кодирования без запятой он оказался правильным. Однако в прочих деталях эта гипотеза, как и все другие, оказались неверны. Природа перехитрила целую группу выдающихся умов, применив, на первый взгляд, совсем не оптимальное решение. Это выявилось путем прямых физико-химических расшифровок формул аминокислот и белков.
Трехбуквенный блочный код для двадцати аминокислот сильно избыточен: 20<<43=64. Однако избыточность кода, как и избыточность вообще, дает возможность борьбы с ошибками в работе любых систем. В теории информации построение корректирующих кодов, позволяющих путем математических процедур выявлять и автоматически исправлять такие ошибки, является одной из основных задач. Не является ли и здесь избыточность следствием решения природой этой задачи? В таблице 1 приведен реальный генетический код. Трехбуквенные слова кода из алфавита (A, G, U, C) называют кодонами. Из 64 кодонов 61 используется для кодирования 20-ти аминокислот, а три выполняют функции точки в конце генов (стоп-кодоны). Один из кодирующих кодонов, а именно метионин (AUG), выполняет особую роль – все предложения языка белков начинаются с него. Поэтому его еще называют стартовым кодоном, хотя он может появляться и внутри предложений. Код действительно избыточен – почти все аминокислоты имеют несколько вариантов кодирования. Однако легко заметить, что в ряде случаев действует следующее правило: «кодоны одной и той же аминокислоты отличаются только последней буквой».
В этих случаях ошибки в последних буквах кодонов корректируется системой передачи генетической информации на этапе ДНК → белки. Например, любые замены последних букв у кодонов валина, пропина, треонина, аланина и глицина не отражаются на синтезированных клеткой белках. То же можно сказать о четырех из шести кодонах серина и аргинина (стоит отметить, что указанные замены в оставшихся кодонах переводят эти аминокислоты друг в друга). Как физически происходит коррекция ошибок.
Во-первых, в клетках действует защитный механизм, который носит название репарации (от англ. repair – ремонт, починка). Специальные белки, также закодированные в ДНК, способны распознавать нарушения химической структуры отдельных нуклеотидов и либо восстанавливать ее, либо удалять «испорченную букву» с последующей достройкой ее в тексте по принципу комплементарности. Другие специальные белки сшивают разрезанные, например радиацией, цепи ДНК. Двойная цепь ДНК – это код с повторением с точки зрения теории информации. Его избыточность здесь используется для поддержания правильности генетического текста в ядре-накопителе клеточного компьютера. Но ошибки могут возникать и в каналах передачи информации, которые активно используются при построении белков.
Построение молекулы белка начинается с расплетения ветвей ДНК и выделения в одной из них «осмысленного» участка – гена. Это участки между старт- и стоп- кодонами включительно. К «обнаженному» участку ДНК подсоединяются нуклеотиды из алфавита мРНК по принципу комплементарности. После полной транскрипции гена молекула мРНК отделяется от ДНК. К ней для устойчивости подсоединяются «голова» и «хвост» (см. рис. 4) и грамматически законченная молекула выводится из ядра клетки в цитоплазму. Ее голова находит органеллу рибосому (см. рис. 3) и они соединяются в удивительный физико-химический механизм, который можно назвать декодером-транслятором. Молекула мРНК протаскивается через рибосому с шагами в три нуклеотида, т. е. в один кодон. На каждом шаге к выделенному кодону подсоединяется специальная молекула транспортной РНК (тРНК). Молекулы тРНК также вырабатываются на ДНК и выводятся в цитоплазму, состоящую в основном из бульона аминокислот. Каждая тРНК имеет в своем составе антикодон – кодон, комплементарный к выделенному на рибосоме. Каждый вид молекулы тРНК несет антикодон, соответствующий определенному виду аминокислоты и именно этот вид (буква из алфавита аминокислот) прикрепляется к определенному ее концу и транспортируется к рибосоме. При соединении антикодона с кодоном на рибосоме эта буква химически присоединяется к концу синтезируемой цепочки белка. Появление стоп-кодона высвобождает белковую цепь из рибосомы. Далее обычно происходят посттрансляционные химические реакции построенной цепи с другими белками-ферментами до полной готовности молекулы белка к выполнению своей функции в организме. Именно способность нескольких видов тРНК транспортировать одну и ту же аминокислоту исправляет ошибки кодирования в матрицах ДНК и мРНК.
Откуда в клетках берутся нуклеотиды и аминокислоты, т. е. буквы алфавитов генетических текстов? Нуклеотиды синтезируются непосредственно в клетках в процессе обмена веществ. То же относится и ко многим аминокислотам, но у высших животных некоторые из них не синтезируются самим организмом. Те из них, которые необходимы для построения белков, называют незаменимыми. Такие «буквы» должны поступать извне с пищей в готовом виде. Для человека таких аминокислот насчитывают восемь, причем некоторые из них не содержаться в растительном мире. Поэтому чистое вегетарианство в принципе невозможно. Индийские брамины обходят этот принцип, употребляя молочные продукты от священных коров.
Что если третья буква в кодонах возникла вследствие естественного отбора более устойчивой системы передачи информации? Эта мысль не однажды возникала у генетиков. В книге Е.В. Кунина [3] читаем:
«…современный универсальный генетический код гораздо более надежен, чем был бы случайный, по отношению к мутационным и, вероятно также, к трансляционным ошибкам. Эта устойчивость проявляется и в очевидной неслучайности структуры кода, выражающейся в первую очередь в том, что серия кодонов, которые отличаются только третьей позицией, кодирует либо одну и ту же, либо две подобные аминокислоты, и в других особенностях соответствия кодонов аминокислотам (Koonin and Novozhilov, 2009). Примечательно, что предполагаемый предковый «дублетный» код, в котором третья позиция не несла никакой информации, мог быть даже более надежным, чем современный (Novozhilov and Koonin, 2009)».
Почему этот отбор не привел к коду, исправляющему хотя бы все одиночные ошибки? Что это за «предполагаемый предковый «дублетный» код»? Что по этому поводу может сказать информатика?
Для блоковых кодов в теории кодирования существует понятие расстояние Хэмминга [4]. Для пары слов (α, β) расстояние Хэмминга d(α, β) равно числу несовпадений букв в одинаковых позициях. Для того чтобы в блоковом коде была возможность исправить любую одиночную ошибку необходимо и достаточно, чтобы для любой пары слов выполнялось d(α, β)>2. Для двухбуквенного кода это невозможно. Для трехбуквенного кода это влечет вывод: код может состоять только из q слов, где q – объем алфавита. Например, можно взять слова-серии {xxx}. В четырехбуквенном алфавите таких слов всего четыре. Слишком скудной была бы такая жизнь. Она была бы гораздо разнообразней с четырехбуквенными кодонами в том же алфавите, но с исправлением любых однократных ошибок в любом кодоне. Покажем, как можно было бы решить такую задачу.
Еще в середине прошлого века были открыты алгебраические коды над алфавитами, содержащими q = pm букв, где p – простое число. В нашем случае q = 4, p =m =2. Чтобы применить эти достижения информатики в нашем случае, достаточно приписать буквам алфавита (A, G, U, C) способность складываться и умножаться, какая присуща числам. Переобозначим их для удобства так: U≡0, C≡1, A≡a, G≡b (переобозначение может быть и любым другим). Введем таблицы сложения и умножения символов (0, 1, a, b)
Введением этих таблиц мы определили то, что в математике называется полем Галуа GF(22). Символы 0, 1 обозначают нуль и единицу этого поля. Из таблиц нетрудно увидеть, что они действительно ведут себя почти как обычные нуль и единица (только 1+1=0). Про символы a, b этого уже сказать нельзя. Например, для них
a+a=0, b+b=0, a+b=a – b=1, a2=b=a+1, b2=a=b+1, ab=1.
Несмотря на эти особенности, все основные соотношения алгебры в поле Галуа сохраняются. Можно определить код, как множество векторов x=[x1, x2, x3, x4], удовлетворяющих матричному уравнению
H· x = 0,
где H – матрица
Нетрудно найти, что все определители, составленные из пар столбцов этой матрицы не равны нулю в GF(4). Как доказано в теории алгебраического кодирования [4, с 48], это гарантирует, что для всех пар слов из {x} расстояние Хэмминга d >2. Это означает, что при любой одиночной замене букв в кодоне ошибка может быть исправлена по принципу максимального правдоподобия: «найдется только один правильный кодон, который можно получить одной обратной заменой». Более того, если произойдут две любые замены, то правильного кодона все равно не получится и ошибка будет обнаружена (H· x ≠0,). Правда, однозначно исправить ее по принципу максимального правдоподобия уже невозможно.
Полученный код имеет свойство: «в любых двух фиксированных позициях слова встречаются все возможные пары символов алфавита, которые однозначно определяют символы в другой паре». Это означает, что всего слов 16. В таблице 2 представлен гипотетический генетический код, первые две позиции букв в котором выбраны как в реальном коде таблицы 1 и сохранены те же его компоненты. Вместо третьей буквы кодонов в нем теперь стоит пара букв, обозначенная общим знаком #. Так как теперь слов только 16, а не 64, пяти аминокислотам не достается кодонов (написаны в таблице белым шрифтом).
Каков может быть механизм исправления ошибок? В принципе, он аналогичен уже существующему. В ДНК должны быть включены цепи продуцирования тРНК, антикодоны которых для каждого вида аминокислот комплементарны не только основному кодону, но и всем словам, получающимся из него однократными заменами букв. Нетрудно найти, что таких слов в данном коде 12. Они образуют алгебраический шар в поле GF(4) радиусом единица с центром в основном кодоне. Построенный код обладает свойством «все шары радиуса единица с центрами в кодовых словах не пересекаются». Именно это свойство и гарантирует исправление одиночных ошибок по принципу максимального правдоподобия. Реальный генетический код этим свойством не обладает и потому в нем невозможно исправить все такие ошибки. Если отказаться от исправления всех ошибок, то можно и в новом коде закодировать все те же аминокислоты, какие присутствуют в реальном коде и даже расширить этот список.
Описанный выше процесс синтеза белков на рибосоме «буква за буквой» в информатике называется последовательным каналом передачи информации. В таком канале, помимо замен, возможны (и реально происходят), выпадения и вставки букв. Такие ошибки более «опасны», так как они нарушают блоковый характер кода. В теории связи говорят о нарушении синхронизации, в генетике – о сбое «окна» считывания. Что происходит в результате передачи с такими ошибками? Если код не обнаруживает их, а код таблицы 1 именно так устроен, то в синтезированной последовательности наступят серьезные изменения. Весьма вероятно, что возникнет ошибочный стоп-кодон и получится «лишенный смысла» обрубок молекулы белка.
Код таблицы 2 обладает способностью не только обнаруживать, но и исправлять одиночные выпадения и вставки букв в кодонах. Покажем это на примере выпадения первой буквы в кодоне x=[x1, x2, x3, x4]. Положим, что за ним следует кодон y, первая буква которого есть y1. Кодон x превратится в z=[x2, x3, x4, y1]. В алгебре поля GF(22) матрицу H можно переписать в эквивалентной форме
В этой форме легко увидеть, что суммы элементов строк матрицы равны нулю. Более того, одна строка получается обратным прочтением другой (реверсом). В этом случае уравнение H· x = 0 оказывается уравнением не для четырех, а только для трех переменных
v1= x1 – x2, v2= x2 – x3, v3= x3 – x4.
Как показано в [5, 6], порождаемые такими матрицами коды способны исправлять,
помимо одиночных замен, одиночные выпадения и вставки букв. Рассмотрим совместно
уравнения H· x = 0 и H· z = 0, которые с помощью переменных vk можно записать в виде
v1 – b v2= 0
b v2 – v3 = 0.
v2 – b v3= 0
b v3 – ( x4 – y1) = 0.
Определитель системы из первых трех уравнений
D = b2 – 1 = b ≠ 0.
Неравенство определителя нулю показывает, что существует единственное совместное решение системы
v1= 0, v2= 0, v3= 0, y1= x4,
или в явном виде
x1 = x2 = x3 = x4 = y1.
Что означает это решение? То, что случившееся выпадение не будет обнаружено лишь тогда, когда кодон есть слово-серия и первая за ним буква следующего кодона продолжает серию. Например, это пара кодонов: UUUU UCGA. Такая ошибка просто «самоисправляется»! То же произойдет при выпадении любой из букв первого кодона! Но, ошибка проявится либо в следующем кодоне, либо в последующем, когда прервется серия. Можно ли исправить ошибки синхронизации, используя корректирующие свойства кода таблицы 2? Подобная задача возникла при коррекции орфографических ошибок в текстах естественных языков. В принципе она была решена еще в 70-80-е годы XX-го века [7-9]. К сожалению, естественные языки обладают слабыми корректирующими свойствами, хотя и значительной избыточностью (свыше 70-80% [2, с 236]). Поэтому современные машинные программы лишь проверяют орфографию по накопленной словарной базе. В языках, построенных на алгебраическом корректирующем коде, эта задача эффективно решается компьютером. Правда, алгоритм коррекции слишком сложен для реализации его молекулярными физико-химическими машинами. Можно, однако, просто отказаться от исправления выпадений и вставок. Процесс трансляции будет обрываться на поврежденных выпадениями и вставками кодонах, так как комплементарных антикодонов и стоп-кодонов для них просто нет. Незавершенные аминокислотные цепи неустойчивы и распадаются со временем (для предотвращения этого в клетке производится посттрансляционная обработка построенных на рибосомах цепей аминокислот). В таком случае ошибки синхронизации будут нейтрализованы на этапе трансляции (т. е. когда ДНК правильна, а транскрипция породила ошибочную мРНК).
Таким образом, реальный генетический механизм при сравнительно небольшой модификации мог бы обеспечивать адекватную ему жизнь. Возможна ли такая гипотетическая жизнь в реальности? Можно проверить экспериментально, если синтезировать соответствующие молекулы, реализующие описанный модифицированный механизм, методами генной инженерии. А может быть, сама эволюция дойдет до создания нового кода? Существует же гипотеза о неком предковом «дублетном» коде. В научных изданиях можно встретить такие аннотации:
«В этой статье мы предлагаем простую новую гипотезу эволюции кода, включающую переход от синглетных к дублетным и триплетным кодонам с механизмом считывания, который перемещает три основания на каждом шаге. Мы предполагаем, что триплетные кодоны постепенно эволюционировали из двух типов неоднозначных дублетных кодонов, тех, в которых считывались первые два основания каждого окна с тремя основаниями ("префиксные" кодоны) и тех, в которых считывались последние два основания каждого окна ("суффиксные" кодоны)».
Подобные гипотезы можно выдвинуть и применительно к коду таблицы 2. Нетрудно видеть, что в нем две первые буквы образуют безызбыточный дублетный код. Подобие триплетного кода можно образовать из него, допустив перекрытие 4-кодонов: последнее основание предыдущего кодона является первым для последующего. Это вызывает корреляцию двух соседних аминокислот белков, но при этом можно сохранить корректирующие свойства кода и укоротить геном на четверть.
У низших форм жизни (бактерии, вирусы) размножение особей практически сводится к копированию генетических текстов. Сегодня почти общепринято, что генетический код эукариот возник в результате длительной эволюции простейших РНК молекул рибозим и, до появления современной ДНК-версии жизни, существовала РНК-версия. От нее остались РНК-вирусы и некоторые бактерии, генетический код которых построен на молекулах РНК, а не ДНК. Эти организмы находятся на грани живого и неживого. Они способны к размножению путем прямого создания своих копий (репликации). Это позволило британскому биологу Р. Докинзу сделать изящную попытку обойти вопрос о границе между живым и не живым и тем самым объяснить происхождение жизни как непрерывный и естественный процесс. В книге [10] он формулирует ее так:
«…В какой-то момент случайно образовалась замечательная молекула. Мы назовем ее репликатором. Это не обязательно была самая большая или самая сложная из всех существовавших тогда молекул, но она обладала необыкновенным свойством – способностью создавать копии самой себя».
«…прийти к определению того, что следует считать живым, удивительно просто: любой стабильный во времени репликатор является формой жизни».
«… история молекул-репликаторов, возможно, протекала примерно так, как я это описываю, независимо от того, будем ли мы называть их “живыми”. Причина извечных мучений человечества заключается в неспособности слишком многих из нас понять, что слова – это лишь орудия, существующие для того, чтобы ими пользоваться, и что если в словаре имеется такое слово, как “живой”, то из этого вовсе не следует, что оно обозначает нечто определенное».
Здесь все логически непротиворечиво (особенно с позиций диалектического материализма), с чем вынуждены соглашаться и многие критики. Но большинство ученых не готово отказаться от рассмотрения вопроса о границе между живым и не живым. В книге В.Е. Кунина [3] предлагается такое уточнение:
«Это отличает биологические репликаторы с их «неограниченной наследуемостью» от репликаторов с «ограниченной наследуемостью», таких как кристаллы или ряд химических циклов, которые реплицируются, но не передают накопленные дефекты последующим поколениям. Упрощенно говоря, разница в том, что в нуклеиновых кислотах замена одного нуклеотида на другой влияет только на передаваемую информацию, а не на физические или химические свойства носителя информации (во всяком случае, не значительно), как в случае небиологических систем».
Определенная таким образом граница все еще весьма расплывчата. При «размножении» кристаллов дислокации в них (аналог генетических мутаций) все-таки наследуются!? Следует ли считать самовоспроизводящиеся машины живыми, если в их программы будут проникать «мутации» из-за ограниченной надежности их носителя? А вот отмеченное абстрагирование передаваемой информации от ее материального носителя, представляется ключевым. По отношению энтропии это можно выразить таким образом: термодинамическая энтропия переходит в энтропию информационную. Напрашивается еще одно уточнение:
«живые существа суть природные репликаторы, самовопроизводящие себя посредством символьной системы передачи сообщений».
В чем суть такого уточнения? Энтропия (и ее производная – информация) присутствует как в живой, так и в неживой материи. В растущем в насыщенном растворе семействе кристаллов поддерживается достаточно долго более низкая энтропия, чем в окружающей среде. Их образование обеспечивается оттоком энергии при испарении наиболее энергичных молекул растворителя. Порядок в кристаллической решетке поддерживается физическим полем ансамбля атомов, составляющих вещество кристалла. Потенциальная энергия в ансамбле атомов имеет свойство образовывать регулярно расположенные в пространстве минимумы. При нарастании концентрации их в растворителе они «падают» в эти минимумы из раствора. Отделяющийся от материнского кристалла обломок переносит часть физического поля (вместе с накопленными в нем дислокациями) на новое место, порождая новую колонию. Переносится и пониженная энтропия вместе с информацией о новой конфигурации минимумов потенциальной энергии поля. В этом процессе нет ничего загадочного с точки зрения термодинамики.
Оставаясь на позициях диалектического материализма, можно попытаться определить границу неживое/живое на траектории возникновения ССПС под действием законов природы. Наше физическое пространство-время на масштабах, превышающих так называемые планковские длину и интервал, в физике мыслится как континуум. Соответственно, возникли представления о непрерывности состояний физических систем. Квантовая теория внесла коррективы в эти представления – принципиально дискретный характер состояний на атомных масштабах пространства-времени. Эти состояния образуют неограниченные, но счетные множества. Символы алфавита физически реализуемой ССПС образуют конечные дискретные множества. Если это некоторый набор химических молекул, то они должны иметь свойство соединяться в последовательности таким образом, чтобы это приводило к снижению потенциальной энергии. Иначе говоря, они, находясь в определенной среде, должны вступать в экзотермическую реакцию линейной полимеризации. При этом высвобождение энергии должно быть минимальным, чтобы среда успевала поддерживать постоянную температуру. Энтропия такой молекулы-полимера будет снижаться с ростом ее длины. Это следует уже из того, что число пространственных степеней свободы ее компонент резко снижается.
В информатике безразмерную больцмановскую энтропию алфавита logW, где W равно числу символов, называют информационной емкостью алфавита. С точки зрения эффективности передачи информации желательно иметь алфавит с большей емкостью. Функция log быстро растет при малых W, а затем рост быстро падает. Сложность же реализации ССПС, очевидно сильно растет с W. Минимальный алфавит – бинарный2. В принципе, возможна жизнь на «двух буквах». Но, случайно или нет, природа остановилась на четырехсимвольном алфавите, который, как показано выше, связан с простейшим полем Галуа GF(22), позволяющим осуществить принцип комплементарности и построить нетривиальный корректирующий код. Некогда возникшая на Земле четверка молекул (А, У, Г, Ц) оказалась способной к созданию ССПС в виде сообщества молекул РНК. Молекулы РНК – это системы уже не атомных масштабов, они находятся в промежуточной зоне между квантовым микромиром и классическим макромиром. Линейная структура этих молекул ограничивает степени свободы элементов лишь в одном измерении. Такая молекула легко изгибается в нашем трехмерном пространстве. Но свойство комплементарности позволило еще на порядок снизить энтропию за счет дополнительных связей в линейном полимере. Эти связи в четверке (А, У, Г, Ц) проявились в свойстве комплементарности пар (А, У) и (Г, Ц). В результате возникли устойчивые вторичные структуры некоторой части молекул РНК вроде той, что представлена на рис. 5.
Рис. 5. Вторичная структура транспортной РНК,
переносящей аминокислоту валин.
Для наглядности на рис. 5 показана плоская схема, в реальности она имеет и третье измерение. Устойчивость таких систем имеет ту же природу, что и устойчивость кристаллов. В своей книге Э. Шредингер даже употребил для ДНК термин «апериодический кристалл».
Такая трансформация, не изменяющая агрегатного состояния вещества, но сопровождающаяся скачкообразным изменением энтропии, носит название фазового перехода второго рода. К этому типу фазовых переходов относятся явления намагничивания при комнатной температуре кусков железа в магнитном поле Земли и размагничивание их при нагревании выше точки Кюри. Суть этих явлений заключается в выстраивании магнитных моментов атомов железа в направлении силовых линий внешнего поля, так как это снижает потенциальную энергию в системе. Возникает порядок не только в виде регулярного расположения центров атомов, но и их внутренних состояний. Огромное число выстроенных в одном направлении атомов-магнитиков создают собственное макроскопическое магнитное поле. В результате это сохраняет пониженную энтропию в куске железа даже без внешнего поля. При нагревании выше точки Кюри энергии колебательных движений атомов достаточно для нарушения порядка их внутренних состояний и намагничивание исчезает.
В системе молекул РНК происходят похожие процессы. При определенных условиях (наличие в окружающей среде катализирующих веществ и достаточной концентрации нуклеотидов), вторичные структуры разрушаются и молекулы приобретают линейные формы. Свободные нуклеотиды присоединяются к комплементарным им нуклеотидам и возникает негативная копия молекулы. Копия затем способна отсоединиться от оригинала и создать новую, уже позитивную, копию. Происходит та самая репликация. В настоящее время такие процессы чаще всего связаны с размножением РНК-вирусов.
Алфавит нуклеотидов (А, У, Г, Ц) породил РНК-версию жизни. Его малая информационная емкость ограничивала ее разнообразие. В земных условиях сформировался более емкий алфавит аминокислот. Они также способны образовывать линейные полимеры и даже вторичные структуры, но не способны к репликации. И в этом месте случился еще один фазовый переход. Замена в четверке (А, У, Г, Ц) нуклетида У на близкий ему по строению нуклетид Т порождала гораздо более устойчивые и потому более длинные пары позитивной и негативной молекул. Эти молекулы ДНК были способны конкатенировать многие копии разных оригиналов РНК в один большой текст. При этом они сохранили способность к репликации. Часть таких оригиналов превратилась в транспортные РНК, часть – во вспомогательные инструменты поддержания сбора аминокислот в белки. Возник современный генетический код и ДНК версия жизни. Детали этого невероятно сложного процесса попытался описать немецкий «химический математик» М Эйген в книге [11]. Одним из важнейших факторов эволюции в этом процессе играли ошибки при передаче информации и естественный отбор.
В технократической среде ходит такой анекдот.
«Лаврентий Палыч3 инспектирует центр испытаний новой системы ПВО. Главный конструктор водит его по объекту, все объясняет. В конце подводит его к маленькому осциллографу и гордо говорит: «а вот здесь, Лаврентий Палыч, я могу видеть сигнал ошибки». Лаврентий Палыч посуровел и многозначительно произнес: «а нельзя ли впред обходиться бэз ошибок»».
Как известно, принцип неопределенности Гейзенберга-Бора не позволяет исполнить указание Лаврентия Павловича при всем желании. Простейшие ошибки, рассмотренные выше, неизбежны уже по этой причине. Они могут вызываться и внешними факторами типа радиации, космических лучей и т. п. По сравнению с полным генетическим текстом (геномом) они носят локальный характер. Даже не будучи исправлены, они не всегда вызывают печальные последствия для организма. Если перейти к аналогии с естественным языком, то небольшое число таких ошибок в словах еще не разрушает смысл предложения в целом. Их нейтрализация происходит уже за счет избыточности на следующем уровне кодирования – кода смыслов. Естественно, это возможно лишь ниже определенного уровня интенсивности их возникновения.
Особенно важны ошибки в главной генетической матрице – ДНК. Эти ошибки, которые в генетике называют мутациями, начинают передаваться из поколения в поколение в результате процесса мейоза. В этом процессе генетический текст участвует как целое и нарушения процессов передачи информации здесь имеют, как правило, драматические последствия. У высших типов организмов генетический текст дублирован – имеется двойной набор хромосом, собранных в пары (рис. 1). Хромосомы в парах гомологичны,
т. е. содержат однотипные гены. Но получены они от разных родителей, если вид размножается половым путем. Кроме того многие гены неоднократно дублированы в самом тексте ДНК. Простое дублирование сообщений в информатике называют кодом с повторением. Он сильно избыточен (здесь речь идет не о процентах, а о разах), но легко реализуется. В военном деле часто заранее закодированный приказ может иметь форму «пять-пять-пять». В реальной жизни дублирование генетических текстов иногда спасает жизнь – повреждение некоторого гена у одного из родителей может компенсироваться геном другого. Коды с повторением весьма эффективны, так как случайные ошибки имеют вероятность произойти на одном и том же месте у разных субъектов на много порядков меньше, чем у одного. Дело в том, что в этом случае малые вероятности независимых потоков ошибок перемножаются. Из описания процесса синтеза клеткой белков видно, что перестановки генов в тексте ДНК с информационной точки зрения не драматичны. Более того, такие явления реально происходят в процессе кроссинговера во время мейоза. Кроссинговер (англ. пересечение) – это обмен целыми участками гомологичных хромосом, при котором перемешиваются гены обоих родителей. Если такое перемешивание не нарушает «высший смысл» всего текста, то оно является мощным ускорителем эволюции. Правда, нередки случаи, когда смысл нарушается и это приводит к серьезным генетическим болезням и даже летальным исходам. В процессе мейоза, в отличие от митоза, результатом деления клеток являются не пары генетически гомологичных клеток, а клетки с половинным содержанием хромосом. Это половые клетки, называемые гаметами или спорами (у грибов). Запуск нового поколения жизни происходит при слиянии гамет разного пола. При слиянии (оплодотворении) возникает клетка зигота, имеющая полный набор хромосом. У имеющих пол видов мужские и женские гаметы (сперматозоиды и яйцеклетки) могут сильно различаться по строению и размерам. У человека женский и мужской хромосомный набор отличаются лишь в одной 23-ей паре хромосом. В мужском наборе хромосомы не гомологичны – рис. 1. Их обозначают как X и Y. В женском организме в этой паре хромосомы гомологичны, т. е. ее состав есть XX. Поскольку при мейозе пары хромосом расходятся, мужской организм создает поровну как мужские, так и женские гаметы. При слиянии двух женских гамет 23-я пара хромосом имеет состав XX и дает особь женского пола. При слиянии женской и мужской гаметы 23-я пара хромосом имеет состав XY и дает особь мужского пола. Нарушение этой структуры приводит к тяжелым болезням, несмотря на сохранение языка белков на уровне их синтеза. Наиболее часты такие нарушения.
При мейозе некоторые пары хромосом не распадаются и целиком переносятся в гамету. При оплодотворении возникает полиплоидия – повышенное число хромосом. Если таких пар одна или несколько (полисомия), то жизнеспособность организма сохраняется, но его полноценность снижается. Хорошо известен такой пример у человека – трисомия по хромосоме 22. Одна из хромосом присутствует в организме трижды и это вызывает синдром Дауна. Этот механизм можно сравнить с изданием в «одном флаконе» «Войны и мир» и «Братьев Карамазовых» в результате смешивания их наборов при печати. Здесь отдельные предложения и даже главы сохраняют свой локальный смысл. Даже произведение в целом о чем то повествует. Но «высший смысл» при этом утрачивается.
Не столь глобальные мутации происходят на уровне отдельных генов-предложений генетического текста. Возможна утрата части хромосомы (делеция), т. е. одного или группы генов. Это также часто приводит к аномалии организма. Например, потеря части хромосомы 5 вызывает синдром «кошачий крик новорожденного». Жизнеспособность организма сохраняется, но умственное и физическое развитие существенно страдают. Обратная ситуация – вставки некоторых генов (дупликация, код с повторением!). В этом случае производство всей совокупности белков не нарушается, как и функционирование организма в целом. Считается, что эти мутации удлинения текста ДНК оказались важным фактором эволюции. «Лишние» экземпляры генов могли подвергаться независимым мутациям и превращаться в новые генетические единицы, обогащающие генофонд. С точки зрения информатики это означает, что язык генов относится к категории статических или описательных языков. К таким языкам принадлежат языки описания электронных схем, загружаемых в программируемые логические интегральные схемы (ПЛИС). Например, языки AHDL и VHDL. Предложения этих языков можно произвольно располагать в тексте без нарушения общего замысла проектируемого объекта. Это и есть тот самый «план архитектора», о котором пишет Шредингер. Динамика «жизни» объекта начинается после загрузки этого плана (файла конфигурации) в особую вычислительную среду и запуска генераторов тактовых импульсов. Язык же генетического кода белков следует отнести к динамическим языкам. Например, как языки C++, PASCAL и др. Это языки-инструкции для некоторого процессора, исполняющего их в определенном порядке, закодированном в самом тексте-программе. Это мы и наблюдаем в работе рибосом клетки. Процесс транскрипции можно рассматривать как работу параллельного многопроцессорного вычислителя, оперирующего со строковыми данными.