imbg: (Default)
[personal profile] imbg
Еще раз обращу внимане на книгу "АНАЛОГИЯ (параллели между биологической и культурной эволюцией)" на сайте Vivos voco. Ниже приведу один интересный  абзац (формат формул съехал, но вы можете свериться с оригиналами на самом сайте по ссылке выше).




...Но откуда он берет сведения о своей сложности? Вот тут-то термин "информация" становится необходим. Ведь этот термин, который в наше время у всех на языке и слуху, реже на уме, - характеристика не системы (скажем, живого организма или ежедневной газеты), а сигнала. Точнее, соотношения между передатчиком сигнала и его приемником: 

передатчик ® канал передачи информации ® приемник

Отвлечемся, для начала, от материального воплощения сигнала - будь то радиоволны, звуковые волны, слова на бумаге, рисунки на камне или соответствующие сочетания нуклеотидов в нуклеиновых кислотах. Сначала поговорим о том, как можно измерить информационное содержание сигнала.

Основоположник теории информации К. Шеннон дал формулу, которая в настоящее время во всей человеческой деятельности играет столь же важную роль, как и эйнштейновская Е = mc^2:

Н = - k Spi log(pi)

Здесь pi - вероятность состояния системы, о котором сообщается в сигнале, log(pi) - логарифм этой вероятности и k - коэффициент пропорциональности, т.е. постоянная, определяющая единицу измерения. Н - принято называть энтропией источника сообщений, иногда просто информацией.

Эта формула очень похожа на формулу энтропии в статистической физике. Однако k там - константа Больцмана (1,37x10-16 эрг/градус). В теории информации принято двоичное исчисление и логарифмы при основании 2. Тогда k = 1 и единица измерения Н - биты (сокращенное binary digits, двоичные единицы - не путать с байтами!). Один бит - столько информации содержится в ответе на вопрос: "Кто родился: мальчик или девочка?"

В передаваемой по каналу связи информации выделяются тексты, которые можно разбить на символы, и каждому символу придать значение (энтропия на символ).

Так, если бы в тексте на русском языке все буквы, включая знаки препинания и пробел между словами (32 символа), встречались с равной частотой, информационная емкость русского алфавита равнялась бы:

-S1/32 log2l/32 = log32 = 5 бит/символ
 

Обычно она гораздо меньше. 5 бит/символ - это предельная величина. Но во всех реальных текстах символы встречаются с разной частотой, и энтропия обычно меньше, примерно в 2,5 раза, и приближается к двум битам на символ. Отсюда можно подсчитать и объем информации в тексте. Например, в авторском листе (единице объема рукописей) 40 000 символов и, значит, 80 000 бит информации. Но опять же это верхний предел, эта цифра имеет значение для наборщика и корректора, но не читателя. Далее мы еще вернемся к этому.

А пока ответим на вопрос: откуда развивающийся организм берет сведения о своей сложности? Ответ однозначен - из своей генетической программы, из ДНК. В ДНК "генетический текст" закодирован четырьмя символами - аденином, гуанином, цитозином и тимином. При равной частоте встречаемости символов энтропия на символ равна:

Н = - 4( 0,25 log2 0,25) = 2

То есть тексты, написанные русским языком, и текст нашей генетической программы обладают примерно равной информационной емкостью. В геноме каждого из нас содержится примерно 3,2x109 нуклеотидов; соответственно объем содержащейся в нем информации 6,4x109 бит. Любители считать могут прикинуть, библиотеке какого объема это соответствует, только пусть помнят, что в выходных данных книги указываются не авторские листы, а печатные.

Значит, им нужно сначала подсчитать число символов на страницу текста книги данного формата и умножить на число страниц. Но все эти подсчеты будут сугубо приближенные: и в случае с ДНК два бита/символ - недостижимый максимум.

Кроме того, надо учесть одно обстоятельство: чтобы превратиться в признаки и свойства организма, генетическая информация перекодируется, проходя по каналу:
ДНК --> РНК --> белок

Передатчик этой информации - хромосома, приемник - цитоплазма клетки, в которой синтезируется белок. А уж от набора белковых молекул и их количества зависит дальнейшая судьба клетки и всего организма.

Первый этап перекодировки ДНК --> РНК не изменяет информационной емкости сигнала. Ведь нуклеотидный текст остается без изменения, только тимин заменяется на урацил. А это тот же тимин, только неметилированный (без группы СН3). Зато перекодировка нуклеотидного текста информационной РНК в аминокислотную последовательность белка весьма существенна. 

Сейчас и в школе учат, что одна аминокислота, точнее, один аминокислотный остаток в полипептидной цепи, образующей белок, соответствует трем нуклеотидам в информационной РНК. Возможное число сочетаний из 4 по 3 - это 43, т.е. 64 символа. Если бы в наших белках было 64 аминокислоты, то энтропия на символ равнялась бы:

H = -64(1/64 log2 1/64) = 6,1 бит

Но три символа (тройки нуклеотидов, триплеты, кодоны) - бессмысленны, они аминокислот не кодируют. На них синтез полипептидной цепи обрывается, они соответствуют пробелам между словами в печатной речи и паузам - в устной. А аминокислот в белковом тексте всего 20, причем, каждая из них кодируется разным числом триплетов.

Лейцин, серии, аргинин - эти буквы белкового текста кодируются каждый шестью триплетами, а метионин и триптофан - только одним триплетом каждый. Такой код называется вырожденным.

Книга целиком
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

imbg: (Default)
Neo-IMBG

December 2020

S M T W T F S
  12345
6789101112
13 141516171819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 31st, 2026 06:29 am
Powered by Dreamwidth Studios