imbg | Вырожденный генетический код

Еще раз обращу внимане на книгу "АНАЛОГИЯ (параллели между биологической и культурной эволюцией)" на сайте Vivos voco. Ниже приведу один интересный абзац (формат формул съехал, но вы можете свериться с оригиналами на самом сайте по ссылке выше).

...Но откуда он берет сведения о своей сложности? Вот тут-то термин "информация" становится необходим. Ведь этот термин, который в наше время у всех на языке и слуху, реже на уме, - характеристика не системы (скажем, живого организма или ежедневной газеты), а сигнала. Точнее, соотношения между передатчиком сигнала и его приемником:

передатчик ® канал передачи информации ® приемник

Отвлечемся, для начала, от материального воплощения сигнала - будь то радиоволны, звуковые волны, слова на бумаге, рисунки на камне или соответствующие сочетания нуклеотидов в нуклеиновых кислотах. Сначала поговорим о том, как можно измерить информационное содержание сигнала.

Основоположник теории информации К. Шеннон дал формулу, которая в настоящее время во всей человеческой деятельности играет столь же важную роль, как и эйнштейновская Е = mc^2:

Н = - k Spi log(pi)

Здесь pi - вероятность состояния системы, о котором сообщается в сигнале, log(pi) - логарифм этой вероятности и k - коэффициент пропорциональности, т.е. постоянная, определяющая единицу измерения. Н - принято называть энтропией источника сообщений, иногда просто информацией.

Эта формула очень похожа на формулу энтропии в статистической физике. Однако k там - константа Больцмана (1,37x10-16 эрг/градус). В теории информации принято двоичное исчисление и логарифмы при основании 2. Тогда k = 1 и единица измерения Н - биты (сокращенное binary digits, двоичные единицы - не путать с байтами!). Один бит - столько информации содержится в ответе на вопрос: "Кто родился: мальчик или девочка?"

В передаваемой по каналу связи информации выделяются тексты, которые можно разбить на символы, и каждому символу придать значение (энтропия на символ).

Так, если бы в тексте на русском языке все буквы, включая знаки препинания и пробел между словами (32 символа), встречались с равной частотой, информационная емкость русского алфавита равнялась бы:

-S1/32 log2l/32 = log32 = 5 бит/символ

Обычно она гораздо меньше. 5 бит/символ - это предельная величина. Но во всех реальных текстах символы встречаются с разной частотой, и энтропия обычно меньше, примерно в 2,5 раза, и приближается к двум битам на символ. Отсюда можно подсчитать и объем информации в тексте. Например, в авторском листе (единице объема рукописей) 40 000 символов и, значит, 80 000 бит информации. Но опять же это верхний предел, эта цифра имеет значение для наборщика и корректора, но не читателя. Далее мы еще вернемся к этому.

А пока ответим на вопрос: откуда развивающийся организм берет сведения о своей сложности? Ответ однозначен - из своей генетической программы, из ДНК. В ДНК "генетический текст" закодирован четырьмя символами - аденином, гуанином, цитозином и тимином. При равной частоте встречаемости символов энтропия на символ равна:

Н = - 4( 0,25 log2 0,25) = 2

То есть тексты, написанные русским языком, и текст нашей генетической программы обладают примерно равной информационной емкостью. В геноме каждого из нас содержится примерно 3,2x109 нуклеотидов; соответственно объем содержащейся в нем информации 6,4x109 бит. Любители считать могут прикинуть, библиотеке какого объема это соответствует, только пусть помнят, что в выходных данных книги указываются не авторские листы, а печатные.

Значит, им нужно сначала подсчитать число символов на страницу текста книги данного формата и умножить на число страниц. Но все эти подсчеты будут сугубо приближенные: и в случае с ДНК два бита/символ - недостижимый максимум.

Кроме того, надо учесть одно обстоятельство: чтобы превратиться в признаки и свойства организма, генетическая информация перекодируется, проходя по каналу:

ДНК --> РНК --> белок

Передатчик этой информации - хромосома, приемник - цитоплазма клетки, в которой синтезируется белок. А уж от набора белковых молекул и их количества зависит дальнейшая судьба клетки и всего организма.

Первый этап перекодировки ДНК --> РНК не изменяет информационной емкости сигнала. Ведь нуклеотидный текст остается без изменения, только тимин заменяется на урацил. А это тот же тимин, только неметилированный (без группы СН3). Зато перекодировка нуклеотидного текста информационной РНК в аминокислотную последовательность белка весьма существенна.

Сейчас и в школе учат, что одна аминокислота, точнее, один аминокислотный остаток в полипептидной цепи, образующей белок, соответствует трем нуклеотидам в информационной РНК. Возможное число сочетаний из 4 по 3 - это 43, т.е. 64 символа. Если бы в наших белках было 64 аминокислоты, то энтропия на символ равнялась бы:

H = -64(1/64 log2 1/64) = 6,1 бит

Но три символа (тройки нуклеотидов, триплеты, кодоны) - бессмысленны, они аминокислот не кодируют. На них синтез полипептидной цепи обрывается, они соответствуют пробелам между словами в печатной речи и паузам - в устной. А аминокислот в белковом тексте всего 20, причем, каждая из них кодируется разным числом триплетов.

Лейцин, серии, аргинин - эти буквы белкового текста кодируются каждый шестью триплетами, а метионин и триптофан - только одним триплетом каждый. Такой код называется вырожденным.

Книга целиком

Flat | Top-Level Comments Only

From:

tilimilitram.livejournal.com

> в тексте на русском языке все буквы,
> включая знаки препинания и пробел между словами (32 символа),
> встречались с равной частотой, информационная емкость
> русского алфавита равнялась бы: log32 = 5 бит/символ

В приличной школе за такой ответ половину баллов срежут. Считаем: в русском алфавите 33 буквы, пробел и знаки препинания еще десяток символов -- символов явно не 32 получается :)

N -- число символов алфавита, то есть мощность алфавита, понимаю. Информационная емкость сообщения, понимаю. Емкость сообщения в один символ -- log2 N, тоже понятно. Информационная емкость алфавита, это что-то мутное, не понимаю.

> Но три символа... - бессмысленны, они аминокислот не кодируют.
> На них синтез полипептидной цепи обрывается, они соответствуют
> пробелам между словами в печатной речи и паузам - в устной.

Бррр. Сначала называем символы бессмысленными, и тотчас указываем их смысл -- разделители :) Зачем же тогда прежде пробелы в алфавит включены? :)

Понятно, что на примерах из биологии читателя знакомят с различными подходами к измерению количества информации. Но качество именно этого отрывка ниже всякой критики. Тут автор в малознакомой ему области велосипед неуклюже изобретает. Надеюсь, в книге есть более удачные места.

From:

tilimilitram.livejournal.com

UPD: Прочел главы по ссылке -- очень интересно. Спасибо!

Некоторая безалаберность автора, выраженная в отрывке, оказалась вполне доброкачественной. Борис Михайлович правильно все мной отмеченные неточности понимает. Он лишь местами неаккуратно выразил то, к чему пришел из потребностей собственных исследований. Кроме того, это главы из незавершенной книги. При окончательном причесывании рукописи и авторской редактуре большинство технических недочетов были бы устранены. Но и в сыром виде богатства содержания ими не заглушить. Увлекательное чтение, в целом. Благодарю еще раз.

From:

imbg.livejournal.com

Рад, что все же вам понравилось :)
Да книга незавершенная, и как мне кажется, уже не будет завершена

From:

imbg.livejournal.com

Это мне показалолсь самым удачным :/
спасибо за критику

From:

bes-smysla-44.livejournal.com

спасибо за журнал..и за биомолекулу..
вяжите!)

From:

clayrat.livejournal.com

> Ответ однозначен - из своей генетической программы, из ДНК
вот тут уже можно припомнить эпигенетику, а также материнские РНК и белки

From:

imbg.livejournal.com

ну не придирайтесь

From:

clayrat.livejournal.com

кстати, между генетическим и лингвистическим каналами
помимо эпигенетического
существует еще поведенческий

From:

praeinant.livejournal.com

С одной стороны это очень интересно, с другой это безнадежно тупиковая ситуация...

Можно суперточно обозначить значение каждой буквы/кода и каждого пробела, но комбинации из них никогда не закодирует весь смысл текста/разговора/.... так как, допустим, эти написаные строки (в виде букв или звуков...) совсем по другому будет приниматься лошадью, человеком не владеющим русским языком, вами и т.д.
Или эта информация должна лечь на ранее полученую информацию колосального обьема (образование, опыт предыдущих клеток, организмов, социумов)(темпоральность, теория процесса...)
В этом контексте буквы-коды есть не информация, а более некий катализатор большего процесса...
Если ~~молекулярные дела~~ буквы будут изучатся без вышестоящих структур (...организма, социума...) то полноценный пазл кодов не собрать в принципе, ибо в данной ситуации даже нет всех частиц пазла...

Все это несколько похоже на такое несоответствие: в маленьких частицах (генах) кропотливо мерится микроны, но на более крупных деталях такая белиберда, что не обращается внимание на нестыковку и в метрах... ну, и тут ход к общему результату никак нельзя назвать рациональным, продуманным, системным и т.д.

Вырожденный генетический...

И это с более общего - некая чушь...
В эволюции действует две разные/самостоятельные системы.
Одна ''старается'' плодить как можно большее число неточных копий/''мутаций'', другая система некие из их адаптирует к имеющейся ситуации (чем больше выбор тем большая вероятность найти наилучший вариант для адаптации).
В данном контексте ''вырождений'' вообще нету, они появляются только в субьективно человеческом понятии (в деталях...)

From:

imbg.livejournal.com

еще в тему разговора - http://galicarnax.livejournal.com/36083.html

From:

anton nikolaev (from livejournal.com)

Автор какбэ намекает нам, что туповатые биологи про шеннона ничего не слышали :)

From:

imbg.livejournal.com

Знаете, а я уже давно в ген. коде перестал искать скрытые смыслы - надоело, все теор. выкладки никак не связываются с реальностью - т.е. к конкретным экспериментам их я не вижупути привязать.
Я верю, что это не словоблудие и несет философский смысл, но работ все больше, и приходится все чаще пользоваться старой доброй бритвой Оккама.
Кстати недавно у galicarnax было похожее сообщение - http://galicarnax.livejournal.com/36083.html.

А вы знаете прикладные моменты данных учений?

Edited Date: 2011-08-03 12:06 am (UTC)

From:

anton nikolaev (from livejournal.com)

Информационная теория например используется в физиологии с 60х годов. Посмотрите работы Burlow или Atick, если Вам интересно. Используется она и при изучении морфогенов:
http://www.ncbi.nlm.nih.gov/pubmed/17632062
или активности транскрипционных факторов:
http://www.pnas.org/content/105/34/12265.short

From:

imbg.livejournal.com

благодарю

Flat | Top-Level Comments Only

Profile

Neo-IMBG

December 2020

S	M	T	W	T	F	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Page Summary

Style Credit

Style: Classic for Refried Tablet by zvi and Aaron B. Russell

Expand Cut Tags

No cut tags

Page generated Mar. 20th, 2026 05:41 pm

Neo-IMBG

Вырожденный генетический код

Вырожденный генетический код

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

December 2020

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags