imbg: (Default)
[personal profile] imbg
Еще раз обращу внимане на книгу "АНАЛОГИЯ (параллели между биологической и культурной эволюцией)" на сайте Vivos voco. Ниже приведу один интересный  абзац (формат формул съехал, но вы можете свериться с оригиналами на самом сайте по ссылке выше).




...Но откуда он берет сведения о своей сложности? Вот тут-то термин "информация" становится необходим. Ведь этот термин, который в наше время у всех на языке и слуху, реже на уме, - характеристика не системы (скажем, живого организма или ежедневной газеты), а сигнала. Точнее, соотношения между передатчиком сигнала и его приемником: 

передатчик ® канал передачи информации ® приемник

Отвлечемся, для начала, от материального воплощения сигнала - будь то радиоволны, звуковые волны, слова на бумаге, рисунки на камне или соответствующие сочетания нуклеотидов в нуклеиновых кислотах. Сначала поговорим о том, как можно измерить информационное содержание сигнала.

Основоположник теории информации К. Шеннон дал формулу, которая в настоящее время во всей человеческой деятельности играет столь же важную роль, как и эйнштейновская Е = mc^2:

Н = - k Spi log(pi)

Здесь pi - вероятность состояния системы, о котором сообщается в сигнале, log(pi) - логарифм этой вероятности и k - коэффициент пропорциональности, т.е. постоянная, определяющая единицу измерения. Н - принято называть энтропией источника сообщений, иногда просто информацией.

Эта формула очень похожа на формулу энтропии в статистической физике. Однако k там - константа Больцмана (1,37x10-16 эрг/градус). В теории информации принято двоичное исчисление и логарифмы при основании 2. Тогда k = 1 и единица измерения Н - биты (сокращенное binary digits, двоичные единицы - не путать с байтами!). Один бит - столько информации содержится в ответе на вопрос: "Кто родился: мальчик или девочка?"

В передаваемой по каналу связи информации выделяются тексты, которые можно разбить на символы, и каждому символу придать значение (энтропия на символ).

Так, если бы в тексте на русском языке все буквы, включая знаки препинания и пробел между словами (32 символа), встречались с равной частотой, информационная емкость русского алфавита равнялась бы:

-S1/32 log2l/32 = log32 = 5 бит/символ
 

Обычно она гораздо меньше. 5 бит/символ - это предельная величина. Но во всех реальных текстах символы встречаются с разной частотой, и энтропия обычно меньше, примерно в 2,5 раза, и приближается к двум битам на символ. Отсюда можно подсчитать и объем информации в тексте. Например, в авторском листе (единице объема рукописей) 40 000 символов и, значит, 80 000 бит информации. Но опять же это верхний предел, эта цифра имеет значение для наборщика и корректора, но не читателя. Далее мы еще вернемся к этому.

А пока ответим на вопрос: откуда развивающийся организм берет сведения о своей сложности? Ответ однозначен - из своей генетической программы, из ДНК. В ДНК "генетический текст" закодирован четырьмя символами - аденином, гуанином, цитозином и тимином. При равной частоте встречаемости символов энтропия на символ равна:

Н = - 4( 0,25 log2 0,25) = 2

То есть тексты, написанные русским языком, и текст нашей генетической программы обладают примерно равной информационной емкостью. В геноме каждого из нас содержится примерно 3,2x109 нуклеотидов; соответственно объем содержащейся в нем информации 6,4x109 бит. Любители считать могут прикинуть, библиотеке какого объема это соответствует, только пусть помнят, что в выходных данных книги указываются не авторские листы, а печатные.

Значит, им нужно сначала подсчитать число символов на страницу текста книги данного формата и умножить на число страниц. Но все эти подсчеты будут сугубо приближенные: и в случае с ДНК два бита/символ - недостижимый максимум.

Кроме того, надо учесть одно обстоятельство: чтобы превратиться в признаки и свойства организма, генетическая информация перекодируется, проходя по каналу:
ДНК --> РНК --> белок

Передатчик этой информации - хромосома, приемник - цитоплазма клетки, в которой синтезируется белок. А уж от набора белковых молекул и их количества зависит дальнейшая судьба клетки и всего организма.

Первый этап перекодировки ДНК --> РНК не изменяет информационной емкости сигнала. Ведь нуклеотидный текст остается без изменения, только тимин заменяется на урацил. А это тот же тимин, только неметилированный (без группы СН3). Зато перекодировка нуклеотидного текста информационной РНК в аминокислотную последовательность белка весьма существенна. 

Сейчас и в школе учат, что одна аминокислота, точнее, один аминокислотный остаток в полипептидной цепи, образующей белок, соответствует трем нуклеотидам в информационной РНК. Возможное число сочетаний из 4 по 3 - это 43, т.е. 64 символа. Если бы в наших белках было 64 аминокислоты, то энтропия на символ равнялась бы:

H = -64(1/64 log2 1/64) = 6,1 бит

Но три символа (тройки нуклеотидов, триплеты, кодоны) - бессмысленны, они аминокислот не кодируют. На них синтез полипептидной цепи обрывается, они соответствуют пробелам между словами в печатной речи и паузам - в устной. А аминокислот в белковом тексте всего 20, причем, каждая из них кодируется разным числом триплетов.

Лейцин, серии, аргинин - эти буквы белкового текста кодируются каждый шестью триплетами, а метионин и триптофан - только одним триплетом каждый. Такой код называется вырожденным.

Книга целиком

Date: 2011-08-01 07:58 am (UTC)
From: [identity profile] tilimilitram.livejournal.com
> в тексте на русском языке все буквы,
> включая знаки препинания и пробел между словами (32 символа),
> встречались с равной частотой, информационная емкость
> русского алфавита равнялась бы: log32 = 5 бит/символ

В приличной школе за такой ответ половину баллов срежут. Считаем: в русском алфавите 33 буквы, пробел и знаки препинания еще десяток символов -- символов явно не 32 получается :)

N -- число символов алфавита, то есть мощность алфавита, понимаю. Информационная емкость сообщения, понимаю. Емкость сообщения в один символ -- log2 N, тоже понятно. Информационная емкость алфавита, это что-то мутное, не понимаю.

> Но три символа... - бессмысленны, они аминокислот не кодируют.
> На них синтез полипептидной цепи обрывается, они соответствуют
> пробелам между словами в печатной речи и паузам - в устной.

Бррр. Сначала называем символы бессмысленными, и тотчас указываем их смысл -- разделители :) Зачем же тогда прежде пробелы в алфавит включены? :)

Понятно, что на примерах из биологии читателя знакомят с различными подходами к измерению количества информации. Но качество именно этого отрывка ниже всякой критики. Тут автор в малознакомой ему области велосипед неуклюже изобретает. Надеюсь, в книге есть более удачные места.

Date: 2011-08-01 10:54 am (UTC)
From: [identity profile] tilimilitram.livejournal.com
UPD: Прочел главы по ссылке -- очень интересно. Спасибо!

Некоторая безалаберность автора, выраженная в отрывке, оказалась вполне доброкачественной. Борис Михайлович правильно все мной отмеченные неточности понимает. Он лишь местами неаккуратно выразил то, к чему пришел из потребностей собственных исследований. Кроме того, это главы из незавершенной книги. При окончательном причесывании рукописи и авторской редактуре большинство технических недочетов были бы устранены. Но и в сыром виде богатства содержания ими не заглушить. Увлекательное чтение, в целом. Благодарю еще раз.

Date: 2011-08-01 04:52 pm (UTC)
From: [identity profile] imbg.livejournal.com
Рад, что все же вам понравилось :)
Да книга незавершенная, и как мне кажется, уже не будет завершена

Date: 2011-08-01 04:50 pm (UTC)
From: [identity profile] imbg.livejournal.com
Это мне показалолсь самым удачным :/
спасибо за критику

Date: 2011-08-01 09:52 am (UTC)
From: [identity profile] bes-smysla-44.livejournal.com
спасибо за журнал..и за биомолекулу..
вяжите!)
 

Date: 2011-08-01 01:25 pm (UTC)
From: [identity profile] clayrat.livejournal.com
> Ответ однозначен - из своей генетической программы, из ДНК
вот тут уже можно припомнить эпигенетику, а также материнские РНК и белки

Date: 2011-08-01 04:51 pm (UTC)
From: [identity profile] imbg.livejournal.com
ну не придирайтесь

Date: 2011-08-01 01:29 pm (UTC)
From: [identity profile] clayrat.livejournal.com
кстати, между генетическим и лингвистическим каналами
помимо эпигенетического
существует еще поведенческий

Date: 2011-08-02 05:42 am (UTC)
From: [identity profile] praeinant.livejournal.com
С одной стороны это очень интересно, с другой это безнадежно тупиковая ситуация...

Можно суперточно обозначить значение каждой буквы/кода и каждого пробела, но комбинации из них никогда не закодирует весь смысл текста/разговора/.... так как, допустим, эти написаные строки (в виде букв или звуков...) совсем по другому будет приниматься лошадью, человеком не владеющим русским языком, вами и т.д.
Или эта информация должна лечь на ранее полученую информацию колосального обьема (образование, опыт предыдущих клеток, организмов, социумов)(темпоральность, теория процесса...)
В этом контексте буквы-коды есть не информация, а более некий катализатор большего процесса...
Если молекулярные дела буквы будут изучатся без вышестоящих структур (...организма, социума...) то полноценный пазл кодов не собрать в принципе, ибо в данной ситуации даже нет всех частиц пазла...


Все это несколько похоже на такое несоответствие: в маленьких частицах (генах) кропотливо мерится микроны, но на более крупных деталях такая белиберда, что не обращается внимание на нестыковку и в метрах... ну, и тут ход к общему результату никак нельзя назвать рациональным, продуманным, системным и т.д.

Вырожденный генетический...

И это с более общего - некая чушь...
В эволюции действует две разные/самостоятельные системы.
Одна ''старается'' плодить как можно большее число неточных копий/''мутаций'', другая система некие из их адаптирует к имеющейся ситуации (чем больше выбор тем большая вероятность найти наилучший вариант для адаптации).
В данном контексте ''вырождений'' вообще нету, они появляются только в субьективно человеческом понятии (в деталях...)

Date: 2011-08-02 04:14 pm (UTC)
From: [identity profile] imbg.livejournal.com
еще в тему разговора - http://galicarnax.livejournal.com/36083.html

Date: 2011-08-02 11:22 pm (UTC)
From: [identity profile] anton nikolaev (from livejournal.com)
Автор какбэ намекает нам, что туповатые биологи про шеннона ничего не слышали :)

Date: 2011-08-03 12:06 am (UTC)
From: [identity profile] imbg.livejournal.com
Знаете, а я уже давно в ген. коде перестал искать скрытые смыслы - надоело, все теор. выкладки никак не связываются с реальностью - т.е. к конкретным экспериментам их я не вижупути привязать.
Я верю, что это не словоблудие и несет философский смысл, но работ все больше, и приходится все чаще пользоваться старой доброй бритвой Оккама.
Кстати недавно у galicarnax было похожее сообщение - http://galicarnax.livejournal.com/36083.html.

А вы знаете прикладные моменты данных учений?
Edited Date: 2011-08-03 12:06 am (UTC)

Date: 2011-08-03 10:51 am (UTC)
From: [identity profile] anton nikolaev (from livejournal.com)
Информационная теория например используется в физиологии с 60х годов. Посмотрите работы Burlow или Atick, если Вам интересно. Используется она и при изучении морфогенов:
http://www.ncbi.nlm.nih.gov/pubmed/17632062
или активности транскрипционных факторов:
http://www.pnas.org/content/105/34/12265.short

Date: 2011-08-03 06:41 pm (UTC)
From: [identity profile] imbg.livejournal.com
благодарю

Profile

imbg: (Default)
Neo-IMBG

December 2020

S M T W T F S
  12345
6789101112
13 141516171819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 30th, 2026 08:47 pm
Powered by Dreamwidth Studios