Сверхъестественное. Боги и демоны эволюции (Хэнкок Грэм)

Послание Зипфа

Всем человеческим языкам присуща одна общая и несколько неожиданная тенденция. Она получила название закона Зипфа — по имени лингвиста Джорджа Зипфа, который открыл ее в 1939 году. Он изучал тексты на самых разных языках и организовывал слова в порядке их значимости. Как оказалось, существует точное математическое соотношение между уровнем значимости слова и частотой его употребления в тексте. И это справедливо для любого языка — будь то английский, японский, арабский, урду, коса и так далее. Вне зависимости от текста, стоило Зипфу вычертить диаграмму, которая сопоставляла частоту употребления слова и его значимость, и у ученого выходила прямая линия "с уклоном в –1 для каждого национального языка" [919].

Для того, чтобы понять общий принцип, представьте книгу с любым количеством слов — в 60 тысяч, или в 114 тысяч, или какого-либо иного объема. И если наиболее частое слово — то есть слово со степенью значимости номер 1 — будет употребляться в этой книге 10 тысяч раз, то вы можете быть уверены в том, что десятое по частоте употребления (а следовательно, и по значимости) слово встретится в книге 1 тысячу раз, а сотое наиболее частое слово — только 100 раз. Разумеется, цифры будут варьироваться от текста к тексту — в зависимости от общей длины сочинения. Однако точная математическая пропорция между значимостью и частотой употребления слова останется все та же. В этом, вкратце, и состоит закон Зипфа [920].

А вот и еще одна, даже более странная, вещь. В середине девяностых годов XX века исследователи из Бостонского университета и Гарвардского медицинского факультета изучили 37 последовательностей ДНК, в каждой из которых содержалось как минимум 50 тысяч парных базовых элементов, две более коротких последовательности и еще одну, с общим содержанием в 2,2 миллиона парных элементов. И там, где было возможно, изучались как кодирующие, так и некодирующие области ДНК [921]. Ученые обнаружили, что во всех последовательностях существовали отчетливые узоры из трех, четырех, пяти, шести, семи и восьми парных элементов — своего рода отдельные "слова". И это побудило их применить к материалу два стандартных лингвистических теста. Один из этих тестов был основан на методе Зипфа. Все "слова" ДНК распределили в соответствии с их повторяемостью, после чего вычертили гистограмму, соотносящую значимость каждого слова с фактической частотой его употребления в "тексте".

Оценка кодирующих регионов показала, что они не подчиняются закону Зипфа. Этого-то как раз и следовало ожидать, учитывая, что подобные регионы представляют собой всего лишь коды, а не языки. И служат они всего лишь образцами для создания особых протеинов [922]. "В кодирующих частях нет грамматики, — замечает по этому поводу ведущий специалист Эжен Стэнли. — Каждый триплет [базовых элементов] соответствует определенной аминокислоте [входящей в состав протеина]. Здесь нет никакой высшей структуры" [923].

— 257 —