Расшифрованная жизнь. Мой геном, моя жизнь (Вентер Крейг)

С применением метода дробовика секвенирование пошло быстро. Клоны в виде космид ДНК длиной около 35 тысяч пар оснований были упакованы в фаги и внедрены в E. coli . Вначале мы использовали акустические волны, чтобы раздробить множество копий ДНК на мелкие фрагменты размером около полутора тысяч пар оснований. Случайным образом отобрав 1000 фрагментов и секвенируя от 300 до 400 пар оснований генетического кода в каждом, мы теоретически должны были охватить все пары оснований ДНК в космиде минимум десять раз (350 ? 1000 = 350 000).

Но и тут нас ждали трудности. Программное обеспечение тогда не предназначалось для обработки более нескольких сотен последовательностей, поэтому было невозможно справиться с тысячами, и нам пришлось прибегнуть к утомительному ручному методу. Для сколько-нибудь существенного прогресса требовались гораздо более мощные компьютеры, чем наши, и программное обеспечение значительно более высокого качества (несмотря на противоположное мнение наших коллег). И я стал нанимать на работу специалистов по информационным технологиям.

Одним из них был Марк Адамс из Мичиганского университета, вылитый Маколей Калкин (из кинофильма «Один дома»), имевший вид «нет-ничего-невозможного», исполнительный и энергичный парень в больших очках, с которым я провел собеседование в конце 1989 года. Меня поразило тогда, что этот худой молодой человек создал компанию по разработке программного обеспечения, еще учась в аспирантуре. Марк увлекался геномикой и был готов приступить к работе. Мы приобрели мощные компьютеры компании Sun , а я разыскал программистов для разработки новых способов интерпретации генетического кода, данные о котором у нас уже начали накапливаться. Благодаря незрячему программисту Марку Дабнику, который пользовался клавиатурой особой системы, «разговаривавшей» с ним в таком быстром темпе, что никто другой не мог ничего разобрать, мы стали по-новому смотреть на ДНК. Мы даже попытались использовать ее для прочтения генетического кода, проигрывая его в виде музыкальной фразы и надеясь обнаружить изменения в генетической структуре.

Но что бы мы ни делали, правильная интерпретация генетического кода оказалась практически невозможной даже после составления длинных отрезков хромосом. Программное обеспечение, с помощью которого можно идентифицировать последовательности бактерий, не работает в случае более сложного человеческого генома. В нем гены разбиты на небольшие сегменты (экзоны) бессмысленными участками ДНК (интронами), подобно тому, как бессмысленная реклама прерывает телефильм. Поэтому ген часто состоит из частичек и кусочков огромного генетического кода, от сотен тысяч до миллионов пар оснований. Мы использовали самые совершенные программы, чтобы найти эти участки, но компьютер не мог отличить реальные гены от шума, генерируемого случайным сочетанием четырех букв замучившего нас генетического кода.

— 115 —