Шрифт:
Интервал:
Закладка:
1972 ∙ Клонирование ∙ —
1980 ∙ Секвенирование ∙ База данных PDB. Спец ∙ выпуск NAR, Базы данных нукл. Послед
1981 ∙ — ∙ Алгоритм выравнивания SW
1982 ∙ Секвенирование ДНК фага лямбда ∙ -
1983 ∙ PCR ∙ Алгоритм поиска по базе данных WL
1985 ∙ Секвенирование ДНК вирусов ∙ FASTA — поиск по базе данных
1987 ∙ — GeneBank. Профили
1989 ∙ Программа "Геном человека" ∙ Swiss-Prot. NCBI
1991 ∙ EST ∙ -
1992 ∙ Первая хромосома дрожжей ∙ BLOSSUM
1993 ∙ Автоматическое секвенирование ∙ -
1995 ∙ Первый геном бактерии ∙ База данных SCOP
1996 ∙ Первый геном архейный ∙ -
1997 ∙ — ∙ PSI-BLAST. Кластеры ортологичных генов
1998 ∙ Геном червя ∙ -
2001 ∙ Геном человека ∙ -
В 1962 году была придумана концепция "молекулярных часов", в 1965 была секвенирована тРНК, определена ее вторичная структура, в это же время были созданы базы данных PIR для хранения информации об аминокислотных последовательностях. В 1972 году было придумано клонирование. В 1978 году были разработаны методы секвенирования, была создана база данных пространственных структур белков. В 1980 был выпущен спецвыпуск журнала NAR, посвященный биоинформатике, затем были придуманы некоторые алгоритмы выравнивания последовательностей, о которых речь пойдет дальше. Дальше был придуман метод ПЦР (полимеразная цепная реакция), а в биоинформатике — алгоритмы поиска похожих фрагментов последовательностей в базах данных. В 1987 году оформился GeneBank (коллекция нуклеотидных последовательностей) и т. д.
Биолог в биоинформатике обычно имеет дело с базами данных и инструментами их анализа. Теперь разберемся, какие базы данных бывают в зависимости от того, что в них помещают. Первый тип — архивные базы данных, это большая свалка, куда любой может поместить все, что захочет. К таким базам относятся
• GeneBank & EMBL — здесь хранятся первичные последовательности
• PDB — пространственные структуры белков, и многое другое.
В качестве курьеза могу привести пример: в архивной базе данных указано,
что в геноме археи (архебактерии) есть ген, кодирующий белок главного комплекса гистосовместимости, что является полной чепухой.
Второй тип — курируемые базы данных, за достоверность которых отвечает хозяева базы данных. Туда информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации — что записано в этих последовательностях, какие есть экспериментальные основания для того, чтобы считать, что эти последовательности выполняют ту или иную функцию.
К базам данных такого типа относятся:
• Swiss-Prot — наиболее качественная база данных, содержащая аминокислотные последовательности белков
• KEGG — информация о метаболизме (такая, которая представлена на карте метаболических путей, которую те, кто ходит на лекции, видели на лекции № 2)
• FlyBase — информация о Drosophila
• COG — информация об ортологичных генах.
Поддержание базы требует работы кураторов или аннотаторов. Тем не менее, даже в курируемых базах данных могут встречаться курьезные надписи, например такая забавная надпись:
CAUTION: AN ORF CALLED DSDC WAS ORIGINALLY (REF. 3) ASSIGNED TO THE WRONG DNA STRAND AND THOUGHT TO BE A D-SERINE DEAMINASE ACTIVATOR, IT WAS THEN RESEQUENCED BY REF. 2 AND STILL THOUGHT TO BE "DSDC", BUT THIS TIME TO FUNCTION AS A D-SERINE PERMEASE. IT IS REF.1 THAT SHOWED THAT DSDC IS ANOTHER GENE AND THAT THIS SEQUENCE SHOULD BE CALLED DSDX. IT SHOULD ALSO BE NOTED THAT THE C-TERMINAL PART OF DSDX (FROM 338 ONWARD) WAS ALSO SEQUENCED (REF.6 AND REF. 7) AND WAS THOUGHT TO BE A SEPARATE ORF (YES, DON'T WORRY, WE ALSO HAD PROBLEMS UNDERSTANDING WHAT HAPPENED!).
По крайне мере здесь кураторы базы данных честно признаются, что не знают, как это случилось.
Третий тип — производные базы данных. Такие базы получаются в результате обработки данных из архивных и курируемых баз данных. Сюда входит:
• SCOP — База данных структурной классификации белков (описывается структура белков)
• PFAM — База данных по семействам белков
• GO (Gene Ontology) — Классификация генов (попытка создания набора терминов, упорядочивания терминологии, чтобы один ген не назывался по разно му, и чтобы разным генам не давали одинаковые названия)
• ProDom — белковые домены
• AsMamDB — альтернативный сплайсинг у млекопитающих
И интегрированные базы данных, в которых вся информация (курируемая, не курируемая) свалена в кучу, и введя имя гена, можно найти всю связанную с ним информацию — в каких организмах встречается, в каком месте генома локализован, какие функции выполняет и т. д.
• NCBI Entrez — доступ к информации о нуклеотидных и аминокислотных последовательностях и структурах
• Есосус — все о Е. coli — гены, белки, метаболизм и пр.
Теперь перейдем к рассмотрению инструментов биоинформатике. Инструменты определяются задачами, которые мы хотим решать.
Основу биоинформатики составляют сравнения. Если у нас есть, например, аминокислотная последовательность, о которой у нас есть экспериментальные данные, и известны ее функции, и другая, похожая на нее последовательность, мы можем предположить, что эти последовательности выполняют сходные функции. Это задача поиска сходства последовательностей
Другая задача связана с анализом генома. Недавно было объявлено, что полностью просеквенирован геном человека, но так же просеквенировали геномы и других организмов: три генома растений, мыши, крысы, кошки, собаки, курицы, рыбы, лягушки завершается, шимпанзе завершается, две дрозофилы сделаны, малярийный комар, червяки, дрожжи и т. д. — всего около 30 видов эукариотических геномов. Также просеквенированы сотни бактериальных геномов. Один бактериальный геном можно просеквенировать в хорошо оборудованной лаборатории за неделю. При этом получают длинную нуклеотидную последовательность нуклеотидов. Там есть гены — белок-кодирующие участки, и участки, кодирующие тРНК и рРНК. Возникает задача найти эти гены. Другая задача — поиск сигналов в ДНК, то есть тех участков ДНК, которые отвечают за регуляцию — сайты связывания регуляторных белков, элементы вторичной структуры мРНК, которая транскрибируется с этого гена и др.
Есть задача предсказания вторичной структуры РНК. А также есть большой класс задач анализа белков. Для решения этих задач надо создавать методы анализа, то есть алгоритмов (протоколов) и программ для анализа. При создании метода надо иметь критерий того, что метод адекватен, соответствует реальности.
Как оценить "правильность" метода? Геном типичной бактерии содержит около 1000 генов. Как уже упоминалось, секвенировать геном можно за неделю. Экспериментальная характеристика одного белка требует как минимум 2 месяца работы современной лаборатории.
Для того чтобы определить, насколько предложенный метод анализа хорош и правилен, существует так называемый «золотой стандарт». Например, у нас есть метод определения генов. Если после его применения на какой-либо последовательности, в