воскресенье, 13 августа 2017 г.

Различные классы молекул ДНК в геноме

Когда мы обсуждали форматирование генома, мы рассматривали различные классы последовательностей ДНК и РНК: кодирующие, некодирующие (не кодируют белки, но полны информационного содержания) и различного рода форматирующие последовательности. В биоинформатике существует задача аннотации и каталогизирования, на основе которых можно классифицировать нуклеиновые последовательности.



Такие категории очень показательны, так как они демонстрируют, что геномы различных организмов содержат лишь малую часть того, что традиционно принято было называть "геном" (то есть уникальную кодирующую белок последовательность). Анализ последовательностей, таким образом, говорит нам, что клетки организуют свой геном способом, весьма отличным от того, который представляли себе генетики 20-го века. Эта работа по классификации теперь дополняется функциональными исследованиями, например, исследованиями пространственной динамики генома в живых объектах, в попытке понять целостную архитектуру этого удивительного органа памяти клетки — генома.

Далее приводится таблица с размерами геномов различных животных и растений и процентным содержанием повторяющихся и уникальных последовательностей в них. Некоторые выдержки из этой таблицы мы приводим ниже.

Вид Размер генома Процент повторяющихся последовательностей Процент кодирующих последовательностей
Caenorhabditis elegans (круглый червь) 100 МБ (мега-байт) 16.5 14
Fugu rubripes (рыба фугу) 365 МБ 15 9.5
Home sapiens (человек) 2.9 ГБ (гига-байт) >50 1.2
Arabidopsis thaliana (мелкое растение) 125-157 МБ 13-14 21
Zea mays (кукуруза) 2.5 ГБ 77 1

Одно из самых потрясающих открытий проекта "Человеческий Геном" является то, что доля белок кодирующих последовательностей ДНК (экзонов) в нашем геноме мала (около 1.5%) по сравнению с другими классами последовательностей, таких как "распределенные повторы"/"dispersed repeats" (около 40%) и различные "тандемные повторы"/"tandem repeats" (около 25%) [1]. Даже маленькие геномы бактерий могут содержать различные повторяющиеся ДНК-последовательности (около 10% у некоторых видов, таких как Neisseria meningitidis) [2].

Автор также приводит еще одну таблицу с указанием различных классов аннотированных повторяющихся последовательностей ДНК. Мы также приведем ниже некоторые характеристики этих классов.

Структурный класс Структурные или функциональные характеристики
Олигонуклеотидный мотив (oligonucleotide motif) 4-50 пар оснований (п.о.); связывание белков и их распознавание
Гомополимерный тракт (homopolymeric tract) Повторы одного нуклеотида (N)n
Тандемные повторы нуклеотидов различной длины (variable nucleotide tandem repeats, VNTR) Повторы динуклеотидов и более длинных последовательностей меньше 100 п.о., которые варьируют по общей длине
Составные элементы (composite elements) Состоят из двух и более олигонуклеотидных мотивов, иногда с неспецифической последовательностью между. Примеры: палиндромные операторы, промоторы, энхансеры и сайленсеры, точки репликации, сайт-специфичные рекомбинантные последовательности
Вспомогательные тандемные последовательности (tandem array satellites) Повторы длиной в 100-200 п.о.; содержат обычно тысячи копий; часто находится в центромерах.
Хелитроны, кольцевые ДНК транспозоны (Rolling circle DNA transposons, helitrons) ДНК транспозоны, внедряющиеся из кольцевого промежуточного продукта с помощью репликации по типу катящегося кольца (rolling circle replication). Могут производить тандемные последовательности.

Помимо вышеупомянутых аннотированных повторяющихся последовательностей автор приводит также тандемный массив микроспутников (tandem array microsatellites or simple sequence repeats, SSR), конечные обращенные повторы (terminal inverted repeat DNA transposons, TIR), сложенные ДНК транспозоны (foldback DNA transposons, FB), длинные конечные повторяющиеся ретротранспозоны (long terminal repeat retrotransposons, LTR), длинные и короткие разбросанные ретротранспозоны (long/short interspersed nucleotide element retrotransposons, LINE/SINE).

Повторяющиеся элементы контролируют множество функций генома, например: рекомбинантное восстановление поврежденной ДНК, инициация транскрипции (промоторы и энхансеры в различных разбросанных повторах), модуляция элонгации (собственно, наращивания мРНК) в транскрипции (LINE элементы), форматирование центромер (тандемные повторяющиеся массивы в различных организмах) и прикрепление к клеточному матриксу, скелету клетки (LINE элементы). Два сборника [3], составленные в 2005 году, перечисляют 80 задокументированных свидетельств, когда повторяющиеся элементы форматируют одну или несколько из семи, перечисленных в начале части II геномных функций (см. здесь).

Одна из важнейших особенностей повторяющихся последовательностей — это то, что они являются лучшими таксономическими маркерами, нежели белок кодирующие последовательности [4]. Организмы, которые имеют в целом один и тот же репертуар и структуру белков, могут сильно разниться в одной или нескольких категориях повторяющихся ДНК элементов. Такое таксономическое расхождение говорит нам о том, что повторяющиеся элементы генома гораздо более вариабельны в эволюции. Так как повторяющиеся элементы генома форматируют его функциональную архитектуру, такое расхождение также может свидетельствовать в пользу того, что каждая таксономическая единица могла приобрести свою системную архитектуру генома независимо от изменений в белки кодирующем содержимом.

С точки зрения системного подхода (интегрированные функции генома, но не набор разрозненных наследственных единиц) общие функции должны повторяться в разных местах генома. Так как все эти функции (как мы видели ранее, пересматривая центральную догму биологии) достигаются ДНК-белковым взаимодействием, соответствующие распознаваемые последовательности обязаны появляться снова и снова в геноме [5] или, как в случае с центромерами и теломерами, обязаны быть локализованы в строго определенных местах в разных молекулах ДНК.

С эволюционной точки зрения нас волнует главный вопрос: как эти повторы последовательностей ДНК распространяются по всему геному? Если изменения ДНК происходят случайно, тогда проблема распространения общих элементарных функций и больших комплексов форматирующих агентов становится чрезвычайно сложной, хотя бы только для нахождения времени, необходимого для стольких многих случайных событий (представьте себе наличие более трех миллионов распределенных повторов в человеческом геноме [1]). Однако, если клетки обладают способностью мобилизовать определенные участки генома, перенося их на новые позиции, эта проблема становится легко разрешимой. Таким образом, далее мы будем рассматривать процессы "естественной генной инженерии" --- термин, используемый автором книги для указания на способности клеток реструктурировать свой геном.

Словарь

Многие термины, использующиеся в этой части (да и почти во всей книге), не имеют устоявшихся русскоязычных аналогов, поэтому мы приводим также их англоязычные варианты. Так как на данном этапе мы показываем лишь общую картину сложной регуляции и форматирования генома, заинтересованному читателю следует искать определений в среде Интернет и, к сожалению, на английском языке.

Литература

[1] Проект "Геном Человека":
  • Lander E.S. et al. Initial sequencing and analysis of the human genome. Nature 409, 860-921 (2001).
[2] Повторы у бактерий:
  • Saunders N.J. et al. Repeat-associated phase variable genes in the complete genome sequence of Neisseria meningitidis strain MC58. Mol Microbiol 37, 207-15 (2000).
[3] Два сборника задокументированных свидетельств форматирования повторами ДНК:
  • Ugarkovic D. Functional elements residing within satellite DNAs. EMBO Rep 6, 1035-9 (2005).
  • Shapiro J.A. and Sternberg R.V. Why repetitive DNA is essential to genome function. Dev Biol 310, 187-95 (2007).
[4] Повторные последовательности как таксономические маркеры:
  • Feschotte C., Keswani U., Ranganathan N., Guibotsy M.L., and Levine D. Exploring repetitive DNA landscapes using REPCLASS, a tool that automates the classification of transposable elements in eukaryotic genomes. Genome Biol Evol 205-20 (2009).
  • von Sternberg R. and Shapiro J.A. How repeated retroelements format genome function. Cytogenet Genome Res 110, 108-16 (2005).
  • Nishihara H. and Okada N. Retroposons: genetic footprint on the evolutionary paths of life. Methods Mol Biol 422, 201-25 (2008).
[5] Одни и те же распознаваемые последовательности должны распространиться по геному:
  • Britten R.J. and Davidson E.H. Repetitive and non-repetitive DNA sequences and a speculation on the origins of evolutionary novelty. Q Rev Biol 46, 111-38 (1971).

Комментариев нет :

Отправить комментарий