БИОХИМИЯ, 2018, том 83, вып. 2, с. 225–237

УДК 577.2.08

Сравнение методов обнаружения исключительных последовательностей в геномах прокариот

© 2018 И.С. Русинов 1, А.С. Ершова 1,2,3, А.С. Карягина 1,2,3, С.А. Спирин 1,4,5, А.В. Алексеевский 1,4,5*

НИИ физико-химической биологии им. А.Н. Белозерского, Московский государственный университет им. М.В. Ломоносова, 119991 Москва, Россия

Национальный исследовательский центр эпидемиологии и микробиологии им. Н.Ф. Гамалеи Минздрава России, 123098 Москва, Россия

Всероссийский научно-исследовательский институт сельскохозяйственной биотехнологии, 127550 Москва, Россия

Институт системных исследований РАН, 117281 Москва, Россия

Московский государственный университет им. М.В. Ломоносова, факультет биоинженерии и биоинформатики, 119991 Москва, Россия; электронная почта: aba@belozersky.msu.ru

Поступила в редакцию 07.06.2017
После доработки 10.11.2017

КЛЮЧЕВЫЕ СЛОВА: последовательность ДНК, прокариотический геном, марковская модель, система рестрикции-модификации, сайты рестрикции.

Аннотация

Многие белки узнают определенные последовательности ДНК для осуществления своих функций. Число и распределение в геноме таких сайтов узнавания может иметь биологическое значение. Например, количество сайтов рестрикции часто снижено в геномах бактериофагов и прокариот, что приводит к уменьшению вероятности гидролиза ДНК эндонуклеазами рестрикции. Последовательность называют исключительной, если частота ее встречаемости в геноме значительно отличается от предсказанной на основании некой математической модели. Исключительная последовательность может быть либо перепредставленной, либо недопредставленной, в зависимости от того, выше или ниже частота ее встречаемости по сравнению с предсказанной частотой. Для исключительных последовательностей можно предположить биологическую значимость, например, они могут соответствовать сайтам связывания белков либо входить в состав часто встречающихся повторов. Существует несколько методов предсказания частоты короткой последовательности в геноме на основе наблюдаемых частот ее подпоследовательностей. Наиболее популярные методы основаны на марковских моделях. Однако всестороннее сравнение методов на большом материале ранее не проводилось. Сравнены три наиболее используемых метода предсказания частоты короткой последовательности: метод, основанный на марковской модели максимального порядка; метод, использующий среднее геометрическое обобщенных марковских оценок, и метод, учитывающий частоты всех подпоследовательностей, включая разрывные. На примере сайтов рестрикции в полных геномах 2500 видов прокариот показано, что результат предсказания сильно зависит от используемого метода: списки 5% наиболее недопредставленных сайтов содержат вплоть до 50% различающихся предсказаний. Метод, учитывающий частоты всех подпоследовательностей, предложенный Burge et al. в 1992 г., показал более высокую точность, чем два других метода, как в случае прокариотических геномов, так и при компьютерной имитации отбора в случайных последовательностях. По результатам сравнения дана рекомендация использовать этот метод для обнаружения исключительных последовательностей в прокариотических геномах.

Текст статьи

Пожалуйста, введите код, чтобы получить PDF файл с полным текстом статьи:

captcha

Сноски

* Адресат для корреспонденции.