БИОХИМИЯ, 2022, том 87, вып. 12, с. 2078–2088

УДК 577.29

Насколько часто фильтрация колонок выравнивания улучшает реконструкцию филогении двухдоменных белков?

© 2022 А.И. Сигорских 1, Д.Д. Латорцева 1, А.С. Карягина 2,3,4, С.А. Спирин 3,5*sas@belozersky.msu.ru

Московский государственный университет имени М.В. Ломоносова, факультет биоинженерии и биоинформатики, 119992 Москва, Россия

Национальный исследовательский центр эпидемиологии и микробиологии имени Н.Ф. Гамалеи Минздрава России, 123098 Москва, Россия

НИИ физико-химической биологии имени А.Н. Белозерского, Московский государственный университет имени М.В. Ломоносова, 119992 Москва, Россия

Всероссийский научно-исследовательский институт сельскохозяйственной биотехнологии, 127550 Москва, Россия

НИУ «Высшая школа экономики», 109028 Москва, Россия

Поступила в редакцию 23.09.2022
После доработки 01.11.2022
Принята к публикации 01.11.2022

DOI: 10.31857/S0320972522120223

КЛЮЧЕВЫЕ СЛОВА: филогенетическая реконструкция, эволюционные домены, фильтрация множественного выравнивания.

Аннотация

Реконструкция филогении белков обычно проводится по множественному выравниванию их аминокислотных последовательностей. Одной из проблем является наличие в таких выравниваниях участков различной консервативности, в том числе таких, где качество выравнивания сомнительно. Для решения этой проблемы часто применяется фильтрация колонок выравнивания, для чего разработано специальное программное обеспечение. В данной работе исследованы различные подходы к реконструкции филогении на примере белков с двумя эволюционными доменами. Последовательности таких белков заведомо неоднородны по консервативности благодаря наличию как эволюционных доменов, так и линкеров между доменами, а также N– и C‑концевых частей. Показано, что фильтрация колонок выравнивания в среднем улучшает качество реконструкции только при использовании полноразмерных последовательностей и только при работе с эукариотическими белками. Показано также, что ограничение выравнивания на эволюционные домены с отбрасыванием менее консервативных линкеров и концевых последовательностей в среднем ухудшает качество филогенетической реконструкции.

Сноски

* Адресат для корреспонденции.

Финансирование

Работа выполнена при финансовой поддержке Российского научного фонда (грант № 21-14-00135).

Вклад авторов

С.А. Спирин – концепция и руководство работой; Д.Д. Латорцева, А.И. Сигорских – проведение компьютерных экспериментов; С.А. Спирин, А.И. Сигорских – обсуждение результатов исследования; А.С. Карягина – редактирование текста статьи.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов.

Соблюдение этических норм

Настоящая статья не содержит описания каких-либо исследований с участием людей или животных в качестве объектов.

Список литературы

1. Talavera, G., and Castresana, J. (2007) Improvement of phylogenies after removing divergent and ambiguously aligned blocks from protein sequence alignments, System. Biol., 56, 564-577, doi: 10.1080/10635150701472164.

2. Capella-Gutiérrez, S., Silla-Martínez, J. M., and Gabaldón, T. (2009) TrimAl: a tool for automated alignment trimming in large-scale phylogenetic analyses, Bioinformatics, 25, 1972-1973, doi: 10.1093/bioinformatics/btp348.

3. Dress, A. W., Flamm, C., Fritzsch, G., Grünewald, S., Kruspe, M., Prohaska, S. J., and Stadler, P. F. (2008) Noisy: identification of problematic columns in multiple sequence alignments, Algorithms Mol. Biol., 3, 7, doi: 10.1186/1748-7188-3-7.

4. Jermiin, L. S., Catullo, R. A., and Holland, B. R. (2020) A new phylogenetic protocol: dealing with model misspecification and confirmation bias in molecular phylogenetics, NAR Genom. Bioinform., 2, lqaa041, doi: 10.1093/nargab/lqaa041.

5. Dereeper, A., Guignon, V., Blanc, G., Audic, S., Buffet, S., Chevenet, F., Dufayard, J.-F., Guindon, S., Lefort, V., Lescot, M., Claverie, J.-M., and Gascuel, O. (2008) Phylogeny.fr: robust phylogenetic analysis for the non-specialist, Nucleic Acids Res., 36, W465-W469, doi: 10.1093/nar/gkn180.

6. Lemoine, F., Correia, D., Lefort, V., Doppelt-Azeroual, O., Mareuil, F., Cohen-Boulakia, S., and Gascuel, O. (2019) NGPhylogeny.fr: new generation phylogenetic services for non-specialists, Nucleic Acids Res., 47, W260-W265, doi: 10.1093/nar/gkz303.

7. Tan, G., Muffato, M., Ledergerber, C., Herrero, J., Goldman, N., Gil, M., and Dessimoz, C. (2015) Current methods for automated filtering of multiple sequence alignments frequently worsen single-gene phylogenetic inference, System. Biol., 64, 778-791, doi: 10.1093/sysbio/syv033.

8. Mistry, J., Chuguransky, S., Williams, L., Qureshi, M., Salazar, G. A., Sonnhammer, E. L. L., Tosatto, S. C. E., Paladin, L., Raj, S., Richardson, L. J., Finn, R. D., and Bateman, A. (2021) Pfam: The protein families database in 2021, Nucleic Acids Res., 49, D412-D419, doi: 10.1093/nar/gkaa913.

9. Edgar, R. C. (2004) MUSCLE: multiple sequence alignment with high accuracy and high throughput, Nucleic Acids Res., 32, 1792-1797, doi: 10.1093/nar/gkh340.

10. Lefort, V., Desper, R., and Gascuel, O. (2015) FastME 2.0: a comprehensive, accurate, and fast distance-based phylogeny inference program, Mol. Biol. Evol., 32, 2798-2800, doi: 10.1093/nar/gkh340.

11. Robinson, D. F., and Foulds, L. R. (1981) Comparison of phylogenetic trees, Math. Biosci., 53, 131-147, doi: 10.1016/0025-5564(81)90043-2.

12. Federhen, S. (2012) The NCBI taxonomy database, Nucleic Acids Res., 40, D136-D143, doi: 10.1093/nar/gkr1178.

13. Kalinina, O. V., Novichkov, P. S., Mironov, A. A., Gelfand, M. S., and Rakhmaninova, A. B. (2004) SDPpred: a tool for prediction of amino acid residues that determine differences in functional specificity of homologous proteins, Nucleic Acids Res., 32, W424-W428, doi: 10.1093/nar/gkh391.

14. Felsenstein, J. (1985) Confidence limits on phylogenies: an approach using the bootstrap, Evolution, 39, 783-791, doi: 10.1111/j.1558-5646.1985.tb00420.x.

15. Huerta-Cepas, J., Serra, F., and Bork, P. (2016) ETE 3: reconstruction, analysis, and visualization of phylogenomic data, Mol. Biol. Evol., 33, 1635-1638, doi: 10.1093/molbev/msw046.

16. Song, L., Wu, S., and Tsang, A. (2018) Phylogenetic analysis of protein family, in Fungal Genomics. Methods in Molecular Biology (de Vries, R., Tsang, A., Grigoriev, I., eds) vol. 1775, Humana Press, New York, pp. 267-291, doi: 10.1007/978-1-4939-7804-5_21.