Variant Effect Predictor - Công cụ chú giải biến dị mạnh mẽ của Ensembl
Advisor: @Thanh Nguyen
Writer: @Trang Nguyen
Giới thiệu
Dự án 1000 hệ gen Việt Nam đã góp phần tìm ra hàng chục triệu biến dị di truyền tồn tại trong quần thể người Việt, trong đó có những biến dị chưa từng được phát hiện trong những nghiên cứu trước đây. Trong “biển” dữ liệu khổng lồ đó, thật khó lòng để nghiên cứu lần lượt từng biến dị có tác động thế nào lên cơ thể. Để giúp sức cho các nhà khoa học hoàn thành khối lượng công việc này, dự án đã sử dụng công cụ có tên Variant Effect Predictor, đến từ Ensembl, một công cụ chú giải mạnh mẽ, có thể đánh giá, phân loại, đối chiếu hoặc thậm chí dự đoán tác động những biến dị.
Sự ra đời của VEP
Trong những năm gần đây, khi khoa học kĩ thuật phát triển không ngừng nghỉ với nhiều công trình nghiên cứu nổi bật về tin y sinh, chúng ta đang tiến gần hơn tới y học chính xác, đem những thành quả nghiên cứu cơ bản áp dụng vào việc khám chữa bệnh. Trong y học chính xác, bên cạnh các yếu tố về môi trường ngoại cảnh, di truyền đóng một vai trò vô cùng quan trọng. Hội chứng Down, bệnh mù màu hay hội chứng Turner thường được nhắc tới trong y học đều bắt nguồn từ biến dị di truyền. Vì vậy, phân tích sự ảnh hưởng của mỗi biến dị trong bộ gene người là vô cùng thiết yếu. Hiện nay, có rất nhiều tổ chức đã tiến hành giải mã và nghiên cứu về những tác động về mặt chức năng của biến dị ở mỗi giai đoạn của quá trình biểu hiện gene. Ngoài ra, mỗi biến dị còn được đặt tên theo nhiều quy tắc khác nhau, với hai bộ giữ liệu tham chiếu chính là GENCODE và Reference Sequence (RefSeq) được quản lý và cập nhật bởi Trung tâm Thông tin Công nghệ sinh học Quốc gia, Hoa Kỳ (NCBI) [1]. Tuy nhiên, cũng chính vì sự đa dạng và dồi dào thông tin này dẫn đến sự mâu thuẫn trong việc kết hợp và diễn dịch thông tin. Nhìn nhận ra được vấn đề này, nhiều tổ chức đã phát triển ra các công cụ chú giải biến dị, khai thác một cách hiệu quả kết quả nghiên cứu từ nhiều cơ sở dữ liệu khác nhau, và gán cho từng biến dị những thông tin về danh pháp và chức năng tương ứng (VD. ANNOVAR, SnpEff, SnpSift, Fuma,…). Variant Effect Predictor – VEP là một trong những cái tên nổi bật đó. Đây là công cụ hiếm hoi cho phép người dùng sử dụng sử dụng trong nghiên cứu thương mại và phi thương mại miễn phí. Bên cạnh hệ gene người, VEP còn có thể sử dụng trong chú giải biến dị của hơn 80 loài động vật có và không có xương sống với bộ gene trong cơ sở dữ liệu của Ensembl.
VEP hoạt động như thế nào
VEP cho phép người dùng sử dụng bằng nhiều giao diện khác nhau: Web, Perl và REST API. Vượt trội hơn so với các công cụ khác, VEP có nhận thông tin đầu vào ở nhiều format khác nhau. Đứng đầu danh sách là VCF (Variant Call Format). File VCF là kết quả của quá trình phát hiện biến dị, bước cuối cùng trong quy trình phân tích, chọn lọc biến dị. Kết quả được hệ thống dưới dạng cột, cách nhau bởi “tab”. Các đề mục (Hình 1) bắt buộc gồm có CHROM (chromosome), POS (vị trí), ID, REF (allele trong bộ tham chiếu gốc), ALT (allele bị biến đổi). Phần thông tin được chủ giải bởi VEP sau đó sẽ được thêm vào cột INFO trong file VCF.
Hình 1. Những thành phần cơ bản của file VCF
Trước khi các biến dị được chú giải, VEP sẽ chuẩn hóa các đoạn biến dị thêm và mất đoạn trong các trình tự gene lặp lại, tách các biến dị phức tạp với nhiều trường hợp thay đổi cấu trúc khác nhau tại cùng một ví trí trên gene thành từng dòng riêng biệt. Những biến dị không vượt qua tiêu chuẩn chất lượng về độ dài, vị trí, allele gốc và allele tương ứng trong bộ gene tham chiếu sẽ bị lược bỏ. VEP đánh giá và gán nhãn loại ảnh hưởng của biến dị (CSQ) bằng các hàm thuộc tính. Trong nhiều trường hợp, biến dị nằm ở các đoạn phiên mã khác nhau thuộc cùng 1 gene có tác động lên gene khác nhau. Ví dụ, biến dị tại vị trí 935833 trên chromosom 1 (C>G) đồng thời được đánh giá là đột biến sai nghĩa trên phiên mã ENST00000618779, và đột biến trong đoạn intron trên ENST00000620200. VEP cũng cho người dùng được tùy chỉnh các tiêu chí để chọn ra chú giải phù hợp nhất.
Tốc độ chạy của VEP với chromosom 21 (67416 biến dị) là 1428 biến dị/giây, nhanh hơn 2 lần SnpEff (635 biến dị/giây) và chậm hơn Annovar 1.2 lần (1732 biến dị/giây). Tuy nhiên, với cả bộ gene người (4,474,140 biến dị), VEP (1200 biến dị/giây ) lại chạy chậm hơn Annovar (3415 biến dị/giây) và SnpEff (1598 biến dị/giây).
Các phiên bản của VEP được cập nhật đồng thời cùng các công cụ khác của Ensembl. Bản cập nhật mới nhất của VEP thuộc Ensembl 104.
Các cơ sở dữ liệu sử dụng bởi VEP
Bên cạnh dự đoán ảnh hưởng của biến dị, VEP còn có thể tìm kiếm và đối chiếu dữ liệu từ những có sở dữ liệu khác. Những chú giải này của VEP (Bảng 1) bao gồm chú giải về phiên mã, protein, vùng gene không được dịch mã thành protein, tần số allele trong quần thể, kiểu hình và các chú giải khác. Bên cạnh đó, VEP cho phép người dùng sử dụng những công cụ bổ trợ (plugins) để chú giải biến dị với 2 cơ sở dữ liệu dbscSNV và dbNSFP.
Bảng 1. Chú giải trong VEP và các cơ ở dữ liệu tương ứng
Loại chú giải trong VEP | Cơ sở dữ liệu |
---|---|
Phiên mã | GENCODE, RefSeq, Ensembl, APPRIS (Chỉ hỗ trợ HG38) |
Protein | SIFT, PolyPhen-2 |
Vùng gene không được dịch mã | ENCODE, BLUEPRINT, NIH Epigenomics Roadmap |
Tần số allele trong quần thể, kiểu hình và các chú giải khác | dbSNP, COSMIC, Human Gene Mutation Database (HGMD), Database of Genomic Variants |
Cơ sở dữ liệu dbscSNV cung cấp thông tin về tất cả những biến dị đơn nucleotide trong vùng nối và áp dụng học máy (Machine Learning) trong dự đoán chức năng của biến dị. Các đặc trưng (feature ) được sử dụng trong mô hình học máy bao gồm kết quả dự đoán từ Position Weight Matrix (PWM), MaxEntScan (MES) , Splice Site Prediction (NNSplice) , GeneSplicer, Human Splicing Finder (HSF), CADD_phred và PhyloP46way. AdaBoost và random forests là hai phương pháp học máy được sử dụng. Bản cập nhật gần đây nhất và vẫn được sử dụng của dbscSNV là v1.1 (Tháng 4, 2015).
Cơ sở dữ liệu dbNSFP chứa dữ liệu từ 37 thuật toán dự đoán ảnh hưởng (SIFT, SIFT4G, Polyphen2-HDIV, Polyphen2-HVAR, LRT, MutationTaster2, MutationAssessor, FATHMM, MetaSVM, MetaLR, CADD, CADD_hg19, VEST4, PROVEAN, FATHMM-MKL coding, FATHMM-XF coding, fitCons, LINSIGHT, DANN, GenoCanyon, Eigen, Eigen-PC, M-CAP, REVEL, MutPred, MVP, MPC, PrimateAI, GEOGEN2, BayesDel_addAF, BayesDel_noAF, ClinPred, LIST-S2, ALoFT), 9 thuật toán tính điểm bảo tồn gene (PhyloP, phastCons, GERP++, SiPhy, bStatistic), bên cạnh tần xuất allele từ Dự án 1000 genomes Thế giới (giai đoạn 3), UK10K, ExAC, gnomAD, ESP6500 và các danh pháp, miêu tả về chức năng, biểu hiện và tương tác gene từ nhiều cơ sở dữ liệu khác nhau. Trong phiên bản cập nhật dbNSFP v4 (2020), dựa trên Gencode bản 29 và Ensembl bản 94, tỉ lệ thiếu thông tin trung bình của trả về từ các thuật toán dự đoán tính gây hại của gene là 11%.
Lời kết
Cho đến nay, VEP vẫn là một trong những công cụ đắc lực nhất giúp chú giải biến dị và từng được sử dụng để chú giải biến dị trong Dự án 1000 Genome Thế giới [4], Nghiên cứ phát hiện vị trí có nguy cơ cao dẫn đến chứng rối loạn tăng động, giảm chú ý đầu tiên trên toàn bộ bộ gen người [5], Combined Annotation-Dependent Depletion (CADD) [6], ExAC: Trình duyệt cho phép tìm kiếm thông tin tham chiếu của hơn 60000 bộ exom [7]. Với sự phát triển và cập nhật liên tục của Ensembl, VEP hứa hẹn sẽ trở thành công cụ chú giải thiết yếu, góp phần vào sự phát triển của nghiên cứu tin sinh.
Nguồn thông tin tham khảo
[1] McLaren, W., Gil, L., Hunt, S.E. et al. The Ensembl Variant Effect Predictor. Genome Biol 17, 122 (2016). The Ensembl Variant Effect Predictor – Genome Biology
[2] Xueqiu Jian, Eric Boerwinkle, Xiaoming Liu, In silico prediction of splice-altering single nucleotide variants in the human genome, Nucleic Acids Research, Volume 42, Issue 22, 16 December 2014, Pages 13534–13544, In silico prediction of splice-altering single nucleotide variants in the human genome
[3] Jpopgen – dbNSFP
[4] 1000 Genomes | A Deep Catalog of Human Genetic Variation
[5] Demontis, D., Walters, R.K., Martin, J. et al. Discovery of the first genome-wide significant risk loci for attention deficit/hyperactivity disorder. Nat Genet 51, 63–75 (2019). https://doi.org/10.1038/s41588-018-0269-7
[6] Philipp Rentzsch, Daniela Witten, Gregory M Cooper, Jay Shendure, Martin Kircher, CADD: predicting the deleteriousness of variants throughout the human genome, Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D886–D894, CADD: predicting the deleteriousness of variants throughout the human genome
[7] Konrad J. Karczewski, Ben Weisburd, Brett Thomas, Matthew Solomonson, Douglas M. Ruderfer, David Kavanagh, Tymor Hamamsy, Monkol Lek, Kaitlin E. Samocha, Beryl B. Cummings, Daniel Birnbaum, The Exome Aggregation Consortium, Mark J. Daly, Daniel G. MacArthur, The ExAC browser: displaying reference data information from over 60 000 exomes, Nucleic Acids Research, Volume 45, Issue D1, January 2017, Pages D840–D845, The ExAC browser: displaying reference data information from over 60 000 exomes