Công cụ phổ hỗ trợ chú giải biến dị
Cộng đồng khoa học đã phát triển rất nhiều nền tảng và công cụ hỗ trợ chú giải biến dị. Một số server hỗ trợ chú giải biến dị phổ biến bao gồm: NCBI, Ensemble, UCSC, ENCylopedia Of DNA Elements (ENCODE), Roadmap Epigenomics Consortium, FANTOM5, dbSNP, v.v…
Một số công cụ chú thích biến dị mã nguồn mở phổ biến bao gồm: spliceAI, SIFT, PROVEAN, polyphen, MutationTaster, PHAST, Mutation Assessor, M-CAP, Linsight, GERP, GenoCanyon, FIRE, fathmm, CADD, VEP, v.v…
SpliceAI
SpliceAI là một phần mềm ứng dụng trí tuệ nhân tạo (AI) mã nguồn mở [4] được Illumina công bố vào năm 2019 [5] . SpliceAI chú thích biến dị dựa trên sự kết nối của các chuỗi mRNA bậc một (primary sequence). Bằng cách sử dụng mạng học sâu, spliceAI dự đoán các mối nối từ một bản phiên mã tiền mRNA, tạo tiền đề để dự đoán chính xác các biến dị không mã hóa (non-coding variants) gây phân tách khác thường (cryptic splicing) [3]. Các đột biến nằm trên các đoạn không mã hóa thường bị bỏ qua ở những bệnh nhân mắc các bệnh di truyền hiếm gặp, vì vậy sự xuất hiện của phần mềm này cho ta thông tin chi tiết hơn về các đột biến đó trên gen.
SIFT
SIFT, được phát triển vào năm 2011 và quản lý bởi Pauline Ng, là một công cụ dự đoán liệu sự thay thế axit amin có ảnh hưởng đến chức năng của protein hay không [8]. SIFT được sử dụng rộng rãi trong các nghiên cứu về tin sinh học, di truyền, bệnh tật và đột biến. Vào năm 2017, phiên bản nhanh hơn của SIFT ra đời, SIFT 4G, cho phép người dùng mở rộng quy mô tính toán và cung cấp dữ liệu dự đoán cho nhiều sinh vật hơn. SIFT chú thích và cung cấp các dự đoán có hại/dung nạp cho các biến dị đơn điểm. Đối với biến dị chèn-xóa (indels), SIFT chỉ cung cấp kết quả chú thích. So với SIFT, SIFT 4G – Sorting Intolerant From Tolerant For Genomes, được triển khai trên GPU, do đó việc xử lý một protein chỉ mất 3 giây thay vì 4 phút [7].
PROVEAN
PROVEAN (Protein Variation Effect Analyzer) là một phần mềm được phát hành vào năm 2012 với mục đích dự đoán sự thay đổi chức năng sinh học của protein khi có đột biến thay thế điểm hoặc chèn-xóa. PROVEAN hoạt đông hiệu quả trong trường hợp lọc các chuỗi biến dị để xác định các biến dị không đồng nghĩa (nonsynonymous) hoặc các biến dị chèn-xóa được dự đoán là quan trọng về mặt chức năng. Hiệu suất của PROVEAN có thể tương đương với các công cụ phổ biến như SIFT hoặc PolyPhen-2 [6].
Polyphen
Polyphen hiện được biết đến trong phiên bản PolyPhen-2 (Polymorphism Phenotyping v2) là một công cụ dự đoán liệu sự thay thế của axit amin có ảnh hưởng đến cấu trúc và chức năng của protein người hay không [9]. PolyPhen-2 được phát triển từ PolyPhen với mục đích chú thích biến dị không đồng nghĩa. Polyphen-2 dựa trên trình tự protein, thông tin phát sinh loài (phylogenetic information) và thông tin cấu trúc để chú thích biến dị. Phần mềm sẽ xem xét liệu đột biến có nằm trong vùng protein cần thiết cho sự liên kết với các phân tử khác để hình thành cấu trúc bậc hai hoặc bậc ba hay không. Đặc biệt, Polyphen-2 xem xét các liên kết disulfide giả định, vị trí hoạt động, vị trí liên kết và miền xuyên màng sau đó thực hiện tính toán trên mô hình 3 chiều của cấu trúc protein. Polyphen-2 cũng xem xét các protein tương đồng để xem liệu đột biến sai lệch đã được xác định có được quan sát thấy trong các protein khác cùng họ hay không [10].
MutationTaster
MutationTaster là một công cụ chú giải biến dị được phát triển trên nền tảng web. MutationTaster đánh giá các biến dị trong chuỗi ADN về khả năng gây bệnh của chúng. Phần mềm thực hiện một loạt các bài kiểm tra mô phỏng bởi máy tính (in silico) để ước tính tác động của biến dị đối với sản phẩm hoặc protein của gen. Các thử nghiệm được thực hiện trên cấp độ protein và ADN, do đó, MutationTaster không giới hạn ở sự thay thế của các axit amin đơn lẻ mà còn có thể xử lý các biến thể đồng nghĩa (synonymous) hoặc intronic [11][12]. Mutation Taster được viết bằng Perl và có thể xử lý dữ liệu từ phương pháp giải trình tự thế hệ tiếp theo (Next generation Sequencing – NGS) của tất cả các nền tảng chính (Roche 454, Illumina Genome Analyzer và ABI SOLiD). MutationTaster sử dụng bộ phân loại Naive Bayes để quyết định xem liệu sự tác động của tất cả các biến dị đơn lẻ có thể gây hại cho protein hay không. Kết quả phân tích giải thích liệu sự thay đổi có phải là đột biến gây bệnh hoặc vô hại đã biết hoặc được dự đoán hay không và cung cấp thông tin chi tiết về đột biến đó [13]. Bản cập nhật mới nhất của MutationTaster vào năm 2021.
PHAST
Phân tích phát sinh loài với mô hình không gian/thời gian (Phylogenetic Analysis with Space/Time models – PHAST) được biết đến nhiều nhất là công cụ tìm kiếm đằng sau các bản bảo tồn (conservation tracks) trong trình duyệt bộ gen (Genome Browser) của Đại học California, Santa Cruz (UCSC). PHAST là một gói phần mềm miễn phí có sẵn bao gồm các chương trình dòng lệnh (command-line program) và các thư viện hỗ trợ cho hệ gen so sánh và tiến hóa. PHAST cũng bao gồm một số công cụ để lập mô hình phát sinh loài, xác định phần tử chức năng, cũng như các tiện ích để thao tác các căn chỉnh, cây và chú thích bộ gen. Các chương trình con chính của PHAST bao gồm phastCons (chấm điểm bảo tồn và xác định các yếu tố được bảo tồn), phyloFit (Xác định sự phù hợp của các mô hình phát sinh loài với trình tự ADN liên kết), phyloP (Tính toán các giá trị p để bảo toàn hoặc tăng tốc, cụ thể theo dòng dõi hoặc trên tất cả các nhánh), phastOdds (Chấm điểm tỷ lệ cược đăng nhập cho các mô hình phát sinh loài hoặc phylo-HMM), exoniphy (Dự đoán exon phát sinh loài), dless (Dự đoán các yếu tố được lựa chọn theo dòng dõi cụ thể), prequel (Tái tạo theo xác suất các trình tự của tổ tiên), và phastBias (Xác định chuyển đổi gen thiên vị GC bằng cách sử dụng phylo-HMM) [14].
Mutation Assessor
Mutation Assessor dự đoán tác động chức năng (functional impact) của sự thay thế axit amin trong protein, chẳng hạn như đột biến được phát hiện trong bệnh ung thư hoặc sai lệch đa hình (missense polymorphism). Tác động chức năng được đánh giá dựa trên sự bảo tồn tiến hóa của axit amin bị ảnh hưởng trong các tương đồng protein (synonymous protein). Phương pháp đã được xác nhận trên một tập hợp lớn (60 nghìn) bệnh liên quan (OMIM) và các biến thể đa hình [15]. Trình đánh giá đột biến sử dụng liên kết nhiều trình tự (multiple sequence alignment – MSA), được phân vùng để phản ánh tính đặc hiệu của chức năng và tạo ra điểm bảo toàn cho mỗi cột để thể hiện tác động chức năng của một biến thể sai lệch. Mutation Assessor tạo ra MSA riêng bằng cách sử dụng trình tự protein UniProt. Sau đó chúng được phân vùng dựa trên ranh giới miền UniProt và Pfam và cấu trúc 3D được sử dụng để tạo ra các tập hợp họ và phân họ phù hợp [16]. Ra đời vào năm 2011, Mutation Assessor trải qua bốn lần phát hành, lần gần đây nhất vào năm 2015.
M-CAP
Mendelian Clinically Applicable Pathogenicity (M-CAP), được công bố vào năm 2016 bởi phòng thí nghiệm Bejerano, đại học Stanford, là bộ phân loại khả năng gây bệnh đầu tiên cho các biến dị sai lệch hiếm gặp trong bộ gen người được điều chỉnh đạt đến độ nhạy yêu cầu của khám nghiệm lâm sàng. M-CAP chỉ cho điểm các biến thể sai lệch hiếm gặp: hg19, ENSEMBL 75 missence, ExAC v0.3 trong đó không có siêu quần thể nào có tần số alen (minor allele frequency) nhỏ trên 1%. Nếu một biến thể missence không có điểm M-CAP, thì dự đoán của M-CAP được giả định là có khả năng lành tính. M-CAP sử dụng bộ phân loại gradient boosting tree để học một chức năng của các đặc điểm đầu vào như một sự kết hợp tuyến tính của các cây quyết định, mỗi cây được dẫn xuất lặp đi lặp lại để sửa các phần tử đã phân loại sai trước đó [18].
Linsight
Linsight, được phát triển vào năm 2016, dự đoán các vị trí nucleotide không mã hóa, tại đó các đột biến có khả năng gây ra hậu quả nghiêm trọng về thể chất và do đó có khả năng quan trọng về mặt kiểu hình. Linsight kết hợp một mô hình tuyến tính tổng quát cho dữ liệu bộ gen chức năng với một mô hình xác suất của sự tiến hóa phân tử. Phương pháp này nhanh chóng và có khả năng mở rộng cao, cho phép nó khai thác “Dữ liệu lớn” có sẵn trong hệ gen hiện đại. Ngoài ra, Linsight còn được áp dụng cho tập bản đồ của các chất hỗ trợ tăng cường ở người (atlas of human enhancer) và cho thấy các hậu quả về sức khỏe ở các chất hỗ trợ tăng cường phụ thuộc vào loại tế bào, tính đặc hiệu của mô và các hạn chế ở các chất hỗ trợ liên quan [19].
GERP
Hồ sơ tỷ lệ tiến hóa bộ gen (Genomic Evolutionary Rate Profiling – GERP), được phát hành vào năm 2011, xác định các yếu tố bị ràng buộc trong nhiều liên kết bằng cách định lượng các khoản thiếu hụt thay thế. Sự thiếu hụt này thể hiện sự thay thế có thể xảy ra nếu phần tử là ADN là trung tính, nhưng không xảy ra bởi vì phần tử đã bị hạn chế về mặt chức năng. Những khoản thâm hụt này được gọi là “Các khoản thay thế bị từ chối” (rejected substitution). Các thay thế bị từ chối là một thước đo thể hiện sự hạn chế tự nhiên, phản ánh sức mạnh của quá trình chọn lọc trong quá khứ đối với phần tử [20].
GenoCanyon
GenoCanyon là một phương pháp tiếp cận chú thích chức năng toàn bộ bộ gen dựa trên thống kê không giám sát. GenoCanyon tích hợp các biện pháp bảo tồn bộ gen và dữ liệu chú thích sinh hóa để dự đoán tiềm năng chức năng ở mỗi nucleotide. Bằng cách sử dụng 22 chú thích tính toán và thực nghiệm, công cụ dự đoán tiềm năng chức năng của từng vị trí trong bộ gen người. Với GenoCanyon, nhiều cùng chức năng đã biết có thể được dự đoán. Hiện tại với lần cập nhật mới nhất vào năm 2015, website chính thức của GenoCanyon [21] đã có sẵn điểm dự đoán cho toàn bộ bộ gen của con người phiên bản hg19, điểm dự đoán và tất cả 22 chú thích [22].
FIRE
FIRE là một công cụ chú thích biến thể trên toàn bộ bộ gen. FIRE chỉ định điểm số cao hơn cho SNV có nhiều khả năng thay đổi mức độ biểu hiện của các gen lân cận. Vì FIRE được thiết kế đạc biệt để điều chỉnh biểu hiện gen, điểm số FIRE không tương ứng trực tiếp với khả năng gây bệnh hoặc có hại. Ngoài ra, FIRE đặc trưng cho sự điều hòa biểu hiện ở cấp độ mARN và không áp dụng cho các SNV làm thay đổi sự biểu hiện của protein một cách độc lập với sự biểu hiện của mARN [22]
fathmm
Phân tích chức năng thông qua mô hình Markov ẩn (Functional Analysis through Hidden Markov Models – fathmm) được phát triển vào năm 2014 dưới dạng máy chủ web thông lượng cao có khả năng dự đoán hậu quả chức năng của cả hai biến thể mã hóa, tức là các biến dị nucleotide đơn không đồng nghĩa (nsSNV) và các biến dị không mã hóa trong bộ gen người. Với chú thích biến dị không mã hóa, fathmm có hai lựa chọn bao gồm FATHMM-MKL (sử dụng thuật toán MKL tích hợp các chú thích chức năng từ ENCODE với các HMM dựa trên nucleotide) và FATHMM-XF (nâng cao độ chính xác trong việc dự đoán các hậu quả chức năng của việc không mã hóa và mã hóa các biến thể nucleotide đơn (SNV)) [23].
FATHMM-XF là một cải tiến đáng kể so với FATHMM-MKL. Bằng cách sử dụng một tập hợp các nhóm tính năng mở rộng và một tập hợp các mô hình mở rộng, phương pháp mới mang lại độ chính xác cao hơn so với phương pháp tiền nhiệm trên các tập thử nghiệm độc lập. Cũng như FATHMM-MKL, FATHMM-XF dự đoán liệu các biến thể nucleotide đơn trong hệ gen người có khả năng hoạt động hay không về mặt chức năng trong các bệnh di truyền. FATHMM-XF sử dụng các mô hình riêng biệt cho các vùng mã hóa và không mã hóa, để cải thiện độ chính xác tổng thể. Không giống như FATHMM-MKL, các mô hình FATHMM-XF được xây dựng trên bộ dữ liệu đơn kênh (single-kernel dataset). Các mô hình sẽ tìm hiểu sự tương tác giữa các nguồn dữ liệu giúp tăng độ chính xác của dự đoán ở trên tất cả các vùng của bộ gen [24][25]
CADD
CADD, được phát triển vào năm 2014, là một công cụ để đánh giá mức độ nguy hại của các biến thể nucleotide đơn cũng như các biến dị chèn-xóa trong bộ gen người. Mặc dù có nhiều công cụ cho điểm và chú thích biến dị, hầu hết các chú thích có xu hướng khai thác một loại thông tin duy nhất (ví dụ: bảo tồn) và/hoặc bị hạn chế về phạm vi (ví dụ: sai các thay đổi). CADD là một công cụ tích hợp nhiều chú thích vào một chỉ số bằng cách đối chiếu các biến thể tồn tại qua quá trình chọn lọc tự nhiên với các đột biến được mô phỏng.
Điểm C tương quan chặt chẽ với sự đa dạng alen, khả năng gây bệnh của cả các biến thể mã hóa và không mã hóa, và các tác động điều tiết được đo lường bằng thực nghiệm, và cũng xếp hạng cao các biến thể nhân quả trong trình tự bộ gen riêng lẻ. Cuối cùng, điểm C của các biến thể phức tạp liên quan đến đặc điểm từ các nghiên cứu liên kết toàn bộ bộ gen (GWAS) cao hơn đáng kể so với các đối chứng phù hợp và tương quan với kích thước mẫu nghiên cứu, có khả năng phản ánh độ chính xác tăng lên của GWAS lớn hơn.
CADD có thể ưu tiên định lượng các biến thể nhân quả về chức năng, có hại và bệnh tật trên nhiều loại chức năng, kích thước hiệu ứng và kiến trúc di truyền và có thể được sử dụng ưu tiên biến thể nhân quả trong cả nghiên cứu và cơ sở lâm sàng [26].
VEP
VEP là một bộ phần mềm chú thích và phân tích hầu hết các dạng biến đổi gen trong các vùng mã hóa và không mã hóa của bộ gen. VEP có sẵn dưới dạng công cụ trực tuyến, dòng lệnh (command-line) bằng ngôn ngữ Perl, và thông qua giao diện chương trình ứng dụng Ensembl REST API (đại diện trạng thái chuyển giao). Mỗi giao diện được tối ưu hóa để hỗ trợ số lượng dữ liệu và mức độ trải nghiệm tin sinh học khác nhau. Cả ba đều sử dụng cùng một cơ sở mã cốt lõi để đảm bảo kết quả nhất quán trên mỗi giao diện. Một bộ kiểm tra toàn diện hỗ trợ tất cả mã, với sự tích hợp liên tục được thực hiện bởi Travis CI [27].
Nguồn tham khảo
[1] Choice of transcripts and software has a large effect on variant annotation – Genome Medicine
[2] https://si.biostat.washington.edu/sites/default/files/modules/variant_annotation_v1.pdf
[3] https://www.cell.com/cell/pdf/S0092-8674(18)31629-5.pdf
[4] spliceai
[5] Illumina Releases SpliceAI, Open Source AI software for Interpretation
[6] Choi Y, Sims GE, Murphy S, Miller JR, Chan AP (2012) Predicting the Functional Effect of Amino Acid Substitutions and Indels. PLoS ONE 7(10): e46688.
[7] https://sift.bii.a-star.edu.sg/sift4g/AboutSIFT4G.html
[8] Vaser R, Adusumalli S, Leng SN, Sikic M, Ng PC (2016) SIFT missense predictions for genomes. Nat Protocols 11: 1-9.
[9] Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P, Kondrashov AS, Sunyaev SR. Nat Methods 7(4):248-249 (2010). PubMed PDF Supplemental Information
[10] https://bredagenetics.com/polyphenpolyphen2/
[11] Schwarz, Jana Marie; Rödelsperger, Christian; Schuelke, Markus; Seelow, Dominik (2010-08-01). “MutationTaster evaluates disease-causing potential of sequence alterations”. Nature Methods. 7 (8): 575–576. doi:10.1038/nmeth0810-575. ISSN 1548-7105. PMID 20676075.
[12] Schwarz, Jana Marie; Cooper, David N; Schuelke, Markus; Seelow, Dominik (2014-03-28). “MutationTaster2: mutation prediction for the deep-sequencing age”. Nature Methods. 11 (4): 361–362. doi:10.1038/nmeth.2890. ISSN 1548-7105. PMID 24681721
[13] Simcikova D, Heneberg P (December 2019). “Refinement of evolutionary medicine predictions based on clinical evidence for the manifestations of Mendelian diseases”. Scientific Reports. 9 (1): 18577. doi:10.1038/s41598-019-54976-4. PMC 6901466. PMID 31819097
[14] Ramani R, Krumholz K, Huang Y, Siepel A (2018) PhastWeb: a web interface for evolutionary conservation scoring of multiple sequence alignments using phastCons and phyloP, Bioinformatics, Volume 35, Issue 13, Pages 2320–232
[15] MutationAssessor.org /// functional impact of protein mutations
[16] Reva B., Antipin Y., Sander C. Predicting the functional impact of protein mutations: Applications to cancer genomics. Nucleic Acids Res. (2011)
[17] Jagadeesh, K., Wenger, A., Berger, M., Guturu, H., Stenson, P., Cooper, D., Bernstein, J., and Bejerano, G. (2016). M-CAP eliminates a majority of variants with uncertain significance in clinical exomes at high sensitivity. Nature Genetics, 2016. 48 (12) 1581 DOI: 10.1038/ng.3703
[18] Jagadeesh, K., Wenger, A., Berger, M., Guturu, H., Stenson, P., Cooper, D., Bernstein, J., and Bejerano, G. (2016). M-CAP eliminates a majority of variants with uncertain significance in clinical exomes at high sensitivity. Nature Genetics, 2016. 48 (12) 1581 DOI: 10.1038/ng.370
[19] Huang YF, Gulko B, Siepel A. Fast, scalable prediction of deleterious noncoding variants from functional and population genomic data. Nat Genet. 2017;49(4):618-624. doi:10.1038/ng.3810
[20] Spies N, Weng Z, Bishara A, McDaniel J, Catoe D, Zook JM, Salit M, West RB, Batzoglou S, Sidow A. Genome-wide reconstruction of complex structural variants using read clouds. Nat Methods. 2017 Sep;14(9):915-920. doi: 10.1038/nmeth.4366. Epub 2017 Jul 17. PMID: 28714986; PMCID: PMC5578891.
[21] GenoCanyon Home
[22] Ioannidis NM, Davis JR, DeGorter MK, et al. FIRE: functional inference of genetic variants that regulate gene expression. Bioinformatics. 2017;33(24):3895-3901. doi:10.1093/bioinformatics/btx534
[23] Shihab HA, Gough J, Cooper DN, Stenson PD, Barker GLA, Edwards KJ, Day INM, Gaunt, TR. (2013). Predicting the Functional, Molecular and Phenotypic Consequences of Amino Acid Substitutions using Hidden Markov Models. Hum. Mutat., 34:57-65
[24] Shihab HA, Rogers MF, Gough J, Mort M, Cooper DN, Day INM, Gaunt TR, Campbell C (2014). An Integrative Approach to Predicting the Functional Consequences of Non-coding and Coding Sequence Variation. Bioinformatics 2015 May 15;31(10):1536-43.
[25] Rogers MF, Shihab HA, Mort M, Cooper DN, Gaunt TR, Campbell C. FATHMM-XF: enhanced accuracy in the prediction of pathogenic sequence variants via an extended feature set. (journal submission
[26] Kircher M, Witten DM, Jain P, O’Roak BJ, Cooper GM, Shendure J. A general framework for estimating the relative pathogenicity of human genetic variant. Nat Genet. 2014 Feb 2. doi: 10.1038/ng.2892. PubMed PMID: 24487276.
[27] McLaren W, Gil L, Hunt SE, Riat HS, Ritchie GR, Thormann A, Flicek P, Cunningham F.
The Ensembl Variant Effect Predictor. Genome Biology Jun 6;17(1):122. (2016). doi:10.1186/s13059-016-0974-4