The future and job prospects of Bioinformatics

Author: Cúc Trịnh, AI Intern, RnD Department, GeneStory JSC

The field of Bioinformatics is constantly changing. New tools, new databases, and even new languages ​​are being developed to make the analysis, interpretation, and storage of biological data more accessible and efficient. This article shares some information about the future of the industry, compiled and collected by members at the Biomedical Information Center, VinBigdata.

Main content:

  • The future of bioinformatics
  • AI in bioinformatics: Opportunities and forecasts to 2029
  • Career opportunities in bioinformatics industry
  • Biological market and applications of AI 
  • The ‘big guys’ and key factors in the future

Tương lai của tin sinh học

Tin sinh học (hay còn gọi là sinh học tính toán – bioinformatics) là một lĩnh vực nghiên cứu dữ liệu sinh học và sử dụng các công cụ máy tính để phân tích và giải thích dữ liệu đó. Tin sinh học coi dữ liệu chỉ là một loại thông tin, bên cạnh văn bản, âm thanh và video. 

Lĩnh vực này không ngừng phát triển khi các công cụ, ngôn ngữ và cơ sở dữ liệu mới được cải tiến. Với sự phát triển của hệ gen học (genomics) và hệ protein học (proteomics), lượng dữ liệu được tạo ra đã tăng theo cấp số nhân. Các phương pháp tiếp cận mới, ví dụ như học máy và học sâu, đang được phát triển để giúp giải quyết những thách thức trong việc gán nhãn, lưu trữ và giải mã tất cả dữ liệu này. Đặc biệt, với sự tiến bộ của công cụ mới này trong việc phân tích lượng dữ liệu khổng lồ về gen và protein, tương lai của ngành tin sinh học hứa hẹn nhiều tiềm năng và cơ hội.

AI trong lĩnh vực Tin sinh học: Cơ hội và dự báo đến năm 2029

Những tiến bộ ngày trong công nghệ tin sinh học đang thúc đẩy sự tăng trưởng của thị trường. Theo phân tích của Data Bridge Market Research, AI trong thị trường tin sinh học dự kiến ​​sẽ đạt giá trị 37.027,96 triệu USD vào năm 2029, với tốc độ CAGR là 42,7% trong giai đoạn dự báo. 

Thị trường trí tuệ nhân tạo (AI) trong lĩnh vực tin sinh học chứng kiến sự tăng trưởng đáng kể, đặc biệt khối ngành “dịch vụ” nổi lên như là phân khúc công nghệ chiếm ưu thế. Xu hướng này có thể giải thích bởi sự phát triển nhanh chóng trong việc thương mại hóa các thiết bị AI di động. Báo cáo về thị trường này cung cấp một phân tích toàn diện, bao gồm đánh giá về giá cả, bằng sáng chế và tiến bộ công nghệ. 

Bên cạnh đó, thị trường AI trong lĩnh vực tin sinh học được dự báo sẽ mở rộng nhanh chóng trên toàn cầu trong thời kỳ dự báo nhờ sự gia tăng của các nhà đầu tư và hỗ trợ của các dịch vụ tiên tiến, điều này đóng góp to lớn vào sự phát triển đa dạng và mạnh mẽ của thị trường. Cùng với đó, những nhà sản xuất đang tích cực tham gia vào hoạt động nghiên cứu và phát triển (R&D), tập trung vào việc giới thiệu các dịch vụ mới và độc đáo để đáp ứng nhu cầu ngày càng biến đổi của thị trường.

Cơ hội nghề nghiệp của ngành tin sinh học

Ngành tin sinh học đang trở thành một động lực đối với sự tiến bộ trong với nghiên cứu và ứng dụng sinh học, đặc biệt là trong lĩnh vực y học. Sự đa dạng và tích hợp của tin sinh học với nhiều lĩnh vực đang mở ra một tương lai đầy triển vọng. Một số lĩnh vực phải kể đến như là:

Chẩn đoán và Y học chính xác: Tin sinh học đang ngày càng chú trọng vào phát triển các phương pháp chẩn đoán và điều trị cá nhân hóa dựa trên thông tin gen và biểu hiện gen. Sự tiến bộ trong công nghệ genomics và proteomics sẽ giúp tạo ra các giải pháp y tế cho từng cá nhân chính xác hơn.

Phân tích dữ liệu lớn và học máy: Với lượng dữ liệu sinh học ngày càng lớn, tin sinh học đang sử dụng các phương pháp phân tích dữ liệu lớn và máy học để khám phá thông tin ẩn sau các tập dữ liệu phức tạp. Điều này giúp đưa ra những hiểu biết sâu sắc và dự đoán có ích.

Sửa đổi gen và điều chỉnh sinh học: Công nghệ sửa đổi gen như CRISPR-Cas9 đã mở ra những cơ hội mới để nghiên cứu và điều chỉnh gen một cách hiệu quả. Điều này có thể tác động đến nhiều lĩnh vực, từ nghiên cứu cơ bản đến ứng dụng y học.

Nghiên cứu sinh học môi trường và phát triển giải pháp bền vững: Tin sinh học cũng đang đóng vai trò quan trọng trong nghiên cứu và giải pháp để giảm thiểu tác động tiêu cực đối với môi trường. Phân tích gen và sinh học hệ thống có thể giúp hiểu rõ hơn về tác động của con người đối với môi trường để tìm kiếm giải pháp bền vững.

Tích hợp công nghệ thông tin và trí tuệ nhân tạo: Các công cụ công nghệ thông tin, bao gồm trí tuệ nhân tạo, đang trở thành một phần quan trọng trong tin sinh học. Sự kết hợp này mang lại khả năng xử lý dữ liệu mạnh mẽ và hiệu quả hơn.

Nghiên cứu sinh học hệ thống và tích hợp đa lĩnh vực: Tin sinh học đang hướng đến việc nghiên cứu các mối liên kết phức tạp trong sinh học hệ thống và tích hợp thông tin từ nhiều ngành nghề khác nhau, từ y học đến công nghiệp thực phẩm.

Thị trường sinh học và ứng dụng của AI 

Theo một thống kê gần đây, Bắc Mỹ đang thống trị AI toàn cầu trong thị trường tin sinh học bởi nhu cầu ngày càng tăng về công nghệ tiên tiến cũng như nghiên cứu và phát triển thuốc. Để đáp ứng nhu cầu này, các công ty và các bên tham gia thị trường đã bắt đầu ra mắt sản phẩm, cải tiến, thỏa thuận mua lại… Việc làm này dự kiến cũng ​​​​sẽ thúc đẩy tăng trưởng thị trường. 

AI trong thị trường tin sinh học được phân tích, đồng thời những hiểu biết và xu hướng về quy mô thị trường cũng được cung cấp theo quốc gia, sự chào bán, loại hình, sản phẩm và dịch vụ, ứng dụng và lĩnh vực như đã tham chiếu ở trên. 

Các quốc gia được đề cập trong báo cáo thị trường tin sinh học về AI toàn cầu bao gồm: Hoa Kỳ, Canada, Mexico (Bắc Mỹ); Vương quốc Anh, Đức, Pháp, Tây Ban Nha, Ý, Hà Lan, Thụy Sĩ, Nga, Bỉ, Thổ Nhĩ Kỳ… (châu Âu); Trung Quốc, Hàn Quốc, Nhật Bản, Ấn Độ, Úc, Singapore, Malaysia, Indonesia, Thái Lan, Philippines… (khu vực Châu Á – Thái Bình Dương); Nam Phi, Ả Rập Saudi, U.A.E., Israel, Ai Cập… (khu vực Trung Đông và Châu Phi); Brazil, Argentina ở Nam Mỹ (Smith 2023) (Mahdavi 2011).

Những ‘ông lớn’ và nhân tố chính trong tương lai 

Các nhà tin sinh học tham gia vào tất cả khía cạnh của lĩnh vực tin sinh học, từ phân tích, giải thích dữ liệu đến lập bản đồ và mô hình hóa. Để có được sự đánh giá cao về bối cảnh tương lai, điều quan trọng là phải hiểu một số nhân vật chủ chốt trong không gian này, trong đó phải kể đến các ông lớn như IBM, Microsoft và Google, cùng với các công ty công nghệ sinh học và dược phẩm cũng như các công ty khởi nghiệp đang phát triển các công nghệ mới này. Một số nhân tố quan trọng khác trong tương lai của tin sinh học bắt nguồn từ sự phát triển của công nghệ Blockchain. Blockchain và người dùng blockchain đang được dự đoán là nhân tố tiên phong trong cách mạng hóa tương lai của tin sinh học bằng cách cung cấp nguồn lưu trữ dữ liệu phi tập trung và an toàn.

Kết luận

Dữ liệu lớn và AI đã phần nào thay đổi cách chúng ta phân tích và đọc – hiểu dữ liệu sinh học. Tin sinh học truyền thống sẽ vẫn là một phần quan trọng của quá trình phát triển này vì ban đầu nó được phát triển để phân tích dữ liệu trình tự. Hơn nữa, tin sinh học truyền thống cũng có thể tận dụng nguồn dữ liệu lớn và AI có sẵn trong thập kỷ tới để đưa ra những hiểu biết sâu sắc, khám phá các mối quan hệ và chức năng sinh học mới. 

 

Nguồn tham khảo:

  1. Mahdavi, Mahmood A. 2011. Bioinformatics: Trends and Methodologies. BoD – Books on Demand.
  2. Smith, Jack. 2023. “The Increasing Advancements in Bioinformatics Technology Are Further Boosting the Market Growth. However, the High Cost of Instrumentations and Cybersecurity Concerns in Bioinformatics Might Hamper the Growth of the Global AI in Bioinformatics Market in the Forecast Period.” November 21, 2023. https://www.linkedin.com/pulse/ai-bioinformatics-market-industry-analysis-forecast-2029-jack-smith-dgdif.

Tương lai và triển vọng việc làm của Tin sinh học

Tác giả: Cúc Trịnh, AI Intern, RnD Department, GeneStory JSC

Lĩnh vực Tin sinh học thay đổi không ngừng. Các công cụ mới, cơ sở dữ liệu mới và thậm chí cả ngôn ngữ mới đang được phát triển để giúp cho việc phân tích, diễn giải và lưu trữ dữ liệu sinh học trở nên dễ tiếp cận và hiệu quả hơn. Bài viết này chia sẻ phần nào về tương lai của ngành, do các thành viên tại Trung tâm Tin y sinh, VinBigdata tổng hợp và sưu tầm.

Nội dung chính:

  1. Tương lai của tin sinh học
  2. AI trong lĩnh vực tin sinh học: Cơ hội và dự báo đến năm 2029
  3. Cơ hội nghề nghiệp của ngành tin sinh học
  4. Thị trường sinh học và ứng dụng của AI 
  5. Những ‘ông lớn’ và nhân tố chính trong tương lai

Tương lai của tin sinh học

Tin sinh học (hay còn gọi là sinh học tính toán – bioinformatics) là một lĩnh vực nghiên cứu dữ liệu sinh học và sử dụng các công cụ máy tính để phân tích và giải thích dữ liệu đó. Tin sinh học coi dữ liệu chỉ là một loại thông tin, bên cạnh văn bản, âm thanh và video. 

Lĩnh vực này không ngừng phát triển khi các công cụ, ngôn ngữ và cơ sở dữ liệu mới được cải tiến. Với sự phát triển của hệ gen học (genomics) và hệ protein học (proteomics), lượng dữ liệu được tạo ra đã tăng theo cấp số nhân. Các phương pháp tiếp cận mới, ví dụ như học máy và học sâu, đang được phát triển để giúp giải quyết những thách thức trong việc gán nhãn, lưu trữ và giải mã tất cả dữ liệu này. Đặc biệt, với sự tiến bộ của công cụ mới này trong việc phân tích lượng dữ liệu khổng lồ về gen và protein, tương lai của ngành tin sinh học hứa hẹn nhiều tiềm năng và cơ hội.

AI trong lĩnh vực Tin sinh học: Cơ hội và dự báo đến năm 2029

Những tiến bộ ngày trong công nghệ tin sinh học đang thúc đẩy sự tăng trưởng của thị trường. Theo phân tích của Data Bridge Market Research, AI trong thị trường tin sinh học dự kiến ​​sẽ đạt giá trị 37.027,96 triệu USD vào năm 2029, với tốc độ CAGR là 42,7% trong giai đoạn dự báo. 

Thị trường trí tuệ nhân tạo (AI) trong lĩnh vực tin sinh học chứng kiến sự tăng trưởng đáng kể, đặc biệt khối ngành “dịch vụ” nổi lên như là phân khúc công nghệ chiếm ưu thế. Xu hướng này có thể giải thích bởi sự phát triển nhanh chóng trong việc thương mại hóa các thiết bị AI di động. Báo cáo về thị trường này cung cấp một phân tích toàn diện, bao gồm đánh giá về giá cả, bằng sáng chế và tiến bộ công nghệ. 

Bên cạnh đó, thị trường AI trong lĩnh vực tin sinh học được dự báo sẽ mở rộng nhanh chóng trên toàn cầu trong thời kỳ dự báo nhờ sự gia tăng của các nhà đầu tư và hỗ trợ của các dịch vụ tiên tiến, điều này đóng góp to lớn vào sự phát triển đa dạng và mạnh mẽ của thị trường. Cùng với đó, những nhà sản xuất đang tích cực tham gia vào hoạt động nghiên cứu và phát triển (R&D), tập trung vào việc giới thiệu các dịch vụ mới và độc đáo để đáp ứng nhu cầu ngày càng biến đổi của thị trường.

Cơ hội nghề nghiệp của ngành tin sinh học

Ngành tin sinh học đang trở thành một động lực đối với sự tiến bộ trong với nghiên cứu và ứng dụng sinh học, đặc biệt là trong lĩnh vực y học. Sự đa dạng và tích hợp của tin sinh học với nhiều lĩnh vực đang mở ra một tương lai đầy triển vọng. Một số lĩnh vực phải kể đến như là:

Chẩn đoán và Y học chính xác: Tin sinh học đang ngày càng chú trọng vào phát triển các phương pháp chẩn đoán và điều trị cá nhân hóa dựa trên thông tin gen và biểu hiện gen. Sự tiến bộ trong công nghệ genomics và proteomics sẽ giúp tạo ra các giải pháp y tế cho từng cá nhân chính xác hơn.

Phân tích dữ liệu lớn và học máy: Với lượng dữ liệu sinh học ngày càng lớn, tin sinh học đang sử dụng các phương pháp phân tích dữ liệu lớn và máy học để khám phá thông tin ẩn sau các tập dữ liệu phức tạp. Điều này giúp đưa ra những hiểu biết sâu sắc và dự đoán có ích.

Sửa đổi gen và điều chỉnh sinh học: Công nghệ sửa đổi gen như CRISPR-Cas9 đã mở ra những cơ hội mới để nghiên cứu và điều chỉnh gen một cách hiệu quả. Điều này có thể tác động đến nhiều lĩnh vực, từ nghiên cứu cơ bản đến ứng dụng y học.

Nghiên cứu sinh học môi trường và phát triển giải pháp bền vững: Tin sinh học cũng đang đóng vai trò quan trọng trong nghiên cứu và giải pháp để giảm thiểu tác động tiêu cực đối với môi trường. Phân tích gen và sinh học hệ thống có thể giúp hiểu rõ hơn về tác động của con người đối với môi trường để tìm kiếm giải pháp bền vững.

Tích hợp công nghệ thông tin và trí tuệ nhân tạo: Các công cụ công nghệ thông tin, bao gồm trí tuệ nhân tạo, đang trở thành một phần quan trọng trong tin sinh học. Sự kết hợp này mang lại khả năng xử lý dữ liệu mạnh mẽ và hiệu quả hơn.

Nghiên cứu sinh học hệ thống và tích hợp đa lĩnh vực: Tin sinh học đang hướng đến việc nghiên cứu các mối liên kết phức tạp trong sinh học hệ thống và tích hợp thông tin từ nhiều ngành nghề khác nhau, từ y học đến công nghiệp thực phẩm.

Thị trường sinh học và ứng dụng của AI 

Theo một thống kê gần đây, Bắc Mỹ đang thống trị AI toàn cầu trong thị trường tin sinh học bởi nhu cầu ngày càng tăng về công nghệ tiên tiến cũng như nghiên cứu và phát triển thuốc. Để đáp ứng nhu cầu này, các công ty và các bên tham gia thị trường đã bắt đầu ra mắt sản phẩm, cải tiến, thỏa thuận mua lại… Việc làm này dự kiến cũng ​​​​sẽ thúc đẩy tăng trưởng thị trường. 

AI trong thị trường tin sinh học được phân tích, đồng thời những hiểu biết và xu hướng về quy mô thị trường cũng được cung cấp theo quốc gia, sự chào bán, loại hình, sản phẩm và dịch vụ, ứng dụng và lĩnh vực như đã tham chiếu ở trên. 

Các quốc gia được đề cập trong báo cáo thị trường tin sinh học về AI toàn cầu bao gồm: Hoa Kỳ, Canada, Mexico (Bắc Mỹ); Vương quốc Anh, Đức, Pháp, Tây Ban Nha, Ý, Hà Lan, Thụy Sĩ, Nga, Bỉ, Thổ Nhĩ Kỳ… (châu Âu); Trung Quốc, Hàn Quốc, Nhật Bản, Ấn Độ, Úc, Singapore, Malaysia, Indonesia, Thái Lan, Philippines… (khu vực Châu Á – Thái Bình Dương); Nam Phi, Ả Rập Saudi, U.A.E., Israel, Ai Cập… (khu vực Trung Đông và Châu Phi); Brazil, Argentina ở Nam Mỹ (Smith 2023) (Mahdavi 2011).

Những ‘ông lớn’ và nhân tố chính trong tương lai 

Các nhà tin sinh học tham gia vào tất cả khía cạnh của lĩnh vực tin sinh học, từ phân tích, giải thích dữ liệu đến lập bản đồ và mô hình hóa. Để có được sự đánh giá cao về bối cảnh tương lai, điều quan trọng là phải hiểu một số nhân vật chủ chốt trong không gian này, trong đó phải kể đến các ông lớn như IBM, Microsoft và Google, cùng với các công ty công nghệ sinh học và dược phẩm cũng như các công ty khởi nghiệp đang phát triển các công nghệ mới này. Một số nhân tố quan trọng khác trong tương lai của tin sinh học bắt nguồn từ sự phát triển của công nghệ Blockchain. Blockchain và người dùng blockchain đang được dự đoán là nhân tố tiên phong trong cách mạng hóa tương lai của tin sinh học bằng cách cung cấp nguồn lưu trữ dữ liệu phi tập trung và an toàn.

Kết luận

Dữ liệu lớn và AI đã phần nào thay đổi cách chúng ta phân tích và đọc – hiểu dữ liệu sinh học. Tin sinh học truyền thống sẽ vẫn là một phần quan trọng của quá trình phát triển này vì ban đầu nó được phát triển để phân tích dữ liệu trình tự. Hơn nữa, tin sinh học truyền thống cũng có thể tận dụng nguồn dữ liệu lớn và AI có sẵn trong thập kỷ tới để đưa ra những hiểu biết sâu sắc, khám phá các mối quan hệ và chức năng sinh học mới. 

 

Nguồn tham khảo:

  1. Mahdavi, Mahmood A. 2011. Bioinformatics: Trends and Methodologies. BoD – Books on Demand.
  2. Smith, Jack. 2023. “The Increasing Advancements in Bioinformatics Technology Are Further Boosting the Market Growth. However, the High Cost of Instrumentations and Cybersecurity Concerns in Bioinformatics Might Hamper the Growth of the Global AI in Bioinformatics Market in the Forecast Period.” November 21, 2023. https://www.linkedin.com/pulse/ai-bioinformatics-market-industry-analysis-forecast-2029-jack-smith-dgdif.

Overview of variant annotation​

Authors:  

Circular RNA (circRNA) are single-stranded nucleotide molecules, covalently bonded to form a closed form. First discovered in 1976 in a study of plant pathogens. Since then, many questions have arisen for researchers about the function of this type of RNA. Several studies have shown that circRNAs are involved in immune responses and immune cells. The circRNA integrated analysis project hopes to build a model to understand the effects of this type of RNA on diseases, eliminating the influence of cell types on the model.

Tổng quan về chú thích biến dị

Tác giả:  

ARN dạng vòng (CircRNA) là các phân tử nucleotids mạch đơn, có liên kết cộng hóa trị để tạo thành dạng khép kín. Được tìm thấy lần đầu tiên vào năm 1976 trong một nghiên cứu về mầm bệnh của thực vật. Từ đó đã đặt ra nhiều câu hỏi cho các nhà nghiên cứu về chức năng của loại RNA này. Một số nghiên cứu đã chỉ ra rằng CircRNA có liên quan đến các phản ứng miễn dịch và các tế bào miễn dịch. Dự án phân tích tích hợp CircRNA với mong muốn xây dựng mô hình tìm hiểu ảnh hưởng của loại RNA này tới các bệnh, loại bỏ ảnh hưởng của các kiểu tế bào lên mô hình.

Overview of variant annotation

Writers:  

Advisor:

What is Variant Annotation?

Variant annotation is an important part of the analysis of genomic sequencing data. The annotation results can have a strong influence on the final conclusions of disease studies. Inaccurate or incomplete annotations can lead to missing potentially pathogenic DNA variants or diluting prominent variants in a series of false positives [1]. So what is variant annotation, and why is it important in the analysis of genomic data?

Variant annotation is the process of assigning functional information to DNA variants. Variant annotation provides us with information about variants, thereby supporting the analysis and interpretation of them. More specifically, we can examine the influence of aggregate associations of rare variants to identify, filter, and weight each component of that association (aggregation units). However, experiments involving the influence of rare variants still face some difficulties. The difficulties are largely caused by the scarcity of individuals carrying the variant allele. To optimize the calculation, rare variants in a biologically relevant region are often combined to form an aggregation unit. The types of variants and their relationships to the coding sequence in the genome provide us with information about the variation in the coding sequence and the variation in the gene product.

Annotating variants is like creating a road map for the genome [2]. To better understand variant annotation, let’s look at the following example:

Based on the map, the name of a city provides information about its location on the earth. Similarly, the chromosome and coordinates of the variant provide information about its location on the genome. Suppose we consider city A and the mutation on chromosome number 22 with coordinates 50552604.

The gray outlines overlaid on the map indicate that you are in a building or structure. Similarly, the gene name annotation provides information about the gene that is overlaying the variation, such as the gene named SYCE3 in the image below.

The roads indicate the possible paths to take from location A to any point B. Similarly, in the case under consideration, the identifier rs (Reference SNP cluster ID) and chú giải GWAS helped us determine that this variant had a prior relationship with a red blood cell trait called Mean corpuscular volume.

And finally, street and building names added to the map tell us exactly where we need to go. For example, we can walk to the UW farm, have lunch at Agua Verde, or go to Husky Stadium. Regulatory annotations help us identify variants that intersect according to certain rules, such as overlapping elements that are active in red blood cells and platelets, but not in brain or bladder cells.

Variant annotation support tools

The scientific community has developed many platforms and tools to support variant annotation. Some popular variant annotation support servers include: NCBI, Ensemble, UCSC, ENCylopedia Of DNA Elements (ENCODE), Roadmap Epigenomics Consortium, FANTOM5, dbSNP, etc.

Some popular open source variant annotation tools include: spliceAI, SIFT, PROVEAN, polyphen, MutationTaster, PHAST, Mutation Assessor, M-CAP, Linsight, GERP, GenoCanyon, FIRE, fathmm, CADD, VEP, etc.

SpliceAI

SpliceAI

is an open-source artificial intelligence (AI) application software [4] announced by Illumina in 2019 [5]. SpliceAI annotates variants based on the connection of primary mRNA sequences. Using a deep learning network, spliceAI predicts junctions from a pre-mRNA transcript, setting the stage for accurate prediction of non-coding variants that cause aberrant splicing (cryptic splicing) [3]. Mutations located on non-coding segments are often overlooked in patients with rare genetic diseases, so the appearance of this software gives us more detailed information about those mutations in the gene.

SIFT

SIFT, SIFT was developed in 2011 and managed by Pauline Ng, is a tool that predicts whether amino acid substitutions affect protein function [8]. SIFT is widely used in bioinformatics, genetics, disease, and mutation studies. In 2017, a faster version of SIFT, SIFT 4G, was released, allowing users to scale up the computation and provide prediction data for more organisms. SIFT annotates and provides deleterious/tolerant predictions for single-point mutations. For insertion-deletion mutations (indels), SIFT only provides annotation results. Compared to SIFT, SIFT 4G – Sorting Intolerant From Tolerant For Genomes, is implemented on GPUs, so processing a protein takes only 3 seconds instead of 4 minutes [7].

PROVEAN

PROVEAN (Protein Variation Effect Analyzer) is a software released in 2012 with the purpose of predicting changes in biological function of proteins when there are point substitution or insertion-deletion mutations. PROVEAN works effectively in the case of filtering variant sequences to identify nonsynonymous or insertion-deletion variants that are predicted to be functionally important. The performance of PROVEAN can be comparable to popular tools such as SIFT or PolyPhen-2 [6].

Polyphen

Polyphen now known as PolyPhen-2 (Polymorphism Phenotyping v2) is a tool that predicts whether amino acid substitutions affect the structure and function of human proteins [9]. PolyPhen-2 was developed from PolyPhen for the purpose of annotating non-synonymous variants. Polyphen-2 relies on protein sequences, phylogenetic information, and structural information to annotate variants. The software considers whether the mutation is located in a region of the protein that is required for binding to other molecules to form secondary or tertiary structures. In particular, Polyphen-2 considers putative disulfide bonds, active sites, binding sites, and transmembrane domains and then performs calculations on a 3D model of the protein structure. Polyphen-2 also considers homologous proteins to see if the identified missense mutation is observed in other proteins of the same family [10].

MutationTaster

MutationTaster MutationTaster is a web-based variant annotation tool. MutationTaster evaluates variants in DNA sequences for their pathogenic potential. The software performs a series of in silico tests to estimate the effect of the variant on the gene product or protein. The tests are performed at the protein and DNA level, so MutationTaster is not limited to single amino acid substitutions but can also handle synonymous or intronic variants [11][12]. Mutation Taster is written in Perl and can process data from next generation sequencing (NGS) methods of all major platforms (Roche 454, Illumina Genome Analyzer and ABI SOLiD). MutationTaster uses a Naive Bayes classifier to decide whether the effect of all single variants is likely to be deleterious to the protein. The analysis results explain whether the change is a known or predicted pathogenic or harmless mutation and provide detailed information about the mutation [13]. The latest update of MutationTaster in 2021.

PHAST

Phylogenetic Analysis with Space/Time models – PHAST PHAST is best known as the search engine behind the conservation tracks in the University of California, Santa Cruz (UCSC) Genome Browser. PHAST is a freely available software package that includes command-line programs and supporting libraries for comparative and evolutionary genomics. PHAST also includes a number of tools for phylogenetic modeling, functional element identification, as well as utilities for manipulating genome alignments, trees, and annotations. The main subroutines of PHAST include phastCons (conservation scoring and identification of conserved elements), phyloFit (Determine the fit of phylogenetic models to aligned DNA sequences), phyloP (Calculate p-values ​​for conservation or acceleration, lineage-specific or across all branches), phastOdds (Log-odds scoring for phylogenetic models or phylo-HMMs), exoniphy (Phylogenetic exon prediction), dless (Predict lineage-specific selected elements), prequel (Probabilistic reconstruction of ancestral sequences), and phastBias (Identify GC-biased gene conversion using phylo-HMMs) [14].

Mutation Assessor

Mutation Assessor predict the functional impact of amino acid substitutions in proteins, such as mutations found in cancer or missense polymorphisms. The functional impact is assessed based on the evolutionary conservation of the affected amino acid in protein homologs. The method has been validated on a large (60k) set of disease-associated polymorphisms (OMIM) and polymorphic variants [15]. The Mutation Assessor uses multiple sequence alignment (MSA), partitioned to reflect functional specificity, and generates a conservation score for each column to represent the functional impact of an aberrant variant. The Mutation Assessor generates individual MSAs using UniProt protein sequences. These are then partitioned based on UniProt and Pfam domain boundaries, and the 3D structure is used to generate matched family and subfamily sets [16]. Launched in 2011, Mutation Assessor has gone through four releases, the most recent in 2015.

M-CAP

Mendelian Clinically Applicable Pathogenicity (M-CAP), published in 2016 by the Bejerano lab at Stanford University, is the first pathogenicity classifier for rare missense variants in the human genome that has been tuned to the sensitivity required for clinical testing. M-CAP scores only rare missense variants: hg19, ENSEMBL 75 missense, ExAC v0.3 in which no metapopulation has a minor allele frequency above 1%. If a missense variant has no M-CAP score, the M-CAP prediction is assumed to be likely benign. M-CAP uses a gradient boosting tree classifier to learn a function of input features as a linear combination of decision trees, each of which is iteratively derived to correct previously misclassified elements [18].

Linsight

Linsight, developed in 2016, predicts non-coding nucleotide positions where mutations are likely to have severe physical consequences and are therefore likely to be phenotypically important. Linsight combines a generalized linear model for functional genomics data with a probabilistic model of molecular evolution. The method is fast and highly scalable, allowing it to exploit the “Big Data” available in modern genomics. In addition, Linsight was applied to the atlas of human enhancers and showed that health consequences at enhancers depend on cell type, tissue specificity, and constraints at the enhancers involved [19].

GERP

Genomic Evolutionary Rate Profiling – GERP released in 2011, identifies elements that are constrained in multiple alignments by quantifying substitution deficits. These deficits represent substitutions that would have occurred if the DNA element had been neutral, but did not occur because the element was functionally constrained. These deficits are called “rejected substitutions.” Rejected substitutions are a measure of natural constraint, reflecting the strength of past selection on the element [20].

GenoCanyon

GenoCanyon is an unsupervised statistical genome-wide functional annotation approach. GenoCanyon integrates genomic conservation measures and biochemical annotation data to predict the functional potential at each nucleotide. Using 22 computational and experimental annotations, the tool predicts the functional potential of each position in the human genome. With GenoCanyon, many of the same known functions can be predicted. Currently, with the latest update in 2015, the official GenoCanyon website [21] has available the prediction score for the entire human genome version hg19, the prediction score, and all 22 annotations [22].

FIRE

FIRE is a genome-wide variant annotation tool. FIRE assigns a higher score to SNVs that are more likely to alter the expression levels of neighboring genes. Because FIRE is specifically designed to regulate gene expression, the FIRE score does not directly correlate with pathogenicity or deleteriousness. Additionally, FIRE is specific to mRNA-level expression regulation and does not apply to SNVs that alter protein expression independently of mRNA expression [22]

fathmm

Functional Analysis through Hidden Markov Models – fathmm was developed in 2014 as a high-throughput web server capable of predicting the functional consequences of both coding variants, i.e. non-synonymous single nucleotide variants (nsSNVs), and non-coding variants in the human genome. For non-coding variant annotation, fathmm has two options including FATHMM-MKL (which uses the MKL algorithm that integrates functional annotations from ENCODE with nucleotide-based HMMs) and FATHMM-XF (which improves the accuracy in predicting the functional consequences of non-coding and coding single nucleotide variants (SNVs)) [23].

FATHMM-XF is a significant improvement over FATHMM-MKL. By using an expanded set of feature sets and an expanded set of models, the new method delivers higher accuracy than its predecessor on independent test sets. Like FATHMM-MKL, FATHMM-XF predicts whether single nucleotide variants in the human genome are likely to be functionally active in genetic diseases. FATHMM-XF uses separate models for coding and non-coding regions, to improve overall accuracy. Unlike FATHMM-MKL, FATHMM-XF models are built on a single-kernel dataset. The models learn the interactions between data sources to increase prediction accuracy across all regions of the genome [24][25]

CADD

CADD,

developed in 2014, is a tool to assess the deleteriousness of single nucleotide variants and insertion-deletions in the human genome. Although there are many variation scoring and annotation tools, most annotations tend to exploit a single type of information (e.g., conservation) and/or are limited in scope (e.g., false positives). CADD is a tool that integrates multiple annotations into one index by comparing variants that have survived natural selection with simulated mutations.

The C-score correlates strongly with allelic diversity, pathogenicity of both coding and non-coding variants, and experimentally measured regulatory effects, and also ranks causal variants highly in individual genome sequences. Finally, the C-scores of trait-associated intronic variants from genome-wide association studies (GWAS) were significantly higher than those from matched controls and correlated with study sample size, likely reflecting the increased precision of larger GWAS.

CADD can prioritize the quantification of functional, deleterious, and disease-causing variants across a wide range of functions, effect sizes, and genetic architectures and can be used to prioritize causal variants in both research and clinical settings [26].

VEP

VEP is a software suite for annotating and analyzing most forms of genetic variation in coding and non-coding regions of the genome. VEP is available as an online tool, command-line in Perl, and via the Ensembl REST API (transfer state representation) application program interface. Each interface is optimized to support different amounts of data and levels of bioinformatics experience. All three use the same core codebase to ensure consistent results across each interface. A comprehensive test suite supports all code, with continuous integration performed by Travis CI [27].

References:

[1]

[2] https://si.biostat.washington.edu/sites/default/files/modules/variant_annotation_v1.pdf

[3] https://www.cell.com/cell/pdf/S0092-8674(18)31629-5.pdf

[4]

[5]

[6] Choi Y, Sims GE, Murphy S, Miller JR, Chan AP (2012) Predicting the Functional Effect of Amino Acid Substitutions and IndelsPLoS ONE 7(10): e46688.

[7] https://sift.bii.a-star.edu.sg/sift4g/AboutSIFT4G.html

[8] Vaser R, Adusumalli S, Leng SN, Sikic M, Ng PC (2016) SIFT missense predictions for genomes. Nat Protocols 11: 1-9. 

[9] Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P, Kondrashov AS, Sunyaev SR. Nat Methods 7(4):248-249 (2010). PubMed PDF Supplemental Information

[10] https://bredagenetics.com/polyphenpolyphen2/

[11] Schwarz, Jana Marie; Rödelsperger, Christian; Schuelke, Markus; Seelow, Dominik (2010-08-01). “MutationTaster evaluates disease-causing potential of sequence alterations”. Nature Methods7 (8): 575–576. doi:10.1038/nmeth0810-575ISSN 1548-7105PMID 20676075.

[12] Schwarz, Jana Marie; Cooper, David N; Schuelke, Markus; Seelow, Dominik (2014-03-28). “MutationTaster2: mutation prediction for the deep-sequencing age”. Nature Methods11 (4): 361–362. doi:10.1038/nmeth.2890ISSN 1548-7105PMID 24681721

[13] Simcikova D, Heneberg P (December 2019). “Refinement of evolutionary medicine predictions based on clinical evidence for the manifestations of Mendelian diseases”Scientific Reports9 (1): 18577. doi:10.1038/s41598-019-54976-4PMC 6901466PMID 31819097

[14] Ramani R, Krumholz K, Huang Y, Siepel A (2018) PhastWeb: a web interface for evolutionary conservation scoring of multiple sequence alignments using phastCons and phyloP, Bioinformatics, Volume 35, Issue 13, Pages 2320–232

[15]

[16] Reva B., Antipin Y., Sander C. Predicting the functional impact of protein mutations: Applications to cancer genomics. Nucleic Acids Res. (2011)

[17] Jagadeesh, K., Wenger, A., Berger, M., Guturu, H., Stenson, P., Cooper, D., Bernstein, J., and Bejerano, G. (2016). M-CAP eliminates a majority of variants with uncertain significance in clinical exomes at high sensitivity. Nature Genetics, 2016. 48 (12) 1581 DOI: 10.1038/ng.3703

[18] Jagadeesh, K., Wenger, A., Berger, M., Guturu, H., Stenson, P., Cooper, D., Bernstein, J., and Bejerano, G. (2016). M-CAP eliminates a majority of variants with uncertain significance in clinical exomes at high sensitivity. Nature Genetics, 2016. 48 (12) 1581 DOI: 10.1038/ng.370

[19] Huang YF, Gulko B, Siepel A. Fast, scalable prediction of deleterious noncoding variants from functional and population genomic data. Nat Genet. 2017;49(4):618-624. doi:10.1038/ng.3810

[20] Spies N, Weng Z, Bishara A, McDaniel J, Catoe D, Zook JM, Salit M, West RB, Batzoglou S, Sidow A. Genome-wide reconstruction of complex structural variants using read clouds. Nat Methods. 2017 Sep;14(9):915-920. doi: 10.1038/nmeth.4366. Epub 2017 Jul 17. PMID: 28714986; PMCID: PMC5578891.

[21]

[22] Ioannidis NM, Davis JR, DeGorter MK, et al. FIRE: functional inference of genetic variants that regulate gene expression. Bioinformatics. 2017;33(24):3895-3901. doi:10.1093/bioinformatics/btx534

[23] Shihab HA, Gough J, Cooper DN, Stenson PD, Barker GLA, Edwards KJ, Day INM, Gaunt, TR. (2013). Predicting the Functional, Molecular and Phenotypic Consequences of Amino Acid Substitutions using Hidden Markov Models. Hum. Mutat.34:57-65 

[24] Shihab HA, Rogers MF, Gough J, Mort M, Cooper DN, Day INM, Gaunt TR, Campbell C (2014). An Integrative Approach to Predicting the Functional Consequences of Non-coding and Coding Sequence Variation. Bioinformatics 2015 May 15;31(10):1536-43.

[25] Rogers MF, Shihab HA, Mort M, Cooper DN, Gaunt TR, Campbell C. FATHMM-XF: enhanced accuracy in the prediction of pathogenic sequence variants via an extended feature set. (journal submission

[26] Kircher M, Witten DM, Jain P, O’Roak BJ, Cooper GM, Shendure J. A general framework for estimating the relative pathogenicity of human genetic variant. Nat Genet. 2014 Feb 2. doi: 10.1038/ng.2892. PubMed PMID: 24487276.

[27] McLaren W, Gil L, Hunt SE, Riat HS, Ritchie GR, Thormann A, Flicek P, Cunningham F.
The Ensembl Variant Effect Predictor. Genome Biology Jun 6;17(1):122. (2016). doi:10.1186/s13059-016-0974-4

Tổng quan về chú thích biến dị

Writers:  

Advisor:

Chú thích biến dị (Variants annotation) là gì?

Chú thích biến dị (Variant Annotation) là một phần quan trọng trong quá trình phân tích dữ liệu giải trình tự gen. Kết quả chú thích có thể gây ảnh hưởng mạnh mẽ đến kết luận cuối cùng của các nghiên cứu về bệnh. Các chú thích không chính xác hoặc không đầy đủ có thể dẫn đến việc bỏ sót các biến dị DNA có khả năng gây bệnh hoặc làm loãng các biến dị nổi bật trong một loạt các kết quả dương tính giả [1]. Vậy chú thích biến dị là gì, và vì sao chúng lại đóng vai trò quan trọng trong quá trình phân tích dữ liệu gen?

Chú thích biến dị là quá trình gán thông tin chức năng cho các biến dị ADN. Chú thích biến dị cung cấp cho chúng ta thông tin về các biến dị, từ đó hỗ trợ quá trình phân tích và giải thích chúng. Cụ thể hơn, chúng ta có thể kiểm tra sự ảnh hưởng của tổ hợp (aggregate association) các biến dị hiếm để xác định, lọc, và đánh trọng số cho từng thành phần của tổ hợp đó (aggregation units). Tuy nhiên, các thử nghiệm liên quan đến sự ảnh hưởng của biến dị hiếm vẫn gặp một số khó khăn. Trong đó các khó khăn phần lớn gây ra bởi sự khan hiếm của các cá thể mang alen biến dị. Để tối ưu tính toán, các biến dị hiếm trong một vùng có liên quan về mặt sinh học thường được kết hợp để tạo thành một đơn vị tổng hợp (aggregation unit). Các loại biến dị và mối quan hệ của chúng với trình tự mã hóa trong bộ gen cho chúng ta thông tin về sự thay đổi trong trình tự mã hóa và sự thay đổi trong sản phẩm của gen.

Chú thích biến dị cũng giống như tạo một bản đồ chỉ dẫn cho bộ gen [2]. Để hiểu hơn về chú thích biến dị ta hãy cùng quan sát ví dụ như sau:

Dựa vào bản đồ, tên của một thành phố cung cấp thông tin về vị trí của nó trên trái đất. Tương tự như vậy, nhiễm sắc thể và tọa độ của biến dị cung cấp thông tin về vị trí của nó trên bộ gen. Giả sử ta xét thành phố A và biến dị ở nhiễm sắc thể số 22 với tọa độ là 50552604.

Các đường viền xám được phủ lên bản đồ cho biết bạn đang ở trong tòa nhà hoặc một công trình xây dựng nào đó. Tương tự như vậy, chú thích tên gen (gene name annotation) cho thông tin về gen đang phủ lên biến dị, chẳng hạn như trong hình dưới là gen có tên gọi SYCE3.

Các con đường chỉ ra những lối đi có thể để xuất phát từ vị trí A đến một điểm B bất kì nào đó. Tương tự, trong trường hợp đang xét, định danh rs (Reference SNP cluster ID) và chú giải GWAS giúp chúng ta xác định rằng biến dị này có mối quan hệ trước đó với tính trạng hồng cầu có tên gọi “Dung tích tiểu thể trung bình” (Mean corpuscular volume).

Và cuối cùng tên các con đường và tên các tòa nhà thêm vào bản đồ cho ta biết được chính xác vị trí cần đến. Ví dụ như chúng ta có thể đi bộ đến trang trại UW, ăn trưa tại Agua Verde, hoặc đến sân vận động Husky. Chú thích quy chuẩn (regulatory annotation) giúp ta xác định các biến dị giao nhau theo một quy tắc nhất định, ví dụ như các phần tử chồng chéo đang hoạt động trong tế bào hồng cầu, tiểu cầu, và không có trong tế bào não hay bàng quang.

 

Công cụ phổ hỗ trợ chú giải biến dị

Cộng đồng khoa học đã phát triển rất nhiều nền tảng và công cụ hỗ trợ chú giải biến dị. Một số server hỗ trợ chú giải biến dị phổ biến bao gồm:  NCBI, Ensemble, UCSC, ENCylopedia Of DNA Elements (ENCODE), Roadmap Epigenomics Consortium, FANTOM5, dbSNP, v.v…

Một số công cụ chú thích biến dị mã nguồn mở phổ biến bao gồm: spliceAI, SIFT, PROVEAN, polyphen, MutationTaster, PHAST, Mutation Assessor, M-CAP, Linsight, GERP, GenoCanyon, FIRE, fathmm, CADD, VEP, v.v…

SpliceAI

SpliceAI là một phần mềm ứng dụng trí tuệ nhân tạo (AI) mã nguồn mở [4] được Illumina công bố vào năm 2019 [5] . SpliceAI chú thích biến dị dựa trên sự kết nối của các chuỗi mRNA bậc một (primary sequence). Bằng cách sử dụng mạng học sâu, spliceAI dự đoán các mối nối từ một bản phiên mã tiền mRNA, tạo tiền đề để dự đoán chính xác các biến dị không mã hóa (non-coding variants) gây phân tách khác thường (cryptic splicing) [3]. Các đột biến nằm trên các đoạn không mã hóa thường bị bỏ qua ở những bệnh nhân mắc các bệnh di truyền hiếm gặp, vì vậy sự xuất hiện của phần mềm này cho ta thông tin chi tiết hơn về các đột biến đó trên gen.

SIFT

SIFT, được phát triển vào năm 2011 và quản lý bởi Pauline Ng, là một công cụ dự đoán liệu sự thay thế axit amin có ảnh hưởng đến chức năng của protein hay không [8]. SIFT được sử dụng rộng rãi trong các nghiên cứu về tin sinh học, di truyền, bệnh tật và đột biến. Vào năm 2017, phiên bản nhanh hơn của SIFT ra đời, SIFT 4G, cho phép người dùng mở rộng quy mô tính toán và cung cấp dữ liệu dự đoán cho nhiều sinh vật hơn. SIFT chú thích và cung cấp các dự đoán có hại/dung nạp cho các biến dị đơn điểm. Đối với biến dị chèn-xóa (indels), SIFT chỉ cung cấp kết quả chú thích. So với SIFT, SIFT 4G – Sorting Intolerant From Tolerant For Genomes, được triển khai trên GPU, do đó việc xử lý một protein chỉ mất 3 giây thay vì 4 phút [7].

PROVEAN

PROVEAN (Protein Variation Effect Analyzer) là một phần mềm được phát hành vào năm 2012 với mục đích dự đoán sự thay đổi chức năng sinh học của protein khi có đột biến thay thế điểm hoặc chèn-xóa. PROVEAN hoạt đông hiệu quả trong trường hợp lọc các chuỗi biến dị để xác định các biến dị không đồng nghĩa (nonsynonymous) hoặc các biến dị chèn-xóa được dự đoán là quan trọng về mặt chức năng. Hiệu suất của PROVEAN có thể tương đương với các công cụ phổ biến như SIFT hoặc PolyPhen-2 [6].

Polyphen

Polyphen hiện được biết đến trong phiên bản PolyPhen-2 (Polymorphism Phenotyping v2) là một công cụ dự đoán liệu sự thay thế của axit amin có ảnh hưởng đến cấu trúc và chức năng của protein người hay không [9]. PolyPhen-2 được phát triển từ PolyPhen với mục đích chú thích biến dị không đồng nghĩa. Polyphen-2 dựa trên trình tự protein, thông tin phát sinh loài (phylogenetic information) và thông tin cấu trúc để chú thích biến dị. Phần mềm sẽ xem xét liệu đột biến có nằm trong vùng protein cần thiết cho sự liên kết với các phân tử khác để hình thành cấu trúc bậc hai hoặc bậc ba hay không. Đặc biệt, Polyphen-2 xem xét các liên kết disulfide giả định, vị trí hoạt động, vị trí liên kết và miền xuyên màng sau đó thực hiện tính toán trên mô hình 3 chiều của cấu trúc protein. Polyphen-2 cũng xem xét các protein tương đồng để xem liệu đột biến sai lệch đã được xác định có được quan sát thấy trong các protein khác cùng họ hay không [10].

MutationTaster

MutationTaster là một công cụ chú giải biến dị được phát triển trên nền tảng web. MutationTaster đánh giá các biến dị trong chuỗi ADN về khả năng gây bệnh của chúng. Phần mềm thực hiện một loạt các bài kiểm tra mô phỏng bởi máy tính (in silico) để ước tính tác động của biến dị đối với sản phẩm hoặc protein của gen. Các thử nghiệm được thực hiện trên cấp độ protein và ADN, do đó, MutationTaster không giới hạn ở sự thay thế của các axit amin đơn lẻ mà còn có thể xử lý các biến thể đồng nghĩa (synonymous) hoặc intronic [11][12]. Mutation Taster được viết bằng Perl và có thể xử lý dữ liệu từ phương pháp giải trình tự thế hệ tiếp theo (Next generation Sequencing – NGS) của tất cả các nền tảng chính (Roche 454, Illumina Genome Analyzer và ABI SOLiD). MutationTaster sử dụng bộ phân loại Naive Bayes để quyết định xem liệu sự tác động của tất cả các biến dị đơn lẻ có thể gây hại cho protein hay không. Kết quả phân tích giải thích liệu sự thay đổi có phải là đột biến gây bệnh hoặc vô hại đã biết hoặc được dự đoán hay không và cung cấp thông tin chi tiết về đột biến đó [13]. Bản cập nhật mới nhất của MutationTaster vào năm 2021.

PHAST

Phân tích phát sinh loài với mô hình không gian/thời gian (Phylogenetic Analysis with Space/Time models – PHAST) được biết đến nhiều nhất là công cụ tìm kiếm đằng sau các bản bảo tồn (conservation tracks) trong trình duyệt bộ gen (Genome Browser) của Đại học California, Santa Cruz (UCSC). PHAST là một gói phần mềm miễn phí có sẵn bao gồm các chương trình dòng lệnh (command-line program) và các thư viện hỗ trợ cho hệ gen so sánh và tiến hóa. PHAST cũng bao gồm một số công cụ để lập mô hình phát sinh loài, xác định phần tử chức năng, cũng như các tiện ích để thao tác các căn chỉnh, cây và chú thích bộ gen. Các chương trình con chính của PHAST bao gồm phastCons (chấm điểm bảo tồn và xác định các yếu tố được bảo tồn), phyloFit (Xác định sự phù hợp của các mô hình phát sinh loài với trình tự ADN liên kết), phyloP (Tính toán các giá trị p để bảo toàn hoặc tăng tốc, cụ thể theo dòng dõi hoặc trên tất cả các nhánh), phastOdds (Chấm điểm tỷ lệ cược đăng nhập cho các mô hình phát sinh loài hoặc phylo-HMM), exoniphy (Dự đoán exon phát sinh loài), dless (Dự đoán các yếu tố được lựa chọn theo dòng dõi cụ thể), prequel (Tái tạo theo xác suất các trình tự của tổ tiên), và phastBias (Xác định chuyển đổi gen thiên vị GC bằng cách sử dụng phylo-HMM) [14].

Mutation Assessor

Mutation Assessor dự đoán tác động chức năng (functional impact) của sự thay thế axit amin trong protein, chẳng hạn như đột biến được phát hiện trong bệnh ung thư hoặc sai lệch đa hình (missense polymorphism). Tác động chức năng được đánh giá dựa trên sự bảo tồn tiến hóa của axit amin bị ảnh hưởng trong các tương đồng protein (synonymous protein). Phương pháp đã được xác nhận trên một tập hợp lớn (60 nghìn) bệnh liên quan (OMIM) và các biến thể đa hình [15]. Trình đánh giá đột biến sử dụng liên kết nhiều trình tự (multiple sequence alignment – MSA), được phân vùng để phản ánh tính đặc hiệu của chức năng và tạo ra điểm bảo toàn cho mỗi cột để thể hiện tác động chức năng của một biến thể sai lệch. Mutation Assessor tạo ra MSA riêng bằng cách sử dụng trình tự protein UniProt. Sau đó chúng được phân vùng dựa trên ranh giới miền UniProt và Pfam và cấu trúc 3D được sử dụng để tạo ra các tập hợp họ và phân họ phù hợp [16]. Ra đời vào năm 2011, Mutation Assessor trải qua bốn lần phát hành, lần gần đây nhất vào năm 2015.

M-CAP

Mendelian Clinically Applicable Pathogenicity (M-CAP), được công bố vào năm 2016 bởi phòng thí nghiệm Bejerano, đại học Stanford, là bộ phân loại khả năng gây bệnh đầu tiên cho các biến dị sai lệch hiếm gặp trong bộ gen người được điều chỉnh đạt đến độ nhạy yêu cầu của khám nghiệm lâm sàng. M-CAP chỉ cho điểm các biến thể sai lệch hiếm gặp: hg19, ENSEMBL 75 missence, ExAC v0.3 trong đó không có siêu quần thể nào có tần số alen (minor allele frequency) nhỏ trên 1%. Nếu một biến thể missence không có điểm M-CAP, thì dự đoán của M-CAP được giả định là có khả năng lành tính. M-CAP sử dụng bộ phân loại gradient boosting tree để học một chức năng của các đặc điểm đầu vào như một sự kết hợp tuyến tính của các cây quyết định, mỗi cây được dẫn xuất lặp đi lặp lại để sửa các phần tử đã phân loại sai trước đó [18].

Linsight

Linsight, được phát triển vào năm 2016, dự đoán các vị trí nucleotide không mã hóa, tại đó các đột biến có khả năng gây ra hậu quả nghiêm trọng về thể chất và do đó có khả năng quan trọng về mặt kiểu hình. Linsight kết hợp một mô hình tuyến tính tổng quát cho dữ liệu bộ gen chức năng với một mô hình xác suất của sự tiến hóa phân tử. Phương pháp này nhanh chóng và có khả năng mở rộng cao, cho phép nó khai thác “Dữ liệu lớn” có sẵn trong hệ gen hiện đại. Ngoài ra, Linsight còn được áp dụng cho tập bản đồ của các chất hỗ trợ tăng cường ở người (atlas of human enhancer) và cho thấy các hậu quả về sức khỏe ở các chất hỗ trợ tăng cường phụ thuộc vào loại tế bào, tính đặc hiệu của mô và các hạn chế ở các chất hỗ trợ liên quan [19].

GERP

Hồ sơ tỷ lệ tiến hóa bộ gen (Genomic Evolutionary Rate Profiling – GERP), được phát hành vào năm 2011, xác định các yếu tố bị ràng buộc trong nhiều liên kết bằng cách định lượng các khoản thiếu hụt thay thế. Sự thiếu hụt này thể hiện sự thay thế có thể xảy ra nếu phần tử là ADN là trung tính, nhưng không xảy ra bởi vì phần tử đã bị hạn chế về mặt chức năng. Những khoản thâm hụt này được gọi là “Các khoản thay thế bị từ chối” (rejected substitution). Các thay thế bị từ chối là một thước đo thể hiện sự hạn chế tự nhiên, phản ánh sức mạnh của quá trình chọn lọc trong quá khứ đối với phần tử [20].

GenoCanyon

GenoCanyon là một phương pháp tiếp cận chú thích chức năng toàn bộ bộ gen dựa trên thống kê không giám sát. GenoCanyon tích hợp các biện pháp bảo tồn bộ gen và dữ liệu chú thích sinh hóa để dự đoán tiềm năng chức năng ở mỗi nucleotide. Bằng cách sử dụng 22 chú thích tính toán và thực nghiệm, công cụ dự đoán tiềm năng chức năng của từng vị trí trong bộ gen người. Với GenoCanyon, nhiều cùng chức năng đã biết có thể được dự đoán. Hiện tại với lần cập nhật mới nhất vào năm 2015, website chính thức của GenoCanyon [21] đã có sẵn điểm dự đoán cho toàn bộ bộ gen của con người phiên bản hg19, điểm dự đoán và tất cả 22 chú thích [22].

FIRE

FIRE là một công cụ chú thích biến thể trên toàn bộ bộ gen. FIRE chỉ định điểm số cao hơn cho SNV có nhiều khả năng thay đổi mức độ biểu hiện của các gen lân cận. Vì FIRE được thiết kế đạc biệt để điều chỉnh biểu hiện gen, điểm số FIRE không tương ứng trực tiếp với khả năng gây bệnh hoặc có hại. Ngoài ra, FIRE đặc trưng cho sự điều hòa biểu hiện ở cấp độ mARN và không áp dụng cho các SNV làm thay đổi sự biểu hiện của protein một cách độc lập với sự biểu hiện của mARN [22]

fathmm

Phân tích chức năng thông qua mô hình Markov ẩn (Functional Analysis through Hidden Markov Models – fathmm) được phát triển vào năm 2014 dưới dạng máy chủ web thông lượng cao có khả năng dự đoán hậu quả chức năng của cả hai biến thể mã hóa, tức là các biến dị nucleotide đơn không đồng nghĩa (nsSNV) và các biến dị không mã hóa trong bộ gen người. Với chú thích biến dị không mã hóa, fathmm có hai lựa chọn bao gồm FATHMM-MKL (sử dụng thuật toán MKL tích hợp các chú thích chức năng từ ENCODE với các HMM dựa trên nucleotide) và FATHMM-XF (nâng cao độ chính xác trong việc dự đoán các hậu quả chức năng của việc không mã hóa và mã hóa các biến thể nucleotide đơn (SNV)) [23].

FATHMM-XF là một cải tiến đáng kể so với FATHMM-MKL. Bằng cách sử dụng một tập hợp các nhóm tính năng mở rộng và một tập hợp các mô hình mở rộng, phương pháp mới mang lại độ chính xác cao hơn so với phương pháp tiền nhiệm trên các tập thử nghiệm độc lập. Cũng như FATHMM-MKL, FATHMM-XF dự đoán liệu các biến thể nucleotide đơn trong hệ gen người có khả năng hoạt động hay không về mặt chức năng trong các bệnh di truyền. FATHMM-XF sử dụng các mô hình riêng biệt cho các vùng mã hóa và không mã hóa, để cải thiện độ chính xác tổng thể. Không giống như FATHMM-MKL, các mô hình FATHMM-XF được xây dựng trên bộ dữ liệu đơn kênh (single-kernel dataset). Các mô hình sẽ tìm hiểu sự tương tác giữa các nguồn dữ liệu giúp tăng độ chính xác của dự đoán ở trên tất cả các vùng của bộ gen [24][25]

CADD

CADD, được phát triển vào năm 2014, là một công cụ để đánh giá mức độ nguy hại của các biến thể nucleotide đơn cũng như các biến dị chèn-xóa trong bộ gen người. Mặc dù có nhiều công cụ cho điểm và chú thích biến dị, hầu hết các chú thích có xu hướng khai thác một loại thông tin duy nhất (ví dụ: bảo tồn) và/hoặc bị hạn chế về phạm vi (ví dụ: sai các thay đổi). CADD là một công cụ tích hợp nhiều chú thích vào một chỉ số bằng cách đối chiếu các biến thể tồn tại qua quá trình chọn lọc tự nhiên với các đột biến được mô phỏng.

Điểm C tương quan chặt chẽ với sự đa dạng alen, khả năng gây bệnh của cả các biến thể mã hóa và không mã hóa, và các tác động điều tiết được đo lường bằng thực nghiệm, và cũng xếp hạng cao các biến thể nhân quả trong trình tự bộ gen riêng lẻ. Cuối cùng, điểm C của các biến thể phức tạp liên quan đến đặc điểm từ các nghiên cứu liên kết toàn bộ bộ gen (GWAS) cao hơn đáng kể so với các đối chứng phù hợp và tương quan với kích thước mẫu nghiên cứu, có khả năng phản ánh độ chính xác tăng lên của GWAS lớn hơn.

CADD có thể ưu tiên định lượng các biến thể nhân quả về chức năng, có hại và bệnh tật trên nhiều loại chức năng, kích thước hiệu ứng và kiến ​​trúc di truyền và có thể được sử dụng ưu tiên biến thể nhân quả trong cả nghiên cứu và cơ sở lâm sàng [26].

VEP

VEP là một bộ phần mềm chú thích và phân tích hầu hết các dạng biến đổi gen trong các vùng mã hóa và không mã hóa của bộ gen. VEP có sẵn dưới dạng công cụ trực tuyến, dòng lệnh (command-line) bằng ngôn ngữ Perl, và thông qua giao diện chương trình ứng dụng Ensembl REST API (đại diện trạng thái chuyển giao). Mỗi giao diện được tối ưu hóa để hỗ trợ số lượng dữ liệu và mức độ trải nghiệm tin sinh học khác nhau. Cả ba đều sử dụng cùng một cơ sở mã cốt lõi để đảm bảo kết quả nhất quán trên mỗi giao diện. Một bộ kiểm tra toàn diện hỗ trợ tất cả mã, với sự tích hợp liên tục được thực hiện bởi Travis CI [27].

Nguồn tham khảo

[1]

[2] https://si.biostat.washington.edu/sites/default/files/modules/variant_annotation_v1.pdf

[3] https://www.cell.com/cell/pdf/S0092-8674(18)31629-5.pdf

[4]

[5]

[6] Choi Y, Sims GE, Murphy S, Miller JR, Chan AP (2012) Predicting the Functional Effect of Amino Acid Substitutions and IndelsPLoS ONE 7(10): e46688.

[7] https://sift.bii.a-star.edu.sg/sift4g/AboutSIFT4G.html

[8] Vaser R, Adusumalli S, Leng SN, Sikic M, Ng PC (2016) SIFT missense predictions for genomes. Nat Protocols 11: 1-9. 

[9] Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P, Kondrashov AS, Sunyaev SR. Nat Methods 7(4):248-249 (2010). PubMed PDF Supplemental Information

[10] https://bredagenetics.com/polyphenpolyphen2/

[11] Schwarz, Jana Marie; Rödelsperger, Christian; Schuelke, Markus; Seelow, Dominik (2010-08-01). “MutationTaster evaluates disease-causing potential of sequence alterations”. Nature Methods7 (8): 575–576. doi:10.1038/nmeth0810-575ISSN 1548-7105PMID 20676075.

[12] Schwarz, Jana Marie; Cooper, David N; Schuelke, Markus; Seelow, Dominik (2014-03-28). “MutationTaster2: mutation prediction for the deep-sequencing age”. Nature Methods11 (4): 361–362. doi:10.1038/nmeth.2890ISSN 1548-7105PMID 24681721

[13] Simcikova D, Heneberg P (December 2019). “Refinement of evolutionary medicine predictions based on clinical evidence for the manifestations of Mendelian diseases”Scientific Reports9 (1): 18577. doi:10.1038/s41598-019-54976-4PMC 6901466PMID 31819097

[14] Ramani R, Krumholz K, Huang Y, Siepel A (2018) PhastWeb: a web interface for evolutionary conservation scoring of multiple sequence alignments using phastCons and phyloP, Bioinformatics, Volume 35, Issue 13, Pages 2320–232

[15]

[16] Reva B., Antipin Y., Sander C. Predicting the functional impact of protein mutations: Applications to cancer genomics. Nucleic Acids Res. (2011)

[17] Jagadeesh, K., Wenger, A., Berger, M., Guturu, H., Stenson, P., Cooper, D., Bernstein, J., and Bejerano, G. (2016). M-CAP eliminates a majority of variants with uncertain significance in clinical exomes at high sensitivity. Nature Genetics, 2016. 48 (12) 1581 DOI: 10.1038/ng.3703

[18] Jagadeesh, K., Wenger, A., Berger, M., Guturu, H., Stenson, P., Cooper, D., Bernstein, J., and Bejerano, G. (2016). M-CAP eliminates a majority of variants with uncertain significance in clinical exomes at high sensitivity. Nature Genetics, 2016. 48 (12) 1581 DOI: 10.1038/ng.370

[19] Huang YF, Gulko B, Siepel A. Fast, scalable prediction of deleterious noncoding variants from functional and population genomic data. Nat Genet. 2017;49(4):618-624. doi:10.1038/ng.3810

[20] Spies N, Weng Z, Bishara A, McDaniel J, Catoe D, Zook JM, Salit M, West RB, Batzoglou S, Sidow A. Genome-wide reconstruction of complex structural variants using read clouds. Nat Methods. 2017 Sep;14(9):915-920. doi: 10.1038/nmeth.4366. Epub 2017 Jul 17. PMID: 28714986; PMCID: PMC5578891.

[21]

[22] Ioannidis NM, Davis JR, DeGorter MK, et al. FIRE: functional inference of genetic variants that regulate gene expression. Bioinformatics. 2017;33(24):3895-3901. doi:10.1093/bioinformatics/btx534

[23] Shihab HA, Gough J, Cooper DN, Stenson PD, Barker GLA, Edwards KJ, Day INM, Gaunt, TR. (2013). Predicting the Functional, Molecular and Phenotypic Consequences of Amino Acid Substitutions using Hidden Markov Models. Hum. Mutat.34:57-65 

[24] Shihab HA, Rogers MF, Gough J, Mort M, Cooper DN, Day INM, Gaunt TR, Campbell C (2014). An Integrative Approach to Predicting the Functional Consequences of Non-coding and Coding Sequence Variation. Bioinformatics 2015 May 15;31(10):1536-43.

[25] Rogers MF, Shihab HA, Mort M, Cooper DN, Gaunt TR, Campbell C. FATHMM-XF: enhanced accuracy in the prediction of pathogenic sequence variants via an extended feature set. (journal submission

[26] Kircher M, Witten DM, Jain P, O’Roak BJ, Cooper GM, Shendure J. A general framework for estimating the relative pathogenicity of human genetic variant. Nat Genet. 2014 Feb 2. doi: 10.1038/ng.2892. PubMed PMID: 24487276.

[27] McLaren W, Gil L, Hunt SE, Riat HS, Ritchie GR, Thormann A, Flicek P, Cunningham F.
The Ensembl Variant Effect Predictor. Genome Biology Jun 6;17(1):122. (2016). doi:10.1186/s13059-016-0974-4

Model or data?

Translator and Editor:

Advisor:  

At present, machine learning is a field that attracts a lot of attention in the scientific community and industry. There is fierce competition between research groups and development groups in increasing the accuracy of machine learning models and deep learning models by focusing on algorithm tuning and code optimization. This promotes the rapid progress of machine learning. However, spending too much time on increasing the power of machine learning models brings certain concerns in the overall development strategy. Because unlike traditional software that depends entirely on the power of the code it creates, artificial intelligence systems are built on a core of models and data. If we only focus on changing the model, it can cause a waste of resources and resources because it does not cover the factors that affect the accuracy of the model. “As a rule, when an artificial intelligence system does not work well, the general trend is to improve the code and algorithms. But for many practical applications, improving data quality will yield better results,” said Andrew Ng, a leading scientist in the field of machine learning, citing an example that shows the effectiveness of two approaches: model-centric and data-centric.

Comparison table of effectiveness between two methods. Source: Deeplearning.AI

Typically, 80% of a machine learner’s job is to clean data because “Garbage In, Garbage Out” (GIGO). Andrew Ng wonders if 80% of our job is data preparation, why don’t we care about ensuring data quality – a top priority for machine learning. Typical of this neglect is that most people often take a quick look at arxiv to get an idea of ​​where machine learning research is going, and spend a lot of effort on model tuning in the hope of knocking down the accuracy benchmarks of popular models like Google’s BERT, OpenAI’s GPT-3. However, these epic models only account for 20% of a business problem. What separates a good implementation from a bad one is the quality of the data.

Source: by Paleyes and partners.

The above shows that a model-centric strategy does not help us improve artificial intelligence systems effectively. Moreover, we can easily use pre-trained models, provided with source code, or through licensed APIs. On the other hand, the benefits of focusing more on data processing are undeniable, but this approach is not easy because the process of collecting data and processing it to produce a database of sufficient quality to serve as a training model is fraught with challenges. According to a study conducted by Cambridge scientists, the most important but often overlooked issue is data dispersion. The problem arises when data is streamed from different sources, which may have different schemas, conventions, and ways of storing and accessing data. It is a tedious process for machine learning engineers to combine information into a single dataset suitable for machine learning, so most engineers are not enthusiastic and enthusiastic about building this process. In addition, there is another challenge caused by the size of the dataset. While small datasets often have trouble with noisy data, larger datasets can be difficult to label. Another important part of the data collection process is labeling each sample. This can also be difficult when collecting data in areas that require specialized knowledge because access to typical experts such as doctors can be limited due to lack of funding. In addition, according to data scientists, lack of access to high-variance data is one of the main challenges when deploying machine learning solutions from the lab environment to the real world.

Nguồn: Deeplearning.AI

In practice, there are many different scenarios that can facilitate or hinder the deployment of AI systems. For example, a network company has a software that collects data from many users, creating a large dataset for training. This is a favorable initial condition for developing a machine learning model. However, in another environment such as agriculture or healthcare, where there are not enough data samples, we cannot expect to have a million tractors or a million patients to help increase the amount of data collected! Therefore, Andrew Ng directs the community’s attention to MLOps – a field that focuses on building and deploying machine learning models according to a standardized process. Some basic rules that Andrew Ng proposed to help deploy machine learning effectively:

The most important task of MLOps is to provide high-quality data.

Consistency in data sample labels is key. For example, check how labelers use bounding boxes. There may be multiple ways to label, and even if they are good in their own right, inconsistencies can ruin the results.

Systematically improving data quality on a baseline model is better than running a state-of-the-art model on low-quality data.

In case of errors during training, take a data-centric approach.

By focusing on the data, problems with smaller datasets (less than 10,000 samples) can be significantly improved.

When working with smaller datasets, tools and services to improve data quality are crucial.

“If 80% of our work is data preparation, then data quality assurance is the most important part of the ML development team,” says Andrew. Good data should be consistent, include all the special cases, have timely feedback from data production, and be appropriately sized. He advises against relying solely on engineers to figure out the best way to improve datasets. Instead, he hopes the machine learning community will develop MLOps tools that help create high-quality, repeatable, and systematic datasets and AI systems. He also says that MLOps is a new field; in the future, the most important goal of MLOps development teams should be to ensure a consistent, high-quality data flow across all stages of the project.

Source:

Mô hình hay dữ liệu?

Translator and Editor:

Advisor:  

Trong thời điểm hiện tại, học máy (machine learning) là một lĩnh vực thu hút rất nhiều sự quan tâm trong cộng đồng khoa học và các ngành công nghiệp. Có một sự cạnh tranh khốc liệt giữa các nhóm nghiên cứu, các nhóm phát triển trong việc tăng độ chính xác của các mô hình học máy, mô hình học sâu bằng cách tập trung hiệu chỉnh thuật toán, tối ưu đoạn mã. Điều này thúc đẩy sự tiến bộ nhanh chóng của học máy.

Tuy nhiên, việc dành quá nhiều thời gian để tăng sức mạnh của mô hình học máy đem đến sự quan ngại nhất định trong chiến lược phát triển chung. Bởi vì không như các phần mềm truyền thống phụ thuộc hoàn toàn vào sức mạnh của đoạn mã tạo thành, hệ thống thông minh nhân tạo được xây dựng dựa trên một hạt nhân gồm mô hình và dữ liệu. Nếu chỉ tập trung thay đổi mô hình, nó có thể gây sự lãng phí nguồn lực và tài nguyên vì không bao quát các yếu tố ảnh hưởng đến độ chính xác của mô hình. “Theo thói quen, khi một hệ thống thông minh nhân tạo hoạt động không tốt, xu hướng chung sẽ cải tiến mã, thuật toán. Nhưng với nhiều ứng dụng thực tế, cải thiện chất lượng dữ liệu sẽ mang lại hiệu quả cao hơn”, Andrew Ng, một nhà khoa học hàng đầu trong lĩnh vực học máy, cho hay. Andrew dẫn chứng một ví dụ cho thấy hiệu quả của hai phương thức tiếp cận: Tập trung vào mô hình (model-centric) và tập trung vào dữ liệu (data-centric).

Bảng so sánh hiệu quả giữa hai phương thức. Nguồn: Deeplearning.AI

Thông thường, 80% công việc của một nhà học máy là làm sạch dữ liệu vì “đầu vào là rác, đầu ra là rác” (GIGO – Garbage In, Garbage Out). Andrew Ng băn khoăn nếu 80% công việc của chúng ta là chuẩn bị dữ liệu thì tại sao chúng ta không quan tâm tới việc đảm bảo chất lượng dữ liệu – một điều quan trọng hàng đầu đối với học máy. Điển hình cho sự thờ ơ đó là đa số thường nhìn nhanh vào arxiv để lấy ý tưởng về hướng nghiên cứu học máy đang diễn ra, và dành nhiều nỗ lực hiệu chỉnh mô hình với mong muốn xô đổ các cột mốc về độ chính xác của các mô hình nổi tiếng ví dụ như BERT của Google, GPT-3 của OpenAI. Tuy nhiên, những mô hình hoành tráng này chỉ chiếm 20% trong một bài toán kinh doanh. Điều khác biệt giữa một triển khai tốt và một triển khai tồi là chất lượng của dữ liệu.

Nguồn: bởi Paleyes và cộng sự.

Những điều trên cho thấy chiến lược lấy mô hình làm trung tâm không giúp chúng ta cải thiện hệ thống thông minh nhân tạo một cách hiệu quả. Hơn nữa, chúng ta có thể dễ dàng dùng những mô hình được đào tạo trước (pre-trained), được cung cấp mã nguồn, hoặc thông qua API được cấp phép. Mặt khác, lợi ích khi tập trung hơn vào việc xử lý dữ liệu không thể bàn cãi nhưng cách tiếp cận này lại không dễ dàng vì quy trình thu thập dữ liệu và xử lý dữ liệu để cho ra được một cơ sở dữ liệu đủ chất lượng phục vụ cho việc huấn luyên mô hình ẩn chứa nhiều thách thức. Theo một nghiên cứu được thực hiện bởi các nhà khoa học Cambridge, vấn đề quan trọng nhất nhưng thường bị bỏ qua là sự phân tán dữ liệu. Vấn đề nảy sinh khi dữ liệu được truyền trực tuyến từ các nguồn khác nhau, có thể có các lược đồ, các quy ước, cách lưu trữ và truy cập dữ liệu của chúng khác nhau. Đây là một quá trình gây ra sự nhàm chán cho các kỹ sư máy học để kết hợp thông tin thành một tập dữ liệu duy nhất phù hợp cho việc học máy, nên đa số các kỹ sư không hào hứng và nhiệt huyết khi tham gia vào xây dựng quy trình này. Bên cạnh đó, có một thách thức khác gây ra bởi kích thước của bộ dữ liệu. Trong khi các bộ dữ liệu nhỏ thường gặp rắc rối với dữ liệu nhiễu, bộ dữ liệu lớn hơn có thể gây khó khăn cho việc gắn nhãn. Một phần khác quan trọng trong quy trình thu thập dữ liệu là gán nhãn của từng mẫu. Công việc này cũng có thể gặp khó khăn khi thu thập dữ liệu ở những lĩnh vực đòi hỏi kiến thức chuyên môn vì việc tiếp cận với các chuyên gia điển hình như bác sĩ có thể bị hạn chế do thiếu kinh phí. Ngoài ra, theo các nhà khoa học dữ liệu, thiếu quyền truy cập vào dữ liệu có phương sai cao là một trong những thách thức chính khi triển khai các giải pháp học máy từ môi trường phòng thí nghiệm ra thế giới thực.

Nguồn: Deeplearning.AI

Trong thực tế, có nhiều trường hợp khác nhau có thể thúc đẩy hoặc cản trở quá trình triển khai hệ thống trí tuệ nhân tạo. Ví dụ, một công ty mạng có một phần mềm thu thập dữ liệu của nhiều người dùng tạo ra một bộ dữ liệu gồm nhiều mẫu để huấn luyện. Đó là điều kiện thuận lợi ban đầu để phát triển mô hình học máy. Tuy nhiên, trong một môi trường khác chẳng hạn như nông nghiệp hoặc chăm sóc sức khỏe, nơi không có đủ mẫu dữ liệu, chúng ta không thể mong đợi có một triệu máy kéo hoặc một triệu bệnh nhân để giúp tăng lượng dữ liệu thu thập! Vì thế, Andrew Ng hướng sự chú ý của cộng đồng tới MLOps – một lĩnh vực tập trung xây dựng và triển khai các mô hình học máy theo một quy trình được chuẩn hóa. Một vài quy tắc cơ bản mà Andrew Ng đã đề xuất để giúp triển khai học máy một cách hiệu quả: 

  • Nhiệm vụ quan trọng nhất của MLOps là cung cấp dữ liệu chất lượng cao.

  • Tính nhất quán của nhãn mẫu dữ liệu là yếu tố then chốt. Ví dụ: kiểm tra cách người gắn nhãn sử dụng các hộp giới hạn (bounding box). Có thể có nhiều cách ghi nhãn, và ngay cả khi chúng tốt theo cách riêng của chúng, nhưng việc thiếu nhất quán có thể làm xấu kết quả. 

  • Cải thiện chất lượng dữ liệu có hệ thống trên mô hình cơ bản tốt hơn là chạy theo mô hình hiện đại với dữ liệu chất lượng thấp.

  • Trong trường hợp có lỗi trong quá trình huấn luyện, hãy áp dụng cách tiếp cận lấy dữ liệu làm trung tâm.

  • Với việc tập trung vào dữ liệu, có thể cải thiện đáng kể các vấn đề với tập dữ liệu nhỏ hơn (ít hơn 10000 mẫu).

  • Khi làm việc với các bộ dữ liệu nhỏ hơn, các công cụ và dịch vụ để nâng cao chất lượng dữ liệu là rất quan trọng.

Andrew nói “Nếu 80% công việc của chúng ta là chuẩn bị dữ liệu, thì đảm bảo chất lượng dữ liệu là phần việc quan trọng bậc nhất của nhóm phát triển học máy”. Một dữ liệu tốt phải có tính nhất quán, bao gồm toàn bộ các trường hợp đặc biệt, có phản hồi kịp thời từ khâu sản xuất dữ liệu và xác định kích thước phù hợp. Ông khuyên không nên chỉ dựa vào các kỹ sư để có cơ hội tìm ra cách tốt nhất để cải thiện tập dữ liệu. Thay vào đó, ông hy vọng cộng đồng học máy sẽ phát triển các công cụ MLOps giúp tạo ra các bộ dữ liệu và hệ thống thông minh nhân tạo chất lượng cao, có thể lặp lại và có hệ thống. Ông cũng cho biết MLOps là một lĩnh vực mới; trong tương lai, mục tiêu quan trọng nhất của các nhóm phát triển MLOps phải là đảm bảo luồng dữ liệu chất lượng cao và nhất quán trong tất cả các giai đoạn của dự án.

Nguồn:

Overview of some popular reference genome versions

Writer:

Advisor:

One of the indispensable pillars to build a foundation Precision Medicine is a reference genome. Over a history of more than 13 years summarized in this article Bộ gen tham chiếu đã được xây dựng như thế nào?,

The process of perfecting the human reference genome has achieved certain achievements. With the continuous progress of science and technology, the reference genome is constantly updated in the direction of becoming more and more accurate, synthesizing more information to represent the most general human genome. But also because of this updating process, many different versions of the reference genome have been born. This may not affect some analyses or may cause large differences in analysis results in the field of bioinformatics. This article will contribute to opening up an overview of the reference genome and the differences between popular versions.

“Shape” of the reference genome

Reference Genome (English: Reference Genome or Reference Assembly) is a digital database of nucleic acid chain, was assembled (assembly) by scientists, considered as a genome of an ideal organism for a species. Because it is assembled from the DNA sequences of a group of experimental individuals, the reference gene does not completely represent the genes of any one individual. Instead, the reference gene provides a mosaic đơn bội of different DNA sequences from each experimental participant.

The simplest format of a reference genome is a file fasta contains sequences of nucleic acids or amino acids, divided into many “contigs” (usually chromosomes). However, this information is only sufficient for one type of analysis: alignment . Other file types – gene annotation files (genome annotation) GTF or GFF allow for more downstream analysis because they show gene properties such as transcriptional region coordinates, exons, introns, etc.

Some versions of the reference genome

Currently, most of the analyses and published articles in the field of human genetics or bioinformatics use two main versions: hg19 (also known as GRCh37 – Genome Reference Consortium Human Build 37, named after the 37th meeting of this conference) or hg38 (GRCh38). However, for each version, there are many additional versions, published by different research units.

hg19 appendices

GRCh37 (NCBI)

GRCh37, The full name is Genome Reference Consortium Human Build 37, named after the 37th meeting of the Genome Reference Consortium conference. The official version was built by Genome Reference Consortium, published on February 27, 2009. The file containing the official reference genome is released and maintained by NCBI. (National Center for Biotechnology Information).

In this appendix, the names of chromosomes 1 to 22 are named NC_00000a.b with a corresponding to 1 to 22 and b is the version number. Similarly, chromosomes X and Y have a=23 and a=24, respectively.

Currently, this appendix has been updated by NCBI to the 13th time, the file name is GCF_000001405.25_GRCh37.p13_genomic.fna.gz with MD5sum 46e212080d30b1a24abec3eab36dbacd.

Official source:

b37

The Broad Institute created a new reference genome based on NCBI’s GRCh37, named b37. Compared to the original, b37 has a few changes such as consecutive segment names, and low-confidence bases are converted to N characters according to  IUPAC code.

In this appendix, the names of chromosomes 1 to 22 are numbered from 1 to 22, respectively. The X and Y chromosomes are X and Y, respectively.

Official source:

humanG1Kv37

This is the appendix used in the analysis of 1000 Genomes Project.

The humanG1Kv37 appendix is ​​equivalent to version b37 but does not contain decoys for human gammaherpesvirus 4 (NC_007605).

In this appendix, chromosomes 1 to 22 are labeled 1 to 22, respectively. Chromosomes X and Y are labeled X and Y, respectively.

Official source:

hg19 (UCSC)

The University of California at Santa Cruz (UCSC) created an hg19 appendix based on GRCh37. The appendix has a reference genome file hg19.fa.gz with MD5sum: 806c02398f5ac5da8ffd6da2d1d5d1a9.

In this appendix, chromosomes 1 to 22 are named chr1 to chr22, respectively. Chromosomes X and Y are chrX and chrY, respectively.

Official source:

  • File containing reference genome FASTA

  • Folder containing related files Golden Path

hg38 appendices

GRCh38 (NCBI)

GRCh38, The full name is Genome Reference Consortium Human Build 38, named after the 38th meeting of the Genome Reference Consortium conference. The official version was built by Genome Reference Consortium,

published on February 28, 2019. The file containing the official reference genome is released and managed by NCBI (National Center for Biotechnology Information). Currently, this version has been updated by NCBI for the 13th time, the file name is GCA_000001405.28_GRCh38.p13_genomic.fna.gz with MD5sum: f28b7146e0f30efa58447eceb32620a3.

In this appendix, the names of chromosomes 1 to 22 are named CM000a.2 with a corresponding to 663 to 684. Similarly, chromosomes X and Y have a=685 and a=686, respectively.

Official source:

  • Updates at this link. File containing the reference genome FASTA

GRCh38 Resource bundle (Broad Institute)

In addition to the reference genome, this appendix also includes standard databases for analyzing human genome sequencing data via GATK – Genome Analysis Toolkit.

The Broad Institute is currently contributing to the global standard for genetic analysis using GRCh38/hg38 through its standard database. The International Genome Sample Resource (IGSR) project also uses this dataset as a basis for analysis in Phase 3.

In this appendix, chromosomes 1 to 22 are labeled chr1 to chr22, respectively. Chromosomes X and Y are chrX and chrY, respectively.

Official source:

Detail comparison

In addition to the large change in coordinates, what makes hg38 more useful for analysis than hg19 is the large number of alternate regions. These alternate regions, named “*_alt”, represent sequences that are common in the human population but are quite different from the sequence in hg38. The presence of these alternate regions has made the analysis of different populations around the world more precise.

Ngoài ra, còn có sự khác biệt ở tên của các đoạn liên tiếp, biểu diễn vùng tâm động (centromere) và gen ti thể (mitochondrial genome).

Ở trong bài viết này, chúng tôi trực tiếp so sánh các đoạn liên tiếp giữa các phiên bản bộ gen tham chiếu thông qua tính giá trị tổng kiểm của mã hóa md5 (md5checksum). Trước tiên, chúng tôi đã tiến hành chuẩn hóa cách biểu diễn các trình tự trong các phụ bản và phiên bản khác nhau:

  • Chuyển toàn bộ chữ in thường thành in hoa (chữ in thường thể hiện vùng repetitive)

  • Chuyển toàn bộ kí tự khác A, T, G, C, N thành N. Lý do vì một số phiên bản có thể sử dụng kí hiệu của IUPAC.

Kết quả được miêu tả trong tệp sau: 

Từ kết quả trên, chúng tôi rút ra một số quan sát:

  1. Phụ bản humanG1Kv37 có thêm đoạn mồi tổng hợp có tên “hs37d5” so với phụ bản b37 của Broad Institute.

  2. Cả 2 phiên bản GRCh37 và GRCh38 của NCBI đều không chứa chrEBV hay NC_007605 (gammaherpesvirus 4 ở người) so với các phụ bản khác. Ngoài ra, trong những “đoạn liên tiếp chính” (primary contigs), các phiên bản do NCBI phát hành này cũng khác hầu hết các phụ bản ở nhiễm sắc thể Y.

  3. Phụ bản hg19 của UCSC khác các phụ bản khác của hg19 ở gen ti thể M, trong khi lại giống nhiễm sắc thể Y với GRCh37 của NCBI.

Ngoài ra trong phiên bản GRCh38, phụ bản của NCBI khác với Broad Institute ở nhiễm sắc thể số 5, số 14, số 19, số 21, số 22. Phân tich cụ thể cho thấy các khác biệt này chủ yếu nằm ở kí hiệu của chuỗi trên vùng tâm động.

Bình luận mở rộng

Một kết quả khá bất ngờ cho thấy mặc dù cùng phiên bản, nhưng mỗi phụ bản phát hành bởi một đơn vị nghiên cứu khác nhau lại không hoàn toàn trùng khớp. Điều này đặc biệt ảnh hưởng đến khả năng tái lập kết quả giữa các nghiên cứu khác nhau, nhất là với những biến dị hiếm gặp trên những vùng đặc biệt.

Thêm vào đó, mặc dù phiên bản mới hơn của bộ gen tham chiếu là GRCh38 đã được cập nhật từ năm 2013, nhưng cho đến nay vẫn rất nhiều phân tích sử dụng phiên bản cũ hơn là GRCh37 (phát hành năm 2009). Nguyên nhân chủ yếu của việc này do khá nhiều công cụ, bộ cơ sở dữ liệu vẫn chưa cập nhật, nên các phân tích vẫn phải sử dụng bộ gen tham chiếu cũ. Các phân tích sử dụng phiên bản khác nhau có sự khác biệt đáng kể về toạ độ, cũng như độ tin cậy của phân tích, điều này cũng gây ra không ít khó khăn cho việc thống nhất, chia sẻ kết quả. Điều này, bên cạnh lý do về công nghệ, cũng là một phần lý do khiến GRC vẫn chưa cập nhật phiên bản tiếp theo của hệ gen tham chiếu ở người.

Tại Việt Nam, từ năm 2018, khi bắt đầu những bước đầu tiên của dự án giải mã 1000 hệ gen người Việt, viện nghiên cứu dữ liệu lớn VinBigdata qua nghiên cứu kĩ lưỡng, đã tin tưởng và sử dụng bộ gen tham chiếu GRCh38 được đóng gói trong Resource bundle của Broad Institute. Qua đó, dự án có thể tận dụng được những bộ cơ sở dữ liệu và công cụ mới nhất, đồng thời đảm bảo được mức độ tin cậy cao với dữ liệu đầu ra.

Tham khảo

GRCh37 hg19 b37 humanG1Kv37 – Human Reference Discrepancies

Human genome reference builds – GRCh38 or hg38 – b37 – hg19

 

Tổng quan về một số phiên bản bộ gen tham chiếu thông dụng

Writer:

Advisor:

Một trong những trụ cột không thể thiếu để xây dựng một nền Y học chính xác là bộ gen tham chiếu. Trải qua một lịch sử hơn 13 năm được tổng kết qua bài viết Bộ gen tham chiếu đã được xây dựng như thế nào?, quá trình hoàn thiện bộ gen tham chiếu của loài người đã đạt một số thành tựu nhất định. Với sự tiến bộ không ngừng nghỉ của khoa học – công nghệ, bộ gen tham chiếu liên tục được cập nhật theo hướng ngày càng chính xác hơn, tổng hợp được nhiều thông tin hơn để biểu diễn khái quát nhất cho bộ gen của loài người. Nhưng cũng vì quá trình cập nhật này, đã sinh ra không ít các phiên bản khác nhau bộ gen tham chiếu. Điều này có thể không ảnh hưởng đến một số phân tích hoặc có thể gây ra kết quả phân tích sai khác lớn trong lĩnh vực tin sinh học. Bài viết này sẽ góp phần mở ra cái nhìn tổng quan về bộ gen tham chiếu và sự khác nhau giữa các phiên bản thông dụng.

“Hình dáng” của gen tham chiếu

Gen tham chiếu (tiếng Anh: Reference Genome hoặc Reference Assembly) là một cơ sở dữ liệu dạng số của chuỗi axit nucleic, được lắp ráp (assembly) bởi các nhà khoa học, xem như một tập hợp gen của một cá thể sinh vật lý tưởng cho một loài. Vì được lắp ráp từ chuỗi DNA của một nhóm cá thể tham gia thí nghiệm, gen tham chiếu không hoàn toàn biểu diễn gen của một cá thể nào. Thay vào đó, gen tham chiếu cung cấp một thể khảm đơn bội của các chuỗi DNA khác nhau từ mỗi người tham gia thí nghiệm.

Định dạng đơn giản nhất của một bộ gen tham chiếu là một tệp fasta chứa các chuỗi axit nucleic hoặc axit amin, được chia làm nhiều “đoạn liên tiếp” (contigs, thường là các Nhiễm Sắc thể). Tuy nhiên, thông tin này chỉ đủ cho một loại phân tích là bắt cặp trình tự (alignment). Các loại tệp khác – tệp chú giải gen (genome annotation) GTF hoặc GFF cho phép nhiều loại phân tích xuôi dòng (downstream analysis) hơn vì chúng thể hiện được các thuộc tính của gen như toạ độ vùng phiên mã, exon, intron,…

Một số phiên bản bộ gen tham chiếu

Hiện nay, các phân tích, bài báo đã xuất bản trong lĩnh vực sinh học nghiên cứu liên quan đến gen người hoặc trong lĩnh vực tin sinh học phần lớn sử dụng hai phiên bản chính là hg19 (lấy tên khác là GRCh37 – Genome Reference Consortium Human Build 37, đặt tên theo lần họp thứ 37 của hội nghị này) hoặc hg38 (GRCh38). Tuy nhiên, với mỗi phiên bản, lại có rất nhiều phụ bản, được phát hành bởi các đơn vị nghiên cứu khác nhau.

Các phụ bản của hg19

GRCh37 (NCBI)

GRCh37, tên đầy đủ là Genome Reference Consortium Human Build 37, được đặt theo tên lần họp thứ 37 của hội nghị Genome Reference Consortium. Bản chính thức được xây dụng bởi Genome Reference Consortium, công bố vào ngày 27/02/2009. Tệp chứa bộ gen tham chiếu chính thức được phát hành và quản lý bởi NCBI (National Center for Biotechnology Information).

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên NC_00000a.b với a tương ứng từ 1 tới 22 và b là số định danh của phiên bản. Tương tự nhiễm sắc thể X, Y lần lượt có a=23, a=24.

Hiện tại, phụ bản này được NCBI cập nhật tới lần 13, tên tệp tin là GCF_000001405.25_GRCh37.p13_genomic.fna.gz với MD5sum 46e212080d30b1a24abec3eab36dbacd.

Nguồn chính thức:

b37

Viện nghiên cứu Broad tạo ra một bộ gen tham chiếu mới dựa trên GRCh37 của NCBI, được đặt tên là b37. So với bản gốc, b37 có một vài thay đổi như tên các đoạn liên tiếp, và những bases có độ tin cậy thấp được chuyển thành kí tự N theo mã IUPAC.

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên tương ứng từ 1 tới 22. Nhiễm sắc thể X, Y lần lượt là X, Y.

Nguồn chính thức:

humanG1Kv37

Đây là phụ bản được sử dụng trong quá trình phân tích của 1000 Genomes Project. Phụ bản humanG1Kv37 tương đương với phiên bản b37 nhưng không chứa các đoạn mồi (decoy) cho gammaherpesvirus 4 ở người (NC_007605).

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên tương ứng từ 1 tới 22. Nhiễm sắc thể X, Y lần lượt là X, Y.

Nguồn chính thức:

hg19 (UCSC)

Trường đại học California ở Santa Cruz (UCSC) tạo ra một phụ bản hg19 dựa trên GRCh37. Phụ bản có tệp gen tham chiếu là hg19.fa.gz với MD5sum: 806c02398f5ac5da8ffd6da2d1d5d1a9.

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên tương ứng từ chr1 tới chr22. Nhiễm sắc thể X, Y lần lượt là chrX, chrY.

Nguồn chính thức:

  • Tệp chứa bộ gen tham chiếu FASTA

  • Thư mục chứa các tệp liên quan Golden Path

Các phụ bản của hg38

GRCh38 (NCBI)

GRCh38, tên đầy đủ là Genome Reference Consortium Human Build 38, được đặt theo tên lần họp thứ 38 của hội nghị Genome Reference Consortium. Bản chính thức được xây dụng bởi Genome Reference Consortium, công bố vào ngày 28/02/2019. Tệp chứa bộ gen tham chiếu chính thức được phát hành và quản lý bởi NCBI (National Center for Biotechnology Information). Hiện tại, phiên bản này được NCBI cập nhật tới lần 13, tên tệp tin là GCA_000001405.28_GRCh38.p13_genomic.fna.gzvới MD5sum: f28b7146e0f30efa58447eceb32620a3.

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên CM000a.2 với a tương ứng từ 663 tới 684. Tương tự nhiễm sắc thể X, Y lần lượt có a=685, a=686.

Nguồn chính thức:

GRCh38 Resource bundle (Broad Institute)

Phụ bản này ngoài hệ gen tham chiếu, còn bao gồm những cơ sở dữ liệu tiêu chuẩn để phân tích dữ liệu giải trình gen người thông qua GATK – Genome Analysis Toolkit. Hiện nay Viện nghiên cứu Broad đang góp phần đưa GRCh38/hg38 thành tiêu chuẩn phân tích gen trên thế giới thông qua bộ sở dữ liệu tiêu chuẩn này. Dự án The International Genome Sample Resource (IGSR) cũng sử dụng bộ dữ liệu này làm cơ sở để phân tích trong Giai đoạn 3.

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên tương ứng từ chr1 tới chr22. Nhiễm sắc thể X, Y lần lượt là chrX, chrY.

Nguồn chính thức:

So sánh chi tiết

Ngoài việc thay đổi lớn về tọa độ, điểm làm hg38 trở nên hữu ích khi phân tích so với hg19 là số lượng lớn các vùng thay thế (alternate regions). Các vùng thay thế này mang tên dạng “*_alt”, miêu tả những chuỗi trình tự tồn tại phổ biến trong quần thể loài người nhưng lại có khác biệt tương đối lớn với trình tự trên hg38. Việc xuất hiện những vùng thay thế này đã giúp việc phân tích các quần thể khác nhau trên thế giới trở nên chính xác hơn.

Ngoài ra, còn có sự khác biệt ở tên của các đoạn liên tiếp, biểu diễn vùng tâm động (centromere) và gen ti thể (mitochondrial genome).

Ở trong bài viết này, chúng tôi trực tiếp so sánh các đoạn liên tiếp giữa các phiên bản bộ gen tham chiếu thông qua tính giá trị tổng kiểm của mã hóa md5 (md5checksum). Trước tiên, chúng tôi đã tiến hành chuẩn hóa cách biểu diễn các trình tự trong các phụ bản và phiên bản khác nhau:

  • Chuyển toàn bộ chữ in thường thành in hoa (chữ in thường thể hiện vùng repetitive)

  • Chuyển toàn bộ kí tự khác A, T, G, C, N thành N. Lý do vì một số phiên bản có thể sử dụng kí hiệu của IUPAC.

Kết quả được miêu tả trong tệp sau: 

Từ kết quả trên, chúng tôi rút ra một số quan sát:

  1. Phụ bản humanG1Kv37 có thêm đoạn mồi tổng hợp có tên “hs37d5” so với phụ bản b37 của Broad Institute.

  2. Cả 2 phiên bản GRCh37 và GRCh38 của NCBI đều không chứa chrEBV hay NC_007605 (gammaherpesvirus 4 ở người) so với các phụ bản khác. Ngoài ra, trong những “đoạn liên tiếp chính” (primary contigs), các phiên bản do NCBI phát hành này cũng khác hầu hết các phụ bản ở nhiễm sắc thể Y.

  3. Phụ bản hg19 của UCSC khác các phụ bản khác của hg19 ở gen ti thể M, trong khi lại giống nhiễm sắc thể Y với GRCh37 của NCBI.

Ngoài ra trong phiên bản GRCh38, phụ bản của NCBI khác với Broad Institute ở nhiễm sắc thể số 5, số 14, số 19, số 21, số 22. Phân tich cụ thể cho thấy các khác biệt này chủ yếu nằm ở kí hiệu của chuỗi trên vùng tâm động.

Bình luận mở rộng

Một kết quả khá bất ngờ cho thấy mặc dù cùng phiên bản, nhưng mỗi phụ bản phát hành bởi một đơn vị nghiên cứu khác nhau lại không hoàn toàn trùng khớp. Điều này đặc biệt ảnh hưởng đến khả năng tái lập kết quả giữa các nghiên cứu khác nhau, nhất là với những biến dị hiếm gặp trên những vùng đặc biệt.

Thêm vào đó, mặc dù phiên bản mới hơn của bộ gen tham chiếu là GRCh38 đã được cập nhật từ năm 2013, nhưng cho đến nay vẫn rất nhiều phân tích sử dụng phiên bản cũ hơn là GRCh37 (phát hành năm 2009). Nguyên nhân chủ yếu của việc này do khá nhiều công cụ, bộ cơ sở dữ liệu vẫn chưa cập nhật, nên các phân tích vẫn phải sử dụng bộ gen tham chiếu cũ. Các phân tích sử dụng phiên bản khác nhau có sự khác biệt đáng kể về toạ độ, cũng như độ tin cậy của phân tích, điều này cũng gây ra không ít khó khăn cho việc thống nhất, chia sẻ kết quả. Điều này, bên cạnh lý do về công nghệ, cũng là một phần lý do khiến GRC vẫn chưa cập nhật phiên bản tiếp theo của hệ gen tham chiếu ở người.

Tại Việt Nam, từ năm 2018, khi bắt đầu những bước đầu tiên của dự án giải mã 1000 hệ gen người Việt, viện nghiên cứu dữ liệu lớn VinBigdata qua nghiên cứu kĩ lưỡng, đã tin tưởng và sử dụng bộ gen tham chiếu GRCh38 được đóng gói trong Resource bundle của Broad Institute. Qua đó, dự án có thể tận dụng được những bộ cơ sở dữ liệu và công cụ mới nhất, đồng thời đảm bảo được mức độ tin cậy cao với dữ liệu đầu ra.

Tham khảo

GRCh37 hg19 b37 humanG1Kv37 – Human Reference Discrepancies

Human genome reference builds – GRCh38 or hg38 – b37 – hg19