Tương lai và triển vọng việc làm của Tin sinh học

Tác giả: Cúc Trịnh, AI Intern, RnD Department, GeneStory JSC

Lĩnh vực Tin sinh học thay đổi không ngừng. Các công cụ mới, cơ sở dữ liệu mới và thậm chí cả ngôn ngữ mới đang được phát triển để giúp cho việc phân tích, diễn giải và lưu trữ dữ liệu sinh học trở nên dễ tiếp cận và hiệu quả hơn. Bài viết này chia sẻ phần nào về tương lai của ngành, do các thành viên tại Trung tâm Tin y sinh, VinBigdata tổng hợp và sưu tầm.

Nội dung chính:

  1. Tương lai của tin sinh học
  2. AI trong lĩnh vực tin sinh học: Cơ hội và dự báo đến năm 2029
  3. Cơ hội nghề nghiệp của ngành tin sinh học
  4. Thị trường sinh học và ứng dụng của AI 
  5. Những ‘ông lớn’ và nhân tố chính trong tương lai

Tương lai của tin sinh học

Tin sinh học (hay còn gọi là sinh học tính toán – bioinformatics) là một lĩnh vực nghiên cứu dữ liệu sinh học và sử dụng các công cụ máy tính để phân tích và giải thích dữ liệu đó. Tin sinh học coi dữ liệu chỉ là một loại thông tin, bên cạnh văn bản, âm thanh và video. 

Lĩnh vực này không ngừng phát triển khi các công cụ, ngôn ngữ và cơ sở dữ liệu mới được cải tiến. Với sự phát triển của hệ gen học (genomics) và hệ protein học (proteomics), lượng dữ liệu được tạo ra đã tăng theo cấp số nhân. Các phương pháp tiếp cận mới, ví dụ như học máy và học sâu, đang được phát triển để giúp giải quyết những thách thức trong việc gán nhãn, lưu trữ và giải mã tất cả dữ liệu này. Đặc biệt, với sự tiến bộ của công cụ mới này trong việc phân tích lượng dữ liệu khổng lồ về gen và protein, tương lai của ngành tin sinh học hứa hẹn nhiều tiềm năng và cơ hội.

AI trong lĩnh vực Tin sinh học: Cơ hội và dự báo đến năm 2029

Những tiến bộ ngày trong công nghệ tin sinh học đang thúc đẩy sự tăng trưởng của thị trường. Theo phân tích của Data Bridge Market Research, AI trong thị trường tin sinh học dự kiến ​​sẽ đạt giá trị 37.027,96 triệu USD vào năm 2029, với tốc độ CAGR là 42,7% trong giai đoạn dự báo. 

Thị trường trí tuệ nhân tạo (AI) trong lĩnh vực tin sinh học chứng kiến sự tăng trưởng đáng kể, đặc biệt khối ngành “dịch vụ” nổi lên như là phân khúc công nghệ chiếm ưu thế. Xu hướng này có thể giải thích bởi sự phát triển nhanh chóng trong việc thương mại hóa các thiết bị AI di động. Báo cáo về thị trường này cung cấp một phân tích toàn diện, bao gồm đánh giá về giá cả, bằng sáng chế và tiến bộ công nghệ. 

Bên cạnh đó, thị trường AI trong lĩnh vực tin sinh học được dự báo sẽ mở rộng nhanh chóng trên toàn cầu trong thời kỳ dự báo nhờ sự gia tăng của các nhà đầu tư và hỗ trợ của các dịch vụ tiên tiến, điều này đóng góp to lớn vào sự phát triển đa dạng và mạnh mẽ của thị trường. Cùng với đó, những nhà sản xuất đang tích cực tham gia vào hoạt động nghiên cứu và phát triển (R&D), tập trung vào việc giới thiệu các dịch vụ mới và độc đáo để đáp ứng nhu cầu ngày càng biến đổi của thị trường.

Cơ hội nghề nghiệp của ngành tin sinh học

Ngành tin sinh học đang trở thành một động lực đối với sự tiến bộ trong với nghiên cứu và ứng dụng sinh học, đặc biệt là trong lĩnh vực y học. Sự đa dạng và tích hợp của tin sinh học với nhiều lĩnh vực đang mở ra một tương lai đầy triển vọng. Một số lĩnh vực phải kể đến như là:

Chẩn đoán và Y học chính xác: Tin sinh học đang ngày càng chú trọng vào phát triển các phương pháp chẩn đoán và điều trị cá nhân hóa dựa trên thông tin gen và biểu hiện gen. Sự tiến bộ trong công nghệ genomics và proteomics sẽ giúp tạo ra các giải pháp y tế cho từng cá nhân chính xác hơn.

Phân tích dữ liệu lớn và học máy: Với lượng dữ liệu sinh học ngày càng lớn, tin sinh học đang sử dụng các phương pháp phân tích dữ liệu lớn và máy học để khám phá thông tin ẩn sau các tập dữ liệu phức tạp. Điều này giúp đưa ra những hiểu biết sâu sắc và dự đoán có ích.

Sửa đổi gen và điều chỉnh sinh học: Công nghệ sửa đổi gen như CRISPR-Cas9 đã mở ra những cơ hội mới để nghiên cứu và điều chỉnh gen một cách hiệu quả. Điều này có thể tác động đến nhiều lĩnh vực, từ nghiên cứu cơ bản đến ứng dụng y học.

Nghiên cứu sinh học môi trường và phát triển giải pháp bền vững: Tin sinh học cũng đang đóng vai trò quan trọng trong nghiên cứu và giải pháp để giảm thiểu tác động tiêu cực đối với môi trường. Phân tích gen và sinh học hệ thống có thể giúp hiểu rõ hơn về tác động của con người đối với môi trường để tìm kiếm giải pháp bền vững.

Tích hợp công nghệ thông tin và trí tuệ nhân tạo: Các công cụ công nghệ thông tin, bao gồm trí tuệ nhân tạo, đang trở thành một phần quan trọng trong tin sinh học. Sự kết hợp này mang lại khả năng xử lý dữ liệu mạnh mẽ và hiệu quả hơn.

Nghiên cứu sinh học hệ thống và tích hợp đa lĩnh vực: Tin sinh học đang hướng đến việc nghiên cứu các mối liên kết phức tạp trong sinh học hệ thống và tích hợp thông tin từ nhiều ngành nghề khác nhau, từ y học đến công nghiệp thực phẩm.

Thị trường sinh học và ứng dụng của AI 

Theo một thống kê gần đây, Bắc Mỹ đang thống trị AI toàn cầu trong thị trường tin sinh học bởi nhu cầu ngày càng tăng về công nghệ tiên tiến cũng như nghiên cứu và phát triển thuốc. Để đáp ứng nhu cầu này, các công ty và các bên tham gia thị trường đã bắt đầu ra mắt sản phẩm, cải tiến, thỏa thuận mua lại… Việc làm này dự kiến cũng ​​​​sẽ thúc đẩy tăng trưởng thị trường. 

AI trong thị trường tin sinh học được phân tích, đồng thời những hiểu biết và xu hướng về quy mô thị trường cũng được cung cấp theo quốc gia, sự chào bán, loại hình, sản phẩm và dịch vụ, ứng dụng và lĩnh vực như đã tham chiếu ở trên. 

Các quốc gia được đề cập trong báo cáo thị trường tin sinh học về AI toàn cầu bao gồm: Hoa Kỳ, Canada, Mexico (Bắc Mỹ); Vương quốc Anh, Đức, Pháp, Tây Ban Nha, Ý, Hà Lan, Thụy Sĩ, Nga, Bỉ, Thổ Nhĩ Kỳ… (châu Âu); Trung Quốc, Hàn Quốc, Nhật Bản, Ấn Độ, Úc, Singapore, Malaysia, Indonesia, Thái Lan, Philippines… (khu vực Châu Á – Thái Bình Dương); Nam Phi, Ả Rập Saudi, U.A.E., Israel, Ai Cập… (khu vực Trung Đông và Châu Phi); Brazil, Argentina ở Nam Mỹ (Smith 2023) (Mahdavi 2011).

Những ‘ông lớn’ và nhân tố chính trong tương lai 

Các nhà tin sinh học tham gia vào tất cả khía cạnh của lĩnh vực tin sinh học, từ phân tích, giải thích dữ liệu đến lập bản đồ và mô hình hóa. Để có được sự đánh giá cao về bối cảnh tương lai, điều quan trọng là phải hiểu một số nhân vật chủ chốt trong không gian này, trong đó phải kể đến các ông lớn như IBM, Microsoft và Google, cùng với các công ty công nghệ sinh học và dược phẩm cũng như các công ty khởi nghiệp đang phát triển các công nghệ mới này. Một số nhân tố quan trọng khác trong tương lai của tin sinh học bắt nguồn từ sự phát triển của công nghệ Blockchain. Blockchain và người dùng blockchain đang được dự đoán là nhân tố tiên phong trong cách mạng hóa tương lai của tin sinh học bằng cách cung cấp nguồn lưu trữ dữ liệu phi tập trung và an toàn.

Kết luận

Dữ liệu lớn và AI đã phần nào thay đổi cách chúng ta phân tích và đọc – hiểu dữ liệu sinh học. Tin sinh học truyền thống sẽ vẫn là một phần quan trọng của quá trình phát triển này vì ban đầu nó được phát triển để phân tích dữ liệu trình tự. Hơn nữa, tin sinh học truyền thống cũng có thể tận dụng nguồn dữ liệu lớn và AI có sẵn trong thập kỷ tới để đưa ra những hiểu biết sâu sắc, khám phá các mối quan hệ và chức năng sinh học mới. 

 

Nguồn tham khảo:

  1. Mahdavi, Mahmood A. 2011. Bioinformatics: Trends and Methodologies. BoD – Books on Demand.
  2. Smith, Jack. 2023. “The Increasing Advancements in Bioinformatics Technology Are Further Boosting the Market Growth. However, the High Cost of Instrumentations and Cybersecurity Concerns in Bioinformatics Might Hamper the Growth of the Global AI in Bioinformatics Market in the Forecast Period.” November 21, 2023. https://www.linkedin.com/pulse/ai-bioinformatics-market-industry-analysis-forecast-2029-jack-smith-dgdif.

Tổng quan về chú thích biến dị

Tác giả:  

ARN dạng vòng (CircRNA) là các phân tử nucleotids mạch đơn, có liên kết cộng hóa trị để tạo thành dạng khép kín. Được tìm thấy lần đầu tiên vào năm 1976 trong một nghiên cứu về mầm bệnh của thực vật. Từ đó đã đặt ra nhiều câu hỏi cho các nhà nghiên cứu về chức năng của loại RNA này. Một số nghiên cứu đã chỉ ra rằng CircRNA có liên quan đến các phản ứng miễn dịch và các tế bào miễn dịch. Dự án phân tích tích hợp CircRNA với mong muốn xây dựng mô hình tìm hiểu ảnh hưởng của loại RNA này tới các bệnh, loại bỏ ảnh hưởng của các kiểu tế bào lên mô hình.

Tổng quan về chú thích biến dị

Writers:  

Advisor:

Chú thích biến dị (Variants annotation) là gì?

Chú thích biến dị (Variant Annotation) là một phần quan trọng trong quá trình phân tích dữ liệu giải trình tự gen. Kết quả chú thích có thể gây ảnh hưởng mạnh mẽ đến kết luận cuối cùng của các nghiên cứu về bệnh. Các chú thích không chính xác hoặc không đầy đủ có thể dẫn đến việc bỏ sót các biến dị DNA có khả năng gây bệnh hoặc làm loãng các biến dị nổi bật trong một loạt các kết quả dương tính giả [1]. Vậy chú thích biến dị là gì, và vì sao chúng lại đóng vai trò quan trọng trong quá trình phân tích dữ liệu gen?

Chú thích biến dị là quá trình gán thông tin chức năng cho các biến dị ADN. Chú thích biến dị cung cấp cho chúng ta thông tin về các biến dị, từ đó hỗ trợ quá trình phân tích và giải thích chúng. Cụ thể hơn, chúng ta có thể kiểm tra sự ảnh hưởng của tổ hợp (aggregate association) các biến dị hiếm để xác định, lọc, và đánh trọng số cho từng thành phần của tổ hợp đó (aggregation units). Tuy nhiên, các thử nghiệm liên quan đến sự ảnh hưởng của biến dị hiếm vẫn gặp một số khó khăn. Trong đó các khó khăn phần lớn gây ra bởi sự khan hiếm của các cá thể mang alen biến dị. Để tối ưu tính toán, các biến dị hiếm trong một vùng có liên quan về mặt sinh học thường được kết hợp để tạo thành một đơn vị tổng hợp (aggregation unit). Các loại biến dị và mối quan hệ của chúng với trình tự mã hóa trong bộ gen cho chúng ta thông tin về sự thay đổi trong trình tự mã hóa và sự thay đổi trong sản phẩm của gen.

Chú thích biến dị cũng giống như tạo một bản đồ chỉ dẫn cho bộ gen [2]. Để hiểu hơn về chú thích biến dị ta hãy cùng quan sát ví dụ như sau:

Dựa vào bản đồ, tên của một thành phố cung cấp thông tin về vị trí của nó trên trái đất. Tương tự như vậy, nhiễm sắc thể và tọa độ của biến dị cung cấp thông tin về vị trí của nó trên bộ gen. Giả sử ta xét thành phố A và biến dị ở nhiễm sắc thể số 22 với tọa độ là 50552604.

Các đường viền xám được phủ lên bản đồ cho biết bạn đang ở trong tòa nhà hoặc một công trình xây dựng nào đó. Tương tự như vậy, chú thích tên gen (gene name annotation) cho thông tin về gen đang phủ lên biến dị, chẳng hạn như trong hình dưới là gen có tên gọi SYCE3.

Các con đường chỉ ra những lối đi có thể để xuất phát từ vị trí A đến một điểm B bất kì nào đó. Tương tự, trong trường hợp đang xét, định danh rs (Reference SNP cluster ID) và chú giải GWAS giúp chúng ta xác định rằng biến dị này có mối quan hệ trước đó với tính trạng hồng cầu có tên gọi “Dung tích tiểu thể trung bình” (Mean corpuscular volume).

Và cuối cùng tên các con đường và tên các tòa nhà thêm vào bản đồ cho ta biết được chính xác vị trí cần đến. Ví dụ như chúng ta có thể đi bộ đến trang trại UW, ăn trưa tại Agua Verde, hoặc đến sân vận động Husky. Chú thích quy chuẩn (regulatory annotation) giúp ta xác định các biến dị giao nhau theo một quy tắc nhất định, ví dụ như các phần tử chồng chéo đang hoạt động trong tế bào hồng cầu, tiểu cầu, và không có trong tế bào não hay bàng quang.

 

Công cụ phổ hỗ trợ chú giải biến dị

Cộng đồng khoa học đã phát triển rất nhiều nền tảng và công cụ hỗ trợ chú giải biến dị. Một số server hỗ trợ chú giải biến dị phổ biến bao gồm:  NCBI, Ensemble, UCSC, ENCylopedia Of DNA Elements (ENCODE), Roadmap Epigenomics Consortium, FANTOM5, dbSNP, v.v…

Một số công cụ chú thích biến dị mã nguồn mở phổ biến bao gồm: spliceAI, SIFT, PROVEAN, polyphen, MutationTaster, PHAST, Mutation Assessor, M-CAP, Linsight, GERP, GenoCanyon, FIRE, fathmm, CADD, VEP, v.v…

SpliceAI

SpliceAI là một phần mềm ứng dụng trí tuệ nhân tạo (AI) mã nguồn mở [4] được Illumina công bố vào năm 2019 [5] . SpliceAI chú thích biến dị dựa trên sự kết nối của các chuỗi mRNA bậc một (primary sequence). Bằng cách sử dụng mạng học sâu, spliceAI dự đoán các mối nối từ một bản phiên mã tiền mRNA, tạo tiền đề để dự đoán chính xác các biến dị không mã hóa (non-coding variants) gây phân tách khác thường (cryptic splicing) [3]. Các đột biến nằm trên các đoạn không mã hóa thường bị bỏ qua ở những bệnh nhân mắc các bệnh di truyền hiếm gặp, vì vậy sự xuất hiện của phần mềm này cho ta thông tin chi tiết hơn về các đột biến đó trên gen.

SIFT

SIFT, được phát triển vào năm 2011 và quản lý bởi Pauline Ng, là một công cụ dự đoán liệu sự thay thế axit amin có ảnh hưởng đến chức năng của protein hay không [8]. SIFT được sử dụng rộng rãi trong các nghiên cứu về tin sinh học, di truyền, bệnh tật và đột biến. Vào năm 2017, phiên bản nhanh hơn của SIFT ra đời, SIFT 4G, cho phép người dùng mở rộng quy mô tính toán và cung cấp dữ liệu dự đoán cho nhiều sinh vật hơn. SIFT chú thích và cung cấp các dự đoán có hại/dung nạp cho các biến dị đơn điểm. Đối với biến dị chèn-xóa (indels), SIFT chỉ cung cấp kết quả chú thích. So với SIFT, SIFT 4G – Sorting Intolerant From Tolerant For Genomes, được triển khai trên GPU, do đó việc xử lý một protein chỉ mất 3 giây thay vì 4 phút [7].

PROVEAN

PROVEAN (Protein Variation Effect Analyzer) là một phần mềm được phát hành vào năm 2012 với mục đích dự đoán sự thay đổi chức năng sinh học của protein khi có đột biến thay thế điểm hoặc chèn-xóa. PROVEAN hoạt đông hiệu quả trong trường hợp lọc các chuỗi biến dị để xác định các biến dị không đồng nghĩa (nonsynonymous) hoặc các biến dị chèn-xóa được dự đoán là quan trọng về mặt chức năng. Hiệu suất của PROVEAN có thể tương đương với các công cụ phổ biến như SIFT hoặc PolyPhen-2 [6].

Polyphen

Polyphen hiện được biết đến trong phiên bản PolyPhen-2 (Polymorphism Phenotyping v2) là một công cụ dự đoán liệu sự thay thế của axit amin có ảnh hưởng đến cấu trúc và chức năng của protein người hay không [9]. PolyPhen-2 được phát triển từ PolyPhen với mục đích chú thích biến dị không đồng nghĩa. Polyphen-2 dựa trên trình tự protein, thông tin phát sinh loài (phylogenetic information) và thông tin cấu trúc để chú thích biến dị. Phần mềm sẽ xem xét liệu đột biến có nằm trong vùng protein cần thiết cho sự liên kết với các phân tử khác để hình thành cấu trúc bậc hai hoặc bậc ba hay không. Đặc biệt, Polyphen-2 xem xét các liên kết disulfide giả định, vị trí hoạt động, vị trí liên kết và miền xuyên màng sau đó thực hiện tính toán trên mô hình 3 chiều của cấu trúc protein. Polyphen-2 cũng xem xét các protein tương đồng để xem liệu đột biến sai lệch đã được xác định có được quan sát thấy trong các protein khác cùng họ hay không [10].

MutationTaster

MutationTaster là một công cụ chú giải biến dị được phát triển trên nền tảng web. MutationTaster đánh giá các biến dị trong chuỗi ADN về khả năng gây bệnh của chúng. Phần mềm thực hiện một loạt các bài kiểm tra mô phỏng bởi máy tính (in silico) để ước tính tác động của biến dị đối với sản phẩm hoặc protein của gen. Các thử nghiệm được thực hiện trên cấp độ protein và ADN, do đó, MutationTaster không giới hạn ở sự thay thế của các axit amin đơn lẻ mà còn có thể xử lý các biến thể đồng nghĩa (synonymous) hoặc intronic [11][12]. Mutation Taster được viết bằng Perl và có thể xử lý dữ liệu từ phương pháp giải trình tự thế hệ tiếp theo (Next generation Sequencing – NGS) của tất cả các nền tảng chính (Roche 454, Illumina Genome Analyzer và ABI SOLiD). MutationTaster sử dụng bộ phân loại Naive Bayes để quyết định xem liệu sự tác động của tất cả các biến dị đơn lẻ có thể gây hại cho protein hay không. Kết quả phân tích giải thích liệu sự thay đổi có phải là đột biến gây bệnh hoặc vô hại đã biết hoặc được dự đoán hay không và cung cấp thông tin chi tiết về đột biến đó [13]. Bản cập nhật mới nhất của MutationTaster vào năm 2021.

PHAST

Phân tích phát sinh loài với mô hình không gian/thời gian (Phylogenetic Analysis with Space/Time models – PHAST) được biết đến nhiều nhất là công cụ tìm kiếm đằng sau các bản bảo tồn (conservation tracks) trong trình duyệt bộ gen (Genome Browser) của Đại học California, Santa Cruz (UCSC). PHAST là một gói phần mềm miễn phí có sẵn bao gồm các chương trình dòng lệnh (command-line program) và các thư viện hỗ trợ cho hệ gen so sánh và tiến hóa. PHAST cũng bao gồm một số công cụ để lập mô hình phát sinh loài, xác định phần tử chức năng, cũng như các tiện ích để thao tác các căn chỉnh, cây và chú thích bộ gen. Các chương trình con chính của PHAST bao gồm phastCons (chấm điểm bảo tồn và xác định các yếu tố được bảo tồn), phyloFit (Xác định sự phù hợp của các mô hình phát sinh loài với trình tự ADN liên kết), phyloP (Tính toán các giá trị p để bảo toàn hoặc tăng tốc, cụ thể theo dòng dõi hoặc trên tất cả các nhánh), phastOdds (Chấm điểm tỷ lệ cược đăng nhập cho các mô hình phát sinh loài hoặc phylo-HMM), exoniphy (Dự đoán exon phát sinh loài), dless (Dự đoán các yếu tố được lựa chọn theo dòng dõi cụ thể), prequel (Tái tạo theo xác suất các trình tự của tổ tiên), và phastBias (Xác định chuyển đổi gen thiên vị GC bằng cách sử dụng phylo-HMM) [14].

Mutation Assessor

Mutation Assessor dự đoán tác động chức năng (functional impact) của sự thay thế axit amin trong protein, chẳng hạn như đột biến được phát hiện trong bệnh ung thư hoặc sai lệch đa hình (missense polymorphism). Tác động chức năng được đánh giá dựa trên sự bảo tồn tiến hóa của axit amin bị ảnh hưởng trong các tương đồng protein (synonymous protein). Phương pháp đã được xác nhận trên một tập hợp lớn (60 nghìn) bệnh liên quan (OMIM) và các biến thể đa hình [15]. Trình đánh giá đột biến sử dụng liên kết nhiều trình tự (multiple sequence alignment – MSA), được phân vùng để phản ánh tính đặc hiệu của chức năng và tạo ra điểm bảo toàn cho mỗi cột để thể hiện tác động chức năng của một biến thể sai lệch. Mutation Assessor tạo ra MSA riêng bằng cách sử dụng trình tự protein UniProt. Sau đó chúng được phân vùng dựa trên ranh giới miền UniProt và Pfam và cấu trúc 3D được sử dụng để tạo ra các tập hợp họ và phân họ phù hợp [16]. Ra đời vào năm 2011, Mutation Assessor trải qua bốn lần phát hành, lần gần đây nhất vào năm 2015.

M-CAP

Mendelian Clinically Applicable Pathogenicity (M-CAP), được công bố vào năm 2016 bởi phòng thí nghiệm Bejerano, đại học Stanford, là bộ phân loại khả năng gây bệnh đầu tiên cho các biến dị sai lệch hiếm gặp trong bộ gen người được điều chỉnh đạt đến độ nhạy yêu cầu của khám nghiệm lâm sàng. M-CAP chỉ cho điểm các biến thể sai lệch hiếm gặp: hg19, ENSEMBL 75 missence, ExAC v0.3 trong đó không có siêu quần thể nào có tần số alen (minor allele frequency) nhỏ trên 1%. Nếu một biến thể missence không có điểm M-CAP, thì dự đoán của M-CAP được giả định là có khả năng lành tính. M-CAP sử dụng bộ phân loại gradient boosting tree để học một chức năng của các đặc điểm đầu vào như một sự kết hợp tuyến tính của các cây quyết định, mỗi cây được dẫn xuất lặp đi lặp lại để sửa các phần tử đã phân loại sai trước đó [18].

Linsight

Linsight, được phát triển vào năm 2016, dự đoán các vị trí nucleotide không mã hóa, tại đó các đột biến có khả năng gây ra hậu quả nghiêm trọng về thể chất và do đó có khả năng quan trọng về mặt kiểu hình. Linsight kết hợp một mô hình tuyến tính tổng quát cho dữ liệu bộ gen chức năng với một mô hình xác suất của sự tiến hóa phân tử. Phương pháp này nhanh chóng và có khả năng mở rộng cao, cho phép nó khai thác “Dữ liệu lớn” có sẵn trong hệ gen hiện đại. Ngoài ra, Linsight còn được áp dụng cho tập bản đồ của các chất hỗ trợ tăng cường ở người (atlas of human enhancer) và cho thấy các hậu quả về sức khỏe ở các chất hỗ trợ tăng cường phụ thuộc vào loại tế bào, tính đặc hiệu của mô và các hạn chế ở các chất hỗ trợ liên quan [19].

GERP

Hồ sơ tỷ lệ tiến hóa bộ gen (Genomic Evolutionary Rate Profiling – GERP), được phát hành vào năm 2011, xác định các yếu tố bị ràng buộc trong nhiều liên kết bằng cách định lượng các khoản thiếu hụt thay thế. Sự thiếu hụt này thể hiện sự thay thế có thể xảy ra nếu phần tử là ADN là trung tính, nhưng không xảy ra bởi vì phần tử đã bị hạn chế về mặt chức năng. Những khoản thâm hụt này được gọi là “Các khoản thay thế bị từ chối” (rejected substitution). Các thay thế bị từ chối là một thước đo thể hiện sự hạn chế tự nhiên, phản ánh sức mạnh của quá trình chọn lọc trong quá khứ đối với phần tử [20].

GenoCanyon

GenoCanyon là một phương pháp tiếp cận chú thích chức năng toàn bộ bộ gen dựa trên thống kê không giám sát. GenoCanyon tích hợp các biện pháp bảo tồn bộ gen và dữ liệu chú thích sinh hóa để dự đoán tiềm năng chức năng ở mỗi nucleotide. Bằng cách sử dụng 22 chú thích tính toán và thực nghiệm, công cụ dự đoán tiềm năng chức năng của từng vị trí trong bộ gen người. Với GenoCanyon, nhiều cùng chức năng đã biết có thể được dự đoán. Hiện tại với lần cập nhật mới nhất vào năm 2015, website chính thức của GenoCanyon [21] đã có sẵn điểm dự đoán cho toàn bộ bộ gen của con người phiên bản hg19, điểm dự đoán và tất cả 22 chú thích [22].

FIRE

FIRE là một công cụ chú thích biến thể trên toàn bộ bộ gen. FIRE chỉ định điểm số cao hơn cho SNV có nhiều khả năng thay đổi mức độ biểu hiện của các gen lân cận. Vì FIRE được thiết kế đạc biệt để điều chỉnh biểu hiện gen, điểm số FIRE không tương ứng trực tiếp với khả năng gây bệnh hoặc có hại. Ngoài ra, FIRE đặc trưng cho sự điều hòa biểu hiện ở cấp độ mARN và không áp dụng cho các SNV làm thay đổi sự biểu hiện của protein một cách độc lập với sự biểu hiện của mARN [22]

fathmm

Phân tích chức năng thông qua mô hình Markov ẩn (Functional Analysis through Hidden Markov Models – fathmm) được phát triển vào năm 2014 dưới dạng máy chủ web thông lượng cao có khả năng dự đoán hậu quả chức năng của cả hai biến thể mã hóa, tức là các biến dị nucleotide đơn không đồng nghĩa (nsSNV) và các biến dị không mã hóa trong bộ gen người. Với chú thích biến dị không mã hóa, fathmm có hai lựa chọn bao gồm FATHMM-MKL (sử dụng thuật toán MKL tích hợp các chú thích chức năng từ ENCODE với các HMM dựa trên nucleotide) và FATHMM-XF (nâng cao độ chính xác trong việc dự đoán các hậu quả chức năng của việc không mã hóa và mã hóa các biến thể nucleotide đơn (SNV)) [23].

FATHMM-XF là một cải tiến đáng kể so với FATHMM-MKL. Bằng cách sử dụng một tập hợp các nhóm tính năng mở rộng và một tập hợp các mô hình mở rộng, phương pháp mới mang lại độ chính xác cao hơn so với phương pháp tiền nhiệm trên các tập thử nghiệm độc lập. Cũng như FATHMM-MKL, FATHMM-XF dự đoán liệu các biến thể nucleotide đơn trong hệ gen người có khả năng hoạt động hay không về mặt chức năng trong các bệnh di truyền. FATHMM-XF sử dụng các mô hình riêng biệt cho các vùng mã hóa và không mã hóa, để cải thiện độ chính xác tổng thể. Không giống như FATHMM-MKL, các mô hình FATHMM-XF được xây dựng trên bộ dữ liệu đơn kênh (single-kernel dataset). Các mô hình sẽ tìm hiểu sự tương tác giữa các nguồn dữ liệu giúp tăng độ chính xác của dự đoán ở trên tất cả các vùng của bộ gen [24][25]

CADD

CADD, được phát triển vào năm 2014, là một công cụ để đánh giá mức độ nguy hại của các biến thể nucleotide đơn cũng như các biến dị chèn-xóa trong bộ gen người. Mặc dù có nhiều công cụ cho điểm và chú thích biến dị, hầu hết các chú thích có xu hướng khai thác một loại thông tin duy nhất (ví dụ: bảo tồn) và/hoặc bị hạn chế về phạm vi (ví dụ: sai các thay đổi). CADD là một công cụ tích hợp nhiều chú thích vào một chỉ số bằng cách đối chiếu các biến thể tồn tại qua quá trình chọn lọc tự nhiên với các đột biến được mô phỏng.

Điểm C tương quan chặt chẽ với sự đa dạng alen, khả năng gây bệnh của cả các biến thể mã hóa và không mã hóa, và các tác động điều tiết được đo lường bằng thực nghiệm, và cũng xếp hạng cao các biến thể nhân quả trong trình tự bộ gen riêng lẻ. Cuối cùng, điểm C của các biến thể phức tạp liên quan đến đặc điểm từ các nghiên cứu liên kết toàn bộ bộ gen (GWAS) cao hơn đáng kể so với các đối chứng phù hợp và tương quan với kích thước mẫu nghiên cứu, có khả năng phản ánh độ chính xác tăng lên của GWAS lớn hơn.

CADD có thể ưu tiên định lượng các biến thể nhân quả về chức năng, có hại và bệnh tật trên nhiều loại chức năng, kích thước hiệu ứng và kiến ​​trúc di truyền và có thể được sử dụng ưu tiên biến thể nhân quả trong cả nghiên cứu và cơ sở lâm sàng [26].

VEP

VEP là một bộ phần mềm chú thích và phân tích hầu hết các dạng biến đổi gen trong các vùng mã hóa và không mã hóa của bộ gen. VEP có sẵn dưới dạng công cụ trực tuyến, dòng lệnh (command-line) bằng ngôn ngữ Perl, và thông qua giao diện chương trình ứng dụng Ensembl REST API (đại diện trạng thái chuyển giao). Mỗi giao diện được tối ưu hóa để hỗ trợ số lượng dữ liệu và mức độ trải nghiệm tin sinh học khác nhau. Cả ba đều sử dụng cùng một cơ sở mã cốt lõi để đảm bảo kết quả nhất quán trên mỗi giao diện. Một bộ kiểm tra toàn diện hỗ trợ tất cả mã, với sự tích hợp liên tục được thực hiện bởi Travis CI [27].

Nguồn tham khảo

[1]

[2] https://si.biostat.washington.edu/sites/default/files/modules/variant_annotation_v1.pdf

[3] https://www.cell.com/cell/pdf/S0092-8674(18)31629-5.pdf

[4]

[5]

[6] Choi Y, Sims GE, Murphy S, Miller JR, Chan AP (2012) Predicting the Functional Effect of Amino Acid Substitutions and IndelsPLoS ONE 7(10): e46688.

[7] https://sift.bii.a-star.edu.sg/sift4g/AboutSIFT4G.html

[8] Vaser R, Adusumalli S, Leng SN, Sikic M, Ng PC (2016) SIFT missense predictions for genomes. Nat Protocols 11: 1-9. 

[9] Adzhubei IA, Schmidt S, Peshkin L, Ramensky VE, Gerasimova A, Bork P, Kondrashov AS, Sunyaev SR. Nat Methods 7(4):248-249 (2010). PubMed PDF Supplemental Information

[10] https://bredagenetics.com/polyphenpolyphen2/

[11] Schwarz, Jana Marie; Rödelsperger, Christian; Schuelke, Markus; Seelow, Dominik (2010-08-01). “MutationTaster evaluates disease-causing potential of sequence alterations”. Nature Methods7 (8): 575–576. doi:10.1038/nmeth0810-575ISSN 1548-7105PMID 20676075.

[12] Schwarz, Jana Marie; Cooper, David N; Schuelke, Markus; Seelow, Dominik (2014-03-28). “MutationTaster2: mutation prediction for the deep-sequencing age”. Nature Methods11 (4): 361–362. doi:10.1038/nmeth.2890ISSN 1548-7105PMID 24681721

[13] Simcikova D, Heneberg P (December 2019). “Refinement of evolutionary medicine predictions based on clinical evidence for the manifestations of Mendelian diseases”Scientific Reports9 (1): 18577. doi:10.1038/s41598-019-54976-4PMC 6901466PMID 31819097

[14] Ramani R, Krumholz K, Huang Y, Siepel A (2018) PhastWeb: a web interface for evolutionary conservation scoring of multiple sequence alignments using phastCons and phyloP, Bioinformatics, Volume 35, Issue 13, Pages 2320–232

[15]

[16] Reva B., Antipin Y., Sander C. Predicting the functional impact of protein mutations: Applications to cancer genomics. Nucleic Acids Res. (2011)

[17] Jagadeesh, K., Wenger, A., Berger, M., Guturu, H., Stenson, P., Cooper, D., Bernstein, J., and Bejerano, G. (2016). M-CAP eliminates a majority of variants with uncertain significance in clinical exomes at high sensitivity. Nature Genetics, 2016. 48 (12) 1581 DOI: 10.1038/ng.3703

[18] Jagadeesh, K., Wenger, A., Berger, M., Guturu, H., Stenson, P., Cooper, D., Bernstein, J., and Bejerano, G. (2016). M-CAP eliminates a majority of variants with uncertain significance in clinical exomes at high sensitivity. Nature Genetics, 2016. 48 (12) 1581 DOI: 10.1038/ng.370

[19] Huang YF, Gulko B, Siepel A. Fast, scalable prediction of deleterious noncoding variants from functional and population genomic data. Nat Genet. 2017;49(4):618-624. doi:10.1038/ng.3810

[20] Spies N, Weng Z, Bishara A, McDaniel J, Catoe D, Zook JM, Salit M, West RB, Batzoglou S, Sidow A. Genome-wide reconstruction of complex structural variants using read clouds. Nat Methods. 2017 Sep;14(9):915-920. doi: 10.1038/nmeth.4366. Epub 2017 Jul 17. PMID: 28714986; PMCID: PMC5578891.

[21]

[22] Ioannidis NM, Davis JR, DeGorter MK, et al. FIRE: functional inference of genetic variants that regulate gene expression. Bioinformatics. 2017;33(24):3895-3901. doi:10.1093/bioinformatics/btx534

[23] Shihab HA, Gough J, Cooper DN, Stenson PD, Barker GLA, Edwards KJ, Day INM, Gaunt, TR. (2013). Predicting the Functional, Molecular and Phenotypic Consequences of Amino Acid Substitutions using Hidden Markov Models. Hum. Mutat.34:57-65 

[24] Shihab HA, Rogers MF, Gough J, Mort M, Cooper DN, Day INM, Gaunt TR, Campbell C (2014). An Integrative Approach to Predicting the Functional Consequences of Non-coding and Coding Sequence Variation. Bioinformatics 2015 May 15;31(10):1536-43.

[25] Rogers MF, Shihab HA, Mort M, Cooper DN, Gaunt TR, Campbell C. FATHMM-XF: enhanced accuracy in the prediction of pathogenic sequence variants via an extended feature set. (journal submission

[26] Kircher M, Witten DM, Jain P, O’Roak BJ, Cooper GM, Shendure J. A general framework for estimating the relative pathogenicity of human genetic variant. Nat Genet. 2014 Feb 2. doi: 10.1038/ng.2892. PubMed PMID: 24487276.

[27] McLaren W, Gil L, Hunt SE, Riat HS, Ritchie GR, Thormann A, Flicek P, Cunningham F.
The Ensembl Variant Effect Predictor. Genome Biology Jun 6;17(1):122. (2016). doi:10.1186/s13059-016-0974-4

Mô hình hay dữ liệu?

Translator and Editor:

Advisor:  

Trong thời điểm hiện tại, học máy (machine learning) là một lĩnh vực thu hút rất nhiều sự quan tâm trong cộng đồng khoa học và các ngành công nghiệp. Có một sự cạnh tranh khốc liệt giữa các nhóm nghiên cứu, các nhóm phát triển trong việc tăng độ chính xác của các mô hình học máy, mô hình học sâu bằng cách tập trung hiệu chỉnh thuật toán, tối ưu đoạn mã. Điều này thúc đẩy sự tiến bộ nhanh chóng của học máy.

Tuy nhiên, việc dành quá nhiều thời gian để tăng sức mạnh của mô hình học máy đem đến sự quan ngại nhất định trong chiến lược phát triển chung. Bởi vì không như các phần mềm truyền thống phụ thuộc hoàn toàn vào sức mạnh của đoạn mã tạo thành, hệ thống thông minh nhân tạo được xây dựng dựa trên một hạt nhân gồm mô hình và dữ liệu. Nếu chỉ tập trung thay đổi mô hình, nó có thể gây sự lãng phí nguồn lực và tài nguyên vì không bao quát các yếu tố ảnh hưởng đến độ chính xác của mô hình. “Theo thói quen, khi một hệ thống thông minh nhân tạo hoạt động không tốt, xu hướng chung sẽ cải tiến mã, thuật toán. Nhưng với nhiều ứng dụng thực tế, cải thiện chất lượng dữ liệu sẽ mang lại hiệu quả cao hơn”, Andrew Ng, một nhà khoa học hàng đầu trong lĩnh vực học máy, cho hay. Andrew dẫn chứng một ví dụ cho thấy hiệu quả của hai phương thức tiếp cận: Tập trung vào mô hình (model-centric) và tập trung vào dữ liệu (data-centric).

Bảng so sánh hiệu quả giữa hai phương thức. Nguồn: Deeplearning.AI

Thông thường, 80% công việc của một nhà học máy là làm sạch dữ liệu vì “đầu vào là rác, đầu ra là rác” (GIGO – Garbage In, Garbage Out). Andrew Ng băn khoăn nếu 80% công việc của chúng ta là chuẩn bị dữ liệu thì tại sao chúng ta không quan tâm tới việc đảm bảo chất lượng dữ liệu – một điều quan trọng hàng đầu đối với học máy. Điển hình cho sự thờ ơ đó là đa số thường nhìn nhanh vào arxiv để lấy ý tưởng về hướng nghiên cứu học máy đang diễn ra, và dành nhiều nỗ lực hiệu chỉnh mô hình với mong muốn xô đổ các cột mốc về độ chính xác của các mô hình nổi tiếng ví dụ như BERT của Google, GPT-3 của OpenAI. Tuy nhiên, những mô hình hoành tráng này chỉ chiếm 20% trong một bài toán kinh doanh. Điều khác biệt giữa một triển khai tốt và một triển khai tồi là chất lượng của dữ liệu.

Nguồn: bởi Paleyes và cộng sự.

Những điều trên cho thấy chiến lược lấy mô hình làm trung tâm không giúp chúng ta cải thiện hệ thống thông minh nhân tạo một cách hiệu quả. Hơn nữa, chúng ta có thể dễ dàng dùng những mô hình được đào tạo trước (pre-trained), được cung cấp mã nguồn, hoặc thông qua API được cấp phép. Mặt khác, lợi ích khi tập trung hơn vào việc xử lý dữ liệu không thể bàn cãi nhưng cách tiếp cận này lại không dễ dàng vì quy trình thu thập dữ liệu và xử lý dữ liệu để cho ra được một cơ sở dữ liệu đủ chất lượng phục vụ cho việc huấn luyên mô hình ẩn chứa nhiều thách thức. Theo một nghiên cứu được thực hiện bởi các nhà khoa học Cambridge, vấn đề quan trọng nhất nhưng thường bị bỏ qua là sự phân tán dữ liệu. Vấn đề nảy sinh khi dữ liệu được truyền trực tuyến từ các nguồn khác nhau, có thể có các lược đồ, các quy ước, cách lưu trữ và truy cập dữ liệu của chúng khác nhau. Đây là một quá trình gây ra sự nhàm chán cho các kỹ sư máy học để kết hợp thông tin thành một tập dữ liệu duy nhất phù hợp cho việc học máy, nên đa số các kỹ sư không hào hứng và nhiệt huyết khi tham gia vào xây dựng quy trình này. Bên cạnh đó, có một thách thức khác gây ra bởi kích thước của bộ dữ liệu. Trong khi các bộ dữ liệu nhỏ thường gặp rắc rối với dữ liệu nhiễu, bộ dữ liệu lớn hơn có thể gây khó khăn cho việc gắn nhãn. Một phần khác quan trọng trong quy trình thu thập dữ liệu là gán nhãn của từng mẫu. Công việc này cũng có thể gặp khó khăn khi thu thập dữ liệu ở những lĩnh vực đòi hỏi kiến thức chuyên môn vì việc tiếp cận với các chuyên gia điển hình như bác sĩ có thể bị hạn chế do thiếu kinh phí. Ngoài ra, theo các nhà khoa học dữ liệu, thiếu quyền truy cập vào dữ liệu có phương sai cao là một trong những thách thức chính khi triển khai các giải pháp học máy từ môi trường phòng thí nghiệm ra thế giới thực.

Nguồn: Deeplearning.AI

Trong thực tế, có nhiều trường hợp khác nhau có thể thúc đẩy hoặc cản trở quá trình triển khai hệ thống trí tuệ nhân tạo. Ví dụ, một công ty mạng có một phần mềm thu thập dữ liệu của nhiều người dùng tạo ra một bộ dữ liệu gồm nhiều mẫu để huấn luyện. Đó là điều kiện thuận lợi ban đầu để phát triển mô hình học máy. Tuy nhiên, trong một môi trường khác chẳng hạn như nông nghiệp hoặc chăm sóc sức khỏe, nơi không có đủ mẫu dữ liệu, chúng ta không thể mong đợi có một triệu máy kéo hoặc một triệu bệnh nhân để giúp tăng lượng dữ liệu thu thập! Vì thế, Andrew Ng hướng sự chú ý của cộng đồng tới MLOps – một lĩnh vực tập trung xây dựng và triển khai các mô hình học máy theo một quy trình được chuẩn hóa. Một vài quy tắc cơ bản mà Andrew Ng đã đề xuất để giúp triển khai học máy một cách hiệu quả: 

  • Nhiệm vụ quan trọng nhất của MLOps là cung cấp dữ liệu chất lượng cao.

  • Tính nhất quán của nhãn mẫu dữ liệu là yếu tố then chốt. Ví dụ: kiểm tra cách người gắn nhãn sử dụng các hộp giới hạn (bounding box). Có thể có nhiều cách ghi nhãn, và ngay cả khi chúng tốt theo cách riêng của chúng, nhưng việc thiếu nhất quán có thể làm xấu kết quả. 

  • Cải thiện chất lượng dữ liệu có hệ thống trên mô hình cơ bản tốt hơn là chạy theo mô hình hiện đại với dữ liệu chất lượng thấp.

  • Trong trường hợp có lỗi trong quá trình huấn luyện, hãy áp dụng cách tiếp cận lấy dữ liệu làm trung tâm.

  • Với việc tập trung vào dữ liệu, có thể cải thiện đáng kể các vấn đề với tập dữ liệu nhỏ hơn (ít hơn 10000 mẫu).

  • Khi làm việc với các bộ dữ liệu nhỏ hơn, các công cụ và dịch vụ để nâng cao chất lượng dữ liệu là rất quan trọng.

Andrew nói “Nếu 80% công việc của chúng ta là chuẩn bị dữ liệu, thì đảm bảo chất lượng dữ liệu là phần việc quan trọng bậc nhất của nhóm phát triển học máy”. Một dữ liệu tốt phải có tính nhất quán, bao gồm toàn bộ các trường hợp đặc biệt, có phản hồi kịp thời từ khâu sản xuất dữ liệu và xác định kích thước phù hợp. Ông khuyên không nên chỉ dựa vào các kỹ sư để có cơ hội tìm ra cách tốt nhất để cải thiện tập dữ liệu. Thay vào đó, ông hy vọng cộng đồng học máy sẽ phát triển các công cụ MLOps giúp tạo ra các bộ dữ liệu và hệ thống thông minh nhân tạo chất lượng cao, có thể lặp lại và có hệ thống. Ông cũng cho biết MLOps là một lĩnh vực mới; trong tương lai, mục tiêu quan trọng nhất của các nhóm phát triển MLOps phải là đảm bảo luồng dữ liệu chất lượng cao và nhất quán trong tất cả các giai đoạn của dự án.

Nguồn:

Tổng quan về một số phiên bản bộ gen tham chiếu thông dụng

Writer:

Advisor:

Một trong những trụ cột không thể thiếu để xây dựng một nền Y học chính xác là bộ gen tham chiếu. Trải qua một lịch sử hơn 13 năm được tổng kết qua bài viết Bộ gen tham chiếu đã được xây dựng như thế nào?, quá trình hoàn thiện bộ gen tham chiếu của loài người đã đạt một số thành tựu nhất định. Với sự tiến bộ không ngừng nghỉ của khoa học – công nghệ, bộ gen tham chiếu liên tục được cập nhật theo hướng ngày càng chính xác hơn, tổng hợp được nhiều thông tin hơn để biểu diễn khái quát nhất cho bộ gen của loài người. Nhưng cũng vì quá trình cập nhật này, đã sinh ra không ít các phiên bản khác nhau bộ gen tham chiếu. Điều này có thể không ảnh hưởng đến một số phân tích hoặc có thể gây ra kết quả phân tích sai khác lớn trong lĩnh vực tin sinh học. Bài viết này sẽ góp phần mở ra cái nhìn tổng quan về bộ gen tham chiếu và sự khác nhau giữa các phiên bản thông dụng.

“Hình dáng” của gen tham chiếu

Gen tham chiếu (tiếng Anh: Reference Genome hoặc Reference Assembly) là một cơ sở dữ liệu dạng số của chuỗi axit nucleic, được lắp ráp (assembly) bởi các nhà khoa học, xem như một tập hợp gen của một cá thể sinh vật lý tưởng cho một loài. Vì được lắp ráp từ chuỗi DNA của một nhóm cá thể tham gia thí nghiệm, gen tham chiếu không hoàn toàn biểu diễn gen của một cá thể nào. Thay vào đó, gen tham chiếu cung cấp một thể khảm đơn bội của các chuỗi DNA khác nhau từ mỗi người tham gia thí nghiệm.

Định dạng đơn giản nhất của một bộ gen tham chiếu là một tệp fasta chứa các chuỗi axit nucleic hoặc axit amin, được chia làm nhiều “đoạn liên tiếp” (contigs, thường là các Nhiễm Sắc thể). Tuy nhiên, thông tin này chỉ đủ cho một loại phân tích là bắt cặp trình tự (alignment). Các loại tệp khác – tệp chú giải gen (genome annotation) GTF hoặc GFF cho phép nhiều loại phân tích xuôi dòng (downstream analysis) hơn vì chúng thể hiện được các thuộc tính của gen như toạ độ vùng phiên mã, exon, intron,…

Một số phiên bản bộ gen tham chiếu

Hiện nay, các phân tích, bài báo đã xuất bản trong lĩnh vực sinh học nghiên cứu liên quan đến gen người hoặc trong lĩnh vực tin sinh học phần lớn sử dụng hai phiên bản chính là hg19 (lấy tên khác là GRCh37 – Genome Reference Consortium Human Build 37, đặt tên theo lần họp thứ 37 của hội nghị này) hoặc hg38 (GRCh38). Tuy nhiên, với mỗi phiên bản, lại có rất nhiều phụ bản, được phát hành bởi các đơn vị nghiên cứu khác nhau.

Các phụ bản của hg19

GRCh37 (NCBI)

GRCh37, tên đầy đủ là Genome Reference Consortium Human Build 37, được đặt theo tên lần họp thứ 37 của hội nghị Genome Reference Consortium. Bản chính thức được xây dụng bởi Genome Reference Consortium, công bố vào ngày 27/02/2009. Tệp chứa bộ gen tham chiếu chính thức được phát hành và quản lý bởi NCBI (National Center for Biotechnology Information).

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên NC_00000a.b với a tương ứng từ 1 tới 22 và b là số định danh của phiên bản. Tương tự nhiễm sắc thể X, Y lần lượt có a=23, a=24.

Hiện tại, phụ bản này được NCBI cập nhật tới lần 13, tên tệp tin là GCF_000001405.25_GRCh37.p13_genomic.fna.gz với MD5sum 46e212080d30b1a24abec3eab36dbacd.

Nguồn chính thức:

b37

Viện nghiên cứu Broad tạo ra một bộ gen tham chiếu mới dựa trên GRCh37 của NCBI, được đặt tên là b37. So với bản gốc, b37 có một vài thay đổi như tên các đoạn liên tiếp, và những bases có độ tin cậy thấp được chuyển thành kí tự N theo mã IUPAC.

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên tương ứng từ 1 tới 22. Nhiễm sắc thể X, Y lần lượt là X, Y.

Nguồn chính thức:

humanG1Kv37

Đây là phụ bản được sử dụng trong quá trình phân tích của 1000 Genomes Project. Phụ bản humanG1Kv37 tương đương với phiên bản b37 nhưng không chứa các đoạn mồi (decoy) cho gammaherpesvirus 4 ở người (NC_007605).

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên tương ứng từ 1 tới 22. Nhiễm sắc thể X, Y lần lượt là X, Y.

Nguồn chính thức:

hg19 (UCSC)

Trường đại học California ở Santa Cruz (UCSC) tạo ra một phụ bản hg19 dựa trên GRCh37. Phụ bản có tệp gen tham chiếu là hg19.fa.gz với MD5sum: 806c02398f5ac5da8ffd6da2d1d5d1a9.

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên tương ứng từ chr1 tới chr22. Nhiễm sắc thể X, Y lần lượt là chrX, chrY.

Nguồn chính thức:

  • Tệp chứa bộ gen tham chiếu FASTA

  • Thư mục chứa các tệp liên quan Golden Path

Các phụ bản của hg38

GRCh38 (NCBI)

GRCh38, tên đầy đủ là Genome Reference Consortium Human Build 38, được đặt theo tên lần họp thứ 38 của hội nghị Genome Reference Consortium. Bản chính thức được xây dụng bởi Genome Reference Consortium, công bố vào ngày 28/02/2019. Tệp chứa bộ gen tham chiếu chính thức được phát hành và quản lý bởi NCBI (National Center for Biotechnology Information). Hiện tại, phiên bản này được NCBI cập nhật tới lần 13, tên tệp tin là GCA_000001405.28_GRCh38.p13_genomic.fna.gzvới MD5sum: f28b7146e0f30efa58447eceb32620a3.

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên CM000a.2 với a tương ứng từ 663 tới 684. Tương tự nhiễm sắc thể X, Y lần lượt có a=685, a=686.

Nguồn chính thức:

GRCh38 Resource bundle (Broad Institute)

Phụ bản này ngoài hệ gen tham chiếu, còn bao gồm những cơ sở dữ liệu tiêu chuẩn để phân tích dữ liệu giải trình gen người thông qua GATK – Genome Analysis Toolkit. Hiện nay Viện nghiên cứu Broad đang góp phần đưa GRCh38/hg38 thành tiêu chuẩn phân tích gen trên thế giới thông qua bộ sở dữ liệu tiêu chuẩn này. Dự án The International Genome Sample Resource (IGSR) cũng sử dụng bộ dữ liệu này làm cơ sở để phân tích trong Giai đoạn 3.

Trong phụ bản này, tên các nhiễm sắc thể số 1 tới 22 được đánh tên tương ứng từ chr1 tới chr22. Nhiễm sắc thể X, Y lần lượt là chrX, chrY.

Nguồn chính thức:

So sánh chi tiết

Ngoài việc thay đổi lớn về tọa độ, điểm làm hg38 trở nên hữu ích khi phân tích so với hg19 là số lượng lớn các vùng thay thế (alternate regions). Các vùng thay thế này mang tên dạng “*_alt”, miêu tả những chuỗi trình tự tồn tại phổ biến trong quần thể loài người nhưng lại có khác biệt tương đối lớn với trình tự trên hg38. Việc xuất hiện những vùng thay thế này đã giúp việc phân tích các quần thể khác nhau trên thế giới trở nên chính xác hơn.

Ngoài ra, còn có sự khác biệt ở tên của các đoạn liên tiếp, biểu diễn vùng tâm động (centromere) và gen ti thể (mitochondrial genome).

Ở trong bài viết này, chúng tôi trực tiếp so sánh các đoạn liên tiếp giữa các phiên bản bộ gen tham chiếu thông qua tính giá trị tổng kiểm của mã hóa md5 (md5checksum). Trước tiên, chúng tôi đã tiến hành chuẩn hóa cách biểu diễn các trình tự trong các phụ bản và phiên bản khác nhau:

  • Chuyển toàn bộ chữ in thường thành in hoa (chữ in thường thể hiện vùng repetitive)

  • Chuyển toàn bộ kí tự khác A, T, G, C, N thành N. Lý do vì một số phiên bản có thể sử dụng kí hiệu của IUPAC.

Kết quả được miêu tả trong tệp sau: 

Từ kết quả trên, chúng tôi rút ra một số quan sát:

  1. Phụ bản humanG1Kv37 có thêm đoạn mồi tổng hợp có tên “hs37d5” so với phụ bản b37 của Broad Institute.

  2. Cả 2 phiên bản GRCh37 và GRCh38 của NCBI đều không chứa chrEBV hay NC_007605 (gammaherpesvirus 4 ở người) so với các phụ bản khác. Ngoài ra, trong những “đoạn liên tiếp chính” (primary contigs), các phiên bản do NCBI phát hành này cũng khác hầu hết các phụ bản ở nhiễm sắc thể Y.

  3. Phụ bản hg19 của UCSC khác các phụ bản khác của hg19 ở gen ti thể M, trong khi lại giống nhiễm sắc thể Y với GRCh37 của NCBI.

Ngoài ra trong phiên bản GRCh38, phụ bản của NCBI khác với Broad Institute ở nhiễm sắc thể số 5, số 14, số 19, số 21, số 22. Phân tich cụ thể cho thấy các khác biệt này chủ yếu nằm ở kí hiệu của chuỗi trên vùng tâm động.

Bình luận mở rộng

Một kết quả khá bất ngờ cho thấy mặc dù cùng phiên bản, nhưng mỗi phụ bản phát hành bởi một đơn vị nghiên cứu khác nhau lại không hoàn toàn trùng khớp. Điều này đặc biệt ảnh hưởng đến khả năng tái lập kết quả giữa các nghiên cứu khác nhau, nhất là với những biến dị hiếm gặp trên những vùng đặc biệt.

Thêm vào đó, mặc dù phiên bản mới hơn của bộ gen tham chiếu là GRCh38 đã được cập nhật từ năm 2013, nhưng cho đến nay vẫn rất nhiều phân tích sử dụng phiên bản cũ hơn là GRCh37 (phát hành năm 2009). Nguyên nhân chủ yếu của việc này do khá nhiều công cụ, bộ cơ sở dữ liệu vẫn chưa cập nhật, nên các phân tích vẫn phải sử dụng bộ gen tham chiếu cũ. Các phân tích sử dụng phiên bản khác nhau có sự khác biệt đáng kể về toạ độ, cũng như độ tin cậy của phân tích, điều này cũng gây ra không ít khó khăn cho việc thống nhất, chia sẻ kết quả. Điều này, bên cạnh lý do về công nghệ, cũng là một phần lý do khiến GRC vẫn chưa cập nhật phiên bản tiếp theo của hệ gen tham chiếu ở người.

Tại Việt Nam, từ năm 2018, khi bắt đầu những bước đầu tiên của dự án giải mã 1000 hệ gen người Việt, viện nghiên cứu dữ liệu lớn VinBigdata qua nghiên cứu kĩ lưỡng, đã tin tưởng và sử dụng bộ gen tham chiếu GRCh38 được đóng gói trong Resource bundle của Broad Institute. Qua đó, dự án có thể tận dụng được những bộ cơ sở dữ liệu và công cụ mới nhất, đồng thời đảm bảo được mức độ tin cậy cao với dữ liệu đầu ra.

Tham khảo

GRCh37 hg19 b37 humanG1Kv37 – Human Reference Discrepancies

Human genome reference builds – GRCh38 or hg38 – b37 – hg19

 

Tổng quan về chỉ số đa gen (Polygenic Risk Score - PRS)

Advisor:

Writer:

Giới thiệu

Chỉ số đa gen (PRS – Polygenic Risk Score) đã được nghiên cứu và lưu hành trong cộng đồng khoa học trong nhiều năm. Tuy nhiên, phải đến năm 2018, điểm số này mới được chứng minh là có tiềm năng sử dụng trong các nghiên cứu lâm sàng. Một nghiên cứu của Amit V. Khera và các đồng nghiệp tại Cardiovascular Disease Initiative of the Broad Institute tại Cambridge, Massachusetts đã xác định những người có nguy cơ cao mắc 5 bệnh phổ biến chỉ bằng cách dựa trên dựa bộ gen của họ [1].

Nhóm nghiên cứu đã sử dụng dữ liệu liên kết trên toàn hệ gen (GWAS – Genome Wide Association Study) và phương pháp xác định (imputation method) để đánh giá hàng triệu biến thể di truyền phổ biến liên quan đến bệnh động mạch vành, rung nhĩ, tiểu đường loại 2, bệnh viêm ruột và ung thư vú. Đối với mỗi bệnh, họ đã áp dụng một thuật toán tính toán kết hợp thông tin từ tất cả các biến thể thành một con số (PRS), phản ánh tính nhạy cảm di truyền của một người đối với các bệnh này.

Khi nhóm nghiên cứu thử nghiệm yếu tố dự báo đa gen của họ đối với bệnh tim trên 290.000 người tham gia tại Ngân hàng Biobank của Anh, họ nhận thấy rằng 8% dân số có nguy cơ đau tim cao gấp ba lần bình thường. Khera, người cũng là bác sĩ tim mạch và nhà di truyền học tại Bệnh viện Đa khoa Massachusetts cho biết: “Chúng tôi không thể tìm thấy chúng nếu không thực hiện xét nghiệm di truyền”. Sử dụng cách tiếp cận tương tự đối với bệnh viêm ruột và ung thư vú, nhóm nghiên cứu nhận thấy rằng chỉ số PRS của họ luôn có thể xác định một nhóm (từ 2-10% dân số) có nguy cơ đặc biệt cao. Kết quả của Khera cung cấp những bằng chứng thuyết phục ủng hộ việc sử dụng rộng rãi hơn các chỉ số PRS. kết qủa từ những nghiên cứu trên cho thấy được lợi ích của việc phát hiện sớm nguy cơ để tiến hành phòng bệnh. Một câu hỏi mới được đặt ra đó là làm cách nào để phát triển tiềm năng và nâng cao hiệu quả của việc sử dụng chỉ số đa gen trong các cơ sở y tế. Bài viết này khám phá sự phát triển của điểm sô đa gen và các phương pháp để giải quyết những thách thức xoay quanh việc sử dụng những chỉ số này.

Hình 1: Ứng dụng lâm sàng của PRS

Từ một gen đơn lẻ đến các biến thể trên toàn bộ bộ gen

Xét nghiệm di truyền được sử dụng rộng rãi để chẩn đoán các bệnh đơn gen, chẳng hạn như bệnh xơ nang hoặc bệnh hồng cầu hình liềm, do đột biến ở một gen đơn lẻ. Các xét nghiệm này cũng có thể xác định những người mang gen liên quan đến bệnh tật không bị ảnh hưởng, cho phép họ đưa ra quyết định kế hoạch hóa gia đình sáng suốt hơn hoặc trong những trường hợp như bệnh Huntington, để lập kế hoạch trong trường hợp họ phát triển tình trạng bệnh trong tương lai.

Tuy nhiên, ở các bệnh thông thường, tiểu đường loại 2 là một ví dụ và nhiều bệnh thoái hóa thần kinh, có xu hướng đa gen – bị ảnh hưởng bởi một số lượng lớn các biến thể di truyền nằm rải rác trong bộ gen, cũng như các yếu tố môi trường và lối sống. Các công nghệ gen mới cho phép các nhà nghiên cứu giải trình tự nhanh chóng và không tốn kém. Các bảng gen lớn, tất cả các gen mã hóa protein (exome) hoặc toàn bộ bộ gen (giải trình tự toàn bộ bộ gen, WGS), cung cấp một bản khảo sát đầy đủ về cấu tạo gen của một người. Trong gần hai thập kỷ, các nhà di truyền học đã so sánh các bộ gen, tìm kiếm sự khác biệt để có thể giải thích tại sao chỉ một số người phát triển một số bệnh cụ thể.

Một nghiên cứu liên kết toàn bộ bộ gen (GWAS) có thể xác định sự biến đổi như vậy. Những biến đổi này thường ở dạng đa hình nucleotide đơn (SNP). Thông qua GWAS, các nhà nghiên cứu đã tìm thấy một số lượng lớn các biến thể liên quan đến bệnh, mặc dù vậy sự đóng góp của từng biến thể này có ảnh hưởng không đáng kể. Vài năm sau đó, họ đã phát triển các công cụ để xác định chính xác sự tác động của tập hợp hàng triệu các biến thể di truyền gây bệnh [2].

Xác định tính nhạy cảm của một người đối với các bệnh cụ thể đem lại rất nhiều lợi ích. Ví dụ, phát hiện của Khera cho thấy rằng ở những phụ nữ có nguy cơ cao bị ung thư vú, bắt đầu chế độ sàng lọc sớm hơn có thể cải thiện kết quả. Khera nói: “Mục tiêu của chúng tôi là trao quyền cho mọi người vượt qua bất kỳ khuynh hướng gây bệnh nào có trong DNA của họ”. Ngay cả khi một số bệnh hiện không thể chữa khỏi, PRS có thể được sử dụng để kết hợp các loại thuốc trong thử nghiệm lâm sàng. Desikan giải thích: “Một thử nghiệm về một loại thuốc trị liệu miễn dịch có thể mang lại nhiều lợi nhuận hơn bằng cách tập trung vào những người có điểm số đa nguyên miễn dịch cao”.

Cải thiện chỉ số đa gen

Một mối quan tâm quan trọng xung quanh việc thực hiện PRS trên lâm sàng là cho đến nay, điểm số phần lớn được tính toán từ trình tự DNA của người Châu Âu [3]. Martin nói: “Tần suất và mức độ tương quan với bệnh tật của các biến thể di truyền phổ biến ở người Mỹ gốc Phi khác với người Mỹ gốc Âu – và điều này làm giảm độ chính xác của PRS”. Martin tham gia vào các dự án toàn cầu khác nhau nhằm xác định đặc điểm của sự biến đổi bộ gen trong các quần thể đa dạng và phát triển các phương pháp thống kê để phân tích dữ liệu đa sắc tộc và cải thiện độ chính xác của PRS. Một trong những dự án này là Di truyền thần kinh tâm thần ở các dân cư châu Phi (NeuroGap). Bà nói: “Những cuộc di cư ban đầu của loài người ra khỏi châu Phi đã kéo theo sự đa dạng di truyền sang châu Âu, Đông Á và cuối cùng là châu Mỹ. Thực hiện các nghiên cứu di truyền lớn ở các quần thể châu Phi sẽ nhanh chóng cải thiện độ chính xác của PRS cho tất cả các quần thể.”

Vì nhiều tình trạng sức khỏe liên quan đến các yếu tố môi trường, lối sống và tính nhạy cảm di truyền, việc kết hợp PRS với các yếu tố nguy cơ đã biết khác sẽ cải thiện hơn nữa dự đoán nguy cơ và hỗ trợ xác định các ngưỡng lâm sàng [4]. Theo Ali Torkamani, một nhà di truyền học tại Viện Nghiên cứu Scripps ở La Jolla, California, có đủ bằng chứng để hỗ trợ việc sử dụng PRS trong các quyết định xung quanh điều trị bằng statin. Đối với những bệnh nhân được xác định là có nguy cơ phát triển bệnh mạch vành trên lâm sàng trung bình (từ các yếu tố nguy cơ lâm sàng thường được đo lường như hút thuốc, huyết áp cao và mức cholesterol), việc bổ sung thông tin nguy cơ đa sinh có thể giúp bác sĩ đưa ra quyết định kê toa statin.

Sử dụng chỉ số đa gen

Torkamani và nhóm của ông đã phát triển MyGeneRank, một ứng dụng có thể tính toán PRS của một cá nhân đối với bệnh mạch vành từ dữ liệu di truyền 23andMe của họ. Dữ liệu sức khỏe được thu thập trên thiết bị di động với một loạt bảng câu hỏi. Mục tiêu của họ là hiểu cách mọi người phản ứng khi nhận được điểm số và theo dõi bất kỳ thay đổi nào trong các hành vi liên quan đến sức khỏe sau đó.

Được bổ sung kiến thức về rủi ro di truyền thực sự có thể khuyến khích việc áp dụng các thay đổi lối sống lành mạnh trên phạm vi rộng hơn. Nghiên cứu GeneRisk ở Phần Lan được trình bày tại hội nghị ASHG năm 2018 cho thấy rằng việc cung cấp thông tin nguy cơ bệnh tim mạch được cá nhân hóa, dựa trên sự kết hợp của dữ liệu nguy cơ truyền thống và PRS đã góp phần thúc đẩy các hành vi lành mạnh. Ngay cả những người tham gia có nguy cơ thấp hơn cũng có cảm hứng giảm cân, ngừng hút thuốc hoặc đi khám bác sĩ. Các sáng kiến tương tự ở Estonia, nơi chính phủ đang tài trợ cho một chương trình định kiểu gen cho hơn 10% dân số của đất nước, đang điều tra việc sử dụng PRS cho bệnh tiểu đường loại 2 [5]. Các cá nhân được cung cấp tùy chọn để tìm hiểu điểm số của họ và những người có nguy cơ cao nhất được khuyến khích thực hiện thay đổi lối sống, chẳng hạn như giảm lượng đường và tăng cường tập thể dục, để ngăn ngừa hoặc trì hoãn sự khởi phát của bệnh tiểu đường.

Tạm kết

Dựa trên bộ dữ liệu di truyền, PRS sẽ sớm có sẵn để hỗ trợ mọi người có cuộc sống khỏe mạnh hơn. Khera nói: “Điều tuyệt vời về DNA là nó ổn định trong suốt thời gian tồn tại. Bạn có thể hình dung một tương lai không xa, trong đó, với 50 đô la, bạn sẽ nhận được một phiếu báo cáo tính nhạy cảm di truyền xác định những bệnh bạn có thể có nguy cơ mắc phải ngay từ khi còn nhỏ, vì vậy bạn có thể thực hiện các bước để ngăn ngừa chúng.”

Nguồn tham khảo

Bài viết được phiên dịch và chỉnh sửa từ của Nature Portfolio.

[1] Amit V. Khera et al. “Genome-wide polygenic scores for common diseasesidentify individuals with risk equivalent to monogenic mutations”. In:Na-ture Genetics(2018).doi:https://doi.org/10.1038/s41588- 018-0183-z.

[2] Julian R. Homburger et al. “Low coverage whole genome sequencing enablesaccurate assessment of common variants and calculation of genome-widepolygenic scores”. In:Genome Medicine(2019).doi:https://doi.org/10.1101/716977.

[3] Alicia R. Martin et al. “Clinical use of current polygenic risk scores mayexacerbate health disparities”. In:Nature Genetics(2019).doi:https://doi.org/10.1038/s41588-019-0379-x.

[4] Ali Torkamani, Nathan E. Wineinger, and Eric J. Topol. “The personaland clinical utility of polygenic risk scores”. In:Nature Reviews Genetics(2018).doi:https://doi.org/10.1038/s41576-018-0018-x.

[5] Kristi L ̈all MSc et al. “Personalized risk prediction for type 2 diabetes:the potential of genetic risk scores”. In:Genetics in Medicine(2017).doi:https://doi.org/10.1038/gim.2016.103.

[Internal] Các thuật toán thông dụng trong lắp ráp bộ gen

Writer:

Advisors:  

Nghiên cứu và phát triển thuật toán không chỉ để cho học sinh, sinh viên, lập trình viên mang đi tham gia các cuộc thi như Olympic Tin học Quốc tế, ACM-ICPC hay thi đấu với nhau trên các trang LeetCode, HackerRank, SPOJ, TopCoder, CodeForces hay CodeChef. Các thuật toán này còn được ứng dụng vào trong các ngành công nghiệp, các sản phẩm công nghệ thông tin và các ngành khoa học nghiên cứu khác chẳng hạn thuật toán CHIRP dựng hình ảnh hố đen đầu tiên. Các thuật toán hỗ trợ con người giải được các bài toán trong nhiều lĩnh vực khác nhau nhanh hơn, chính xác hơn, góp phần làm cho cuộc sống tốt hơn. Trong lĩnh vực y sinh, thuật toán ngày càng đóng vai trò quan trọng hơn khi khối lượng dữ liệu về y sinh đang bùng nổ liên tục theo thời gian. Bài viết này sẽ cắt một lát nhỏ thuật toán trong lĩnh vực tin sinh chuyên dùng để lắp ráp bộ gen đã và đang được dùng trên thế giới.

Tại sao cần thuật toán để lắp ráp bộ gen?

Gen là một khái niệm thay đổi qua từng thời kì. Tuy nhiên, để đơn giản hóa, trong bày viết này khi nhắc đến gen chúng ta hiểu gen là tổ hợp các kí tự (base) A, T, G, C một cách không ngẫu nhiên, tạo thành những mô-típ nhất định, những đoạn lặp ngắn, dài. Theo Genome Reference Consortium, bộ gen con người là một chuỗi dài 3 tỉ kí tự như vậy.

Tuy sự phát triển của công nghệ giải trình tự gen đã có những tiến bộ vượt bậc so giúp giảm chi phí rất nhiều từ hơn 100.000.000$ về khoảng 1.000$, con người vẫn chưa thể “lôi” được một chuỗi DNA siêu dài ra và đọc toàn bộ, chúng ta buộc phải cắt nhỏ bộ gen ra và đọc từng phần một, sau đó lắp ráp chúng lại với nhau. Nếu chỉ lấy sợi DNA từ một tế bào, thì tín hiệu thu được quá thấp, nên thực tế chúng ta lại phải lấy từ nhiều tế bào khác nhau, cắt nhỏ, rồi mới đọc. Từ thực nghiệm và chứng minh bằng thống kê cho thấy, với phương pháp đọc từng đoạn ngắn của gen dài 150 kí tự, mỗi điểm trên bộ gen cần được bao phủ trung bình 30 lần mới đảm bảo độ chính xác. Lúc này, lượng kí tự lưu trữ cho mỗi bộ gen người đã không còn là 3 tỉ kí tự nữa, mà là 90 tỉ kí tự.

Với phương pháp đọc từng đoạn ngắn dài khoảng 150 kí tự, số lượng đoạn đọc (reads) được sinh ra vào khoảng 600 triệu.

Có 2 cách xử lý bài toán này:

  • Cách thứ nhất là gắn các đoạn nhỏ này theo 1 trình tự mẫu có sẵn (Sequence alignment). Trình tự mẫu có sẵn này được công bố lần đầu vào năm 2001, được xây dựng dựa trên 13 người tình nguyện tại New York, đã và đang được làm bộ gen tham chiếu cho gần như toàn bộ các nghiên cứu về hệ gen của loài người.

  • Cách thứ hai là lắp ráp mới hoàn toàn, không dựa theo khuôn mẫu (De novo assembly).

Tuy vậy, bộ gen tham chiếu này sẽ không phù hợp với những quần thể người tương đối khác biệt với dân Âu-Mỹ. Điều này dẫn đến các nghiên cứu đòi hỏi chính xác cao, riêng biệt cho những sắc dân Á, Phi rất khó thực hiện, cản trở sự phát triển của Y học chính xác tại các quốc gia này. Trước thách thức đó, các nước Đông Á như Nhật, Hàn, Trung đều đã xây dựng bộ gen tham chiếu riêng của mỗi nước. Để làm điều này, bắt buộc phải sử dụng các công cụ De novo assembly, đây cũng là một thách thức lớn, khi mà chương trình lắp ráp phải giải quyết các đoạn DNA lặp lại (Tandem repeat), các đoạn giống nhau trên DNA, hay các đoạn kéo dài chỉ bao gồm 1 kí tự (poly mononucleotide). Không chỉ về mặt phương pháp, cách thức cài đặt cũng hết sức quan trọng, khi chương trình cần tối ưu về bộ nhớ, số luồng, thậm chí phải sử dụng được các hệ thống tính toán phân tán để giảm thiểu thời gian tính toán.

Thuật toán lắp ráp không dựa theo khuôn mẫu

Thuật toán này giả định rằng không có thông tin nào khác ngoài những đoạn đọc được cấp. Sau đó trải qua các bước lắp ráp để tạo thành chuỗi nhiễm sắc thể.

Ở mỗi bước của thuật toán, các nhà nghiên cứu đặt tên cho kết quả đầu ra để tiện cho việc theo dõi:

  • Đoạn liên tiếp (contigs hay contiguous) là một tập của các đoạn đọc có điểm chung với nhau.

  • Dải (scaffolds) là một tập của các đoạn liên tiếp được sắp sếp theo thứ tự. Dải có thể chứa đoạn trống (gap).

Ta đi sơ lược vào các bước của thuật toán:

  • Bước đầu tiên, một phần hoặc toàn bộ những đoạn đọc giao nhau sẽ được ghép thành một hoặc nhiều đoạn liên tiếp. Kế đến, những đoạn liên tiếp giao hoặc không giao nhau được kết hợp theo thứ tự, tạo ra một hoặc nhiều dải. Những dải này liên kết tạo ra một nhiễm sắc thể.

  • Với bước tạo ra đoạn liên tiếp, đoạn đọc phải chồng lên nhau một số base nhất định trước khi được nối với nhau.

  • Với bước tạo dải, đoạn liên tiếp không nhất thiết phải giao nhau mà có thể được liên kết bởi chuỗi bắt cặp đôi hoặc đoạn đọc dài (long reads).

  • Trong bước tạo thành nhiễm sắc thể, các dải được ghép lại với nhau thông qua một số quá trình phủ đoạn trống (gap-filling), co đoạn trống (gap-closing),… Bước này khá khó hoặc đôi khi không thể nếu chỉ sử dụng những đoạn đọc ngắn vì những vùng lặp ngăn cản quá trình phủ đoạn trống. Để hoàn thành việc lắp ráp nhiễm sắc thể, đôi khi nhiều công nghệ giải trình tự được sử dụng cùng lúc kèm với những giao thức lắp ráp lai (hybrid assembly protocols). Thông thường, người ta sẽ kết hợp giữa công nghệ giải trình tự đoạn đọc ngắn và đoạn đọc dài với bản đồ quang học (optical maps), bản đồ Bionano (Bionano maps). Tuy nhiên, chi phí cho việc sử dụng nhiều công nghệ sẽ khá cao.

Sau khi hoàn thành thuật toán, Quast sẽ được dùng làm thước đo đánh giá chất lượng của các dải.

Điểm mạnh của thuật toán này:

  • Khi sinh vật không có nhiều thông tin về gen, protein, thuật toán hoạt động tốt.

  • Cho phép phát hiện các cấu hình di truyền mới ví dụ sự kiện chuyển gen ngang, đảo đoạn, …

Điểm yếu của thuật toán này:

  • Cần nhiều tính toán.

  • Không tốt khi tìm kiếm sự khác biệt nhỏ ở những bộ gen thông dụng (well known genomes).

Bài viết này sẽ chỉ tập trung vào hai lớp lớn của thuật toán lắp rắp không dựa theo khuôn mẫu là OLC (Overlap-Layout-Consensus assembly) và DBG (De Bruijn graph assembly) với mong muốn cung cấp cho người đọc một góc nhìn khái quát.

Thuật toán OLC

Thuật toán này khá thuận theo trực giác tự nhiên, được phát triển đầu tiên bởi Staden vào năm 1980, sau đó được nhiều nhà khoa học khác đóng góp. OLC được phổ biến kèm theo sự thông dụng của công nghệ giải trình tự Sanger. Ngày nay, OLC được dùng bởi nhiều trình lắp ráp như Arachne, Celera Assembler, CAP3, PCAP, Phrap, Phusion, và Newbler.

Thuật toán này bao gồm 3 bước chính:

  1. Tìm phần giao giữa từng cặp đoạn đọc để tạo đồ thị chồng chéo. (Overlap)

  2. Bó các nhánh của đồ thị chồng chéo thành đoạn liên tiếp.

  3. Chọn các chuỗi nu hợp lí nhất cho mỗi đoạn liên tiếp.

Tìm phần giao giữa từng cặp đoạn đọc

Bài toán này được phát biểu như sau: Cho S là tập n chuỗi có độ dài khác nhau được tạo thành từ 4 kí tự: A, T, G, C. Với mỗi chuỗi x trong tập S, tìm tất cả đoạn giao nhau với chuỗi y (khác x) sao cho tiền tố của x là hậu tố của y.

Ví dụ: cho chuỗi X là CTCTAGGCC, Y là TAGGCCCTC.

Hậu tố của chuỗi Y là tiền tố của chuỗi X: CTC.

Hậu tố của chuỗi X là tiền tố của chuỗi Y: TAGGCC.

Bài này có thể giải bằng nhiều cách.

Cách 1: Thuật toán vét cạn

Cắt lần lượt tiền tố của X, tìm hậu tố tương ứng trên Y.

Độ phức tạp trung bình: O(n^2*d^2) với d độ dài trung bình của tất cả chuỗi trong S.

Cách 2: Dùng cây hậu tố

Ta sẽ thêm 2 kí tự đặc biệt khác với các base để đánh dấu kết thúc của chuỗi X và chuỗi Y.

Chuỗi X: CTCTAGGCC#

Chuỗi Y: TAGGCCCTC$

Hình trên thể hiện cây hậu tố được xây dựng từ hai chuỗi X, Y.

Với mỗi chuỗi, ta lần lượt truy vấn trên cây. Bắt đầu từ nút gốc, đi theo con đường màu đỏ, ta được chuỗi truy vấn. Cạnh nối màu cam thể hiện đoạn giao nhau giữa hai chuỗi.

Độ phức tạp cho cách giải này như sau:

  • Giả sử tổng độ dài của các đoạn đọc là N=n*d, a là số cặp đoạn đọc giao nhau.

  • Thời gian để dựng cây hậu tố là: O(N).

  • Tìm ra con đường màu đỏ là: O(N).

  • Tìm ra đoạn chồng chéo (màu cam) là: O(a). Trong trường hợp xấu nhất là O(d^2)

  • Độ phức tạp trung bình sẽ là O(N+a).

Cách 3: Dùng phương pháp quy hoạch động

Cách này sẽ linh hoạt hơn vì cho phép chúng ta điều chỉnh số lượng các kí tự không khớp nhau để có được đoạn giao nhau lớn hơn. Ví dụ:

X: CTCGGCCCTAGG

              | | |      | | | | |

              Y: GGCTCTAGGCCC

Áp dụng hàm tính điểm và công thức truy hồi như trong hình sau:

Kết quả thu được ma trận sau:

Truy ngược từ dòng cuối cùng, ta chọn ô có giá trị thấp nhất rồi lần ngược theo công thức truy hồi. Nếu chọn ô có giá trị thấp nhất (giá trị 0) sẽ thu được GG trong khi ta đang muốn thu được đoạn giao nhau GGCTCTAGG (kết thúc ở ô viền xanh). Vậy nên, để có thể thu được đoạn giao nhau có độ dài lớn hơn, ta cần khởi tạo mảng với giá trị lớn vô cùng cho các ô đầu tiên ở dòng cuối cùng. Ví dụ, ta chọn độ dài đoạn giao nhau không nhỏ hơn 5, ta thu được kết quả như hình bên dưới:

Độ phức tạp của cách này như sau:

  • Số lượng cặp cần tính ma trận: O(n^2)

  • Kích thước ma trận quy hoạch động: O(d^2)

  • Độ phức tạp trung bình: O(n^2*d^2) = O(N^2).

Trong thực tế, cách 2 và cách 3 được dùng phối hợp với nhau. Cách 2 được dùng để lọc ra những cặp giao nhau, rồi cách 3 được dùng để tìm đoạn giao nhau theo các điều kiện.

Trong cả thuật toán lắp ráp, việc tìm giao nhau giữa từng cặp chuỗi tốn nhiều thời gian nhất. Vậy nên có nhiều phương pháp ngoài 3 cách được đề xuất để tiết kiệm thời gian tính toán ở bước này ví dụ như so khớp chuỗi gần đúng (approximate string matching), …

Bó các nhánh của đồ thị chồng chéo thành đoạn liên tiếp

Giả sử ta làm việc với một chuỗi như sau: to_every_thing_turn_turn_turn_there_is_a_season với độ dài đoạn giao nhau là 4, cắt thành mỗi đoạn có độ dài là 7.

Đồ thị chồng chéo là một đồ thị có hướng với mỗi nút là một chuỗi, cung có hướng từ chuỗi có hậu tố tới chuỗi có tiền tố giống nhau. Từ chuỗi ví dụ, đồ thị chồng chéo xây dựng được như hình sau:

Đồ thị này lớn và phức tạp. Các đoạn liên tiếp cũng không dễ dàng thấy. Ta sẽ chọn 1 phần đồ thị để xem xét kỹ hơn.

Các cạnh màu lục có thể suy ra từ các cạnh màu lam nên các cạnh màu lục cần được loại bỏ khỏi đồ thị để làm đồ thị đơn giản hơn.

Bắt đầu với xóa các cạch vượt qua 1 nút. Ta thu được đồ thị như hình:

Ta tiếp tục thực hiện xóa các cạnh nhảy quả 2 nút.

Kết quả thu được một đồ thị chồng chéo đơn giản hơn ban đầu rất nhiều.

Từ đồ thị này, ta dễ dàng nhìn thấy 2 đoạn liên tiếp rõ ràng, và 1 vùng lặp.

Trong thực tế, bước bó các nhánh của đồ thị thành đoạn liên tiếp cũng xử lý đồ thị con “giả” (spurious subgraphs) gây ra bởi lỗi trong quá trình giải trình tự. Ví dụ:

Đoạn đọc b bị sai khác so với các đoạn đọc khác ở base cuối cùng do quá trình giải trình tự bị lỗi. Khi tạo ra đồ thị chồng chéo, lỗi này sẽ tạo ra một nhánh cụt đi từ a tới b. Dựa vào đồ thị, ta có thể loại bỏ đoạn đọc này.

Chọn các chuỗi nu hợp lí nhất cho mỗi đoạn liên tiếp

Sau khi tìm ra được các đoạn liên tiếp từ đồ thị, các đoạn đọc tạo nên từng đoạn liên tiếp được gióng thành từng hàng, rồi lựa chọn nu cho từng vị trí vì có thể có sai khác ở vài đoạn đọc trên cùng một vị trí. Sự sai khác này có thể gây ra bởi lỗi quá trình giải trình tự hoặc do bội thể (ploidy). Thông thường, nu được chọn là nu xuất hiện trên nhiều đoạn đọc nhất.

Thuật toán OLC sử dụng đồ thị chồng chéo để tạo các đoạn liên tiếp tương ứng với bài toán tìm đường đi Hamilton hoặc chu trình Hamilton. Bài toán này thuộc lớp NP và là NP-hard. Hiện nay, vẫn chưa có giải thuật hiệu quả để tìm đường đi Hamilton.

Thuật toán DBG

DBG là một thuật toán phản trực giác, được giới thiệu chính thức vào năm 1995 bởi Ramana M. Idury và Michael S. Waterman. Phần mềm lắp ráp chuyên dụng đầu tiên sử dụng thuật toán này là EULER, được phát hành vào năm 2001 bởi Pavel Pevzner và Michael Waterman. Ban đầu, DBG không được biết đến trong thời gian dài. Tuy nhiên, nhờ vào công nghệ giải trình tự của Illumina thâm nhập thị trường, một vài trình lắp ráp được phát triển dựa trên nó đã ra đời như Euler-USR, Velvet, ABySS, AllPath-LG, SOAPdenovo, ABySS 2.0,… Các trình này bước đầu thành công trên một số bộ gen nhỏ như vi khuẩn, sau đó mở rộng dần ra dưa chuột, gấu trúc. Từ đó, các nhà nghiên cứu khắp thế giới có một phương pháp tiết kiệm chi phí mới để tạo ra bản nháp của bộ gen lớn.

Thuật toán này có 2 bước:

  • Tạo k-mer từ các đoạn đọc

  • Xây dựng đồ thị De Bruijn.

Tạo k-mer

k-mer là một chuỗi con có độ dài là k. Ví dụ chuỗi S là GGCGA, 3-mer của S là GGC, GCG, CGA.

Xây dựng đồ thị De Bruijn

Giả sử ta có các 3-mer từ chuỗi AAABBBA như sau: AAA, AAB, ABB, BBB, BBA. Ta sẽ tạo các k-1-mer trái (L) và phải (R). Từ AAB, k-1-mer trái là AA, k-1-mer phải là AB.

Trong đồ thị De Buijn, mỗi nút là k-1-mer, cung có hướng từ k-1-mer trái tới k-1-mer phải và biểu diễn cho đoạn chồng chéo giữa hai k-1-mer.

Nếu thêm một B vào chuỗi ví dụ: AAABBBBA, đồ thị De Bruijn mới sẽ có đa khuyên:

Từ ví dụ này, đồ thị De Bruijn là một đa đồ thị. Dễ thấy, để dựng một bộ gen, ta cần phải đi qua mỗi cung đúng một lần. Trong lý thuyết đồ thị, đây là bài toán tìm đường đi hoặc chu trình Euler. Một tính chất quan trọng của đồ thị Euler (có đường đi hoặc chu trình Euler) là không có hoặc có đúng 2 đỉnh bán cân bằng, các đỉnh còn lại cân bằng. Với một chuỗi hoàn hảo (không phải là chuỗi vòng) thì luôn tạo được một đồ thị Euler vì tồn tại duy nhất hai đỉnh bán cân bằng: một là đỉnh tạo bởi k-1-mer trái cùng, hai là đỉnh tạo bởi k-1-mer phải cùng, các đỉnh còn lại đều cân bằng.

Trong thực tế, bộ gen có rất nhiều vùng lặp vậy nên có thể có nhiều đường đi hoặc chu trình Euler trên đồ thị De Bruijn. Ví dụ: cho chuỗi ZABCDABEFABY, k=3 (k-mer), ta xây dựng được đồ thị như hình sau:

Các đường đi Euler có thể là:

Đối với một chuỗi có nhiều đoạn lặp lại, vấn đề về khác biệt giữa độ phủ dẫn tới đồ thị không liên thông và không phải đồ thị Euler. Ví dụ đồ thị De Brujin cho chuỗi a_long_long_long_time, k = 5 (5-mer), từng thành phần thì liên thông như đồ thị thì không liên thông, đồ thị có 4 đỉnh bán cân bằng.

Bên cạnh đó, lỗi và sự khác biệt giữa các nhiễm sắc thể có thể dẫn tới đồ thị không Euler và không liên thông. Vì dụ a_long_long_long_time, k = 5 với 1 đoạn lỗi từ long_ thành lxng_.

Tuy gặp các vấn đề độ phủ không đồng nhất, lỗi trong quá trình giải trình tự, nhiều chu trình hoặc đường đi Euler, độ phức tạp thời gian dựng lên đồ thị De Bruijn là O(N) và độ phức tạp không gian O(min(G,N)) (length of genome is G).

So sánh hai lớp thuật toán

Cả hai lớp thuật toán giải quyết những vùng lặp trên gen bằng cách chia thành từng đoạn liên tục.

OLC có điểm yếu:

  • Dựng đồ thị chồng chéo tốn khá nhiều thời gian. Độ phức tạp rơi vào O(N+a) hoặc O(N^2).

  • Đồ thị chồng chéo lớn; một nút tương ứng với một đoạn đọc; số lượng cạnh tăng lên theo cấp siêu tuyến tính (superlinear) với số lượng đoạn đọc. Trong khi đó, với công nghệ giải trình tự thế hệ mới (next generation sequencing), tập dữ liệu có thể chứa tới hàng trăm triệu hoặc hàng tỷ đoạn đọc với hàng trăm tỷ nu.

DBG có điểm yếu:

  • Vì các đoạn đọc được chưa thành k-mers nên việc giải quyết các vùng lặp không tốt bằng OLC.

  • Chỉ có một vài loại giao nhau được quan tâm nên tạo ra sự khó khăn với việc giải quyết lỗi.

  • Tính mạch lạc của đoạn đọc bị mất. Một vài đường đi trên đồ thị không thống nhất với các đoạn đọc.

  • Phải xử lý các đoạn đọc lỗi trước khi xây dựng đồ thị.

  • Có nhiều đường đi hoặc chu trình Euler có thể có.

Điểm vượt trội của DBG so với OLC là độ phức tạp không gian O(min(G,N)).

Tạm kết

Bài viết này cố gắng đưa một cái nhìn đủ sâu về hai lớp lớn thuật toán lắp ráp không dựa theo khuôn mẫu. Mỗi lớp có điểm mạnh, điểm yếu riêng. Trong thực tế, các nhà nghiên cứu thường dùng song song hai lớp này tùy vào nhu cầu, mục đích, tài nguyên có sẵn để khảo sát, so sánh và chọn cho hướng đi cho dự án. Có khá nhiều trình lắp ráp sử dụng hai lớp thuật toán lắp ráp trên. Mỗi trình lại có các cài đặt riêng, cải tiến riêng để giúp giải quyết các vấn đề tồn đọng như lỗi của quá trình giải trình tự, bội thể hoặc thời gian tính toán lớn, bộ nhớ lớn, … Ngoài ra, các thuật toán khác vẫn đang được nghiên cứu và phát triển với mục tiêu lắp ráp bộ gen nhanh hơn, chính xác hơn. Đây thực sự là một mảnh đất tiềm năng cho các bạn yêu mến thuật toán thử sức, vừa thỏa mãn đam mê vừa đóng góp vào sự phát triển của ngành tin sinh học.

Trong khuôn khổ dự án 1000 hệ gen người Việt Nam, Vinbigdata đã thu hút được những tài năng về công nghệ thông tin, điển hình là anh Trần Quang Khải – người từng đoạt huy chương vàng IOI, để xây dựng một phần mềm tối ưu lắp ráp hệ gen người Việt với yêu cầu vừa cải thiện được tốc độ so với các phần mềm khác, vừa sử dụng bộ nhớ tối ưu.

Nguồn tham khảo

Lecture OCL Assembly – Johns Hopkins University

Lecture DBG Assembly – Johns Hopkins University

The Sequencing Center

Comparison of the two major classes of assembly algorithms: overlap–layout–consensus and de-bruijn-graph

Bộ gen người hoàn chỉnh đã dần hé lộ

Translator:

Advisor:

Ngày 27/05/2021 vừa qua, các nhà nghiên cứu của hiệp hội Telomere-to-Telomere đã giải mã thêm 200 triệu base và 115 vùng gen mã hóa protein trên hầu hết nhiễm sắc thể so với bộ gen tham chiếu hiện tại. Đây được coi là một thành tựu lớn tiếp theo về giải trình tự gen người kể từ năm 2013.

Trong vòng 20 năm từ lần đầu tiên dự án giải trình tự gen người được công bố bởi Human Genome Project và công ty công nghệ sinh học Celera Genomics, bộ gen người vẫn liên tục được hoàn thiện và cập nhật. Vào lúc đó, ước tính có khoảng 15% độ dài toàn hệ gen vẫn chưa giải trình tự thành công do giới hạn về công nghệ, khiến các nhà nghiên cứu không thể tìm ra vị trí chính xác của một số đoạn DNA, đặc biệt là những vùng gen lặp lại. Nhờ vào sự nỗ lực không ngừng nghỉ, các nhà khoa học đã đạt được một số bước tiến đáng kể: giảm tỉ lệ những vùng còn thiếu xuống còn 8% trên bộ gen tham chiếu GRCh38 – được phát hành vào năm 2013.

Mới đây, các nhà nghiên cứu trong hiệp hội Telomere-to-Telomere (T2T Consortium) – một hiệp hội hợp tác quốc tế bao gồm khoảng 30 tổ chức khác nhau, đã xác định thêm một lượng lớn những vùng còn thiếu. Trong bản preprint đăng ngày 27 tháng 5 năm 2021 có tên “The complete sequence of a human genome”, nhà gen học Karen Miga và các cộng sự ở đại học California – Santa Cruz, cho biết họ đã thành công giải mã 8% còn lại này, qua đó phát hiện ra khoảng 115 gen mới, trong tổng số 19.969 gen.

“Thật tuyệt vời khi có giải pháp cho những vùng phức tạp”, Kim Pruitt, nhà tin sinh học tại Trung tâm Thông tin Công nghệ Sinh học Quốc gia Hoa Kỳ (NCBI) ở Bethesda, Maryland cho biết. Bà gọi kết quả này là “một cột mốc đáng nể”.

Công nghệ giải trình tự mới

Bộ gen mới được giải trình tự – có tên là T2T-CHM13 – bổ sung gần 200 triệu cặp base vào bộ gen người phiên bản 2013.

Khác với những lần trước, thay vì lấy mẫu DNA trực tiếp từ người, các nhà nghiên cứu đã sử dụng một dòng tế bào có nguồn gốc từ thai trứng (chửa trứng), một loại mô hình thành ở người khi tinh trùng thụ tinh với trứng không có nhân. Tế bào thu được chỉ chứa các nhiễm sắc thể từ người cha, vì vậy các nhà nghiên cứu không cần phân biệt giữa hai bộ nhiễm sắc thể đến từ hai người khác nhau (bố và mẹ).

Tác giả Miga cho rằng công nghệ giải trình tự gen mới (link đến bài công nghệ giải trình tự gen) từ Pacific Biosciences ở Menlo Park, California, nắm vai trò đặc biệt quan trọng trong phát kiến này. Công nghệ của PacBio sử dụng la-de để quét những đoạn DNA dài (có thể lến đến 20.000 base) tách từ tế bào. Các công nghệ truyền thống thường chỉ đọc được những đoạn DNA ngắn vài trăm base, và sau đó lắp ráp các đoạn này lại giống như ghép các mảnh câu đố. Việc lắp ráp các đoạn dài thường đơn giản hơn nhiều, vì chúng chứa nhiều đoạn chồng lên nhau nhiều hơn – một đặc điểm giúp việc lắp ghép dễ dàng hơn.

Tuy vậy, T2T-CHM13 chưa phải không phải là bộ gen tham chiếu cuối cùng. Nhóm nghiên cứu của T2T vẫn gặp khó khăn khi phân giải một số vùng, và ước tính có khoảng 0,3% hệ gen có thể vẫn còn lỗi. Mặc dù không còn đoạn nào trống trên hệ gen nữa, việc đảm bảo chất lượng trên những vùng lỗi này vẫn tương đối khó khăn, tác giả Miga cho biết. Bên cạnh đó, tế bào tinh trùng dùng để tạo thành thai trứng mang nhiễm sắc thể X nên các nhà nghiên cứu chưa thể giải trình tự nhiễm sắc thể Y – thường kích hoạt sự phát triển sinh học của nam giới.

Hàng trăm bộ gen khác đã sẵn sàng để giải trình tự

Dù đã hoàn chỉnh, T2T-CHM13 chỉ đại diện cho bộ gen của một người. Hiệp hội T2T đã hợp tác với hiệp hội Human Pangenome Reference, với mục đích trong vòng 3 năm tới sẽ giải mã hơn 300 bộ gen người trên khắp thế giới. Tác giả Miga nói rằng các nhóm khác có thể sử dụng T2T-CHM13 để tham khảo các phần khác biệt của bộ gen giữa các cá nhân. Nhóm của Miga cũng có kế hoạch giải trình tự toàn bộ bộ gen có chứa nhiễm sắc thể của cả cha và mẹ, đồng thời đang giải trình tự nhiễm sắc thể Y, sử dụng chính các phương pháp mới để tìm những vùng còn thiếu.

Tác giả Miga mong đợi rằng các nhà nghiên cứu di truyền học sẽ nhanh chóng xác định được các vùng mới được giải trình tự này có liên quan đến các bệnh ở người hay không. Bà nói: “Khi bộ gen của con người mới xuất hiện, chúng ta không có sẵn các công cụ cần thiết, nhưng hiện nay thông tin về chức năng của các gen mới được giải trình tự có thể được tìm ra nhanh hơn nhiều, bởi vì chúng ta đã có rất nhiều tài nguyên trong tay”.

Miga hy vọng rằng trình tự bộ gen của con người trong tương lai sẽ bao gồm tất cả, kể cả những phần mới được giải trình tự – chứ không chỉ những phần dễ đọc. Điều này sẽ dễ dàng hơn khi bộ gen tham chiếu đã được hoàn chỉnh và các trở ngại kỹ thuật đã được giải quyết. Bà nói: “Chúng ta cần hướng đến một tiêu chuẩn mới trong nghiên cứu hệ gen, khi các kĩ thuật này trở thành thường quy chứ không còn là điều gì đó đặc biệt.”

Việt Nam cũng đang xây dựng bộ gen tham chiếu của chính mình

Mặc dù bộ gen hoàn chỉnh của T2T-CHM13 đã cho chúng ta thấy một cái nhìn toàn cảnh hơn về bộ gen của con người, nhưng trước mắt, nó vẫn chưa thể thay thế GRCh38 vì thiếu những bộ dữ liệu chú giải đi kèm. Những nghiên cứu tin sinh vì vậy vẫn phải tiếp tục đương đầu với những hạn chế của GRCh38, ví dụ như bộ gen thiên lệch quá nhiều cho người Âu – Mỹ, thiếu sót nhiều cho cánh ngắn p của các nhiễm sắc thể hướng tâm (13, 15, 21, 22), v.v… Trong các năm gần đây, đặc biệt là các quốc gia châu Á như Hàn, Nhật đã đầu tư và tự xây dựng bộ gen tham chiếu riêng của dân tộc mình, tiến thêm một bước đến y học chính xác. Nhật Bản đã hai lần cập nhật bộ gen tham chiếu, và với lần gần đây nhất xuất bản tháng 1/2021, bộ gen tham chiếu của Nhật Bản đã đạt kích thước 3.08 tỉ base, và chỉ còn gần 500 khoảng trống. Để đạt được thành tựu như vậy, nhóm nghiên cứu tại Nhật đã sử dụng kết hợp DNA của 3 người tình nguyện cùng 5 công nghệ giải trình tự khác nhau.

Hiện nay VinBigData đã lên kế hoạch xây dựng và chú giải bộ gen tham chiếu riêng của người Việt (link đến dự án Hệ gen tham chiếu của người Việt). Dự án này sẽ tận dụng dữ liệu từ các dự án đã được thực hiện tại VinBigdata (link đến Data Portal) cùng những công nghệ giải trình tự tiên tiến nhất hiện nay để tạo ra một hệ gen tham chiếu gần như hoàn chỉnh đầu tiên của người Việt. Dự án cũng có sự hợp tác với các đơn vị nghiên cứu hàng đầu trong nước và quốc tế như Đại học Y Hà Nội, Đại học Queensland, Úc, Đại học California, San Diego, Mỹ. Tiếp bước thành công của các nghiên cứu về hệ gen tham chiếu khu vực và quốc tế, dự án này hứa hẹn sẽ mang đến một nguồn tham chiếu hữu ích cho các nghiên cứu di truyền trên quần thể người Việt Nam.

Nguồn tham khảo:

A complete human genome sequence is close: how scientists filled in the gaps

Gene - Khái niệm không ngừng tiến hoá

Writer:

Advisor:  

Bất cứ định nghĩa khoa học cũng thay đổi qua thời gian, và gene – một trong những khái niệm “xương sống” của các ngành sinh học, cũng không đứng ngoài quy luật đó. Trong vòng hơn 100 năm xuất hiện, cùng với hiểu biết ngày càng sâu rộng của chúng ta, thuật ngữ này đã từng bước có những thay đổi căn bản.

Lịch sử khái niệm gene trên thế giới

Vào cuối thế kỉ 19, khi Mendel tìm ra quy luật di truyền, mặc dù không nhắc đến từ “gene”, nhưng ông nhắc đến “những yếu tố tế bào”, hay “nhân tố di truyền” (nguyên văn tiếng Đức: Zellelemente), mang yếu tố di truyền, quyết định đặc tính của cơ thể sống. Mãi đến năm 1909, Johannsen mới đặt tên cho những “nhân tố” này là “gene”, xuất phát từ Hy Lạp γόνος, gonos – sinh sôi, nảy nở.

Đầu những năm 1900, người ta đã biết đến các sợi nhiễm sắc thể (NST), ban đầu các sợi này được cho là những “nhân tố” được Mendel tìm thấy, và chúng tuân theo Quy luật phân ly và Quy luật phân ly độc lập (các gene khác nhau, quy định những tính trạng khác nhau thì di truyền độc lập với nhau). Nhưng chỉ một thời gian ngắn sau đó, những năm 1905-1910, những bằng chứng về việc có những gene thường xuyên di truyền cùng nhau, chứng tỏ gene là một thành phần nhỏ hơn cả NST, những gene khác NST thì phân ly độc lập, những gene nằm gần nhau trên NST lại thường di truyền cùng nhau. Nhờ những tính chất này, những năm 1915-1929, thông qua các nghiên cứu của Morgan, Dobzhansky, Muller và Painter, một “bản đồ” vị trí tương đối của các gene của loài ruồi giấm đã được tạo ra. Nhìn chung, vào năm 1930, định nghĩa về gene đã tương đối vững chắc: là đơn vị nhỏ nhất của di truyền, nằm tại một vị trí trên NST. Gene có thể di truyền tính trạng, tái tổ hợp, đột biến, và có chức năng cụ thể. Đây có thể coi là thời kì gene mang định nghĩa “Cổ điển”: là một thực thể vật lý, có cấu trúc ba chiều siêu nhỏ, có cấu trúc di truyền riêng biệt, có khả năng biến đổi và truyền lại biến đổi đó.

Những năm 1930-1950, giữa thời kỳ hoàng kim của cơ học Newton, “khi mà gần như mọi thứ đã được nghiên cứu hết”, một thứ tồn tại dưới dạng vật lý như gene, mà lại không có toạ độ, hay kích thước là điều không thể chấp nhận được. Những thí nghiệm tại đại học Rockefeller tìm ra DNA là vật chất di truyền, khi những thí nghiệm trên Thực khuẩn thể chứng minh rằng thành phần chứa DNA chịu trách nhiệm cho việc nhân lên của chúng. Tuy nhiên, bước nhảy vọt thực sự trong lý thuyết di truyền DNA lại do Watson, Crick, Wilkin và Rosalind cùng khám phá ra vào năm 1953, đó là cấu trúc sợi xoắn kép của 2 chuỗi nucleotide. Từ đây, gene đã có cấu trúc cụ thể, có toạ độ cụ thể trên NST. Những năm sau đó, những nghiên cứu chứng minh rằng gene được phiên mã thành mRNA, và sau đó thông tin gene được tiếp tục dịch mã thành Protein. Lý thuyết “một gene, một enzyme” được đề xuất, và được mở rộng thành “một gene – một mRNA – một polypeptide”. Thời kì này của gene, được coi là Thời kì Tân cổ điển. 

Nhưng, cũng như việc cơ học lượng tử thay thế tính “rõ ràng” của cơ học cổ điển, định nghĩa tuyệt đối về gene cũng không tồn tại được lâu. Những vùng khởi đầu phiên mã khác nhau của cùng một gene được tìm ra, song hành cùng cơ chế cắt nối thay thế RNA đã thể hiện việc một gene có thể tạo ra nhiều bản sao khác nhau. Tuy nhiên, dù gì thì DNA và RNA vẫn tương đối tương đồng, độ dài mặc dù có thể thay đổi nhưng thứ tự về cơ bản vẫn không đổi, và một mRNA vẫn cứ tạo ra một polypeptide. Sau đó, những năm 2007 và 2011, lại thêm 2 viên đạn lớn bắn vào thành trì vững chắc của định nghĩa Tân cổ điển: hiện tượng chỉnh sửa RNA và chia sẻ gene. Một chuỗi mRNA hoàn chỉnh, vẫn có thể bị chỉnh sửa, dẫn đến chuỗi amino acid khác hoàn toàn so với những gì được dự đoán. Hiện tượng chia sẻ gene còn được biết đến với tên gọi “protein moonlighting”, khi cùng một gene, cùng một chuỗi polypeptide, nhưng lại hoạt động khác nhau trên những tế bào khác nhau. Tuy nhiên, cốt lõi về định nghĩa của gene, “một thực thể vật lý, có toạ độ cụ thể” vẫn vô cùng vững chắc, cho đến khi những dự án giải mã trình tự toàn hệ gen xuất hiện, dẫn đến những phát hiện đặc sắc:

  1. Trong tế bào nhân thực, gần như không có giới hạn nào cho việc phiên mã, gần như cả NST, hay cả bộ gene đều liên quan đến quá trình phiên mã. Gần như không thể viết ra quan hệ 1:1:1 giữa gene, bản phiên mã và sản phẩm cuối cùng được. (Gingeras 2007, Pearson 2006, (The FANTOM Consortium and RIKEN Genome Exploration Group 2005; The ENCODE Project Consortium 2007; 2012)

  2. Exon của gene này, có thể trở thành một phần bản phiên mã của gene khác. Ước tính có khoảng 4-5% những đoạn gene lặp lại có thể tạo ra 1 protein giả định duy nhất. (Parra et al. 2006)

  3. Trong tế bào nhân thực, có một số gene tồn tại rải rác ở nhiều phần khắp bộ NST. (Landweber 2007)

  4. Trạng thái hiện tại của 1 gene có thể truyền lại thế hệ sau, tức là kể cả những thông tin không được lưu sẵn trên chuỗi DNA. (Holliday 1987; Gerhart and Kirschner 2007; Jablonka and Raz 2009)

  5. Hiện tượng Phục hồi di truyền: sau một vài thế hệ có đột biến, một số đột biến được phục hồi lại trạng thái ban đầu một cách chính xác. (Lolle et al. 2005)

  6. Ngoài những gene sản xuất protein, có rất nhiều gene chỉ tạo ra RNA. Bên cạnh tRNA và rRNA được phát hiện khá sớm, có liên quan trực tiếp để sản xuất protein, những long non coding RNA, micro RNA, hay circular RNA cũng có những chức năng sinh học cụ thể. (Eddy 2001; Carninci and Hayashizaki 2007; Carninci et al. 2008.

Những phát hiện này, làm định nghĩa rõ ràng của gene trở nên mơ hồ, cảm tưởng như một thời kì “mông muội” mới lại bắt đầu. Vậy là, chúng ta đã đi suốt một chặng đường dài, để đi từ định nghĩa của Johannsen, với gene là “đơn vị di truyền”, đến định nghĩa của những năm 1960 – một chuỗi DNA tạo ra một chuỗi polypeptide. Và rồi thêm một nửa thế kỉ nữa để thấy rằng định nghĩa đó vẫn chưa bao hàm hết ý nghĩa của gene. Gene không phải là đơn vị duy nhất có thể di truyền, gene và các sản phẩm của gene tương tác với nhau thành một mạng lưới phức tạp. Giờ đây, chúng ta sử dụng một định nghĩa tương đối “an toàn” cho gene: Sách giáo khoa sinh học lớp 12 của Việt Nam và cuốn Biochemistry 6th, Lehninger đều nói: Gene là một đoạn của phân tử DNA mang thông tin và mã hoá cho một chuỗi polypeptide hay một phân tử RNA.

Tương lai của nghiên cứu hệ gen

Từ những phân tích kể trên, có thể thấy, gene vốn là một khái niệm khoa học tương đối quen thuộc, nhưng hoá ra vẫn còn đang tiếp tục phát triển. Theo thời gian, mỗi dự án giải trình tự lại đem đến một hiểu biết mới về “xương sống” của các ngành sinh học.

Điển hình như dự án Assembly of a pan-genome from deep sequencing of 910 humans of African descent | Nature Genetics, giải trình tự và lắp ráp hệ gen của hơn 900 mẫu người châu Phi, đã phát hiện ra có đến 10% phần DNA hoàn toàn mới so với hệ gen tham chiếu hiện hành (GRCh38), với tổng độ dài lên đến 296 triệu base, chứa trong 125,715 đoạn khác nhau. Mặc dù chức năng của phần lớn những đoạn mới phát hiện này đều chưa được khám phá, nhưng có đến 315 đoạn nằm tại các gene mã hoá protein, hứa hẹn giải đáp những điều chưa biết về đặc điểm di truyền đặc trưng của người châu Phi.

Tiếp nối dự án trên, dự án giải mã hệ gen người Thuỵ Điển Discovery of Novel Sequences in 1,000 Swedish Genomes | Molecular Biology and Evolution | Oxford Academic (oup.com), đã phát hiện ra 46 triệu base mới trong quần thể người Thuỵ Điển, nằm trong 61,044 đoạn riêng biệt, đặc biệt đã tìm thấy nhiều đoạn nằm rải rác trong những trình tự DNA mới của châu Phi, hé lộ nguồn gốc di cư của quần thể này.

Tại Việt Nam, từ năm 2018, VinBigdata đã bắt tay triển khai dự án giải mã 1000 hệ gen người Việt. Cùng với dự án này, VinBigdata cũng đã phát triển một hệ thống phân tích, quản lý và chia sẻ dữ liệu y sinh lớn nhất Việt Nam (VinGen Data Portal, cung cấp link). Hiện hệ thống đang lưu trữ hơn 2000 terabyte dữ liệu và gần 5000 mẫu sinh học từ dự án 1000 hệ gen người Việt và một số dự án ứng dụng khác. Hệ thống được thiết kế tuân theo một số tiêu chuẩn lưu trữ dữ liệu của Viện Y tế Quốc gia Hoa Kỳ (NIH) và tiêu chuẩn bảo mật thông tin của Quy định chung về bảo mật thông tin (GDPR) của Châu Âu. Từ thành công của các dự án này, VinBigData tiếp tục phối hợp với Đại học Y Hà Nội và Đại học Queensland, Úc, để lên kế hoạch xây dựng và chú giải hệ gen tham chiếu của người Việt, làm tiền đề cho các nghiên cứu hệ gen tại Việt Nam và khu vực (link đến dự án Hệ gen tham chiếu của người Việt). Dự án có tiềm năng phát hiện ra các đoạn gen mới đặc trưng của người Việt Nam, cũng như góp phần làm tiền đề cho y học chính xác cất cánh.

Bài viết được dịch và tóm tắt lại theo: The Evolving Definition of the Term “Gene” – Genetics, 2017

Phức hợp Trình diện Kháng Nguyên - Hệ thống giám sát đa dạng bậc nhất của cơ thể

Tưởng tượng rằng một đám tế bào T, vốn là tế bào “cảnh sát” của hệ miễn dịch, sau khi nhận được tín hiệu về việc cơ thể đang bị virus xâm phạm, phải đi truy lùng một vùng có chứa các tế bào bị nhiễm virus mà bị xen lẫn với tế bào khoẻ mạnh khác. Việc của tế bào T này không đơn thuần chỉ là đi phá huỷ cả một vùng mô chứa hỗn tạp các tế bào, mà là là tiêu diệt những tế bào bị nhiễm virus, và để yên cho các tế bào khoẻ mạnh khác. Vậy làm thế nào để nó nhận diện được đâu là mục tiêu cần tiêu diệt? Trong bài viết này, chúng tôi sẽ đề cập tới kháng nguyên như là một “giấy tờ tuỳ thân” của tế bào, và phức hợp trình diện kháng nguyên như là phương thức mà các tế bào phải trình diện “giấy tờ tuỳ thân” của chúng cho tế bào T. Ngoài ra, các chức năng tương tự khác của phức hợp trình diện kháng nguyên cũng được đề cập tới.

1. Kháng Nguyên và phức hợp trình diện kháng nguyên 

Kháng nguyên (antigen) là khái niệm được nhắc đến rất nhiều trong thời gian gần đây, khi mà dịch bệnh COVID-19 đang là một mối thách thức với nhiều quốc gia. Chính vì vậy, nhu cầu xét nghiệm nhanh cho COVID càng tăng cao. Trên thực tế, một vài phương pháp kit xet nghiệm nhanh COVID-19 thường được nhắc đến là hoạt động dựa trên nguyên lý nhận diện kháng nguyên của COVID – bởi kháng nguyên thường được coi như là dấu ấn sinh học cho COVID-19. Tuy nhiên, vai trò của kháng nguyên trong cơ thể của con người lại là một kiến thức sinh học vốn ít được biết đến với đại chúng, và việc cơ thể ta nhận biệt được kháng nguyên thông qua phức hợp trình diện kháng nguyên lại càng ít hơn. Trước tiên, chúng ta sẽ cùng tìm hiểu kháng nguyên là gì và từ đó, chúng ta sẽ đi đến định nghĩa phức hợp trình diện kháng nguyên. Hiểu được vai trò của phức hợp này giúp chúng ta phần nào hiểu được cách cơ thể chống lại và nhận biết được tế bào nhiễm virus như thế nào.

1.1. Kháng nguyên

Kháng nguyên (antigen) là khái niệm dùng để chỉ chung tất cả những phần tử protein, peptides, hoặc là polysaccharide có nguồn gốc từ cả bên trong lẫn bên ngoài cơ thể con người. Đối với kháng nguyên của cơ thể người, đây đơn thuần là protein hay polysaccharide xuất phát từ trong tế bào, được đưa ra ngoài thành tế bào và giữ lại bởi phức hợp trình diện kháng nguyên loại I ((Major histocompatibility complex Class I), chúng ta sẽ đề cập đến khái niệm này sau. Đây là một trong 2 loại phức hợp nằm trên thành tế bào.

Đối với kháng nguyên ngoại lai, sự hiện diện của nó bên trong cơ thể huy động hệ miễn dịch để nhận dạng và tấn công nó. Trong bối cảnh COVID-19, kháng nguyên có thể là protein gai trên bề mặt virus (Hình 1)

Hình 1: Cấu trúc protein gai của COVID-19


Kháng nguyên còn đóng vai trò lớn khi gây dị ứng, lúc này phân tử kháng nguyên có thể là phấn hoa, lông mèo, hoặc đơn giản chỉ là một hạbụi trong không khí. Một khi những phần tử kháng nguyên hiện hữu trong cơ thể người, chúng bị bắt gặp và “nuốt chửng” bởi một nhóm các tế bào trình diện chuyên nghiệp (Antigen Presenting Cells hay là APC) v.d. tế bào tua, đại thực bào. Bên trong những tế bào nhận biệt kẻ thù chuyên nghiệp này, chúng sẽ được cắt ghép, xử lý và được đẩy ra ngoài thành tế bào, sẵn sàng để trình diện (Hình 2). Nên nhớ rằng thứ được trình diện không nhất thiết là kháng nguyên, mà là bản cắt ghép “rút gọn” của kháng nguyên – phân mảnh- và chính phức hợp trình diện kháng nguyên loại II, thứ nằm trên mặt ngoài của tế bào, sẽ giữ peptide này.

Nói tóm lại, mỗi loại phức hợp sẽ đảm nhiệm vai trò cho một loại kháng nguyên khác nhau.

             Vậy tại sao những mẩu peptide của virus này cần được trình diện, và trình diện có nghĩa là gì ?

 


Có thể hiểu nôm na rằng APC là các tế bào chỉ điểm và “giảng dạy” chuyên nghiệp. Một khi chúng tìm thấy kháng nguyên lạ trong cơ thể, chúng di chuyển đến vùng hạch bạch huyết (lymph nodes) để tìm sự giúp đỡ của tế bào T -vốn được hiểu nôm na là tế bào miễn dịch có vai trò tiêu diệt tế bào nhiễm virus. Một khi có tín hiệu báo động rằng cơ thể đang bị xâm nhập, các tế bào T tập trung lại và đợi APC huấn luyện để nhận diện kẻ thù. Việc tế bào APC liên kết với các tế bào T thông qua phức hợp trình diện (Hình ) được gọi là quá trình trình diện kháng nguyên.

1.2. Phức hợp trình diện kháng nguyên

Vậy cấu trúc và cơ chế của MHC để trình diện kháng nguyên như thế nào? Trong cơ thể vốn dĩ có vô số loại tế bào T hỗ trợ khác nhau được tạo ra bởi quá trình tái tổ hợp VDJ, nhưng không phải loại nào cũng phù hợp để tiêu diệt một loại “kẻ địch” nhất định. Chính vì thế, quá trình trình diện kháng nguyên vừa có ý nghĩa khai báo kẻ xâm nhập mới của cơ thể, vừa có ý nghĩa chọn ra vũ khí tiêu diệt kẻ địch tốt nhất. Ở phần này chúng ta sẽ giải thích kĩ hơn về cơ chế của quá trình trình diện và cấu trúc của MHC, mà cụ thể là MHC I.

Phức hợp MHC loại I có 4 phần chính (alpha 1,2,3, và Beta 2). Hình dạng và tính chất của alpha 2 và alpha 1 sẽ định hình vị trí gắn peptide – phân mảnh đã được biên tập lại của kháng nguyên.

Ở đây, chúng ta cùng xét một ví dụ bao gồm tế bào đuôi gai(là một loại APC), tế bào T hỗ trợ, và tế bào T độc. Tế bào đuôi gai mang MHC II có gắn phân mảnh của kháng nguyên, và nó liên kết với tế bào hỗ trợ thông qua thụ thể T (T cell receptor). TCR có thể coi là tai mắt của tế bào T, là cầu nối tiếp nhận thông tin với các yếu tố bên ngoài. Trong vô vàn tế bào T trong kho dự trữ của cơ thể, chỉ những tế bào T có rãnh “khớp” với tổ hợp MHC II – phân mảnh mới bám được vào tế bào đuôi gai. Những tế bào T “phù hợp” này sẽ được nhân lên gấp bội ở hạch bạch huyết, và chúng sẽ đảm nhiệm việc tiêu diệt tế bào mang bệnh.

Việc trình diện giữa tế bào APC thông qua MHC II mới chỉ là một nửa bức tranh về phức hợp trình diện. Ngoài MHC II, MHC I cũng quan trọng không kém. Chúng ta cùng tưởng tượng rằng sau khi có tín hiệu về sự xâm nhập của virus, tế bào APC cũng đi chỉ điểm cho tế bào T, và tế bào T độc gấp rút đi tìm mục tiêu – tế bào bị nhiễm virus – để tiêu diệt. MHC I sinh ra có lẽ từ nhu cầu phân biệt giữa địch và ta cho các tế bào T gây độc. Với tế bào khoẻ mạnh, chúng sẽ có phân mảnh kháng nguyên của cơ thể gắn trên MHC I, nhưng tế bào nhiễm bệnh thì lại có phân mảnh kháng nguyên của virus, do chúng đã bị virus chiếm hữu làm nhà máy nhân bản. MHC I vận hành như một chiếc thẻ học sinh hay một chiếc thẻ căn cước , được dùng để xuất trình cho bảo vệ. Nên nhớ rằng chiếc thẻ này chỉ dùng khi bảo vệ yêu cầu, cũng như tế bào T chỉ kiểm tra khi có dấu hiệu của xâm nhập. Việc kiểm tra này giúp tế bào T độc không giết oan uổng những tế bào khoẻ mạnh, mà chỉ tập trung vào tế bào nhiễm bệnh thôi.

Qua đây, chúng ta đã hiểu được cơ chế mà các tế bào bảo vệ của cơ thể có thể nói chuyện với nhau thông qua phức hợp trình diện II, cũng như tế bào bình thường và tế bào bảo vệ nói chuyện bằng phức hợp trình diện I.

2. Sự đa hình của phức hợp trình diện kháng nguyên

Trên đây chúng ta có bàn qua sơ bộ về vai trò và cấu trúc của MHC trong cơ thể người. Ở phần này, chúng ta sẽ tiếp tục tìm hiểu đến sự đa dạng của MHC. Trong cộng đồng người, mỗi loại MHC I lại có vô vàn biến thể, mà khả năng gắn kết với peptide của chúng là vô cùng đa dạng. Sự đa dạng này sẽ ảnh hưởng đến khả năng bám dính với tế bào T, cũng như khả năng bắt giữ kháng nguyên của nó. Bản thân MHC là một phức hợp của tế bào, được sản xuất từ genes, tính chất của nó sẽ phụ thuộc rất nhiều vào bản thân các gene tạo nên nó.

Để phục vụ mục đích bám dính vào rất nhiều loại kháng nguyên, MHC nổi tiếng trong giới sinh học  vì sư đa hình của nó. Website IMGT/HLA ( ) là cơ sở dữ liệu lớn nhất hiện này thống kê về sự đa dạng của HLA, cũng như lưu trữ bộ gen chi tiết cho từng phức hợp cụ thể. Có đến 30,522 phức hợp HLA khác nhau, chỉ cho 45 gene và pseudo gene. Để hệ thống hoá một số lượng khổng lồ như vậy, cần đến một hệ thống danh pháp rõ ràng. Nên nhớ rằng cách đặt tên này chỉ mang tính trên danh nghĩa (nominal), hay còn là một cách phân loại cho thuận tiện.

Mỗi kiểu gene của 1 gene HLA được gọi là 1 a-len (allele). Một A-len thường được định danh bởi một hệ thống có thứ bậc. Ban đầu, nhóm của a-len sẽ được kí hiệu bởi tên gene, như A,B,C nếu chúng thuộc MHC I, hoặc DRB1, DQB1, v.v. nếu thuộc MHC II. 4 cấp bậc phía sau được phân cách bởi dấu “:”, sẽ dần đi sâu vào chi tiết của a-len. Cũng như việc một a-len có thể coi là một học sinh của một trường, học sinh đó có thể là người của một tổ, tổ của một lớp, lớp của một khối, v.v.. Chính vì vậy, chúng ta có thể tưởng tượng được sự số lượng khổng lồ của “trường học MHC”, khi mà mỗi a-len cần đến 5 cấp phân loại như vậy.

Khi một a-len càng được miêu tả bởi nhiều cấp, ta càng biết nhiều chi tiết về nó hơn. Chẳng hạn như khi nhìn tên a-len HLA-A*02:101, chúng ta biết được trình tự protein của nó, nhưng với HLA-A*02:101:01 chúng ta còn biết được cả trình tự gene mã hoá ra protein này, và với HLA-A*02:101:01:01, chúng ta thậm chí còn biết nguyên chuỗi gene HLA-A, bao gồm cả những đoạn không tham gia mã hoá.

Sự đa hình của alen nhóm MHC, đương nhiên cũng gây ra nhiều sự đau đầu cho các nhà khoa học. Điển hình như với một Genome tham chiếu (dẫn link đến bài này) tuyến tính, không thể nào có một chuỗi đại diện cho hơn tổ hợp của 30 nghìn a-len được, vậy nên kết quả về dóng hàng trình tự gen trên đoạn gen MHC thường rất kém tin cậy. Chính vì thế, cần có những công cụ đặc dụng để xác định chính xác tổ hợp MHC trong hệ gen mỗi người. Hiện nay, dự án 1000 hệ gen Việt Nam đã làm chủ được quy trình phân tích xác định MHC I và II, và đang công bố kết quả với độ tin cậy cao, được kiểm nghiệm bởi nhiều nguồn dữ liệu tại đây VinGen Data Portal (vinbigdata.org).

Trong loạt bài viết tiếp theo, chúng tôi sẽ đề cập đến câu hỏi: liệu sự đa hình của MHC có ảnh hưởng đến khả năng chống lại bệnh tật không, và cụ thể là như thế nào? Làm thế nào để thiết kế thí nghiệm xác nhận kết quả phân tích MHC?