Tải bản đầy đủ (.pdf) (160 trang)

Phân loại trình tự metagenomics trên cơ sở phân lớp và gom cụm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.72 MB, 160 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

LÊ VĂN VINH

PHÂN LOẠI TRÌNH TỰ METAGENOMICS
TRÊN CƠ SỞ PHÂN LỚP VÀ GOM CỤM

LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP. HỒ CHÍ MINH NĂM 2016


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

LÊ VĂN VINH

PHÂN LOẠI TRÌNH TỰ METAGENOMICS
TRÊN CƠ SỞ PHÂN LỚP VÀ GOM CỤM

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Chuyên ngành: Khoa học Máy tính
Mã số chuyên ngành: 62480101

NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS. TS. Trần Văn Lăng
2. PGS. TS. Trần Văn Hoài



LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả nghiên
cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất kỳ một nguồn
nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu (nếu có) đã được thực
hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.

Tác giả luận án.

Lê Văn Vinh


TÓM TẮT LUẬN ÁN
Metagenomics (còn được gọi là environmental genomics hay community genomics) là lĩnh
vực nghiên cứu cộng đồng vi sinh vật. Khác với phương pháp nghiên cứu vi sinh vật truyền
thống (được gọi là microbial genomics), lĩnh vực này cho phép phân tích trực tiếp mẫu thực
nghiệm mà không cần trải qua giai đoạn nuôi cấy và phân tách từng cá thể trong phòng thí
nghiệm. Những dự án nghiên cứu metagenomics mang đến lợi ích trong nhiều lĩnh vực như:
nông nghiệp, công nghệ sinh học, khoa học môi trường.
Một trong những việc quan trọng của một dự án metagenomics, được gọi là phân loại
trình tự (taxonomic binning), là nhằm sắp xếp trình tự vào các nhóm có quan hệ sinh loài
gần nhau. Công việc này cũng giúp xác định nguồn gốc của trình tự trong mẫu thực nghiệm,
cũng như xác định chúng quan hệ ra sao với sinh vật đã biết. Kết quả của bài toán phân loại
có thể được sử dụng như là đầu vào của những bài toán khác trong một dự án metagenomics
như: xác định vị trí xuất hiện gien trên trình tự (annotation), ráp nối trình tự (assembly).
Có ba yếu tố chính mang đến thách thức cho bài toán phân loại trình tự metagenomics hiện
nay. Thứ nhất, hầu hết công nghệ giải mã trình tự thế hệ mới (next-generation sequencing)
hiện tại chỉ cho phép xử lý cho trình tự ngắn hoặc rất ngắn (nhỏ hơn 700bp). Tuy nhiên, độ
dài trình tự ngắn làm giảm chất lượng phân loại vì thiếu thông tin chứa đựng trong trình tự.
Thứ hai, hiệu năng của giải pháp phân loại có giám sát phụ thuộc vào mức độ chính xác
và mức độ đầy đủ của cơ sở dữ liệu tham khảo. Điều này dẫn đến là những giải pháp này

thường khó khăn trong việc phân loại bởi vì phần lớn vi sinh vật trên trái đất chưa được
khám phá. Cuối cùng, dự án metagenomics thường phải xử lý cho lượng dữ liệu rất lớn. Yếu
tố này không chỉ làm tăng thời gian thực thi, mà còn làm giảm độ chính xác khi phân loại
của các giải pháp.
Nghiên cứu này nhằm mục tiêu đề xuất giải pháp phân loại cho dữ liệu metagenomics,
có khả năng xử lý tốt cho trình tự ngắn, và giải quyết hiệu quả cho trường hợp cơ sở dữ liệu

ii


tham khảo không đầy đủ. Dựa trên việc vận dụng các kỹ thuật phân lớp và gom cụm, kết
hợp khai thác tính chất của dữ liệu, luận án đã có những đóng góp chính như sau.
Một là, luận án đề xuất các phương pháp nhằm nâng cao chất lượng của vấn đề phân loại
trình tự dựa trên sự phong phú của hệ gien. Ba đóng góp chính của luận án trong vấn đề này
là: (1) Sử dụng mô hình thu giảm vốn đòi hỏi ít chi phí tính toán để tìm ước lượng khả năng
cực đại của tham số cho mô hình thống kê; (2) Vận dụng phương pháp lựa chọn mô hình
nhằm phát hiện số cụm trong tập dữ liệu, giúp làm tăng chất lượng phân loại. (3) Đề xuất
một phương pháp đếm l-mer với độ dài thay đổi, giúp làm tăng chất lượng của giải pháp
phân loại dựa trên sự phong phú của hệ gien khi dữ liệu không có lỗi giải mã.
Hai là, luận án đề xuất ý tưởng xây dựng tập đại diện của một tập trình tự cùng hệ gien
dựa trên thông tin gối đầu trình tự. Tập đại diện này cho thấy nó vẫn chứa đựng đặc trưng
tương đồng và hợp thành của tập trình tự ban đầu. Do đó, nó có khả năng bảo toàn đặc trưng
của tập dữ liệu gốc và có thể được vận dụng nhằm giúp giảm chi phí tính toán mà vẫn giữ
được chất lượng của giải pháp phân loại.
Ba là, một giải pháp không giám sát được đề xuất cho phân loại trình tự sử dụng đặc
trưng tần số xuất hiện l-mer, và thông tin gối đầu giữa các trình tự. Giải pháp đề xuất này,
được gọi là BiMeta, sử dụng ý tưởng tìm tập đại diện của tập trình tự thuộc cùng hệ gien
nhằm mục đích vừa giảm chi phí tính toán, vừa đạt được chất lượng phân loại tốt. BiMeta
bao gồm hai pha chính. Trong pha đầu, trình tự được gom thành từng nhóm dựa trên thông
tin gối đầu giữa chúng. Pha hai trộn các nhóm vào các cụm dựa trên đặc trưng phân bố tần

số xuất hiện l-mer được rút trích từ tập đại diện của các nhóm này.
Bốn là, một giải pháp phân lớp bán giám sát, được gọi là SeMeta, được đề xuất nhằm
phân loại gán nhãn cho trình tự. SeMeta cũng sử dụng ý tưởng tìm tập đại diện của tập dữ
liệu, nhưng giải pháp này vận dụng khả năng bảo toàn tính tương đồng của chúng để phân
loại trình tự. Giải pháp này bao gồm hai bước chính. Sau bước gom cụm sử dụng phương
pháp cải tiến của BiMeta, nó thực hiện gán nhãn từng cụm vào từng đơn vị phân loại phù
hợp dựa trên sự tương đồng giữa trình tự trong đại diện của các cụm với cơ sở dữ liệu tham
khảo. Bên cạnh đó, một kỹ thuật lọc những thông tin nhiễu (BLAST hit không tin cậy) từ

iii


quá trình so sánh tương đồng cũng được áp dụng giúp làm tăng chất lượng phân loại của
giải pháp.
Kết quả thực nghiệm trên dữ liệu giả lập và dữ liệu thực tế cho thấy, các giải pháp dựa
trên sự phong phú của hệ gien (MetaAB và MetaAB-adv) và BiMeta đạt độ chính xác cao
hơn và tốn ít chi phí tính toán hơn so với các giải pháp không sử dụng dữ liệu tham khảo
thường được sử dụng. Bên cạnh đó, SeMeta cho thấy đạt được chất lượng phân loại tốt hơn,
đồng thời chi phí tính toán giảm đáng kể so với các giải pháp có giám sát dựa trên tính tương
đồng phổ biến hiện nay. Các giải pháp này hứa hẹn là công cụ hữu ích cho vấn đề phân tích
mẫu thực nghiệm từ môi trường vi sinh vật.
Mặc dù các giải pháp được đề xuất trong luận án này cho thấy là có khả năng phân tích
hiệu quả cho trình tự metagenomics, một số khía cạnh cần được nghiên cứu trong tương lai
kể cả về mặt lý thuyết và thực nghiệm nhằm nâng cao chất lượng phân loại. Để làm tăng độ
chính xác của các giải pháp đề xuất, những dấu hiệu hệ gien, hay độ đo khoảng cách vectơ
tần số l-mer khác có thể được nghiên cứu và áp dụng cho BiMeta và SeMeta. Ngoài ra, khả
năng gán nhãn trình tự vào vị trí trên cây sinh loài của SeMeta có thể được cải tiến khi mức
độ tương đồng khác nhau giữa các BLAST hits tin cậy được quan tâm, cũng như ngưỡng
giá trị thể hiện mức độ tương đồng của các trình tự theo từng bậc phân loại được khảo sát.
Bên cạnh đó, vấn đề sửa lỗi trình tự hay việc áp dụng các công nghệ tính toán hiệu năng cao

cũng là hướng nghiên cứu có thể giúp làm tăng chất lượng phân loại, hoặc giảm chi phí tính
toán của các giải pháp đề xuất.

iv


ABSTRACT
Metagenomics (or environmental genomics, community genomics) is the study of microbial communities. The discipline, different from traditional methods (microbial genomics),
enables analyzing microbial samples directly, without the needs of isolating and culturing
single organisms in laboratories. Metagenomic projects have contributed in advances in
many fields, e.g., agriculture, biotechnology, and environmental science.
One of the crucial tasks in a metagenomic project, referred to as binning problem, is to
sort reads into groups of closely related organisms. This task also helps in identifying the
origin of the reads in an environmental sample, as well as determining how they are related
to known taxa. Results of binning approaches can be used in other tasks of metagenomic
analysis, such as DNA annotation, sequence assembly.
There are three main factors posing current research challenges in this field. Firstly, most
of the next-generation sequencing techniques only produce short or very short reads. However, the length of short reads reduces much classification quality due to the lack of the
sequence information. Secondly, the performance of supervised approaches depends on the
accuracy and completeness of reference database. As a result, those methods are difficult
to classify reads correctly because the majority of microorganisms on Earth remain undiscovered. Finally, metagenomic projects usually are performed on a huge amount of data.
This factor not only makes binning approaches suffer from computational expense, but also
reduces the classification accuracy.
This dissertation aims to propose efficient binning approaches for metagenomic reads
which are able to work well with sort reads, and deal with the lack or the incompleteness of
reference database. Basing on the usage of classification and clustering techniques as well
as discovering characteristics of sequences, the dissertation has the following contributions.
Firstly, this dissertation proposes methods to enhance the quality of the genome abundance based binning of metagenomic. There are three major contributions of this study to
v



the problems: (1) using a reduced statistical model which requires small costs to find maximum likelihood estimates of its parameters; (2) applying a method of model selection to
detect the number of clusters in datasets automatically, which could improve the classification quality; (3) proposing a variable-length l-mer counting method in order to boost the
quality of abundance-based binning approaches in case of error-free sequencing sequences.
Secondly, the dissertation proposes an idea of selecting a representative of a group of
reads belonging to the same genomes using the sequence overlapping information between
reads. The representative shows that it still contains similarity-based and composition-based
features. Thus, it is able to preserve features of the original read group and can be applied
to reduce computational costs while still keeping the quality of binning approaches.
Thirdly, a novel unsupervised method is proposed to classify metagenomic reads using
the feature of l-mer frequency and the sequence overlapping information between reads. The
proposed approach, called BiMeta, uses the idea of the selection of group representative to
reduce computational costs as well as achieve good classification quality. BiMeta consists
of two main phases. In the first phase, reads are grouped by utilizing the information of
sequence overlapping. The second phase merges the groups basing on the feature of l-mer
frequency extracted from their representative.
Fourthly, a semi-supervised classification method, called SeMeta, is proposed to classify
and label reads. SeMeta also applies the idea of selecting representative of a read group,
but it utilizes the ability of preserving the similarity-based feature to separate reads. The approach consists of two major steps. After clustering reads using an improvement of BiMeta,
it assigns each cluster to the best suitable taxon basing on the similarity between reads in
a representative of the cluster and reference databases. Besides, an efficient filtering technique is also proposed to reduce noises (ambitious hits) in results of the similarity search,
which aims to produce better classification quality.
Experimental results on both simulated and real metagenomic datasets demonstrate that
the abundance-based binning approaches (MetaAB and MetaAB-adv) and BiMeta are able
to achieve high accuracy and require less computational costs comparing with commonlyused unsupervised binning methods. Besides, SeMeta gets higher classification quality in
vi


different aspects, as well as need lower costs than other well-known similarity-based approaches. Those methods can be used as promising tools to analyze samples from microbial
communities.

Although the proposed approaches demonstrate to be able to analyze effectively for metagenomic sequences, some aspects should be investigated by future theoretical and empirical
studies to improve the proposed approaches. In order to improve the quality of the proposed methods, other genomic signatures, or distance matrices between l-mer frequency
distributions can be studied and applied for BiMeta and SeMeta. Besides, the classification quality of SeMeta on assigning sequences into an exact position in a phylogenetic tree
could be improved if the differences of homologous degrees between trusted BLAST hits
are considered, and the thresholds of the homologous degrees for each taxonomic levels
are investigated. The correction of sequencing errors or the applying of high-performance
techniques are also potential research trends which could help to enhance the classification
quality or reduce computational costs of the proposed approaches.

vii


LỜI CẢM ƠN
Tôi xin chân thành cảm ơn trường Đại học Bách Khoa Tp. Hồ Chí Minh nói chung, và khoa
Khoa học và Kỹ thuật máy tính nói riêng đã tạo mọi điều kiện và môi trường nghiên cứu
thuận lợi cho tôi thực hiện luận án.

Em xin chân thành cảm ơn thầy Trần Văn Lăng và thầy Trần Văn Hoài đã tận tình chỉ
bảo và hướng dẫn em trong suốt quá trình nghiên cứu để có thể hoàn thành đề tài này. Em
cũng chân thành cảm ơn thầy Lê Thanh Bình (Viện Công nghệ Sinh học - Viện Hàn lâm
Khoa học và Công nghệ Việt Nam) đã hỗ trợ em trong quá trình nghiên cứu.

Em xin gửi lời cảm ơn đến Thầy Cô trong khoa Khoa học và Kỹ thuật Máy tính nói chung,
và bộ môn Khoa học Máy tính, cũng như bộ môn Hệ thống và Mạng máy tính nói riêng đã
có những đóng góp quý báu để em hoàn thành tốt công việc.

Con xin chân thành cảm ơn cha mẹ, cảm ơn gia đình nhỏ, và những người khác trong
gia đình đã luôn ở bên cạnh ủng hộ, động viên, giúp đỡ về mọi mặt để con có thể thực hiện
tốt đề tài nghiên cứu.


Tôi xin chân thành cảm ơn các đồng nghiệp, bạn bè đã có những lời khuyên, góp ý hữu
ích trong quá trình tôi thực hiện đề tài nghiên cứu này.
Tp. Hồ Chí Minh, ngày 18 tháng 2 năm 2016

Lê Văn Vinh

viii


MỤC LỤC

DANH MỤC CÁC HÌNH ẢNH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xiii

DANH MỤC BẢNG BIỂU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xviii

DANH MỤC CÁC TỪ VIẾT TẮT, THUẬT NGỮ VÀ KÝ HIỆU . . . . . . . . . . . . . . . .

xix

CHƯƠNG 1. GIỚI THIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.1. Metagenomics và bài toán phân loại trình tự . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1


1.2. Vấn đề tồn tại cần giải quyết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.2.1. Độ chính xác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.2.2. Chi phí tính toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.3. Mục tiêu của luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.4. Phương pháp và nội dung nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.5. Đóng góp của luận án . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.5.1. Về mặt khoa học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.5.2. Về mặt thực tiễn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


6

1.6. Nội dung luận án. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

CHƯƠNG 2. NỀN TẢNG KIẾN THỨC VÀ TÌNH HÌNH NGHIÊN CỨU. . . . . . . . .

8

2.1. Nền tảng kiến thức . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

2.1.1. DNA và hệ gien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

2.1.2. Công nghệ giải mã trình tự DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.1.3. Đặc trưng sử dụng cho phân loại trình tự . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.1.4. Phân lớp và gom cụm dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14


2.1.5. Độ đo hiệu năng giải pháp phân loại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

ix


2.2. Tình hình nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.2.1. Phương pháp có giám sát . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.2.2. Phương pháp không có giám sát . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.2.3. Phương pháp bán giám sát . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

CHƯƠNG 3. GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT DỰA TRÊN SỰ PHONG
PHÚ CỦA HỆ GIEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

3.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


25

3.2. Phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

3.2.1. Mô hình hỗn hợp của tần số xuất hiện các l-mer . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

3.2.2. Mô hình thu giảm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

3.2.3. Ước lượng tham số trong mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

3.2.4. Ước lượng số cụm sử dụng BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

3.2.5. Thuật toán MetaAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

3.2.6. Phương pháp đếm l-mer với độ dài thay đổi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36


3.2.7. Độ phức tạp của giải thuật . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.3. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.3.1. Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

3.3.2. Kết quả trên tập dữ liệu không có lỗi giải mã . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

3.3.3. Kết quả trên tập dữ liệu có lỗi giải mã trình tự . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

3.3.4. Sự ảnh hưởng của các tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

3.4. Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

CHƯƠNG 4. CHỌN ĐẠI DIỆN CỦA MỘT TẬP TRÌNH TỰ DỰA TRÊN TÍNH CHẤT

GỐI ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

4.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

4.2. Định nghĩa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

4.2.1. Một số ký hiệu và khái niệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

4.2.2. Tính chất của tập đại diện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

4.2.3. Định nghĩa bài toán tìm tập đại diện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

4.3. Sự bảo toàn đặc trưng của nhóm trình tự . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50

4.3.1. Tính tương đồng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


51

4.3.2. Tính hợp thành dựa trên tần số xuất hiện l-mer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

x


4.4. Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

CHƯƠNG 5. GIẢI PHÁP PHÂN LOẠI KHÔNG GIÁM SÁT SỬ DỤNG DẤU HIỆU
HỆ GIEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

5.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

5.2. Phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

5.2.1. Nền tảng của phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

57


5.2.2. Thuật toán BiMeta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

5.2.3. Độ phức tạp của giải thuật . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

5.3. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

5.3.1. Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

5.3.2. Kết quả thực nghiệm trên dữ liệu giả lập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

5.3.3. Kết quả thực nghiệm trên dữ liệu thực tế . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

5.3.4. Sự ảnh hưởng của các tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

70

5.3.5. Sự ảnh hưởng của phương pháp tìm seed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


71

5.4. Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

CHƯƠNG 6. GIẢI PHÁP PHÂN LOẠI BÁN GIÁM SÁT SỬ DỤNG ĐẶC TRƯNG
KẾT HỢP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

74

6.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

74

6.2. Phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

6.2.1. Nền tảng của phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

6.2.2. Thuật toán SeMeta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

6.2.3. Độ phức tạp của giải thuật . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83


6.2.4. Cơ sở dữ liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

6.2.5. Phương pháp đánh giá chất lượng phân loại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

6.3. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

85

6.3.1. Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

6.3.2. Kết quả thực nghiệm trên dữ liệu giả lập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

6.3.3. Kết quả thực nghiệm trên dữ liệu thực tế . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

6.3.4. Sự ảnh hưởng của các tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97

6.3.5. Sự ảnh hưởng của việc sử dụng đại diện của cụm . . . . . . . . . . . . . . . . . . . . . . . . . . .


104

xi


6.4. Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

105

6.5. Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

106

CHƯƠNG 7. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN . . . . . . . . . . . . . . . . . . . . . . . . .

108

7.1. Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

108

7.2. Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

109

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

111


TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

121

PHỤ LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

122

xii


DANH MỤC CÁC HÌNH ẢNH

1.1

Quy trình xử lý của một dự án trong lĩnh vực metagenomics. . . . . . . . . . . 2

1.2

Minh họa mục tiêu của bài toán phân loại trình tự metageonmic. . . . . . . . . 3

2.1

Ví dụ về phân tử DNA (Nguồn: The U.S. National Library of Medicine). . . . . 9

2.2

Kỹ thuật giải mã trình tự đoạn ngắn. Đoạn gạch dưới thể hiện thông tin gối
đầu giữa các trình tự. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10


2.3

Tỉ lệ trung bình các l được chia sẻ bởi các hệ gien. . . . . . . . . . . . . . . . . 13

2.4

Ví dụ về sự phong phú của hệ gien. . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5

Các hướng tiếp cận chính của bài toán phân loại trình tự metagenomics. . . . . 21

3.1

Phân bố l-mer và việc sử dụng các ngưỡng countmin , nummin để loại bỏ l-mer
không tin cậy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.2

Ví dụ về sự lặp lại các l-mer có độ dài khác nhau trong tập dữ liệu metagenomics.37

3.3

Sử dụng l-mer có độ dài thay đổi để đếm số lần xuất hiện của chúng trong
tập dữ liệu metagenomics. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.4

F-measure của AbundanceBin, MetaAB, và MetaAB-adv cho tập dữ liệu
thử nghiệm. Biểu đồ bên trái thể hiện cho tập trình tự từ S1 đến S7. Biểu đồ

bên phải thể hiện cho tập trình tự từ T1 đến T7. . . . . . . . . . . . . . . . . . 43

3.5

F-measure trung bình của MetaAB trên tập dữ liệu từ S1 đến S5, với giá trị
nummin khác nhau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.6

F-measure trung bình của MetaAB trên tập dữ liệu từ T1 đến T5, với giá trị
countmin khác nhau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.7

F-measure trung bình của MetaAB và MetaAB-adv trên tâp dữ liệu từ S1
đến S5 theo giá trị độ dài l-mer khác nhau. . . . . . . . . . . . . . . . . . . . . 46

xiii


4.1

Một nhóm bao gồm 17 trình tự thuộc cùng một hệ gien. Một đại diện của
nhóm gồm 6 trình tự không gối đầu. . . . . . . . . . . . . . . . . . . . . . . . 50

4.2

Đồ thị mô phỏng tập trình tự DNA thuộc cùng hệ gien thực. Tập đỉnh đại
diện (màu đen đậm) bao gồm các đỉnh không kề nhau. . . . . . . . . . . . . . 51


4.3

Tần số xuất hiện 4-mer của 4 nhóm chứa các trình tự không gối đầu nhau
được lấy mẫu từ 2 hệ gien của hai loài: Bacillus thuringiensis (BT-group1,
BT-group2) and Alicycliphilus denitrificans (AD-group1, AD-group2). . . . . . 55

5.1

Quá trình phân loại của BiMeta. . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.2

Hiệu năng của MetaCluster 5.0, AbundanceBin và BiMeta trên các tập dữ
liệu từ S1 đến S10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.3

Hiệu năng của MetaCluster 5.0, BiMeta, AbundanceBin và MetaAB trên
các tập dữ liệu từ L1 đến L6. . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.4

Hiệu năng của MetaCluster 2.0 và BiMeta trên các tập dữ liệu từ R1 đến R9. . . 69

5.5

Độ chính xác trung bình của việc gom nhóm trình tự ở pha 1, và F-measure
trung bình của BiMeta với giá trị m khác nhau. . . . . . . . . . . . . . . . . . 70

5.6


F-measure trung bình của BiMeta với giá trị l khác nhau. Đồ thị bên trái thể
hiện kết quả trên tập trình tự từ S1 đến S5. Đồ thị bên phải thể hiện kết quả
trên tập trình tự R1 đến R5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.7

Kết quả thực nghiệm cho các trường hợp tìm seed khác nhau của BiMeta. . . . 73

6.1

Ví dụ về kết quả gióng hàng trình tự trong đại diện của cụm với cơ sở dữ
liệu tham khảo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

6.2

Chất lượng phân loại của BiMeta trong các trường hợp loại bỏ những nhóm
nhỏ với kích thước q khác nhau. . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.3

Quá trình thực hiện của SeMeta. . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.4

Minh họa quá trình tìm đơn vị phân loại chung thấp nhất. . . . . . . . . . . . . 81

6.5

F-measure của MEGAN, SOrt-ITEMS, và SeMeta trên các tập dữ liệu giả

lập cho trường hợp Loài đã biết. Lược đồ trên cùng là cho tập dữ liệu ds1,
lược đồ ở giữa là cho tập dữ liệu ds2, lược đồ dưới cùng là cho tập dữ liệu ds3. . 89

xiv


6.6

F-measure của MEGAN, SOrt-ITEMS, và SeMeta trên các tập dữ liệu giả
lập cho trường hợp Loài chưa biết. Lược đồ trên cùng là cho tập dữ liệu ds1,
lược đồ ở giữa là cho tập dữ liệu ds2, lược đồ dưới cùng là cho tập dữ liệu ds3. . 92

6.7

Độ nhạy và độ chính xác của MEGAN, SOrt-ITEMS, và SeMeta ở khía
cạnh gán nhãn đúng và chính xác tại bậc phân loại thấp nhất được thể hiện
trên các tập dữ liệu giả lập. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.8

Số lượng truy vấn BLAST của MEGAN/SOrt-ITEMS, và SeMeta cho các
tập dữ liệu giả lập. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6.9

Kết quả thực thi của SeMeta trên tập dữ liệu thực AMD. . . . . . . . . . . . . . 95

6.10 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị min-score smin khác
nhau cho trường hợp Loài đã biết, trên tập dữ liệu ds2. . . . . . . . . . . . . . 99
6.11 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị min-score smin khác

nhau cho trường hợp Loài chưa biết, trên tập dữ liệu ds2. . . . . . . . . . . . . 99
6.12 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị top-percent ptop
khác nhau cho trường hợp Loài đã biết, trên tập dữ liệu ds2. . . . . . . . . . . . 99
6.13 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị top-percent ptop
khác nhau cho trường hợp Loài chưa biết, trên tập dữ liệu ds2. . . . . . . . . . 100
6.14 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị max-occur omax
khác nhau cho trường hợp Loài đã biết, trên tập dữ liệu ds2. . . . . . . . . . . . 100
6.15 Độ nhạy (A) và độ chính xác (A) của SeMeta với giá trị max-occur omax
khác nhau cho trường hợp Loài chưa biết, trên tập dữ liệu ds2. . . . . . . . . . 100
6.16 Độ nhạy (B) và độ chính xác (B) của SeMeta với giá trị khác nhau của
min-score smin cho trường hợp Loài chưa biết, trên tập dữ liệu ds2. . . . . . . . 101
6.17 Độ nhạy (B) và độ chính xác (B) của SeMeta với giá trị khác nhau của
top-percent ptop cho trường hợp Loài chưa biết, trên tập dữ liệu ds2. . . . . . . 101
6.18 Độ nhạy (B) và độ chính xác (B) của SeMeta với giá trị khác nhau của
max-occur omax cho trường hợp Loài chưa biết, trên tập dữ liệu ds2. . . . . . . 102
6.19 Sự ảnh hưởng của độ dài l-mer lên hiệu năng của SeMeta, trường hợp Loài
đã biết. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.20 Sự ảnh hưởng của độ dài l-mer lên hiệu năng của SeMeta, trường hợp Loài
chưa biết. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.21 Sự ảnh hưởng của số cụm được dự đoán lên chất lượng của SeMeta. . . . . . . 104
xv


6.22 Độ nhạy (A) và độ chính xác (A) của SeMeta và phiên bản không sử dụng
đại diện của cụm trên tập dữ liệu ds2, cho trường hợp Loài đã biết. . . . . . . . 105
6.23 Hiệu năng của SeMeta và phiên bản không sử dụng đại diện của cụm trên
tập dữ liệu ds2, cho trường hợp Loài chưa biết. . . . . . . . . . . . . . . . . . . 105
1

Kết quả thực nghiệm này là về khoảng cách trung bình giữa các cặp hệ gien

trong nhóm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

xvi


DANH MỤC BẢNG BIỂU

3.1

Ví dụ về số lần xuất hiện của 4-mer trong tập dữ liệu . . . . . . . . . . . . . . 28

3.2

Độ chính xác và độ nhạy của AbundanceBin, MetaAB và MetaAB-adv trên
tập dữ liệu từ S1 đến S7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.3

Độ chính xác và độ nhạy của AbundanceBin, MetaAB, và MetaAB-adv trên
tập dữ liệu từ T1 đến T7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.1

Tập dữ liệu chứa trình tự dạng Roche 454. . . . . . . . . . . . . . . . . . . . . 63

5.2

Tập dữ liệu chứa trình tự dạng Illumina. . . . . . . . . . . . . . . . . . . . . . 64

5.3


F-measure của MetaCluster 5.0, AbundanceBin và BiMeta trên tập dữ liệu
từ S1 đến S10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.4

Thời gian tính toán của MetaCluster 5.0, AbundanceBin, MetaAB, và BiMeta
trên các tập dữ liệu từ L1 đến L6. . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.5

Giá trị F-measure của MetaCluster 2.0 và BiMeta trên các tập dữ liệu từ R1
đến R9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.1

Hiệu năng của MEGAN, SOrt-ITEMS và SeMeta trên các tập dữ liệu giả
lập ở các bậc phân loại - Trường hợp Loài đã biết. . . . . . . . . . . . . . . . . 87

6.2

Hiệu năng của MEGAN, SOrt-ITEMS và SeMeta trên các tập dữ liệu giải
lập ở các bậc phân loại - Trường hợp Loài chưa biết. . . . . . . . . . . . . . . . 90

6.3

Thời gian chạy của MEGAN, SOrt-ITEMS, và SeMeta trên tập dữ liệu ds2. . . 93

6.4


Danh sách các loài phổ biến trong tập MH0051 của bộ dữ liệu thực HGM
được phát hiện bởi SeMeta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.5

Danh sách các chi (genus) phổ biến trong tập MH0051 của bộ dữ liệu thực
HGM được phát hiện bởi SeMeta. . . . . . . . . . . . . . . . . . . . . . . . . 97

xvii


1

Tập dữ liệu thực nghiệm cho MetaAB. . . . . . . . . . . . . . . . . . . . . . . 122

2

Khoảng cách Euclide trong cặp hệ gien - mức chi (genus). . . . . . . . . . . . 123

3

Khoảng cách Euclide trong cặp hệ gien - mức họ (family). . . . . . . . . . . . 127

4

Khoảng cách Euclide trong cặp hệ gien - mức loài (species). . . . . . . . . . . 130

5

Tập dữ liệu thực nghiệm cho BiMeta - Tập trình tự dài. . . . . . . . . . . . . . 133


6

Tập dữ liệu thực nghiệm cho BiMeta - tập trình tự ngắn. . . . . . . . . . . . . . 133

7

Tập dữ liệu ds1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

8

Tập dữ liệu ds2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

9

Tập dữ liệu ds3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

xviii


DANH MỤC CÁC TỪ VIẾT TẮT, THUẬT NGỮ VÀ KÝ
HIỆU

DANH MỤC CÁC TỪ VIẾT TẮT:
DNA: Deoxyribonucleic acid
LCA: Lowest common ancestor
EM: Expectation Maximization
bp: base pair (Đơn vị độ dài của trình tự DNA)
MLE: Maximum Likelihood Estimates
BIC: Bayesian Information Criterion

iid: Independent and identically distributed
DANH MỤC THUẬT NGỮ:
l-mer: Đoạn trình tự ngắn có độ dài là l
Hệ gien: Là tổng thể tất cả các phân tử DNA trong tế bào
single-end/paired-end: Hai loại trình tự khác nhau. Trình tự dạng single-end chỉ chứa một
đoạn các nucleotide ở một vùng trên hệ gien. Trình tự dạng paired-end chứa hai đoạn các
nucleotide ở hai vùng khác nhau trên hệ gien.
contig: Đoạn trình tự dài hay một nhóm các trình tự ngắn ở vị trí liên tiếp nhau trên hệ gien
Đơn vị phân loại (taxon): Là một nhóm sinh vật có mối quan hệ sinh loài với nhau. Đơn vị
phân loại: Cá (ở bậc phân loại loài (specie)), động vật lưỡng cư (ở bậc phân loại lớp (class)).
Bậc phân loại (taxonomic level/rank): Mức độ quan hệ của các nhóm sinh vật (taxon)
trong hệ thống cấp bậc phân loại. Ví dụ các bậc phân loại như: loài, chi, họ, bộ, lớp, ngành,
giới, vực, sự sống.
BẢNG KÝ HIỆU:

Ký hiệu

Ý nghĩa
Thể hiện hai trình tự thuộc cùng hệ gien. Ví dụ r và s thuộc cùng hệ gien: r

s

Thể hiện hai trình tự gối đầu nhau. Ví dụ, r và s gối đầu nhau: r s
Thể hiện hai trình tự không gối đầu nhau. Ví dụ, r và s không gối đầu nhau: r

xix

s



CHƯƠNG 1
GIỚI THIỆU

1.1.

Metagenomics và bài toán phân loại trình tự

Đóng vai trò là những sinh vật chiếm đa số trong sự đa dạng sinh học của sự sống, vi sinh
vật (như vi khuẩn (bacteria), vi rút (virus), hay vi khuẩn cổ (archaea)) ảnh hưởng trực tiếp
đến cuộc sống của con người [1]. Vì vậy, sự hiểu biết về cộng đồng vi sinh vật mang đến
lợi ích trong nhiều lĩnh vực như: y học, nông nghiệp, công nghệ sinh học, nghiên cứu năng
lượng thay thế, môi trường [2].
Một số nghiên cứu đầu tiên về vi sinh vật là vào khoảng những năm 1970, khi hệ gien của
một số vi sinh vật được giải mã [3]. Trong phương pháp nghiên cứu vi sinh vật truyền thống,
mẫu thực nghiệm sau khi được thu thập từ môi trường thực tế sẽ được nuôi cấy (culture) và
phân tách (isolate) theo từng loài vi sinh vật trước được đưa vào giai đoạn giải mã trình tự
DNA. Trình tự của từng loài vi sinh vật sau đó được đưa vào quá trình phân tích dữ liệu. Tuy
nhiên, một trở ngại lớn đối với phương pháp này là hầu hết vi sinh vật (hơn 99%) không thể
nuôi cấy và phân tách được trong phòng thí nghiệm [4].
Bởi vì những hạn chế của phương pháp truyền thống, một hướng tiếp cận khác trong
nghiên cứu vi sinh vật ra đời và dần trở thành phương pháp được sử dụng phổ biến, được gọi
là metagenomics. Theo hướng này, mẫu thực nghiệm sau khi được thu thập từ môi trường,
không cần trải qua giai đoạn nuôi cấy và phân tách trong phòng thí nghiệm, mà được đưa
trực tiếp vào quá trình giải mã. Những vấn đề trong lĩnh vực metagenomics bắt đầu được tập
trung nghiên cứu từ khoảng năm 2007 với sự ra đời của dự án nghiên cứu vi sinh vật trong

1


cơ thể con người [5]. Hàng trăm dự án nghiên cứu vi sinh vật khác tiếp sau đó ra đời nhằm

nghiên cứu các môi trường khác nhau như: nước thải axit từ khu mỏ (acid mine drainage
[6]), nước biển (seawater [7]), và đường ruột cơ thể người (human gut [8]). Đồng thời, nhiều
bài toán được đặt ra cho những người nghiên cứu trong lĩnh vực tin sinh học nhằm hỗ trợ
cho quá trình phân tích dữ liệu trình tự metagenomics.

Hình 1.1: Quy trình xử lý của một dự án trong lĩnh vực metagenomics.

Trong một dự án metagenomics, mẫu thực nghiệm được đưa trực tiếp vào giai đoạn giải
mã trình tự sau khi được thu thập từ môi trường thực tế (hình 1.1). Do đó, dữ liệu metagenomics thường không chứa trình tự của từng sinh vật riêng biệt, mà bao gồm trình tự của
nhiều loài khác nhau (có khi hơn 10.000 loài trong một mẫu [2]). Vì vậy, một trong những
vấn đề quan trọng cần giải quyết là phân loại trình tự metagenomics (taxonomic binning).
Bài toán này được phát biểu như sau (theo Thomas và cộng sự [9]):
"Phân loại trình tự metagenomics là quá trình sắp xếp trình tự DNA vào các nhóm bao gồm
các trình tự thuộc cùng hệ gien của một cá thể hoặc hệ gien của các vi sinh vật có quan hệ
gần nhau".
2


Có thể định nghĩa bài toán phân loại trình tự metagenomics một cách tổng quát như sau.
Cho một tập gồm n trình tự metagenomics R = {r1 , r2 , . . . , rn }. Giả sử, tập trình tự này thuộc
về k, (k ≤ n), nhóm sinh vật. Mục tiêu của bài toán phân loại trình tự là nhằm chia tập R
thành k tập con C1 ,C2 , . . . ,Ck sao cho:
i) Ci = 0,
/ i = 1, 2, . . . , k,
ii) ∪ki=1Ci = R,
iii) Ci ∩C j = 0,
/ i, j = 1, 2, . . . , k, và i = j.
Chẳng hạn, như minh họa ở hình 1.2. Tập dữ liệu bao gồm 16 trình tự DNA. Giải pháp phân
loại giúp phân chia tập trình tự này vào 3 tập, mỗi tập chứa trình tự của một nhóm vi sinh
vật. Định nghĩa này được sử dụng trong toàn bộ luận án. Trong trường hợp tồn tại cơ sở dữ

liệu tham khảo, trình tự có thể được gán nhãn (cho biết chúng thuộc về nhóm vi sinh vật nào
đã biết).

Hình 1.2: Minh họa mục tiêu của bài toán phân loại trình tự metageonmic.

Bài toán này có ý nghĩa quan trọng đối với nhà nghiên cứu về sinh học nhằm xác định
những nhóm vi sinh vật nào tồn tại trong mẫu thực nghiệm, tỉ lệ xuất hiện của chúng trong
môi trường ra sao, và giúp họ có thể thực hiện nghiên cứu trên trình tự của từng nhóm riêng
biệt. Ngoài ra, trong quy trình thông thường của một dự án metagenomics (hình 1.1), kết quả
trả về của bài toán phân loại có thể được sử dụng cho bài toán chú giải hệ gien (annotation)
nhằm xác định vị trí mang mã di truyền trên trình tự. Bên cạnh đó, bài toán phân loại có
3


thể được sử dụng với vai trò là bước tiền xử lý cho bài toán ráp nối trình tự nhằm tăng độ
chính xác và giảm chi phí tính toán cho quá trình tái xây dựng hệ gien [1]. Về mặt lý thuyết,
nếu trình tự DNA được ráp nối thành chuỗi dài hơn (thành các scaffold hay hệ gien) thì giải
pháp phân loại áp dụng cho trình tự dài có thể đạt chất lượng cao hơn. Tuy nhiên, bài toán
ráp nối trình tự metagenomics (metagenome assembly) là một vấn đề khó và có nhiều thách
thức lớn vẫn chưa được giải quyết một cách hiệu quả [9], và nó không nằm trong nội dung
nghiên cứu của luận án này.

1.2.

Vấn đề tồn tại cần giải quyết

1.2.1. Độ chính xác
Độ chính xác là một trong những khía cạnh quan trọng nhất cần được quan tâm của bài
toán. Một số các yếu tố chính ảnh hưởng đến độ chính xác của các giải pháp hiện tại, cần
được quan tâm giải quyết như:

+ Độ dài trình tự: Độ dài trình tự càng ngắn đồng nghĩa với việc thông tin chứa đựng
trong trình tự càng ít, dẫn đến độ chính xác khi phân loại giảm đi [10]. Mặc dù vậy,
hầu hết các công nghệ giải mã trình tự hiện nay chỉ cho phép giải mã trình tự có độ
dài ngắn hoặc rất ngắn (nhỏ hơn 700 bp). Từ kết quả thử nghiệm được công bố của
những nghiên cứu trước đây, có thể thấy rõ sự ảnh hưởng này. Chẳng hạn, RAIphy và
Phymm đạt độ chính xác khoảng 32% – 36% cho trình tự dài 100 bp, trong khi đối
với trình tự dài 1000 bp là 65% – 80% [11].
+ Thiếu cơ sở dữ liệu tham khảo: Nhiều giải pháp phân loại hiện nay thực hiện tham
khảo trên cơ sở dữ liệu chứa hệ gien hay trình tự của sinh vật đã biết. Tuy nhiên, phần
lớn vi sinh vật trên trái đất vẫn chưa được phát hiện [12] dẫn đến sự thiếu hiệu quả
của nhóm giải pháp này.

1.2.2. Chi phí tính toán
Chi phí tính toán là khía cạnh quan trọng khác cần được quan tâm bởi vì một dự án
metagenomics thông thường cần phải phân tích một khối lượng dữ liệu rất lớn (có khi hàng
trăm gigabase trình tự [8]), vốn đòi hỏi nhiều thời gian xử lý.
4


×