BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG
GIẢI PHÁP CÓ GIÁM SÁT CHO VẤN ÐỀ PHÂN LOẠI
DỮ LIỆU TRÌNH TỰ METAGENOMIC
S
K
C
0
0
3
9
5
9
MÃ SỐ: T2015-166
S KC 0 0 5 6 3 3
Tp. Hồ Chí Minh, 2015
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KH&CN CẤP TRƯỜNG
GIẢI PHÁP CÓ GIÁM SÁT CHO VẤN ĐỀ PHÂN LOẠI
DỮ LIỆU TRÌNH TỰ METAGENOMIC
Mã số: T2015-166
Chủ nhiệm đề tài: GV. ThS. Lê Văn Vinh
TP. HCM, 11/2015
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KH&CN CẤP TRƯỜNG
GIẢI PHÁP CÓ GIÁM SÁT CHO VẤN ĐỀ PHÂN LOẠI
DỮ LIỆU TRÌNH TỰ METAGENOMIC
Mã số: T2015-166
Chủ nhiệm đề tài: GV. ThS. Lê Văn Vinh
TP. HCM, 11/2015
Mục lục
DANH MỤC CÁC HÌNH ẢNH . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
DANH MỤC BẢNG BIỂU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
CHƯƠNG I. GIỚI THIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
I.1. Bài toán phân loại trình tự metagenomic . . . . . . . . . . . . . . . . . . . . . . . .
2
I.2. Quy trình xử lý dữ liệu metagenomic . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
I.2.1. Thu thập mẫu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.2.2. Xác định trình tự . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.2.3. Phân tích dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
3
4
I.3. Mục tiêu của đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
CHƯƠNG II. NỀN TẢNG KIẾN THỨC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
II.1. DNA và hệ gien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
II.2. Công nghệ giải mã trình tự DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
II.3. Đặc trưng sử dụng cho phân loại trình tự . . . . . . . . . . . . . . . . . . . . . . . .
6
II.3.1. Tính tương đồng giữa các trình tự . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.3.2. Dấu hiệu hệ gien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.3.3. Một số đặc trưng khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
7
8
CHƯƠNG II. GIẢI PHÁP PHÂN LOẠI CÓ GIÁM SÁT . . . . . . . . . . . . . . . .
10
II.1. Tình hình nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
II.1.1. Phương pháp dựa trên tính tương đồng . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.1.2. Phương pháp dựa trên tính hợp thành . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.1.3. Phương pháp lai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
11
11
II.2. Vấn đề tồn tại cần giải quyết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
II.2.1. Độ chính xác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.2.2. Thời gian xử lý . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
12
CHƯƠNG II. ỨNG DỤNG MINH HỌA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
II.1. Giải thuật . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
i
II.2. Độ đo hiệu năng giải pháp phân loại . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
II.3. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
CHƯƠNG VI. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN . . . . . . . . . . . . . . . . . .
18
TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
ii
DANH MỤC CÁC HÌNH ẢNH
I.1
Quy trình xử lý của một dự án trong lĩnh vực metagenomics . . . . . . . 3
II.1 Ví dụ về phân tử DNA (Nguồn: The U.S. National Library of Medicine). 6
II.2 Tỉ lệ trung bình các l được chia sẻ bởi các hệ gien . . . . . . . . . . . . 8
II.3 Ví dụ về sự phong phú của hệ gien. u là một l-mer thuộc hệ gien g1 ,
v là một l-mer thuộc hệ gien g2 . . . . . . . . . . . . . . . . . . . . . . 9
II.1 Quy trình của giải pháp phân loại. . . . . . . . . . . . . . . . . . . . . 15
II.2 Sử dụng hai ngưỡng min-score và top-percent để lọc các BLAST hits. . 15
II.3 Thuật toán Lowest Common Ancestor. . . . . . . . . . . . . . . . . . . 16
iii
DANH MỤC BẢNG BIỂU
Bảng 1: Kết quả thực nghiệm................................................................................17.
iv
Chương I
GIỚI THIỆU
Vi sinh vật (microbes) là những sinh vật sống rất nhỏ mà mắt thường khơng nhìn
thấy được như: vi khuẩn (bacteria), vi rút (virus) hay vi khuẩn cổ (archaea). Chúng
xuất hiện ở mọi nơi và chiếm đa số trong sự đa dạng sinh học của sự sống [1]. Việc
nghiên cứu vi sinh vật có ý nghĩa quan trọng trong nhiều lĩnh vực, bao gồm: y học,
nông nghiệp, công nghệ sinh học, nghiên cứu năng lượng thay thế, môi trường [2].
Một số nghiên cứu đầu tiên về vi sinh vật là vào khoảng những năm 1970, khi
hệ gien của một số vi sinh vật được xác định trình tự ([3], [4]). Trong phương pháp
nghiên cứu vi sinh vật truyền thống (gọi là microbial genomics), nhà sinh học sau
khi lấy mẫu thực nghiệm từ môi trường thực tế sẽ thực hiện ni cấy và phân tách
theo từng lồi vi sinh vật trước khi mang đi xác định trình tự. Sau đó, trình tự sinh
học của từng lồi vi sinh vật được đưa vào giai đoạn phân tích dữ liệu. Tuy nhiên,
trở ngại của phương pháp này là một số lượng rất lớn các vi sinh vật (hơn 99%)
không thể nuôi cấy và phân tách trong phịng thí nghiệm [1]. Vì vậy, chỉ một tỉ lệ
nhỏ các vi sinh vật có thể được phát hiện và nghiên cứu.
Một hướng tiếp cận khác trong nghiên cứu vi sinh vật ra đời và thay thế cho
phương pháp nghiên cứu truyền thống, gọi là metagenomics. Theo hướng này, mẫu
thực nghiệm sau khi được thu thập từ môi trường, không cần trải qua giai đoạn ni
cấy và phân tách trong phịng thí nghiệm, mà được đưa trực tiếp vào quá trình xác
định trình tự sinh học. Những vấn đề trong lĩnh vực metagenomics bắt đầu được tập
trung nghiên cứu từ năm 2007 với sự ra đời của dự án nghiên cứu vi sinh vật trong
cơ thể con người [5]. Tiếp theo đó, hàng trăm dự án nghiên cứu vi sinh vật khác cho
các môi trường khác nhau (như môi trường đất, nước biển) ra đời trên thế giới [6].
Đồng thời, nhiều bài toán cần giải quyết được đặt ra cho những người làm trong lĩnh
vực tin sinh học nhằm hỗ trợ cho quá trình phân tích dữ liệu trình tự metagenomic.
1
I.1.
Bài tốn phân loại trình tự metagenomic
Mẫu thực nghiệm sau khi được thu thập từ môi trường thực tế, được đưa trực
tiếp vào giai đoạn xác định trình tự. Do đó, dữ liệu trình tự metagenmic thường
khơng chứa trình tự của từng loài vi sinh vật riêng biệt, mà bao gồm trình tự của
rất nhiều lồi khác nhau (có khi hơn 10.000 lồi trong một mẫu [2]. Vì vậy, đối với
nhà sinh học, một trong những vấn đề cần giải quyết là thực hiện phân loại trình tự
metagenomic. Bài tốn này được phát biểu như sau (theo Thomas và cộng sự [7]):
"Phân loại trình tự metagenomic là quá trình sắp xếp trình tự DNA vào các nhóm
bao gồm các trình tự thuộc cùng hệ gien của một cá thể hoặc hệ gien của các vi
sinh vật có quan hệ gần nhau".
Kết quả của bài toán này là cơ sở để nhà sinh học có thể xác định những nhóm
vi sinh vật nào tồn tại trong mẫu thực nghiệm, giúp họ thực hiện nghiên cứu trên
trình tự của từng nhóm, và tìm ra những nhóm vi sinh vật mới. Ngồi ra, nó là mắt
xích quan trọng trong chuỗi các cơng việc phân tích dữ liệu metagenomic. Điều này
được thể hiện trong quy trình xử lý dữ liệu metagenomic.
I.2.
Quy trình xử lý dữ liệu metagenomic
Bài tốn phân loại trình tự metagenomic (taxonomic binning) là một trong những
vấn đề cần giải quyết trong giai đoạn phân tích dữ liệu của một dự án trong lĩnh vực
metagenomics. Quy trình xử lý thơng thường của một dự án được Thomas và cộng
sự trình bày trong [7]. Trong đó, một số bước xử lý chính như sau (Hình I.1)
I.2.1.
Thu thập mẫu thực nghiệm
Đầu tiên là giai đoạn thu thập mẫu thực nghiệm từ môi trường chứa vi sinh vật và
thực hiện một số bước xử lý ban đầu như: cắt ngắn mẫu thực nghiệm, trích lọc mẫu
DNA. DNA (Deoxyribonucleic acid) là phân tử có cấu trúc ba chiều, bao gồm hai
chuỗi đơn xoắn ốc, cuộn xung quanh một trục chung, tạo thành một chuỗi xoắn kép.
Chuỗi DNA được hình thành bởi các loại phân tử nhỏ hơn, gọi là nucleotide. Có bốn
loại nucleotide được ký hiệu là: A, C, G và T (tương ứng với Adenine, Cytosine,
Guanine và Thymine) [8].
2
Hình I.1: Quy trình xử lý của một dự án trong lĩnh vực metagenomics
I.2.2.
Xác định trình tự
Tiếp theo, mẫu DNA được đưa vào quá trình xác định trình tự. Xác định trình
tự là quá trình xác định dãy các nucleotide trong trình tự đó. Phương pháp Sanger
[9], hay cịn gọi là phương pháp dideoxy sequencing hay chain termination, là công
nghệ được sử dụng từ những năm 1970 đến nay. Phương pháp này cho phép xác
định trình tự có độ dài trong khoảng từ 500 - 1000 bp. Nhược điểm của phương
pháp này là chi phí cao và hiệu suất xử lý thấp, không đáp ứng được yêu cầu của
những dự án lớn.
Một nhóm các cơng nghệ xác định trình tự mới ra đời, thay thế cho phương
pháp Sanger, như: 454 pyrosequencing, Illumina Genome Analyzer, AB SOLiD
[10]. Chúng được gọi chung là cơng nghệ xác định trình tự thế hệ tiếp theo (Nextgeneration sequencing [11]). Ưu điểm của các phương pháp này là hiệu suất cao hơn
so với phương pháp Sanger. Chúng cho phép xác định một khối lượng lớn trình tự
trong một đơn vị thời gian. Tuy nhiên, hạn chế của chúng là độ dài của các trình tự
được xác định có kích thước ngắn. Chẳng hạn, trình tự được xác định bởi Illumina
3
có độ dài trung bình khoảng 75 - 100 bp [10].
I.2.3.
Phân tích dữ liệu
Ở giai đoạn này, dữ liệu trình tự DNA được phân tích bởi nhà sinh học dựa trên
sự hỗ trợ của máy tính. Nhiều bài tốn khác nhau cần giải quyết đã được đặt ra như:
ráp nối trình tự (assembly), phân loại trình tự (taxnomic binning), chú thích trên
trình tự (annotation), v.v... Trong đó, dữ liệu đầu ra của bài tốn này có thể là dữ
liệu đầu vào của bài toán khác và ngược lại. Chẳng hạn, kết quả của bài tốn phân
loại trình tự có thể được sử dụng cho bài tốn chú thích trên trình tự (annotation)
nhằm xác định vị trí gien hay vị trí mang mã di truyền trên trình tự. Bài tốn phân
loại và ráp nối trình tự có thể được sử dụng hỗ trợ cho nhau trong việc phân tích và
xử lý dữ liệu metagenomic. Bài tốn phân loại có thể được sử dụng như là bước tiền
xử lý cho bài toán ráp nối trình tự nói chung áp dụng cho dữ liệu metagenomic [1]
(Bao hàm cả bài toán genome assembly, và bài tốn metagenome assembly). Ngược
lại, bài tốn phân loại cịn có thể được áp dụng sau khi trình tự sinh học đã được ráp
nối. Khi đó, việc phân loại cho trình tự dài hơn giúp mang lại độ chính xác cao hơn.
Tuy nhiên, bài tốn ráp nối trình tự metagenomic (metagenome assembly) là một
vấn đề khó và nhiều thách thức lớn. Hiện tại, cũng chỉ có một vài giải pháp được đề
xuất cho vấn đề này [7].
I.3.
Mục tiêu của đề tài
Đề tài này thực hiện khảo sát các giải pháp phân loại có giám sát, đánh giá ưu,
nhược điểm của chúng nhằm nêu bật những vấn đề còn tồn tại cần giải quyết. Ngoài
ra, đề tài phát triển ứng dụng minh họa cho phân loại trình tự metagenomic.
4
Chương II
NỀN TẢNG KIẾN THỨC
II.1.
DNA và hệ gien
DNA (Deoxyribonucleic acid) [8] là phân tử có cấu trúc ba chiều, bao gồm hai
chuỗi đơn xoắn ốc, cuộn xung quanh một trục chung, tạo thành một chuỗi xoắn kép
(hình II.1). Chuỗi DNA được hình thành bởi các loại phân tử nhỏ hơn, gọi là nucleotide. Có bốn loại nucleotide, bao gồm Adenine, Cytosine, Guanine và Thymine,
được ký hiệu tương ứng là: A, C, G và T. Trong mỗi chuỗi đơn, các nucleotide liên
kết với nhau theo nguyên tắc gốc đường của nucleotide này liên kết với gốc phosphate của nucleotide tiếp theo (cấu trúc sugar-phosphate backbone). Hai chuỗi đơn
của một phân tử DNA liên kết với nhau bằng liên kết hidro giữa các nucleotide
thuộc về từng chuỗi theo nguyên tắc: A liên kết với T; G liên kết với C. Độ dài của
một phân tử DNA được đo bằng số cặp nucleotide liên kết giữa hai chuỗi đơn hay
còn gọi là cặp base (base pair, viết tắt là bp).
Tổng thể tất cả các phân tử DNA trong một tế bào sống cấu thành hệ gien
(genome) của một sinh vật. Thông thường, trong vi khuẩn, hệ gien là một nhiễm
sắc thể đơn chứa một chuỗi DNA [12].
II.2.
Cơng nghệ giải mã trình tự DNA
Giải mã trình tự DNA là quá trình xác định dãy các nucleotide trong trình tự
đó. Phương pháp Sanger [9], hay cịn được gọi là phương pháp dideoxy sequencing,
là cơng nghệ được sử dụng từ những năm 1970 đến nay. Nhược điểm của phương
pháp này là chi phí cao và hiệu suất xử lý thấp, không đáp ứng được yêu cầu của
những dự án lớn.
5
Hình II.1: Ví dụ về phân tử DNA (Nguồn: The U.S. National Library of Medicine).
Bắt đầu từ khoảng 2005, một nhóm các cơng nghệ trình tự giải mã mới ra đời,
dần thay thế cho phương pháp Sanger, như: 454 pyrosequencing, Illumina Genome
Analyzer, AB SOLiD [10, 13]. Chúng được gọi chung là cơng nghệ giải mã trình tự
thế hệ tiếp theo (Next-generation sequencing [11]). Ưu điểm của các phương pháp
này là hiệu suất cao hơn so với phương pháp Sanger, cho phép giải mã một khối
lượng lớn trình tự trong một đơn vị thời gian. Tuy nhiên, hạn chế của những cơng
nghệ này là độ dài của các trình tự được giải mã thường có kích thước ngắn. Chẳng
hạn, trình tự được xác định bởi Illumina có độ dài trung bình khoảng 50-300 bp
[14], so với 500 - 1000bp của phương pháp Sanger.
II.3.
Đặc trưng sử dụng cho phân loại trình tự
Mức độ giống và khác nhau giữa các sinh vật được thể hiện như thế nào dựa trên
trình tự DNA của chúng là một trong những vấn đề được sự quan tâm lớn của cộng
đồng khoa học. Phần này trình bày những tính chất được rút trích từ trình tự hoặc
tập trình tự metagenomic và thường được sử dụng như là đặc trưng để phân biệt các
sinh vật chứa chúng.
II.3.1.
Tính tương đồng giữa các trình tự
Phương pháp dựa trên sự tương đồng trong trình tự DNA để phân loại sinh vật đã
được sử dụng từ những năm 1950, khi cấu trúc của DNA được khám phá lần đầu
tiên bởi James Watson và Francis Crick [15]. Mức độ tương đồng giữa hai trình tự
được tính dựa trên việc so sánh sự giống nhau tương ứng giữa các nucleotide trên
hai trình tự. Hai cá thể sinh vật chứa trình tự có mức độ tương đồng cao thể hiện
chúng có quan hệ sinh lồi (phylogenetic relationship) gần nhau và có cùng tổ tiên.
6
Ngược lại, mức độ tương đồng thấp thể hiện chúng có quan hệ sinh lồi xa nhau
[15].
II.3.2.
Dấu hiệu hệ gien
Dấu hiệu hệ gien (genomic signature) là cấu trúc toán học đặc trưng theo lồi mà
có thể xây dựng từ một trình tự sinh học [16]. Dấu hiệu hệ gien của trình tự cùng
lồi giống nhau nhiều hơn so với của trình tự thuộc hai lồi khác nhau, và hai lồi
gần nhau có dấu hiệu hệ gien của trình tự giống nhau nhiều hơn so với giữa hai loài
xa nhau [17]. Nhờ tính chất này mà dấu hiệu hệ gien có thể được sử dụng cho việc
phân loại trình tự. Nhiều dấu hiệu hệ gien đã được nghiên cứu như: GC-content
[18], dấu hiệu dựa trên tần số xuất hiện l-mer (đoạn trình tự ngắn có độ dài là l)
[19], dấu hiệu dựa trên mơ hình Markov [20, 21]. Phần này chỉ trình bày nhóm dấu
hiệu dựa trên tần số xuất hiện l-mer, vốn được sử dụng nhiều trong các giải pháp
hiện nay.
Dấu hiệu dựa trên tần số xuất hiện l-mer
Dấu hiệu này thể hiện tần số xuất hiện của những đoạn nucleotide ngắn có kích
thước thường là từ 2 - 4 nucleotides trong trình tự DNA, được gọi là tần số xuất
hiện của cặp nucleotide (dinucleotide frequencies), bộ ba nucleotide (trinucleotide
frequencies), hay bộ bốn nucleotide (tetranucleotide frequencies). Có nhiều dấu
hiệu hệ gien khác nhau được xây dựng dựa trên các tần số xuất hiện này. Một số
dấu hiệu sử dụng trong phân tích dữ liệu metagenomic được Gori và cộng sự trình
bày trong [19]. Trong đó, hai dấu hiệu sau thường được sử dụng trong các giải pháp
phân loại trình tự metagenomic hiện nay (đặt tên theo cách trình bày trong [19]).
a) Symmetrized signature: Mỗi trình tự (hay hệ gien) được đại diện bởi một
vectơ tần số f = { f1 , f2 , . . . , f4l }. Trong đó, fi , i = {1, . . . , 4l }, là tần số xuất
hiện của l-mer i trong trình tự, được tính như sau [22, 23]:
4l
fi = hi / ∑ h j .
(II.1)
j=1
Tần số fi được tính trên cả hai chuỗi đơn bổ sung cho nhau. Khoảng cách giữa
các vectơ tần số đại diện cho các trình tự phản ánh khoảng cách di truyền giữa
các loài chứa chúng.
b) Frequencies signature: Dấu hiệu này được tính tương tự như symmetrized
signature, nhưng từng tần số fi , i = {1, . . . , 4l }, chỉ được tính trên một chuỗi
đơn của trình tự DNA. Dấu hiệu này được sử dụng hiệu quả trong một số giải
pháp phân loại trình tự metagenomic được trình bày trong [24, 25].
7
II.3.3.
Một số đặc trưng khác
Một số đặc trưng khác được rút trích ra từ sự quan sát dữ liệu metagenomic và áp
dụng cho bài toán phân loại bởi một số tác giả.
• Tính duy nhất của đoạn trình tự l-mer trong tập dữ liệu: Hầu hết các l-mer
không được chia sẻ bởi các hệ gien khác nhau khi l đủ lớn.
Tính chất này được sử dụng trong một số giải pháp phân loại như TOSS [26],
MetaCluster 4.0 [27], MetaCluster 5.0 [28], và AbundanceBin [29]. Một thực
nghiệm được thực hiện trong nghiên cứu này nhằm quan sát tỉ lệ l-mer bị chia
sẻ bởi các hệ gien vi khuẩn. Tập dữ liệu được quan sát gồm 100 cặp hệ gien
với khoảng cách di truyền khác nhau. Tỉ lệ số l-mer được chia sẻ bởi các hệ
gien trong mỗi cặp được tính theo các giá trị l khác nhau như sau:
Tỉ lệ các l-mer chung =
nc
nd1 + nd2 − nc
(II.2)
Trong đó, nc là số lượng l-mer được chia sẻ bởi hai hệ gien, nd1 là số l-mer
riêng biệt trong hệ gien thứ nhất, và nd2 là số lượng l-mer riêng biệt trong
hệ gien thứ hai. Hình II.2 thể hiện tỉ lệ trung bình các l-mer được chia sẻ
bởi hệ gien với giá trị khác nhau của l. Có thể thấy rằng tỉ lệ trung bình các
l-mer được chia sẻ bởi các hệ gien là rất nhỏ khi l đủ lớn (nhỏ hơn 1.02% khi
l ≥ 30).
Average percentage of common lll-mers
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
15
20
25
30
35
40
45
ll-mer
length
l
Hình II.2: Tỉ lệ trung bình các l được chia sẻ bởi các hệ gien
• Sự phong phú của hệ gien trong tập dữ liệu: Trong một tập trình tự metagenomic, tần số xuất hiện của l-mer thuộc cùng một hệ gien tỉ lệ thuận với sự
phong phú của hệ gien đó.
8
Hình II.3: Ví dụ về sự phong phú của hệ gien. u là một l-mer thuộc hệ gien g1 , v là
một l-mer thuộc hệ gien g2
Sự phong phú của một loài là số lượng cá thể của của loài đó trong một khu
vực hay cộng đồng sinh vật cụ thể. Trong một mẫu thực nghiệm được thu
thập từ môi trường vi sinh vật, sự phong phú của hệ gien phản ánh sự phong
phú của lồi trong mơi trường đó. Thơng thường, một mẫu thực nghiệm có
thể chứa nhiều hệ gien của các loài với mức độ phong phú khác nhau. Ví dụ ở
hình II.3 thể hiện sự tỉ lệ thuận giữa sự phong phú của hệ gien và tần số xuất
hiện l-mer thuộc hệ gien đó. Một số trình tự trong tập dữ liệu được giải mã
từ cùng một vùng trên hệ gien g1 và hệ gien g2 . Giả sử, độ phong phú của hệ
gien g1 cao hơn độ phong phú của hệ gien g2 (4 so với 2). Khi đó, tần số xuất
hiện của các 4-mer thuộc hệ gien g1 cũng cao hơn so với tần số xuất hiện các
4-mer thuộc hệ gien g2 . Chẳng hạn như 4-mer u và v trên hình. Dựa trên tính
chất này, chúng ta có thể phân loại các l-mer thành các cụm có độ phong phú
khác nhau. Từ đó, trình tự chứa các l-mer này cũng có thể được phân loại dựa
trên kết quả của việc phân loại l-mer.
9
Chương II
GIẢI PHÁP PHÂN LOẠI CĨ
GIÁM SÁT
II.1.
Tình hình nghiên cứu
Theo hướng tiếp cận này, trình tự DNA được phân loại dựa trên mức độ tương
đồng hay mức độ giống nhau giữa dấu hiệu hệ gien của chúng với hệ gien hay trình
tự của sinh vật đã biết trong cơ sở dữ liệu tham khảo. Có thể chia các giải pháp có
giám sát thành ba nhóm như sau.
II.1.1.
Phương pháp dựa trên tính tương đồng
Trình tự metagenomic được phân loại dựa trên việc so sánh để tìm ra mức độ
tương đồng với trình tự trong ngân hàng gien hoặc protein. Trong các giải pháp theo
hướng này, công việc so sánh tương đồng thường được thực hiện bởi các cơng cụ
đã có sẵn như BLAST [30] hay BLAT [31]. MEGAN [32, 33] là phương pháp dựa
trên tính tương đồng sử dụng thuật tốn LCA (lowest common ancestor) để tìm tổ
tiên chung thấp nhất cho trình tự dựa trên điểm bit (bit-score) trả về bởi giải thuật
BLAST. Một trong những hạn chế của thuật toán LCA là nếu BLAST trả về nhiều
kết quả chứa các bit-score không rõ ràng (thường là giá trị bit-score thấp) có thể dẫn
đến việc trình tự được gán nhãn tại mức phân loại cao. MEGAN giải quyết hạn chế
này bằng cách sử dụng các ngưỡng để lọc các bit-score không rõ ràng này. Một số
giải pháp dựa trên BLAST khác, SOrt-ITEMS [34], và CARMA3 [35], cũng giải
quyết hạn chế trên bằng việc sử dụng bước tìm kiếm tương hỗ (reciprocal search)
để xác định các bit-score quan trọng.
Phương pháp dựa trên tính tương đồng có khả năng phân loại cho trình tự ngắn
với độ chính xác cao hơn so với các hướng tiếp cận khác. Tuy nhiên, nhược điểm
của phương pháp này đến từ thực tế là một phần lớn trình tự khơng thể được phân
10
loại bởi vì chúng khơng tương đồng hay tương đồng với bit-score rất thấp với trình
tự trong cơ sở dữ liệu tham khảo. Ngoài ra, phương pháp này thường rất chậm bởi
vì q trình tìm kiếm tương đồng địi hỏi chi phí tính tốn cao, đặc biệt với cơ sở dữ
liệu tham khảo có kích thước lớn.
II.1.2.
Phương pháp dựa trên tính hợp thành
Phương pháp này sử dụng dấu hiệu hệ gien (genomic signature) được rút trích
từ hệ gien hay trình tự tham khảo để phân loại. Một số dấu hiệu hệ gien thường
được sử dụng như: GC-content, tần số xuất hiện l-mer. Hầu hết các giải pháp thuộc
nhóm này như TACOA [25], TAC-ELM [36], AKE [37] chỉ phù hợp cho xử lý trình
tự dài. Trong đó, TACOA [25] sử dụng phương pháp k-NN (k-nearest neighbor), có
khả năng phân loại trình tự độ dài lớn hơn 800 bp. Một nghiên cứu khác, TAC-ELM
[36] áp dụng phương pháp học máy Extreme Learning Machine, vận dụng kết hợp
hai đặc trưng GC-content và tần số xuất hiện l-mer. Một số nghiên cứu gần đây như
MetaCV [38], MetaID [39] hướng đến việc xử lý cho trình tự ngắn.
Ưu điểm của phương pháp dựa trên tính hợp thành là thời gian xử lý nhanh, đạt
hiệu quả cao khi xử lý trình tự dài. Tuy nhiên, hầu hết các giải pháp được đánh giá
là thiếu hiệu quả khi phân loại trình tự ngắn. Chẳng hạn, TACOA chỉ đạt độ nhạy
(sensitivity) từ 3% đến 17% cho trình tự có độ dài 800bp tại mức bộ (order) và chi
(genus). Điều này có thể hiểu được bởi vì sự thiếu thơng tin (đặc trưng hợp thành)
trong trình tự ngắn dẫn đến hiệu quả thấp của các giải pháp này.
II.1.3.
Phương pháp lai
Sử dụng điểm mạnh của sự kết hợp tính tương đồng và tính hợp thành là mục
đích chính của các giải pháp lai. Chẳng hạn, nhằm giảm chi phí tính tốn, nhưng
vẫn đạt được độ chính xác như các giải pháp chỉ dựa trên tính tương đồng, SPHINX
[24] trước hết gom cụm trình tự trong cơ sở dữ liệu tham khảo, và tính khoảng cách
giữa từng trình tự với phần tử trung tâm (centriod) của các cụm. Giải pháp này sau
đó chỉ cần thực hiện tìm kiếm tương đồng (bởi giải thuật BLAST) giữa trình tự cần
phân loại với trình tự trong mỗi cụm, mà không cần thực hiện trên tồn bộ trình tự
trong cơ sở dữ liệu tham khảo. MetaCluster-TA [40] và PhymmBL [41] là hai giải
pháp lai khác cho trình tự metagenomic. Tuy nhiên, mục tiêu của hai giải pháp này
là nhằm cải tiến độ chính xác trong phân loại, mặc dù sự kết hợp hai đặc trưng này
có thể dẫn đến thực tế là chúng tốn nhiều chi phí tính tốn hơn. PhymmBL, mơt
giải pháp mở rộng của Phymm [41], sử dụng giải thuật BLAST để tìm kiếm tương
đồng cho tất cả trình tự nhằm cung cấp thêm thơng tin hỗ trợ cho q trình phân
loại trong Phymm. Bên cạnh đó, MetaCluster-TA là sự kết hợp của ba giải pháp đã
có, bao gồm: IDBA-UD [42] nhằm ráp nối trình tự để tạo các trình tự dài hơn (được
gọi là contig), MetaCluster 5.0 [28] để gom cụm các contig và trình tự chưa được
ráp nối, và MEGAN [33] để gán nhãn trình tự.
11
II.2.
Vấn đề tồn tại cần giải quyết
II.2.1.
Độ chính xác
Độ chính xác là một trong những khía cạnh quan trọng nhất cần được quan tâm
của bài toán. Một số các yếu tố chính ảnh hưởng đến độ chính xác của các giải pháp
hiện tại, cần được quan tâm giải quyết như:
+ Độ dài trình tự: Độ dài trình tự càng ngắn đồng nghĩa với việc thơng tin chứa
đựng trong trình tự càng ít hơn, dẫn đến độ chính xác khi phân loại giảm đi.
Mặc dù vậy, hầu hết các công nghệ giải mã trình tự hiện nay chỉ cho phép
giải mã trình tự có độ dài ngắn hoặc rất ngắn. Chẳng hạn, trình tự được giải
mã bởi cơng nghệ Illumina thường có độ dài trong khoảng từ 50 đến 300 bp
[14]. Từ kết quả thử nghiệm được công bố của những nghiên cứu trước đây,
có thể thấy rõ sự ảnh hưởng này. Chẳng hạn RAIphy và Phymm đạt độ chính
xác khoảng 32% – 36% cho trình tự dài 100 bp, trong khi đối với trình tự dài
1000 bp là 65% – 80% [43].
+ Thiếu cơ sở dữ liệu tham khảo: Nhiều giải pháp phân loại hiện nay thực hiện
tham khảo trên cơ sở dữ liệu chứa hệ gien hay trình tự của sinh vật đã biết.
Tuy nhiên, phần lớn vi sinh vật trên trái đất vẫn chưa được phát hiện [44] dẫn
đến sự thiếu hiệu quả của nhóm giải pháp này.
II.2.2.
Thời gian xử lý
Thời gian xử lý là khía cạnh quan trọng khác cần được quan tâm bởi vì một dự
án metagenomic thơng thường cần phải phân tích một khối lượng dữ liệu rất lớn (có
khi hàng trăm gigabase trình tự [45]), vốn địi hỏi nhiều chi phí tính tốn.
Phần lớn các giải pháp phân loại trình tự sử dụng cơ sở dữ liệu tham khảo hiện
nay thực hiện so sánh tương đồng giữa trình tự cần phân tích với trình tự hay hệ gien
đã biết. Mặc dù hướng tiếp cận này có ưu điểm là có thể đạt độ chính xác cao hơn
so với các nhóm giải pháp khác, nhưng đòi hỏi nhiều thời gian xử lý, đặc biệt khi cơ
sở dữ liệu tham khảo lớn. Ví dụ, MEGAN, sử dụng ngân hàng dữ liệu NCBI-NR,
cần 34 ngày để thực thi cho bộ dữ liệu khoảng 70.000 trình tự [46].
Nhóm giải pháp khơng sử dụng trình tự tham khảo thì gặp trở ngại vì số lượng
nghiệm bùng nổ ngay cả khi dữ liệu khơng q lớn. Bài tốn này là một dạng của
bài toán phân hoạch, đã được chứng minh khơng thể tìm tất cả các nghiệm trong
thời gian chấp nhận được bởi hệ thống máy tính hiện nay (theo Brian và cộng sự
[47], tham khảo từ sách của Liu [48]). Vì lý do này, hầu hết các giải pháp phân
loại sử dụng cơ sở dữ liệu tham khảo hiện nay (được tìm thấy bởi đề tài nghiên cứu
này) đều sử dụng phương pháp heuristics hay tìm kiếm cục bộ (local search) để tìm
12
nghiệm của bài toán trong thời gian chấp nhận được. Mở rộng khơng gian tìm kiếm
có thể giúp cải thiện chất lượng nghiệm nhưng có thể làm chi phí tính toán tăng cao.
13
Chương II
ỨNG DỤNG MINH HỌA
II.1.
Giải thuật
Nghiên cứu này hiện thực một ứng dụng cho phép phân loại trình tự sinh học
metagenomic. Quy trình thực hiện này là quy trình thường được áp dụng trong các
giải pháp phân loại hiện nay như MEGAN [32, 33], SOrt-ITEMS [34]. Giải pháp
bao gồm ba bước chính như sau (Hình II.1):
(1) So sánh tương đồng trình tự với cơ sở dữ liệu tham khảo, sử dụng công cụ
BLAST [30].
(2) Lọc các hits không quan trọng (có giá trị BLAST hits thấp), dựa trên việc sử
dụng hai tham số min-score smin và top-percent ptop . Trước tiên, những hits có điểm
BLAST (BLAST score) thấp hơn min-score sẽ bị loại bỏ. Sau đó, giải pháp chỉ giữ
lại ptop % những hits có BLAST score cao. Như minh họa ở hình II.2, sau khi sử
dụng tham số smin , chỉ còn 10 hits được giữ lại, và cuối cùng còn 2 hits được giữ lại
sau khi sử dụng tham số ptop .
(3) Gán nhãn cho trình tự sử dụng thuật toán LCA (Lowest Common Ancestor).
Thuật toán này cho phép tìm phần tử tổ tiên thấp nhất của hai node trên một cây
phân loại. Một ví dụ được thể hiện trên hình II.3, nhằm tìm được nhãn cho trình tự
có hai BLAST hits A, và B.
14
Hình II.1: Quy trình của giải pháp phân loại.
Hình II.2: Sử dụng hai ngưỡng min-score và top-percent để lọc các BLAST hits.
15
Hình II.3: Thuật tốn Lowest Common Ancestor.
II.2.
Độ đo hiệu năng giải pháp phân loại
Phần này trình bày các độ đo được sử dụng đánh giá chất lượng phân loại của
các giải pháp. Ba độ đo độ chính xác (precision), độ nhạy (recall hay sensitivity),
và F-measure được sử dụng chung cho việc đánh giá. Tuy nhiên, mặc dù cùng tên
gọi nhưng cách tính của các độ đo độ chính xác và độ nhạy là khác nhau đối với
từng nhóm giải pháp khác nhau (có giám sát hay khơng có giám sát).
• Phân loại có giám sát: Độ chính xác và độ nhạy của một giải pháp phân loại
có giám sát có thể được tính như sau (theo [49, 50]):
Độ chính xác =
Độ nhạy =
II.3.
Số trình tự được phân loại đúng
,
Tổng số trình tự
Số trình tự được phân loại đúng
.
Tổng số trình tự được phân loại
(II.1)
(II.2)
Kết quả thực nghiệm
Thực nghiệm được thực hiện trên bộ dữ liệu chứa 11454 trình tự thuộc 3 loài:
Clostridium acetobutylicum DSM 173, Enterococcus faecium DO, Rickettsia massiliae str. AZT80. Kết quả thực nghiệm với các giá trị khác nhau của hai tham số
min-score smin , và top-percent ptop được thể hiện trong bảng 1.
Kết quả thực nghiệm cho thấy, khi đánh giá ở mức độ phân loại càng thấp,
hiệu năng của giải pháp càng giảm. Nhiều trình tự không được phân loại do giá trị
BLAST hit thấp dẫn đến độ nhạy của giải pháp không cao. Trong khi đó độ chính
xác đạt giá trị cao (lớn hơn 80%) khi đánh giá ở mức độ phân loại Class. Sự thay đổi
của tham số top-percent làm thay đổi rõ rệt kết quả phân loại của giải pháp. Trong
khi đó, kết quả phân loại không thay đổi nhiều khi tham số min-score thay đổi.
16
Bảng 1: Kết quả thực nghiệm
17
Chương VI
KẾT LUẬN VÀ HƯỚNG
PHÁT TRIỂN
Lĩnh vực nghiên cứu metagenomics mở ra cơ hội lớn giúp con người hiểu hơn
về cộng đồng vi sinh vật, và có thể mang đến nhiều lợi ích thiết thực cho cuộc sống.
Mặc dù vậy, vấn đề phân tích dữ liệu metagenomic có nhiều thách thức lớn bởi sự
phức tạp và đa dạng sinh học của mơi trường vi sinh vật. Ngồi ra, một thực tế là
phần lớn vi sinh vật chưa được khám phá, cũng như sự hạn chế của cơng nghệ giải
mã trình tự và độ lớn của dữ liệu cũng làm cho việc phân tích trình tự trở nên khó
khăn. Điều này địi hỏi những cơng cụ phân tích dữ liệu hiệu quả góp phần thành
cơng cho các dự án metagenomic.
Đề tài này đã tìm hiểu tổng quan các giải pháp phân loại có giám sát cho trình
tự metagenomic. Đồng thời, một ứng dụng phân loại cơ bản được cài đặt cho việc
phân loại. Trong tương lai, có thể khai thác sử dụng các đặc trưng khác nhau nhằm
nâng cao chất lượng của giải pháp phân loại.
18