Tải bản đầy đủ (.docx) (44 trang)

Phân loại trình tự metagenomics trên cơ sở phân lớp và gom cụm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (424.6 KB, 44 trang )

ĐAI H6C QU6C GIA TP. H6 CHÍ MINH
TRƯèNG ĐAI HOC BÁCH KHOA

LÊ VĂN VINH

PHÂN LOAI TRÌNH TU
METAGENOMICS TRÊN CƠ Se PHÂN
LéP VÀ GOM CUM

Chuyên ngành: Khoa hoc Máy
tính Mã so chuyên ngành:
62.48.01.01

TÓM TAT LU¾N ÁN TIEN SĨ KY
THU¾T


TP. HO CHÍ MINH NĂM 2016


Công trình đưoc hoàn thành tai Trưòng Đai hoc Bách Khoa - ĐHQG-HCM

Ngưòi hưóng dan khoa hoc 1: PGS. TS. Tran Văn Lăng
Ngưòi hưóng dan khoa hoc 2: PGS. TS. Tran Văn Hoài

Phán bi¾n đ®c l¾p
1: Phán bi¾n đ®c
l¾p 2:

Phán bi¾n 1:
Phán bi¾n 2:


Phán bi¾n 3:

Lu¾n án se đưoc báo v¾ trưóc H®i đong cham lu¾n án hop
tai vào lúc giò

ngày

tháng

năm

Có the tìm hieu lu¾n án tai thư vi¾n:
- Thư vi¾n Khoa hoc Tong hop Tp. HCM
- Thư vi¾n Trưòng Đai hoc Bách Khoa – ĐHQG-HCM


DANH MUC CÔNG TRÌNH ĐÃ CÔNG BO
Tap chí:
[1].L. V. Vinh, T. V. Lang, and T. V. Hoai, "A novel semi-supervised
algorithm for the taxonomic assignment of metagenomic reads," BMC
Bioinformatics, vol.17, no.22, ISSN: 1471-2105, 2016 (SCIE index,
IF=2.435).
[2].L. V. Vinh, T. V. Lang, L. T. Binh, and T. V. Hoai, "A two-phase
binning algorithm using l-mer frequency on groups of nonoverlapping reads," Algorithms for Molecular Biology, vol. 10, no.1,
ISSN: 1748- 7188, 2015 (SCIE index, IF=1.439).
[3].L. V. Vinh, T. V. Lang, and T. V. Hoai, "A novel l-mer counting
method for abundance based binning of metagenomic reads."
Journal of Computer Science and Cybernetics, vol. 10, no.3, ISSN
1813-9663, pp. 267-277, 2014.
[4].L. V. Vinh, T. V. Lang, and T. V. Hoai, "Hi¾u năng cúa các giái pháp

gom cnm trình tn metagenomic," Tap chí Khoa hoc và Công ngh¾,
Vi¾n Hàn Lâm Khoa hoc và Công ngh¾ Vi¾t Nam, vol. 52, no.1B,
ISSN: 0866- 708X, pp.28-36, 2014.
H®i ngh%:
[1].L. V. Vinh, T. V. Lang, and T. V. Hoai, "MetaAB-A Novel AbundanceBased Binning Approach for Metagenomic Sequences," In Nature of
Computation and Communication, pp. 132-141, HCM city, Vietnam:
Springer International Publishing, 2014.
[2].L. V. Vinh, D. H. Nhut, T. V. Lang, and T. V. Hoai, "A combination of genomic signatures for the binning of metagenomic


sequences," Proceedings of The 2nd International Conference on
Green Technology


and Sustainable Development, HCM City Oct 30-31, ISBN 978-604732-817-8, pp. 662-668, 2014.
[3].L. V. Vinh, T. V. Lang, and T. V. Hoai, "An abundance-based bining approach for metagenomics read using a fuzzy k-medoids
methods,"

Proceeding

of

The

7th

National

Conference


on

Fundamental and Ap- plied IT Research - FAIR’7, Thai Nguyen,
ISBN:

978-604-913-300-8,

Natural Science and Technology

Publishing House, 2014.

ii


CHƯƠNG 1
GIéI THIfiU

1.1. Metagenomics và bài toán phân loai trình tN
Metagenomics là lĩnh vnc nghiên cúu c®ng đong vi sinh v¾t. Khác vói
phương pháp truyen thong, lĩnh vnc này thnc hi¾n phân tích trnc tiep trên
mau thnc nghi¾m đưoc thu th¾p tù môi trưòng mà không can trái qua giai
đoan nuôi cay và phân tách trong phòng thí nghi¾m. Lĩnh vnc
metagenomics mang đen nhieu loi ích trong y hoc, nông nghi¾p, công
ngh¾ sinh hoc, nghiên cúu năng lưong thay the, hay môi trưòng [1].
Du li¾u metagenomics thưòng không chúa trình tn cúa tùng sinh v¾t
riêng bi¾t. Chúng chúa trình tn thu®c nhieu loài khác nhau (có khi hơn
10.000 loài trong m®t mau [1]). Vì v¾y, m®t trong nhung van đe quan
trong can giái quyet là phân chia trình tn theo tùng nhóm vi sinh v¾t, đưoc
goi là bài toán phân loai trình tn metagenomics (taxonomic binning). Bài
toán này đưoc phát bieu như sau (theo Thomas và c®ng sn [2]):

"Phân loai trình tn metagenomics là quá trình sap xep trình tn DNA vào các
nhóm bao gom các trình tn thu®c cùng h¾ gien cúa m®t cá the ho¾c h¾
gien cúa các vi sinh v¾t có quan h¾ gan nhau".
Chang han, như minh hoa ó hình 1.2. T¾p du li¾u bao gom 16 trình tn
DNA. Giái pháp phân loai giúp phân chia t¾p trình tn này vào 3 t¾p, moi t¾p
chúa trình tn cúa m®t nhóm vi sinh v¾t.

7


Hình 1.2: Minh hoa mnc tiêu cúa bài toán phân loai trình tn metageonmic.

1.2. Van đe ton tai can giái quyet
1.2.1. Đ® chính xác
Đ® chính xác là m®t trong nhung khía canh quan trong nhat can đưoc
quan tâm cúa bài toán. Hai yeu to chính ánh hưóng đen chat lưong phân
loai cúa các giái pháp hi¾n nay là đ® dài trình tn ngan (làm thieu thông
tin phân loai) và vi¾c thieu cơ só du li¾u tham kháo (làm giám đ® chính
xác cúa các giái pháp phn thu®c cơ só du li¾u tham kháo).

1.2.2. Chi phí tính toán
Chi phí tính toán là khía canh quan trong khác can đưoc quan tâm bói vì
m®t dn án metagenomics thông thưòng can phái phân tích m®t khoi lưong
du li¾u rat lón (có khi hàng trăm gigabase trình tn [3]), von đòi hói nhieu
thòi gian xú lý.

1.3. Mnc tiêu cúa lu¾n án
Mnc tiêu cúa lu¾n án là nham đe xuat giái pháp phân loai cho du li¾u
metage- nomics, có khá năng xú lý tot cho trình tn ngan, và giái quyet hi¾u
quá cho trưòng hop cơ só du li¾u tham kháo không đay đú.



1.4. Đóng góp cúa lu¾n án
Nhung đóng góp chính cúa lu¾n án bao gom:

1.4.1. Ve m¾t khoa hoc
• Đe xuat mô hình thu giám đe tìm ưóc lưong khá năng cnc đai cúa
tham so cho mô hình thong kê ve tan so xuat hi¾n l-mer, giúp giám
chi phí tính toán cho giái pháp phân loai dna trên sn phong phú cúa
h¾ gien.
• Đe xuat phương pháp dn đoán so cnm trong t¾p du li¾u sú dnng
phương pháp lna chon mô hình cho van đe phân loai dna trên sn
phong phú cúa h¾ gien.
• Cũng nham làm tăng chat lưong cúa giái pháp phân loai trình tn dna
trên sn phong phú cúa h¾ gien, lu¾n án đe xuat m®t phương pháp
đem l-mer vói đ® dài thay đoi giúp ưóc lưong múc đ® phong phú
cúa h¾ gien hi¾u quá hơn.
• Đe xuat ý tưóng chon đai di¾n cúa t¾p trình tn thu®c cùng h¾ gien
dna trên thông tin goi đau trình tn. T¾p này cho thay có khá năng
báo toàn đ¾c trưng hop thành và tương đong chúa đnng trong t¾p
du li¾u goc. Ý tưóng này có khá năng làm tăng chat lưong phân loai
hay giám chi phí tính toán cho các bài toán phân loai trình tn
metagenomics.

1.4.2. Ve m¾t thNc tien
Lu¾n án đã đe xuat ba giái pháp phân loai trình tn metagenomics, bao gom:
• Đe xuat giái pháp MetaAB và MetaAB-adv cho phép phân loai trình
tn metagenomics dna trên sn phong phú cúa h¾ gien trong t¾p du
li¾u.
• Đe xuat giái pháp BiMeta cho phép phân loai trình tn metagenomics

dna trên đ¾c trưng hop thành, không sú dnng cơ só du li¾u tham kháo.


• Đe xuat giái pháp SeMeta cho phép phân loai trình tn metagenomics
có sú dnng cơ só du li¾u tham kháo.


1.5.

N®i dung lu¾n án

Cau trúc cúa lu¾n án bao gom 7 chương. Chương 1 giói thi¾u bài toán,
trình bày nhung đóng góp và mnc tiêu cúa lu¾n án. Chương 2 trình bày
nen táng kien thúc can thiet cho lu¾n án và tình hình nghiên cúu hi¾n
nay. Nhung phương pháp đóng góp cho van đe phân loai trình tn
metagenomics dna trên sn phong phú cúa h¾ gien đưoc trình bày trong
chương 3. Chương 4 trình bày ý tưóng chon t¾p đai di¾n cúa m®t t¾p
trình tn dna trên thông tin goi đau se đưoc v¾n dnng ó hai chương tiep
theo cúa lu¾n án. Chương 5 trình bày giái pháp phân loai không giám sát
sú dnng đ¾c trưng dau hi¾u h¾ gien và thông tin goi đau giua trình tn.
Giái pháp phân loai bán giám sát SeMeta đưoc trình bày trong chương 6
cúa lu¾n án. Chương 7 là ket lu¾n và hưóng pháp trien. Phan phn lnc
trình bày m®t so thông tin ve du li¾u đưoc sú dnng trong các thnc
nghi¾m đưoc trình bày trong lu¾n án, và m®t so ket quá thnc nghi¾m chi
tiet.

CHƯƠNG 2
NEN TÃNG KIEN THÚC VÀ TÌNH HÌNH NGHIÊN CÚU

2.1. Nen táng kien thNc

2.1.1. DNA và h¾ gien
DNA (Deoxyribonucleic acid) là phân tú có cau trúc ba chieu, bao gom
hai chuoi đơn xoan oc, cu®n xung quanh m®t trnc chung, tao thành m®t
chuoi xoan kép.

2.1.2. Công ngh¾ giái mã trình tN DNA
Giái mã trình tn DNA là quá trình xác đ%nh dãy các nucleotide trong
trình tn đó. Các công ngh¾ giái mã đưoc sú dnng pho bien hi¾n nay như:
454 pyrose- quencing, Illumina Genome Analyzer, AB SOLiD, đưoc goi


chung là công ngh¾ giái mã trình tn the h¾ tiep theo (Next-generation
sequencing). Vì mau DNA can đưoc giái mã trong thnc te thưòng rat dài,
trong khi các máy giái mã


chí cho phép giái mã cho trình tn có kích thưóc ngan. Vì v¾y, ky thu¾t nen
táng đưoc sú dnng cho các công ngh¾ này là ky thu¾t giái mã trình tn
đoan ngan (shotgun sequencing). Ky thu¾t này thnc hi¾n nhân bán và cat
ngau nhiên mau DNA thành nhung mánh nhó (fragment) có đ® dài phù hop
cho tùng công ngh¾ giái mã. Máy giái mã trình tn xú lý cho tùng mánh DNA
nhó và thông tin đưoc lưu tru trên máy tính đưoc goi là trình tn
(read/sequence).

2.1.3. Đ¾c trưng sN dnng cho phân loai trình tN
M®t giái pháp phân loai trình tn can m®t phép đo múc đ® giong nhau
hay khoáng cách giua các trình tn. Phép đo đó có the đưoc thnc hi¾n nhò
sú dnng m®t so đ¾c trưng sau.
2.1.3.1. Tính tương đong giÑa các trình tN
Múc đ® tương đong (homology) giua hai trình tn đưoc tính dna trên vi¾c

so sánh sn giong nhau tương úng giua các nucleotide trên hai trình tn. Hai
cá the sinh v¾t chúa trình tn có múc đ® tương đong cao the hi¾n chúng
có quan h¾ sinh loài (phylogenetic relationship) gan nhau và có cùng to
tiên. Ngưoc lai, múc đ® tương đong thap the hi¾n chúng có quan h¾ sinh
loài xa nhau [4].
2.1.3.2. Dau hi¾u h¾ gien
Dau hi¾u h¾ gien (genomic signature) là cau trúc toán hoc đ¾c trưng
theo loài mà có the xây dnng tù m®t trình tn sinh hoc. Dau hi¾u h¾ gien
cúa trình tn cùng loài giong nhau nhieu hơn so vói cúa trình tn thu®c hai
loài khác nhau, và hai loài gan nhau có dau hi¾u h¾ gien cúa trình tn
giong nhau nhieu hơn so vói giua hai loài xa nhau [5]. Nhò tính chat này
mà dau hi¾u h¾ gien có the đưoc sú dnng cho vi¾c phân loai trình tn.
Nhieu dau hi¾u h¾ gien đã đưoc nghiên cúu như: GC-content, dau hi¾u
dna trên tan so xuat hi¾n l-mer (đoan trình tn ngan có đ® dài là l, thưòng
đưoc goi là oligonucleotide), dau hi¾u dna trên mô hình Markov.


2.1.3.3. M®t so đ¾c trưng khác
M®t so đ¾c trưng khác đưoc rút trích ra tù sn quan sát du li¾u
metagenomics và áp dnng cho bài toán phân loai như sau:
• Tính duy nhat cúa đoan trình t? l-mer trong t¾p dY
li¾u: Hau het các l-mer (đoan trình tn ngan, có đ® dài là l) không
đưoc chia sé bói các h¾ gien khác nhau khi l đú lón [6].

• S? phong phú cúa h¾ gien trong t¾p dY li¾u: Trong
m®t t¾p trình tn metagenomics, tan so xuat hi¾n cúa l-mer thu®c cùng
m®t h¾ gien tí l¾ thu¾n vói sn phong phú cúa h¾ gien đó [7].

2.1.4. Phân lép và gom cnm dÑ li¾u
2.1.4.1. Phân lép dÑ li¾u

Phân lóp du li¾u (classification) là quá trình nham sap xep các đoi
tưong du li¾u vào các lóp (classes) đã biet. Các giái pháp phân lóp du li¾u
thưòng dna trên hai phương pháp hoc chính: hoc có giám sát (supervised
learning) và hoc bán giám sát (semi-supervised learning). Trong khi
phương pháp hoc có giám sát chí sú dnng thông tin tù t¾p du li¾u tham
kháo cho vi¾c gán nhãn du li¾u, thì phương pháp hoc bán giám sát cho
phép sú dnng ket hop thông tin rút trích tù t¾p trình tn đang đưoc phân
tích và t¾p du li¾u tham kháo. Trong lu¾n án này, phương pháp bán
giám sát gom cnm và gán nhãn (cluster-and-label) đưoc nghiên cúu và sú
dnng.
2.1.4.2. Gom cnm dÑ li¾u
Gom cnm du li¾u là m®t hình thúc cúa phương pháp hoc không có
giám sát, nham phân chia các đoi tưong du li¾u vào các cnm, sao cho các
đoi tưong có đ¾c tính giong nhau thu®c cùng m®t cnm và các đoi tưong có


đ¾c tính khác nhau thu®c ve các cnm khác nhau. Lu¾n án này sú dnng hai
phương pháp


gom cnm là k-means và phương pháp dna trên mô hình (dùng thu¾t toán
EM - Expectation Maximization).

2.1.5. Đ® đo hi¾u năng giái pháp phân loai
Phan này trình bày các đ® đo đưoc sú dnng đánh giá chat lưong cúa
các giái pháp phân loai. Ba đ® đo đ® chính xác (precision), đ® nhay (recall
hay sensitivity), và F-measure đưoc sú dnng chung cho vi¾c đánh giá.

2.2. Tình hình nghiên cNu
Nhung hưóng tiep c¾n chính cúa bài toán như sau.


2.2.1. Phương pháp có giám sát
Theo hưóng tiep c¾n này, trình tn DNA đưoc phân loai dna trên múc đ®
tương đong trình tn hay múc đ® giong nhau giua dau hi¾u h¾ gien cúa
chúng vói h¾ gien hay trình tn cúa sinh v¾t đã biet trong cơ só du li¾u
tham kháo. Có the chia các giái pháp có giám sát thành ba nhóm như sau.
2.2.1.1. Phương pháp dNa trên tính tương đong
Trình tn metagenomics đưoc phân loai dna trên vi¾c so sánh đe tìm ra
múc đ® tương đong vói trình tn trong ngân hàng gien ho¾c protein.
Trong các giái pháp theo hưóng này, công vi¾c so sánh tương đong thưòng
đưoc thnc hi¾n bói các công cn đã có san như BLAST hay BLAT. M®t so
giái pháp thu®c nhóm này như: MEGAN, SOrt-ITEMS, và CARMA3.
2.2.1.2. Phương pháp dNa trên tính hep thành
Phương pháp này sú dnng dau hi¾u h¾ gien (genomic signature) đưoc
rút trích tù h¾ gien hay trình tn tham kháo đe phân loai. M®t so dau hi¾u
h¾ gien thưòng đưoc sú dnng như: GC-content, tan so xuat hi¾n l-mer.
Hau het các giái pháp thu®c nhóm này như TACOA, TAC-ELM, AKE chí
phù hop cho xú lý trình tn dài. M®t so nghiên cúu gan đây như MetaCV,
MetaID hưóng đen vi¾c xú lý cho trình tn ngan.


2.2.1.3. Phương pháp lai
Nhóm phương pháp lai sú dnng điem manh tù sn ket hop tính tương
đong và tính hop thành nham giám chi phí tính toán, hay cái tien chat
lưong phân loai. M®t so giái pháp thu®c nhóm này như: SPHINX,
MetaCluster-TA và PhymmBL.

2.2.2. Phương pháp không có giám sát
Theo hưóng tiep c¾n này, vi¾c phân loai chí dna trên thông tin đưoc rút
trích tù chính t¾p du li¾u đang đưoc phân tích, mà không sú dnng thông

tin tù bên ngoài. Các giái pháp đã đưoc đe xuat có the đưoc phân chia
thành hai nhóm: giái pháp dna trên tính hop thành (composition feature)
và giái pháp dna trên sn phong phú cúa h¾ gien (genome abundance-based
feature).
2.2.2.1. Phương pháp dNa trên tính hep thành
Nhóm giái pháp theo hưóng tiep c¾n này phân loai trình tn dna trên
dau hi¾u h¾ gien đưoc rút trích tù trình tn đang đưoc xú lý. M®t so giái
pháp chí có khá năng phân loai tot cho trình tn dài như: LikelyBin, Scimm,
MetaCluster 2.0, MetaCluster 3.0. M®t so khác có khá năng xú lý tot hơn
cho trình tn ngan như: TOSS, MetaCluster 5.0 và MCluster.
2.2.2.2. Phương pháp dNa trên sN phong phú h¾ gien
M®t so giái pháp không có giám sát đưoc đe xuat gan đây có the phân
loai trình tn ngan sú dnng đ¾c trưng sn phong phú cúa h¾ gien trong t¾p
trình tn metagenomics. Trong so các giái pháp này, AbundanceBin phân
loai dna trên vi¾c sú dnng giái pháp EM (expectation-maximization) nham
ưóc lưong tham so cúa mô hình xác suat cúa l-mer trong trình tn.

2.2.3. Phương pháp bán giám sát
Phương pháp bán giám sát là m®t dang phoi hop giua ky thu¾t có
giám sát và không giám sát nham đat đưoc chat lưong phân loai tot hơn.
Nhung nghiên


cúu gan đây theo hưóng tiep c¾n này như RAIphy, CompostBin.
MetaCluster- TA cũng có the đưoc xep vào nhóm phương pháp này.

CHƯƠNG 3
GIÃI PHÁP PHÂN LOAI KHÔNG GIÁM SÁT DUA TRÊN
SU PHONG PHÚ CUA Hfi GIEN


3.1. Giéi thi¾u
Lu¾n án này đe xuat m®t phương pháp gom cnm dna trên mô hình, đưoc
goi là MetaAB, có khá năng phân loai trình tn m®t cách hi¾u quá dna trên
thông tin sn phong phú cúa h¾ gien trong t¾p trình tn can phân tích.
Phương pháp đe xuat sú dnng mô hình thu giám đe tìm ưóc lưong khá
năng cnc đai (MLE
- maximum likelihood estimates) cúa tham so trong mô hình xác suat, nham
giám chi phí tính toán so vói các giái pháp tương tn. Ngoài ra, MetaAB v¾n
dnng m®t ky thu¾t lna chon mô hình xác suat nham phân loai và ưóc
lưong so cnm du li¾u toàn cnc m®t cách hi¾u quá. Bên canh đó, m®t
phương pháp đem tan so xuat hi¾n l-mer có đ® dài thay đoi cũng đưoc đe
xuat trong nghiên cúu này nham làm tăng sn chính xác trong vi¾c phân
loai.

3.2. Phương pháp
3.2.1. Mô hình hon hep cúa tan so xuat hi¾n các l-mer
Cho m®t t¾p trình tn metagenomics bao gom n trình tn R = {r1, r2, . . .
, rn}. Đ¾t w1 , . . . , wq là m®t t¾p các l-mer trong t¾p trình tn, và c(wi), 1
≤ i ≤ q,

là so lan xuat hi¾n cúa l-mer wi trong t¾p du li¾u. Vì moi l-

mer đưoc hình thành tù 4 nucleotide (A, C, G, T), ta có: q ≤ 4l . Như v¾y, ta
có m®t t¾p du li¾u X = {c(w1 ), . . . , c(wq)} bao gom q quan sát cúa


bien ngau nhiên x = c(wi), 1 ≤

i ≤ q. Hàm log-likelihood tương úng vói


mô hình hop k thành phan cúa du li¾u


này như
sau:

q

log L (Θ|X) =

∑ log

.

k


m=1

.
αm pm (c(wi )|λm )

(3.1)

.

Trong đó, Θ
i=1

= {α1 , . . . ,

α k , θ1 , . . . ,
θk} là m®t
t¾p các
tham so cúa
mô hình
hop này.
α
m=1
α1 , . . . , αk là m
các thành
=
phan hop và
thóa mãn
đieu ki¾n ∑k
1, αm ≥ 0.
Ngoài ra, θm, 1
≤ m ≤ k, là
t¾p tham so
cúa
thành
phan thú m
cúa

Trong

hình.
ngu

cánh này, vói
mô hình hop

Poisson, ta có:
θm ≡ λm. Giái
pháp đe xuat
nham tìm ưóc
lưong

khá

năng cnc đai


tham so Θ,

Nham giám chi . .3 m®t tí l¾ lón
phí tính toán cúa (3 ) các l-mer xuat

von

vi¾c

(MLE) cúa

lưong Vói phát tù cùng
b là
hi¾n khá tham so trong mô so h¾ gien và
thưòng có cùng
năng cao hình, nghiên cúu nhó
so lan xuat
nhat
mà này đe xuat m®t m lmer hi¾n trong t¾p

các l-mer mô hình thu giám mà
trình
tn
thu®c ve cúa nó. Bói vì, hai l- có
metagenomics
các
h¾ mer có cùng so lan cùn
g so (túc là st 1). Vì
gien trong xuat hi¾n luôn có lan
xác
suat xuat v¾y, khi sú
t¾p
du cùng
thu®c ve các thành hi¾ dnng bieu thúc
li¾u.
n, st 3.3, chi phí đe
phan trong mô
là so tìm ưóc lưong
Θ hình. Vì v¾y, hàm
lan
xuat khá năng cnc
a log-likelihood
hi¾ đai cúa tham so
t
ươ
ng
úng
vói

L

n
Θ giám đi đáng
hình hop k thành cúa
(3.2)
ke so vói mô
phan trên, đưoc lhình goc trong
phát bieu trong mer
3.2.2. M
tron 3.1.
bieu thúc 3.1, có the
g
ô
đưoc xây dnng lai nhó

m t,
như sau:
n

b
.
t .
h
=
q
log
αm
t
1
pm (
(3.4)

k
L
h
∑ct |
( m λ )
u
Tro
= m
gi
X 1
ng
the

á
m

ưóc

=

thn

s

c

log

te,



3.2.3. Ưéc lưeng tham so trong mô hình đe xuat
Đe ưóc lưong khá năng cnc đai cúa tham so trong mô hình đe xuat,
nghiên cúu này sú dnng giái thu¾t cnc đai hóa kỳ vong (EM - Expectation
Maximiza- tion [8]). Đây là m®t giái thu¾t l¾p, cho phép tìm đưoc giá tr%
toi ưu cnc b® cúa tham so trong mô hình xác suat. Moi vòng l¾p thnc thi
hai bưóc sau (phan dưói đây the hi¾n cho vòng l¾p thú s + 1):
+ Bưéc kỳ vong hóa (E-step): Tính xác suat cúa các l-mer mà so lan xuat
hi¾n
cúa chúng bang ct , t ∈ {1, . . . , b}, thu®c ve thành phan thú m, cho trưóc
tham

so Θ(s), và ct .
(s)

p(ztm = 1|ct , Θ ) =

α

(s)

m

t
(s)

m




p (c |λ

k

v=1 αv

)

m
(s (s)
)

(lu¾t Bayes).

(3.5)

pv (ct |λv )

+ Bưéc cNc đai hóa (M-step): Trong bưóc này, các tham so đưoc c¾p nh¾t
theo bieu thúc sau:
Θ(s+1) = arg max Q(Θ, Θ(s)).

(3.6)

Θ

Trong đó, hàm Q: Q(Θ, Θ(s)) = E[log(p(X, Z|Θ))|X, Θ(s)] là kỳ vong cúa
log- likelihood cúa du li¾u đay đú. Vói Z là du li¾u cho biet thành phan
nào tao ra các l-mer. Khi các tham so trong mô hình hop này đã đưoc ưóc
lưong, moi trình tn r j đưoc gán vào các thành phan (hay cnm) dna trên xác

suat các l-mer cúa chúng thu®c ve các thành phan.

3.2.4. Ưéc lưeng so cnm sN dnng BIC
Lu¾n án này v¾n dnng phương pháp lna chon mô hình (model
selection) BIC (Bayesian Information Criterion) nham tìm so thành phan
cúa m®t mô hình hon hop. Đieu này đong nghĩa vói vi¾c có the ưóc lưong
đưoc so cnm trong t¾p du li¾u. Cn the, giá tr% BIC cúa mô hình m thành
phan như sau:
d


BICm = logp(X|Dm) = logL (Θ∗m |X) −

2
Mô hình đưoc chon là mô hình có giá tr% BIC lón nhat.

log(q).

(3.7)


3.2.5. Thu¾t toán MetaAB
Thu¾t toán MetaAB thnc hi¾n các công vi¾c như sau:
+ Tính so lan xuat hi¾n l-mer trong t¾p R.
+ Loai bó l-mer không tin c¾y.
+ Thnc thi vòng l¾p thnc hi¾n giái thu¾t EM vói so thành phan thay đoi, và
tính giá tr% BICm.
+ Chon mô hình có giá tr% BIC lón nhat.

3.2.6. Phương pháp đem l-mer véi đ® dài thay đoi

Phương pháp đem l-mer đưoc trình bày trong phan này nham giái quyet
han che cúa phương pháp đem l-mer có đ® dài co đ%nh, giúp cho vi¾c
tính tan so xuat hi¾n l-mer m®t cách đúng đan, và phán ánh chính xác hơn
múc đ® phong phú cúa h¾ gien chúa chúng.
3.2.6.1. Phương pháp đe xuat
M®t l-mer có đ® dài không co đ%nh (vói đ® dài toi đa là l) đưoc đ%nh
nghĩa là m®t t¾p gom ba phan: pre-l-mer, main-l-mer, và suf-l-mer. mainl-mer là thành phan giua cúa m®t l-mer, và đ® dài cúa nó đưoc gán co đ
%nh bói giá tri lm. pre-l-mer và suf-l-mer là hai phan còn lai, nam ó v% trí
đau và cuoi cúa m®t l-mer. Đ® dài cúa hai phan này không co đ%nh và
đưoc giói han bói giá tr% l p , và ls (vói l = lp + lm + ls). Hai l-mer đưoc so
sánh như sau:
Đ¾t u = (p(u), m(u), s(u)) là m®t l-mer. p(u), m(u) và s(u) là pre-lmer, main-l-mer, và suf-l-mer tương úng cúa l-mer u. Chúng là các chuoi
chúa ký tn trong m®t t¾p {A, C, G, T}. Đ¾t | p(u)|, |s(u)| là đ® dài tương
úng cúa p(u), s(u) (| p(u)| ≤ l p , |s(u)| ≤ ls). Đ¾t v = (p(v), m(v), s(v)) là
m®t l-mer khác. Ký hi¾u g(s, pos, len) là hàm đe sao chép m®t chuoi con
cúa chuoi s tù v% trí bat đau


pos và trưot qua len ký tn. u = v khi và chí khi:


 m(u) = m(v) và
s(u) = g(s(v), 1, |s(u)|), neu |s(u)| ≤ |s(v)| và


s(v) = g(s(u), 1, |s(v)|), neu |s(v)| < |s(u)| và

 p(u) = g(p(v), | p(v)| − | p(u)| + 1, | p(u)|), neu |p(u)| ≤ |
p(v)| và



 p(v) = g(p(u), | p(u)| − | p(v)| + 1, | p(v)|), neu |p(v)| < |

(3.8)

p(u)|.

3.3.

Ket quá thNc nghi¾m

Trong phan này, hai phiên bán cúa giái pháp đe xuat đưoc thnc
nghi¾m. Phiên bán m®t tên là MetaAB sú dnng phương pháp đem l-mer
có đ® dài co đ%nh. Phiên bán hai tên là MetaAB-adv (viet tat cúa MetaABadvanced) sú dnng phương pháp đem l-mer có đ® dài thay đoi đưoc đe
xuat trong nghiên cúu này. Ket quá thnc nghi¾m cho thay MetaAB và
MetaAB-adv đat chat lưong phân loai tot hơn trong phan lón trưòng hop thnc
nghi¾m so vói AbundanceBin. MetaAB đòi hói chi phí tính toán thap nhat
trong so các giái pháp thnc nghi¾m. MetaAB-adv đat ket quá tot hơn so
vói MetaAB trong trưòng hop trình tn không có loi giái mã.

CHƯƠNG 4
CHON ĐAI DIfiN CUA M®T T¾P TRÌNH TU DUA TRÊN
TÍNH CHAT GOI ĐAU

4.1. Giéi thi¾u
Lu¾n án này đe xuat ý tưóng chon đai di¾n cho m®t t¾p trình tn DNA
dna trên tính goi đau giua các trình tn. Vi¾c lna chon t¾p đai di¾n là
nham giám chi phí tính toán, đong thòi giám nhieu trong du li¾u do đ® phú



×