ĐẠI HỌC QUỐC GIA HÀNỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN ĐĂNG HƯNG
DỰ ĐOÁN VÀ PHÂN TÍCH CÁC TRẠNG THÁI CỦA HISTONE TRONG
CHUỖI DNA BẰNG PHƯƠNG PHÁP CONDITIONAL RANDOM FIELDS
Chuyên ngành: Công Nghệ Thông Tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ
NGƢỜI HƢỚNG DẪN KHOA HỌC
GS.TSKH HỒ TÚ BẢO
Hà nội – Năm 2006
Trường Đại học Công Nghệ - ĐHQGHN
MỤC LỤC
MỤC LỤC ...................................................................................................................2
LỜI CẢM ƠN .............................................................................................................5
DANH MỤC HÌNH VẼ ..............................................................................................6
DANH MỤC BẢNG ...................................................................................................7
DANH MỤC TỪ VIẾT TẮT ......................................................................................8
MỞ ĐẦU .....................................................................................................................9
CHƢƠNG 1: GIỚI THIỆU CHUNG ........................ Error! Bookmark not defined.
1.1 Các khái niệm cơ bản ...................................... Error! Bookmark not defined.
1.1.1 Tin-sinh là gì? .......................................... Error! Bookmark not defined.
1.1.2 DNA(deoxyribonucleic acid) ................... Error! Bookmark not defined.
1.1.3 RNA(ribonucleic acid) ............................. Error! Bookmark not defined.
1.1.4 Protein ...................................................... Error! Bookmark not defined.
1.2 Nucleosome ..................................................... Error! Bookmark not defined.
1.2.1 Nucleosome là gì? .................................... Error! Bookmark not defined.
1.2.2 Sự choán chỗ của nucleosome trong chuỗi DNAError! Bookmark not
defined.
1.2.3 Histone là gì?............................................ Error! Bookmark not defined.
1.2.4 Trạng thái thay đổi của Histone. .............. Error! Bookmark not defined.
1.3 Mục tiêu của luận văn ..................................... Error! Bookmark not defined.
Luận văn tốt nghiệp cao học
2
Trường Đại học Công Nghệ - ĐHQGHN
CHƢƠNG 2: MÔ HÌNH CONDITIONAL RANDOM FIELDError!
Bookmark
not defined.
2.1 Giới thiệu......................................................... Error! Bookmark not defined.
2.2 Mô hình Markov ẩn ......................................... Error! Bookmark not defined.
2.2.1 Giới thiệu.................................................. Error! Bookmark not defined.
2.2.2 Bài toán gán nhãn cho dữ liệu chuỗi ........ Error! Bookmark not defined.
2.2.3 Hạn chế của mô hình Generative ............. Error! Bookmark not defined.
2.3 Mô hình Maximum Entropy Markov .............. Error! Bookmark not defined.
2.3.1 Giới thiệu.................................................. Error! Bookmark not defined.
2.3.2 Vấn đề Bias .............................................. Error! Bookmark not defined.
2.4 Mô hình Condition Random Field .................. Error! Bookmark not defined.
2.4.1 Mô hình đồ thị vô hƣớng.......................... Error! Bookmark not defined.
2.4.2 Cấu trúc đồ thị của CRFs ......................... Error! Bookmark not defined.
2.4.3 Nguyên lý Maximum Entropy ................. Error! Bookmark not defined.
2.4.4 Hàm khả năng cho CRFs ......................... Error! Bookmark not defined.
2.4.5 Một số thuật toán ƣớc lƣợng tham số cho CRFsError! Bookmark not
defined.
CHƢƠNG 3: SỬ DỤNG MÔ HÌNH CRFs ĐỂ DỰ ĐOÁN SỰ CHIẾM CHỖ CỦA
NUCLEOSOME VÀ TRẠNG THÁI THAY ĐỔI CỦA HISTONE TRONG
CHUỖI DNA ............................................................ Error! Bookmark not defined.
3.1 Bài toán ........................................................... Error! Bookmark not defined.
3.1.1 Giới thiệu.................................................. Error! Bookmark not defined.
3.1.2 Phƣơng pháp thực nghiệm ....................... Error! Bookmark not defined.
3.2 Dữ liệu ............................................................. Error! Bookmark not defined.
Luận văn tốt nghiệp cao học
3
Trường Đại học Công Nghệ - ĐHQGHN
3.2.1 Dữ liệu thực nghiệm ................................. Error! Bookmark not defined.
3.2.2 Chuyển dữ liệu thực nghiệm về dữ liệu có nhãnError! Bookmark not
defined.
3.2.3 Huấn luyện và kiểm thử với mô hình CRFs trên dữ liệu đã chuẩn bị
........................................................................... Error! Bookmark not defined.
CHƢƠNG 4: KẾT QUẢ VÀ THẢO LUẬN ............ Error! Bookmark not defined.
4.1 Kết quả ............................................................ Error! Bookmark not defined.
4.1.1 Dự đoán sự choán chỗ của nucleosome và sự thay đổi trạng thái của
histone trong chuỗi DNA .................................. Error! Bookmark not defined.
4.1.2 Tìm các vùng trên chuỗi DNA ảnh hƣởng đến mức độ trạng thái khác
nhau của Histone ............................................... Error! Bookmark not defined.
4.2 Thảo luận ......................................................... Error! Bookmark not defined.
4.2.1 Dự đoán sự choán chỗ và các trạng thái thay đổi của histone. ........ Error!
Bookmark not defined.
4.2.2 Phân tích các vùng hữu ích của chuỗi DNA ảnh hƣởng đến các tính chất
của histone. ........................................................ Error! Bookmark not defined.
KẾT LUẬN ............................................................... Error! Bookmark not defined.
5.1 Nội dung của luận văn..................................... Error! Bookmark not defined.
5.1.1 Các kết quả đạt đƣợc ................................ Error! Bookmark not defined.
5.1.2 Một số hạn chế cần khắc phục. ................ Error! Bookmark not defined.
5.2 Công việc tiếp theo.......................................... Error! Bookmark not defined.
PUBLICATION ........................................................ Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO .........................................................................................11
Luận văn tốt nghiệp cao học
4
Trường Đại học Công Nghệ - ĐHQGHN
LỜI CẢM ƠN
Vui mừng khi hoàn thành luận văn, tôi không quên công ơn của các thầy cô, bạn bè
đồng nghiệp và gia đình, những người đã dạy bảo và ủng hộ tôi trong suốt quá
trình học tập.
Trước hết tôi muốn gửi lời cảm ơn đến các thầy cô giáo ở trường Đại học Công
Nghệ, Đại học Quốc gia Hà Nội và Viện Công nghệ thông tin đã quan tâm tổ chức
chỉ đạo và trực tiếp giảng dạy khóa cao học của chúng tôi. Đặc biệt tôi xin gửi lời
cảm ơn sâu sắc đến thầy giáo hướng dẫn GS.TSKH Hồ Tú Bảo, người đã tận tình
chỉ bảo và góp ý về chuyên môn cho tôi trong suốt quá trình làm luận văn. Ngoài
ra, bằng sự giúp đỡ của thầy tôi đã có cơ hội được thực tập sinh 1 năm tại Viện
Khoa học và Công nghệ tiên tiến Nhật Bản (JAIST), nơi mà tôi được tiếp cận với
môi trường nghiên cứu hiện đại và đầy đủ điều kiện để hoàn thành luận văn. Đồng
thời tôi cũng muốn gửi lời cảm ơn đến người thầy giáo cũ của tôi, TS. Phạm Thọ
Hoàn, người đã hết sức giúp đỡ tôi cả về chuyên môn và cuộc sống trong những
năm vừa qua. Tôi cũng xin chân thành cảm ơn GS. Kenji Satou, một chuyên gia
trong lĩnh vực Tin-sinh học của JAIST, đã cho tôi những góp ý quý báu trong thời
gian thực tập sinh ở JAIST.
Cũng qua đây, tôi xin chân thành cảm ơn lãnh đạo khoa Công nghệ Thông tin và
lãnh đạo trường Đại học Sư phạm Hà nội, nơi tôi công tác, đã tạo mọi điệu kiện
thuận lợi cho tôi trong thời gian làm nghiên cứu ở nước ngoài.
Cuối cùng, tôi xin cảm ơn bố mẹ, vợ và con trai, những người đã luôn ủng hộ và
động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn.
Tuy nhiên, do bản thân mới bắt đầu trên con đường nghiên cứu khoa học đầy thách
thức, chắc chắn bản luận văn vẫn còn nhiều thiếu sót. Rất mong được nhận được sự
góp ý của các thầy cô và đồng nghiệp.
Luận văn tốt nghiệp cao học
5
Trường Đại học Công Nghệ - ĐHQGHN
DANH MỤC HÌNH VẼ
Hình 1 Cấu trúc xoắn kép của DNA ........................................................................ 12
Hình 2 Một phân tử tRNA ....................................................................................... 14
Hình 3 Các dạng cấu trúc của protein ...................................................................... 15
Hình 4 Cấu tạo của nucleosome ............................................................................... 16
Hình 5 Cấu trúc đóng gói của chuỗi DNA tạo thành một nhiễm sắc thể ................. 17
Hình 6 Các nucleosome liên tiếp nhau đƣợc nối bởi linker DNA ........................... 18
Hình 7 Cấu tạo của histone octamer ........................................................................ 19
Hình 8 Các protein có trong nhân histone ................................................................ 20
Hình 9 Cấu trúc chi tiết của nhân histone ................................................................ 20
Hình 10 Các vị trí trên đuôi của các histone có thể đính thêm các nhóm chức ....... 22
Hình 11 Cấu trúc đồ thị của HMM bậc 1. ................. Error! Bookmark not defined.
Hình 12 Cấu trúc đồ thị của mô hình MEMM bậc 1.Error! Bookmark not defined.
Hình 13 Một ví dụ về vấn đề bias. ............................ Error! Bookmark not defined.
Hình 14 Cấu trúc đồ thị của CRFs cho trƣờng hợp chuỗi.Error!
Bookmark
not
defined.
Hình 15 Lƣợc đồ của phƣơng pháp ChIP-chip [21]. Error! Bookmark not defined.
Hình 16 Chuyển dữ liệu định lƣợng về dữ liệu định tính.Error!
Bookmark
not
defined.
Hình 17 Tạo dữ liệu có nhãn từ dữ liệu gene của loài Yeast và dữ liệu định tính.
................................................................................... Error! Bookmark not defined.
Hình 18 Biểu diễn dãy DNA dƣới dạng vector (với k = 3).Error! Bookmark not
defined.
Luận văn tốt nghiệp cao học
6
Trường Đại học Công Nghệ - ĐHQGHN
Hình 19 Dữ liệu đã có nhãn. Gồm vector biểu diễn chuỗi DNA và nhãn tƣơng ứng
................................................................................... Error! Bookmark not defined.
Hình 20 Biểu diễn gene thành chuỗi quan sát. p1,p2,p3,p4 là các vị trí đƣợc đo trên
gene. x1, x2, x3, x4 là các quan sát biểu diễn các đoạn DNA chứa các vị trí tƣơng
ứng. ............................................................................ Error! Bookmark not defined.
DANH MỤC BẢNG
Bảng 1 Một số kiểu trạng thái của histone. Chữ cái trong ngoặc là kí hiệu thay cho
amino acid tƣơng ứng................................................ Error! Bookmark not defined.
Bảng 2 Một số vị trí thay đổi trạng thái của histone đã biết.Error! Bookmark not
defined.
Bảng 3 Danh sách kháng thể [27]. ............................ Error! Bookmark not defined.
Bảng 4 Các trƣờng trong file dữ liệu thực nghiệm. .. Error! Bookmark not defined.
Bảng 5 Dữ liệu thực nghiệm [27].............................. Error! Bookmark not defined.
Bảng 6 Các tập dữ liệu về sự choán chỗ của histone, sự acetyl hóa ................. Error!
Bookmark not defined.
Bảng 7 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone,
với kích thƣớc của cửa sổ k = 4, k = 5 và k = 6. ....... Error! Bookmark not defined.
Bảng 8 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone,
với kích thƣớc của cửa sổ k = 7; k = 4,5 và k = 5,6. Error! Bookmark not defined.
Bảng 9 Một số feature hữu ích cho lớp positive đƣợc chọn từ mô hình CRFs, trong
trƣờng hợp k = 4 và k = 5. T.số: là trọng số của feature tƣơng ứng sau khi huấn
luyện mô hình CRFs.................................................. Error! Bookmark not defined.
Luận văn tốt nghiệp cao học
7
Trường Đại học Công Nghệ - ĐHQGHN
Bảng 10 Một số feature hữu ích cho lớp negative đƣợc chọn từ mô hình CRFs,
trong trƣờng hợp k = 4 và k = 5. T.số: là trọng số của feature tƣơng ứng sau khi
huấn luyện mô hình CRFs. ........................................ Error! Bookmark not defined.
Luận văn tốt nghiệp cao học
8
Trường Đại học Công Nghệ - ĐHQGHN
DANH MỤC TỪ VIẾT TẮT
Cụm từ viết tắt
Cụm từ chi tiết
KPDL
Khai phá dữ liệu
CRFs
Conditional Random Fields
HMM
Hidden Markov Model
MEMM
Maximum Entropy Markov Model
ME
Maximum Entropy
SVM
Support Vector Machine
Luận văn tốt nghiệp cao học
9
Trường Đại học Công Nghệ - ĐHQGHN
MỞ ĐẦU
Trong một vài thập niên gần đây bài toán khai phá dữ liệu đã trở thành một
trong những hƣớng nghiên cứu quan trọng trong lĩnh vực khoa học máy tính và trí
tuệ nhân tạo. Điều này dễ hiểu vì khối lƣợng dữ liệu mà con ngƣời có là rất lớn
nhƣng việc tìm ra dữ liệu có ích lại là vấn đề khó. Trƣớc đây ngƣời ta thƣờng dùng
các phƣơng pháp thực nghiệm và kinh nghiệm của con ngƣời để rút ra các tri thức
có nghĩa trong khối lƣợng dữ liệu khổng lồ. Có rất nhiều các nghiên cứu và đề xuất
đƣợc ứng dụng trong đời sống khẳng định đây là hƣớng nghiên cứu bền lâu và có ý
nghĩa thực tiễn rất lớn.
Khai phá dữ liệu đƣợc hiểu một cách đơn giản là từ những dữ liệu đang có,
bằng các phƣơng pháp tính toán khoa học trích rút ra các dữ liệu có ích đối với con
ngƣời. Các kỹ thuật chính đƣợc áp dụng chính trong lĩnh vực này đƣợc kế thừa từ
nhiều lĩnh vực khác nhau nhƣ: Cơ sở dữ liệu, học máy (machine learning), trí tuệ
nhân tạo (artificial intelligence), lý thuyết thông tin (information theory), và xác
suất thống kê (probability and statistics). Cho đến nay, các phƣơng pháp khai phá
dữ liệu đã đƣợc áp dụng trong nhiều lĩnh vực khác nhau nhƣ xử lý ngôn ngữ tự
nhiên, xử lý tiếng nói, tin-sinh học, …
Dữ liệu sinh học trên thế giới ngày càng nhiều và đa dạng, việc phân tích và
xử lý khối dữ liệu khổng lồ đó cần phải sử dụng đến các công cụ khai phá dữ liệu
hiệu quả. Vì thế, trong mấy thập niên gần đây xuất hiện một ngành khoa học mới có
tên là tin-sinh học. Dù mới ra đời nhƣng tin-sinh học có một vai trò quan trọng
trong cuộc sống, nhƣ hỗ trợ việc chẩn đoán bệnh tật, tìm ra các mối quan hệ di
truyền giữa các loài sinh vật hay phát hiện ra chức năng của các đại phân tử trong
sinh học phân tử,…
Trong khi tìm hiểu các bài toán trong lĩnh vực tin-sinh học, chúng tôi đã phát
hiện ra vị trí, cấu tạo và trạng thái của các histone trong chuỗi DNA ảnh hƣởng đến
các tiến trình sinh học trong tế bào. Đã có nhiều các nghiên cứu trƣớc đây nghiên
Luận văn tốt nghiệp cao học
10
Trường Đại học Công Nghệ - ĐHQGHN
cứu vấn đề này, nhƣng đều là các nghiên cứu thực nghiệm. Trong luận văn này,
chúng tôi áp dụng một phƣơng pháp tính toán để dự đoán sự choán chỗ của
nucleosome và các trạng thái thay đổi của nó trong chuỗi DNA. Chúng tôi đã sử
dụng mô hình Conditional Random Fields (CRFs), một mô hình xác suất điều kiện
đƣợc đánh giá là hiệu quả trong nhiều lĩnh vực khác nhau. Ngoài ra, dựa vào mô
hình này, chúng tôi còn phân tích đƣợc nhiều đặc trƣng quan trọng của chuỗi DNA
liên quan đến các dấu hiệu của quá trình thể hiện gene.
Ngoài phần mở đầu và kết luận, luận văn đƣợc chia làm 4 chƣơng, cụ thể nội
dung các chƣơng nhƣ sau:
Chương 1 trình bày các khái niệm chung của sinh học phân tử. Giải thích cấu tạo
cơ bản và chức năng của các đại phân tử sinh học. Mục đích của chƣơng này nhằm
làm rõ các khái kiệm liên quan đến bài toán mà luận văn đề cập.
Chương 2 giới thiệu mô hình CRFs đối với bài toán phân đoạn và gán nhãn. Trƣớc
khi trình bày định nghĩa và cấu tạo của mô hình CRFs chúng tôi đã trình bày ngắn
gọn về các mô hình trƣớc đó nhƣ mô hình Markov ẩn (HMM), mô hình Maximum
Entropy Markov (MEMM) và hạn chế của các mô hình này.
Chương 3 áp dụng mô hình CRFs vào bài toán dự đoán sự choán chỗ của
nucleosome và các trạng thái thay đổi của histone trong chuỗi DNA. Phần đầu
chƣơng trình bày nội dung của bài toán, các yêu cầu cần đạt đƣợc. Phần tiếp theo
trình bày các nghiên cứu thực nghiệm và phần cuối trình bày cách chuyển từ dữ liệu
thực nghiệm về dữ liệu có nhãn và áp dụng mô hình CRFs để huấn luyện và kiểm
thử trên các tập dữ liệu đã chuẩn bị.
Chương 4 trình bày các kết quả thu đƣợc sau khi áp dụng mô hình CRFs vào bài
toán đã mô tả trong chƣơng 3. Trong chƣơng này, chúng tôi cũng trình bày các nhận
xét và đánh giá về các kết quả so với các nghiên cứu trƣớc đây.
Luận văn tốt nghiệp cao học
11
Trường Đại học Công Nghệ - ĐHQGHN
TÀI LIỆU THAM KHẢO
Tiếng Việt
1.
Hồ Huỳnh Thùy Dƣơng (2003), Sinh học phân tử, NXB Giáo dục.
2.
Nguyễn Tiến Thắng, Nguyễn Đình Huyên (1998), Giáo trình sinh hóa
hiện đại, NXB Giáo dục.
Tiếng Anh
3.
Alberts B. et al. (2002), Molecular Biology of the CELL, 4th edition,
Gerland Science Publishing.
4.
Ben B., Robert F., and et al. (2000), “Genome-wide location and
function of DNA binding proteins”, Science, 290(500) , pp.2306-2309.
5.
Berger
S.L
(2002),
“Histone
modifications
in
transcriptional
regulation”, Curr. Opin. Genet. Dev., (12), pp.142-148.
6.
Bernstein B.E., Humphrey E.L., Erlich R.L and Schreiber S.L. (2002),
“Methylation of histone H3 Lys 4 in coding regions of active genes”,
Pro. Natl. Acad. Sci. USA
7.
Bernstein B.E.,Liu C.L., Humphrey E.L and Schreuber S.L. (2004),
“Global nucleosome occupancy in yeast”, Genome Biology, 5(9),R62.
8.
Boeger H., Griesenbeck J., Strattan J.S., and Kornberg R.D. (2003),
“Nucleosomes unfold completely at a transcriptionally active
promoter”, Mol.Cell 11,pp.1587-1598.
9.
Culotta A, Kulp D. and McCallum A. (2005), “Gene Prediction with
Conditional Random Fields”, Techical Report IR-443, University of
Massachusetts.
10. Darroch J. and Ratcliff D. (1972), “Generalized iterative scaling”, The
Annals of Mathematical Statistics, (43), pp.1470-1480.
Luận văn tốt nghiệp cao học
12
Trường Đại học Công Nghệ - ĐHQGHN
11. Deckert J. and Struhl K. (2001), “Histone acetylation at promoters is
differentially affected by specific activators and repressors”, Mol. Cell.
Biol.,( 21),pp. 2726-2735.
12. Della S., Della V., and Lafferty J. (1997), “Inducing features of random
fields”, IEEE transaction on pattern analysis and machine intelligence
models, 19(4), pp. 380-393.
13. Feng Q., Wang H, Ng H.H., Tempst P., Struhl K., Zhang Y. (2002),
“Methylation of H3-Lysine 79 is Mediated by a New Family of
HMTases without a SET Domain”, Current Biology, 12(2), pp.10521058.
14. Kouzarides T. (2002), “Histone methylation in transcriptional control”,
Curr. Opin. Genet. Dev., 12(2), pp.198-209.
15. Kurdistani S.K., Tavazoie S., and Grunstein M. (2004), “Mapping
global histone acetylation patterns to gene expression”, Cell, 117(6),
pp.721-733.
16. Lafferty L., McCallum A. and Fereia F. (2001), “Conditional Random
Fields: Probabilistic Models for Segmenting and Labelling Seqence
Data”, Proc. International Conference on Machine Learning.
17. Lee C.K., Shibata Y., Rao B., Strahl B.D, and Lieb J.D (2004),
“Evidence for nucleosome depletion at active regulatory regions
genome-wide”, Nat. Genet., 36(8), pp.900-905.
18. Luger K., Mader A.W., Richmond R.K., Sargent D.F., and Richmond
T.J. (1997), “Crystal structure of the nucleosome core particle at 2.8 A
resolution”, Nature, 389(6648), pp.251-260.
19. McCallum A. (2003), “Efficiently Inducing Features of Conditional
Random Fields”, Proc. Uncertainty in Artifical Intelligence.
20. McCallum A. and Pereira F. (2000), “Maximum Entropy Markov
Models for Information Extraction and Segmentation”, Proc.
International Conference on Machine Learning.
21. Michael J.B.,Jason D.L.(2004), “ChIP-chip: Considerstions for the
Luận văn tốt nghiệp cao học
13
Trường Đại học Công Nghệ - ĐHQGHN
design, analysis, and application of genome-wide chromatin
immunoprecipitation experiments”, Genomic (83), pp.249-360.
22. Mitchell T. (1997), Machine Learning, McGraw-Hill, Singapo.
23. Nagy P., Cleary M.L., Brown P.O. Leib J.D. (2003), “Genomewide
demarcation of RNA polymerase II transcription units revealed by
physical fractionation of chromatin”, PNAS, 100(11), pp.6364-6369.
24. Narlikar G.J., Fan H.Y., and Kingston R.E. (2002), “Cooperation
between complexes that regulate chromatin structure and
transcription”, Cell, 108(4), pp.475-487.
25. Peterson C.L., and Laniel M.A. (2004), “Histones and histone
modifications”, Curr. Biol., 14(14), pp.:546-551.
26. Pham T.H., Tran D.H., Ho T.B., Satou K. and Valiente G. (2005),
“Qualitatively predicting acetylation and methylation areas in DNA
sequences”, Genome informatics, 16(2), pp.3-11.
27. Pokholok D.K, Harbison C.T, Levine S., Cole M., Hannett N.M, Lee
T.I., Bell G.W., Walker K., Rolfe P.A., Herbolsheimer E., Zeitlinger J.,
Lewitter F., Gifford D.K., and Young R.A. (2005), “Genome-wide map
of nucleosome acetylation and methylation in yeast”, Cell, 122(4),
pp.517-527.
28. Rabiner L.R. (1989), “A tutorial on hidden markov models and selected
applications in speech recognition”, Proceedings of IEEE, pp.257-286.
29. Robert F., Pokholok D.K, Hannett N.M., Rinaldi N.J., Chandy M.,
Rolfe A., Workman J.L., Gifford D.K and Young R.A. (2004), “Global
position and recruitment of HATs and HDACs in the yeast genome”,
Mol.Cell, (16),pp.199-209.
30. Robyr D. Suka Y., Xenarios I., Kurdistani S.K., Wang A., Suka N., and
Grunstein M. (2002), “Microarray deacetylation maps determine
genome-wide functions for yeast histone deacetylaces”, Cell, 109(4),
pp.437-446.
31. Roh T.Y, Ngau W.C., Cui K., Landsman D., and Zhao K. (2004),
Luận văn tốt nghiệp cao học
14
Trường Đại học Công Nghệ - ĐHQGHN
“High-resolution genome-wide mapping of histone modifications”,
Nat. Biotechnol. (22), pp.1013-1016.
32. Schubeler D., MacAlpine D.M., Scalzo D., Wirbelauer C., Kooperberg
C. and et al. (2004), “The histone modifications patterns of active genes
revealed through genome-wide chromatin analysis of a higher
eukaryote”, Genes Dev. (18), pp.1263-1271.
33. Sha F. and Pereira F. (2003), “Shallow Parsing with Conditional
Random Fields”, Proc. International Conference on Machine Learning.
34. Tran D.H, Pham T.H., Satou K. and Ho T.B. (2006), “Conditional
Random Fields for Predicting and Analyzing Histone Occupancy,
Acetylation and Methylation Areas in DNA Sequences”, 4th European
Workshop on Evolutionary Computation and Machine Learning in
Bioinformatics, Budapest, 10-12 April, Lecture Notes in Computer
Science, LNCS 3907, Springer, pp.221-230.
35. Wallach H. (2002), Efficient Training of Conditional Random Fields,
Master thesis on Computer Science, University of Edinburgh.
36. />37. />38. />
Luận văn tốt nghiệp cao học
15