Tải bản đầy đủ (.pdf) (15 trang)

Dự đoán và phân tích các trạng thái của histone trong chuỗi DNA bằng phương pháp conditional random fields

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (330.27 KB, 15 trang )

ĐẠI HỌC QUỐC GIA HÀNỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN ĐĂNG HƯNG

DỰ ĐOÁN VÀ PHÂN TÍCH CÁC TRẠNG THÁI CỦA HISTONE TRONG
CHUỖI DNA BẰNG PHƯƠNG PHÁP CONDITIONAL RANDOM FIELDS

Chuyên ngành: Công Nghệ Thông Tin
Mã số: 1.01.10

LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC
GS.TSKH HỒ TÚ BẢO

Hà nội – Năm 2006


 Trường Đại học Công Nghệ - ĐHQGHN

MỤC LỤC
MỤC LỤC ...................................................................................................................2
LỜI CẢM ƠN .............................................................................................................5
DANH MỤC HÌNH VẼ ..............................................................................................6
DANH MỤC BẢNG ...................................................................................................7
DANH MỤC TỪ VIẾT TẮT ......................................................................................8
MỞ ĐẦU .....................................................................................................................9
CHƢƠNG 1: GIỚI THIỆU CHUNG ........................ Error! Bookmark not defined.
1.1 Các khái niệm cơ bản ...................................... Error! Bookmark not defined.
1.1.1 Tin-sinh là gì? .......................................... Error! Bookmark not defined.


1.1.2 DNA(deoxyribonucleic acid) ................... Error! Bookmark not defined.
1.1.3 RNA(ribonucleic acid) ............................. Error! Bookmark not defined.
1.1.4 Protein ...................................................... Error! Bookmark not defined.
1.2 Nucleosome ..................................................... Error! Bookmark not defined.
1.2.1 Nucleosome là gì? .................................... Error! Bookmark not defined.
1.2.2 Sự choán chỗ của nucleosome trong chuỗi DNAError! Bookmark not
defined.
1.2.3 Histone là gì?............................................ Error! Bookmark not defined.
1.2.4 Trạng thái thay đổi của Histone. .............. Error! Bookmark not defined.
1.3 Mục tiêu của luận văn ..................................... Error! Bookmark not defined.

 Luận văn tốt nghiệp cao học

2


 Trường Đại học Công Nghệ - ĐHQGHN

CHƢƠNG 2: MÔ HÌNH CONDITIONAL RANDOM FIELDError!

Bookmark

not defined.
2.1 Giới thiệu......................................................... Error! Bookmark not defined.
2.2 Mô hình Markov ẩn ......................................... Error! Bookmark not defined.
2.2.1 Giới thiệu.................................................. Error! Bookmark not defined.
2.2.2 Bài toán gán nhãn cho dữ liệu chuỗi ........ Error! Bookmark not defined.
2.2.3 Hạn chế của mô hình Generative ............. Error! Bookmark not defined.
2.3 Mô hình Maximum Entropy Markov .............. Error! Bookmark not defined.
2.3.1 Giới thiệu.................................................. Error! Bookmark not defined.

2.3.2 Vấn đề Bias .............................................. Error! Bookmark not defined.
2.4 Mô hình Condition Random Field .................. Error! Bookmark not defined.
2.4.1 Mô hình đồ thị vô hƣớng.......................... Error! Bookmark not defined.
2.4.2 Cấu trúc đồ thị của CRFs ......................... Error! Bookmark not defined.
2.4.3 Nguyên lý Maximum Entropy ................. Error! Bookmark not defined.
2.4.4 Hàm khả năng cho CRFs ......................... Error! Bookmark not defined.
2.4.5 Một số thuật toán ƣớc lƣợng tham số cho CRFsError! Bookmark not
defined.
CHƢƠNG 3: SỬ DỤNG MÔ HÌNH CRFs ĐỂ DỰ ĐOÁN SỰ CHIẾM CHỖ CỦA
NUCLEOSOME VÀ TRẠNG THÁI THAY ĐỔI CỦA HISTONE TRONG
CHUỖI DNA ............................................................ Error! Bookmark not defined.
3.1 Bài toán ........................................................... Error! Bookmark not defined.
3.1.1 Giới thiệu.................................................. Error! Bookmark not defined.
3.1.2 Phƣơng pháp thực nghiệm ....................... Error! Bookmark not defined.
3.2 Dữ liệu ............................................................. Error! Bookmark not defined.

 Luận văn tốt nghiệp cao học

3


 Trường Đại học Công Nghệ - ĐHQGHN

3.2.1 Dữ liệu thực nghiệm ................................. Error! Bookmark not defined.
3.2.2 Chuyển dữ liệu thực nghiệm về dữ liệu có nhãnError! Bookmark not
defined.
3.2.3 Huấn luyện và kiểm thử với mô hình CRFs trên dữ liệu đã chuẩn bị
........................................................................... Error! Bookmark not defined.
CHƢƠNG 4: KẾT QUẢ VÀ THẢO LUẬN ............ Error! Bookmark not defined.
4.1 Kết quả ............................................................ Error! Bookmark not defined.

4.1.1 Dự đoán sự choán chỗ của nucleosome và sự thay đổi trạng thái của
histone trong chuỗi DNA .................................. Error! Bookmark not defined.
4.1.2 Tìm các vùng trên chuỗi DNA ảnh hƣởng đến mức độ trạng thái khác
nhau của Histone ............................................... Error! Bookmark not defined.
4.2 Thảo luận ......................................................... Error! Bookmark not defined.
4.2.1 Dự đoán sự choán chỗ và các trạng thái thay đổi của histone. ........ Error!
Bookmark not defined.
4.2.2 Phân tích các vùng hữu ích của chuỗi DNA ảnh hƣởng đến các tính chất
của histone. ........................................................ Error! Bookmark not defined.
KẾT LUẬN ............................................................... Error! Bookmark not defined.
5.1 Nội dung của luận văn..................................... Error! Bookmark not defined.
5.1.1 Các kết quả đạt đƣợc ................................ Error! Bookmark not defined.
5.1.2 Một số hạn chế cần khắc phục. ................ Error! Bookmark not defined.
5.2 Công việc tiếp theo.......................................... Error! Bookmark not defined.
PUBLICATION ........................................................ Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO .........................................................................................11

 Luận văn tốt nghiệp cao học

4


 Trường Đại học Công Nghệ - ĐHQGHN

LỜI CẢM ƠN
Vui mừng khi hoàn thành luận văn, tôi không quên công ơn của các thầy cô, bạn bè
đồng nghiệp và gia đình, những người đã dạy bảo và ủng hộ tôi trong suốt quá
trình học tập.
Trước hết tôi muốn gửi lời cảm ơn đến các thầy cô giáo ở trường Đại học Công
Nghệ, Đại học Quốc gia Hà Nội và Viện Công nghệ thông tin đã quan tâm tổ chức

chỉ đạo và trực tiếp giảng dạy khóa cao học của chúng tôi. Đặc biệt tôi xin gửi lời
cảm ơn sâu sắc đến thầy giáo hướng dẫn GS.TSKH Hồ Tú Bảo, người đã tận tình
chỉ bảo và góp ý về chuyên môn cho tôi trong suốt quá trình làm luận văn. Ngoài
ra, bằng sự giúp đỡ của thầy tôi đã có cơ hội được thực tập sinh 1 năm tại Viện
Khoa học và Công nghệ tiên tiến Nhật Bản (JAIST), nơi mà tôi được tiếp cận với
môi trường nghiên cứu hiện đại và đầy đủ điều kiện để hoàn thành luận văn. Đồng
thời tôi cũng muốn gửi lời cảm ơn đến người thầy giáo cũ của tôi, TS. Phạm Thọ
Hoàn, người đã hết sức giúp đỡ tôi cả về chuyên môn và cuộc sống trong những
năm vừa qua. Tôi cũng xin chân thành cảm ơn GS. Kenji Satou, một chuyên gia
trong lĩnh vực Tin-sinh học của JAIST, đã cho tôi những góp ý quý báu trong thời
gian thực tập sinh ở JAIST.
Cũng qua đây, tôi xin chân thành cảm ơn lãnh đạo khoa Công nghệ Thông tin và
lãnh đạo trường Đại học Sư phạm Hà nội, nơi tôi công tác, đã tạo mọi điệu kiện
thuận lợi cho tôi trong thời gian làm nghiên cứu ở nước ngoài.
Cuối cùng, tôi xin cảm ơn bố mẹ, vợ và con trai, những người đã luôn ủng hộ và
động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn.
Tuy nhiên, do bản thân mới bắt đầu trên con đường nghiên cứu khoa học đầy thách
thức, chắc chắn bản luận văn vẫn còn nhiều thiếu sót. Rất mong được nhận được sự
góp ý của các thầy cô và đồng nghiệp.

 Luận văn tốt nghiệp cao học

5


 Trường Đại học Công Nghệ - ĐHQGHN

DANH MỤC HÌNH VẼ
Hình 1 Cấu trúc xoắn kép của DNA ........................................................................ 12
Hình 2 Một phân tử tRNA ....................................................................................... 14

Hình 3 Các dạng cấu trúc của protein ...................................................................... 15
Hình 4 Cấu tạo của nucleosome ............................................................................... 16
Hình 5 Cấu trúc đóng gói của chuỗi DNA tạo thành một nhiễm sắc thể ................. 17
Hình 6 Các nucleosome liên tiếp nhau đƣợc nối bởi linker DNA ........................... 18
Hình 7 Cấu tạo của histone octamer ........................................................................ 19
Hình 8 Các protein có trong nhân histone ................................................................ 20
Hình 9 Cấu trúc chi tiết của nhân histone ................................................................ 20
Hình 10 Các vị trí trên đuôi của các histone có thể đính thêm các nhóm chức ....... 22
Hình 11 Cấu trúc đồ thị của HMM bậc 1. ................. Error! Bookmark not defined.
Hình 12 Cấu trúc đồ thị của mô hình MEMM bậc 1.Error! Bookmark not defined.
Hình 13 Một ví dụ về vấn đề bias. ............................ Error! Bookmark not defined.
Hình 14 Cấu trúc đồ thị của CRFs cho trƣờng hợp chuỗi.Error!

Bookmark

not

defined.
Hình 15 Lƣợc đồ của phƣơng pháp ChIP-chip [21]. Error! Bookmark not defined.
Hình 16 Chuyển dữ liệu định lƣợng về dữ liệu định tính.Error!

Bookmark

not

defined.
Hình 17 Tạo dữ liệu có nhãn từ dữ liệu gene của loài Yeast và dữ liệu định tính.
................................................................................... Error! Bookmark not defined.
Hình 18 Biểu diễn dãy DNA dƣới dạng vector (với k = 3).Error! Bookmark not
defined.


 Luận văn tốt nghiệp cao học

6


 Trường Đại học Công Nghệ - ĐHQGHN

Hình 19 Dữ liệu đã có nhãn. Gồm vector biểu diễn chuỗi DNA và nhãn tƣơng ứng
................................................................................... Error! Bookmark not defined.
Hình 20 Biểu diễn gene thành chuỗi quan sát. p1,p2,p3,p4 là các vị trí đƣợc đo trên
gene. x1, x2, x3, x4 là các quan sát biểu diễn các đoạn DNA chứa các vị trí tƣơng
ứng. ............................................................................ Error! Bookmark not defined.

DANH MỤC BẢNG
Bảng 1 Một số kiểu trạng thái của histone. Chữ cái trong ngoặc là kí hiệu thay cho
amino acid tƣơng ứng................................................ Error! Bookmark not defined.
Bảng 2 Một số vị trí thay đổi trạng thái của histone đã biết.Error! Bookmark not
defined.
Bảng 3 Danh sách kháng thể [27]. ............................ Error! Bookmark not defined.
Bảng 4 Các trƣờng trong file dữ liệu thực nghiệm. .. Error! Bookmark not defined.
Bảng 5 Dữ liệu thực nghiệm [27].............................. Error! Bookmark not defined.
Bảng 6 Các tập dữ liệu về sự choán chỗ của histone, sự acetyl hóa ................. Error!
Bookmark not defined.
Bảng 7 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone,
với kích thƣớc của cửa sổ k = 4, k = 5 và k = 6. ....... Error! Bookmark not defined.
Bảng 8 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone,
với kích thƣớc của cửa sổ k = 7; k = 4,5 và k = 5,6. Error! Bookmark not defined.
Bảng 9 Một số feature hữu ích cho lớp positive đƣợc chọn từ mô hình CRFs, trong
trƣờng hợp k = 4 và k = 5. T.số: là trọng số của feature tƣơng ứng sau khi huấn

luyện mô hình CRFs.................................................. Error! Bookmark not defined.

 Luận văn tốt nghiệp cao học

7


 Trường Đại học Công Nghệ - ĐHQGHN

Bảng 10 Một số feature hữu ích cho lớp negative đƣợc chọn từ mô hình CRFs,
trong trƣờng hợp k = 4 và k = 5. T.số: là trọng số của feature tƣơng ứng sau khi
huấn luyện mô hình CRFs. ........................................ Error! Bookmark not defined.

 Luận văn tốt nghiệp cao học

8


 Trường Đại học Công Nghệ - ĐHQGHN

DANH MỤC TỪ VIẾT TẮT
Cụm từ viết tắt

Cụm từ chi tiết

KPDL

Khai phá dữ liệu

CRFs


Conditional Random Fields

HMM

Hidden Markov Model

MEMM

Maximum Entropy Markov Model

ME

Maximum Entropy

SVM

Support Vector Machine

 Luận văn tốt nghiệp cao học

9


 Trường Đại học Công Nghệ - ĐHQGHN

MỞ ĐẦU
Trong một vài thập niên gần đây bài toán khai phá dữ liệu đã trở thành một
trong những hƣớng nghiên cứu quan trọng trong lĩnh vực khoa học máy tính và trí
tuệ nhân tạo. Điều này dễ hiểu vì khối lƣợng dữ liệu mà con ngƣời có là rất lớn

nhƣng việc tìm ra dữ liệu có ích lại là vấn đề khó. Trƣớc đây ngƣời ta thƣờng dùng
các phƣơng pháp thực nghiệm và kinh nghiệm của con ngƣời để rút ra các tri thức
có nghĩa trong khối lƣợng dữ liệu khổng lồ. Có rất nhiều các nghiên cứu và đề xuất
đƣợc ứng dụng trong đời sống khẳng định đây là hƣớng nghiên cứu bền lâu và có ý
nghĩa thực tiễn rất lớn.
Khai phá dữ liệu đƣợc hiểu một cách đơn giản là từ những dữ liệu đang có,
bằng các phƣơng pháp tính toán khoa học trích rút ra các dữ liệu có ích đối với con
ngƣời. Các kỹ thuật chính đƣợc áp dụng chính trong lĩnh vực này đƣợc kế thừa từ
nhiều lĩnh vực khác nhau nhƣ: Cơ sở dữ liệu, học máy (machine learning), trí tuệ
nhân tạo (artificial intelligence), lý thuyết thông tin (information theory), và xác
suất thống kê (probability and statistics). Cho đến nay, các phƣơng pháp khai phá
dữ liệu đã đƣợc áp dụng trong nhiều lĩnh vực khác nhau nhƣ xử lý ngôn ngữ tự
nhiên, xử lý tiếng nói, tin-sinh học, …
Dữ liệu sinh học trên thế giới ngày càng nhiều và đa dạng, việc phân tích và
xử lý khối dữ liệu khổng lồ đó cần phải sử dụng đến các công cụ khai phá dữ liệu
hiệu quả. Vì thế, trong mấy thập niên gần đây xuất hiện một ngành khoa học mới có
tên là tin-sinh học. Dù mới ra đời nhƣng tin-sinh học có một vai trò quan trọng
trong cuộc sống, nhƣ hỗ trợ việc chẩn đoán bệnh tật, tìm ra các mối quan hệ di
truyền giữa các loài sinh vật hay phát hiện ra chức năng của các đại phân tử trong
sinh học phân tử,…
Trong khi tìm hiểu các bài toán trong lĩnh vực tin-sinh học, chúng tôi đã phát
hiện ra vị trí, cấu tạo và trạng thái của các histone trong chuỗi DNA ảnh hƣởng đến
các tiến trình sinh học trong tế bào. Đã có nhiều các nghiên cứu trƣớc đây nghiên
 Luận văn tốt nghiệp cao học

10


 Trường Đại học Công Nghệ - ĐHQGHN


cứu vấn đề này, nhƣng đều là các nghiên cứu thực nghiệm. Trong luận văn này,
chúng tôi áp dụng một phƣơng pháp tính toán để dự đoán sự choán chỗ của
nucleosome và các trạng thái thay đổi của nó trong chuỗi DNA. Chúng tôi đã sử
dụng mô hình Conditional Random Fields (CRFs), một mô hình xác suất điều kiện
đƣợc đánh giá là hiệu quả trong nhiều lĩnh vực khác nhau. Ngoài ra, dựa vào mô
hình này, chúng tôi còn phân tích đƣợc nhiều đặc trƣng quan trọng của chuỗi DNA
liên quan đến các dấu hiệu của quá trình thể hiện gene.
Ngoài phần mở đầu và kết luận, luận văn đƣợc chia làm 4 chƣơng, cụ thể nội
dung các chƣơng nhƣ sau:
Chương 1 trình bày các khái niệm chung của sinh học phân tử. Giải thích cấu tạo
cơ bản và chức năng của các đại phân tử sinh học. Mục đích của chƣơng này nhằm
làm rõ các khái kiệm liên quan đến bài toán mà luận văn đề cập.
Chương 2 giới thiệu mô hình CRFs đối với bài toán phân đoạn và gán nhãn. Trƣớc
khi trình bày định nghĩa và cấu tạo của mô hình CRFs chúng tôi đã trình bày ngắn
gọn về các mô hình trƣớc đó nhƣ mô hình Markov ẩn (HMM), mô hình Maximum
Entropy Markov (MEMM) và hạn chế của các mô hình này.
Chương 3 áp dụng mô hình CRFs vào bài toán dự đoán sự choán chỗ của
nucleosome và các trạng thái thay đổi của histone trong chuỗi DNA. Phần đầu
chƣơng trình bày nội dung của bài toán, các yêu cầu cần đạt đƣợc. Phần tiếp theo
trình bày các nghiên cứu thực nghiệm và phần cuối trình bày cách chuyển từ dữ liệu
thực nghiệm về dữ liệu có nhãn và áp dụng mô hình CRFs để huấn luyện và kiểm
thử trên các tập dữ liệu đã chuẩn bị.
Chương 4 trình bày các kết quả thu đƣợc sau khi áp dụng mô hình CRFs vào bài
toán đã mô tả trong chƣơng 3. Trong chƣơng này, chúng tôi cũng trình bày các nhận
xét và đánh giá về các kết quả so với các nghiên cứu trƣớc đây.

 Luận văn tốt nghiệp cao học

11



 Trường Đại học Công Nghệ - ĐHQGHN

TÀI LIỆU THAM KHẢO
Tiếng Việt
1.

Hồ Huỳnh Thùy Dƣơng (2003), Sinh học phân tử, NXB Giáo dục.

2.

Nguyễn Tiến Thắng, Nguyễn Đình Huyên (1998), Giáo trình sinh hóa
hiện đại, NXB Giáo dục.

Tiếng Anh
3.

Alberts B. et al. (2002), Molecular Biology of the CELL, 4th edition,
Gerland Science Publishing.

4.

Ben B., Robert F., and et al. (2000), “Genome-wide location and
function of DNA binding proteins”, Science, 290(500) , pp.2306-2309.

5.

Berger

S.L


(2002),

“Histone

modifications

in

transcriptional

regulation”, Curr. Opin. Genet. Dev., (12), pp.142-148.
6.

Bernstein B.E., Humphrey E.L., Erlich R.L and Schreiber S.L. (2002),
“Methylation of histone H3 Lys 4 in coding regions of active genes”,
Pro. Natl. Acad. Sci. USA

7.

Bernstein B.E.,Liu C.L., Humphrey E.L and Schreuber S.L. (2004),
“Global nucleosome occupancy in yeast”, Genome Biology, 5(9),R62.

8.

Boeger H., Griesenbeck J., Strattan J.S., and Kornberg R.D. (2003),
“Nucleosomes unfold completely at a transcriptionally active
promoter”, Mol.Cell 11,pp.1587-1598.

9.


Culotta A, Kulp D. and McCallum A. (2005), “Gene Prediction with
Conditional Random Fields”, Techical Report IR-443, University of
Massachusetts.

10. Darroch J. and Ratcliff D. (1972), “Generalized iterative scaling”, The
Annals of Mathematical Statistics, (43), pp.1470-1480.

 Luận văn tốt nghiệp cao học

12


 Trường Đại học Công Nghệ - ĐHQGHN

11. Deckert J. and Struhl K. (2001), “Histone acetylation at promoters is
differentially affected by specific activators and repressors”, Mol. Cell.
Biol.,( 21),pp. 2726-2735.
12. Della S., Della V., and Lafferty J. (1997), “Inducing features of random
fields”, IEEE transaction on pattern analysis and machine intelligence
models, 19(4), pp. 380-393.
13. Feng Q., Wang H, Ng H.H., Tempst P., Struhl K., Zhang Y. (2002),
“Methylation of H3-Lysine 79 is Mediated by a New Family of
HMTases without a SET Domain”, Current Biology, 12(2), pp.10521058.
14. Kouzarides T. (2002), “Histone methylation in transcriptional control”,
Curr. Opin. Genet. Dev., 12(2), pp.198-209.
15. Kurdistani S.K., Tavazoie S., and Grunstein M. (2004), “Mapping
global histone acetylation patterns to gene expression”, Cell, 117(6),
pp.721-733.
16. Lafferty L., McCallum A. and Fereia F. (2001), “Conditional Random

Fields: Probabilistic Models for Segmenting and Labelling Seqence
Data”, Proc. International Conference on Machine Learning.
17. Lee C.K., Shibata Y., Rao B., Strahl B.D, and Lieb J.D (2004),
“Evidence for nucleosome depletion at active regulatory regions
genome-wide”, Nat. Genet., 36(8), pp.900-905.
18. Luger K., Mader A.W., Richmond R.K., Sargent D.F., and Richmond
T.J. (1997), “Crystal structure of the nucleosome core particle at 2.8 A
resolution”, Nature, 389(6648), pp.251-260.
19. McCallum A. (2003), “Efficiently Inducing Features of Conditional
Random Fields”, Proc. Uncertainty in Artifical Intelligence.
20. McCallum A. and Pereira F. (2000), “Maximum Entropy Markov
Models for Information Extraction and Segmentation”, Proc.
International Conference on Machine Learning.
21. Michael J.B.,Jason D.L.(2004), “ChIP-chip: Considerstions for the

 Luận văn tốt nghiệp cao học

13


 Trường Đại học Công Nghệ - ĐHQGHN

design, analysis, and application of genome-wide chromatin
immunoprecipitation experiments”, Genomic (83), pp.249-360.
22. Mitchell T. (1997), Machine Learning, McGraw-Hill, Singapo.
23. Nagy P., Cleary M.L., Brown P.O. Leib J.D. (2003), “Genomewide
demarcation of RNA polymerase II transcription units revealed by
physical fractionation of chromatin”, PNAS, 100(11), pp.6364-6369.
24. Narlikar G.J., Fan H.Y., and Kingston R.E. (2002), “Cooperation
between complexes that regulate chromatin structure and

transcription”, Cell, 108(4), pp.475-487.
25. Peterson C.L., and Laniel M.A. (2004), “Histones and histone
modifications”, Curr. Biol., 14(14), pp.:546-551.
26. Pham T.H., Tran D.H., Ho T.B., Satou K. and Valiente G. (2005),
“Qualitatively predicting acetylation and methylation areas in DNA
sequences”, Genome informatics, 16(2), pp.3-11.
27. Pokholok D.K, Harbison C.T, Levine S., Cole M., Hannett N.M, Lee
T.I., Bell G.W., Walker K., Rolfe P.A., Herbolsheimer E., Zeitlinger J.,
Lewitter F., Gifford D.K., and Young R.A. (2005), “Genome-wide map
of nucleosome acetylation and methylation in yeast”, Cell, 122(4),
pp.517-527.
28. Rabiner L.R. (1989), “A tutorial on hidden markov models and selected
applications in speech recognition”, Proceedings of IEEE, pp.257-286.
29. Robert F., Pokholok D.K, Hannett N.M., Rinaldi N.J., Chandy M.,
Rolfe A., Workman J.L., Gifford D.K and Young R.A. (2004), “Global
position and recruitment of HATs and HDACs in the yeast genome”,
Mol.Cell, (16),pp.199-209.
30. Robyr D. Suka Y., Xenarios I., Kurdistani S.K., Wang A., Suka N., and
Grunstein M. (2002), “Microarray deacetylation maps determine
genome-wide functions for yeast histone deacetylaces”, Cell, 109(4),
pp.437-446.
31. Roh T.Y, Ngau W.C., Cui K., Landsman D., and Zhao K. (2004),

 Luận văn tốt nghiệp cao học

14


 Trường Đại học Công Nghệ - ĐHQGHN


“High-resolution genome-wide mapping of histone modifications”,
Nat. Biotechnol. (22), pp.1013-1016.
32. Schubeler D., MacAlpine D.M., Scalzo D., Wirbelauer C., Kooperberg
C. and et al. (2004), “The histone modifications patterns of active genes
revealed through genome-wide chromatin analysis of a higher
eukaryote”, Genes Dev. (18), pp.1263-1271.
33. Sha F. and Pereira F. (2003), “Shallow Parsing with Conditional
Random Fields”, Proc. International Conference on Machine Learning.
34. Tran D.H, Pham T.H., Satou K. and Ho T.B. (2006), “Conditional
Random Fields for Predicting and Analyzing Histone Occupancy,
Acetylation and Methylation Areas in DNA Sequences”, 4th European
Workshop on Evolutionary Computation and Machine Learning in
Bioinformatics, Budapest, 10-12 April, Lecture Notes in Computer
Science, LNCS 3907, Springer, pp.221-230.
35. Wallach H. (2002), Efficient Training of Conditional Random Fields,
Master thesis on Computer Science, University of Edinburgh.
36. />37. />38. />
 Luận văn tốt nghiệp cao học

15



×