#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
2
MỤC LỤC
MỤC LỤC 2
LỜI CẢM ƠN 5
DANH MỤC HÌNH VẼ 6
DANH MỤC BẢNG 7
DANH MỤC TỪ VIẾT TẮT 8
MỞ ĐẦU 9
CHƯƠNG I : GIỚI THIỆU CHUNG 11
1.1 Các khái niệm cơ bản 11
1.1.1 Tin-sinh là gì? 11
1.1.2 DNA(deoxyribonucleic acid) 12
1.1.3 RNA(ribonucleic acid) 13
1.1.4 Protein 14
1.2 Nucleosome 15
1.2.1 Nucleosome là gì? 15
1.2.2 Sự choán chỗ của nucleosome trong chuỗi DNA 18
1.2.3 Histone là gì? 19
1.2.4 Trạng thái thay đổi của Histone. 21
1.3 Mục tiêu của luận văn 23
CHƯƠNG II : MÔ HÌNH CONDITIONAL RANDOM FIELD 24
2.1 Giới thiệu 24
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
3
2.2 Mô hình Markov ẩn 26
2.2.1 Giới thiệu 26
2.2.2 Bài toán gán nhãn cho dữ liệu chuỗi 27
2.2.3 Hạn chế của mô hình Generative 28
2.3 Mô hình Maximum Entropy Markov 29
2.3.1 Giới thiệu 29
2.3.2 Vấn đề Bias 31
2.4 Mô hình Condition Random Field 33
2.4.1 Mô hình đồ thị vô hướng 33
2.4.2 Cấu trúc đồ thị của CRFs 34
2.4.3 Nguyên lý Maximum Entropy 35
2.4.4 Hàm khả năng cho CRFs 37
2.4.5 Một số thuật toán ước lượng tham số cho CRFs 38
CHƯƠNG III : SỬ DỤNG MÔ HÌNH CRFs ĐỂ DỰ ĐOÁN SỰ CHIẾM CHỖ
CỦA NUCLEOSOME VÀ TRẠNG THÁI THAY ĐỔI CỦA HISTONE TRONG
CHUỖI DNA
44
3.1 Bài toán 44
3.1.1 Giới thiệu 44
3.1.2 Phương pháp thực nghiệm 49
3.2 Dữ liệu 52
3.2.1 Dữ liệu thực nghiệm 52
3.2.2 Chuyển dữ liệu thực nghiệm về dữ liệu có nhãn 55
3.2.3 Huấn luyện và kiểm thử với mô hình CRFs trên dữ liệu đã chuẩn bị 60
CHƯƠNG IV: KẾT QUẢ VÀ THẢO LUẬN 63
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
4
4.1 Kết quả 63
4.1.1 Dự đoán sự choán chỗ của nucleosome và sự thay đổi trạng thái của
histone trong chuỗi DNA
63
4.1.2 Tìm các vùng trên chuỗi DNA ảnh hưởng đến mức độ trạng thái khác
nhau của Histone
66
4.2 Thảo luận 69
4.2.1 Dự đoán sự choán chỗ và các trạng thái thay đổi của histone. 69
4.2.2 Phân tích các vùng hữu ích của chuỗi DNA ảnh hưởng đến các tính chất
của histone
70
KẾT LUẬN 71
5.1 Nội dung của luận văn 71
5.1.1 Các kết quả đạt được 71
5.1.2 Một số hạn chế cần khắc phục. 72
5.2 Công việc tiếp theo 72
PUBLICATION 74
TÀI LIỆU THAM KHẢO 75
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
5
LỜI CẢM ƠN
Vui mừng khi hoàn thành luận văn, tôi không quên công ơn của các thầy cô, bạn bè
đồng nghiệp và gia đình, những người đã dạy bảo và ủng hộ tôi trong suốt quá
trình học tập.
Trước hết tôi muốn gửi lời cảm ơn đến các thầy cô giáo ở trường Đại học Công
Nghệ, Đại học Quốc gia Hà Nội và Viện Công nghệ thông tin đã quan tâm tổ chức
chỉ đạo và trực tiếp giả
ng dạy khóa cao học của chúng tôi. Đặc biệt tôi xin gửi lời
cảm ơn sâu sắc đến thầy giáo hướng dẫn GS.TSKH Hồ Tú Bảo, người đã tận tình
chỉ bảo và góp ý về chuyên môn cho tôi trong suốt quá trình làm luận văn. Ngoài
ra, bằng sự giúp đỡ của thầy tôi đã có cơ hội được thực tập sinh 1 năm tại Viện
Khoa học và Công nghệ tiên tiến Nhật Bản (JAIST), nơi mà tôi được tiếp cận v
ới
môi trường nghiên cứu hiện đại và đầy đủ điều kiện để hoàn thành luận văn. Đồng
thời tôi cũng muốn gửi lời cảm ơn đến người thầy giáo cũ của tôi, TS. Phạm Thọ
Hoàn, người đã hết sức giúp đỡ tôi cả về chuyên môn và cuộc sống trong những
năm vừa qua. Tôi cũng xin chân thành cảm ơn GS. Kenji Satou, một chuyên gia
trong lĩnh vực Tin-sinh học của JAIST,
đã cho tôi những góp ý quý báu trong thời
gian thực tập sinh ở JAIST.
Cũng qua đây, tôi xin chân thành cảm ơn lãnh đạo khoa Công nghệ Thông tin và
lãnh đạo trường Đại học Sư phạm Hà nội, nơi tôi công tác, đã tạo mọi điệu kiện
thuận lợi cho tôi trong thời gian làm nghiên cứu ở nước ngoài.
Cuối cùng, tôi xin cảm ơn bố mẹ, vợ và con trai, những người đã luôn ủng hộ và
động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn.
Tuy nhiên, do bản thân mới bắt đầu trên con đường nghiên cứu khoa học đầy thách
thức, chắc chắn bản luận văn vẫn còn nhiều thiếu sót. Rất mong được nhận được sự
góp ý của các thầy cô và đồng nghiệp.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
6
DANH MỤC HÌNH VẼ
Hình 1 Cấu trúc xoắn kép của DNA 12
Hình 2 Một phân tử tRNA 14
Hình 3 Các dạng cấu trúc của protein 15
Hình 4 Cấu tạo của nucleosome 16
Hình 5 Cấu trúc đóng gói của chuỗi DNA tạo thành một nhiễm sắc thể 17
Hình 6 Các nucleosome liên tiếp nhau được nối bởi linker DNA 18
Hình 7 Cấu tạo của histone octamer 19
Hình 8 Các protein có trong nhân histone 20
Hình 9 Cấu trúc chi tiết của nhân histone 20
Hình 10 Các vị trí trên đuôi của các histone có thể đính thêm các nhóm chức 22
Hình 11 Cấu trúc đồ thị của HMM bậc 1 27
Hình 12 Cấu trúc đồ thị của mô hình MEMM bậc 1. 30
Hình 13 Một ví dụ về vấn đề bias. 31
Hình 14 Cấu trúc đồ thị của CRFs cho trường hợp chuỗi 35
Hình 15 Lược đồ của phương pháp ChIP-chip [21]. 51
Hình 16 Chuyển dữ liệu định lượng về dữ liệu định tính. 56
Hình 17 Tạo dữ liệu có nhãn từ dữ liệu gene của loài Yeast và dữ liệu định tính 57
Hình 18 Biểu diễn dãy DNA dưới dạng vector (với k = 3). 58
Hình 19 Dữ liệu đã có nhãn. Gồm vector biểu diễn chuỗi DNA và nhãn tương ứng
59
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
7
Hình 20 Biểu diễn gene thành chuỗi quan sát. p
1
,p
2
,p
3
,p
4
là các vị trí được đo trên
gene. x
1
, x
2
, x
3
, x
4
là các quan sát biểu diễn các đoạn DNA chứa các vị trí tương
ứng
60
DANH MỤC BẢNG
Bảng 1 Một số kiểu trạng thái của histone. Chữ cái trong ngoặc là kí hiệu thay cho
amino acid tương ứng
46
Bảng 2 Một số vị trí thay đổi trạng thái của histone đã biết. 47
Bảng 3 Danh sách kháng thể [27]. 53
Bảng 4 Các trường trong file dữ liệu thực nghiệm. 54
Bảng 5 Dữ liệu thực nghiệm [27]. 55
Bảng 6 Các tập dữ liệu về sự choán chỗ của histone, sự acetyl hóa 60
Bảng 7 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone,
với kích thước của cửa sổ k = 4, k = 5 và k = 6
65
Bảng 8 Kết quả dự đoán khả năng choán chỗ, acetyl hóa, methyl hóa của histone,
với kích thước của cửa sổ k = 7; k = 4,5 và k = 5,6
65
Bảng 9 Một số feature hữu ích cho lớp positive được chọn từ mô hình CRFs, trong
trường hợp k = 4 và k = 5. T.số: là trọng số của feature tương ứng sau khi huấn
luyện mô hình CRFs
68
Bảng 10 Một số feature hữu ích cho lớp negative được chọn từ mô hình CRFs,
trong trường hợp k = 4 và k = 5. T.số: là trọng số của feature tương ứng sau khi
huấn luyện mô hình CRFs
69
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
8
DANH MỤC TỪ VIẾT TẮT
Cụm từ viết tắt Cụm từ chi tiết
KPDL Khai phá dữ liệu
CRFs Conditional Random Fields
HMM Hidden Markov Model
MEMM Maximum Entropy Markov Model
ME Maximum Entropy
SVM Support Vector Machine
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
9
MỞ ĐẦU
Trong một vài thập niên gần đây bài toán khai phá dữ liệu đã trở thành một
trong những hướng nghiên cứu quan trọng trong lĩnh vực khoa học máy tính và trí
tuệ nhân tạo. Điều này dễ hiểu vì khối lượng dữ liệu mà con người có là rất lớn
nhưng việc tìm ra dữ liệu có ích lại là vấn đề khó. Trước đây người ta thường dùng
các phương pháp thực nghiệm và kinh nghiệm của con người để rút ra các tri thứ
c
có nghĩa trong khối lượng dữ liệu khổng lồ. Có rất nhiều các nghiên cứu và đề xuất
được ứng dụng trong đời sống khẳng định đây là hướng nghiên cứu bền lâu và có ý
nghĩa thực tiễn rất lớn.
Khai phá dữ liệu được hiểu một cách đơn giản là từ những dữ liệu đang có,
bằng các phương pháp tính toán khoa học trích rút ra các dữ liệu có ích đối với con
ngườ
i. Các kỹ thuật chính được áp dụng chính trong lĩnh vực này được kế thừa từ
nhiều lĩnh vực khác nhau như: Cơ sở dữ liệu, học máy (machine learning), trí tuệ
nhân tạo (artificial intelligence), lý thuyết thông tin (information theory), và xác
suất thống kê (probability and statistics). Cho đến nay, các phương pháp khai phá
dữ liệu đã được áp dụng trong nhiều lĩnh vực khác nhau như xử lý ngôn ngữ tự
nhiên, xử lý tiếng nói, tin-sinh học, …
Dữ liệu sinh học trên thế giới ngày càng nhiề
u và đa dạng, việc phân tích và
xử lý khối dữ liệu khổng lồ đó cần phải sử dụng đến các công cụ khai phá dữ liệu
hiệu quả. Vì thế, trong mấy thập niên gần đây xuất hiện một ngành khoa học mới có
tên là tin-sinh học. Dù mới ra đời nhưng tin-sinh học có một vai trò quan trọng
trong cuộc sống, như hỗ trợ việc chẩn đoán bệnh tật, tìm ra các mối quan h
ệ di
truyền giữa các loài sinh vật hay phát hiện ra chức năng của các đại phân tử trong
sinh học phân tử,…
Trong khi tìm hiểu các bài toán trong lĩnh vực tin-sinh học, chúng tôi đã phát
hiện ra vị trí, cấu tạo và trạng thái của các histone trong chuỗi DNA ảnh hưởng đến
các tiến trình sinh học trong tế bào. Đã có nhiều các nghiên cứu trước đây nghiên
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
10
cứu vấn đề này, nhưng đều là các nghiên cứu thực nghiệm. Trong luận văn này,
chúng tôi áp dụng một phương pháp tính toán để dự đoán sự choán chỗ của
nucleosome và các trạng thái thay đổi của nó trong chuỗi DNA. Chúng tôi đã sử
dụng mô hình Conditional Random Fields (CRFs), một mô hình xác suất điều kiện
được đánh giá là hiệu quả trong nhiều lĩnh vực khác nhau. Ngoài ra, dựa vào mô
hình này, chúng tôi còn phân tích được nhiều đặc trưng quan trọng của chuỗi DNA
liên quan đến các d
ấu hiệu của quá trình thể hiện gene.
Ngoài phần mở đầu và kết luận, luận văn được chia làm 4 chương, cụ thể nội
dung các chương như sau:
Chương I trình bày các khái niệm chung của sinh học phân tử. Giải thích cấu tạo cơ
bản và chức năng của các đại phân tử sinh học. Mục đích của chương này nhằm làm
rõ các khái kiệm liên quan đến bài toán mà luận văn đề cập.
Chương II
giới thiệu mô hình CRFs đối với bài toán phân đoạn và gán nhãn. Trước
khi trình bày định nghĩa và cấu tạo của mô hình CRFs chúng tôi đã trình bày ngắn
gọn về các mô hình trước đó như mô hình Markov ẩn (HMM), mô hình Maximum
Entropy Markov (MEMM) và hạn chế của các mô hình này.
Chương III áp dụng mô hình CRFs vào bài toán dự đoán sự choán chỗ của
nucleosome và các trạng thái thay đổi của histone trong chuỗi DNA. Phần đầu
chương trình bày nội dung của bài toán, các yêu cầu cần đạt được. Phần tiếp theo
trình bày các nghiên cứ
u thực nghiệm và phần cuối trình bày cách chuyển từ dữ liệu
thực nghiệm về dữ liệu có nhãn và áp dụng mô hình CRFs để huấn luyện và kiểm
thử trên các tập dữ liệu đã chuẩn bị.
Chương IV trình bày các kết quả thu được sau khi áp dụng mô hình CRFs vào bài
toán đã mô tả trong chương III. Trong chương này, chúng tôi cũng trình bày các
nhận xét và đánh giá về các kết quả so với các nghiên cứu trước đây.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
11
CHƯƠNG I : GIỚI THIỆU CHUNG
Các đại phân tử sinh học như DNA, RNA, protein, và tương tác giữa chúng là đối
tượng nghiên cứu cơ bản của sinh học phân tử. Việc xác định được cấu tạo và chức
năng của chúng sẽ giúp chúng ta hiểu được các cơ chế diễn ra trong tế bào, cũng
như sự di truyền các đặc tính từ đời này sang đời khác. Mục đích của chương là
cung cấp một số khái niệm cơ bản trong sinh họ
c phân tử và chức năng của chúng.
1.1 Các khái niệm cơ bản
1.1.1 Tin-sinh là gì?
Tin-sinh (bioinformatics) là một ngành khoa học liên ngành, bao gồm sinh
học, toán học và tin học. Đối tượng nghiên cứu chính của tin-sinh là các đại phân tử
sinh học và các tiến trình sinh học giữa chúng. Nhiệm vụ của các nhà nghiên cứu
trong lĩnh vực tin-sinh là xây dựng và phát triển các thụât toán, chương trình nhằm
mô phỏng các tiến trình sinh hóa và phân tích dữ liệu của sinh học phân tử.
Các đại phân tử sinh học là protein, nucleic acid, lipid và polysaccaride, trong
đó quan trọng hơn cả là nucleic acid lưu trữ thông tin di truyền và protein - biểu
hiện củ
a vật chất sống. Protein được hình thành từ 20 loại amino acid, có cấu trúc
không gian đặc trưng. Chức năng của protein rất đa dạng: tham gia vào cấu tạo tế
bào, xúc tác các phản ứng chuyển hóa, nhận biết các phân tử lạ, tham gia vào các
quá trình sống như actin và myosin trong sự vận động cơ. Nucleic acid được hình
thành từ 4 loại nucleotide (adenine, thymine, cytosine, và guanine) và gồm hai loại:
DNA và RNA. Phân tử DNA là một chuối xoắn kép do sự kết hợp của hai mạch bổ
sung. RNA là mộ
t phân tử mạch đơn, gồm ba loại: mRNA mang thông tin mã hóa
cho protein, rRNA là một thành phần của ribosome và tRNA tham gia vào quá trình
dịch mã. Trong phần này chúng tôi giới thiệu tổng quan về một số đối tượng nghiên
cứu của tin-sinh.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
12
1.1.2 DNA(deoxyribonucleic acid)
Phân tử DNA là một chuỗi xoắn kép gồm hai mạch đơn, mỗi mạch đơn là một
chuỗi nucleotide. Mỗi nucleotide gồm có nhóm phosphate, đường desoxyribose và
một trong bốn base (adenine - A, cytosine - C, guanine - G và thymine - T). Hai
mạch đơn kết hợp với nhau nhờ các liên kết hydro hình thành giữa các base bổ sung
nằm trên hai mạch. A bổ sung cho T và C bổ sung cho G. Mỗi mạch đơn là một
trình tự có định hướng với một đầu là 5’phosphate tự do, đầu kia là đầu 3’hydroxyl
tự do (hướng quy ước là 5’->3’). Hướ
ng mạch đơn của hai chuỗi xoắn kép là ngược
nhau, người ta gọi chúng là hai mạch đối song song. Mỗi mạch đơn có một trình tự
những base khác nhau, như vậy mỗi mạch đơn mang thông tin khác với mạch kia.
Hai mạch đơn liên kết với nhau bởi một quan hệ bổ sung. Quan hệ này giải thích
được cấu trúc chặt chẽ của phân tử DNA và đặc biệt là phương cách tự sao chép để
tạo ra hai phân tử con từ một phân t
ử mẹ. Hình 1 chỉ ra cấu trúc của nucleotide và
cấu trúc xoắn kép của chuỗi DNA.
Phân tử DNA lưu trữ thông tin di truyền và truyền đạt trung thực các thông tin
này cho thế hệ sau thông qua quá trình sao chép và sửa sai. Mặt khác, các thông tin
Hình 1 Cấu trúc xoắn kép của DNA.
Cấu trúc xoắn kép của DNA được
phát hiện năm 1953 bởi James
Watson và Francis Crick. Chuỗi
DNA được tạo thành từ 4 loại
nucleotide liên kết với nhau tạo
thành chuỗi polynucleotide. Mỗi sợi
DNA gồm 2 sợi đơn (strand) bổ
sung cho nhau bằng các liên kết
hydro giữa các cặp base.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
13
mã hóa trong DNA cũng sẽ được biểu hiện thông qua cơ chế phiên mã
(transcription) tạo thành RNA và sau đó RNA được dịch mã (translation) thành
protein. Sự biến đổi của vật chất di truyền trong cả ba quá trình sao chép
(replication), phiên mã và dịch mã chính là nguồn gốc của sự tiến hóa và tính đa
dạng của các loài sinh vật.
Phân tử DNA trong nhiễm sắc thể (chromosome) của sinh vật eucaryote có
dạng thẳng, còn ở phần lớn tế bào procaryote phân tử này có dạng vòng. Tuy nhiên
dù ở dạng nào thì các DNA đều ở
dạng cuộn chặt. DNA của eucaryote có kích
thước rất lớn (ví dụ: ở người DNA có thể dài đến 1m) mà DNA lại nằm trong nhân
của tế bào với kích thước rất nhỏ, nên các chuỗi DNA được nén với nhiều mức độ
khác nhau, mức độ thấp nhất là nucleosome và mức độ cao nhất là nhiễm sắc chất
(chromatin).
1.1.3 RNA(ribonucleic acid)
Phân tử RNA có cấu trúc giống với DNA nhưng có một số điểm khác biệt so
với DNA. Phân tử RNA luôn là chuỗi đơn, vẫn có 4 loại base như DNA nhưng T
được thay thế bằng U (uracil). Trong tế bào có 3 loại RNA chính, với các vai trò
khác nhau.
RNA thông tin (mRNA) là bản sao của những trình tự nhất định trên phân tử
DNA đóng vai trò trung gian chuyển thông tin mã hóa trên phân tử DNA đến bộ
máy giải mã thành phân tử protein tương ứng. Các mRNA có cấu trúc đa dạng, kích
thước nhỏ hơn so với DNA vì ch
ỉ chứa thông tin mã hóa cho một hoặc vài protein,
mRNA chiếm khoảng 2-5% tổng số RNA trong tế bào.
RNA vận chuyển (tRNA) đóng vai trò vận chuyển các amino acid cần thiết
đến bộ máy dịch mã để tổng hợp protein từ mRNA tương ứng. Các tRNA có cấu
trúc ổn định nhờ các liên kết bổ sung có ở nhiều vùng của phân tử tRNA. Hai vị trí
không có liên kết bổ sung đóng vai trò đặc biệt quan trọng đối với chức năng của
tRNA. Một là tình t
ự anticodon gồm 3 nucleotide bổ sung cho codon (tức bộ ba
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
14
nucleotide mã hóa trên mRNA). Hai là trình tự CCA có khả năng nối cộng hóa trị
với một amino acid đặc trưng (hình 2).
Ribosome RNA (rRNA) chiếm đến 80% tổng số RNA của tế bào. Các rRNA
kết hợp với các protein chuyên biệt tạo thành ribosome (một thành phần của bộ máy
dịch mã của tế bào). Ribosome của mọi tế bào đều gồm một tiểu đơn vị nhỏ và một
tiểu đơn vị lớn, mỗi tiểu đơn vị có mang nhiề
u protein và rRNA.
1.1.4 Protein
Amino acid là đơn vị cơ sở cấu thành protein, có khoảng 20 loại amino acid
chính tham gia xây dựng thành protein. Các amino acid được nối với nhau bởi các
liên kết peptide. Liên kết này được hình thành do sự kết hợp nhóm amine của một
amino acid với nhóm carboxyl của amino acid kế tiếp. Peptide là một chuỗi nối tiếp
nhiều amino acid (nhỏ hơn 30), còn với số lượng lớn hơn thì gọi là polypeptide. Từ
"protein" được dùng để chỉ một cấu trúc phức tạp trong không gian chứ không chỉ
đơ
n thuần là trình tự các amino acid. Protein có bốn mức độ tổ chức: Cấu trúc bậc 1
(primary protein structure): là trình tự sắp xếp các amino acid trong chuỗi
polypeptide. Cấu trúc bậc 2 (secondary protein structure): phát sinh từ việc uốn các
phần của chuỗi polypeptide thành những cấu trúc đều đặn trong không gian (dạng
xoắn α, hay dạng lớp mỏng β). Cấu trúc bậc 3 (tertiary protein structure): quy định
sự kết hợp các chuỗi xoắn hay lớp mỏng đó thành hình dạng ba chiều trong không
Hình 2 Một phân tử
tRNA. (A) Cấu trúc
dạng cỏ ba lá. (B,C) Góc
nhìn thực khi sử dụng
phân tích nhiễu xạ tia x.
(D) Chuỗi nucleotide
dạng thẳng của phân tử
tRNA.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
15
gian. Cấu trúc bậc 4 (quarternary protein structure): là sự tổ chức nhiều chuỗi
polypeptide thành một phân tử protein.
Protein có vai trò rất lớn đối với cơ thể sống. Nó tham gia vào hầu hết các quá
trình sinh học. Protein đóng vai trò là các enzyme làm chất xúc tác trong hầu hết các
phản ứng hóa học trong hệ thống sống, nhận biết các lọai phân tử khác nhau, chịu
trách nhiệm về sự vận động của động vật ở mức tế bào và cơ thể.
1.2 Nucleosome
1.2.1 Nucleosome là gì?
DNA trong nhân tế bào của các loài eucaryote được chia vào trong một tập
hợp gồm các nhiễm sắc thể (chromosome) khác nhau. Chẳng hạn ở người có 23 cặp
nhiễm sắc thể. Mỗi nhiễm sắc thể bao gồm một sợi DNA rất dài kết hợp với một số
protein rồi cuộn tròn và đóng gói lại thành một cấu trúc phức hợp gọi là nhiễm sắc
chất, tập hợp các nhiễm sắc chất này liên k
ết lại với nhau theo một trình tự tạo thành
một nhiễm sắc thể.
Hình 3 Các dạng cấu trúc của
protein. Cấu trúc không gian của
protein rất phức tạp, việc tìm ra
cấu trúc không gian của protein
là một vấn đề khó và nhiều thách
thức. Từ cấu trúc không gian của
protein có thể cho chúng ta biết
về chức năng của nó trong các
tiến trình sinh học.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
16
Mặc dù DNA của các loài prokaryote cũng chứa đựng các thông tin di truyền
và DNA của nó cũng được đóng gói lại thành các nhiễm sắc thể. Nhưng vai trò và
chức năng của các protein tạo phức hợp với chuỗi DNA có nhiều điểm khác so với
các protein trong nhiễm sắc thể của loài eucaryote. Cho đến nay thì sự hiểu biết về
nhiễm sắc thể của loài này còn rất ít. Nên khi nói đến cấu trúc của nhiểm sắc thể thì
đều
được hiểu là cấu trúc của nhiễm sắc thể của loài eucaryote.
Nucleosome được hiểu là một tiểu đơn vị của nhiễm sắc chất, cấu tạo của nó
bao gồm một đoạn ngắn DNA (khoảng 146-147 nucleotide) quấn quanh một nhân
gồm tám protein (nhân này được gọi là histone octamer) và một histone khác gọi là
H1 histone, histone này có nhiệm vụ gắn chặt sợi DNA với histone octamer. Hình 4
cho thấy cấu tạo chi tiết của một nucleosome.
Hệ gene của con người gồm khoảng 3 tỉ cặp nucleotide và được tổ chức thành
23 cặp nhiễm sắc thể. Như vậy, nếu duỗi thẳng ra thì chiều dài của chuỗi DNA chứa
trong mỗi nhiễm sắc thể là khoảng 1.7cm đến 8.5cm [
3], so với kích thước của một
tế bào thì điều này là không thể, nên theo một cách tự nhiên các chuỗi DNA trong tế
bào được tổ chức dưới các dạng cấu trúc đóng gói với nhiều mức độ khác nhau.
Hình 5 cung cấp cho chúng ta một cách nhìn toàn diện về các mức độ đóng gói của
chuỗi DNA trong tế bào. Mức cao nhất là nhiễm sắc thể và mức thấp nhất là
Hình 4 Cấu tạo của nucleosome.
Sợi màu đỏ quấn quanh là DNA,
nhân gồm 8 protein màu đen
được gọi là histone octamer và
sợi màu xanh là H1 histone.
Đường kính của nucleosome là
khoảng 11nm.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
17
nucleosome. Hình ảnh về mức thấp hơn được phóng đại bằng cách trích một tiểu
đơn vị trong mức cao.
Như vậy, nucleosome gồm có hai thành phần chính là một nhân gồm 8 protein
gọi là histone octamer và một đoạn ngắn chuỗi xoắn kép DNA bao quanh (Hình 6).
Các nucleosome liên tiếp nhau được liên kết bởi các đoạn DNA (gọi là linker
DNA). Như vậy nếu coi nhiễm sắc thể bao gồm tập hợp các nucleosome liên kết với
nhau thì mỗi nucleosome có khoảng 200 cặp nucleotide.
Hình 5 Cấu trúc đóng gói của
chuỗi DNA tạo thành một nhiễm
sắc thể. Mức 1: chuỗi xoắn kép
DNA. Mức 2: chuỗi DNA quấn
quanh nhân histone tạo thành
nucleosome. Mức 3: chuỗi liên
tiếp các nucleosome tạo thành
nhiễm sắc chất. Mức 4: các đơn
vị nhiễm sắc chất quấn lại theo
cùng một khuôn dạng để tạo
thành nhiễm sắc thể.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
18
1.2.2 Sự choán chỗ của nucleosome trong chuỗi DNA
Việc xác định vị trí các nucleosome trong chuỗi lớn DNA là một việc khó và
có nhiều thách thức. Cho đến nay người ta vẫn chưa có phương pháp chính xác để
các định các vị trí của nucleosome trong một chuỗi DNA. Vì mật độ các
nucleosome là không đồng đều. Có đoạn thì nucleosome xuất hiện với mức độ dày,
có đoạn thì lại xuất hiện với mật độ thưa, và khoảng cách giữa các nucleosome cũng
không cố định mà dài ngắn khác nhau. Nguyên nhân của sự
không đều thì có nhiều,
nhưng chủ yếu là do khả năng quấn vòng quanh của chính các chuỗi DNA và sự
ảnh hưởng của các nhân tố bên ngoài lên chuỗi DNA. Sự choán chỗ của các
nucleosome được hiểu là sự xuất hiện hiện tượng quấn quanh nhân histone của đoạn
DNA. Giữa hai nucleosome liên tiếp có một đoạn nối khoảng từ 10-80 nucleotide
gọi là DNA-linker. Bằng phương pháp thực nghiệm, các nhà sinh học cũng đã đưa
ra các con số
đo mức độ xuất hiện của nucleosome trên từng vùng của chuỗi DNA.
Tuy nhiên mức độ chính xác của các nghiên cứu này cũng chưa cao [
27,14,17].
Hình 6 Các nucleosome liên tiếp nhau
được nối bởi linker DNA. Hình màu
vàng là nhân histone octamer với
đường kính 11nm, sợi màu đỏ là chuỗi
DNA gồm 146 cặp nucleotide quấn
quanh histone hai vòng.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
19
1.2.3 Histone là gì?
Trong phần trước chúng ta đã nhắc đến khái niệm histone khi nói về cấu tạo
của nucleosome. Trong phần này chúng ta sẽ tìm hiểu về cấu tạo và vai trò của nó
đối với các tiến trình sinh học. Histone là một tập hợp gồm các protein kiềm nhỏ
cùng một họ hàng và có thứ tự amino acid rất bảo thủ [
2]. Trong cấu trúc của
nucleosome gồm có hai loại histone. Một là nhân gồm 8 protein tạo thành histone
octamer và một protein giàu Lys (histone H1) gắn vào sợi DNA. Việc gắn H1 vào
sợi DNA phụ thuộc vào tích điện âm mạnh của nucleic acid và tích điện dương của
protein. Tuy nhiên trong luận văn này chúng tôi tập trung vào tìm hiểu histone
octamer. Từ đây về sau nói đến histone sẽ ngầm hiểu là histone octamer. Hình 7 chỉ
ra cấu tạo của histone octamer.
Mỗi nhân histone bao gồm 8 phân tử protein của 4 loại histone H2A, histone
H2B, histone H3 và histone H4, mỗi loại có 2 phân tử. Cả 4 loại protein tạo nên
nhân histone đều là các protein loại nhỏ chỉ gồm khoảng từ 102-135 amino acid,
giàu lysin và arginine, và có chung một khuôn dạng (motif) cấu trúc (hình 8) [
3].
Hình 7 Cấu tạo của histone
octamer.
Gồm 8 protein, 2 H2A,
2 H2B, 2 H3 và 2 H4.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
20
Cụ thể, nhân của histone được cấu tạo như sau: H3 và H4 bắt cặp với nhau
theo một tương tác kiểu “bắt tay” tạo thành một phức hợp gọi là H3-H4 dimer, H2A
và H2B bắt cặp với nhau tạo thành một phức hợp H2A-H2B dimer, rồi hai phân tử
H3-H4 dimer kết hợp với nhau tạo thành H3-H4 tetramer. Cuối cùng phân tử H3-
H4 tetramer kết hợp với 2 phân tử H2A-H2B tạo thành nhân histone octamer. Hình
9 chỉ ra sự kết hợp của các protein tạo thành nhân histone.
Hình 8 Các protein có trong nhân
histone.
(A) Mỗi protein trong nhân gồm
có 2 phần, phía N được gọi là đuôi, phần
này sẽ “thò” ra ngoài khỏi nhân histone và
phần thứ hai, phía C, nằm trong nhân
histone. (B) Cấu trúc cuộn của các protein
trong nhân histone. (C) H2A và H2B tạo
thành một dimer thông qua một tương tác
kiểu như “bắt tay”.
Hình 9 Cấu trúc chi
tiết của nhân histone
.
H3-H4 dimer và H2A-
H2B dimer được tạo thành
từ tương tác kiểu “bắt tay”.
H3-H4 tetramer tạo thành
một phức hợp kiểu giàn
giáo với 2 phân tử H2A-
H2B dimer để tạo thành
nhân histone. Các đầu N
đều “thò” ra ngoài.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
21
Mối quan hệ giữa DNA và nhân histone rất chặt chẽ, có khoảng 142 liên kết
hydro hình thành giữa DNA và nhân histone trong mỗi nucleosome. Gần một nửa
số đó là liên kết giữa amino acid của histone và nucleotide của DNA. Các liên kết
này giữ cho DNA và nhân histone tạo thành nucleosome.
Một điểm đặc biệt là các protein có trong nhân histone đều chia làm hai phần,
phía đầu N tương đối dài và được thò ra ngoài nhân histone (tạm gọi là các đuôi của
histone) và phần còn lại (đầu C) được đóng gói trong nhân histone (hình 9). Các
đuôi của histone có vai trò quan trọng đối với c
ấu trúc của histone, vì đây là đối
tượng dễ bị thay đổi khi có các nhóm chức khác “đính” thêm vào các amino acid, sự
biến đổi này có thể là acetyl hóa, methyl hóa hoặc phosphory hóa. Trong phần sau
chúng ta sẽ thảo luận chi tiết hơn vì đây là các đối tượng nghiên cứu chính của luận
văn.
1.2.4 Trạng thái thay đổi của Histone.
Trong các nghiên cứu gần đây người ta phát hiện ra rằng: trạng thái thay đổi
của histone (histone modification) có vai trò quan trọng đối với quá trình điều chỉnh
và sao chép gene [
4,5,6,14,15,17,27]. Sự thay đổi trạng thái của histone xảy ra trên
các phần đuôi thò ra ngoài của các histone H3, H4, H2A, H2B khi có thêm một
hoặc nhiều nhóm chức đính thêm (hoặc rời đi) vào các amino acid. Việc đính thêm
(rời đi) được thực hiện bởi các enzim có trong nhân tế bào. Chẳng hạn nhóm acetyl
được đính thêm vào các vị trí có amino acid lysine bởi enzim có tên là histone
acetyl transferaza (HATs). Cho đến nay người ta phát hiện ra bốn loại nhóm chức
làm thay đổi trạng thái của histone là acetyl, methyl, phosphoryl, ubiquitin và
sumoyl. Tuy nhiên, các nhóm này chỉ tác động đến một số loại amino acid, nh
ư
nhóm acetyl thì tác động đến lysine (K), nhóm methyl thì tác động đến lysine và
arginine (R), nhóm phosphoryl thì tác động đến serine (S),…Mỗi amino acid lysine
có thể tiếp nhận không chỉ một mà có thể hai hoặc ba nhóm methyl [
3]. Hình 10
minh họa các vị trí khác nhau trên đuôi của các histone nơi mà các nhóm chức có
thể đính thêm.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
22
Hàng năm người ta vẫn đưa ra thêm các vị trí mới được phát hiện, điều này
chứng tỏ hầu như tất cả các vị trí trên đuôi của các histone H3, H4, H2A, H2B đều
có khả năng bị thay đổi bởi các enzim có trong nhân. Hai sự thay đổi được nghiên
cứu nhiều nhất là acetyl hóa (acetylation) và methyl hóa (methylation).
Các nghiên cứu gần đây chỉ ra rằng có một mối liên hệ giữa mức độ thay đổi
trạng thái của histone và các họat động của gene, nhất là trong việc duy trì các đặc
tính di truyền. Tại vùng các promoter (promoter là một đoạn ngắn trên chuỗi DNA
mà tại đó các protein đính với chuỗi DNA để bắt đầu của quá trình phiên mã DNA
thành RNA) và các vùng mã hóa (coding regions) luôn có mối quan hệ tương quan
với sự acetyl hóa, methyl hóa của histone.
Mặc dù các nghiên cứu về trạng thái thay
đổi của histone được bắt đầu từ cách
đây 40 năm nhưng cho đến nay các kết quả vẫn còn chưa được thống nhất [
27]. Sự
hiểu biết của chúng ta về acetyl hóa và methyl hóa thì tương đối rõ ràng, còn một số
sự thay đổi khác (như phốt pho hóa, ) thì vẫn còn hạn chế. Trong luận văn này
chúng tôi cũng chỉ nghiên cứu trên các dữ liệu về acetyl hóa và methyl hóa của
histone.
Hình 10 Các vị trí trên đuôi
của các histone có thể đính
thêm các nhóm chức.
Ac = nhóm
Acetyl, Me = nhóm Methyl, P = nhóm
Phosphotyl, u = nhóm ubiquitin. Ac:
H2BK5, H2BK12, H2BK15, H2BK20,
H3K9, H3K14,…Me: H3K9
, H3K27,
H4K20. P: H3S10, H3S28, H4S1. u:
H2BK120.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
23
1.3 Mục tiêu của luận văn
Trong luận văn này, chúng tôi sẽ áp dụng phương pháp tính toán vào bài toán
dự đoán sự choán chỗ và trạng thái thay đổi của histone trong chuỗi DNA. Có khá
nhiều các nghiên cứu trước đây nghiên cứu vấn đề này [
4,6,7,11,14,17,18,27].
Nhưng hầu như các nghiên cứu này đều là nghiên cứu thực nghiệm, và kết quả của
các nghiên cứu nhiều khi chưa đồng nhất [
27]. Nghiên cứu của chúng tôi sẽ dựa trên
dữ liệu thực nghiệm của nhóm Pokholok et al.[
27]. Công trình của nhóm này được
công bố trên tạp chí Cell ngày 26/08/2005.
Từ dữ liệu định lượng của nhóm Pokholok et al. chúng tôi sẽ chuyển về dạng
dữ liệu định tính, và phát biểu bài toán dưới dạng bài toán gán nhãn cho các đối
tượng, sau đó áp dụng các mô hình tính toán vào việc dự đoán.
Conditional Random Fields (CRFs) là một mô hình xác suất điều kiện áp dụng
vào các bài toán gán nhãn cho dữ liệu dạng chuỗi. Mô hình này được John Lafferty
đề xuất năm 2001 [
16]. Mô hình này hiệu quả hơn các mô hình trước đó như
HMMs [
28], MEMMs [20]. Trong luận văn này chúng tôi đặt ra hai mục tiêu cụ
thể: (1) Xây dựng một mô hình CRFs áp dụng vào bài toán dự đoán sự choán chỗ
của nucleosome (thể hiện qua sự choán chỗ của histone H3, H4) và trạng thái thay
đối của histone (acetyl hóa, methyl hóa) trong chuỗi DNA của loài Yeast. (2) Tìm ra
các đặc trưng quan trọng của chuỗi DNA liên quan đến các vị trí mà tại đó sự choán
chỗ của histone và trạng thái thay đổi của histone ở mức cao và mức thấp bằng cách
dựa vào trọng số c
ủa các đặc trưng của dữ liệu sau khi huấn luyện dữ liệu với mô
hình CRFs đã xây dựng.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
24
CHƯƠNG II : MÔ HÌNH CONDITIONAL RANDOM FIELD
Phân đọan và gán nhãn là các bài toán xuất hiện trong nhiều lĩnh vực khác nhau.
Có nhiều mô hình toán học được sử dụng để giải loại bài toán này, trong đó mô
hình Markov ẩn được dùng khá phổ biến. Tuy nhiên, mô hình Markov ẩn và một số
mô hình xác suất khác vẫn bộc lộ những hạn chế nhất định. Gần đây, mô hình CRFs
được giới thiệu và áp dụng khá thành công trong các lĩnh vực như xử lý ngôn ngữ
tự nhiên, xử lý tiếng nói, tin-sinh học,…Trong chương này chúng tôi giớ
i thiệu định
nghĩa, cấu tạo và một số thuật toán ước lượng tham số cho mô hình CRFs.
2.1 Giới thiệu
Bài toán phân đoạn (segmenting) và gán nhãn (labeling) cho các chuỗi dữ liệu
là một bài toán xuất hiện trong nhiều lĩnh vực, bao gồm tin-sinh học, xử lý ngôn
ngữ, xử lý tiếng nói, vv.
Mô hình Markov ẩn (Hidden Markov Model-HMM)[
28] được dùng rộng rãi
và thành công trong loại bài toán này. HMM thuộc lớp mô hình generative, mô hình
này sử dụng một xác suất liên kết (joint probability) p(x,y) để ghép đôi một chuỗi
quan sát (observation sequence) và một chuỗi nhãn (label sequence). Để định nghĩa
được một xác suất liên kết thì các mô hình generative phải liệt kê (enumrate) toàn
bộ các khả năng có thể của chuỗi quan sát. Nhưng trong thực tế thì đây là một bài
toán khó trong hầu hết các lĩnh vực trừ phi các phần tử quan sát được biểu diễn nh
ư
các đơn vị riêng rẽ, độc lập (independent) giữa các phần tử trong cùng một tập,
nhưng trong thực tế thì hầu hết các chuỗi quan sát đều tồn tại trong một mối quan hệ
giữa các phần tử hoặc là phụ thuộc long-range giữa các phần tử trong chuỗi quan
sát.
Vấn đề biểu diễn dữ liệu cũng là một trong những vấn đề cơ bản khi gán nhãn
chuỗi dữ
liệu. Ngoài việc yêu cầu mô hình dễ dàng suy luận chúng ta rất cần một
mô hình mà không có các ràng buộc về tính độc lập của dữ liệu. Có một cách thỏa
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
25
mãn cả hai điều kiện trên là sử dụng một mô hình được định nghĩa bằng xác suất
điều kiện (conditional probability) trên một chuỗi nhãn và một chuỗi quan sát đã
cho. Mô hình xác suất điều kiện được sử dụng để gán nhãn cho một chuỗi x bằng
cách chọn chuỗi nhãn y sao cho thu được cực đại xác suất điều kiện p(y|x).
Một số mô hình xác suất điều kiệ
n gần đây đã được xây dựng để thay thế cho
các mô hình generative trong các bài toán gán nhãn. Một trong số đó là các mô hình
lọai non-generative Markov, trong khi một số mô hình khác lại dựa trên phân bố
xác suất đơn thay cho xác suất liên kết của một chuỗi nhãn trên một dãy quan sát.
Nhưng các mô hình loại non-generative đều có chung một điểm yếu là mắc
phải vấn đề label bias (label bias problem). Chi tiết về vấn đề này được thảo luận
trong phần sau khi nói đến mô hình MEMM.
Để tận d
ụng được những lợi ích của việc sử dụng được xác suất điều kiện cho
bài toán gán nhãn và đồng thời vượt qua được vấn đề bias, Lafferty đã đề xuất mô
hình Conditional Random Field (CRFs). Đây là một dạng mô hình sử dụng đồ thị
vô hướng định nghĩa một phân bố log-linear cho xác suất liên kết của một chuỗi
nhãn trên chuỗi quan sát đã cho. CRFs được đánh giá là tốt hơn mô hình HMM và
MEMM [
16,33,35].
Trong bài báo của mình Jonh Lafferty và các đồng nghiệp của ông cũng đã
đưa ra hai thuật toán để ước lượng các tham số cho CRFs. Các thuật toán này dựa
trên các kỹ thuật của việc ước lượng các tham số cho mô hình cực đại entropy log-
linear. Một thuật toán có tên là improved iterative scaling (IIS) và thuật toán kia là
generalised iterative scaling (GIS). Tuy nhiên, cả hai thuật toán này đều có nhược
điểm là chậm [
35], có thể sau nhiều vòng lặp mới đạt được sự hội tụ của hàm mục
tiêu. Kể từ thời điểm mô hình được giới thiệu đã có rất nhiều tác giả đã tìm cách cải
tiến thuật toán ước lượng tham số cho CRFs [
19,33,35].
Trong chương này chúng tôi giới thiệu cơ bản về các mô hình HMM, MEMM
và các hạn chế mà các mô hình này mắc phải. Tiếp theo là giới thiệu mô hình CRFs
và một số thuật toán ước lượng tham số cho bài toán huấn luyện (training) mô hình.
#
Trường Đại học Công Nghệ - ĐHQGHN
#
Luận văn tốt nghiệp cao học
26
2.2 Mô hình Markov ẩn
2.2.1 Giới thiệu
Mô hình Markov ẩn đã được áp dụng thành công trong nhiều bài toán gán
nhãn như phân tích từ vựng, nhận dạng tiếng nói và phân tích chuỗi gene
[
16,28,33]. HMM là một mô hình xác suất hữu hạn trạng thái theo kiểu phát sinh
tiến trình bằng cách định nghĩa xác suất liên kết trên các chuỗi quan sát và chuỗi
nhãn. Mỗi chuỗi nhãn coi như được sinh ra (generated) bởi một chuỗi các phép
chuyển trạng thái, bắt đầu từ trạng thái khởi đầu cho đến khi thu được trạng thái kết
thúc. Tại mỗi trạng thái thì một phần tử của chuỗi quan sát được coi như phát sinh
ngẫu nhiên trước khi chuyển sang trạng thái tiế
p theo. Các trạng thái của HMM
được coi như là ẩn bên trong mô hình vì tại mỗi thời điểm chúng ta chỉ nhìn thấy
các kí hiệu quan sát còn các trạng thái cũng như sự chuyển đổi trạng thái được vận
hành ẩn bên trong mô hình.
Định nghĩa HMM đầy đủ bao gồm các thành phần sau:
Tập hữu hạn trạng thái S.
Tập hữu hạn kí hiệu ra X.
P(s’|s) – Phân bố xác suất chuyền từ trạ
ng thái s đến trạng thái s’. Trong đó
s, s’
∈
S.
P(x|s) – Phân bố xác suất phát sinh kí hiệu x khi mô hình đang ở trạng thái s.
Trong đó x
∈
X, s
∈
S.
P(s) – Phân bố xác suất cho trạng thái khởi đầu s. Trong đó s
∈
S.
HMM có thể được biểu diễn bởi một đồ thị có hướng G, với các đỉnh S
t
và X
t
lần lượt là trạng thái của mô hình tại thời điểm t và quan sát tại thời điểm t. Hình vẽ
dưới đây minh họa cấu trúc của HMM bậc 1.