Tải bản đầy đủ (.docx) (54 trang)

Luận văn thạc sĩ: Dự đoán liên kết residue giữa các protein tương tác

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (893.96 KB, 54 trang )

LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới
Cô giáo, TS Lê Thị Tú Kiên đã tận tình hướng dẫn, động viên, giúp đỡ em
trong suốt quá trình thực hiện luận văn.
Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô trong Khoa Công nghệ
thông tin đã truyền đạt kiến thức quý báu cho em trong những năm học vừa
qua.
Con xin nói lên lòng biết ơn đối với Ông Bà, Cha Mẹ luôn là nguồn
chăm sóc, động viên trên mỗi bước đường học vấn của con.
Xin chân thành cảm ơn các Anh Chị và Bạn bè, đặc biệt là các thành
viên trong lớp K23 đã ủng hộ, giúp đỡ và động viên tôi trong suốt thời gian
học tập trên giảng đường và thực hiện luận văn này.
Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho
phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Em kính mong
nhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và các Bạn.
Em xin chân thành cảm ơn!
Hà Nội, ngày 30 tháng 09 năm 2015
Học viên
Nguyễn Thị Hằng


MỤC LỤC


DANH MỤC HÌNH ẢNH


DANH MỤC BẢNG


PHẦN MỞ ĐẦU



1. Lý do chọn đề tài
Trong tế bào động vật, protein có vai trò hết sức quan trọng. Chúng
tham gia cấu trúc của tế bào, là những enzym xúc tác cho các quá trình sinh lí
sinh hóa xảy ra trong tế bào, protein còn tham gia các quá trình vận chuyển,
bảo vệ, điều khiển, là nơi dự trữ chất dinh dưỡng, nhận biết các loại phân tử
khác nhau, chịu trách nhiệm về sự vận động của động vật ở mức tế bào và cơ
thể... Các chức năng này có thể do một hoặc nhiều phân tử protein đặc hiệu
đảm nhiệm. Chính vì thế,sự tương tác giữa các protein rất quan trọng đối với
các hoạt động sống của tế bào Protein.
Sự hiểu biết chi tiết về tương tác giữa các protein không chỉ hữu ích
trong việc giải thích chức năng cho các protein, mà còn rất quan trọng trong
việc chế tạo thuốc và điều trị bệnh.
Trên thế giới đã có một số phương pháp thực nghiệm nghiên cứu xem
liệu hai (hay nhiều) protein có liên kết với nhau hay không. Nhưng các phương
pháp thực nghiệm này thường tốn rất nhiều chi phí và thời gian, lại rất khó có thể
giải quyết được bài toán sâu hơn về sự tương tác giữa hai protein, nghĩa là
nghiên cứu xem các residure liên kết với nhau như thế nào nào giữa vùng
tương tác của hai protein, nên các nhà nghiên cứu thường dựa trên các phương
pháp Sinh–Vật lý như Nuclear Magnetic Resonance (NMR), X-ray
crystallography hay các phương pháp tính toán như PPI binding sites, docking,
covariance-based để giải quyết bài toán này.
Trong những năm gần đây, đã cómột số nghiên cứu về dự đoán liên kết
residue giữa các protein tương tác [10, 27]đã đạt được kết quả dự đoán tốt,
nhưng vẫn còn một số điểm hạn chế, vẫn tồn tại một số trường hợp dự đoán
chưa chính xác. Tức là có xuất hiện một số trường hợp dự đoán khác so với
5


kết quả thực tế, xuất hiện một số trường hợp False Positive (FP) (những

residue trong thực tế không tương tác với nhau, nhưng lại dự đoán chúng
tương tác với nhau).
Vì những lí do trên, chúng tôi lựa chọn đề tài “Dự đoán liên kết residue
giữa các protein tương tác” để tiếp tục tìm hiểu và mở rộng hướng nghiên cứu
trước đó nhằm loại bỏ một số trường hợp dự đoán chưa chính xác để tăng độ
chính xác dự đoán.
2. Lịch sử nghiên cứu
Nghiên cứu về sự tương tác giữa các protein thường được chia ở hai
mức. Ở mức một, các nhà nghiên cứu quan tâm đến việc trả lời câu hỏi: “Hai
(hay nhiều) protein đã cho có tương tác với nhau hay không?”. Các phương
pháp thực nghiệm sinh học như Sắc kí ái lực (Affinity chromatography), Kết
tủa miễn dịch (Immunopricipitate), Cross-linking, hệ thống lai kép (Two
hybride system) sẽ trả lời được câu hỏi này. Tuy nhiên, các phương pháp thực
nghiệm này thường tốn rất nhiều chi phí và thời gian nên một số phương pháp
tính toán như Dựa trên hệ gien (Genomic based methods), Gien láng riềng
(Gene neighborhood), Phânloại (Classification methods) đã được ra đời nhằm
trợ giúp giải quyết vấn đề này.
Trong khi đó, ở mức hai, các nhà nghiên cứu quan tâm đến việc trả lời
câu hỏi: “Hai (hay nhiều) protein tương tác với nhau như thế nào?” Nghĩa là
các residue trên bề mặt tiếp xúc của hai protein liên kết với nhau như thế nào.
Với câu hỏi này thì các phương pháp thực nghiệm sinh học rất khó có thể trả
lời được mà các nhà nghiên cứu thường chỉ dựa vào phân tích các phức hợp
cấu trúc protein (Structural protein complex-based methods), hay phân tích
chuỗi dựa trên phương pháp Hiệp phương sai (Covariance-based methods of
sequences analysis).

6


Trong những năm gần đây, một số nghiên cứu của các nhóm tác giả

González [10], Tu Kien T. Le [27] đã kết hợp thông tin về Structural protein
complex và Sequence covariance nhằm nâng cao kết quả dự đoán sự liên kết
residure trên bề mặt tiếp xúc của các protein.
Trong luận văn này,chúng tôi tiếp tục tìm hiểu và mở rộng hướng nghiên
cứu trước đó nhằm loại bỏ một số trường hợp “dị biệt” và tăng độ chính xác dự
đoán.
3.Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu
3.1 Mục đích nghiên cứu
Cải tiến kết quả dự đoán liên kết residue giữa các protein tương tác từ kết
quả dự đoán trong bài báo của nhóm tác giả Tu Kien T. Le [27].
3.2 Đối tượng nghiên cứu
Nghiên cứu phương pháp dự đoán liên kết residue từ các nghiên cứu
trước của các nhóm tác giả González [10] và Tu Kien T. Le [27].
Công cụ xây dựng phương pháp dự đoán liên kết residue giữa các
protein tương tác: Ngôn ngữ lập trình Matlab.
3.3 Phạm vi nghiên cứu
Đề tài tập trung nghiên cứu lý thuyết tổng quan về protein, sự tương tác
giữa các protein, phương pháp dự đoán liên kết residue giữa các protein.
4. Tóm tắt
Luận văn trình bày tổng quan về protein, bao gồm khái niệm protein, sự
tương tác giữa các protein, các bài toán nghiên cứu về sự tương tác giữa các
protein, đề xuất phương án cải tiến kết quả dự đoán liên kết residue giữa các
protein tương tác.
Để cải tiến, bước đầu luận văn mô tả tổng quan về protein, tương tác
giữa các protein, tiếp theo mô tả thuật toán loại bỏ trường hợp dị biệt để tăng
độ chính xác cho việc dự đoán liên kết residue giữa các protein tương tác.

7



Cuối cùng luận văn trình bày phần cài đặt thử nghiệm về dự đoán liên kết
residue giữa các protein tương tác và đưa ra đánh giá hiệu quả của cải tiến này.
5. Phương pháp nghiên cứu
Nghiên cứu lý thuyết.
Nghiên cứu các phương pháp trước về dự đoán liên kết residue giữa các
protein tương tác.
Cài đặt và thử nghiệm.
Tham khảo ý kiến đánh giá.

8


CHƯƠNG I. TỔNG QUAN
1.1 Protein
1.1.1 Thế nào là protein
Protein là những đại phân tử được cấu tạo theo nguyên tắc đa phân mà
các đơn phân là axít amin. Chúng kết hợp với nhau thành một mạch dài nhờ
các liên kết peptide (gọi là chuỗi polypeptide). Các chuỗi này có thể xoắn
cuộn hoặc gấp theo nhiều cách để tạo thành các bậc cấu trúc không gian khác
nhau của protein.
1.1.2. Cấu trúc – chức năng của Protein
Theo công trình nghiên cứu “What is protein” của Georgia C.
Lauritzen thuộc đại học Utah State: “Protein được cấu tạo từ các đơn vị nhỏ
hơn được gọi là các axit amin. Hiên nay đã phát hiện ra hơn 20 loại axit amin
khác nhau. Mỗi phân tử protein bao gồm rất nhiều các axitamin, được sắp xếp
theo một trình tự ngẫu nhiên, từ đó tạo ra hàng trăm, hàng nghìn các phân tử
protein có cấu trúc khác nhau. Hầu hết các proteinlà các phân tử lớn có thể
chứa hàng trăm axit aminđược sắp xếptrong các ngànhvà các chuỗi”. Trình
tựaxit amin xác định cấu trúc không gian 3 chiều của protein và chức năng
chuyên biệt của chúng. Có 5 loại cấu trúc không gian, ứng với 5 chức năng

của Protein như sau:
-

Kháng thể (antibody)
Đây là các protein có khả năng bám vào các phân tử ngoại lai như vi
khuẩn, vi rút, sau đó vô hiệu hóa chúng để bảo vệ cơ thể. Trong (Hình 1.1) là
cấu trúc không gian của protein kháng thể Immunoglobulin G (lg G).

9


Hình 1.1 Cấu trúc không gian của protein kháng thể
-

Enzyme
Enzyme xúc tác cho hầu hết các phản ứng hóa học xảy ra trong tế bào. Chúng
cũng giúp đỡ hình thành những phân tử mới bằng cách đọc thông tin di truyền
lưu trữ trong DNA (Hình 1.2).

Hình 1.2 Phenylalanine hydroxylase.

10


-

Thông tin – Messenger
Protein thông tin, như một số loại hormone, truyền tải tín hiệu để phối hợp
các quá trình sinh học giữa các tế bào, mô, cơ quan khác nhau. Ví dụ:
hormone tăng trưởng (Growth hormone) (Hình 1.3).


Hình 1.3 Hormone tăng trưởng (Growth hormone).
-

Thành phần cấu trúc
Những protein này cung cấp cấu trúc và nuôi dưỡng tế bào. Trong một
phạm vi lớn hơn, chúng còn cho phép tế bào di chuyển. Ví dụ: Actin

Hình 1.4 Actin.
-

Vận chuyển-dự trữ
11


Các protein này bám vào những nguyên tử và phân tử nhỏ bên trong tế
bào và lưu thông trong cơ thể. Ví dụ: Ferritin (Hình 1.5).

Hình 1.5 Ferritin.
1.1.3. Vai trò Protein trong sinh học
Protein là những đại phân tử được cấu tạo theo nguyên tắc đa phân mà
các đơn phân là axit amin. Chúng kết hợp với nhau thành một mạch dài nhờ
các liên kết peptide (gọi là chuỗi polypeptide). Các chuỗi này có thể xoắn
cuộn hoặc gấp theo nhiều cách để tạo thành các bậc cấu trúc không gian khác
nhau của protein.
Protein hình thành, duy trì và thay thế các tế bào trong cơ thể. Protein
chiếm tới trên 50% khối lượng khô của tế bào và là vật liệu cấu trúc của tế
bào. Thiếu protein dẫn đến suy dinh dưỡng, chậm lớn, suy giảm miễn dịch,
ảnh hưởng xấu đến chức năng của các cơ quan trong cơ thể.
Protein là tham gia vào thành phần cơ bắp, máu, bạch huyết, hocmôn,

men, kháng thể, các tuyến bài tiết và nội tiết. Vì vậy, protein có liên quan đến
mọi chức năng sống của cơ thể (tuần hoàn, hô hấp, sinh dục, tiêu hóa, bài tiết
hoạt động thần kinh và tinh thần...).

12


Protein cần thiết cho chuyển hóa bình thường các chất dinh dưỡng
khác, đặc biệt là các vitamin và chất khoáng. Khi thiếu protein, nhiều vitamin
không phát huy đầy đủ chức năng của chúng mặc dù không thiếu về số lượng.
Protein còn là nguồn năng lượng cho cơ thể, thường cung cấp 10%15% năng lượng của khẩu phần, 1g protein đốt cháy trong cơ thể cho 4 Kcal
(trong khi đó Gluxit là 4 Kcal, Lipit là 9kcal và rượu là 7kcal).
Protein kích thích sự thèm ăn và vì thế nó giữ vai trò chính tiếp nhận
các chế độ ăn khác nhau. Thiếu protein gây ra các rối loạn quan trọng trong
cơ thể như ngừng lớn hoặc chậm phát triển, mỡ hóa gan, rối loạn hoạt động
nhiều tuyến nội tiết (giáp trạng, sinh dục), thay đổi thành phần protein máu,
giảm khả năng miễn dịch sinh học của cơ thể và tăng tính cảm thụ của cơ thể
với các bệnh nhiễm khuẩn.
Bổ sung protein cho cơ thể:Sau khi được nạp vào cơ thể, trong quá
trình tiêu hoá thức ăn, protein được phân huỷ tại dạ dày bởi các enzyme. Nó
chuyển thành các polypeptides, cung cấp các axit amin cần thiết cho sự sống.
Thành phần axit amin của cơ thể người không thay đổi và cơ thể chỉ tiếp thu
một lượng các axit amin hằng định vào mục đích xây dựng và tái tạo tổ chức.
Có 8 axit amin cơ thể không thể tổng hợp được hoặc chỉ tổng hợp một lượng
rất ít. Đó là Lyzin, tryptophan, phenynalaninin, lơ - xin, izolơxin, valin,
treonin, metionin. Người ta gọi chúng là các axit amin cần thiết.
Các axit amin cần thiết này được lấy thông qua protein của thức ăn từ
bên ngoài. Tuy nhiên, trong tự nhiên không có loại protein thức ăn nào có
thành phần hoàn toàn giống với thành phần axit amin của cơ thể. Do đó để
đáp ứng nhu cầu cơ thể cần phối hợp các loại protein thức ăn để có thành

phần axit amin cân đối nhất.
Giá trị dinh dưỡng một loại protein cao khi thành phần axit amin cần
thiết trong đó cân đối và ngược lại. Hầu hết thức ăn có nguồn gốc động vật và

13


thực vật chứa đầy đủ và cân đối các thành phần của các axit amin cần thiết .
Tuy nhiên, không có một loại thức ăn nào có đủ tất cả mà cần phải sử dụng
một chế độ hỗn hợp nhiều loại thức ăn.
Thực phẩm nguồn gốc động vật (thịt, cá, trứng, sữa) là nguồn protein
quý, nhiều về số lượng, và cân đối hơn về thành phần và đậm độ axit amin
cần thiết cao. Hàm lượng các axit amin cần thiết trong thực phẩm nguồn gốc
thực vật (đậu tương, gạo, mì, ngô, các loại đậu khác...) không cao (trừ đậu
nành); nhưng cơ thể vẫn phải bổ sung cân đối đấy đủ các loại này. Vì vậy,
biết phối hợp các nguồn protein thức ăn hợp lý sẽ tạo nên giá trị dinh dưỡng
cao của khẩu phần. Ví dụ gạo, ngô, mì nghèo lizin còn đậu tương, lạc, vừng
hàm lượng lyzin cao, khi phối hợp gạo hoặc mì hoặc ngô với đậu tương,
vừng, lạc sẽ tạo nên protein khẩu phần có giá trị dinh dưỡng cao hơn các
protein đơn lẻ.
1.2. Sự tương tác giữa các protein
Tương tác protein là quá trình tác động qua lại giữa các protein với nhau
hoặc giữa các protein với các phân tử khác trong tế bào ảnh hưởng đến các
hoạt động sống trong tế bào và ảnh hưởng đến quá trình sống của động vật
(Hình 1.6).

14


Hình 1.6 Tương tác protein-protein.

-

Mạng tương tác protein
Việc tìm hiểu tương tác của các protein là 1 trong những vấn đề quan
trọng trong sinh học. Các thí nghiệm thực tế cho thấy các protein thể hiện
chức năng khi tương tác với nhau. Tập hợp các tương tác của protein được gọi
là mạng tương tác protein-protein (protein-protein interactions - PPIs) (Hình
1.7). Mạng PPIs thường được biểu diễn bằng một đồ thị mà mỗi cạnh là một
protein và mỗi đỉnh là một tương tác.

15


Hình 1.7 Mạng tương tác protein-protein.
-

Domain – Domain Interactions (DDIs)
Tương tác domain - domain có thể là một đoạn ngắn hoặc vùng xoắn.

Vì thế, định nghĩa tương tác giữa domain - domain của protein rất hữu dụng
cho việc nghiên cứu, phân tích và phát tiển về chức năng, cấu trúc mạng lưới
protein và tín hiệu đường dẫn [45].
Protein domains được biết đến như một phần chức năng và cấu trúc của
protein. Chúng được tồn tại trong suốt quá trình phát triển. Trong tổ hợp
enzymes và cấu trúc phức hợp protein, bề mặt tương tác giữa hai miền luôn xuất
hiện giữa hai domain. DDIs có thể xuất hiện trong cùng một hoặc hai protein
khác nhau. Tóm lại, sự hiểu biết về DDIs rất quan trọng vì chúng không chỉ làm
sáng tỏ PPIs và chức năng protein, mà còn có thể đưa ra PPIs mới.
Có hai cách chính để nhận ra DDIs từ hai nguồn dữ liệu PPIs khác
nhau. Cách 1 là định nghĩa dựa trên cấu trúc phức hợp của protein trong ngân

hàng cơ sở dữ liệu protein ( Protein Data Bank – PDB). Phương pháp tiếp cận
cơ sở dữ liệu không những cung cấp cặp domain của chuỗi protein có thể
tương tác, mà còn cung cấp cách thức tương tác của chúng, chúng chỉ ra một
cách rõ ràng cặp residue của hai domain rằng buộc với nhau. Cơ sở dữ liệu
được tạo từ phương pháp 3did, InterPare, PIBASE, SCOPPI, SCOWLP được
gọi là cơ sở dữ liệu tương tác.
-

Protein-protein interaction interfaces ( Bề mặt tương tác giữa các
protein)
Mỗi một protein có nhiều chức năng khác nhau. Để thực hiện chức
năng của mình thì các protein thường tương tác với các protein khác hoặc với
các phân tử khác.

16


Khi hai protein tương tác với nhau thì bề mặt tiếp xúc giữa hai protein
ấy người ta gọi là bề mặt tương tác (hay tiếng anh gọi là interface). Nếu ta
biết chi tiết thông tin liên kết về những residue trong hai bề mặt tiếp xúc của
hai chuỗi protein này tương tác với nhau như thế nào thì sẽ rất hữu ích trong
việc chúng ta chuẩn đoán bệnh và điều chế thuốc.
1.3 Các bài toán nghiên cứu về sự tương tác giữa các protein
Nghiên cứu về sự tương tác giữa các protein được chia ra làm hai mức độ.
Ở mức độ thứ nhất, các nhà nghiên cứu thường quan tâm xem liệu hai (hay
nhiều) protein có liên kết với nhau hay không. Các phương pháp thực nghiệm
sinh học như Sắc kí ái lực (Affinity chromatography), Kết tủa miễn dịch
(Immunopricipitate), Cross-linking, hệ thống lai kép (Two hybrid system) sẽ đưa ra
hướng giải quyết bài toán này. Tuy nhiên, các phương pháp thực nghiệm này thường
tốn rất nhiều chi phí và thời gian nên một số phương pháp tính toán như Dựa trên hệ

gien (Genomic based methods), Gien láng riềng (Gene neighborhood), Phânloại
(Classification methods) đã được ra đời nhằm trợ giúp giải quyết vấn đề này. Ở mức
độ hai, các nhà nghiên cứu tìm hiểu sâu hơn về sự tương tác giữa hai protein,
nghĩa là nghiên cứu xem các residure liên kết với nhau như thế nào nào giữa
vùng tương tác của hai protein. Các phương pháp thực nghiệm sinh học rất
khó có thể giải quyết được bài toán này nên các nhà nghiên cứu thường dựa
trên các phương pháp Sinh–Vật lý như Nuclear Magnetic Resonance(NMR),
X-ray crystallography hay các phương pháp tính toán như PPI binding sites,
docking, covariance-based.
1.3.1 PPI binding sites
Phương pháp PPI binding sites là phương pháp Sinh – Vật lý nghiên
cứu sự tương tác bề mặt của các protein. Một số phương pháp cụ thể như dự
đoán vị trí tương tác với phân bố xác suất ba chiều của nguyên tử tương tác
trên bề mặt protein [46]. Phương pháp này được mô phỏng bằng việc xây
17


dựng bản đồ mật độ xác suất ba chiều của các atom tương tác noncovalenttrên bề mặt protein. Xác suất tương tác được bắt nguồn từ cấu trúc
bên trong của protein. Người ta đã sử dụng phương pháp học máy để tìm hiểu
về mô hình PPI sites này. Dự đoán được huấn luyện cho PPI là crossvalidated vớitập huấn luyện (gồm 432 protein) và đã được thử nghiệm trên
một bộ dữ liệu riêng biệt (gồm 142 protein). Dựa trên hệ số tương quan
Matthews các tập kiểm tra independent là 0,423; accuracy, precision,
sensitivity, specificity tương ứng là 0,753, 0,519, 0,677, 0,779. Kết quả
Benchmark chỉ ra mô hình học máy là một trong những dự đoán tốt nhất
trong việc xác định PPI trên bề mặt protein. Đặc biệt, kết quả dự đoán PPI
tăng, vớikích thước của PPI tăng lên và với hydrophobicity trong thành phần
acid amin của bề mặt chung PPI cũng tăng lên; vùng bề mặt chung có độ dự
đoán cao hơn. Kết quả chỉ ra rằng các mô hình Sinh–Vật lý trên bề mặt
protein là yếu tố quyết định quan trọng trong PPI, và phần lớn có thể dự đoán
một cách chính xác PPI với các tính năng dựa trên các dữ liệu tương tác noncovalent có chứa bên trong protein.

Phương pháp phát triển của phương pháp [ 46] này thường dựa vào đặc
điểm trình tự, cấu trúc, vật lý - hóa học để phân biệt bề mặt chung các
residues từ bề mặt riêng của các residuestrong một protein đơn lẻ. Tuy nhiên,
một protein có thể có hai hoặc nhiều bề mặt chung và mỗi bề mặt chung này
có đặc trưng so với một vài protein cùng loại. Vì vậy, điều đó cần thiết trong
việc phát triển các phương pháp để tìm ra liên kết residue: liên kết giữa các
residues của hai protein tương tác.
1.3.2 Docking
Phương pháp Docking là phương pháp Sinh – Vật lí nghiên cứu tìm
hiểu sâu hơn về sự tương tác giữa hai protein, nghĩa là nghiên cứu xem các
residure liên kết với nhau như thế nào nào giữa vùng tương tác của hai

18


protein. Tuy nhiên, hiện nay phương pháp Docking này đòi hỏi một quá trình
tính toán dài và rất khó để tìm ra các giải pháp tốt nhất [43]. Ngoài ra, những
thay đổi cấu tạo của monomertrong quá trình hình thành các chuỗi protein
cũng là hạn chế [42]. Gần đây, một vài phương pháp Docking đã kết hợp giữa
kiến thức của vị trí liên kết PPI với các quá trình Docking nhằm cải thiện hiệu
suất của chúng [42,44]. Phương pháp cải thiện kết quả docking bằng cách sử
dụng binding site prediction nhưngkhông chính xác 100%. Phương pháp đã
sử dụng các thuật toán:PI-LZerD (sử dụng Predicted Interface dựa trên mô tả
thuật toán Docking Local 3D Zernike), được dựa trên một cặp protein thuật
toán dự đoán docking LzerD đã phát triển trước đây. PI-LZerD bắt đầu từ
thực hiện dự đoán docking với điều kiện dự đoán bề mặt tương tác proteinprotein, tiếp theo là thông tin bề mặt docking được cập nhật để cải thiện cấu
tạo docking hơn nữa. Kết quả đạt được của các trường hợp PI-LzerD cho thấy
việccải thiện dự đoán docking chính xác hơn so với việc sử dụng phương
pháp PPI bằng cách sử dụng PPI như post-filtering.
Tuy nhiên ứng dụng của phương pháp vẫn còn hạn chế, rất khó để dự

đoán chuỗi protein lớn bao gồm nhiều đơn vị cấu trúc (ví dụ, các vùng và các
monome) bằng phương pháp Docking. Trong hoàn cảnh này, việc phát triển
các phương pháp mới và tốt hơn là rất cấp bách [42].
1.3.3. Covariance-based
Phương

pháp

phântíchliênkếtprotein

residure

dựa

trêntrìnhtựhiệpphươngsaicó các phương pháp tiếp cận khác nhau để xác định
liên kết residue giữa các protein hay các domain tương tác [33-36].Ví dụ như
phương pháp Bayesian[34], phương pháp tiếp cận này dựa trên giả thuyết
rằng giữa các amino axit được bản mẫu thay thế và các residue tương tác bị
ràng buộc và tương quan với nhau. Sự ghép đôi này có thể được phát hiện

19


thông qua ràng buộc lẫn nhau về sự thay thế amino axit trong hai cột của các
sequence được dóng hàng.
Chỉ phụ thuộc vào các thông tin trình tự, phương pháp
phântíchliênkếtprotein residure dựa trêntrìnhtựhiệpphươngsainày hứa hẹn sẽ
là một ứng dụng để dự đoán các chuỗi protein phức hợp có kích thước lớn,
đặc biệt là để dự đoán chuỗi tạm thời. Tuy nhiên, phương pháp đó đòi hỏi một
tập hợp lớn các tương tác PPI nhị phân hoặc tương tác giữa các domain

(DDIs) giữa các phần tử protein của hai hay nhiều họ protein.
1.4Hidden Markov Model (HMM)
1.4.1Chuỗi Markov là gì?
Là một quá trình ngẫu nhiên, thời gian rời rạc, quá khứ không liên quan
đến việc tiên đoán tương lai mà việc đó chỉ phụ thuộc theo kiến thức về hiện tại.
Chuỗi Markov là một dãy X1, X2, X3,... gồm các biến ngẫu nhiên. Tập
tất cả các giá trị có thể có của các biến này được gọi là không gian trạng
tháiS, giá trị của Xn là trạng thái của quá trình tại thời điểm n.
Xét một hệ thống gồm N trạng thái phân biệt, được đánh số thứ tự 1, 2,
…, N. Tại thời điểm t bất kỳ, hệ thống có thể chuyển từ trạng thái S i sang một
trong N – 1 trạng thái còn lại hoặc chuyển trở lại chính trạng thái Si.
Như vậy, ở thời điểm t, từ trạng thái S i có N nhánh thao tác chuyển
trạng thái. Mỗi nhánh này có một độ đo khả năng xảy ra (xác suất xảy ra),
được gọi là xác suất chuyển trạng thái.
+ Ví dụ:

20


Hình 1.12Mô hình Markov 3 trạng thái.
Trong đó: S làcác trạng thái trong mô hình Markov
a là các xác suất chuyển tiếp
1.4.2 Observable Markov Model
Xác suất chuyển trạng thái cho tất cả các trạng thái trong hệ thống có
thể được mô tả bằng ma trận chuyển trạng thái:
+ Ví dụ: Mô hình Markov 3 trạng thái mô tả thời tiết. Giả định vào buổi
trưa mỗi ngày, thời tiết quan sát được có thể thuộc một trong 3 trạng thái sau:
Trạng thái 1: mưa
Trạng thái 2: mây
Trạng thái 3: nắng

Ma trận xác suất chuyển trạng thái như sau:

1.4.3 Mô hình Markov ẩn
Mô hình Markov ẩn (tiếng Anh là Hidden Markov Model - HMM) là
mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quá
trình Markov với các tham số không biết trước và nhiệm vụ là xác định các
tham số ẩn từ các tham số quan sát được, dựa trên sự thừa nhận này. Các tham

21


số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích
kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu.
Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp
bởi người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số
duy nhất. Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất
phân bổ trên các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các biểu hiện
được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái.Đây là một mô
hình toán thống kê có ứng dụng rộng rãi trong Tin sinh học.
Mô hình Markov ẩn là dạng mở rộng của mô hình Markov. Trong mô
hình Markov, các sự kiện quan sát được nằm trong mỗi trạng thái và phụ
thuộc vào và phụ thuộc vào hàm mật độ xác suất trong các trạng thái đó (Hình
1.13).

Hình 1.13 Ví dụ mô hình Markov ẩn.
Trong đó:

S là các trạng thái trong mô hình Markov

a là các xác suất chuyển tiếp

b làcác xác suất đầu ra
v là dữ liệu quan sát
22


+ Sự tiến hóa của mô hình Markov:
Hình 1.14 dưới đây làm nổi bật các chuyển tiếp trạng thái của mô hình
Markov ẩn. Nó cũng có ích để biểu diễn rõ ràng sự tiến hóa của mô hình theo
thời gian, với các trạng thái tại các thời điểm khác nhau t1 và t2 được biểu
diễn bằng các tham biến khác nhau, x(t1) và x(t2).

Hình 1.14Sự tiến hóa theo thời gian của mô hình Markov ẩn.
Trong sơ đồ này, nó được hiểu rằng thời gian chia cắt ra (x(t), y(t)) mở
rộng tới các thời gian trước và sau đó như một sự cần thiết. Thông thường lát
cắt sớm nhất là thời gian t=0 hay t=1.
+ Sử dụng các mô hình Markov:
Có ba vấn đề cơ bản để giải quyết bằng HMM:
-

Cung cấp cho mô hình các tham số, tính xác suất của dãy đầu ra cụ thể. Giải

-

bằng thuật toán tiến trước.
Cung cấp cho mô hình các tham số, tìm dãy các trạng thái (ẩn) có khả năng
lớn nhất mà có thể sinh ra dãy đầu ra đã cung cấp. Giải bằng thuật toán

-

Viterbi.

Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyển tiếp trạng thái
và các xác suất đầu ra. Giải bằng thuật toán Baum-Welch.
+ Ví dụ cụ thể:

23


Giả sử chúng tôi có một người bạn sống ở rất xa. Hàng ngày chúng tôi gọi
điện thoại cho nhau và anh ta kể cho chúng tôi nghe anh ta đã làm gì trong ngày.
Người bạn chúng tôi chỉ có 3 công việc mà anh thích làm là 1) đi dạo, 2) đi chợ
và 3) dọn phòng. Hiển nhiên là sự lựa chọn phải làm gì thì phụ thuộc trực tiếp
vào thời tiết hôm đấy thế nào. Như vậy, chúng tôi không nhận được thông tin cụ
thể về thời tiết nơi anh bạn chúng tôi sống nhưng chúng tôi lại biết về xu hướng
chung. Dựa vào lời kể của công việc hàng ngày của anh ta, chúng tôi có thể đoán
về thời tiết hôm đó.
Như vậy, thời tiết được vận hành như một chuỗi Markov cụ thể. Có 2
trạng thái thời tiết, "Mưa" và "Nắng", nhưng chúng tôi không quan sát trực
tiếp, do đó, chúng là ẩn đối với chúng tôi. Vào mỗi ngày, anh bạn chúng tôi sẽ
làm một trong các việc sau phụ thuộc vào thời tiết hôm đó là "đi dạo", "đi
chợ" và "dọn phòng". Vì anh bạn chúng tôi đã tường thuật lại hoạt động của
mình, đó là các dữ liệu quan sát. Toàn bộ hệ thống này là một mô hình
Markov ẩn (HMM).
Chúng tôi biết được xu hướng thời tiết nói chung và chúng tôi cũng biết
bạn chúng tôi thường thích làm gì. Nói cách khác, các thông số của HMM đã
biết. Thực tế, chúng ta có thể mô tả điều này bằng ngôn ngữ lập trình Python:
trạng thái = ('Mưa', 'Nắng')
dữ liệu quan sát = ('đi dạo', 'đi chợ', 'dọn phòng')
khả_năng_ban_đầu = {'Mưa': 0.6, 'Nắng': 0.4}
khả_năng_chuyển_dịch = {'Mưa' : {'Mưa': 0.7, 'Nắng': 0.3},'Nắng' :
{'Mưa': 0.4, 'Nắng': 0.6},}


24


khả_năng_loại_bỏ ={'Mưa' : {'đi dạo': 0.1, 'đi chợ': 0.4, 'dọn phòng':
0.5},'Nắng':{'đi dạo': 0.6, 'đi chợ': 0.3, 'dọn phòng': 0.1},}
Trong đoạn câu lệnh trên, khả_năng_ban_đầu cho thấy chúng tôi không
chắc về trạng thái HMM khi người bạn đầu tiên gọi điện cho chúng tôi (tất cả
cái chúng tôi biết là trời có vẻ mưa). Khả_năng_chuyển_dịch cho thấy những
thay đổi về thời tiết trong chuỗi Markov. Trong ví dụ này, chỉ có 30% khả
năng ngày mai trời sẽ nắng nếu hôm nay trời mưa. Khả_năng_loại_bỏ cho
thấy anh bạn thích làm những việc gì mỗi ngày. Nếu trời mưa thì có đến 50%
khả năng anh bạn này sẽ dọn phòng, trong khi trời nắng thì 60% khả năng anh
ta sẽ đi dạo.

1.4.2 Vector hỗ trợ (SVM - Support Vector Machine)
Phương pháp phân lớp sử dụng máy vec-tơ hỗ trợ SVM (support vector
machine) là một phương pháp nổi tiếng dựa trên việc cực đại hóa dải biên
phân lớp (max margin classification) và việc lựa chọn các hàm nhân (kernel)
phù hợp. Phương pháp này được sử dụng rộng rãi để giải quyết nhiều bài toán
của tin sinh học do tính hiệu quả, độ chính xác cao, và khả năng xử lý đối với
các bộ dữ liệu lớn [2]. Sau đây là những vấn đề cơ bản của kỹ thuật phân lớp
sử dụng SVM.
Support Vector Machine (SVM) là một phuơng pháp phân lớp dựa trên lý
thuyết học thống kê, được đề xuất bởi Vapnik (1995).Để đơn giản ta sẽ xét bài
toán phân lớp nhị phân, sau đó sẽ mở rộng vấn đề ra cho bài toán phân nhiều lớp.
Xét một ví dụ của bài toán phân lớp như hình 1.15; ở đó ta phải tìm
một đường thẳng sao cho bên trái nó toàn là các điểm đỏ, bên phải nó toàn là

25



×