Tải bản đầy đủ (.doc) (136 trang)

Một số thuật toán dóng hàng các mạng protein

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (969.72 KB, 136 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

MỘT SỐ THUẬT TOÁN
DÓNG HÀNG CÁC MẠNG PROTEIN

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN NGỌC HÀ

MỘT SỐ THUẬT TOÁN
DÓNG HÀNG CÁC MẠNG PROTEIN

Chuyên ngành: Khoa học máy tính
Mã số: 9480101.01

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS Hoàng Xuân Huấn
2. GS. TS. Thái Trà My

Hà Nội - 2019



LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết
quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả
trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa
từng được ai công bố trong các công trình nào khác.
Tác giả

1


LỜI CẢM ƠN
Luận án được thực hiện tại trường ĐH Công nghệ - ĐHQG Hà Nội,
dưới sự hướng dẫn của PGS.TS Hoàng Xuân Huấn và GS.TS Thái Trà My.
Tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hoàng Xuân Huấn, cô Thái
Trà My, những người đã có những định hướng giúp tôi thành công trong việc
nghiên cứu của mình. Thầy cũng đã động viên và chỉ bảo giúp tôi vượt qua
những khó khăn để tôi hoàn thành được luận án này.
Tôi xin chân thành cảm ơn tới TS. Đỗ Đức Đông, TS. Đặng Cao
Cường và các thầy cô ở Bộ môn Khoa học máy tính trường Đại học Công
nghệ đã đóng góp cho tôi nhiều kiến thức quý báu về kiến thức khoa học để
tôi có thể hoàn thành luận án.
Tôi cũng xin cảm ơn tới các thầy, cô thuộc khoa Công nghệ thông tin –
Trường ĐH Công Nghệ, đã tạo mọi điều kiện thuận lợi giúp tôi trong quá
trình làm nghiên cứu sinh.
Tôi cũng xin cảm ơn tới các thầy cô ở khoa Toán, và lãnh đạo trường
Đại học Sư Phạm – Đại học Thái Nguyên, đã tạo mọi điều kiện thuận lợi về
mặt thời gian và công tác chuyên môn giúp tôi trong quá trình làm nghiên cứu
sinh.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè nơi đã
cho tôi điểm tựa vững chắc để tôi có được thành công như ngày hôm nay.


2


MỤC LỤC
DANH MỤC BẢNG BIỂU .............................................................................. 7
DANH MỤC CÁC HÌNH .................................................................................

9

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ........................................... 10
MỞ ĐẦU ......................................................................................................... 12
Chương 1. DÓNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM ...... 16
1.1.

Tin sinh học và dóng hàng các mạng protein ...................................... 16

1.1.2. Bài toán dóng hàng nhiều mạng các vị trí liên kết protein. ................. 22
1.1.3. Bài toán dóng hàng mạng tương tác protein - protein ......................... 26
1.2.

Tối ưu mềm .......................................................................................... 31

1.2.1. Bài toán tối ưu tổ hợp và tiếp cận mềm ............................................... 31
1.2.2. Phương pháp tối ưu đàn kiến ............................................................... 35
1.2.3. Tính toán tiến hóa và các thuật toán memetic ..................................... 44
1.2.4.

Thuật toán tìm kiếm Tabu .................................................................... 45


1.3.

Động cơ nghiên cứu ............................................................................. 47

1.4.

Kết luận chương ................................................................................... 48

Chương 2. DÓNG HÀNG CÁC MẠNG CÁC VỊ TRÍ LIÊN KẾT PROTEIN
......................................................................................................................... 49
2.1.

Bài toán dóng hàng nhiều đồ thị .......................................................... 49

2.1.1. Tập nhiều đồ thị ................................................................................... 50
2.1.2. Dóng hàng nhiều đồ thị ........................................................................ 50
2.1.3. Hàm đánh giá chất lượng dóng hàng ................................................... 51
3


2.2. Thuật toán dựa trên ACO ..................................................................... 54
2.2.1. Đồ thị cấu trúc ...................................................................................... 55
2.2.2. Thủ tục bước ngẫu nhiên để xây dựng một dóng hàng ........................ 56
2.2.3. Qui tắc cập nhật mùi ............................................................................ 59
2.2.4. Thủ tục tìm kiếm cục bộ ...................................................................... 59
2.3.

Thuật toán theo lược đồ memetic ........................................................ 60

2.3.1. Lược đồ chung ..................................................................................... 61

2.3.2. Đồ thị cấu trúc ...................................................................................... 63
2.3.3. Vết mùi và thông tin heuristic .............................................................. 63
2.3.4. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng ............................ 64
2.3.5. Qui tắc cập nhật vết mùi ...................................................................... 64
2.3.6. Thủ tục tìm kiếm cục bộ ...................................................................... 65
2.4.

Thuật toán memetic mới kết hợp ACO và tìm kiếm Tabu .................. 65

2.4.1. Đồ thị cấu trúc ...................................................................................... 67
2.4.2. Thông tin heuristic ............................................................................... 67
2.4.3. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng ............................ 67
2.4.4. Qui tắc cập nhật vết mùi ...................................................................... 68
2.4.5. Thủ tục tìm kiếm Tabu ......................................................................... 68
2.5.

Các kết quả thực nghiệm ...................................................................... 69

2.5.1. Dữ liệu thực nghiệm ............................................................................ 69
2.5.2. Thực nghiệm so sánh thuật toán ACO-MGA với thuật toán Greedy và
GAVEO ........................................................................................................... 70
4


2.5.3. Thực nghiệm so sánh các thuật toán ACOTS-MGA, ACO-MGA2,
GAVEO và Greedy ......................................................................................... 75
2.6. Kết luận chương ................................................................................... 80
Chương 3. DÓNG HÀNG TOÀN CỤC HAI MẠNG TƯƠNG TÁC
PROTEIN-PROTEIN ...................................................................................... 81
3.1.


Bài toán dóng hàng toàn cục mạng tương tác protein ......................... 81

3.1.1. Phát biểu bài toán ................................................................................. 81
3.1.2. Đánh giá chất lượng dóng hàng toàn cục ............................................. 82
3.2.

Thuật toán FASTAN ............................................................................ 84

3.2.1. Xây dựng dóng hàng ban đầu .............................................................. 85
3.2.2. Thủ tục Rebuild .................................................................................... 87
3.2.3. Độ phức tạp của thuật toán FASTAN so với SPINAL ........................ 88
3.3.

Thuật toán ACOGNA .......................................................................... 89

3.3.1. Lược đồ chung ..................................................................................... 91
3.3.2. Đồ thị cấu trúc ...................................................................................... 92
3.3.3. Vết mùi và thông tin heuristic .............................................................. 93
3.3.4. Thủ tục bước ngẫu nhiên để xây dựng dóng hàng ............................... 94
3.3.5. Quy tắc cập nhật vết mùi ..................................................................... 94
3.3.6. Thủ tục tìm kiếm cục bộ ...................................................................... 95
3.4.

Thuật toán ACOGNA++ ...................................................................... 95

3.4.1. Mô tả thuật toán ................................................................................... 96
3.4.2. Vết mùi ................................................................................................. 96
5



3.4.3. Thủ tục xác định cặp đỉnh dóng hàng.................................................. 97
3.4.4. Quy tắc cập nhật vết mùi......................................................................98
3.4.5. Thủ tục tìm kiếm cục bộ.......................................................................99
3.5.

Kết quả thực nghiệm............................................................................ 99

3.5.1. Dữ liệu thực nghiệm.............................................................................99
3.5.2. Thực nghiệm so sánh thuật toán FASTAN với thuật toán SPINAL . 100
3.5.3. Thực nghiệm so sánh thuật toán ACOGNA với các thuật toán FASTAN

và MAGNA++.............................................................................................. 103
3.5.4. Thực nghiệm so sánh thuật toán ACOGNA++ với các thuật toán
ACOGNA, MAGNA++ và ModuleAlign.....................................................108
3.6.

Kết luận chương................................................................................. 110

KẾT LUẬN...................................................................................................113
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC

CỦA TÁC GIẢ LIÊN

QUAN ĐẾN LUẬN ÁN...............................................................................117
TÀI LIỆU THAM KHẢO.............................................................................118

6



DANH MỤC BẢNG BIỂU
Bảng 2.1. So sánh chất lượng dóng hàng S(A) và thời gian chạy với các bộ dữ
liệu gồm 4, 8, 16 và 32 đồ thị, số đỉnh trung bình của mỗi đồ thị là 20 đỉnh.

71
Bảng 2.2. So sánh chất lượng dóng hàng S(A) và thời gian chạy với các bộ dữ
liệu gồm 4, 8, 16 và 32 đồ thị, số đỉnh trung bình của mỗi đồ thị là 50 đỉnh

71
Bảng 2.3. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian
chạy là 50s...............................................................................................73
Bảng 2.4. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian
chạy là 150s.............................................................................................73
Bảng 2.5. So sánh điểm chất lượng dóng hàng S(A)với các bộ dữ liệu là 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian
chạy là 200s.............................................................................................73
Bảng 2.6. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian
chạy là 200s.............................................................................................74
Bảng 2.7. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian
chạy là 300s.............................................................................................74
Bảng 2.8. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian
chạy là 600s.............................................................................................74

7


Bảng 2.9. So sánh chất lượng lời giải của các thuật toán với các tập dữ liệu gồm

4, 8, 16 và 32 đồ thị.................................................................................76
Bảng 2.10. So sánh thời gian chạy (tính theo giây) của các thuật toán với các
tập dữ liệu gồm 4, 8, 16 và 32 đồ thị...................................................... 77
Bảng 2.11. So sánh điểm chất lượng dóng hàng S(A) của 3 thuật toán với cùng

thời gian chạy với các tập gồm 4,8,16 và 32 đồ thị................................ 79
Bảng 3.1. Mô tả bộ dữ liệu............................................................................100
Bảng 3.2. So sánh thuật toán FASTAN và thuật toán Spinal theo các hàm mục
tiêu GNAS và giá trị | E12| với các giá trị tham số α khác nhau...........102
Bảng 3.3. Thời gian chạy trung bình của thuật toán FASTAN (tính theo đơn vị

giây) và thuật toán SPINAL khi chạy với cùng bộ dữ liệu...................103
Bảng 3.4. So sánh thuật toán ACOGNA và thuật toán FASTAN theo tiêu chuẩn

GNAS và giá trị |E12| với các giá trị α khác nhau................................ 105
Bảng 3.5. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn EC...............106
Bảng 3.6. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn S3................107
Bảng 3.7. So sánh các thuật toán theo tiêu chuẩn S3....................................109

8


DANH MỤC CÁC HÌNH
Hình 1.1. Quá trình tổng hợp protein..............................................................17
Hình 1.2. Dóng hàng cục bộ và dóng hàng toàn cục...................................... 27

Hình 1.3. Cách các con kiến thực chọn đường đi ngắn nhất để tha mồi về tổ 36

Hình 2.1. Một dóng hàng nhiều đồ thị của tập 4 đồ thị, đỉnh hình vuông là giả
còn các đỉnh tròn là đỉnh thực có nhãn là các ký tự tương ứng......................51
Hình 2.2. Ví dụ dóng hàng 2-đồ thị................................................................ 53
Hình 2.3. Đồ thị cấu trúc khi dóng hàng n đồ thị, trong đó mỗi đồ thị có 2 hoặc

3 nút thực........................................................................................................ 56
Hình 2.4. Kiến xây dựng lời giải.....................................................................58
Hình 2.5. Một hoán vị cặp đỉnh có cùng nhãn trong thủ tục tìm kiếm địa phương

60
Hình 2.6. So sánh chất lượng lời giải các thuật toán với bộ dữ liệu gồm 16 đồ
thị và thời gian tăng từ 1000s đến 6000s........................................................ 78
Hình 3.1. Đồ thị cấu trúc của thuật toán ACOGNA....................................... 93
Hình 3.2. So sánh thời gian chạy tính theo giây của 2 thuật toán ACOGNA++
và MAGNA++.............................................................................................. 110

9


DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
SốTT

Tiếng Việt

Tiếng Anh

Viết tắt,
ký hiệu


1

Tối ưu hóa đàn kiến

Ant Colony Optimization

ACO

2

Giải thuật di truyền

Genetic Algorithm

GA

3

Bài toán người chào hàng

Travelling Salesman Problem

TSP

4

Tối ưu tổ hợp

Combinatorial Optimization


TƯTH

5

Bầy ong nhân tạo

Artificial Bee Colony

ABC

Tối ưu bầy đàn

Particle Swarm Optimization

PSO

7

Hệ đàn kiến

Ant Colony System

ACS

8

Hệ kiến

Ant System


AS

9

Hệ kiến max - min

Max – Min Ant System

MMAS

10

Hệ kiến max – min trơn

Smooth Max – Min Ant System SMMAS

11

Tương tác protein

Protein – Protein Interaction

PPI

Sự chính xác về cạnh

Edge Correctness

EC


6

12
13
14
15
16
17

Bảo tồn cấu trúc cảm sinh Induced Conserved Structure

ICS

Điểm cấu trúc con đối xứng Symmetric substructure score

S3

Điểm dóng hàng toàn cục

Global Network Aligment Score GNAS

Nấm men

Saccharomyces Cerevisiae

SC

Ruồi giấm


Drosophila Melanogaster

DM

10


18 Người tinh khôn

Homo Sapiens

HS

19 Giun tròn

Caenorhabditis Elegans

CE

20 Dóng hàng nhiều đồ thị

Multigraph Alignment

MGA

11


MỞ ĐẦU


Những phát hiện về cơ chế di truyền trong cơ thể sống đã thúc đẩy sinh
học phân tử nói riêng và công nghệ sinh học nói chung phát triển mạnh mẽ
trong nửa thế kỷ qua, trở nên lĩnh vực nghiên cứu và ứng dụng hấp dẫn. Tuy
nhiên các nghiên cứu trong phòng thí nghiệm đòi hỏi nhiều thời gian và tốn
kém. Cùng với sự phát triển của công nghệ thông tin, tin-sinh học [Junker, B
& Schreiber, 2008; M.Lesk, 2002] ra đời và là công cụ trợ giúp hiệu quả cho
các nghiên cứu sinh-y-dược.
Ngày nay, người ta hiểu rõ rằng các protein trong mỗi cơ thể sống quyết

định các đặc điểm sinh học quan trọng như kiểu hình, hệ miễn dịch… và việc
tổng hợp chúng được quy định bởi DNA hay là các bộ gene tương ứng theo
quá trình biểu diễn gene. Các mã di truyền của mỗi cá thể được lưu trong
DNA của nó, phát triển tuân theo quá trình tiến hóa đã được Darwin phát hiện
và Watson và Crick củng cố dựa trên các nghiên cứu vật lý.
Thoạt tiên, các kỹ thuật học máy được áp dụng để phân tích các trình tự
DNA và protein để phát hiện tính tương đồng/dị biệt cấu trúc giữa chúng. Các
phương pháp TƯTH mềm đã giải quyết hiệu quả các bài NP-khó trong lĩnh vực
này như dóng hàng các trình tự, xây dựng cây phân loài, suy diễn haplotype, phát
hiện motif và vị trí của nó trong bộ gene… Các kết quả này hỗ trợ đắc lực cho
lĩnh vực y học và sinh học trong phân tích các bộ gen, nghiên cứu đặc điểm tiến
hóa giữa các loài, phát hiện và điều trị bệnh di truyền…
Tuy nhiên, việc nghiên cứu tính tương đồng/khác biệt cấu trúc tuần tự là
không đủ để phát hiện tính tương đồng/khác biệt về chức năng trong cơ thể sống.
Việc nghiên cứu các mạng sinh học [Junker, B & Schreiber, 2008] như mạng
tương tác protein-protein (PPI), mạng điều hòa gen, mạng các vị trí liên kết
protein, mạng trao đổi chất …mang lại tiếp cận nghiên cứu hiệu quả hơn về

12



phân tích chức năng trong sinh học phân tử. Đặc biệt, việc dóng hàng các
mạng các vị trí liên kết protein và các mạng tương tác protein-protein cho
phép chúng ta dự đoán đặc điểm chức năng ở các loài chưa nghiên cứu kỹ từ
các tri thức của các loài đã biết, nhờ đó hiểu rõ hơn quan hệ tiến hóa sinh học,
hỗ trợ thông tin để nghiên cứu thuốc điều trị các bệnh di truyền. Các bài toán
này thuộc loại NP-khó và đang thu hút nhiều người nghiên cứu/ứng dụng do
tính quan trọng của chúng.
Hiểu rõ tầm quan trọng của tin-sinh học đối với phát triển công nghệ
sinh học của nước nhà, trong hơn 10 năm qua, ở khoa Công nghệ thông tin,
Đại học Công nghệ, Đại học Quốc gia Hà Nội đã hình thành và phát triển một
nhóm nghiên cứu các bài toán cơ bản và thời sự trong tin-sinh học nhằm góp
phần tạo tiền đề phát triển công nghệ sinh học nước nhà.
Trong bối cảnh đó, chúng tôi chọn chủ đề nghiên cứu "Một số thuật toán
dóng hàng các mạng protein” với nội dung là nghiên cứu áp dụng các kỹ thuật

TƯTH mềm để đề xuất một số thuật toán thông minh giải hai bài toán dóng
hàng nhiều mạng các vị trí liên kết protein và dóng hàng toàn cục hai mạng
tương tác protein-protein với chất lượng lời giải và thời gian tính toán tốt hơn
so với các thuật toán mới nhất hiện nay.
Nhiệm vụ cụ thể đặt ra đối với tác giả luận án là:
 Tìm hiểu các dạng bài toán dóng hàng các mạng protein nêu trên và
đánh giá ưu nhược điểm của các thuật toán giải cho các bài toán này
đã được đề xuất trong thời gian gần đây. Bên cạnh đó là tìm hiểu các
kỹ thuật tính toán mềm để thấy rõ ưu và nhược điểm của từng
phương pháp. Trên cơ sở đó, đề xuất các thuật toán mới với chất
lượng lời giải tốt hơn các thuật toán hiện tại trong thời gian ngắn
hơn cho các bài toán này.
13



 Cài đặt và chạy thực nghiệm các thuật toán đề xuất trên các bộ dữ
liệu thực để đánh giá hiệu quả của các thuật toán mới đề xuất so với
các thuật toán trước đó.
Trong thời gian qua, cùng với cán bộ hướng dẫn và các cộng sự, tác giả
luận án đã có đóng góp sau.
 Đề xuất ba thuật toán dựa trên tối ưu đàn kiến cho bài toán dóng hàng
nhiều đồ thị, bao gồm ACO-MGA, ACO-MGA2 và ACOTS-MGA.
 Đề xuất ba thuật toán cho bài toán dóng hàng toàn cục mạng tương

tác protein-protein, bao gồm thuật toán heuristic FASTAN và hai
thuật toán tối ưu đàn kiến: ACOGNA và ACOGNA++.
Kết quả thực nghiệm cho thấy hiệu quả của các thuật toán đề xuất tốt
hơn so với các thuật toán được đề xuất trước đó.
Các kết quả của luận án đã được công bố trong 5 báo cáo hội nghị/hội
thảo quốc gia/quốc tế bao gồm 4 báo cáo hội nghị quốc tế (Công trình 1, 2, 3,
5) và một hội thảo toàn quốc “Nghiên cứu cơ bản và ứng dụng công nghệ
thông tin” (Công trình 4), và một bài báo đăng ở tạp chí VNU Journal of
Science: Computer Science and Communication Engineering (công trình 6).
Ngoài phần mở đầu và kết luận, luận án được tổ chức như sau:
Chương 1 giới thiệu tổng quan về tin sinh học, hai bài toán dóng hàng
đồng thời nhiều mạng các vị trí liên kết protein và dóng hàng mạng tương tác
protein-protein cùng một số vấn đề liên quan. Giới thiệu các phương pháp
metaheuristic bao gồm giải thuật di truyền, phương pháp tối ưu đàn kiến, tính
toán tiến hóa, các thuật toán memetic và tìm kiếm Tabu.

14


Chương 2 trình bày ba thuật toán dựa trên phương pháp tối ưu đàn kiến để
giải bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết của protein.

Thuật toán thứ nhất là thuật toán ACO-MGA dựa trên phương pháp tối ưu đàn
kiến để giải bài toán dóng hàng nhiều đồ thị. Thuật toán thứ hai là thuật toán
ACO-MGA2 dựa trên lược đồ memetic, trong đó sử dụng phương pháp tối ưu
đàn kiến để tạo ra tập các lời giải và sử dụng các chiến lược tìm kiếm cục bộ
khác nhau để cải thiện chất lượng lời giải tốt nhất do các kiến tìm được. Thuật
toán thứ ba ACOTS-MGA là một thuật toán memetic dựa trên kết hợp ACO và
tìm kiếm cấm. Các kết quả thực nghiệm trên các bộ dữ liệu mô phỏng và dữ liệu
thực cho thấy các thuật toán đề xuất tốt hơn so với các thuật toán mới nhất để
giải bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết protein.

Chương 3 trình bày ba thuật toán đề xuất để giải bài toán dóng hàng
toàn cục hai mạng tương tác protein-protein. Thuật toán thứ nhất là thuật toán
FASTAN theo hướng tiếp cận heuristic. Tiếp theo là 2 thuật toán ACOGNA và
ACOGNA++ dựa trên phương pháp tối ưu đàn kiến. Hiệu quả của các thuật
toán được kiểm nghiệm trên các bộ dữ liệu chuẩn (IsoBase) được sử dụng bởi
các thuật toán mới nhất hiện nay. Các thực nghiệm đã cho thấy hiệu quả nổi
trội của các thuật toán đề xuất.

15


Chương 1. DÓNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM
Trong chương này, đầu tiên luận án giới thiệu ngắn gọn bức tranh
chung của tin sinh học và giới thiệu 2 bài toán tối ưu tổ hợp quan trọng trong
lĩnh vực Tin sinh học là: Bài toán dóng hàng mạng nhiều mạng vị trí liên kết
protein và bài toán dóng hàng tương tác protein-protein. Tiếp theo đó, luận án
giới thiệu về các phương pháp tối ưu mềm là cơ sở để đề xuất các thuật toán
mới để giải quyết 2 bài toán dóng hàng các mạng protein.
1.1.


Tin sinh học và dóng hàng các mạng protein
1.1.1. Giới thiệu về tin sinh học
Trong thế kỷ 19, nhà tự nhiên học đồng thời là nhà địa lý và sinh vật

học người Anh C. R. Darwin (1809 –1882) đã nhận thấy rằng theo thời gian,
mỗi loài sinh vật luôn biến đổi tiến hóa để phù hợp với môi trường sinh tồn
của chúng và đưa ra học thuyết tiến hóa nổi tiếng của ông. Nhờ các thành tựu
của khoa học và kỹ thuật vật lý, năm 1953, Crick và Watson đã khám phá cấu
trúc DNA mở đầu cho kỷ nguyên chinh phục cơ chế di truyền trong sinh vật
phù hợp với học thuyết Darwin.
Hơn 60 năm qua, sinh học phân tử nói riêng và công nghệ sinh học nói
chung phát triển mạnh mẽ, trở nên lĩnh vực nghiên cứu và ứng dụng hấp dẫn,
tạo ra cuộc cách mạng đối với sự hiểu biết của chúng ta về chức năng của tế
bào, mở ra con đường để phát hiện ra cơ chế sinh học phức tạp và sự liên
quan của chúng đến bệnh tật và sự phát triển của cơ thể sống. Trong đó, hiểu
biết về quá trình tổng hợp protein đặt nền tảng cho sinh học phân tử.
1.1.1.1. Quá trình tổng hợp protein
DNA mang thông tin di truyền và điều khiển tổng hợp protein của sinh
vật, còn protein quyết định đặc tính, chức năng và quá trình phát triển của cơ

16


thể sống [Lê Sỹ Vinh, 2014]. DNA là chuỗi xoắn kép được cấu tạo từ 4 loại
nucleotide: Adenine, Cytosine, Guanine và Thymine, chúng được ký hiệu tương
ứng là A, C, G và T. Một đoạn của chuỗi DNA mang thông tin cần thiết để tạo
nên protein gọi là một đoạn gen hay gọn hơn là một gen. Mỗi sinh vật có nhiều
gen, chẳng hạn con người có khoảng 25 nghìn gen khác nhau.

Quá trình tổng hợp protein từ thông tin ở DNA gồm 2 giai đoạn: phiên

mã và dịch mã [Lê Sỹ Vinh, 2014] như được minh họa trong hình 1.1.
Trong giai đoạn phiên mã, đoạn gen mang thông tin hướng dẫn tổng hợp
protein được chuyển sang đoạn RNA có nội dung tương tự đoạn gen nhờ
thay Thymine bởi Uracil, được ký hiệu là U.
Trong giai đoạn dịch mã, đoạn RNA được dịch mã để tạo nên chuỗi các
amino acid và chuỗi này được cuộn gấp (folded) tạo thành protein. Các
protein được cấu tạo từ 20 loại amino acid.

Hình 1.1. Quá trình tổng hợp protein
Trong quá trình tiến hóa, các gen/RNA/protein được di truyền và có thể
biến đổi nhờ các biến dị của các nucleotide/amino acid thành phần dưới dạng
xóa/chèn/ thay thế một nucleotide bằng một nucleotide khác. Tùy theo việc đặc
điểm sinh học của sinh vật do protein quy định có phù hợp với môi trường hay
không mà biến dị được củng cố tồn tại/ phát triển hoặc tiếp tục biến đổi bởi

17


biến dị khác nếu không triệt tiêu cùng các cá thể mang nó. Sự biến đổi theo
thời gian của các bộ gen tạo nên quá trình tiến hóa của các loài sinh vật. Nhận
thức này đặt cơ sở cho các nghiên cứu và ứng dụng trong sinh học phân tử và
tin-sinh học.
1.1.1.2. Sinh học phân tử và phân tích các trình tự trong tin sinh học
Thoạt tiên, các nghiên cứu sinh học phân tử được thực hiện và kiểm
chứng bằng thực nghiệm trong các phòng thí nghiệm. Tuy nhiên việc nghiên
cứu trong phòng thí nghiệm đòi hỏi nhiều thời gian và chi phí cao nên kìm
hãm tiến trình nghiên cứu. Các tri thức về quá trình tổng hợp protein và cấu
trúc của quá trình tổng hợp protein cùng sự phát triển, ứng dụng rộng rãi của
công nghệ thông tin cho phép thực hiện các phân tích Tin-Sinh để trợ giúp các
dự đoán và nghiên cứu trong sinh học phân tử.

Các bài toán và kỹ thuật dóng hàng trình tự [Lê Sỹ Vinh, 2014]
Dựa trên sự phân tích tương đồng/dị biệt cấu trúc của các trình tự DNA và
protein, người ta có được các nhận biết về quan hệ giữa các loài sinh vật và
các cá thể, dự đoán các đặc tính sinh học từ các loài mới dựa trên đặc tính của
các loài đã nghiên cứu kỹ gần với nó.
Như đã nói ở trên, trong quá trình tiến hóa của các loài, các gen/RNA/protein
được di truyền và có thể biến đổi nhờ các biến dị của các nucleotide/amino acid
thành phần dưới dạng xóa/chèn/ thay thế một nucleotide bằng một nucleotide
khác. Sau khi giải trình tự gen/RNA/protein người ta sử dụng các kỹ thuật học
máy để phân tích chúng, bắt đầu từ các bài toán đơn giản như dóng hàng 2 hoặc
nhiều trình tự, xác định trình tự con đến các bài toán phức tạp hơn như: xây dựng
cây phân loài, tìm kiếm motif và vị trí của chúng (xác định miền điều hòa gen),
suy diễn haplotype, dự đoán biến đổi amino acid, v.v.

18


Các bài toán phức tạp này được mô hình hóa dựa trên các nhận xét của các
nhà sinh học. Nhiều bài toán trong chúng là những bài toán tối ưu tổ hợp xử
lý dữ liệu tuần tự và thuộc loại NP-khó. Để dễ hình dung cách đặt bài toán và
sử dụng, ta trở lại với bài toán tìm kếm motif và làm quen với bài toán xây
dựng cây phân loài.
Bài toán tìm kiếm DNA motif và mô hình hóa tổng quát
DNA motif là một đoạn ngắn trong DNA, chúng thường có chức năng đặc
biệt đối với các gen trong bộ gen, chẳng hạn, điều hòa gen [Hoang X. Huan,
Tuyet, Ha, & Hung, 2015]. Đoạn này thường lặp đi lặp lại trong bộ gen. Các
thuật toán tin sinh sẽ tìm ra các đoạn nghi ngờ là motif và vị trí của chúng trên
các bộ gen để các nhà sinh vật kiểm tra lại bằng thực nghiệm thay vì tìm kiếm
mù để làm thực nghiệm.
Bài toán được mô hình hóa tổng quát như sau [Hoang X. Huan et al., 2015]:

Xét tập S = {S1,S2, ..., SN } các trình tự độ dài m trên bộ chữ cái Σ . Với giá trị l
<

m cho trước , cần tìm trình tự x = {

1, 2,

..., , ... } trên bộ chữ cái Σ với

độ dài l và tập xâu con M = { 1, 2,..., } có cùng độ dài l được lấy ra từ các chuỗi Si tương ứng sao cho nó
tốt nhất theo một tiêu chuẩn định trước nào đó.

Tiêu chuẩn đồng thuận xác định bởi tổng khoảng cách Hamming tới các
xâu trong tập là nhỏ nhất. Tuy nhiên người ta cũng có thể định nghĩa motif là
xác định hàm mục tiêu khác theo mục đích của nhà sinh học, chẳng hạn số
trình tự trong tập S có khoảng cách Hamming tới x là nhỏ nhất.
Với tiêu chuẩn được chọn, các thuật toán đề xuất sẽ cho ta các motif và vị
trí của chúng trên các trình tự để nhà sinh học xem xét quyết định làm thực
nghiệm kiểm định hay không (trợ giúp quyết định).

19


Bài toán xây dựng cây phân loài [Lê Sỹ Vinh, 2014]
Trong bài toán này, dựa trên phân tích tính tương đồng thể hiện qua dữ
liệu sinh học phân tử (DNA/protein) của các loài, người ta dự đoán quan hệ
giữa các loài và xây dựng cây phân loài. Hai loài có hệ gen và protein càng
gần nhau thì quan hệ tiến hóa càng gần nhau. Dựa trên phân tích quan hệ như
vậy, người ta xây dựng cây nhị phân không gốc với cấu trúc như sau:
 Mỗi nút là ứng với một loài sinh vật hiện thời

 Mỗi nút trong ứng với một loài sinh vật tổ tiên mà thông thường ta
không có thông tin về loài này.
 Mỗi cạnh của cây nối nút của cây ứng với hai loài sinh vật có quan
hệ tiến hóa trực tiếp.
 Khoảng cách nối hai nút ứng với hai loài trên cây cho biết khoảng
cách tiến hóa giữa chúng
Các quan hệ trên cây xây dựng được cho ta kết qủa dự đoán dựa trên kỹ
thuật phân tích hiện có, khi có thêm kỹ thuật mới để xét tính tương đồng, chẳng
hạn, tính tương tự mạng protein (sẽ đề cập ở dưới) ta sẽ điều chỉnh cho chính xác
hơn. Mặc dù các cây được xây dựng như thế không hoàn toàn chính xác với tiến
hóa thực nhưng nó rất hữu ích cho các nhà sinh học khi nghiên cứu các loài sinh
vật. Nhờ nó mà các nhà sinh học có thể dự đoán một số đặc điểm sinh học có
tính di truyền từ các đặc điểm của những loài gần gũi với nó.

Việc nghiên cứu tính tương đồng các trình tự DNA/Protein không đủ
thông tin cho nghiên cứu chức năng và đặc tính y học nên người ta quan tâm
đến các bài toán phân tích dữ liệu 3 chiều. Chẳng hạn, người ta nhận thấy
trong quá trình tổng hợp protein, nếu các amino acid được cuộn gấp sai sẽ gây
nên các bệnh di truyền. Nếu ta dự báo và phát hiện được lỗi cuộn gấp thì có
thể phát hiện bệnh và tìm được phương thức điều trị. Để phát triển nghiên
cứu, người ta đã xây dựng các CSDL không gian và các mạng sinh học.
20


1.1.1.3. Các mạng sinh học
Dóng hàng các chuỗi thuộc hệ gen đã tăng cường kiến thức y sinh học nhờ
phát hiện các vùng trình tự có sự tương đồng giữa các gen ở các loài khác nhau,
các vùng đó có khả năng phản ánh các mối quan hệ chức năng và tiến hóa giữa
các trình tự [Alföldi & Lindblad-Toh, 2013; Altschul, Gish, Miller, & Lipman,
1990; Biesecker et al., 2009; Tsai, Iafrate, & Joung, 2014]. Tuy nhiên, các gen

hoặc các sản phẩm protein của chúng không hoạt động một cách độc lập mà
chúng thực hiện các quá trình tế bào bằng cách tương tác với nhau.

Các tương tác này được mô hình hóa bởi mạng sinh học, chẳng hạn như:
mạng điều hòa gen, mạng trao đổi chất, mạng tương tác protein-protein
(protein-protein interactive: PPI), mạng các vị trí liên kết protein. Không
giống như các nghiên cứu về các chuỗi gen, nghiên cứu mạng sinh học cho
phép hiểu được các quá trình tế bào phức tạp phát sinh từ các hoạt động chung
của các phân tử sinh học.
Những tiến bộ trong công nghệ sinh học hiện thời cung cấp nhiều dữ liệu
cho phép ta nghiên cứu sâu hơn về các mạng sinh học và cho ta nhiều tri thức
quý giá. Chẳng hạn, việc dóng hàng mạng sinh học nhằm tìm ánh xạ tương ứng
đủ tốt giữa các nút mạng của các loài khác nhau cho phép xác định các vùng
mạng có sự tương đồng về kiểu cấu trúc tô pô và cấu trúc trình tự, nhờ đó có thể
chuyển một cách hiệu quả các kiến thức về chức năng của tế bào từ các loài đã
được nghiên cứu tốt sang những loài chưa được nghiên cứu nhiều hoặc khó làm
thực nghiệm. Bởi vì việc nghiên cứu thực nghiệm trên con người gặp nhiều khó
khăn bởi các rào cản đạo đức và pháp luật, nhờ dóng hàng mạng mà người ta có
thể chuyển các tri thức đã biết từ nấm men (Saccharomyces cerevisiae), ruồi
giấm (Drosophila melanogaster), hoặc sâu (Caenorhabditis elegans) sang tri thức
của con người dựa trên phát hiện các vùng mạng được bảo tồn [Clark

& Kalita, 2014; Malod-Dognin & Pržulj, 2014; R. Sharan & Ideker, 2006].
21


Luận án này tập trung nghiên cứu hai bài toán thời sự: dóng hàng nhiều
mạng các vị trí liên kết protein và dóng hàng toàn cục hai mạng tương tác
protein-protein (về sau sẽ gọi gọn là mạng tương tác protein).
1.1.2. Bài toán dóng hàng nhiều mạng các vị trí liên kết protein.

Suy diễn chức năng của các protein chưa biết thông qua các protein đã
biết giữ vai trò quan trọng trong lĩnh vực khoa học sự sống nói chung và lĩnh vực
hóa dược nói riêng [Borrel, 2016; W. Yang & Lai, 2017; Yuan, Xu, Yuan,

& Xu, 2018]. Trong đó, so sánh các protein giữ vai trò trung tâm.
Dự đoán chức năng của các protein có thể thực hiện được ở cả mức
chuỗi và mức độ cấu trúc. Nhận thấy rằng các protein với sự giống nhau của
chuỗi amino axit trên 40% thường có các chức năng tương tự [Todd, Orengo,
& Thornton, 2001] nên so sánh theo trình tự thường là phương pháp đầu tiên
được sử dụng. Nhiều phương pháp tiếp cận khác nhau được giới thiệu và sử
dụng rộng rãi [Altschul et al., 1997; Edgar, 2004; Notredame, Higgins, &
Heringa, 2000; Sjolander, 2004; Thompson, Higgins, & Gibson, 1994]. Tuy
nhiên, phương pháp này không phù hợp để xác định sự tương đồng chức năng
giữa các phân tử bởi vì sự tương đồng chức năng có liên quan mật thiết với
các đặc tính cấu trúc hơn là các đặc tính tuần tự [Aladag & Erten, 2013;
CONTE, FOGGIA, SANSONE, & VENTO, 2004; Notredame et al., 2000;
Yan, Yu, & Han, 2005].
Để phân tích cấu trúc của các protein, một số tác giả [Aladag & Erten,
2013; CONTE et al., 2004; Kinoshita & Nakamura, 2005; Oleksii Kuchaiev
& Pržulj, 2011; Mernberger, Klebe, & Hullermeier, 2011; Xifeng Yan, Feida
Zhu, Jiawei Han, & Yu, 2006; Yan et al., 2005; S. Zhang, Hu, & Yang, 2007]
đề xuất sử dụng mô hình đồ thị để biểu diễn cấu trúc 3 chiều của protein.

22


1.1.2.1. Mô hình hóa mạng các vị trí liên kết protein thành đồ thị
Để nghiên cứu cấu trúc của các protein, bước đầu tiên là cần biểu diễn
cấu trúc của các protein theo mô hình đồ thị. Các nghiên cứu [Fober,
Mernberger, Klebe, & Hüllermeier, 2009; Weskamp, Hüllermeier, Kuhn, &

Klebe, 2007] được thực hiện trên cơ sở dữ liệu Cavbase [Schmitt, Kuhn, &
Klebe, 2002] – một hệ thống cơ sở dữ liệu sử dụng thuật toán LIGSITE
[Hendlich, Rippmann, & Barnickel, 1997] để tự động phát hiện, trích xuất và
lưu trữ các khoang protein (các túi liên kết – binding pockets) từ các cấu trúc
protein được xác định qua thực nghiệm (có sẵn từ ngân hàng dữ liệu protein
[Berman et al., 2002]). Trong cơ sở dữ liệu này, các túi liên kết được biểu diễn
xấp xỉ bằng các đồ thị [Hendlich, Bergner, Günther, & Klebe, 2003; Schmitt
et al., 2002].
Để mô hình hóa một túi liên kết thành 1 đồ thị, sự sắp xếp trong không
gian và các thuộc tính lý hóa của một túi liên kết được gọi là tâm giả
(pseudocenter)- các điểm trong không gian biểu thị cho tâm của một đặc
trưng riêng [Weskamp et al., 2007]. Kiểu và vị trí không gian của các tâm phụ
thuộc vào các amino axit được bao quanh bởi các túi liên kết và biểu hiện các
nhóm chức năng của chúng. Chúng thu được từ cấu trúc của protein sử dụng
một tập các luật định trước [Schmitt et al., 2002]. Các loại tâm giả bao gồm:
pseudocenters, hydrogenbond donor, acceptor, mixed donor/acceptor,
hydrophobic aliphatic, metal ion, pi.
Một túi liên kết được mô hình hóa bởi đồ thị G(V,E), trong đó V là tập các
đỉnh, E là tập các cạnh. Nhãn của các đỉnh thuộc một tập L = {A, B, C, D, E, F,
G}, trong đó A đại diện cho donor, B đại diện cho acceptor, v.v. Hai đỉnh được
xem như có kết nối với nhau và được biểu diễn bởi 1 cạnh trong đồ thị G

23


×