Tải bản đầy đủ (.pdf) (132 trang)

(Luận án tiến sĩ) một số thuật toán dóng hàng các mạng protein luận án TS máy tính 94801

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.37 MB, 132 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

MỘT SỐ THUẬT TỐN
DĨNG HÀNG CÁC MẠNG PROTEIN

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN NGỌC HÀ

MỘT SỐ THUẬT TỐN
DĨNG HÀNG CÁC MẠNG PROTEIN

Chun ngành: Khoa học máy tính
Mã số: 9480101.01

LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS Hồng Xn Huấn
2. GS. TS. Thái Trà My

Hà Nội - 2019



LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các kết
quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả
trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa
từng được ai cơng bố trong các cơng trình nào khác.
Tác giả

1


LỜI CẢM ƠN
Luận án được thực hiện tại trường ĐH Công nghệ - ĐHQG Hà Nội, dưới
sự hướng dẫn của PGS.TS Hồng Xn Huấn và GS.TS Thái Trà My.
Tơi xin bày tỏ lịng biết ơn sâu sắc tới thầy Hồng Xn Huấn, cơ Thái
Trà My, những người đã có những định hướng giúp tôi thành công trong việc
nghiên cứu của mình. Thầy cũng đã động viên và chỉ bảo giúp tơi vượt qua
những khó khăn để tơi hồn thành được luận án này.
Tôi xin chân thành cảm ơn tới TS. Đỗ Đức Đông, TS. Đặng Cao Cường
và các thầy cô ở Bộ mơn Khoa học máy tính trường Đại học Cơng nghệ đã
đóng góp cho tơi nhiều kiến thức q báu về kiến thức khoa học để tơi có thể
hồn thành luận án.
Tôi cũng xin cảm ơn tới các thầy, cô thuộc khoa Công nghệ thông tin –
Trường ĐH Công Nghệ, đã tạo mọi điều kiện thuận lợi giúp tôi trong q trình
làm nghiên cứu sinh.
Tơi cũng xin cảm ơn tới các thầy cơ ở khoa Tốn, và lãnh đạo trường
Đại học Sư Phạm – Đại học Thái Nguyên, đã tạo mọi điều kiện thuận lợi về
mặt thời gian và cơng tác chun mơn giúp tơi trong q trình làm nghiên cứu
sinh.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè nơi đã cho
tơi điểm tựa vững chắc để tơi có được thành cơng như ngày hôm nay.


2


MỤC LỤC
DANH MỤC BẢNG BIỂU .............................................................................. 7
DANH MỤC CÁC HÌNH ................................................................................. 9
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ........................................... 10
MỞ ĐẦU ......................................................................................................... 12
Chương 1. DÓNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM ...... 16
1.1.

Tin sinh học và dóng hàng các mạng protein ...................................... 16

1.1.2. Bài tốn dóng hàng nhiều mạng các vị trí liên kết protein. ................. 22
1.1.3. Bài tốn dóng hàng mạng tương tác protein - protein ......................... 26
1.2.

Tối ưu mềm .......................................................................................... 31

1.2.1. Bài toán tối ưu tổ hợp và tiếp cận mềm ............................................... 31
1.2.2. Phương pháp tối ưu đàn kiến ............................................................... 35
1.2.3. Tính tốn tiến hóa và các thuật tốn memetic ..................................... 44
1.2.4. Thuật tốn tìm kiếm Tabu .................................................................... 45
1.3.

Động cơ nghiên cứu ............................................................................. 47

1.4.


Kết luận chương ................................................................................... 48

Chương 2. DÓNG HÀNG CÁC MẠNG CÁC VỊ TRÍ LIÊN KẾT PROTEIN
......................................................................................................................... 49
2.1.

Bài tốn dóng hàng nhiều đồ thị .......................................................... 49

2.1.1. Tập nhiều đồ thị ................................................................................... 50
2.1.2. Dóng hàng nhiều đồ thị ........................................................................ 50
2.1.3. Hàm đánh giá chất lượng dóng hàng ................................................... 51
3


2.2.

Thuật toán dựa trên ACO ..................................................................... 54

2.2.1. Đồ thị cấu trúc ...................................................................................... 55
2.2.2. Thủ tục bước ngẫu nhiên để xây dựng một dóng hàng........................ 56
2.2.3. Qui tắc cập nhật mùi ............................................................................ 59
2.2.4. Thủ tục tìm kiếm cục bộ ...................................................................... 59
2.3.

Thuật toán theo lược đồ memetic ........................................................ 60

2.3.1. Lược đồ chung ..................................................................................... 61
2.3.2. Đồ thị cấu trúc ...................................................................................... 63
2.3.3. Vết mùi và thông tin heuristic.............................................................. 63
2.3.4. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng ............................ 64

2.3.5. Qui tắc cập nhật vết mùi ...................................................................... 64
2.3.6. Thủ tục tìm kiếm cục bộ ...................................................................... 65
2.4.

Thuật toán memetic mới kết hợp ACO và tìm kiếm Tabu .................. 65

2.4.1. Đồ thị cấu trúc ...................................................................................... 67
2.4.2. Thông tin heuristic ............................................................................... 67
2.4.3. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng ............................ 67
2.4.4. Qui tắc cập nhật vết mùi ...................................................................... 68
2.4.5. Thủ tục tìm kiếm Tabu ......................................................................... 68
2.5.

Các kết quả thực nghiệm...................................................................... 69

2.5.1. Dữ liệu thực nghiệm ............................................................................ 69
2.5.2. Thực nghiệm so sánh thuật toán ACO-MGA với thuật toán Greedy và
GAVEO ........................................................................................................... 70
4


2.5.3. Thực nghiệm so sánh các thuật toán ACOTS-MGA, ACO-MGA2,
GAVEO và Greedy ......................................................................................... 75
2.6.

Kết luận chương ................................................................................... 80

Chương 3. DÓNG HÀNG TỒN CỤC HAI MẠNG TƯƠNG TÁC
PROTEIN-PROTEIN ...................................................................................... 81
3.1.


Bài tốn dóng hàng tồn cục mạng tương tác protein ......................... 81

3.1.1. Phát biểu bài toán ................................................................................. 81
3.1.2. Đánh giá chất lượng dóng hàng tồn cục............................................. 82
3.2.

Thuật tốn FASTAN ............................................................................ 84

3.2.1. Xây dựng dóng hàng ban đầu .............................................................. 85
3.2.2. Thủ tục Rebuild .................................................................................... 87
3.2.3. Độ phức tạp của thuật toán FASTAN so với SPINAL ........................ 88
3.3.

Thuật toán ACOGNA .......................................................................... 89

3.3.1. Lược đồ chung ..................................................................................... 91
3.3.2. Đồ thị cấu trúc ...................................................................................... 92
3.3.3. Vết mùi và thông tin heuristic.............................................................. 93
3.3.4. Thủ tục bước ngẫu nhiên để xây dựng dóng hàng ............................... 94
3.3.5. Quy tắc cập nhật vết mùi ..................................................................... 94
3.3.6. Thủ tục tìm kiếm cục bộ ...................................................................... 95
3.4.

Thuật tốn ACOGNA++ ...................................................................... 95

3.4.1. Mơ tả thuật toán ................................................................................... 96
3.4.2. Vết mùi ................................................................................................. 96
5



3.4.3. Thủ tục xác định cặp đỉnh dóng hàng .................................................. 97
3.4.4. Quy tắc cập nhật vết mùi ..................................................................... 98
3.4.5. Thủ tục tìm kiếm cục bộ ...................................................................... 99
3.5.

Kết quả thực nghiệm ............................................................................ 99

3.5.1. Dữ liệu thực nghiệm ............................................................................ 99
3.5.2. Thực nghiệm so sánh thuật toán FASTAN với thuật toán SPINAL . 100
3.5.3. Thực nghiệm so sánh thuật toán ACOGNA với các thuật toán FASTAN
và MAGNA++ .............................................................................................. 103
3.5.4. Thực nghiệm so sánh thuật toán ACOGNA++ với các thuật toán
ACOGNA, MAGNA++ và ModuleAlign..................................................... 108
3.6.

Kết luận chương ................................................................................. 110

KẾT LUẬN ................................................................................................... 113
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN
QUAN ĐẾN LUẬN ÁN ............................................................................... 117
TÀI LIỆU THAM KHẢO ............................................................................. 118

6


DANH MỤC BẢNG BIỂU
Bảng 2.1. So sánh chất lượng dóng hàng S(A) và thời gian chạy với các bộ dữ
liệu gồm 4, 8, 16 và 32 đồ thị, số đỉnh trung bình của mỗi đồ thị là 20 đỉnh.
................................................................................................................. 71

Bảng 2.2. So sánh chất lượng dóng hàng S(A) và thời gian chạy với các bộ dữ
liệu gồm 4, 8, 16 và 32 đồ thị, số đỉnh trung bình của mỗi đồ thị là 50 đỉnh
................................................................................................................. 71
Bảng 2.3. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian
chạy là 50s. .............................................................................................. 73
Bảng 2.4. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian
chạy là 150s ............................................................................................. 73
Bảng 2.5. So sánh điểm chất lượng dóng hàng S(A)với các bộ dữ liệu là 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian
chạy là 200s ............................................................................................. 73
Bảng 2.6. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian
chạy là 200s ............................................................................................. 74
Bảng 2.7. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian
chạy là 300s ............................................................................................. 74
Bảng 2.8. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian
chạy là 600s ............................................................................................. 74
7


Bảng 2.9. So sánh chất lượng lời giải của các thuật toán với các tập dữ liệu gồm
4, 8, 16 và 32 đồ thị ................................................................................. 76
Bảng 2.10. So sánh thời gian chạy (tính theo giây) của các thuật tốn với các
tập dữ liệu gồm 4, 8, 16 và 32 đồ thị ...................................................... 77
Bảng 2.11. So sánh điểm chất lượng dóng hàng S(A) của 3 thuật toán với cùng
thời gian chạy với các tập gồm 4,8,16 và 32 đồ thị. ............................... 79

Bảng 3.1. Mô tả bộ dữ liệu ............................................................................ 100
Bảng 3.2. So sánh thuật toán FASTAN và thuật toán Spinal theo các hàm mục
tiêu GNAS và giá trị | E12| với các giá trị tham số α khác nhau .......... 102
Bảng 3.3. Thời gian chạy trung bình của thuật tốn FASTAN (tính theo đơn vị
giây) và thuật tốn SPINAL khi chạy với cùng bộ dữ liệu................... 103
Bảng 3.4. So sánh thuật toán ACOGNA và thuật toán FASTAN theo tiêu chuẩn
GNAS và giá trị |E12| với các giá trị α khác nhau. ............................... 105
Bảng 3.5. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn EC .............. 106
Bảng 3.6. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn S3 ............... 107
Bảng 3.7. So sánh các thuật toán theo tiêu chuẩn S3.................................... 109

8


DANH MỤC CÁC HÌNH
Hình 1.1. Q trình tổng hợp protein .............................................................. 17
Hình 1.2. Dóng hàng cục bộ và dóng hàng tồn cục ...................................... 27
Hình 1.3. Cách các con kiến thực chọn đường đi ngắn nhất để tha mồi về tổ 36
Hình 2.1. Một dóng hàng nhiều đồ thị của tập 4 đồ thị, đỉnh hình vng là giả
cịn các đỉnh trịn là đỉnh thực có nhãn là các ký tự tương ứng. ..................... 51
Hình 2.2. Ví dụ dóng hàng 2-đồ thị. ............................................................... 53
Hình 2.3. Đồ thị cấu trúc khi dóng hàng n đồ thị, trong đó mỗi đồ thị có 2 hoặc
3 nút thực ......................................................................................................... 56
Hình 2.4. Kiến xây dựng lời giải..................................................................... 58
Hình 2.5. Một hốn vị cặp đỉnh có cùng nhãn trong thủ tục tìm kiếm địa phương
......................................................................................................................... 60
Hình 2.6. So sánh chất lượng lời giải các thuật toán với bộ dữ liệu gồm 16 đồ
thị và thời gian tăng từ 1000s đến 6000s. ....................................................... 78
Hình 3.1. Đồ thị cấu trúc của thuật tốn ACOGNA ....................................... 93
Hình 3.2. So sánh thời gian chạy tính theo giây của 2 thuật toán ACOGNA++

và MAGNA++ .............................................................................................. 110

9


DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
SốTT

Tiếng Việt

Tiếng Anh

Viết

tắt,

ký hiệu

1

Tối ưu hóa đàn kiến

Ant Colony Optimization

ACO

2

Giải thuật di truyền


Genetic Algorithm

GA

3

Bài toán người chào hàng

Travelling Salesman Problem

TSP

4

Tối ưu tổ hợp

Combinatorial Optimization

TƯTH

5

Bầy ong nhân tạo

Artificial Bee Colony

ABC

6


Tối ưu bầy đàn

Particle Swarm Optimization

PSO

7

Hệ đàn kiến

Ant Colony System

ACS

8

Hệ kiến

Ant System

AS

9

Hệ kiến max - min

Max – Min Ant System

MMAS


10

Hệ kiến max – min trơn

Smooth Max – Min Ant System SMMAS

11

Tương tác protein

Protein – Protein Interaction

PPI

12

Sự chính xác về cạnh

Edge Correctness

EC

13

Bảo tồn cấu trúc cảm sinh Induced Conserved Structure

ICS

14


Điểm cấu trúc con đối xứng Symmetric substructure score

S3

15

Điểm dóng hàng tồn cục

Global Network Aligment Score GNAS

16

Nấm men

Saccharomyces Cerevisiae

SC

17

Ruồi giấm

Drosophila Melanogaster

DM

10


18


Người tinh khơn

Homo Sapiens

HS

19

Giun trịn

Caenorhabditis Elegans

CE

20

Dóng hàng nhiều đồ thị

Multigraph Alignment

MGA

11


MỞ ĐẦU

Những phát hiện về cơ chế di truyền trong cơ thể sống đã thúc đẩy sinh
học phân tử nói riêng và cơng nghệ sinh học nói chung phát triển mạnh mẽ

trong nửa thế kỷ qua, trở nên lĩnh vực nghiên cứu và ứng dụng hấp dẫn. Tuy
nhiên các nghiên cứu trong phịng thí nghiệm địi hỏi nhiều thời gian và tốn
kém. Cùng với sự phát triển của công nghệ thông tin, tin-sinh học [Junker, B &
Schreiber, 2008; M.Lesk, 2002] ra đời và là công cụ trợ giúp hiệu quả cho các
nghiên cứu sinh-y-dược.
Ngày nay, người ta hiểu rõ rằng các protein trong mỗi cơ thể sống quyết
định các đặc điểm sinh học quan trọng như kiểu hình, hệ miễn dịch… và việc
tổng hợp chúng được quy định bởi DNA hay là các bộ gene tương ứng theo
quá trình biểu diễn gene. Các mã di truyền của mỗi cá thể được lưu trong DNA
của nó, phát triển tuân theo quá trình tiến hóa đã được Darwin phát hiện và
Watson và Crick củng cố dựa trên các nghiên cứu vật lý.
Thoạt tiên, các kỹ thuật học máy được áp dụng để phân tích các trình tự
DNA và protein để phát hiện tính tương đồng/dị biệt cấu trúc giữa chúng. Các
phương pháp TƯTH mềm đã giải quyết hiệu quả các bài NP-khó trong lĩnh vực
này như dóng hàng các trình tự, xây dựng cây phân loài, suy diễn haplotype,
phát hiện motif và vị trí của nó trong bộ gene… Các kết quả này hỗ trợ đắc lực
cho lĩnh vực y học và sinh học trong phân tích các bộ gen, nghiên cứu đặc điểm
tiến hóa giữa các lồi, phát hiện và điều trị bệnh di truyền…
Tuy nhiên, việc nghiên cứu tính tương đồng/khác biệt cấu trúc tuần tự là
không đủ để phát hiện tính tương đồng/khác biệt về chức năng trong cơ thể
sống. Việc nghiên cứu các mạng sinh học [Junker, B & Schreiber, 2008] như
mạng tương tác protein-protein (PPI), mạng điều hịa gen, mạng các vị trí liên
kết protein, mạng trao đổi chất …mang lại tiếp cận nghiên cứu hiệu quả hơn về
12


phân tích chức năng trong sinh học phân tử. Đặc biệt, việc dóng hàng các mạng
các vị trí liên kết protein và các mạng tương tác protein-protein cho phép chúng
ta dự đốn đặc điểm chức năng ở các lồi chưa nghiên cứu kỹ từ các tri thức
của các loài đã biết, nhờ đó hiểu rõ hơn quan hệ tiến hóa sinh học, hỗ trợ thông

tin để nghiên cứu thuốc điều trị các bệnh di truyền. Các bài toán này thuộc loại
NP-khó và đang thu hút nhiều người nghiên cứu/ứng dụng do tính quan trọng
của chúng.
Hiểu rõ tầm quan trọng của tin-sinh học đối với phát triển công nghệ sinh
học của nước nhà, trong hơn 10 năm qua, ở khoa Công nghệ thông tin, Đại học
Công nghệ, Đại học Quốc gia Hà Nội đã hình thành và phát triển một nhóm
nghiên cứu các bài toán cơ bản và thời sự trong tin-sinh học nhằm góp phần tạo
tiền đề phát triển cơng nghệ sinh học nước nhà.
Trong bối cảnh đó, chúng tơi chọn chủ đề nghiên cứu "Một số thuật tốn
dóng hàng các mạng protein” với nội dung là nghiên cứu áp dụng các kỹ thuật
TƯTH mềm để đề xuất một số thuật tốn thơng minh giải hai bài tốn dóng
hàng nhiều mạng các vị trí liên kết protein và dóng hàng toàn cục hai mạng
tương tác protein-protein với chất lượng lời giải và thời gian tính tốn tốt hơn
so với các thuật toán mới nhất hiện nay.
Nhiệm vụ cụ thể đặt ra đối với tác giả luận án là:
 Tìm hiểu các dạng bài tốn dóng hàng các mạng protein nêu trên và
đánh giá ưu nhược điểm của các thuật toán giải cho các bài toán này
đã được đề xuất trong thời gian gần đây. Bên cạnh đó là tìm hiểu các
kỹ thuật tính tốn mềm để thấy rõ ưu và nhược điểm của từng phương
pháp. Trên cơ sở đó, đề xuất các thuật toán mới với chất lượng lời
giải tốt hơn các thuật toán hiện tại trong thời gian ngắn hơn cho các
bài toán này.
13


 Cài đặt và chạy thực nghiệm các thuật toán đề xuất trên các bộ dữ liệu
thực để đánh giá hiệu quả của các thuật toán mới đề xuất so với các
thuật tốn trước đó.
Trong thời gian qua, cùng với cán bộ hướng dẫn và các cộng sự, tác giả
luận án đã có đóng góp sau.

 Đề xuất ba thuật toán dựa trên tối ưu đàn kiến cho bài toán dóng hàng
nhiều đồ thị, bao gồm ACO-MGA, ACO-MGA2 và ACOTS-MGA.
 Đề xuất ba thuật tốn cho bài tốn dóng hàng tồn cục mạng tương
tác protein-protein, bao gồm thuật tốn heuristic FASTAN và hai
thuật toán tối ưu đàn kiến: ACOGNA và ACOGNA++.
Kết quả thực nghiệm cho thấy hiệu quả của các thuật toán đề xuất tốt hơn
so với các thuật toán được đề xuất trước đó.
Các kết quả của luận án đã được công bố trong 5 báo cáo hội nghị/hội
thảo quốc gia/quốc tế bao gồm 4 báo cáo hội nghị quốc tế (Cơng trình 1, 2, 3,
5) và một hội thảo toàn quốc “Nghiên cứu cơ bản và ứng dụng cơng nghệ thơng
tin” (Cơng trình 4), và một bài báo đăng ở tạp chí VNU Journal of Science:
Computer Science and Communication Engineering (cơng trình 6).
Ngồi phần mở đầu và kết luận, luận án được tổ chức như sau:
Chương 1 giới thiệu tổng quan về tin sinh học, hai bài toán dóng hàng
đồng thời nhiều mạng các vị trí liên kết protein và dóng hàng mạng tương tác
protein-protein cùng một số vấn đề liên quan. Giới thiệu các phương pháp
metaheuristic bao gồm giải thuật di truyền, phương pháp tối ưu đàn kiến, tính
tốn tiến hóa, các thuật tốn memetic và tìm kiếm Tabu.

14


Chương 2 trình bày ba thuật tốn dựa trên phương pháp tối ưu đàn kiến
để giải bài tốn dóng hàng đồng thời nhiều mạng các vị trí liên kết của protein.
Thuật toán thứ nhất là thuật toán ACO-MGA dựa trên phương pháp tối ưu đàn
kiến để giải bài tốn dóng hàng nhiều đồ thị. Thuật toán thứ hai là thuật tốn
ACO-MGA2 dựa trên lược đồ memetic, trong đó sử dụng phương pháp tối ưu
đàn kiến để tạo ra tập các lời giải và sử dụng các chiến lược tìm kiếm cục bộ
khác nhau để cải thiện chất lượng lời giải tốt nhất do các kiến tìm được. Thuật
tốn thứ ba ACOTS-MGA là một thuật toán memetic dựa trên kết hợp ACO và

tìm kiếm cấm. Các kết quả thực nghiệm trên các bộ dữ liệu mô phỏng và dữ
liệu thực cho thấy các thuật toán đề xuất tốt hơn so với các thuật tốn mới nhất
để giải bài tốn dóng hàng đồng thời nhiều mạng các vị trí liên kết protein.
Chương 3 trình bày ba thuật tốn đề xuất để giải bài tốn dóng hàng tồn
cục hai mạng tương tác protein-protein. Thuật toán thứ nhất là thuật toán
FASTAN theo hướng tiếp cận heuristic. Tiếp theo là 2 thuật toán ACOGNA và
ACOGNA++ dựa trên phương pháp tối ưu đàn kiến. Hiệu quả của các thuật
toán được kiểm nghiệm trên các bộ dữ liệu chuẩn (IsoBase) được sử dụng bởi
các thuật toán mới nhất hiện nay. Các thực nghiệm đã cho thấy hiệu quả nổi
trội của các thuật toán đề xuất.

15


Chương 1. DÓNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM
Trong chương này, đầu tiên luận án giới thiệu ngắn gọn bức tranh chung
của tin sinh học và giới thiệu 2 bài toán tối ưu tổ hợp quan trọng trong lĩnh vực
Tin sinh học là: Bài tốn dóng hàng mạng nhiều mạng vị trí liên kết protein và
bài tốn dóng hàng tương tác protein-protein. Tiếp theo đó, luận án giới thiệu
về các phương pháp tối ưu mềm là cơ sở để đề xuất các thuật toán mới để giải
quyết 2 bài tốn dóng hàng các mạng protein.
1.1.

Tin sinh học và dóng hàng các mạng protein
1.1.1. Giới thiệu về tin sinh học
Trong thế kỷ 19, nhà tự nhiên học đồng thời là nhà địa lý và sinh vật học

người Anh C. R. Darwin (1809 –1882) đã nhận thấy rằng theo thời gian, mỗi
lồi sinh vật ln biến đổi tiến hóa để phù hợp với môi trường sinh tồn của
chúng và đưa ra học thuyết tiến hóa nổi tiếng của ơng. Nhờ các thành tựu của

khoa học và kỹ thuật vật lý, năm 1953, Crick và Watson đã khám phá cấu trúc
DNA mở đầu cho kỷ nguyên chinh phục cơ chế di truyền trong sinh vật phù
hợp với học thuyết Darwin.
Hơn 60 năm qua, sinh học phân tử nói riêng và cơng nghệ sinh học nói
chung phát triển mạnh mẽ, trở nên lĩnh vực nghiên cứu và ứng dụng hấp dẫn,
tạo ra cuộc cách mạng đối với sự hiểu biết của chúng ta về chức năng của tế
bào, mở ra con đường để phát hiện ra cơ chế sinh học phức tạp và sự liên quan
của chúng đến bệnh tật và sự phát triển của cơ thể sống. Trong đó, hiểu biết về
quá trình tổng hợp protein đặt nền tảng cho sinh học phân tử.
1.1.1.1. Q trình tổng hợp protein
DNA mang thơng tin di truyền và điều khiển tổng hợp protein của sinh
vật, cịn protein quyết định đặc tính, chức năng và quá trình phát triển của cơ

16


thể sống [Lê Sỹ Vinh, 2014]. DNA là chuỗi xoắn kép được cấu tạo từ 4 loại
nucleotide: Adenine, Cytosine, Guanine và Thymine, chúng được ký hiệu
tương ứng là A, C, G và T. Một đoạn của chuỗi DNA mang thông tin cần thiết
để tạo nên protein gọi là một đoạn gen hay gọn hơn là một gen. Mỗi sinh vật
có nhiều gen, chẳng hạn con người có khoảng 25 nghìn gen khác nhau.
Q trình tổng hợp protein từ thơng tin ở DNA gồm 2 giai đoạn: phiên
mã và dịch mã [Lê Sỹ Vinh, 2014] như được minh họa trong hình 1.1.
Trong giai đoạn phiên mã, đoạn gen mang thông tin hướng dẫn tổng hợp
protein được chuyển sang đoạn RNA có nội dung tương tự đoạn gen nhờ thay
Thymine bởi Uracil, được ký hiệu là U.
Trong giai đoạn dịch mã, đoạn RNA được dịch mã để tạo nên chuỗi các
amino acid và chuỗi này được cuộn gấp (folded) tạo thành protein. Các protein
được cấu tạo từ 20 loại amino acid.


Hình 1.1. Q trình tổng hợp protein
Trong q trình tiến hóa, các gen/RNA/protein được di truyền và có thể
biến đổi nhờ các biến dị của các nucleotide/amino acid thành phần dưới dạng
xóa/chèn/ thay thế một nucleotide bằng một nucleotide khác. Tùy theo việc đặc
điểm sinh học của sinh vật do protein quy định có phù hợp với mơi trường hay
khơng mà biến dị được củng cố tồn tại/ phát triển hoặc tiếp tục biến đổi bởi
17


biến dị khác nếu không triệt tiêu cùng các cá thể mang nó. Sự biến đổi theo thời
gian của các bộ gen tạo nên q trình tiến hóa của các loài sinh vật. Nhận thức
này đặt cơ sở cho các nghiên cứu và ứng dụng trong sinh học phân tử và
tin-sinh học.
1.1.1.2. Sinh học phân tử và phân tích các trình tự trong tin sinh học
Thoạt tiên, các nghiên cứu sinh học phân tử được thực hiện và kiểm
chứng bằng thực nghiệm trong các phịng thí nghiệm. Tuy nhiên việc nghiên
cứu trong phịng thí nghiệm địi hỏi nhiều thời gian và chi phí cao nên kìm hãm
tiến trình nghiên cứu. Các tri thức về quá trình tổng hợp protein và cấu trúc của
quá trình tổng hợp protein cùng sự phát triển, ứng dụng rộng rãi của công nghệ
thông tin cho phép thực hiện các phân tích Tin-Sinh để trợ giúp các dự đoán và
nghiên cứu trong sinh học phân tử.
Các bài tốn và kỹ thuật dóng hàng trình tự [Lê Sỹ Vinh, 2014]
Dựa trên sự phân tích tương đồng/dị biệt cấu trúc của các trình tự DNA và
protein, người ta có được các nhận biết về quan hệ giữa các lồi sinh vật và các
cá thể, dự đốn các đặc tính sinh học từ các lồi mới dựa trên đặc tính của các
lồi đã nghiên cứu kỹ gần với nó.
Như đã nói ở trên, trong q trình tiến hóa của các lồi, các gen/RNA/protein
được di truyền và có thể biến đổi nhờ các biến dị của các nucleotide/amino acid
thành phần dưới dạng xóa/chèn/ thay thế một nucleotide bằng một nucleotide
khác. Sau khi giải trình tự gen/RNA/protein người ta sử dụng các kỹ thuật học

máy để phân tích chúng, bắt đầu từ các bài tốn đơn giản như dóng hàng 2 hoặc
nhiều trình tự, xác định trình tự con đến các bài tốn phức tạp hơn như: xây
dựng cây phân lồi, tìm kiếm motif và vị trí của chúng (xác định miền điều hịa
gen), suy diễn haplotype, dự đốn biến đổi amino acid, v.v.

18


Các bài tốn phức tạp này được mơ hình hóa dựa trên các nhận xét của các
nhà sinh học. Nhiều bài toán trong chúng là những bài toán tối ưu tổ hợp xử lý
dữ liệu tuần tự và thuộc loại NP-khó. Để dễ hình dung cách đặt bài tốn và sử
dụng, ta trở lại với bài tốn tìm kếm motif và làm quen với bài tốn xây dựng
cây phân lồi.
Bài tốn tìm kiếm DNA motif và mơ hình hóa tổng quát
DNA motif là một đoạn ngắn trong DNA, chúng thường có chức năng đặc
biệt đối với các gen trong bộ gen, chẳng hạn, điều hòa gen [Hoang X. Huan,
Tuyet, Ha, & Hung, 2015]. Đoạn này thường lặp đi lặp lại trong bộ gen. Các
thuật tốn tin sinh sẽ tìm ra các đoạn nghi ngờ là motif và vị trí của chúng trên
các bộ gen để các nhà sinh vật kiểm tra lại bằng thực nghiệm thay vì tìm kiếm
mù để làm thực nghiệm.
Bài tốn được mơ hình hóa tổng qt như sau [Hoang X. Huan et al., 2015]:
Xét tập S = {S1,S2, ..., SN } các trình tự độ dài m trên bộ chữ cái Σ . Với giá trị l
< m cho trước , cần tìm trình tự x = {𝑥1, 𝑥2 , ..., 𝑥𝑖 , ...𝑥𝑙 } trên bộ chữ cái Σ với
độ dài l và tập xâu con M = {𝑚1 , 𝑚2 ,..., 𝑚𝑁 } có cùng độ dài l được lấy ra từ
các chuỗi Si tương ứng sao cho nó tốt nhất theo một tiêu chuẩn định trước nào
đó.
Tiêu chuẩn đồng thuận xác định bởi tổng khoảng cách Hamming tới các xâu
trong tập là nhỏ nhất. Tuy nhiên người ta cũng có thể định nghĩa motif là xác
định hàm mục tiêu khác theo mục đích của nhà sinh học, chẳng hạn số trình tự
trong tập S có khoảng cách Hamming tới x là nhỏ nhất.

Với tiêu chuẩn được chọn, các thuật toán đề xuất sẽ cho ta các motif và vị
trí của chúng trên các trình tự để nhà sinh học xem xét quyết định làm thực
nghiệm kiểm định hay không (trợ giúp quyết định).

19


Bài tốn xây dựng cây phân lồi [Lê Sỹ Vinh, 2014]
Trong bài tốn này, dựa trên phân tích tính tương đồng thể hiện qua dữ liệu
sinh học phân tử (DNA/protein) của các lồi, người ta dự đốn quan hệ giữa
các lồi và xây dựng cây phân lồi. Hai lồi có hệ gen và protein càng gần nhau
thì quan hệ tiến hóa càng gần nhau. Dựa trên phân tích quan hệ như vậy, người
ta xây dựng cây nhị phân không gốc với cấu trúc như sau:
 Mỗi nút là ứng với một loài sinh vật hiện thời
 Mỗi nút trong ứng với một lồi sinh vật tổ tiên mà thơng thường ta
khơng có thơng tin về lồi này.
 Mỗi cạnh của cây nối nút của cây ứng với hai loài sinh vật có quan
hệ tiến hóa trực tiếp.
 Khoảng cách nối hai nút ứng với hai loài trên cây cho biết khoảng
cách tiến hóa giữa chúng
Các quan hệ trên cây xây dựng được cho ta kết qủa dự đoán dựa trên kỹ
thuật phân tích hiện có, khi có thêm kỹ thuật mới để xét tính tương đồng, chẳng
hạn, tính tương tự mạng protein (sẽ đề cập ở dưới) ta sẽ điều chỉnh cho chính
xác hơn. Mặc dù các cây được xây dựng như thế khơng hồn tồn chính xác
với tiến hóa thực nhưng nó rất hữu ích cho các nhà sinh học khi nghiên cứu các
lồi sinh vật. Nhờ nó mà các nhà sinh học có thể dự đốn một số đặc điểm sinh
học có tính di truyền từ các đặc điểm của những lồi gần gũi với nó.
Việc nghiên cứu tính tương đồng các trình tự DNA/Protein khơng đủ thơng
tin cho nghiên cứu chức năng và đặc tính y học nên người ta quan tâm đến các
bài tốn phân tích dữ liệu 3 chiều. Chẳng hạn, người ta nhận thấy trong quá

trình tổng hợp protein, nếu các amino acid được cuộn gấp sai sẽ gây nên các
bệnh di truyền. Nếu ta dự báo và phát hiện được lỗi cuộn gấp thì có thể phát
hiện bệnh và tìm được phương thức điều trị. Để phát triển nghiên cứu, người ta
đã xây dựng các CSDL không gian và các mạng sinh học.
20


1.1.1.3. Các mạng sinh học
Dóng hàng các chuỗi thuộc hệ gen đã tăng cường kiến thức y sinh học nhờ
phát hiện các vùng trình tự có sự tương đồng giữa các gen ở các lồi khác nhau,
các vùng đó có khả năng phản ánh các mối quan hệ chức năng và tiến hóa giữa
các trình tự [Alfưldi & Lindblad-Toh, 2013; Altschul, Gish, Miller, & Lipman,
1990; Biesecker et al., 2009; Tsai, Iafrate, & Joung, 2014]. Tuy nhiên, các gen
hoặc các sản phẩm protein của chúng không hoạt động một cách độc lập mà
chúng thực hiện các quá trình tế bào bằng cách tương tác với nhau.
Các tương tác này được mô hình hóa bởi mạng sinh học, chẳng hạn như:
mạng điều hòa gen, mạng trao đổi chất, mạng tương tác protein-protein
(protein-protein interactive: PPI), mạng các vị trí liên kết protein. Khơng giống
như các nghiên cứu về các chuỗi gen, nghiên cứu mạng sinh học cho phép hiểu
được các quá trình tế bào phức tạp phát sinh từ các hoạt động chung của các
phân tử sinh học.
Những tiến bộ trong công nghệ sinh học hiện thời cung cấp nhiều dữ liệu
cho phép ta nghiên cứu sâu hơn về các mạng sinh học và cho ta nhiều tri thức
quý giá. Chẳng hạn, việc dóng hàng mạng sinh học nhằm tìm ánh xạ tương ứng
đủ tốt giữa các nút mạng của các loài khác nhau cho phép xác định các vùng
mạng có sự tương đồng về kiểu cấu trúc tô pô và cấu trúc trình tự, nhờ đó có
thể chuyển một cách hiệu quả các kiến thức về chức năng của tế bào từ các loài
đã được nghiên cứu tốt sang những loài chưa được nghiên cứu nhiều hoặc khó
làm thực nghiệm. Bởi vì việc nghiên cứu thực nghiệm trên con người gặp nhiều
khó khăn bởi các rào cản đạo đức và pháp luật, nhờ dóng hàng mạng mà người

ta có thể chuyển các tri thức đã biết từ nấm men (Saccharomyces cerevisiae),
ruồi giấm (Drosophila melanogaster), hoặc sâu (Caenorhabditis elegans) sang
tri thức của con người dựa trên phát hiện các vùng mạng được bảo tồn [Clark
& Kalita, 2014; Malod-Dognin & Pržulj, 2014; R. Sharan & Ideker, 2006].
21


Luận án này tập trung nghiên cứu hai bài toán thời sự: dóng hàng nhiều
mạng các vị trí liên kết protein và dóng hàng tồn cục hai mạng tương tác
protein-protein (về sau sẽ gọi gọn là mạng tương tác protein).
1.1.2. Bài tốn dóng hàng nhiều mạng các vị trí liên kết protein.
Suy diễn chức năng của các protein chưa biết thơng qua các protein đã
biết giữ vai trị quan trọng trong lĩnh vực khoa học sự sống nói chung và lĩnh
vực hóa dược nói riêng [Borrel, 2016; W. Yang & Lai, 2017; Yuan, Xu, Yuan,
& Xu, 2018]. Trong đó, so sánh các protein giữ vai trị trung tâm.
Dự đốn chức năng của các protein có thể thực hiện được ở cả mức chuỗi
và mức độ cấu trúc. Nhận thấy rằng các protein với sự giống nhau của chuỗi
amino axit trên 40% thường có các chức năng tương tự [Todd, Orengo, &
Thornton, 2001] nên so sánh theo trình tự thường là phương pháp đầu tiên được
sử dụng. Nhiều phương pháp tiếp cận khác nhau được giới thiệu và sử dụng
rộng rãi [Altschul et al., 1997; Edgar, 2004; Notredame, Higgins, & Heringa,
2000; Sjolander, 2004; Thompson, Higgins, & Gibson, 1994]. Tuy nhiên,
phương pháp này không phù hợp để xác định sự tương đồng chức năng giữa
các phân tử bởi vì sự tương đồng chức năng có liên quan mật thiết với các đặc
tính cấu trúc hơn là các đặc tính tuần tự [Aladag & Erten, 2013; CONTE,
FOGGIA, SANSONE, & VENTO, 2004; Notredame et al., 2000; Yan, Yu, &
Han, 2005].
Để phân tích cấu trúc của các protein, một số tác giả [Aladag & Erten,
2013; CONTE et al., 2004; Kinoshita & Nakamura, 2005; Oleksii Kuchaiev &
Pržulj, 2011; Mernberger, Klebe, & Hullermeier, 2011; Xifeng Yan, Feida Zhu,

Jiawei Han, & Yu, 2006; Yan et al., 2005; S. Zhang, Hu, & Yang, 2007] đề
xuất sử dụng mơ hình đồ thị để biểu diễn cấu trúc 3 chiều của protein.

22


1.1.2.1. Mơ hình hóa mạng các vị trí liên kết protein thành đồ thị
Để nghiên cứu cấu trúc của các protein, bước đầu tiên là cần biểu diễn
cấu trúc của các protein theo mơ hình đồ thị. Các nghiên cứu [Fober,
Mernberger, Klebe, & Hüllermeier, 2009; Weskamp, Hüllermeier, Kuhn, &
Klebe, 2007] được thực hiện trên cơ sở dữ liệu Cavbase [Schmitt, Kuhn, &
Klebe, 2002] – một hệ thống cơ sở dữ liệu sử dụng thuật toán LIGSITE
[Hendlich, Rippmann, & Barnickel, 1997] để tự động phát hiện, trích xuất và
lưu trữ các khoang protein (các túi liên kết – binding pockets) từ các cấu trúc
protein được xác định qua thực nghiệm (có sẵn từ ngân hàng dữ liệu protein
[Berman et al., 2002]). Trong cơ sở dữ liệu này, các túi liên kết được biểu diễn
xấp xỉ bằng các đồ thị [Hendlich, Bergner, Günther, & Klebe, 2003; Schmitt et
al., 2002].
Để mơ hình hóa một túi liên kết thành 1 đồ thị, sự sắp xếp trong khơng
gian và các thuộc tính lý hóa của một túi liên kết được gọi là tâm giả
(pseudocenter)- các điểm trong không gian biểu thị cho tâm của một đặc trưng
riêng [Weskamp et al., 2007]. Kiểu và vị trí không gian của các tâm phụ thuộc
vào các amino axit được bao quanh bởi các túi liên kết và biểu hiện các nhóm
chức năng của chúng. Chúng thu được từ cấu trúc của protein sử dụng một tập
các luật định trước [Schmitt et al., 2002]. Các loại tâm giả bao gồm:
pseudocenters, hydrogenbond donor, acceptor, mixed donor/acceptor,
hydrophobic aliphatic, metal ion, pi.
Một túi liên kết được mơ hình hóa bởi đồ thị G(V,E), trong đó V là tập
các đỉnh, E là tập các cạnh. Nhãn của các đỉnh thuộc một tập L = {A, B, C, D,
E, F, G}, trong đó A đại diện cho donor, B đại diện cho acceptor, v.v. Hai đỉnh

được xem như có kết nối với nhau và được biểu diễn bởi 1 cạnh trong đồ thị G

23


×