Tải bản đầy đủ (.pdf) (178 trang)

Luận án tiến sĩ dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.49 MB, 178 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐỒN DUY BÌNH

DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA
PHÂN TỬ SINH HỌC
TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT
TÍNH TỐN MỀM

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng – 2023


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐỒN DUY BÌNH

DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA
PHÂN TỬ SINH HỌC
TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT
TÍNH TỐN MỀM

Chun ngành: KHOA HỌC MÁY TÍNH
Mã số: 9.48.01.01

Người hướng dẫn khoa học:
TS. Phạm Minh Tuấn
TS. Đặng Đức Long



LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng – 2023


LỜI CẢM ƠN

Trước khi trình bày nội dung chính của luận án, để có được thành quả ngày hơm
nay, trong suốt thời gian thực hiện luận án này, tôi đã nhận được sự quan tâm giúp đỡ,
hỗ trợ nhiệt tình và những lời động viên chân thành, quý báu từ q Thầy Cơ cùng
người thân, bạn bè. Với lịng biết ơn sâu sắc, trước tiên tôi xin gởi lời cảm ơn chân
thành đến những người thân trong gia đình – họ đã khơng ngại khó khăn, gian nan vất
vả để tạo điều kiện thuận lợi cho tôi trong suốt thời gian học tập, là người tiếp thêm
sức mạnh hỗ trợ tơi vượt qua khó khăn để hồn thành luận án này.
Tơi xin bày tỏ lịng biết ơn sâu sắc tới Tiến sỹ Phạm Minh Tuấn, Tiến sỹ Đặng
Đức Long người đã tận tình quan tâm, động viên, giúp đỡ và trực tiếp hướng dẫn tôi
trong suốt thời gian học tập cũng như trong q trình nghiên cứu để tơi hồn thành
luận án này.
Tơi cũng xin bày tỏ lịng biết ơn chân thành tới tồn thể Thầy Cơ, Cán bộ Nhân
viên của khoa Cơng nghệ Thơng tin và các Phịng Ban chức năng của trường Đại học
Bách Khoa, Đại Học Đà Nẵng đã tận tình hướng dẫn, cung cấp tài liệu, động viên
củng cố niềm tin và ý chí cho tơi vượt qua các chặng đường khó khăn trong suốt q
trình nghiên cứu tại khoa và tại trường.
Tôi xin chân thành cảm ơn tới toàn thể các đồng nghiệp trong khoa Tin học của
trường Đại học Sư Phạm, Đại học Đà Nẵng đã luôn tạo điều kiện cho tôi về mặt thời
gian để tơi hồn thành luận án này. Tơi cũng xin chân thành cảm ơn đến trường Đại
học Sư phạm, Đại học Đà Nẵng luôn tạo điều kiện về mọi mặt trong q trình tơi học
tập, nghiên cứu và hồn thành luận án.


i


Nhân dịp này tôi cũng xin được gửi lời cảm ơn chân thành tới tồn thể gia đình,
bạn bè và anh chị em NCS của khoa Công nghệ Thông tin đã luôn bên tôi, cổ vũ,
động viên, giúp đỡ tôi trong suốt quá trình học tập tại trường.
Đà Nẵng, ngày tháng năm 2023
Nghiên cứu sinh

Đồn Duy Bình

ii


Mục lục
Chương 1. Tổng quan về RNA, cấu trúc bậc hai RNA và tính tốn mềm . . . . .

7

1.1. Công nghệ sinh học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.2. Tin sinh học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

1.3. Cấu trúc Ribonucleic Acid (RNA) và các khái niệm liên quan . . . . . . .

11


1.3.1. Cấu trúc RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

1.3.2. Các khái niệm liên quan đến RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

1.3.3. Dự đoán cấu trúc RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

1.3.4. Các cách biểu diễn cấu trúc bậc hai RNA . . . . . . . . . . . . . . . . . . . . . . .

19

1.3.5. Các phương pháp dự đoán cấu trúc bậc hai RNA, những tồn tại và hướng
nghiên cứu phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

1.4. Tính tốn mềm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

1.4.1. Thuật toán Di truyền - (Genetic Algorithm - GA) . . . . . . . . . . . . . . . .

25


1.4.2. Logic mờ và các đặc trưng của tập mờ . . . . . . . . . . . . . . . . . . . . . . . . . .

27

1.4.3. Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) . . . . . . . .

33

1.4.4. Mạng nơ-ron hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

1.4.5. Mạng nơ-ron dài ngắn hạn (Long Short-Term Memory - LSTM) . .

35

1.5. Kết luận Chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

Chương 2. Đề xuất các phương pháp kết hợp trong tính tốn mềm để dự đoán
cấu trúc bậc hai phân tử sinh học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

2.1. Bài toán dự đoán cấu trúc bậc hai của phân tử sinh học . . . . . . . . . . . . .

39

iii



MỤC LỤC

MỤC LỤC

2.2. Các tham số nhiệt động học. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

2.2.1. Năng lượng tự do cho những vòng xếp chồng (Stack loop): . . . . . . .

41

2.2.2. Những năng lượng gây mất ổn định theo kích thước vịng: . . . . . . . .

41

2.2.3. Năng lượng tự do cho các vịng kẹp tóc (hairpin loops) tổng qt: .

42

2.2.4. Năng lượng tự do cho vịng kẹp tóc (hairpin loops) với chiều dài là 4: . .
43
2.2.5. Năng lượng tự do cho vòng lặp trong (internal loops) tổng quát: . . .

43

2.2.6. Năng lượng tự do cho vòng lặp trong (internal loops) đối xứng với kích
thước 2: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


44

2.2.7. Năng lượng tự do cho vịng lặp trong (internal loops) khơng đối xứng có
kích thước 3: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

2.2.8. Năng lượng tự do cho vịng lặp trong (internal loops) đối xứng với kích
thước 4: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

2.2.9. Năng lượng tự do cho những điểm bên ngoài (External):. . . . . . . . . .

44

2.2.10. Các quy tắc năng lượng tự do hổn hợp: . . . . . . . . . . . . . . . . . . . . . . . .

45

2.3. Tính tốn năng lượng tự do của một cấu trúc bậc hai . . . . . . . . . . . . . . .

47

2.3.1. Những hàm tổng quát . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

2.3.2. Tính năng lượng tự do cho vịng xếp chồng . . . . . . . . . . . . . . . . . . . . . .


49

2.3.3. Tính tốn năng lượng tự do cho vịng kẹp tóc . . . . . . . . . . . . . . . . . . . .

49

2.3.4. Tính tốn năng lượng tự do cho vòng lặp trong . . . . . . . . . . . . . . . . . .

51

2.3.5. Tính năng lượng tự do cho vịng nhiều nhánh . . . . . . . . . . . . . . . . . . . .

53

2.3.6. Tính tốn năng lượng tự do cho cấu trúc nhiều miền . . . . . . . . . . . . .

54

iv


MỤC LỤC

MỤC LỤC

2.4. Các phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55


2.4.1. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

2.4.2. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . .

66

2.4.3. Kết hợp thuật toán di truyền với mạng nơ-ron nhân tạo, cụ thể là mạng
LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

2.5. Kết luận Chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

Chương 3. Áp dụng tính tốn mềm cho bài toán dự đoán cấu trúc bậc hai RNA .
81
3.1. Cơ sở dữ liệu RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

3.2. Bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83

3.3. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83


3.4. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

3.4.1. Khởi tạo các tham số cho thuật toán di truyền . . . . . . . . . . . . . . . . . . .

86

3.4.2. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

3.4.3. So sánh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

3.5. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . .

93

3.5.1. Khởi tạo các tham số cho thuật toán di truyền kết hợp với logic mờ

93

3.5.2. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

93

3.5.3. So sánh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


96

3.6. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . .

98

3.6.1. Mơ hình kết hợp GA với LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

3.6.2. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99

v


MỤC LỤC

MỤC LỤC

3.6.3. So sánh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

102

3.7. Kết luận Chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

104


................................................................

i

SARS-CoV-2 - 88 Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

i

1. Thông tin chuỗi (Bảng 13 ): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

i

2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

i

3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . . .

iii

4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . . .

iii

II. Virus E.Coli với chiều dài 221 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . .

iv

1. Thông tin chuỗi (Bảng 17) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


iv

2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

iv

3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . .

v

4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . . .

vii

III. Virus Bmori với chiều dài 498 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . .

vii

1. Thông tin chuỗi (Bảng :21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

vii

2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

vii

3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . . .

ix


4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . . . .

x

IV. Schizosaccharomyces pombe với chiều dài 119 nucleotides . . . . . . . . . . .

xi

1. Thông tin chuỗi (Bảng 25 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xi

2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xi

3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . .

xiii

I.

vi


MỤC LỤC

MỤC LỤC

4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . .


xiv

V. Oryza sativa Japonica Group (Japanese rice) với chiều dài 324 nucleotides
xv
1. Thông tin chuỗi (Bảng 29 ):. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xv

2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xvi

3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . .

xvi

4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . .

xvii

VI. Mycoplasma capricolum với chiều dài 865 nucleotides . . . . . . . . . . . .

xviii

1. Thông tin chuỗi (Bảng 33 ): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xviii

2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


xix

3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . .

xx

4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . . .

xx

VII.Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543 nucleotides . . .

xxi

1. Thông tin chuỗi (Bảng 37 ): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxi

2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxii

3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . .

xxiv

4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . .

xxvi


VIII.Bạch hầu - Corynebacterium diphtheriae với chiều dài 176 nucleotides . . .
xxvii
1. Thông tin chuỗi (Bảng 41 ): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxvii

2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxvii

3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . .

xxviii

4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . .
vii

xxix


MỤC LỤC

MỤC LỤC

IX. Tay chân miệng (loại ít gây ra các biến chứng về thần kinh)- Coxsackie A16
với chiều dài 252 nucleotides. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxx


1. Thông tin chuỗi (Bảng 45 ): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxx

2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxx

3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . .

xxxi

4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . .

xxxiii

X. Tay chân miệng (loại gây ra các biến chứng nguy hiểm)- Enterovirus A71
với chiều dài 252 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxxiv

1. Thông tin chuỗi (Bảng 49): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxxiv

2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxxv

3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . .


xxxvi

4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . .

xxxvi

viii


Danh sách hình vẽ

1.1

Mối quan hệ giữa DNA, RNA và Protein . . . . . . . . . . . . . . . . . . 11

1.2

Các nucleotide chuẩn của RNA và sự kết cặp của chúng . . . . . . . . . . 13

1.3

Ba cấp của cấu trúc RNA. a) Cấu trúc bậc 1. b) Cấu trúc bậc 2. c) Cấu
trúc bậc 3 [63] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.4

Các cặp nucleotide chính tắc [33] . . . . . . . . . . . . . . . . . . . . . . 16

1.5


Cấu trúc bậc hai RNA khơng có có các cặp nucleotide bắt liên kết
chéo nhau (pseudoknot free) [60] . . . . . . . . . . . . . . . . . . . . . . 16

1.6

Cấu trúc bậc hai RNA có các cặp nucleotide bắt liên kết chéo nhau
(pseudoknotted)[51] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.7

Các cách biểu diễn cấu trúc bậc hai RNA [45] . . . . . . . . . . . . . . . 19

1.8

Lưu đồ thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.9

Các tập mờ tam giác. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

1.10 Tập mờ hình thang. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.11 Tập mờ L. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.12 Tập mờ Gamma tuyến tính. . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.13 Một phần của mạng nơ-ron hồi quy, A nhìn vào đầu vào Xt và xuất ra
một giá trị ht . Các vòng truyền thông tin từ bước này sang bước khác
của mạng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.14 Cấu trúc mạng LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1


Các cấu trúc thành phần tạo nên cấu trúc bậc hai RNA [60] . . . . . . . . 40

ix


DANH SÁCH HÌNH VẼ

2.2

DANH SÁCH HÌNH VẼ

(a) Bảng năng lượng cho vịng lặp trong với cặp bazơ đóng là (G,C).
Đây là kiểu được hiển thị trong hình (b). (c) là ví dụ mà ở đó có giá trị
được tìm thấy trong bảng ở hình (a), ở đó a = G, b = C và c = G, d = C . 42

2.3

(a) Năng lượng tự do cho từng vòng với kích thước cụ thể. (b) Một ví
dụ của vịng lặp trong có chiều dài là 4 . . . . . . . . . . . . . . . . . . . 42

2.4

(a). Bảng năng lượng tự do cho vịng kẹp tóc của kiểu trong (b). (c) là
một ví dụ, trong đó c = G và d = A. . . . . . . . . . . . . . . . . . . . . 42

2.5

(a) Ví dụ của giá trị năng lượng cho vịng kẹp tóc có độ dài 4. (b) một
ví dụ cụ thể cho những vịng kẹp tóc. . . . . . . . . . . . . . . . . . . . . 43


2.6

(a) Bảng năng lượng cho vịng lặp trong với cặp bazơ đóng là (C, G).
Đây là kiểu được hiển thị trong hình (b), (c) là ví dụ mà ở đó có giá
trị được tìm thấy trong bảng ở hình (a), ở đó c = G, d = A và c = A, d = G 43

2.7

(a) Năng lượng tự do cho vòng lặp trong đối xứng với kích thước 2, và
có kiểu được hiển thị ở (b). Năng lượng cho ví dụ với vịng lặp trong,
trong đó c = G và d = A, được hiển thị ở (c). . . . . . . . . . . . . . . . . 44

2.8

(a) Năng lượng tự do cho vòng lặp trong khơng đối xứng với kích
thước 3, với kiểu thể hiện ở (b), năng lượng tương ứng cho ví dụ ở (c),
với c = C, d = A và e = C ; (d) Năng lượng tự do cho vịng lặp trong
khơng đối xứng với kích thước 3, với kiểu thể hiện ở (e), năng lượng
tương ứng cho ví dụ ở (f), với x = A, y = C và e = G. . . . . . . . . . . . 45

2.9

(a) Giả sử một phần của bảng năng lượng tự do cho vòng lặp trong
đối xứng với kích thước 4, kiểu vịng thể hiện là (b). Năng lượng cho
ví dụ là (c), với v = A, w = A và c = G, d = G. . . . . . . . . . . . . . . . 45

x


DANH SÁCH HÌNH VẼ


DANH SÁCH HÌNH VẼ

2.10 (a) Năng lượng tự do cho những điểm cuối lủng lẳng với chiều kết
thúc là 3’, với kiểu là (b), tương ứng năng lượng cho vi dụ là (c); (d)
Năng lượng tự do cho những điểm cuối lủng lẳng với chiều kết thúc
là 5’, với kiểu là (e), tương ứng năng lượng cho vi dụ là (f). . . . . . . . . 46
2.11 Các quy tắc năng lượng tự do hổn hợp. . . . . . . . . . . . . . . . . . . . 47
2.12 Các bazơ lơ lững giữa các miền. . . . . . . . . . . . . . . . . . . . . . . 54
2.13 Hình a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.14 Hình b. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.15 Quá trình tạo helix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.16 Lưu đồ kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . 67
2.17 Đồ thị của hàm thành viên µ (i) . . . . . . . . . . . . . . . . . . . . . . . 75
2.18 Sơ đồ kết hợp GA và LSTM cho bài toán dự đoán cấu trúc bậc hai RNA. . 77
3.1

Cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài 1352 nucleotides
khi áp dụng thuật toán GA vợi bộ tham số cho trong bảng 3.4 . . . . . . . 88

3.2

Cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài 1352 Nucleotides
với thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . . . . . . 91

3.3

Cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài 1352 Nucleotides
với thuật toán di truyền vợi bộ tham số cho trong bảng 3.4 . . . . . . . . . 92


3.4

Cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài 1352 Nucleotides
với thuật tốn GA có kết hợp logic mờ . . . . . . . . . . . . . . . . . . . 95

3.5

Cấu trúc của chuỗi SARS-CoV-2 - 88 Nucleotides khi áp dụng mơ
hình GA-LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

6

Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật toán quy hoạch động ii

7

Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật toán di truyền . . . ii
xi


DANH SÁCH HÌNH VẼ

8

DANH SÁCH HÌNH VẼ

Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật tốn GA có kết
hợp logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii

9


Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật tốn GA có kết
hợp LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv

10

Cấu trúc của chuỗi E.Coli với chiều dài 221 nucleotides với thuật toán
quy hoạch động . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v

11

Cấu trúc của chuỗi E.Coli với chiều dài 221 nucleotides với thuật toán
di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi

12

Cấu trúc của chuỗi E.Coli có chiều dài 221 nucleotides áp dụng thuật
toán di truyền kết hợp với Logic mờ . . . . . . . . . . . . . . . . . . . . vii

13

Cấu trúc của chuỗi E.Coli có chiều dài 221 nucleotides áp dụng thuật
toán di truyền kết hợp với LSTM . . . . . . . . . . . . . . . . . . . . . . viii

14

Cấu trúc của chuỗi Bmori 498 nucleotides với quy hoạch động . . . . . . viii

15


Cấu trúc của chuỗi Bmori với chiều dài 498 nucleotides với thuật toán
di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x

16

Cấu trúc của chuỗi Bmori với chiều dài 498 nucleotides với thuật toán
di truyền kết hợp với logic mờ . . . . . . . . . . . . . . . . . . . . . . . xi

17

Cấu trúc của chuỗi Bmori với chiều dài 498 nucleotides với thuật toán
di truyền kết hợp với LSTM . . . . . . . . . . . . . . . . . . . . . . . . . xii

18

Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119
nucleotides với thuật toán quy hoạch động . . . . . . . . . . . . . . . . . xiii

19

Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119
nucleotides với thuật toán GA . . . . . . . . . . . . . . . . . . . . . . . . xiii

20

Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119
nucleotides với thuật toán GA kết hợp với logic mờ . . . . . . . . . . . . xiv
xii



DANH SÁCH HÌNH VẼ

21

DANH SÁCH HÌNH VẼ

Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119
nucleotides với thuật toán GA kết hợp với LSTM . . . . . . . . . . . . . xv

22

Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với
chiều dài 324 nucleotides với thuật toán quy hoạch động . . . . . . . . . xvi

23

Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với
chiều dài 324 nucleotides với thuật toán GA . . . . . . . . . . . . . . . . xvii

24

Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với
chiều dài 324 nucleotides với thuật toán GA kết hợp với logic mờ . . . . . xviii

25

Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với
chiều dài 324 nucleotides với thuật toán GA kết hợp với LSTM . . . . . . xix

26


Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . xxi

27

Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . xxii

28

Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán di truyền kết hợp với logic mờ . . . . . . . . . . . xxiii

29

Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán di truyền kết hợp với LSTM . . . . . . . . . . . . xxiv

30

Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài
543 nucleotides với thuật toán quy hoạch động . . . . . . . . . . . . . . . xxv

31

Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài
543 nucleotides với thuật toán di truyền . . . . . . . . . . . . . . . . . . xxvi

32

Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài
543 nucleotides với thuật toán di truyền kết hợp với logic mờ . . . . . . . xxvi


xiii


DANH SÁCH HÌNH VẼ

33

DANH SÁCH HÌNH VẼ

Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài
543 nucleotides với thuật toán di truyền kết hợp với LSTM . . . . . . . . xxvii

34

Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176
nucleotides với thuật toán quy hoạch động . . . . . . . . . . . . . . . . . xxix

35

Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176
nucleotides với thuật toán GA . . . . . . . . . . . . . . . . . . . . . . . . xxix

36

Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176
nucleotides với thuật toán di truyền kết hợp logic mờ . . . . . . . . . . . xxx

37

Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176

nucleotides với thuật toán di truyền kết hợp LSTM . . . . . . . . . . . . . xxxi

38

Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với
thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . . . . . . . . xxxii

39

Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với
thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxiii

40

Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với
thuật toán di truyền kết hợp logic mờ . . . . . . . . . . . . . . . . . . . . xxxiii

41

Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với
thuật toán di truyền kết hợp LSTM . . . . . . . . . . . . . . . . . . . . . xxxiv

42

Cấu trúc của chuỗi Enterovirus A71 với chiều dài 252 nucleotides với
thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . . . . . . . . xxxvi

43

Cấu trúc của chuỗi Enterovirus A71 - 252 nucleotides với thuật toán GA . xxxvi


44

Cấu trúc của chuỗi Enterovirus A71 - 252 nucleotides với thuật toán
GA kết hợp logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxvii

45

Cấu trúc của chuỗi Enterovirus A71 - 252 nucleotides với thuật toán
GA kết hợp LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxviii
xiv


Danh sách bảng

2.1

Tham số và các toán tử cho thuật toán di truyền . . . . . . . . . . . . . . 66

3.1

Các chuỗi thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.2

Kết quả thực nghiệm các phương pháp đề xuất ứng với các chuỗi thực
nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.3


Thông tin chuỗi Ichthyosporidium sp. với chiều dài 1352 Nucleotides . . . 85

3.4

Giá trị các tham số cho thuật toán di truyền áp dụng cho bài toán dự
đoán cấu trúc bậc hai RNA . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.5

Năng lượng và cấu trúc của chuỗi chuỗi Ichthyosporidium sp. với
chiều dài 1352 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.6

Năng lượng và cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài
1352 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

3.7

Giá trị các tham số cho thuật toán di truyền kết hợp với logic mờ áp
dụng cho bài toán dự đoán cấu trúc bậc hai RNA . . . . . . . . . . . . . 93

3.8

Năng lượng và cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài
1352 Nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

3.9

Năng lượng và cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài

1352 Nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

3.10 Bộ tham số Q có được sau quá trình huấn luyện . . . . . . . . . . . . . . 99
3.11 Năng lượng và cấu trúc của chuỗi SARS-CoV-2 - 88 Nucleotides . . . . . 100
3.12 Năng lượng và cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài
1352 Nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
13

Thông tin chuỗi SARS-CoV-2 - 88 Bases . . . . . . . . . . . . . . . . . i
xv


DANH SÁCH BẢNG

DANH SÁCH BẢNG

14

Năng lượng và cấu trúc của chuỗi SARS-CoV-2 - 88 Bases . . . . . . . . i

15

Năng lượng và cấu trúc của chuỗi SARS-CoV-2 - 88 Bases . . . . . . . . iii

16

Năng lượng và cấu trúc của chuỗi SARS-CoV-2 - 88 Bases . . . . . . . . iv

17


Thông tin chuỗi E.Coli 221 nucleotides . . . . . . . . . . . . . . . . . . v

18

Năng lượng và cấu trúc của chuỗi Virus E.Coli với chiều dài 221 nucleotidesv

19

Năng lượng và cấu trúc của chuỗi Virus E.Coli với chiều dài 221 nucleotidesvi

20

Năng lượng và cấu trúc của chuỗi Virus E.Coli với chiều dài 221 nucleotidesvii

21

Thông tin chuỗi Virus Bmori với chiều dài 498 nucleotides . . . . . . . . ix

22

Năng lượng và cấu trúc của chuỗi Virus Bmori với chiều dài 498 nucleotidesix

23

Năng lượng và cấu trúc của chuỗi Virus Bmori với chiều dài 498 nucleotidesx

24

Năng lượng và cấu trúc của chuỗi Virus Bmori với chiều dài 498 nucleotidesxi


25

Thông tin chuỗi Schizosaccharomyces pombe với chiều dài 119 nucleotidesxii

26

Năng lượng và cấu trúc của chuỗi Schizosaccharomyces pombe với
chiều dài 119 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xii

27

Năng lượng và cấu trúc của chuỗi Schizosaccharomyces pombe với
chiều dài 119 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xiv

28

Năng lượng và cấu trúc của chuỗi Schizosaccharomyces pombe với
chiều dài 119 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xiv

29

Thông tin chuỗi Oryza sativa Japonica Group (Japanese rice) với
chiều dài 324 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xv

30

Năng lượng và cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese
rice) với chiều dài 324 nucleotides . . . . . . . . . . . . . . . . . . . . . xvi

31


Năng lượng và cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese
rice) với chiều dài 324 nucleotides . . . . . . . . . . . . . . . . . . . . . xvii
xvi


DANH SÁCH BẢNG

32

DANH SÁCH BẢNG

Năng lượng và cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese
rice) với chiều dài 324 nucleotides . . . . . . . . . . . . . . . . . . . . . xviii

33

Thông tin chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides . . xx

34

Năng lượng và cấu trúc của chuỗi Mycoplasma capricolum với chiều
dài 865 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxi

35

Năng lượng và cấu trúc của chuỗi Mycoplasma capricolum với chiều
dài 865 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxii

36


Năng lượng và cấu trúc của chuỗi Mycoplasma capricolum với chiều
dài 865 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxiii

37

Thông tin chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxiv

38

Năng lượng và cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus
với chiều dài 543 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . xxv

39

Năng lượng và cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus
với chiều dài 543 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . xxv

40

Năng lượng và cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus
với chiều dài 543 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . xxvii

41

Thông tin chuỗi Corynebacterium diphtheriae với chiều dài 176 nucleotidesxxviii

42


Năng lượng và cấu trúc của chuỗi Corynebacterium diphtheriae với
chiều dài 176 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xxviii

43

Năng lượng và cấu trúc của chuỗi Corynebacterium diphtheriae với
chiều dài 176 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xxviii

44

Năng lượng và cấu trúc của chuỗi Corynebacterium diphtheriae với
chiều dài 176 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xxx

45

Thông tin chuỗi Coxsackie A16 với chiều dài 252 nucleotides . . . . . . . xxxi
xvii


DANH SÁCH BẢNG

46

DANH SÁCH BẢNG

Năng lượng và cấu trúc của chuỗi Coxsackie A16 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxii

47


Năng lượng và cấu trúc của chuỗi Coxsackie A16 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxii

48

Năng lượng và cấu trúc của chuỗi Coxsackie A16 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxiv

49

Thông tin chuỗi Enterovirus A71 với chiều dài 252 nucleotides . . . . . . xxxv

50

Năng lượng và cấu trúc của chuỗi Enterovirus A71 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxv

51

Năng lượng và cấu trúc của chuỗi Enterovirus A71 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxvii

52

Năng lượng và cấu trúc của chuỗi Enterovirus A71 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxvii

xviii



DANH SÁCH BẢNG

DANH SÁCH BẢNG

BẢNG CÁC TỪ VIẾT TẮT
Từ viết tắt

Từ đầy đủ

Diễn giải

AI

Artificial Intelligence

Trí tuệ nhân tạo

ANN

Artificial Neural Networks

Mạng nơ-ron nhân tạo

BN

Bayesian Network

Mạng Bayesian

DB


Database

Cơ sở dữ liệu

DNA

Deoxyribonucleic acid

EA

Evolutionary Algorithms

Các thuật tốn tiến hóa

EC

Evolutionary Computation

Tính tốn tiến hóa

EP

Evolutionary Programming

Lập trình tiến hóa

ES

Evolutionary Strategies


Chiến lược tiến hóa

FL

Fuzzy Logic

Logic mờ

FLC

Fuzzy Logic controller

Điều khiển logic mờ

FRBS

Fuzzy Rule Based System

Hệ thống dựa trên quy tắc mờ

FS

Fuzzy System

Hệ thống mờ

GA

Genetic Algorithms


Thuật toán di truyền

GFS

Genetic Fuzzy Systems

Hệ thống di truyền mờ

GFRBS

Genetic Fuzzy Rule Based System

Hệ thống dựa trên quy tắc di truyền mờ

GP

Genetic Programming

Lập trình di truyền

KB

Knowledgebase

Cơ sở tri thức

LSTM

Long short term memory


Bộ nhớ ngắn hạn dài hạn

MF

Membership Function

Hàm thành viên

MFE

Minimum Free Energy

Năng lượng tự do tối thiểu

MLP

Multi-Layer Perceptron

Perceptron nhiều lớp

MNR

Nuclear Magnetic Resonance

Cộng hưởng từ hạt nhân

NN

Neural Networks


Mạng nơ-ron

PR

Probabilistic Reasoning

Lập luận xác suất

RB

Rulebase

Cơ sở quy tắc

RNA

Ribonucleic acid

RNN

Recurrent Neural Network

Mạng nơ-ron hồi quy

SC

Soft Computing

Tính tốn mềm


SCFGs

Stochastic Context Free Grammars

Ngữ pháp phi ngữ cảnh ngẫu nhiên

xix


DANH SÁCH BẢNG

DANH SÁCH BẢNG

BẢNG CÁC KÝ HIỆU SỬ DỤNG TRONG LUẬN ÁN
Ký hiệu

Diễn giải

i, j, s, t

Các vị trí của các basơ trong cấu trúc bậc hai RNA

G

Số thế hệ

µ

Hàm thành viên (Membership Function)


△G

Năng lượng của cấu trúc bậc hai RNA hoặc năng lượng của các cấu trúc thành phần

n

Chiều dài của cuỗi RNA

NOR

Số lần chọn ngẫu nhiên

S

Tập các cặp bazơ

P

Số cá thể trong quần thể

Q

Bộ tham số cho thuật toán di truyền

Rc

Tỷ lệ lại ghép

Rm


Tỷ lệ đột biến

Rs

Tỷ lệ chọn lọc

x

Một chuối RNA

y

Một cấu trúc bậc hai RNA

Y

Một tập các cấu trúc bậc hai RNA

z

Tập mờ

Z

Quần thể được tạo ra từ tập mờ z

xx



TĨM TẮT LUẬN ÁN

Tên đề tài: DỰ ĐỐN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ SINH HỌC TRÊN
SƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT TÍNH TỐN MỀM
Chun ngành: Khoa học máy tính
Mã số: 94.80.101
Tóm tắt: Luận án đã nghiên cứu và đã đề xuất sử dụng kỹ thuật tính toán mềm
vào việc sự đoán cấu trúc tối ưu của phân tử sinh học, đặc biệt là cấu trúc bậc hai
RNA. Với kết quả nghiên cứu đạt được, luận án đã có một số đóng góp: Đề xuất các
phương pháp kết hợp trong tính tốn mềm cho để dự đốn cấu trúc bậc hai của phân
tử sinh học, đó là thuật toán di truyền kết hợp với logic mờ, thuật toán di truyền kết
hợp với mạng nơ-ron nhân tạo, đặc biệt là mạng LSTM. Áp dụng các phương pháp
đề xuất vào bài tốn sinh học phân tử, đó là dự đoán cấu trúc bậc hai RNA, so sánh
và đánh giá các kết quả thu được với các phương pháp truyền thống.
Từ khóa: Cấu trúc bậc hai RNA, Tin sinh học, Tính tốn mềm, Thuật tốn di
truyền, Logic mờ, Mạng nơn-ron nhận tạo, Học máy, LSTM.

1


ABSTRACT

Thesis title: PREDICT THE SECONDARY STRUCTURE OF THE BIOLOGICAL MOLECULE ON THE BASE COMBINED WITH SOME SOFT COMPUTING TECHNIQUES.
Major: Computer Science.
Code: 9.48.01.01
Abstract: The thesis has researched and proposed to use soft computing techniques
to predict the optimal structure of biomolecules, especially RNA secondary structure. With the research results achieved, the thesis has some contributions:First,
proposing combined methods in soft computing for predicting the secondary structure of biomolecules, which are genetic algorithms combined with fuzzy logic, genetic algorithms combined with artificial neural networks, particularly LSTM networks.Second, applying the proposed methods to the problem of molecular biology,
that is to predict the RNA secondary structure, compare and evaluate the results
obtained with traditional methods.

Keywords: RNA secondary structure; Bioinformatics; Soft Computing; Genetic
Algorithms; Fuzzy Logic; Artificial Neural Networks; Machine Learning, LSTM.

2


Mở đầu
Sinh học phân tử là một trong những lĩnh vực khoa học quan trọng trong sinh
học với nhiều ứng dụng trong việc tìm ra các thuốc và vật liệu tiên tiến. Cấu trúc bậc
hai của phân tử sinh học là một trong những yếu tố quan trọng để xác định tính chất,
hoạt động và chức năng của chúng. Việc xác định chính xác cấu trúc bậc hai của phân
tử sinh học từng là một thách thức lớn cho nghiên cứu sinh học vì sự phức tạp của cấu
trúc và sự hạn chế của các phương pháp kiểm tra hiện tại.
Tuy nhiên, với sự phát triển của cơng nghệ tính tốn, đặc biệt là các kỹ thuật tính
tốn mềm đang được sử dụng để giải quyết thách thức này. Trong luận án này, tôi sẽ
đề xuất các phương pháp kết hợp các kỹ thuật tính tốn mềm và áp dụng các kỹ thuật
này vào bài toán dự đoán cấu trúc bậc hai của phân tử sinh học.

1. Tính cấp thiết, ý nghĩa khoa học của luận án
Luận án có tính cấp thiết cao và ý nghĩa khoa học rất lớn trong lĩnh vực sinh học.
Luận án đề xuất các phương pháp kết hợp trong tính tốn mềm và áp dụng dự đoán
cấu trúc bậc hai của phân tử sinh học, đồng thời đánh giá hiệu quả của các phương
pháp này. Điều này giúp cho nhà khoa học cải thiện việc dự đoán cấu trúc bậc hai của
phân tử sinh học và cũng giúp cho việc phát triển các phương pháp hiện tại với mục
đích tìm ra cấu trúc chính xác của phân tử sinh học.
Cấu trúc bậc hai của phân tử sinh học có liên quan đến chức năng và hoạt động
của chúng, vì vậy việc dự đốn chính xác cấu trúc bậc hai là rất quan trọng trong việc
phát triển các thuốc và các máy móc để điều trị các bệnh. Do đó, luận án này có ý
nghĩa khoa học rất lớn trong việc giải quyết các vấn đề phức tạp của việc xác định cấu
trúc bậc hai của phân tử sinh học.

Bài toán dự đoán cấu trúc bậc hai RNA là một bài toán phức tạp trong lĩnh vực
phân tử sinh học. RNA (Ribonucleic acid) là một loại acid nucleic có trong tế bào của
3


×