ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐỒN DUY BÌNH
DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA
PHÂN TỬ SINH HỌC
TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT
TÍNH TỐN MỀM
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng – 2023
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐỒN DUY BÌNH
DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA
PHÂN TỬ SINH HỌC
TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT
TÍNH TỐN MỀM
Chun ngành: KHOA HỌC MÁY TÍNH
Mã số: 9.48.01.01
Người hướng dẫn khoa học:
TS. Phạm Minh Tuấn
TS. Đặng Đức Long
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng – 2023
LỜI CẢM ƠN
Trước khi trình bày nội dung chính của luận án, để có được thành quả ngày hơm
nay, trong suốt thời gian thực hiện luận án này, tôi đã nhận được sự quan tâm giúp đỡ,
hỗ trợ nhiệt tình và những lời động viên chân thành, quý báu từ q Thầy Cơ cùng
người thân, bạn bè. Với lịng biết ơn sâu sắc, trước tiên tôi xin gởi lời cảm ơn chân
thành đến những người thân trong gia đình – họ đã khơng ngại khó khăn, gian nan vất
vả để tạo điều kiện thuận lợi cho tôi trong suốt thời gian học tập, là người tiếp thêm
sức mạnh hỗ trợ tơi vượt qua khó khăn để hồn thành luận án này.
Tơi xin bày tỏ lịng biết ơn sâu sắc tới Tiến sỹ Phạm Minh Tuấn, Tiến sỹ Đặng
Đức Long người đã tận tình quan tâm, động viên, giúp đỡ và trực tiếp hướng dẫn tôi
trong suốt thời gian học tập cũng như trong q trình nghiên cứu để tơi hồn thành
luận án này.
Tơi cũng xin bày tỏ lịng biết ơn chân thành tới tồn thể Thầy Cơ, Cán bộ Nhân
viên của khoa Cơng nghệ Thơng tin và các Phịng Ban chức năng của trường Đại học
Bách Khoa, Đại Học Đà Nẵng đã tận tình hướng dẫn, cung cấp tài liệu, động viên
củng cố niềm tin và ý chí cho tơi vượt qua các chặng đường khó khăn trong suốt q
trình nghiên cứu tại khoa và tại trường.
Tôi xin chân thành cảm ơn tới toàn thể các đồng nghiệp trong khoa Tin học của
trường Đại học Sư Phạm, Đại học Đà Nẵng đã luôn tạo điều kiện cho tôi về mặt thời
gian để tơi hồn thành luận án này. Tơi cũng xin chân thành cảm ơn đến trường Đại
học Sư phạm, Đại học Đà Nẵng luôn tạo điều kiện về mọi mặt trong q trình tơi học
tập, nghiên cứu và hồn thành luận án.
i
Nhân dịp này tôi cũng xin được gửi lời cảm ơn chân thành tới tồn thể gia đình,
bạn bè và anh chị em NCS của khoa Công nghệ Thông tin đã luôn bên tôi, cổ vũ,
động viên, giúp đỡ tôi trong suốt quá trình học tập tại trường.
Đà Nẵng, ngày tháng năm 2023
Nghiên cứu sinh
Đồn Duy Bình
ii
Mục lục
Chương 1. Tổng quan về RNA, cấu trúc bậc hai RNA và tính tốn mềm . . . . .
7
1.1. Công nghệ sinh học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.2. Tin sinh học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.3. Cấu trúc Ribonucleic Acid (RNA) và các khái niệm liên quan . . . . . . .
11
1.3.1. Cấu trúc RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.3.2. Các khái niệm liên quan đến RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.3.3. Dự đoán cấu trúc RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
1.3.4. Các cách biểu diễn cấu trúc bậc hai RNA . . . . . . . . . . . . . . . . . . . . . . .
19
1.3.5. Các phương pháp dự đoán cấu trúc bậc hai RNA, những tồn tại và hướng
nghiên cứu phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.4. Tính tốn mềm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
1.4.1. Thuật toán Di truyền - (Genetic Algorithm - GA) . . . . . . . . . . . . . . . .
25
1.4.2. Logic mờ và các đặc trưng của tập mờ . . . . . . . . . . . . . . . . . . . . . . . . . .
27
1.4.3. Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) . . . . . . . .
33
1.4.4. Mạng nơ-ron hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
1.4.5. Mạng nơ-ron dài ngắn hạn (Long Short-Term Memory - LSTM) . .
35
1.5. Kết luận Chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
Chương 2. Đề xuất các phương pháp kết hợp trong tính tốn mềm để dự đoán
cấu trúc bậc hai phân tử sinh học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2.1. Bài toán dự đoán cấu trúc bậc hai của phân tử sinh học . . . . . . . . . . . . .
39
iii
MỤC LỤC
MỤC LỤC
2.2. Các tham số nhiệt động học. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
2.2.1. Năng lượng tự do cho những vòng xếp chồng (Stack loop): . . . . . . .
41
2.2.2. Những năng lượng gây mất ổn định theo kích thước vịng: . . . . . . . .
41
2.2.3. Năng lượng tự do cho các vịng kẹp tóc (hairpin loops) tổng qt: .
42
2.2.4. Năng lượng tự do cho vịng kẹp tóc (hairpin loops) với chiều dài là 4: . .
43
2.2.5. Năng lượng tự do cho vòng lặp trong (internal loops) tổng quát: . . .
43
2.2.6. Năng lượng tự do cho vòng lặp trong (internal loops) đối xứng với kích
thước 2: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.2.7. Năng lượng tự do cho vịng lặp trong (internal loops) khơng đối xứng có
kích thước 3: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.2.8. Năng lượng tự do cho vịng lặp trong (internal loops) đối xứng với kích
thước 4: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.2.9. Năng lượng tự do cho những điểm bên ngoài (External):. . . . . . . . . .
44
2.2.10. Các quy tắc năng lượng tự do hổn hợp: . . . . . . . . . . . . . . . . . . . . . . . .
45
2.3. Tính tốn năng lượng tự do của một cấu trúc bậc hai . . . . . . . . . . . . . . .
47
2.3.1. Những hàm tổng quát . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
2.3.2. Tính năng lượng tự do cho vịng xếp chồng . . . . . . . . . . . . . . . . . . . . . .
49
2.3.3. Tính tốn năng lượng tự do cho vịng kẹp tóc . . . . . . . . . . . . . . . . . . . .
49
2.3.4. Tính tốn năng lượng tự do cho vòng lặp trong . . . . . . . . . . . . . . . . . .
51
2.3.5. Tính năng lượng tự do cho vịng nhiều nhánh . . . . . . . . . . . . . . . . . . . .
53
2.3.6. Tính tốn năng lượng tự do cho cấu trúc nhiều miền . . . . . . . . . . . . .
54
iv
MỤC LỤC
MỤC LỤC
2.4. Các phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
2.4.1. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
2.4.2. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . .
66
2.4.3. Kết hợp thuật toán di truyền với mạng nơ-ron nhân tạo, cụ thể là mạng
LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
2.5. Kết luận Chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
Chương 3. Áp dụng tính tốn mềm cho bài toán dự đoán cấu trúc bậc hai RNA .
81
3.1. Cơ sở dữ liệu RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
3.2. Bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
3.3. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
3.4. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
3.4.1. Khởi tạo các tham số cho thuật toán di truyền . . . . . . . . . . . . . . . . . . .
86
3.4.2. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
3.4.3. So sánh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
3.5. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . .
93
3.5.1. Khởi tạo các tham số cho thuật toán di truyền kết hợp với logic mờ
93
3.5.2. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
3.5.3. So sánh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
3.6. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . .
98
3.6.1. Mơ hình kết hợp GA với LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
3.6.2. Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
v
MỤC LỤC
MỤC LỤC
3.6.3. So sánh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
102
3.7. Kết luận Chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
104
................................................................
i
SARS-CoV-2 - 88 Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
1. Thông tin chuỗi (Bảng 13 ): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . . .
iii
II. Virus E.Coli với chiều dài 221 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
1. Thông tin chuỗi (Bảng 17) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v
4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . . .
vii
III. Virus Bmori với chiều dài 498 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
1. Thông tin chuỗi (Bảng :21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . . .
ix
4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . . . .
x
IV. Schizosaccharomyces pombe với chiều dài 119 nucleotides . . . . . . . . . . .
xi
1. Thông tin chuỗi (Bảng 25 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . .
xiii
I.
vi
MỤC LỤC
MỤC LỤC
4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . .
xiv
V. Oryza sativa Japonica Group (Japanese rice) với chiều dài 324 nucleotides
xv
1. Thông tin chuỗi (Bảng 29 ):. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xv
2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xvi
3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . .
xvi
4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . .
xvii
VI. Mycoplasma capricolum với chiều dài 865 nucleotides . . . . . . . . . . . .
xviii
1. Thông tin chuỗi (Bảng 33 ): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xviii
2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xix
3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . .
xx
4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . . . .
xx
VII.Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543 nucleotides . . .
xxi
1. Thông tin chuỗi (Bảng 37 ): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxi
2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxii
3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . .
xxiv
4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . .
xxvi
VIII.Bạch hầu - Corynebacterium diphtheriae với chiều dài 176 nucleotides . . .
xxvii
1. Thông tin chuỗi (Bảng 41 ): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxvii
2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxvii
3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . .
xxviii
4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . . .
vii
xxix
MỤC LỤC
MỤC LỤC
IX. Tay chân miệng (loại ít gây ra các biến chứng về thần kinh)- Coxsackie A16
với chiều dài 252 nucleotides. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxx
1. Thông tin chuỗi (Bảng 45 ): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxx
2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxx
3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . . .
xxxi
4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . .
xxxiii
X. Tay chân miệng (loại gây ra các biến chứng nguy hiểm)- Enterovirus A71
với chiều dài 252 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxxiv
1. Thông tin chuỗi (Bảng 49): . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxxiv
2. Thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xxxv
3. Kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . . . . . . . . . . .
xxxvi
4. Phương pháp kết hợp thuật toán di truyền với mạng LSTM . . . . . . . .
xxxvi
viii
Danh sách hình vẽ
1.1
Mối quan hệ giữa DNA, RNA và Protein . . . . . . . . . . . . . . . . . . 11
1.2
Các nucleotide chuẩn của RNA và sự kết cặp của chúng . . . . . . . . . . 13
1.3
Ba cấp của cấu trúc RNA. a) Cấu trúc bậc 1. b) Cấu trúc bậc 2. c) Cấu
trúc bậc 3 [63] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4
Các cặp nucleotide chính tắc [33] . . . . . . . . . . . . . . . . . . . . . . 16
1.5
Cấu trúc bậc hai RNA khơng có có các cặp nucleotide bắt liên kết
chéo nhau (pseudoknot free) [60] . . . . . . . . . . . . . . . . . . . . . . 16
1.6
Cấu trúc bậc hai RNA có các cặp nucleotide bắt liên kết chéo nhau
(pseudoknotted)[51] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7
Các cách biểu diễn cấu trúc bậc hai RNA [45] . . . . . . . . . . . . . . . 19
1.8
Lưu đồ thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.9
Các tập mờ tam giác. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.10 Tập mờ hình thang. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.11 Tập mờ L. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.12 Tập mờ Gamma tuyến tính. . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.13 Một phần của mạng nơ-ron hồi quy, A nhìn vào đầu vào Xt và xuất ra
một giá trị ht . Các vòng truyền thông tin từ bước này sang bước khác
của mạng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.14 Cấu trúc mạng LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1
Các cấu trúc thành phần tạo nên cấu trúc bậc hai RNA [60] . . . . . . . . 40
ix
DANH SÁCH HÌNH VẼ
2.2
DANH SÁCH HÌNH VẼ
(a) Bảng năng lượng cho vịng lặp trong với cặp bazơ đóng là (G,C).
Đây là kiểu được hiển thị trong hình (b). (c) là ví dụ mà ở đó có giá trị
được tìm thấy trong bảng ở hình (a), ở đó a = G, b = C và c = G, d = C . 42
2.3
(a) Năng lượng tự do cho từng vòng với kích thước cụ thể. (b) Một ví
dụ của vịng lặp trong có chiều dài là 4 . . . . . . . . . . . . . . . . . . . 42
2.4
(a). Bảng năng lượng tự do cho vịng kẹp tóc của kiểu trong (b). (c) là
một ví dụ, trong đó c = G và d = A. . . . . . . . . . . . . . . . . . . . . 42
2.5
(a) Ví dụ của giá trị năng lượng cho vịng kẹp tóc có độ dài 4. (b) một
ví dụ cụ thể cho những vịng kẹp tóc. . . . . . . . . . . . . . . . . . . . . 43
2.6
(a) Bảng năng lượng cho vịng lặp trong với cặp bazơ đóng là (C, G).
Đây là kiểu được hiển thị trong hình (b), (c) là ví dụ mà ở đó có giá
trị được tìm thấy trong bảng ở hình (a), ở đó c = G, d = A và c = A, d = G 43
2.7
(a) Năng lượng tự do cho vòng lặp trong đối xứng với kích thước 2, và
có kiểu được hiển thị ở (b). Năng lượng cho ví dụ với vịng lặp trong,
trong đó c = G và d = A, được hiển thị ở (c). . . . . . . . . . . . . . . . . 44
2.8
(a) Năng lượng tự do cho vòng lặp trong khơng đối xứng với kích
thước 3, với kiểu thể hiện ở (b), năng lượng tương ứng cho ví dụ ở (c),
với c = C, d = A và e = C ; (d) Năng lượng tự do cho vịng lặp trong
khơng đối xứng với kích thước 3, với kiểu thể hiện ở (e), năng lượng
tương ứng cho ví dụ ở (f), với x = A, y = C và e = G. . . . . . . . . . . . 45
2.9
(a) Giả sử một phần của bảng năng lượng tự do cho vòng lặp trong
đối xứng với kích thước 4, kiểu vịng thể hiện là (b). Năng lượng cho
ví dụ là (c), với v = A, w = A và c = G, d = G. . . . . . . . . . . . . . . . 45
x
DANH SÁCH HÌNH VẼ
DANH SÁCH HÌNH VẼ
2.10 (a) Năng lượng tự do cho những điểm cuối lủng lẳng với chiều kết
thúc là 3’, với kiểu là (b), tương ứng năng lượng cho vi dụ là (c); (d)
Năng lượng tự do cho những điểm cuối lủng lẳng với chiều kết thúc
là 5’, với kiểu là (e), tương ứng năng lượng cho vi dụ là (f). . . . . . . . . 46
2.11 Các quy tắc năng lượng tự do hổn hợp. . . . . . . . . . . . . . . . . . . . 47
2.12 Các bazơ lơ lững giữa các miền. . . . . . . . . . . . . . . . . . . . . . . 54
2.13 Hình a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.14 Hình b. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.15 Quá trình tạo helix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.16 Lưu đồ kết hợp thuật toán di truyền với logic mờ . . . . . . . . . . . . . . 67
2.17 Đồ thị của hàm thành viên µ (i) . . . . . . . . . . . . . . . . . . . . . . . 75
2.18 Sơ đồ kết hợp GA và LSTM cho bài toán dự đoán cấu trúc bậc hai RNA. . 77
3.1
Cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài 1352 nucleotides
khi áp dụng thuật toán GA vợi bộ tham số cho trong bảng 3.4 . . . . . . . 88
3.2
Cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài 1352 Nucleotides
với thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . . . . . . 91
3.3
Cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài 1352 Nucleotides
với thuật toán di truyền vợi bộ tham số cho trong bảng 3.4 . . . . . . . . . 92
3.4
Cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài 1352 Nucleotides
với thuật tốn GA có kết hợp logic mờ . . . . . . . . . . . . . . . . . . . 95
3.5
Cấu trúc của chuỗi SARS-CoV-2 - 88 Nucleotides khi áp dụng mơ
hình GA-LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6
Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật toán quy hoạch động ii
7
Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật toán di truyền . . . ii
xi
DANH SÁCH HÌNH VẼ
8
DANH SÁCH HÌNH VẼ
Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật tốn GA có kết
hợp logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
9
Cấu trúc của chuỗi SARS-CoV-2 - 88 Bases với thuật tốn GA có kết
hợp LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv
10
Cấu trúc của chuỗi E.Coli với chiều dài 221 nucleotides với thuật toán
quy hoạch động . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
11
Cấu trúc của chuỗi E.Coli với chiều dài 221 nucleotides với thuật toán
di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
12
Cấu trúc của chuỗi E.Coli có chiều dài 221 nucleotides áp dụng thuật
toán di truyền kết hợp với Logic mờ . . . . . . . . . . . . . . . . . . . . vii
13
Cấu trúc của chuỗi E.Coli có chiều dài 221 nucleotides áp dụng thuật
toán di truyền kết hợp với LSTM . . . . . . . . . . . . . . . . . . . . . . viii
14
Cấu trúc của chuỗi Bmori 498 nucleotides với quy hoạch động . . . . . . viii
15
Cấu trúc của chuỗi Bmori với chiều dài 498 nucleotides với thuật toán
di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x
16
Cấu trúc của chuỗi Bmori với chiều dài 498 nucleotides với thuật toán
di truyền kết hợp với logic mờ . . . . . . . . . . . . . . . . . . . . . . . xi
17
Cấu trúc của chuỗi Bmori với chiều dài 498 nucleotides với thuật toán
di truyền kết hợp với LSTM . . . . . . . . . . . . . . . . . . . . . . . . . xii
18
Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119
nucleotides với thuật toán quy hoạch động . . . . . . . . . . . . . . . . . xiii
19
Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119
nucleotides với thuật toán GA . . . . . . . . . . . . . . . . . . . . . . . . xiii
20
Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119
nucleotides với thuật toán GA kết hợp với logic mờ . . . . . . . . . . . . xiv
xii
DANH SÁCH HÌNH VẼ
21
DANH SÁCH HÌNH VẼ
Cấu trúc của chuỗi Schizosaccharomyces pombe với chiều dài 119
nucleotides với thuật toán GA kết hợp với LSTM . . . . . . . . . . . . . xv
22
Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với
chiều dài 324 nucleotides với thuật toán quy hoạch động . . . . . . . . . xvi
23
Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với
chiều dài 324 nucleotides với thuật toán GA . . . . . . . . . . . . . . . . xvii
24
Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với
chiều dài 324 nucleotides với thuật toán GA kết hợp với logic mờ . . . . . xviii
25
Cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese rice) với
chiều dài 324 nucleotides với thuật toán GA kết hợp với LSTM . . . . . . xix
26
Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . xxi
27
Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . xxii
28
Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán di truyền kết hợp với logic mờ . . . . . . . . . . . xxiii
29
Cấu trúc của chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides với thuật toán di truyền kết hợp với LSTM . . . . . . . . . . . . xxiv
30
Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài
543 nucleotides với thuật toán quy hoạch động . . . . . . . . . . . . . . . xxv
31
Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài
543 nucleotides với thuật toán di truyền . . . . . . . . . . . . . . . . . . xxvi
32
Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài
543 nucleotides với thuật toán di truyền kết hợp với logic mờ . . . . . . . xxvi
xiii
DANH SÁCH HÌNH VẼ
33
DANH SÁCH HÌNH VẼ
Cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài
543 nucleotides với thuật toán di truyền kết hợp với LSTM . . . . . . . . xxvii
34
Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176
nucleotides với thuật toán quy hoạch động . . . . . . . . . . . . . . . . . xxix
35
Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176
nucleotides với thuật toán GA . . . . . . . . . . . . . . . . . . . . . . . . xxix
36
Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176
nucleotides với thuật toán di truyền kết hợp logic mờ . . . . . . . . . . . xxx
37
Cấu trúc của chuỗi Corynebacterium diphtheriae với chiều dài 176
nucleotides với thuật toán di truyền kết hợp LSTM . . . . . . . . . . . . . xxxi
38
Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với
thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . . . . . . . . xxxii
39
Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với
thuật toán di truyền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxiii
40
Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với
thuật toán di truyền kết hợp logic mờ . . . . . . . . . . . . . . . . . . . . xxxiii
41
Cấu trúc của chuỗi Coxsackie A16 với chiều dài 252 nucleotides với
thuật toán di truyền kết hợp LSTM . . . . . . . . . . . . . . . . . . . . . xxxiv
42
Cấu trúc của chuỗi Enterovirus A71 với chiều dài 252 nucleotides với
thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . . . . . . . . xxxvi
43
Cấu trúc của chuỗi Enterovirus A71 - 252 nucleotides với thuật toán GA . xxxvi
44
Cấu trúc của chuỗi Enterovirus A71 - 252 nucleotides với thuật toán
GA kết hợp logic mờ . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxvii
45
Cấu trúc của chuỗi Enterovirus A71 - 252 nucleotides với thuật toán
GA kết hợp LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxviii
xiv
Danh sách bảng
2.1
Tham số và các toán tử cho thuật toán di truyền . . . . . . . . . . . . . . 66
3.1
Các chuỗi thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.2
Kết quả thực nghiệm các phương pháp đề xuất ứng với các chuỗi thực
nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.3
Thông tin chuỗi Ichthyosporidium sp. với chiều dài 1352 Nucleotides . . . 85
3.4
Giá trị các tham số cho thuật toán di truyền áp dụng cho bài toán dự
đoán cấu trúc bậc hai RNA . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.5
Năng lượng và cấu trúc của chuỗi chuỗi Ichthyosporidium sp. với
chiều dài 1352 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.6
Năng lượng và cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài
1352 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.7
Giá trị các tham số cho thuật toán di truyền kết hợp với logic mờ áp
dụng cho bài toán dự đoán cấu trúc bậc hai RNA . . . . . . . . . . . . . 93
3.8
Năng lượng và cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài
1352 Nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.9
Năng lượng và cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài
1352 Nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.10 Bộ tham số Q có được sau quá trình huấn luyện . . . . . . . . . . . . . . 99
3.11 Năng lượng và cấu trúc của chuỗi SARS-CoV-2 - 88 Nucleotides . . . . . 100
3.12 Năng lượng và cấu trúc của chuỗi Ichthyosporidium sp. với chiều dài
1352 Nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
13
Thông tin chuỗi SARS-CoV-2 - 88 Bases . . . . . . . . . . . . . . . . . i
xv
DANH SÁCH BẢNG
DANH SÁCH BẢNG
14
Năng lượng và cấu trúc của chuỗi SARS-CoV-2 - 88 Bases . . . . . . . . i
15
Năng lượng và cấu trúc của chuỗi SARS-CoV-2 - 88 Bases . . . . . . . . iii
16
Năng lượng và cấu trúc của chuỗi SARS-CoV-2 - 88 Bases . . . . . . . . iv
17
Thông tin chuỗi E.Coli 221 nucleotides . . . . . . . . . . . . . . . . . . v
18
Năng lượng và cấu trúc của chuỗi Virus E.Coli với chiều dài 221 nucleotidesv
19
Năng lượng và cấu trúc của chuỗi Virus E.Coli với chiều dài 221 nucleotidesvi
20
Năng lượng và cấu trúc của chuỗi Virus E.Coli với chiều dài 221 nucleotidesvii
21
Thông tin chuỗi Virus Bmori với chiều dài 498 nucleotides . . . . . . . . ix
22
Năng lượng và cấu trúc của chuỗi Virus Bmori với chiều dài 498 nucleotidesix
23
Năng lượng và cấu trúc của chuỗi Virus Bmori với chiều dài 498 nucleotidesx
24
Năng lượng và cấu trúc của chuỗi Virus Bmori với chiều dài 498 nucleotidesxi
25
Thông tin chuỗi Schizosaccharomyces pombe với chiều dài 119 nucleotidesxii
26
Năng lượng và cấu trúc của chuỗi Schizosaccharomyces pombe với
chiều dài 119 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xii
27
Năng lượng và cấu trúc của chuỗi Schizosaccharomyces pombe với
chiều dài 119 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xiv
28
Năng lượng và cấu trúc của chuỗi Schizosaccharomyces pombe với
chiều dài 119 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xiv
29
Thông tin chuỗi Oryza sativa Japonica Group (Japanese rice) với
chiều dài 324 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xv
30
Năng lượng và cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese
rice) với chiều dài 324 nucleotides . . . . . . . . . . . . . . . . . . . . . xvi
31
Năng lượng và cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese
rice) với chiều dài 324 nucleotides . . . . . . . . . . . . . . . . . . . . . xvii
xvi
DANH SÁCH BẢNG
32
DANH SÁCH BẢNG
Năng lượng và cấu trúc của chuỗi Oryza sativa Japonica Group (Japanese
rice) với chiều dài 324 nucleotides . . . . . . . . . . . . . . . . . . . . . xviii
33
Thông tin chuỗi Mycoplasma capricolum với chiều dài 865 nucleotides . . xx
34
Năng lượng và cấu trúc của chuỗi Mycoplasma capricolum với chiều
dài 865 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxi
35
Năng lượng và cấu trúc của chuỗi Mycoplasma capricolum với chiều
dài 865 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxii
36
Năng lượng và cấu trúc của chuỗi Mycoplasma capricolum với chiều
dài 865 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxiii
37
Thông tin chuỗi Cúm mùa ở Mỹ - Influenza A virus với chiều dài 543
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxiv
38
Năng lượng và cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus
với chiều dài 543 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . xxv
39
Năng lượng và cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus
với chiều dài 543 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . xxv
40
Năng lượng và cấu trúc của chuỗi Cúm mùa ở Mỹ - Influenza A virus
với chiều dài 543 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . xxvii
41
Thông tin chuỗi Corynebacterium diphtheriae với chiều dài 176 nucleotidesxxviii
42
Năng lượng và cấu trúc của chuỗi Corynebacterium diphtheriae với
chiều dài 176 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xxviii
43
Năng lượng và cấu trúc của chuỗi Corynebacterium diphtheriae với
chiều dài 176 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xxviii
44
Năng lượng và cấu trúc của chuỗi Corynebacterium diphtheriae với
chiều dài 176 nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . xxx
45
Thông tin chuỗi Coxsackie A16 với chiều dài 252 nucleotides . . . . . . . xxxi
xvii
DANH SÁCH BẢNG
46
DANH SÁCH BẢNG
Năng lượng và cấu trúc của chuỗi Coxsackie A16 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxii
47
Năng lượng và cấu trúc của chuỗi Coxsackie A16 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxii
48
Năng lượng và cấu trúc của chuỗi Coxsackie A16 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxiv
49
Thông tin chuỗi Enterovirus A71 với chiều dài 252 nucleotides . . . . . . xxxv
50
Năng lượng và cấu trúc của chuỗi Enterovirus A71 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxv
51
Năng lượng và cấu trúc của chuỗi Enterovirus A71 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxvii
52
Năng lượng và cấu trúc của chuỗi Enterovirus A71 với chiều dài 252
nucleotides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxxvii
xviii
DANH SÁCH BẢNG
DANH SÁCH BẢNG
BẢNG CÁC TỪ VIẾT TẮT
Từ viết tắt
Từ đầy đủ
Diễn giải
AI
Artificial Intelligence
Trí tuệ nhân tạo
ANN
Artificial Neural Networks
Mạng nơ-ron nhân tạo
BN
Bayesian Network
Mạng Bayesian
DB
Database
Cơ sở dữ liệu
DNA
Deoxyribonucleic acid
EA
Evolutionary Algorithms
Các thuật tốn tiến hóa
EC
Evolutionary Computation
Tính tốn tiến hóa
EP
Evolutionary Programming
Lập trình tiến hóa
ES
Evolutionary Strategies
Chiến lược tiến hóa
FL
Fuzzy Logic
Logic mờ
FLC
Fuzzy Logic controller
Điều khiển logic mờ
FRBS
Fuzzy Rule Based System
Hệ thống dựa trên quy tắc mờ
FS
Fuzzy System
Hệ thống mờ
GA
Genetic Algorithms
Thuật toán di truyền
GFS
Genetic Fuzzy Systems
Hệ thống di truyền mờ
GFRBS
Genetic Fuzzy Rule Based System
Hệ thống dựa trên quy tắc di truyền mờ
GP
Genetic Programming
Lập trình di truyền
KB
Knowledgebase
Cơ sở tri thức
LSTM
Long short term memory
Bộ nhớ ngắn hạn dài hạn
MF
Membership Function
Hàm thành viên
MFE
Minimum Free Energy
Năng lượng tự do tối thiểu
MLP
Multi-Layer Perceptron
Perceptron nhiều lớp
MNR
Nuclear Magnetic Resonance
Cộng hưởng từ hạt nhân
NN
Neural Networks
Mạng nơ-ron
PR
Probabilistic Reasoning
Lập luận xác suất
RB
Rulebase
Cơ sở quy tắc
RNA
Ribonucleic acid
RNN
Recurrent Neural Network
Mạng nơ-ron hồi quy
SC
Soft Computing
Tính tốn mềm
SCFGs
Stochastic Context Free Grammars
Ngữ pháp phi ngữ cảnh ngẫu nhiên
xix
DANH SÁCH BẢNG
DANH SÁCH BẢNG
BẢNG CÁC KÝ HIỆU SỬ DỤNG TRONG LUẬN ÁN
Ký hiệu
Diễn giải
i, j, s, t
Các vị trí của các basơ trong cấu trúc bậc hai RNA
G
Số thế hệ
µ
Hàm thành viên (Membership Function)
△G
Năng lượng của cấu trúc bậc hai RNA hoặc năng lượng của các cấu trúc thành phần
n
Chiều dài của cuỗi RNA
NOR
Số lần chọn ngẫu nhiên
S
Tập các cặp bazơ
P
Số cá thể trong quần thể
Q
Bộ tham số cho thuật toán di truyền
Rc
Tỷ lệ lại ghép
Rm
Tỷ lệ đột biến
Rs
Tỷ lệ chọn lọc
x
Một chuối RNA
y
Một cấu trúc bậc hai RNA
Y
Một tập các cấu trúc bậc hai RNA
z
Tập mờ
Z
Quần thể được tạo ra từ tập mờ z
xx
TĨM TẮT LUẬN ÁN
Tên đề tài: DỰ ĐỐN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ SINH HỌC TRÊN
SƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT TÍNH TỐN MỀM
Chun ngành: Khoa học máy tính
Mã số: 94.80.101
Tóm tắt: Luận án đã nghiên cứu và đã đề xuất sử dụng kỹ thuật tính toán mềm
vào việc sự đoán cấu trúc tối ưu của phân tử sinh học, đặc biệt là cấu trúc bậc hai
RNA. Với kết quả nghiên cứu đạt được, luận án đã có một số đóng góp: Đề xuất các
phương pháp kết hợp trong tính tốn mềm cho để dự đốn cấu trúc bậc hai của phân
tử sinh học, đó là thuật toán di truyền kết hợp với logic mờ, thuật toán di truyền kết
hợp với mạng nơ-ron nhân tạo, đặc biệt là mạng LSTM. Áp dụng các phương pháp
đề xuất vào bài tốn sinh học phân tử, đó là dự đoán cấu trúc bậc hai RNA, so sánh
và đánh giá các kết quả thu được với các phương pháp truyền thống.
Từ khóa: Cấu trúc bậc hai RNA, Tin sinh học, Tính tốn mềm, Thuật tốn di
truyền, Logic mờ, Mạng nơn-ron nhận tạo, Học máy, LSTM.
1
ABSTRACT
Thesis title: PREDICT THE SECONDARY STRUCTURE OF THE BIOLOGICAL MOLECULE ON THE BASE COMBINED WITH SOME SOFT COMPUTING TECHNIQUES.
Major: Computer Science.
Code: 9.48.01.01
Abstract: The thesis has researched and proposed to use soft computing techniques
to predict the optimal structure of biomolecules, especially RNA secondary structure. With the research results achieved, the thesis has some contributions:First,
proposing combined methods in soft computing for predicting the secondary structure of biomolecules, which are genetic algorithms combined with fuzzy logic, genetic algorithms combined with artificial neural networks, particularly LSTM networks.Second, applying the proposed methods to the problem of molecular biology,
that is to predict the RNA secondary structure, compare and evaluate the results
obtained with traditional methods.
Keywords: RNA secondary structure; Bioinformatics; Soft Computing; Genetic
Algorithms; Fuzzy Logic; Artificial Neural Networks; Machine Learning, LSTM.
2
Mở đầu
Sinh học phân tử là một trong những lĩnh vực khoa học quan trọng trong sinh
học với nhiều ứng dụng trong việc tìm ra các thuốc và vật liệu tiên tiến. Cấu trúc bậc
hai của phân tử sinh học là một trong những yếu tố quan trọng để xác định tính chất,
hoạt động và chức năng của chúng. Việc xác định chính xác cấu trúc bậc hai của phân
tử sinh học từng là một thách thức lớn cho nghiên cứu sinh học vì sự phức tạp của cấu
trúc và sự hạn chế của các phương pháp kiểm tra hiện tại.
Tuy nhiên, với sự phát triển của cơng nghệ tính tốn, đặc biệt là các kỹ thuật tính
tốn mềm đang được sử dụng để giải quyết thách thức này. Trong luận án này, tôi sẽ
đề xuất các phương pháp kết hợp các kỹ thuật tính tốn mềm và áp dụng các kỹ thuật
này vào bài toán dự đoán cấu trúc bậc hai của phân tử sinh học.
1. Tính cấp thiết, ý nghĩa khoa học của luận án
Luận án có tính cấp thiết cao và ý nghĩa khoa học rất lớn trong lĩnh vực sinh học.
Luận án đề xuất các phương pháp kết hợp trong tính tốn mềm và áp dụng dự đoán
cấu trúc bậc hai của phân tử sinh học, đồng thời đánh giá hiệu quả của các phương
pháp này. Điều này giúp cho nhà khoa học cải thiện việc dự đoán cấu trúc bậc hai của
phân tử sinh học và cũng giúp cho việc phát triển các phương pháp hiện tại với mục
đích tìm ra cấu trúc chính xác của phân tử sinh học.
Cấu trúc bậc hai của phân tử sinh học có liên quan đến chức năng và hoạt động
của chúng, vì vậy việc dự đốn chính xác cấu trúc bậc hai là rất quan trọng trong việc
phát triển các thuốc và các máy móc để điều trị các bệnh. Do đó, luận án này có ý
nghĩa khoa học rất lớn trong việc giải quyết các vấn đề phức tạp của việc xác định cấu
trúc bậc hai của phân tử sinh học.
Bài toán dự đoán cấu trúc bậc hai RNA là một bài toán phức tạp trong lĩnh vực
phân tử sinh học. RNA (Ribonucleic acid) là một loại acid nucleic có trong tế bào của
3