Tải bản đầy đủ (.pdf) (88 trang)

Một số vấn đề về việc so sánh và tìm kiếm các đa phân tử sinh học như DNA, protein

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.66 MB, 88 trang )

Đại học Quốc gia TP Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
––––––––––––––––

NGUYỄN NGỌC TÚ

MỘT SỐ VẤN ĐỀ VỀ VIỆC SO SÁNH VÀ TÌM KIẾM
CÁC ĐA PHÂN TỬ SINH HỌC NHƯ DNA, PROTEIN

Chuyên ngành: Công Nghệ Thông Tin
Mã số ngành: 01.02.10

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, THÁNG 01 NĂM 2005


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
––––––––––––

CỘNG HÒA XÃ HỌI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
–––––––––––––––––––––––
Tp. HCM, ngày 31 tháng 01 năm 2005

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: NGUYỄN NGỌC TÚ

Phái: Nam


Ngày tháng năm sinh: 03- 12 - 1979

Nơi sinh: Hà Tây

Chuyên ngành: Công Nghệ Thông Tin

Mã số: 01.02.10

I. TÊN ĐỀ TÀI: Một số vấn đề về việc so sánh và tìm kiếm các đa phân tử sinh học
như DNA và Protein .
II. NHIỆM VỤ VÀ NỘI DUNG:
Nhiệm vụ của đề tài là nghiên cứu phối hợp kỹ thuật luyện kim (Simulated
Annealing) với giải thuật di truyền (Genetic Algorithm), từ đó song song hố giải
thuật để giải quyết bài tốn so sánh các trình tự sinh học.
III. NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương) : 09-02-2004
IV. NGÀY HOÀN THÀNH NHIỆM VỤ(Ngày bảo vệ luận án tốt nghiệp):20-01-2005
V. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: Tiến sĩ Trần Văn Lăng
CÁN BỘ HƯỚNG DẪN

CN BỘ MÔN QL CHUYÊN NGÀNH

TS. Trần Văn Lăng
Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thơng qua.
Ngày ____ tháng ____ năm ____
TRƯỞNG PHỊNG ĐÀO TẠO SĐH

TRƯỞNG KHOA QL NGÀNH


TĨM TẮT

Luận án này có nhiệm vụ giải quyết bài tốn so sánh tương đồng đa trình tự sinh học
như các chuỗi trình tự DNA và protein. Bài tốn so sánh tương đồng là bài toán nền tảng
cho mọi hoạt động phân tích dữ liệu trong sinh học và là bài tốn có độ phức tạp lớn
tương tự như bài toán người bán hàng - TSP. Luận án đề xuất hướng tiếp cận mới giải
quyết bài toán bằng cách kết hợp chính giữa kỹ thuật luyện kim và giải thuật di truyền.
Giải pháp được thực hiện qua hai giai đoạn: (i) so sánh từng cặp trình tự để xác định mối
quan hệ tìm một số trường hợp tốt nhất có thể để làm các giải pháp ban đầu và ghi nhận
một số thông tin nhằm làm cơ sở cho quá trình tìm kiếm giải pháp tốt hơn trong giai
đoạn sau; (ii) sử dụng giải thuật lai giữa kỹ thuật luyện kim và giải thuật di truyền nhằm
tận dụng các đặc tính tốt của hai giải thuật để tìm kiếm giải pháp gần tối ưu từ giải pháp
ban đầu.

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang i


ABSTRACT
This thesis mainly focuses on multi-alignment for solving the problems of DNA and
protein. Multi-alignment is a base of many complex dada analyzing activities in biology
that has the same complex level as TSP problem. Thesis present a new hybrid algorithm
that combines the strengths of a genetic algorithm and simulated annealing. That method
is divided into two phases: (i) using heuristics and pairwise alignment to gain some
initial solutions; (ii) using genetic and simulated annealing algorithm to improve the
quality of solution that find out better results. We perform experiments on real data sets
and obtains high quality solution within a short time.

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang ii



LỜI CẢM ƠN
Trước tiên em xin gởi lời cảm ơn chân thành đến Thầy TS. Trần Văn Lăng, không chỉ là một
người Thầy tận tuỵ mà còn là một "đồng nghiệp" đã cố gắng vun đắp và nâng đỡ các thế hệ đi
sau.
Em xin cảm ơn các Thầy cô trong khoa đã góp cơng vun đắp nên nền móng tri thức cho các thế
hệ học viên chúng em. Em xin cảm ơn Thầy TS. Dương Tuấn Anh, Thầy TS. Cao Hồng Trụ đã
để lại trong em những dấu ấn khó phai về lòng nhiệt huyết và phong cách làm việc của mình.
Con xin được ghi lên đây lời biết ơn với bố mẹ, với biết bao khó nhọc chỉ mong mỏi và kỳ vọng
để con được nên người.
Xin cảm ơn các anh chị cùng lớp CHCNTTK13 với tinh thần thi đua và những tấm gương cố
gắng học tập đã cổ vũ và khích lệ cho em rất nhiều trong bước đường khám phá tri thức và tự
khẳng định mình và cũng là để thấy được lối đi tới trở thành nhà khoa học chân chính.
Khơng thể thiếu lời cảm ơn tới các đồng nghiệp Phân Viện CNTT, nhất là các thành viên dự án
Sinh tin học đã trao đổi, động viên và giành thời gian cho tơi hồn tất luận án này.

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang iii


MỤC LỤC
TÓM TẮT ........................................................................................................................................................................... i
ABSTRACT ....................................................................................................................................................................... ii
LỜI CẢM ƠN ................................................................................................................................................................... iii
MỤC LỤC ......................................................................................................................................................................... iv
DANH MỤC CÁC HÌNH VÀ GIẢI THUẬT............................................................................................................. vii
Chương 1.


GIỚI THIỆU ............................................................................................................................................ 1

1.1.

Đặt vấn đề: ...................................................................................................................................................... 1

1.2.

Bài toán so sánh trình tự................................................................................................................................. 2

1.1.1

Ý nghĩa sinh học hiên quan bài tốn :...................................................................................................... 2

1.1.2

Cơ sở sinh học và mơ hình tốn học: ....................................................................................................... 3

Chương 2.

TỔNG QUAN VỀ SO SÁNH TRÌNH TỰ ........................................................................................ 11

2.1.

Phương pháp so sánh trình tự....................................................................................................................... 11

2.1.1.

So sánh cặp trình tự: ............................................................................................................................... 11


2.1.2.

So sánh đa trình tự: ................................................................................................................................. 13

2.2.

Các nghiên cứu liên quan chính:.................................................................................................................. 14

2.2.1.

Giải thuật gióng cột tồn cục Needleman-Wunsch ............................................................................... 14

2.2.2.

Giải thuật gióng cột cục bộ Smith-Waterman:...................................................................................... 15

2.2.3.

Giải thuật ClustalW:................................................................................................................................ 15

2.2.4.

Giải thuật SAGA:..................................................................................................................................... 16

2.2.5.

Giải thuật T-Coffee: ................................................................................................................................ 18

Chương 3.


KỸ THUẬT MÔ PHỎNG LUYỆN KIM.......................................................................................... 20

3.1.

Tổng quan về kỹ thuật luyện kim: ............................................................................................................... 20

3.2.

Vấn đề liên quan tới kỹ thuật luyện kim: .................................................................................................... 22

3.2.1.

Nhiệt độ ban đầu...................................................................................................................................... 22

3.2.2.

Nhiệt độ cuối ............................................................................................................................................ 22

3.2.3.

Thời biểu nhiệt độ.................................................................................................................................... 23

3.2.4.

Số bước lặp .............................................................................................................................................. 23

3.2.5.

Mối quan hệ tương quan:........................................................................................................................ 23


Chương 4.

GIẢI THUẬT DI TRUYỀN ................................................................................................................ 25

4.1.

Tổng quan về giải thuật di truyền:............................................................................................................... 25

4.2.

Các phép toán trong thuật giải di truyền: .................................................................................................... 26

4.2.1.

Chọn lọc ................................................................................................................................................... 26

4.2.2.

Lai ghép.................................................................................................................................................... 27

4.2.3.

Đột biến .................................................................................................................................................... 27

4.3.
4.3.1.

Giải thuật di truyền song song: .................................................................................................................... 28
Các mơ hình song song:.......................................................................................................................... 28


Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang iv


4.3.2.

Song song dạng chủ/tớ:........................................................................................................................... 29

4.3.2.1.

Quần thể con có di trú:.....................................................................................................................................30

4.3.2.2.

Các quần thể con có sự chồng lấp, khơng có di trú: ......................................................................................31

4.3.2.3.

Giải thuật di truyền song song khối lớn:.........................................................................................................32

4.3.2.4.

Các quần thể con động:....................................................................................................................................32

4.3.3.

Các phương pháp lai:.............................................................................................................................. 32

Chương 5.


GIẢI THUẬT KẾT HỢP..................................................................................................................... 34

5.1.

Tổng quát....................................................................................................................................................... 34

5.2.

Ý tưởng giải thuật ......................................................................................................................................... 34

5.3.

Phương pháp ................................................................................................................................................. 34

5.3.1.

Tìm bộ m ký tự (m-tuple)......................................................................................................................... 36

5.3.2.

Gióng cặp trình tự ................................................................................................................................... 36

5.3.3.

Thơng tin phân mảnh............................................................................................................................... 38

5.3.4.

Tạo cây phân lồi .................................................................................................................................... 39


5.3.5.

Tạo quần thể ban đầu.............................................................................................................................. 40

5.3.5.1.

Cá thể kỳ vọng..................................................................................................................................................40

5.3.5.2.

Các cá thể tiềm năng ........................................................................................................................................41

5.3.6.

Các phép toán thực hiện cho giải thuật lai............................................................................................ 42

5.3.6.1.

Hàm thích nghi và chọn lọc.............................................................................................................................44

5.3.6.2.

Lai ghép ............................................................................................................................................................44

5.3.6.2.1.

Lai ghép một điểm: ....................................................................................................................................45

5.3.6.2.2.


Lai ghép đồng nhất:....................................................................................................................................45

5.3.6.2.3.

Gom cột so trùng: .......................................................................................................................................45

5.3.6.2.4.

Lai ghép trên đoạn tốt nhất: .......................................................................................................................46

5.3.6.3.

5.4.
Chương 6.
6.1.

Đột biến.............................................................................................................................................................46

5.3.6.3.1.

Dịch khối ký tự:..........................................................................................................................................46

5.3.6.3.2.

Gom cột ký tự trùng: ..................................................................................................................................47

5.3.6.3.3.

Gom khoảng trắng:.....................................................................................................................................47


5.3.6.3.4.

Dịch khối:....................................................................................................................................................47

5.3.6.3.5.

Chia khối:....................................................................................................................................................47

5.3.6.3.6.

Chèn khối:...................................................................................................................................................48

5.3.6.3.7.

Loại bỏ khối:...............................................................................................................................................48

Giải thuật song song cho bài tốn................................................................................................................ 48
HIỆN THỰC CHƯƠNG TRÌNH ....................................................................................................... 54
Các vấn đề hiện thực .................................................................................................................................... 54

6.1.1.

Cấu trúc thông tin nhiễm sắc thể: .......................................................................................................... 54

6.1.2.

Cấu trúc dữ liệu phân mảnh:.................................................................................................................. 54

6.1.3.


Hàm Delta đánh giá thay đổi điểm tương đồng:................................................................................... 55

6.2.

Đánh giá kết quả ........................................................................................................................................... 55

6.2.1.

Phương pháp đánh giá:........................................................................................................................... 55

6.2.2.

Đánh giá các kết quả thực hiện:............................................................................................................. 56

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang v


6.2.3.

Nhận xét: .................................................................................................................................................. 58

Chương 7.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................................................... 59

7.1.


Các kết luận từ luận án ................................................................................................................................. 59

7.2.

Hướng phát triển ........................................................................................................................................... 59

Phụ lục A: SINH TIN HỌC........................................................................................................................................... 61
A.1. Quá trình phát triển ............................................................................................................................................. 61
A.2. Các hệ cơ sở dữ liệu sinh học lớn trên thế giới................................................................................................. 63
GenBank .................................................................................................................................................................. 63
EMBL....................................................................................................................................................................... 64
DDBJ ....................................................................................................................................................................... 65
PDB.......................................................................................................................................................................... 66
A.3. Phát triển sinh tin học tại Việt Nam................................................................................................................... 67
Phụ lục B: MINH HỌA CHƯƠNG TRÌNH............................................................................................................... 70
B.1. Cấu trúc chương trình ......................................................................................................................................... 70
B.2. Cấu trúc các dạng tập tin dữ liệu........................................................................................................................ 70
B.2.1 Dạng FastA: ................................................................................................................................................. 70
B.2.2. Dạng MSF và ALN: .................................................................................................................................... 71
B.3. Môi trường hiện thực song song LAM-MPI ..................................................................................................... 72
B.3.1. Các hàm, phương thức của Lam-MPI:...................................................................................................... 72
B.3.2. Thiết lập môi trường song song cho Lam-MPI thực thi:.......................................................................... 73
B.3.3. Dịch và thực thi chương trình:................................................................................................................... 74
B.4. Chương trình ClustalW....................................................................................................................................... 75
TÀI LIỆU THAM KHẢO ............................................................................................................................................. 76
BẢNG CÁC THUẬT NGỮ VÀ KÝ HIỆU VIẾT TẮT............................................................................................ 78

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang vi



DANH MỤC CÁC HÌNH VÀ GIẢI THUẬT
Hình 1.
Hình 2.
Hình 3.
Hình 4.
Hình 5.
Hình 6.
Hình 7.
Hình 8.
Hình 9.
Hình 10.
Hình 11.
Hình 12.
Hình 13.
Hình 14.
Hình 15.
Hình 16.
Hình 17.
Hình 18.
Hình 19.
Hình 20.
Hình 21.
Hình 22.
Hình 23.
Hình 24.
Hình 25.
Hình 26.
Hình 27.

Hình 28.
Hình 29.
Hình 30.
Hình 31.
Hình 32.
Hình 33.
Hình 34.
Hình 35.
Hình 36.
Hình 37.
Hình 38.
Hình 39.
Hình 40.
Hình 41.
Hình 42.
Hình 43.
Hình 44.
Hình 45.
Hình 46.
Hình 47.
Hình 48.
Hình 49.
Hình 50.
Hình 51.
Hình 52.
Hình 53.
Hình 54.
Hình 55.
Hình 56.
Hình 57.


Hình dạng của phân tử DNA.......................................................................................................................... 3
Dạng chuỗi trình tự DNA............................................................................................................................... 3
Bảng mã hố protein từ bộ ba ký tự DNA .................................................................................................... 4
Tên đầy đủ và tên viết tắt tương ứng của 20 Amino Acid ........................................................................... 4
Các chuỗi trình tự protein............................................................................................................................... 4
So sánh tương đồng cặp trình tự .................................................................................................................... 6
So sánh tương đồng đa trình tự...................................................................................................................... 6
Các trường hợp biến đổi chuỗi trình tự sinh học. ......................................................................................... 8
Ma trận khoảng cách PAM 250 .................................................................................................................... 9
Ma trận BLOSUM 50..................................................................................................................................... 9
Cách hiện hình theo kiểu điểm dạng Dotplot.............................................................................................. 11
Sơ đồ giải thuật ClustalW ............................................................................................................................ 16
Sơ đồ phép lai ghép trong SAGA ................................................................................................................ 17
Chèn khỏang trắng “-“ vào từng nhóm trình tư trong SAGA.................................................................... 17
Chuyển và xố khoảng trắng trong SAGA ................................................................................................. 18
Mơ hình giải thuật T-Coffee ........................................................................................................................ 19
Giải thuật kỹ thuật luyện kim....................................................................................................................... 21
Sơ đồ thực hiện giải thuật di truyền............................................................................................................. 26
Vòng quay rolette cho việc chọn lọc ........................................................................................................... 26
Sơ đồ lai ghép trong giải thuật di truyền ..................................................................................................... 27
Sơ đồ minh họa phép đột biến ..................................................................................................................... 28
Phân loại giải thuật di truyền song song...................................................................................................... 29
Song song dạng chủ tớ ................................................................................................................................. 30
Mơ hình giải thuật di truyền song song kết thơ .......................................................................................... 31
Hình thức kết hợp cho giải thuật di truyền song song................................................................................ 33
Sơ đồ tổng quan giải thuật kết hợp GASA.................................................................................................. 35
Giải thuật lập bảng băm m ký tự.................................................................................................................. 36
Sơ đồ mô tả bảng băm cho bộ m ký tự........................................................................................................ 36
Đường chéo gióng cột .................................................................................................................................. 37

Giải thuật xác định biên giới hạn gióng cột ................................................................................................ 37
Gióng cột giới hạn biên ................................................................................................................................ 38
Sơ đồ phân mảnh trình tự. ............................................................................................................................ 39
Sơ đồ gom nhóm của giải thuật UPGMA ................................................................................................... 40
Giải thuật gióng cột gom nhóm ................................................................................................................... 41
Sơ đồ gióng cột hai nhóm............................................................................................................................. 41
Gióng cột dựa trên trình tự cơ sở ................................................................................................................. 42
Giải thuật lai di truyền và luyện kim ........................................................................................................... 44
Lai ghép tại một điểm................................................................................................................................... 45
Lai ghép đồng nhất ....................................................................................................................................... 45
Gom cột so trùng........................................................................................................................................... 46
Lai ghép trên đoạn tốt nhất........................................................................................................................... 46
Đột biến nhờ dịch khối ký tự ....................................................................................................................... 46
Gom cột trùng ký tự...................................................................................................................................... 47
Gom khoảng trắng ........................................................................................................................................ 47
Dịch khối khoảng trắng ................................................................................................................................ 47
Chia khối khoảng trắng ................................................................................................................................ 47
Chèn khối trắng............................................................................................................................................. 48
Loại bỏ khối khoảng trắng ........................................................................................................................... 48
Song song giải thuật kết hợp........................................................................................................................ 49
Sơ đồ tổng quát cho giải thuật kết hợp song song ...................................................................................... 50
Cấu trúc lưu nhiễm sắc thể........................................................................................................................... 54
Cấu trúc phân mảnh...................................................................................................................................... 55
Hàm Delta tính mức độ thay đổi giá trị tương đồng................................................................................... 55
Tương quan giữa tiến hóa tự nhiên và mơ hình protein ............................................................................. 62
Trang chủ của Genbank................................................................................................................................ 64
Trang chủ của EMBL ................................................................................................................................... 65
Trang chủ của DDBJ .................................................................................................................................... 66

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học


Trang vii


Hình 58.
Hình 59.
Hình 60.

Trang chủ của PDB....................................................................................................................................... 67
Chương trình HiBio-HCMC ........................................................................................................................ 68
Trang web sinh tin học của Phân viện CNTT............................................................................................. 69

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang viii


Chương 1: GIỚI THIỆU

Chương 1. GIỚI THIỆU
1.1.

Đặt vấn đề:

Từ những năm cuối thế kỷ 20, di truyền học và kỹ thuật gen đã phát triển nhanh chóng
và đạt được nhiều thành tựu to lớn. Sự phát triển này giúp cho con người ngày càng hiểu
rõ hơn cơ sở khoa học về sự sống. Và ngược lại, chính sự hiểu biết đó đóng góp vai trị
rất lớn đối với lĩnh vực sức khoẻ con người như chẩn đốn, dự phịng, trị liệu. Bên cạnh
đó, sự phát triển các ngành này cịn đóng góp cho việc nâng cao chất lượng cuộc sống
và bảo vệ môi trường thiên nhiên.

Đi kèm với sự phát triển của lĩnh vực sinh học là những vấn đề đặt ra mà cần có sự tham
gia của các ngành khoa học khác, đặc biệt là ngành khoa học máy tính. Với sự thành
cơng của các dự án nghiên cứu về gen, cùng với sự hỗ trợ của các công cụ tin học, đã
dẫn đến một sự thay đổi lớn trong việc nghiên cứu các vấn đề liên quan đến sinh học.
Người ta chuyển dịch dần từ sự quan tâm cấu trúc của các đa phân tử sinh học sang sự
phân tích các trình tự sinh học (sequence analysis). Sau đó tìm cách hợp lý hố một khối
lượng lớn thơng tin thu được qua sự phân tích. Việc hợp lý hố bằng các phương tiện tin
học khơng phải chỉ dừng lại ở việc tạo ra các cơ sở dữ liệu lớn, mà cịn tạo ra các cơng
cụ hữu hiệu để phân tích và tìm hiểu nội dung bên trong các đa phân tử sinh học.
Chính vì vậy, trong q trình nghiên cứu của các nhà sinh học, bước đầu tiên và cũng là
bước quan trọng là q trình phân tích trình tự. Để đảm bảo cho sự thành cơng và cho ra
kết quả nhanh chóng thì cơng cụ tin học đóng vai trị khá đắc lực. Tuy nhiên với tốc độ
gia tăng rất lớn về số lượng các trình tự sinh học được nghiên cứu, cùng với nó là sự
phức tạp trong quá trình so sánh và tìm kiếm, dẫn tới những đòi hỏi ngày càng cao về
các phương pháp, giải thuật tham gia. Đặc biệt là việc cần phải đảm bảo chất lượng của
quá trình so sánh sao cho chấp nhận được và thời gian đáp ứng cũng cần phải nhanh
chóng. Trên thế giới đã có rất nhiều nghiên cứu và đã có phương pháp được đưa ra,
nhưng mỗi cách đều có những mặt mạnh và mặt yếu của nó khi giải quyết các u cầu
này.
Mục đích của luận văn là nghiên cứu một số vấn đề liên quan, qua đó tìm để có thể cải
thiện được hiệu quả xử lý. Luận văn tập trung vào việc dựa trên đánh giá của các nghiên
cứu trên thế giới, kết hợp mặt mạnh của một số giải thuật đã có cùng sự tăng cường một
hướng thích hợp trong trí tuệ nhân tạo, cụ thể là áp dụng tìm kiếm có heuristic (kết hợp
hai giải thuật chính là giải thuật di truyền và giải thuật Simulated Annealing) để đưa ra
một giải thuật thích hợp hơn. Thêm vào đó luận văn sẽ tìm hướng chuyển sang song
song hoá giải thuật để tăng hiệu quả xử lý.
Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 1



Chương 1: GIỚI THIỆU

1.2.

Bài tốn so sánh trình tự

1.1.1 Ý nghĩa sinh học hiên quan bài toán :
Đến nay, trong ngành sinh học có bốn dạng bài tốn được đặt ra để nhằm đáp ứng các
nhu cầu phân tích trình tự như sau:
(1) Cho một trình tự hay một đoạn trình tự, tìm kiếm trình tự nào giống với nó.
(2) Cho một hay một đoạn cấu trúc protein, tìm kiếm cấu trúc nào giống với nó.
(3) Cho trình tự của một protein khơng biết cấu trúc, đi tìm các cấu trúc protein có
trình tự gần tương tự.
(4) Cho cấu trúc protein, đi tìm các trình tự mà có cấu trúc tương tự.
Trong đó, bài tốn (1) tìm sự giống nhau của trình tự muốn xác định với các trình tự đã
biết là bài toán quan trọng và là trọng tâm chính của ngành khoa học sinh tin
học(Bioinformatics).
Mọi bài tốn kể trên đều đặt nặng vấn đề so sánh tương đồng giữa các trình tự. Bài tốn
về so sánh trình tự sinh học được đặt ra trong quá trình nghiên cứu của các nhà sinh học
vì các lý do và nhằm các mục đích sau:
Việc so sánh các trình tự khơng thể thực hiện bằng phương pháp thủ công, và
hơn nữa số lượng trình tự sinh học rất lớn.
Tìm kiếm để khẳng định khơng có sự lặp lại các nghiên cứu đã được thực hiện và
cũng để xác định vùng địa lý nào có cùng chung lồi gì và đặc điểm sinh học của
chúng khác nhau ở đâu.
Xác định quan hệ tiến hoá giữa các sinh vật khác nhau, bài toán này được gọi là
phân tích cây phân lồi (phylogenetic) hoặc phân tích q trình tiến hố
(evolutionary analysis). Chẳng hạn khi cần xác định xem sinh vật đang nghiên
cứu có thuộc vào các loài sinh vật đã biết hay chưa hay là một sinh vật mới được

phát hiện, khi phát hiện ra lồi mới thì cần xếp nó có họ hàng gần với các sinh
vật nào nhất. Bởi vì khi xác định được quan hệ tiến hố của nó với các lồi sinh
vật khác thì sinh vật đang cần xem xét có thể được hiểu rõ từ các lồi quan hệ họ
hàng với nó.
Xác định các đoạn nhỏ trình tự lặp lại trong chuỗi trình tự dài (motif) và các miền
bảo tồn (conserved domain) đặc trưng cho họ sinh vật.
Xác định protein mới, xem xét protein mới này thuộc nhóm nào trong các nhóm
đã tồn tại. Dựa vào sự giống nhau các thành phần của trình tự liên quan tới cấu

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 2


Chương 1: GIỚI THIỆU

trúc và chức năng đặc trưng cho nhóm protein để dự đốn cấu trúc bậc hai, ba và
bốn của protein và RNA, chức năng của protein, biểu hiện tính trạng của gen
(gene expression).
Vì các thiết bị sinh học hiện nay cịn giới hạn việc đọc các trình tự trong các đoạn
ngắn nên cần so các phần trùng lấp của các chuỗi để kết hợp các đoạn trình tự
(fragment assembly) thành một hệ gen đầy đủ.
1.1.2 Cơ sở sinh học và mơ hình tốn học:
Khi đề cập tới bài tốn so sánh các trình tự cần phải hiểu các khái niệm và quan điểm
của các nhà sinh học khi đưa ra bài tốn để có thể giải quyết đúng yêu cầu của họ đặt ra:
Trong sinh học có 3 loại trình tự như sau: DNA, RNA và protein. Trình tự DNA có thể
mơ hình như là một chuỗi liên tiếp của 4 loại ký tự đại diện cho bốn nucleotide cấu tạo
lên DNA. RNA cũng được mô tả tương tự RNA với chỉ có 4 ký tự. Cịn protein thì được
tạo nên bởi 20 phần tử.
DNA (DeoxyriboNucleic Acid) và RNA (RiboNucleic Acid) là hai đại phân tử hay đa

phân tử sinh học. Chúng là Nucleic acid, vật chất mang thông tin di truyền từ các hệ
thống sống. Ở đây, quá trình so sánh và tìm kiếm chỉ quan tâm nhiều tới DNA, nói đúng
ra là một mạch đơn của chuỗi xoắn kép DNA. Mỗi mạch đơn DNA là một chuỗi các
nucleotide sắp sếp kế tiếp nhau, nucleotide có 4 loại được ký hiệu như sau: A (Adenine),
G (Guanine), C (Cytosine), T (Thymine). So với DNA thì RNA có một ký tự khác là U
(Uracile) thay thế cho ký tự T của DNA.

Hình 1.Hình dạng của phân tử DNA

Sau đây là một mô tả về biểu diễn dạng chuỗi trình tự DNA:

Hình 2.Dạng chuỗi trình tự DNA.

Protein là biểu biện của vật chất sống, nó tham gia vào hầu hết các quá trình sinh học và
là cơ sở của sự đa dạng về cấu trúc và chức năng của tất cả các sinh vật. Trong sự sống,

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 3


Chương 1: GIỚI THIỆU

protein được tạo ra qua quá trình dịch mã từ đoạn gen biểu hiện chứa thông tin di truyền
trong DNA. Protein là một chuỗi trình tự các amino acid nối kết với nhau bằng các liên
kết tạo nên cấu trúc (được chia ra làm nhiều dạng cấu trúc như bậc 1, bậc 2 và cấu trúc
không gian bậc 3, bậc 4, bậc 5). Amino acid gồm có 20 loại được ký hiệu tắt bởi các
chữ cái. Mỗi Amino acid được mã hoá từ bộ 3 nucleotide, tuy có 64 bộ mã hố nhưng
chỉ có 20 loại amino acid và một số mã làm tín hiệu cho việc dịch mã từ DNA:
T


T

C

A

G

TTT
TTC
TTA
TTG
CTT
CTC
CTA
CTG
ATT
ATC
ATA
ATG
GTT
GTC
GTA
GTG

C

A


G

TCT
TAT
TGT
Try
Cys
TCA
TAC
TGC
Ser
TCA
TAA
TGA
Stop
Leu
Stop
TCG
TAG
TGG
Trp
CCT
CAT
CGT
His
CCC
CAC
CGC
Leu
Pro

Arg
CCA
CAA
CGA
Gln
CCG
CAG
CGG
ACT
AAT
AGT
Asn
Ser
Ile
ACC
AAC
AGC
Thr
ACA
AAA
AGA
Lys
Arg
ACG
AAG
AGG
Met
GCT
GAT
GGT

Asp
GCC
GAC
GGC
Val
Ala
Gly
GCA
GAA
GGA
Glu
GCG
GAG
GGG
Hình 3.Bảng mã hố protein từ bộ ba ký tự DNA
Phe

T
C
A
G
T
C
A
G
T
C
A
G
T

C
A
G

Tên
Tên tắt
Ký tự
Tên
Tên tắt
Ký tự
Amino Acid
đại diện
Amino Acid
đại diện
Alanine
Ala
A
Leucine
Leu
L
Arginine
Arg
R
Lysine
Lys
K
Asparagine
Asn
N
Methionine

Met
M
Aspartic
Asp
D
Phenylalanine Phe
F
Cysteine
Cys
C
Proline
Pro
P
Glutamic
Glu
E
Serine
Ser
S
Glutamine
Gln
Q
Threonine
Thr
T
Glycine
Gly
G
Tryptophan
Trp

W
Histidine
His
H
Tyrosine
Tyr
Y
Isoleucine
Ile
I
Valine
Val
V
Hình 4.Tên đầy đủ và tên viết tắt tương ứng của 20 Amino Acid

Sau đây là mô tả dạng chuỗi trình tự protein:

Hình 5.Các chuỗi trình tự protein

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 4


Chương 1: GIỚI THIỆU

Khi nói tới trình tự DNA hay protein tức là nói tới một chuỗi tuần tự các nucleotide hay
amino acid liên kết kế tiếp nhau.
Sự tương đồng (homology) nói tới các trình tự có cùng nguồn gốc tổ tiên. Nghĩa là từ
một nguồn gốc trình tự từ sinh vật ban đầu trong q trình tiến hố có thể có những biến

đổi khác nhau trong trình tự gây ra việc phân nhiều nhánh phát triển khác nhau của các
sinh vật.
Sự tương tự (analogy) đề cập đến trường hợp cấu trúc các protein có dạng giống nhau
nhưng trình tự lại khác nhau.
Tới đây, bài tốn so sánh trình tự được gọi chính xác là bài tốn so sánh tương đồng các
trình tự hay cũng có một cách gọi khác là bài tốn gióng cột các trình tự. Bài tốn này có
thể mơ tả đơn giản như sau: sắp xếp các chuỗi vào mỗi hàng và làm sao để gióng các
phần tử trong các trình tự thành các cột mà khi đó thể hiện được các vùng nào giống
nhau giữa các trình tự và vùng nào có sự khác biệt.
Với mơ hình tốn học ta có cách biểu diễn bài toán như sau:
Bài toán: Cho S = {S1 , S 2 ,..., S n } là tập hợp n trình tự với các phần tử trong bảng ký tự
A, mỗi trình tự Si có li ký tự liên tiếp được sắp thứ tự:
S i = si ,1 si , 2 si ,3 ...si ,l , ∀i = 1,..., n
i

Giả sử chúng ta có một bảng ký tự mới A' = A ∪ {−} , so với bảng A thì A’ có thêm ký tự
“-“ để mơ tả một qng cách. Từ đây, kết quả so sánh tương đồng là tập
S ' = {S1′, S 2′ ,..., S n′ } có n trình tự có các ký tự thuộc tập A’. Trong đó S’ có các đặc tính

sau:
n

(i) Tất cả các trình tự trong S’ phải có cùng độ dài l’: max(li ) ≤ l ' ≤ ∑ li
i =1.. n

i =1

(ii) Khi bỏ qua tất cả các ký tự “-“ thì chính là S i .
(iii) S’ khơng có cột nào tương ứng với các phần tử trong S' i chỉ tồn là qng
cách “-“.

Từ đây, có thể coi kết quả so sánh tương đồng như một dãy với n dịng mà mỗi dịng sẽ
chứa một trình tự tương ứng. Dựa trên số trình tự phân ra hai loại so sánh tương đồng là
so sánh cặp trình tự khi số trình trự cần so sánh là 2 và so sánh đa trình tự với n ≥ 3 .
Hai hình bên dưới mơ tả về các trình tự đem so sánh và kết quả quả gióng cột các trình
tự này:

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 5


Chương 1: GIỚI THIỆU

Hình 6.So sánh tương đồng cặp trình tự

Hình 7.So sánh tương đồng đa trình tự

Để giải quyết bài tốn so sánh tương đồng thì cần có một đánh giá để xác định được kết
quả nào là tốt. Dựa vào cách đánh giá mới có thể xác định các trình tự hay các phần nào
trong các trình tự giống nhau nhất và cũng là để xác định sự tương đồng. Hiện có hai
loại đánhgiá khi so sánh giữa các trình tự là hàm đánh giá mức độ giống nhau (similarity
measure), hay đánh giá khoảng cách (distance measure) giữa các trình tự. Ở mức độ
đơn giản, việc xác định chỉ dựa trên số phần tử giống nhau hoặc là số phần tử khác nhau
giữa các kết quả gióng cột.
Khi xem xét đánh giá theo khoảng cách giữa các trình tự thì có thể xem như làq trình
tìm kết quả gióng cột có tối thiểu tổng chi phí cần thiết cho việc chuyển đổi từ trình tự
này sang trình tự khác.
Giả sử có hàm tính khoảng cách d ( S i′, S ′j ) cho hai trình tự được gióng cột S i′ và S ′j thì
bài tốn so sánh cặp trình tự được mơ tả như sau:
Cho S = {S1 , S 2 } là tập bao gồm hai chuỗi ký tự cùng thuộc bảng ký hiệu A. Tìm kết quả

gióng cột S ' = {S1′, S 2′ } trên cơ sở xác định trường hợp có giá trị khoảng cách d ( S1 , S 2 )
đạt cựu tiểu.
Việc tính trị khoảng cách cho so sánh đa trình tự có độ phức tạp lớn hơn gấp nhiều lần
so với việc đánh giá khoảng cách của cặp trình tự. Cách thường sử dụng nhất được xác
định bởi tổng khoảng cách từng cặp gióng cột trong kết quả gióng cột đa trình tự, bài
tốn này được mơ tả như sau:
Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 6


Chương 1: GIỚI THIỆU

Với S = {S1 , S 2 ,..., S n } là tập bao gồm n chuỗi ký tự cùng thuộc bảng ký hiệu A. Tìm kết
quả gióng cột S ' = {S1′, S 2′ ,..., S n′ } trên cơ sở xác định trường hợp có giá trị tổng tất cả các
khoảng cách d ( S i′, S ′j ) của từng cặp S i′, S ′j đạt cựu tiểu:
⎛ n −1 n

min⎜⎜ ∑ ∑ d (S i′ , S ′j ) ⎟⎟
S'
⎝ i =1 j =i +1


(1)

Các định nghĩa trên đều dựa vào việc xác định khoảng cách khác biệt giữa các trình tự,
ngược lại một số phương pháp khác tiếp cận vấn đề theo việc đánh giá mức độ giống
nhau và đi tìm trường hợp gióng cột có số điểm đánh giá cao nhất, tức là đi tìm trị cực
đại mức độ tương đồng các trình tự. Cho dù là khoảng cách hay tương đồng thì chúng
đều liên quan mật thiết với nhau và đều vì mục đích xác định cho được kết quả gióng cột

nào tốt nhất, nghĩa là trường hợp gióng cột mà các trình tự có nhiều vùng giống nhau
nhất hay các trình tự được sắp sao cho sự khác biệt là thấp nhất.
Tuy nhiên, khi dựa trên cơ sở đánh giá tương tự, ln cần có sự đánh giá hàm phạt cho
các trường hợp có qng cách vì với trường hợp này nó làm giảm sự tương đồng và
cũng là làm gia tăng sự khác biệt giữa hai trình tự. Bởi trong q trình tiến hố, các trình
tự có thể thêm hoặc bớt đi một số phần tử (thường ký hiệu là InDel insertions/deletions) trong trình tự, cho nên các sinh vật có họ hàng gần nhau có thể các
trình tự khác nhau ở phần thêm vào chen giữa trình tự. Bởi vậy khi chuyển sang việc so
sánh trong mô hình tốn học cần phải cho phép có qng cách (gap - được ký hiệu bằng
dấu “-”) để có thể tìm được các phần trình tự giống nhau nhất. Tuy nhiên, khả năng
thêm hay bớt trong các trình tự là q trình tiến hố lâu dài vì vậy khi đánh giá các sinh
vật nào gần nhau thì cũng có ít qng cách hơn. Do đó trong mơ hình tốn học có đưa
vào điểm phạt cho quãng cách (gap penalties) sao cho đáp ứng giống bài tốn thực tế.
Nhưng các lồi gần sau sẽ có trình tự giống nhau ở các đoạn liên tục và dài cho nên các
mơ hình tốn học còn thêm điểm phạt cho mỗi một đoạn quãng cách (open gap
penalties).
Một vấn đề khác đặt ra cho bài tốn so sánh các trình tự protein là cần có các công thức
đánh giá tốt hơn để phản ánh đúng các ý nghĩa sinh học liên quan protein. Bởi protein có
những đặc tính sinh hóa mà nó làm ảnh hưởng tới những khả năng hốn đổi trong q
trình tiến hóa. Do đó cần có một cơ sở tính điểm đánh giá mà phản ánh được những khả
năng này một cách tốt nhất có thể được. Với một số đặc tính như vậy, trong q trình
tiến hố xảy ra các trường hợp bị đột biến tại một số phần tử trong trình tự (có thể hiểu
đơn giản là nucleotide hay amino acid này được thay thế bằng phần tử khác). Hình bên

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 7


Chương 1: GIỚI THIỆU


dưới mô tả bốn kiểu biến đổi chủ yếu trong q trình tiến hố các sinh vật trong tự
nhiên:

Hình 8.Các trường hợp biến đổi chuỗi trình tự sinh học.

Qua quá trình thực nghiệm và nghiên cứu, các nhà nghiên cứu đã đưa ra một số các
bảng thống kê đánh giá mức độ đột biến từ phần tử này sang phần tử khác (chẳng hạn
như PAM - Point-Accepted-Mutation do Dayhoff đưa ra, BOSUM - BLOcks Substitution
Matrix do Henikoff và Henikoff đưa ra, …) để có thể phản ánh đúng ý nghĩa sinh học
tương ứng. Các ma trận đánh giá tương đồng này chứa các điểm đánh giá cho tất cả
các trường hợp so trùng và lỗi so trùng (thay thế ký tự) của các ký hiệu amio acid dựa
trên tần xuất xảy ra những thay đổi trong việc thống kê trên cơ sở dữ liệu về các
protein đã biết được. Có thể hiểu theo nghĩa là điểm tính được gán cho nó dựa trên các
tính chất sinh học trong các khả năng xảy ra như việc thay thế hay được bảo tồn. Hai
hình sau mơ tả các điểm đánh giá cho các chuyển đổi ký tự trong trình tự:

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 8


Chương 1: GIỚI THIỆU

Hình 9. Ma trận khoảng cách PAM 250

Hình 10.Ma trận BLOSUM 50

Mơ hình tốn học cho ma trận tính điểm như sau: cho M là một ma trận tính điểm bất kỳ
hai ký tự x và y trong bảng ký tự A, thì M có những đặc tính sau:
1. M ( x, y ) = M ( y, x), ∀x, y ∈ A

2. M ( x,−) = G, Với G là điểm phạt cho quãng cách
3. M (−,−) = 0
Từ đây, điểm tương đồng giữa hai trình tự S i′, S ′j đã được gióng cột được tính như sau:
l

SS ( S ' i , S ' j ) = ∑ M ( s 'i ,k , s' j ,k )

(2)

k −1

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 9


Chương 1: GIỚI THIỆU

Một số quan điểm cho rằng các trình tự có quan hệ tiến hố khác nhau nên khi tính điểm
tương đồng cho các protein, với mỗi trình tự cần có một trọng số đánh giá tương xứng
với mức thơng tin độc lập mà nó chứa. Những trọng số này xem như là cách đánh giá để
làm giảm mức độ dư thừa thơng tin trong các trình tự có mối quan hệ họ hàng và nó
được tính được qua q trình xác định cây phân lồi.
Giả sử rằng W là ma trận trọng số cho các trình tự đã được gióng cột. Cách tính điểm
tương đồng có trọng số của hai trình tự S i′, S ′j dựa theo công thức sau:
l

WSS ( S 'i , S ' j ) = Wi , j .∑ M ( s'i ,k , s' j ,k )

(3)


k −1

Việc chèn và xoá làm giảm bớt sự tương đồng và được tính dựa trên điểm phạt cho mỗi
quãng cách. Nếu định nghĩa một quãng cách là khối liên tục các khoảng trắng "-" thì
một qng cách có độ dài l theo cách tính điểm phạt qng cách tuyến tính sẽ có một
điểm phạt là:
LGPS = l × G,

∀G < 0

(4)

Theo cách tính khác, có thêm điểm phạt cho mỗi đoạn quãng cách hay có thể nói đó là
điểm phạt mở đầu cho một quãng cách O < G < 0 , như vậy tuy có cùng số lượng
khoảng trắng "-" nhưng nếu có nhiều quãng cách thì điểm phạt cũng bị nhiều hơn và
như thế phản ánh đúng khía cạnh sinh học như đã phân tích phía trên. Cách tính này
được gọi là điểm phạt quãng cách phi tuyến:
AGPS = O + (l − 1)G,

∀O < G < 0

(5)

Từ trên, để xác định kết quả gióng cột từ cách tính điểm tương đồng có trọng số đối với
S ' = {S '1 , S ' 2 ,..., S ' n } như sau:
n

⎛ n −1 n
max⎜⎜ ∑ ∑ WSS ( S 'i , S ' j ) + ∑ AGPS ( S 'i ) ⎟⎟

S'
i −1

⎝ i =1 j =i +1

(6)

Như những mô tả trên, bài tốn so sánh trình tự được xác định là bài toán NP-complete
(Wang, Jiang [31]). Với n chuỗi có độ dài l, khi áp dụng quy hoạch động thì độ phức tạp
vẫn rất lớn: O ((2l )n ). Chưa dừng lại đó, việc tìm kiếm và so sánh trên cơ sở dữ liệu rất

lớn của sinh học hiện tại và tương lai sẽ gặp càng nhiều khó khăn nếu khơng có chiến
lược tốt. Thêm nữa là hiện nay các nhà nghiên cứu di truyền có xu hướng so sánh toàn
bộ hệ gen (lên tới cả triệu, tỷ ký tự) chứ khơng chỉ là một đoạn trình tự (thường chỉ vài
trăm đến vài ngàn ký tự).

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 10


Chương 2: TỔNG QUAN VỀ SO SÁNH TRÌNH TỰ

Chương 2. TỔNG QUAN VỀ SO SÁNH TRÌNH TỰ
2.1.

Phương pháp so sánh trình tự

Phần này sẽ điểm qua các nghiên cứu và thành tựu liên quan tới bài toán vài năm gần
đây trên thế giới. Các xu hướng nghiên cứu được một số tác giả sau phân loại như

Yongqing Zhang [30]; Yong Yang [29]; Cédric Notredame [5].
Trong việc so sánh trình tự, có hai dạng so sánh là so sánh cặp trình tự (PSA - Pairwise
Sequence Alignment) và so sánh đa trình tự (MSA - Multiple Sequence Alignment). So
sánh cặp trình tự thường được dùng trong quá trình tìm kiếm các trình tự giống với nó
nhất mà đã được biết đến và cũng là cơ sở cho việc giải quyết bài toán đa trình tự. So
sánh đa trình tự thường dùng để xác định đặc trưng hoặc phân định tiến hoá của loài đo
và là bước thực hiện cơ bản cho các q trình phân tích trình tự sinh học. Các phần sau
đây sẽ lược qua các nghiên cứu dựa trên phân loại xu hướng trong hai dạng so sánh.

2.1.1. So sánh cặp trình tự:
So sánh cặp trình tự được phân thành ba dạng:
1. Các phương pháp phân đoạn (segment methods): so sánh có trùng lặp tất cả các phân
đoạn của một chuỗi với tất cả các phân đoạn của chuỗi khác. Đây là cách tiếp cận trong
việc biểu diễn sự so sánh với sự mô tả trực quan cho người nghiên cứu dễ phán đốn
(được gọi là Dotplot), nó chỉ hiển thị những nơi nào giống nhau của hai trình tự trên mặt
phẳng toạ độ 2 chiều, với hai trục là hai chuỗi trình tự.

Hình 11.Cách hiện hình theo kiểu điểm dạng Dotplot

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 11


Chương 2: TỔNG QUAN VỀ SO SÁNH TRÌNH TỰ

2. Gióng cột tối ưu toàn cục (Optimal global alignment methods): cho phép xác định kết
quả so sánh trên toàn bộ chuỗi mà có đánh giá tốt nhất.
3. Gióng cột tối ưu cục bộ (Optimal local alignment methods): cố gắng tìm kiếm sự
giống nhau nhất một vùng trình tự nào đó giữa hai chuỗi.

Về phương diện giải thuật thì so sánh cặp trình tự được phân chia thành các dạng sau:
1. Các kỹ thuật dựa trên quy hoạch động (Dynamic programming): đại diện cho các giải
thuật dựa trên nền tảng quy hoạch động là giải thuật gióng cột tồn cục (global
alignment) Needleman-Wunsch [17] và giải thuật cục bộ (local alignment) SmithWaterman [25]. Trong các phương pháp dựa trên kỹ thuật này lại phân nhỏ ra các dạng
sau:
Giảm không gian nhớ (Space reduction): đại diện cho nó là giải thuật gióng cột tối ưu
với khơng gian tuyến tính của Hirschberg [13]. Bởi một trong những khuyết điểm của
phương pháp quy hoạch động là độ phức tạp của việc sử dụng không gian nhớ lên tới
Ο(m ∗ n ) với m và n là độ dài hai trình tự. Giải thuật có u cầu không gian nhớ giảm
đáng kể với độ phức tạp chỉ còn Ο(min(m, n )) . Sau này Miller và Myer đã cải tiến thêm
và được dùng nhiều từ năm 1988.
Giảm thời gian thực thi (Time reduction): đại diện là các phương pháp K-difference.
Cách tiếp cận này chia làm hai loại, một cách gọi là K-difference gióng cột tồn cục (Kdifference global alignment), ý tưởng chính là tìm gióng cột tồn cục tối ưu với giới hạn
chỉ trong k lỗi so trùng (mismatch) kể cả quãng cách. Một cách khác gọi là bài tốn Kdifference so trùng khơng chính xác (k-difference inexact matching problem), điểm cốt
lõi của cách này là tìm tất cả các cách nếu được, so trùng hai trình tự với giới hạn nhiều
nhất số lượng ký tự thêm hay bớt là k.
Lai các phương pháp quy hoạch động (Hybrid Dynamic Programming): phương pháp
này dựa trên nền tảng cách tiếp cận K-difference với việc thực thi trong k bước lặp và
mỗi bước lặp mất Ο(m ) thời gian. Việc gióng cột có thể thực hiện trong giới hạn thời
gian là Ο(k ∗ m ) và không gian là Ο(m + n ) .
Một số phương pháp khác dựa trên nền tảng quy hoạch động: vài phương pháp được
nghĩ ra cho việc giải quyết bài toán với việc so trùng gần đúng nhằm có thể thực thi
nhanh hơn Ο(k ∗ m ) . Nhưng phần lớn đều thực thi với thời gian tuyến tính theo m. Một
số giải thuật được biết qua như: các phương pháp của Bae-Yates và Perleberg (BYP)
[3], Chang và Lawler (CL) [6], Myer , Wu-Manber [29], …

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 12



Chương 2: TỔNG QUAN VỀ SO SÁNH TRÌNH TỰ

2. Tìm kiếm trình tự có heuristic: đại diện cho xu hướng này có hai giải thuật là FASTA
và BLAST. Chúng được thiết kế nhằm mục đích tìm kiếm các trình tự nào gần giống với
trình tự cần tìm nhất trong số lượng rất lớn các trình tự có trong cơ sở dữ liệu. Ban đầu
khi tìm kiếm chỉ thực hiện các bước đánh giá sơ bộ qua các trình tự, sau khi tìm kiếm
xong mới thực hiện giải thuật dựa trên nền tảng quy hoạch động. FASTA được đưa ra
bởi Lipman và Pearson vào năm 1985 [22]. BLAST được phát triển bởi Altschul vào
năm 1990 [1],[2].
3. Các phương pháp dựa trên thống kê (Statistic based methods): đại diện cho xu hướng
này là việc dùng mơ hình Markov ẩn (Hidden Markov Model) vào việc so sánh.
4. Gióng cột siêu cặp trình tự (SPA-Super Pairwise Alignmen)[24]: thay vì việc gióng
cột thực hiện với từng ký hiệu, ở đây giải thuật đề cập tới khái niệm mới là việc gióng
cột theo từng phân đoạn với nhau, cách thức này cũng được thực hiện tốt trên MSA. Ý
tưởng của nó là dùng giải thuật tham (greedy algorithm) để xác định đoạn chèn thêm ít
nhất từ đó giảm thiểu việc đánh giá. Giải thuật này làm giảm đáng kể độ phức tạp về
thời gian và không gian. Thời gian và không gian chỉ tốn Ο(m ) .
5. Gióng cột gần tối ưu (Suboptimal alignment): bài tốn so trùng trình tự được biểu
diễn dưới dạng đồ thị lưới (grid graph). Naor và Brutlag vào năm 1993 [16] đã đề xuất
giải thuật dạng này với độ phức tạp Ο(m ) . Năm 1994, Chao [7][8] đề xuất một giải thuật
có độ phức tạp thời gian tuyến tính và khơng gian gần tuyến tính.

2.1.2. So sánh đa trình tự:
Được chia thành hai hệ chính:
1. Các mơ hình trên cơ sở quy hoạch động (Dynamic based model):
Các giải thuật “luỹ tiến” (progressive algorithms): Là một trong những phương pháp
thực hiện gióng cột đa trình tự đơn giản và hiệu quả với thời gian thực thi nhanh mà tốn
ít bộ nhớ. Xu hướng này khởi đầu được Hogeweg đề xuất, sau đó được phát triển bởi
Feng-Dolittle [9]. Dựa trên nền tảng này phát triển có các phương pháp sau: Pileup,

GCG, Clustal [28], T-Coffee [21], ...
Các giải thuật chính xác (exact algorithms): được biết tới như là cách thức dùng
heuristic có chất lượng cao thể có được kết quả gần tối ưu. Đại diện ở đây là giải thuật
Carrillo-Lipman [4], và giải thuật chia để trị DCA của Stoye [27].
Các giải thuật lặp (iterative algorithms): dựa trên ý tưởng là giải quyết bài toán dựa trên
các kết quả của việc giải quyết đã có trước đó. Xu hướng là dùng giải thuật di truyền

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 13


Chương 2: TỔNG QUAN VỀ SO SÁNH TRÌNH TỰ

(GA) và giải thuật Monte-Carlo Simulated Annealing (SA).Điển hình là giải thuật SAGA
của Notredame và Higgins [20].
2. Các mơ hình Markov ẩn (Hidden Markov Models): các giải thuật bày dựa trên mơ
hình Markov ẩn, ở đó các trình tự được ánh xạ sang các trạng thái và xác suất chuyển
đổi. Các áp dụng dựa trên nền tảng này là HMMER, SAM.

2.2.

Các nghiên cứu liên quan chính:

Các mục kế tiếp mộ tả những giải thuật nền tảng và những giải thuật liên quan chính tới
hướng giải quyết của luận văn.

2.2.1. Giải thuật gióng cột tồn cục Needleman-Wunsch
Là giải thuật đơn giản nhưng chính xác nhất cho việc so sánh tồn bộ các trình tự được
Needleman và Wunsch đề xuất vào năm 1970.

Giải thuật khi áp dụng cho so sánh cặp trình tự:
- Xây dựng ma trận F với các chỉ số i,j chỉ tới vị trí ký tự trong mỗi chuỗi (với n trình tự,
F phải là ma trận n chiều tương ứng).
- Giá trị F(i,j) mô tả giá trị tốt nhất cho việc so sánh hai đoạn con S1,1, ..., S1,j và
S 2,1 ...S 2, j .
- Xây dựng F(i,j) theo cách đệ quy dựa trên đoạn trước đó đã được so sánh.
Khi so sánh hai chuỗi tại vị trí i và j có 3 trường hợp cần xét (trong trường hợp so sánh n
n
trình tự cần xét tới 2 − 1 trường hợp):

• S1,i gióng cùng cột với S1,j
• S1,i giống cùng cột với một khoảng trắng “-" chèn vào trình tự S1, đây là trường
hợp chèn xố ký tự.
• S2,i gióng cùng cột với một khoảng trắng “-“ chèn vào trình tự S1, đây cũng là
trường hợp chèn xố ký tự.

F(i-1, j-1) F(i-1, j)
F(i, j-1)

F(i,j)

Như vậy trường hợp gióng cột tốt hơn cho vị trí i,j được xác định bởi công thức sau:

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 14


Chương 2: TỔNG QUAN VỀ SO SÁNH TRÌNH TỰ


⎧ F (i − 1, j − 1) + M ( xi , y j )

F (i, j ) = max ⎨
F (i − 1, j ) − G

F (i, j − 1) − G


(7)

Với G là điểm phạt khi có khoảng cách. Giải thuật còn bước quay lui để xác định kết
quả gióng cột tốt nhất nên q trình thực hiện giải thuật phải lưu nhớ các đường đi qua
các trị tối ưu.Với giải thuật này, ta tìm được gióng cột tối ưu. Tuy nhiên, như đã mơ tả

(

bài tốn trong phần giới thiệu độ phức tạp của giải thuật là Ο (2l )

là Ο(l n ).

n

) và không gian nhớ

2.2.2. Giải thuật gióng cột cục bộ Smith-Waterman:
Tương tự như giải thuật gióng cột tồn cục Needleman-Wunsch để xác định sự tương
đồng nhưng có sự thay đổi cho mục đích xác định những vùng chung gữa các trình tự.
Ở đây, các vị trí ln có khả năng là điểm bắt đầu hay kết thúc của một đoạn tương đồng
giữa hai trình tự. Do đó cơng thức có chỗ khác biệt sau:
0


⎪ F (i − 1, j − 1) + M ( x , y )

i
j
F (i, j ) = max ⎨
F (i − 1, j ) − G

⎪⎩
F (i, j − 1) − G

(8)

Khi tại một vị trí nào đó chọn điểm tương đồng là 0 thì điểm này được xác định là điểm
bắt đầu của đoạn tương đồng mới. Phần tương đồng có thể là một đoạn bất kỳ trong hai
(hay nhiều) trình tự nên việc xác định đoạn nào “giống nhau nhất” thơng qua việm tìm
kiếm vị trí nào có F(i, j) lớn nhất và thực hiện bước quay lui để tìm đoạn trình tự này.

2.2.3. Giải thuật ClustalW:
Giải thuật ClustalW thuộc phân lớp giải thuật luỹ tiến được đề xuất bởi ba tác giả chính
là Thomson, Higgins và Gibson [28] vào năm 1994. Ý tưởng chính của giải thuật dựa
trên các thơng tin có được từ việc so trùng từng cặp trình tự với nhau và xây dựng cây
phân lồi từ những thơng tin ban đầu để từ đó thực hiện gióng cột lần lượt các trình tự
liên quan tới nhau nhất hình thành lên kết quả gióng cột đa trình tự cuối cùng. Các bước
của giải thuật ClustalW thực hiện như sau:
1. Thực hiện

N (n − 1)
lần so sánh cặp trình tự của N trình tự cần xác định giống
2


cột tối ưu.
2. Tạo ma trận khoảng cách giữa các trình tự và từ thơng tin này xây dựng cây phân
loài.

Một số vấn đề về so sánh và tìm kiếm các đa phân tử sinh học

Trang 15


×