Tải bản đầy đủ (.pdf) (69 trang)

Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.63 MB, 69 trang )


Số hóa bởi Trung tâm Học liệu

1
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ ĐÌNH GIANG

PHÂN TÍCH TRÌNH TỰ TRONG TIN SINH
HỌC VÀ ỨNG DỤNG TRÊN CƠ SỞ DỮ LIỆU
GENOME TÔM SÚ

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ : 60.48.01


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. Nguyễn Long Giang




Thái Nguyên - 2014

Số hóa bởi Trung tâm Học liệu

2
MỤC LỤC


MỤC LỤC 1
Danh mục các thuật ngữ 4
Danh sách bảng 5
Danh sách hình vẽ 6
MỞ ĐẦU 7
MỞ ĐẦU 7
Chƣơng 1. CÁC KHÁI NIỆM CƠ BẢN 9
1.1. Các khái niệm cơ bản trong sinh học phân tử 9
1.2. Các bài toán cơ bản trong tin sinh học 12
1.3. Các ứng dụng của tin sinh học 13
1.4. Một số cơ sở dữ liệu sinh học lớn trên thế giới 14
Chƣơng 2. BÀI TOÁN PHÂN TÍCH MỐI QUAN HỆ GIỮA CÁC TRÌNH TỰ 19
2.1. Bài toán phân tích mối quan hệ giữa hai trình tự 19
2.1.1. Giới thiệu bài toán 19
2.1.2. Phƣơng pháp giải quyết bài toán 20
2.1.3. Thuật toán Needleman-Wunsch 23
2.2. Bài toán phân tích mối quan hệ cục bộ giữa hai trình tự 26
2.1.4. Giới thiệu bài toán 26
2.1.5. Thuật toán phân tích mối quan hệ cục bộ giữa hai trình tự 27
2.3. Tìm kiếm trình tự tƣơng đồng bằng BLAST 31
2.3.1. Giới thiệu bài toán 31
2.3.2. Thuật toán BLAST 31
2.4. Bài toán phân tích mối quan hệ giữa đa trình tự 34
2.4.1. Giới thiệu bài toán 34
2.4.2. Thuật toán quy hoạch động 36
2.4.3. Thuật toán ngôi sao 39
2.4.4. Thuật toán sắp hàng lũy tiến 42
Chƣơng 3. XÂY DỰNG CSDL HỆ GIEN TÔM SÚ VÀ TÍCH HỢP CÔNG CỤ BLAST 48
3.1. Kiến trúc hệ thống 48


Số hóa bởi Trung tâm Học liệu

3
3.2. Thiết kế cơ sở dữ liệu 49
3.2.1. Nguồn số liệu đầu vào 49
3.2.2. Thiết kế cơ sở dữ liệu 49
3.3. Thiết kế chức năng hệ thống 53
3.3.1. Mô hình phân cấp chức năng 53
3.3.2. Mô hình luồng dữ liệu 55
3.3.3. Đặc tả chi tiết một số chức năng cơ bản 57
3.4. Một số giao diện chƣơng trình 64
3.4.1. Giao diện trang chủ 64
3.4.2. Nạp dữ liệu từ tệp XML 64
3.4.3. Nhập dữ liệu các trình tự Protein, Nucleotide, EST 64
3.4.4. Tra cứu thông tin 66
3.4.5. Tìm kiếm chuỗi tƣơng đồng bằng BLAST 67
KẾT LUẬN 68
Tài liệu tham khảo 69


Số hóa bởi Trung tâm Học liệu

4

Danh mục các thuật ngữ
Thuật ngữ tiếng Anh
Thuật ngữ tiếng Việt
Bioinformatics
Tin sinh học
Molecular biology

Sinh học phân tử
Nucleic acid
Axít nuclêic
DNA
AND
RNA
ARN
Nucleotide
Nuclêôtít
Protein
Prôtêin
Amino Acid
Axít amin
Gene
Gien
Genome
Hệ gien
Cromosome
Nhiễm sắc thể
Sequence
Trình tự
Pairwise alignment
Sắp hàng trình tự

Số hóa bởi Trung tâm Học liệu

5
Danh sách bảng
Bảng 1.1. Tên đầy đủ, tên viết tắt của 5 loại nuclêôtít: 9
Bảng 1.2. Tên đầy đủ, tên viết tắt của 5 loại nuclêôtít 11

Bảng 2.1. Hai trình tự AND X và Y 19
Bảng 2.2. Hai trình tự và sau khi được sắp hàng 20
Bảng 2.3. Các cách sắp hàng khác nhau hai trình tự X và Y 21
Bảng 2.4. Ma trận điểm giữa các nuclêôtít 22
Bảng 2.5. Các cách sắp hàng khác nhau với tổng điểm khác nhau 23
Bảng 2.6. Bảng F của thuật toán quy hoạch động trên hai trình tự ADN 25
Bảng 2.7. Sắp hàng hai trình tự X và Y với tổng điểm lớn nhất 26
Bảng 2.8. Ma trận quy hoạch động F của bài toán sắp hàng cục bộ hai trình tự AND X và
Y 30
Bảng 2.9. Sắp hàng cục bộ hai trình tự X và Y 30
Bảng 2.10. Minh họa ý tưởng của thuật toán BLAST 32
Bảng 2.11. Ba bắt cặp XY, XZ, YZ tương thích với nhau có thể kết hợp thành sắp hàng 3
trình tự 36
Bảng 2.12. Ba bắt cặp XY, XZ, YZ không tương thích với nhau để kết hợp thành sắp hàng
3 trình tự 36
Bảng 2.13. Sắp hàng tối ứu ba trình tự X, Y, Z 39


Số hóa bởi Trung tâm Học liệu

6
Danh sách hình vẽ
Hình 1.1. Minh họa cấu trúc một Axit amin 10
Hình 1.2. Trung tâm thông tin công nghệ sinh học Hoa Kỳ 15
Hình 1.3. Cấu trúc cơ bản của NCBI 16
Hình 2.1. Sắp hàng lũy tiến với 5 trình tự 43
Hình 3.1. Kiến trúc hệ thống CSDL hệ gien tôm Sú 49
Hình 3.2. Mô hình CSDL hệ gien tôm Sú 50

Số hóa bởi Trung tâm Học liệu


7
MỞ ĐẦU
Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ
của các ngành tin học, toán học ứng dụng, thống kê và khoa học máy tính để giải
quyết các bài toán trong sinh học. Tin sinh học bao gồm việc xây dựng, quản lý và
lƣu trữ nguồn dữ liệu quy mô toàn cầu liên quan đến sinh học, trên đó xây dựng và
hoàn thiện các chƣơng trình máy tính xử lý dữ liệu, là công cụ hỗ trợ hiệu quả cho
việc nghiên cứu, khám phá bản chất sinh học của giới tự nhiên và sản xuất ra các
sản phẩm sinh học mong muốn phục vụ đời sống con ngƣời. Tin sinh học có tính
ứng dụng cao trong cuộc sống, đặc biệt là trong lĩnh vực công nghệ sinh học, nông
nghiệp và y dƣợc. Các bài toán cơ bản trong tin sinh học bao gồm: quản lý và lưu
trữ dữ liệu, phân tích mối quan hệ giữa các trình tự, dự đoán cấu trúc các trình tự,
mô hình hóa, nghiên cứu tiến hóa. [4]
Một trong những bài toán quan trọng trong tin sinh học là phân tích mối quan
hệ giữa các trình tự, gọi tắt là phân tích trình tự. Các bài toán cơ bản trong phân tích
trình tự là: tìm kiếm trình tự tƣơng đồng trong cơ sở dữ liệu; sắp hàng trình tự;
chuyển đổi trình tự. Mục tiêu của phân tích trình tự là:
Xác định các gien và các chức năng của từng gien.
Xác định sự lặp lại của các trình tự.
Xác định protêin dựa trên quy tắc sắp đặt của các biểu thức gien.
Xác định các vùng chức năng khác nhau của ADN.
Mục tiêu của luận văn là:
1) Nắm bắt đƣợc các khái niệm cơ bản trong tin sinh học và các cơ sở dữ liệu
sinh học lớn trên thế giới, các phƣơng pháp giải quyết bài toán sắp hàng trình tự,
một trong những bài toán cơ bản trong phân tích trình tự.
2) Xây dựng cơ sở dữ liệu cục bộ lƣu trữ các chuỗi gien tôm sú (bao gồm các
chuỗi nuclêôtít, protêin và EST) và tích hợp các công cụ phân tích trình tự nhằm
mục đích làm sáng tỏ các vấn đề nghiên cứu lý thuyết. Dữ liệu đƣợc thu thập từ
Phòng công nghệ AND ứng dụng - Viện Công nghệ sinh học (nay là Viện Genome

học) và từ các cơ sở dữ liệu sinh học trên Internet.
Đối tượng nghiên cứu của luận văn là các chuỗi gene tôm Sú đƣợc thu thập từ
Viện Công nghệ sinh học và các chuỗi gene tôm Sú từ ngân hàng gene thế giới
(genbank), bao gồm các chuỗi EST, Nucleotide và Protein.

Số hóa bởi Trung tâm Học liệu

8
Phạm vi nghiên cứu lý thuyết là bài toán phân tích trình tự trong tin sinh học,
phạm vi nghiên cứu thực nghiệm là xây dựng cơ sở dữ liệu và tích hợp công cụ
BLAST tìm kiếm trình tự tƣơng đồng trong cơ sở dữ liệu các trình tự gien tôm Sú
(bao gồm các trình tự nucleôtít, protêin và EST)
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu
thực nghiệm. Về nghiên cứu lý thuyết: luận văn thực hiện tổng hợp các khái niệm
và các kết quả nghiên cứu về sắp hàng trình tự. Về nghiên cứu thực nghiệm: luận
văn thực hiện xây dựng cơ sở dữ liệu và tích hợp công cụ tìm kiếm trình tự tƣơng
đồng BLAST trên cơ sở dữ liệu đƣợc xây dựng nhằm sáng tỏ các vấn đề về lý
thuyết.
Bố cục của luận văn gồm phần mở đầu và hai chƣơng nội dung, phần kết luận
và danh mục các tài liệu tham khảo.
Chƣơng 1 trình bày các khái niệm cơ bản trong tin sinh học, các bài toán cơ bản
trong tin sinh học, các cơ sở dữ liệu sinh học lớn trên thế giới và một số ứng dụng của
tin sinh học. Chƣơng 2 trình bày bài toán phân tích mối quan hệ giữa các trình tự và
các thuật toán so sánh trình tự. Chƣơng 3 trình bày nội dung về ứng dụng thử
nghiệm làm sáng tỏ các vấn đề nghiên cứu lý thuyết, bao gồm thiết kế và xây
dựng một cơ sở dữ liệu lƣu trữ các trình tự gien của con tôm Sú, tích hợp công
cụ tìm kiếm trình tự tƣơng đồng BLAST trên cơ sở dữ liệu cục bộ đƣợc xây
dựng.
Cuối cùng, phần kết luận nêu những đóng góp của luận văn, hƣớng phát triển
tiếp theo.


Số hóa bởi Trung tâm Học liệu

9
Chƣơng 1. CÁC KHÁI NIỆM CƠ BẢN
1.1. Các khái niệm cơ bản trong sinh học phân tử
Tin sinh học (Bioinformatics) là lĩnh vực khoa học mới có tính ứng dụng cao
trong cuộc sống, đặc biệt là trong lĩnh vực công nghệ sinh học, nông nghiệp và y-
dƣợc. Tin sinh học là lĩnh vực khoa học liên ngành, trong đó sinh học và tin học
đóng vai trò chủ đạo. Về cơ bản, tin sinh học tập trung vào nghiên cứu, phát triển
và áp dụng các phƣơng pháp và công cụ tin học để giải quyết các bài toán trong
sinh học.
Tiếp theo, luận văn giới thiệu một số khái niệm cơ bản trong sinh học phân tử.
Sinh học phân tử (molecular biology) là một nhánh của sinh học (biology), tập
trung nghiên cứu các sinh vật ở mức độ phân tử. Cụ thể là, sinh học phân tử tập
trung giải trình tự (sequencing) và phân tích các trình tự nuclêôtít (trình tự ADN),
các trình tự axít amin (trình tự prôtêin). Trong phần này, luận văn tập trung giới
thiệu các kiến thức cơ bản trong sinh học phân tử để sử dụng ở các chƣơng sau.
1) Axít nuclêic và nuclêôtít
Axít nuclêic (nucleic acid) là một đại phân tử sinh học (large biological
molecule) mang thông tin di truyền mã hóa các chức năng, và đặc điểm của mọi
sinh vật sống. Axít nuclêic gồm hai loại: ADN ( Axít Deoxyribo Nuclêic) và ARN
(Axít Ribo Nuclêic).
Thành phần cơ bản cấu tạo một trình tự axít nuclêic là các phân tử hóa học
nuclêotít (nucleotide). Trình tự ADN chứa bốn loại nuclêôtít khác nhau là: Adenine,
Cytosine, Guanine, và Thymine. Trình tự ARN có thành phần tƣơng tự nhƣ trình tự
ADN, ngoại trừ nuclêôtít Thymine đƣợc thay thế bởi nuclêôtít Uracil. Tức là, ARN
chứa 4 loại nuclêôtít: Adenine, Cytosine, Guanine, và Uracil. Tên đầy đủ, tên viết
tắt của năm loại nuclêôtít đƣợc mô tả ở Bảng 1.1.
Bảng 1.1. Tên đầy đủ, tên viết tắt của 5 loại nuclêôtít:

STT
Tên đầy đủ
Tên viết tắt
1
Adenine
A
2
Cytosine
C
3
Guanine
G
4
Thymine
T
5
Uracil
U


Số hóa bởi Trung tâm Học liệu

10
Do đó, thông tin về một trình tự ADN đƣợc biểu diễn bằng một trình tự các
nuclêôtít nằm trên một sợi (các nuclêôtít nằm trên sợi còn lại có thể suy luận dựa
theo quy tắc trên). Để đơn giản, một trình tự ADN sẽ đƣợc biểu diễn bởi một xâu kí
tự chứa 4 loại kí tự: A, C, G và T (tên viết tắt của 4 loại nuclêôtít). Ví dụ,
"CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGTT" là một trình tự ADN.
Với cách biểu diễn này, thông tin về các trình tự DN có thể đƣợc lƣu giữ, tìm kiếm,
và trao đổi một cách hiệu quả.

2) Protein và axit amin
Prôtêin/trình tự prôtêin (protein) là loại dữ liệu phổ biến và quan trọng trong
sinh học phân tử. Nó quyết định đến chức năng, quá trình phát triển, cũng nhƣ các
bệnh tật của các sinh vật sống. Prôtêin đƣợc cấu tạo bởi một trình tự các axít amin
(amino acid), trong đó mỗi axít amin là một hợp chất hữu cơ đƣợc tạo bởi ba thành
phần chính là: nhóm amin (NH2), nhóm cacboxyl (COOH) và nhóm R quyết định
tính chất của axít amin (xem Hình 1.1)

Hình 1.1. Minh họa cấu trúc một Axit amin
Trong tự nhiên có 20 loại axít amin khác nhau nhƣ mô tả ở Bảng 1.2. Mỗi axít
amin có tên đầy đủ, tên viết tắt 3 kí tự và tên viết tắt 1 kí tự. Thông thƣờng, chúng
ta sử dụng tên viết tắt một kí tự để biểu diễn một axít amin.
Trình tự axít amin có thể đƣợc biểu diễn bằng một xâu kí tự chứa 20 loại kí tự
khác nhau, là tên viết tắt của 20 loại axít amin khác nhau. Ví dụ:
„ESPQIRRDMGRLCATWPSKDSEDGAGTALRAATPLTANGATTTGLSVTLA
PKQTNWDECWSSPCQNGGTCVDGVAYYNCTCPEGFSGSNCEENVDE‟ là
một trình tự axít amin. Với cách biểu diễn này, chúng ta có thể dễ dàng lƣu giữ các

Số hóa bởi Trung tâm Học liệu

11
trình tự axít amin trong các cơ sở dữ liệu nhằm phục vụ nhiều mục đích khác nhau.
Bảng 1.2. Tên đầy đủ, tên viết tắt của 5 loại nuclêôtít
STT
Tên axít amin
Tên viết tắt (3 ký tự)
Tên viết tắt (1 ký tự)
1
Alanine
Ala

A
2
Arginine
Ar
g
R
3
Asparagine
Asn
N
4
Aspartic
Asp
D
5
Cysteine
Cys
C
6
Glutamine
Gln
Q
7
Glutamic
Glu
E
8
Glycine
Gly
G

9
Histidine
His
H
10
Isoleucine
Ile
I
11
Leucine
Leu
L
12
Lysine
Lys
K
13
Methionine
Met
M
14
Phenylalanine
Phe
F
15
Proline
Pro
P
16
Serine

Ser
S
17
Threonine
Thr
T
18
Tryptophan
Trp
W
19
Tyrosine
Tyr
Y
20
Valine
Val
V

3) Nhiễm sắc thể và hệ gien
Nhiêm sắc thể (chromosome) là một cấu trúc trong tế bào chứa hai loại thông
tin là trình tự ADN và các prôtêin histone có nhiệm vụ kết hợp/đóng gói và điều
khiển các chức năng của trình tự ADN. Độ dài của trình tự ADN trong một nhiễm
sắc thể có thể từ vài nghìn cho đến hàng trăm triệu nuclêôtít. Số lƣợng nhiêm sắc
thể trong môi sinh vật có thể khác nhau. Ví dụ, loài ngƣời có 23 cặp nhiễm sắc thể
với tổng độ dài lên tới 3 tỉ nuclêôtít.
Tập hợp tất cả các nhiêm sắc thể của một sinh vật đƣợc gọi là hệ gien của sinh
vật. Hệ gien sẽ mang toàn bộ thông tin di truyền quyết định đến chức năng và đặc
điểm của sinh vật. Một hệ gien có thể chứa nhiều gien khác nhau. Ví dụ hệ gien
ngƣời chứa khoảng 25 nghìn gien khác nhau. Hai hệ gien của hai cá thể của cùng


Số hóa bởi Trung tâm Học liệu

12
một loài (ví dụ của hai ngƣời khác nhau) thƣờng rất giống nhau. Sự khác nhau giữa
hệ gien của hai cá thể sẽ tạo ra sự khác nhau giữa hai cá thể đó.
4) EST (expressed sequence tag)
EST, hay còn gọi là nhãn xác định trình tự biểu hiện, thực chất là các đoạn
trình tự ngắn đƣợc trích ra từ một trình tự ADN đã biết. Các trình tự ADN ngẫu
nhiên (có thể là trình tự đầy đủ hay các trình tự một phần EST) đƣợc xác định bằng
sử dụng phƣơng pháp giải mã trình tự ngẫu nhiên rồi đƣợc đối chiếu với các đoạn
khung của hệ gen. Các vùng tƣơng ứng với các EST đƣợc xác định là các exon, còn
các vùng nằm giữa các exon tƣơng ứng với các intron (mặc dù, nguyên tắc cắt
intron khác nhau có thể sử dụng một exon không có mặt trong ADN hay EST đƣợc
giải mã trình tự).
Các thông tin giải mã trình tự ADN và EST cũng giúp tìm đƣợc sự liên kết
giữa các contig, giữa các đoạn khung và giữa chúng với nhau. Chẳng hạn nhƣ giả
sử có một phân tử ADN đƣợc phiên mã từ một gen kích thƣớc rất lớn có chiều dài
intron là 100 KB hoặc hơn. Có hai đoạn khung cùng chứa các trình tự khác nhau
của phân tử ADN chung này, thì nhiều khả năng chúng là các vùng liên kết của hệ
gen và biểu hiện là các đoạn của cùng một gen.
1.2. Các bài toán cơ bản trong tin sinh học
Một số bài toán cơ bản và quan trọng trong tin sinh học bao gồm:
1) Quản lý dữ liệu
Một trong các bài toán quan trọng đầu tiên của tin sinh học là xây dựng các hệ
thống dữ liệu để quản lý và khai thác một cách hiệu quả lƣợng dữ liệu sinh học
khổng lồ. Dữ liệu sinh học bao gồm nhiều loại khác nhau, trong đó chủ yếu là các
trình tự nuclêôtít, và các trình tự axít amin. Lƣợng dữ liệu sinh học có thể lên đến
hàng triệu megabyte và đƣợc cập nhật liên tục theo thời gian. Chi tiết về cấu trúc và
cách sử dụng các hệ thống dữ liệu sinh học sẽ đƣợc trình bày chi tiết ở chƣơng Cơ

sở dữ liệu sinh học phân tử.
2) Phân tích mối quan hệ giữa các trình tự
Phát triển các mô hình, các phƣơng pháp và các công cụ tính toán để phân
tích mối quan hệ giữa các trình tự sinh học (chủ yếu là các trình tự nuclêôtít/prôtêin)
là lớp bài toán cốt lõi trong tin sinh học. Một số bài toán điển hình là sắp hàng hai
trình tự, hay sắp hàng đa trình tự, đo độ giống nhau giữa các trình tự.
3) Nghiên cứu tiến hóa

Số hóa bởi Trung tâm Học liệu

13
Nghiên cứu quá trình tiến hóa và mối quan hệ giữa các loài sinh vật là bài
toán quan trọng trong sinh học. Tin sinh học tập trung vào phát triển các mô hình
và phƣơng pháp nhằm xây dựng mối quan hệ tiến hóa giữa các loài sinh vật dựa
vào phân tích mức độ giống nhau giữa các trình tự sinh học của chúng.
4) Dự đoán cấu trúc bậc cao của các trình tự
Ngày nay, các máy giải trình tự thế hệ mới có thể giải trình tự hệ gien ngƣời
trong vòng một ngày với chi phí khoảng 50 nghìn Đô la Mỹ. Tuy nhiên, việc xác
định đƣợc cấu trúc bậc cao của của các trình tự (phổ biến là các trình tự prôtêin)
vẫn là một bài toán khó cả về mặt thời gian và chi phí. c ác nghiên cứu tin sinh học
giúp phát triển các mô hình, phƣơng pháp và công cụ tính toán để dự đoán cấu trúc
bậc cao của các trình tự dựa vào phân tích nội dung và mối quan hệ của chúng với
các trình tự khác. Các phƣơng pháp dự đoán sẽ giảm thiểu một lƣợng lớn thời gian
và chi phí cho việc xác định cấu trúc bậc cao của các trình tự.
1.3. Các ứng dụng của tin sinh học
Một số ứng dụng quan trọng của tin sinh học bao gồm:
1) Kiểm soát dịch bệnh
Đây là một vấn đề quan trọng trên thế giới, đặc biệt là đối với Việt Nam. Tin
sinh học sẽ phát triển các hệ thống theo dõi và dự đoán sự lây lan của các dịch bệnh.
Các nghiên cứu trong tin sinh phân tích và tìm ra nguồn ngốc xuất hiện của các

bệnh dịch, đặc biệt là các bệnh dịch ảnh hƣởng lớn đến sức khỏe con ngƣời, cũng
nhƣ kinh tế xã hội.
2) Phát triển thuốc và chẩn đoán bệnh
Các phƣơng pháp và công cụ tin sinh học đóng vai trò quan trọng và không
thể thiếu đƣợc trong việc phát triển và chế tạo các loại dƣợc phẩm khác nhau. Các
mô hình và phƣơng pháp dự đoán cấu trúc sẽ giúp quá trình phát triển các loại
thuốc mới diên ra nhanh hơn với chi phí thấp hơn. Bên cạnh đó, các phƣơng pháp
tin sinh học cũng đƣợc sử dụng để chẩn đoán các bệnh liên quan đến gien, đặc biệt
là các bệnh di truyền.
3) Phát triển các giống cây trồng, vật nuôi
Một trong các ứng dụng nổi bật của tin sinh học là phát triển các phƣơng pháp
phân tích nhằm tìm ra các gien quý hiếm ở các loại vật nuôi, cây trồng. Việc này sẽ
giúp đẩy nhanh quá trình tạo ra các giống vật nuôi cây trồng cho năng suất và hiệu
quả kinh tế cao.

Số hóa bởi Trung tâm Học liệu

14
1.4. Một số cơ sở dữ liệu sinh học lớn trên thế giới
Các công nghệ giải trình tự phát triển liên tục giúp chúng ta thu thập đƣợc
một số lƣợng lớn các trình tự ADN, cũng nhƣ các trình tự prôtêin tƣơng ứng. Đặc
biệt là các công nghệ giải trình tự thế hệ mới (next generation sequencing
technologies) cho phép chúng ta giải trình tự một lƣợng khổng lồ dữ liệu ADN
trong một khoảng thời gian ngắn với chi phí thấp. Nếu nhƣ trƣớc đây, chúng ta phải
tốn khoảng 3 tỉ Đô la Mỹ trong vòng 15 năm để giải trình tự hệ gien ngƣời, thì với
công nghệ ngày này, chúng ta có thể giải trình tự hệ gien của một ngƣời trong vòng
một ngày với chi phí chỉ khoảng vài chục nghìn Đô la Mỹ.
Theo số liệu từ cơ sở dữ liệu ngân hàng gen trên thế giới (GenBank -
đến năm 2012 số lƣợng trình tự ADN
đƣợc lƣu giữ tại cơ sở dữ liệu Genbank vào khoảng 160 triệu trình tự. Số liệu từ cơ

sở dữ liệu UniProt ( cho thấy, đến năm 2012 số lƣợng trình
tự prôtêin đƣợc lƣu giữ ở cơ sở dữ liệu UniProt vào khoảng 27 triệu trình tự. Việc
giải trình tự và thu thập dữ liệu sinh học phân tử đƣợc tiến hành tại nhiều trung tâm
công nghệ sinh học khác nhau ở nhiều quốc gia trên thế giới. Mặc dù việc giải trình
tự diễn ra ở nhiều nơi trên thế giới, gần nhƣ tất cả các dữ liệu thu đƣợc đều đƣợc
lƣu giữ và chia sẻ tại các trung tâm thông tin về công nghệ sinh học lớn trên thế
giới nhƣ là:
(1) Trung tâm thông tin công nghệ sinh học quốc gia Hoa Kỳ NCBI (National
Center Biotechnology Information):
(2) Trung tâm thông tin công nghệ sinh học Châu Âu EBI (European
Biotechnology Information):
(3) Ngân hàng dữ liệu ADN của Nhật Bản (DNA Data Bank of Japan):

Dữ liệu về các trình tự ADN từ ba trung tâm này thƣờng xuyên đƣợc cập nhật,
trao đổi với nhau hàng ngày để đảm bảo tính đầy đủ và thống nhất về các trình tự
ADN lƣu giữ. Phần tiếp theo, luận văn giới thiệu chi tiết về cơ sở dữ liệu của NCBI
tại địa chỉ
1) Trung tâm thông tin công nghệ sinh học Hoa Kỳ

Số hóa bởi Trung tâm Học liệu

15

Hình 1.2. Trung tâm thông tin công nghệ sinh học Hoa Kỳ
NCBI là trung tâm thông tin trực tuyến bao gồm nhiều cơ sở dữ liệu khác
nhau cũng nhƣ hàng loạt các công cụ tìm kiếm và phân tích dữ liệu trực tuyến. Một
số chức năng chính của NCBI cung cấp cho ngƣời dùng là:
Tìm kiếm các loại dữ liệu sinh học phân tử theo các tiêu chí khác nhau.
Cho phép lƣu giữ, sao chép và chia sẻ dữ liệu trên các cơ sở dữ liệu khác
nhau do NCBI quản lý.

Phân tích dữ liệu sử dụng các công cụ trực tuyến do NCBI tích hợp và
cung cấp.
Hình 1.3 là cấu trúc cơ bản về các cơ sở dữ liệu (CSDL) của NCBI với 5
thành phần chính là: CSDL Nucleotide, CSDL Protein, CSDL Genome, CSDL
Structure, và CSDL PubMed.
CSDL Nucleotide: Cơ sở dữ liệu lƣu giữ toàn bộ các trình tự ADN của các
loài sinh vật đã đƣợc giải trình tự, lƣu giữ và chia sẻ trên NCBI.
CSDL Protein: Cơ sở dữ liệu lƣu giữ toàn bộ các trình tự prôtêin của các

Số hóa bởi Trung tâm Học liệu

16
loài sinh vật đã đƣợc giải trình tự, lƣu giữ và chia sẻ trên NCBI.
CSDL Genome: Cơ sở dữ liệu lƣu giữ hệ gien của các loài sinh vật khác
nhau đã đƣợc giải trình tự, lƣu giữ và chia sẻ trên NCBI.
CSDL Structure: Cơ sở dữ liệu lƣu giữ thông tin, hình ảnh về cấu trúc bậc
cao (thƣờng là cấu trúc không gian 3 chiều) của các trình tự prôtêin.
CSDL PubMed: Cơ sở dữ liệu lƣu giữ các tài liệu (chủ yếu là các bài báo,
sách trực tuyến) liên quan đến các chủ đề trong sinh học và khoa học sự
sống.
Các cơ sở dữ liệu trên đƣợc liên kết với nhau giúp ngƣời dùng có thể dễ dàng
tìm kiếm và sử dụng. Việc tìm kiếm dữ liệu từ các cơ sở dữ liệu của NCBI đƣợc
thực hiện bởi máy tìm kiếm Entrez.

Hình 1.3. Cấu trúc cơ bản của NCBI
2) Định dạng chuẩn dữ liệu FASTA
Dữ liệu về các trình tự ADN đƣợc giải trình tự bởi các trung tâm công nghệ
sinh học khác nhau trên thế giới. Dữ liệu về trình tự ADN thƣờng bao gồm một số
thông tin chính sau:
(1) Tên loài sinh vật giải trình tự, tên này thƣờng là tên khoa học, ví dụ nhƣ

Homo Sapien (Ngƣời), Mus musculus (Chuột).
(2) Tên của trình tự ADN đƣợc giải trình tự.
(3) Độ dài của trình tự ADN.

Số hóa bởi Trung tâm Học liệu

17
(4) Các loại số hiệu của trình tự trong CSDL Genbank (số hiệu truy cập, số
hiệu GI, số hiệu phiên bản.)
(5) Nội dung các nuclêôtít trên trình tự ADN
Một trong các công việc khó khăn đầu tiên mà các nhà quản lý thông tin gặp
phải là dữ liệu từ các trung tâm khác nhau có thể đƣợc lƣu giữ với các định dạng
khác nhau. Hơn nữa, dữ liệu tại các trung tâm thông tin khác nhau nhƣ NCBI, EBI,
DDBJ cũng đƣợc lƣu giữ theo các định dạng khác nhau. Để giải quyết bài toán liên
quan đến sự khác biệt về định dạng dữ liệu, chúng ta cần định ra các định dạng dữ
liệu chuẩn nhằm mục đích lƣu giữ, và chia sẻ dữ liệu.
FASTA là một trong các định dạng dữ liệu chuẩn, đơn giản và quan trọng
đƣợc đề xuất bởi William Pearson vào năm 1985. Đây là định dạng kiểu văn bản
(text) để lƣu giữ thông tin về các trình tự ADN (hay prôtêin). Định dạng FASTA
đƣợc sử dụng một cách rộng rãi nhƣ một định dạng chuẩn quốc tế cho tất cả các cơ
sở dữ liệu, và chƣơng trình phần mềm.
Định dạng FASTA đƣợc dùng để mô tả thông tin về một trình tự AND
(prôtêin) bao gồm hai phần: Phần tiêu đề và phần nội dung
Tiêu đề (headline) bao gồm 1 dòng bắt đầu bằng kí tự '>' và kết thúc bởi
một kí tự xuống dòng (return). Phần này sẽ lƣu giữ toàn bộ thông tin mô tả
về trình tự ADN/prôtêin nhƣ tên trình tự, độ dài của trình tự, ngày tháng
tiến hành giải trình tự, loại dữ liệu v.v.
Thông tin về các nuclêôtít của trình tự: Tất cả các kí tự không thuộc về
phần tiêu đề sẽ là dữ liệu mô tả các nuclêôtít của trình tự ADN. Phần
thông tin này có thể chứa các kí tự cách.

Ví dụ: Một tệp dữ liệu theo định dạng FASTA nhƣ sau:




Tiêu đề: >gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae

Tiêu đề: Chứa các thông tin cơ bản về trình tự nhƣ là số hiệu GI của trình
>gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-
beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes,
complete cds
GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACA
ACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTAC
AAGCTA
AAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACT
AAG



Số hóa bởi Trung tâm Học liệu

18
tự (1293613), GB (U49845.1), tên trình tự (SCU49845), tên sinh vật lấy
mẫu (Saccharomyces cerevisiae), tên các đoạn gien trên trình tự (Axl2p,
Rev7p) và một loạt các thông tin khác.
Thông tin về các nuclêôtít của trình tự:
GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTC
AACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCG
AGAGTTACAAGCTA
Ngoài ra, còn dạng chuẩn ALN/ClustalW và dạng chuẩn GenBank.



Số hóa bởi Trung tâm Học liệu

19
Chƣơng 2. BÀI TOÁN PHÂN TÍCH MỐI QUAN HỆ GIỮA
CÁC TRÌNH TỰ
2.1. Bài toán phân tích mối quan hệ giữa hai trình tự
2.1.1. Giới thiệu bài toán
Bài toán phân tích mối quan hệ giữa hai trình tự là bài toán so sánh một trình
tự chưa biết với một trình tự đã biết nhằm xác định mức độ giống nhau giữa hai
trình tự. Với trình tự AND, mức độ giống nhau giữa hai trình tự ADN cho biết mối
quan hệ tiến hóa, cũng nhƣ sự giống nhau về chức năng của chúng. Về cơ bản, hai
trình tự ADN càng giống nhau, thì khả năng càng cao chúng tƣơng đồng với nhau
(cùng tiến hóa từ một trình tự ADN tổ tiên) và có sự giống nhau về chức năng. Tức
là, xác định đƣợc mức độ giống nhau giữa hai trình tự ADN có thể giúp chúng ta
xác định đƣợc đặc điểm và chức năng cho các trình tự ADN mới dựa vào đặc điểm
và chức năng của các trình tự ADN đã biết trong cơ sở dữ liệu.
Xét hai trình tự ADN X bao gồm 9 nuclêôtít và Y bao gồm 10 nuclêôtít đƣợc
cho ở Bảng 2.1 dƣới đây. Trong quá trình tiến hóa, các phép đột biến thay thế
nuclêôtít làm cho nội dung của hai trình tự khác nhau, các phép đột biến thêm/mất
nuclêôtít làm cho độ dài của hai trình tự khác nhau.
Bảng 2.1. Hai trình tự AND X và Y

1
2
3
4
5
6

7
8
9
10
Trình tự X
A
C
T
A
C
G
G
T
T

Trình tự Y
A
G
T
G
A
C
G
G
G
T

Một loạt câu hỏi đặt ra khi tiến hành so sánh hai trình tự X và Y:
Mức độ giống nhau giữa hai trình tự ADN X và Y ?
Với mỗi nuclêôtít X ở vị trí thứ i trên trình tự X, cần biết:

1) X tƣơng ứng với nuclêôtít nào trên trình tự Y?
2) X là một nuclêôtít mới đƣợc thêm vào trình tự X trong quá trình tiến hóa?
3) Nuclêôtít tƣơng đồng với X trên trình tự Y đã bị mất khỏi trình tự trong
quá trình tiến hóa?


Số hóa bởi Trung tâm Học liệu

20
2.1.2. Phƣơng pháp giải quyết bài toán
Để trả lời các câu hỏi trên, nghĩa là để giải quyết bài toán phân tích mối quan
hệ giữa hai trình tự, trong tin sinh học sử dụng một kỹ thuật gọi là sắp hàng hai
trình tự (pairwise alignment) X và Y.
Sắp hàng hai trình tự X và Y là quá trình chèn thêm các kí tự cách ' ' (mỗi kí
tự ' ' cho biết một nuclêôtít đã bị mất khỏi trình tự), vào cả hai trình tự ADN để thu
đƣợc hai trình tự mới và thỏa mãn các điều kiện ràng buộc sau:
1) Hai trình tự và có độ dài bằng nhau.
2) Hai nuclêôtít ở cùng một vị trí trên hai trình tự và đƣợc cho là cùng
tiến hóa từ một nuclêôtít tổ tiên chung.
3) Không tồn tại bất cứ một vị trí i nào, mà cả trình tự và cùng chứa dấu
' '. Nói cách khác, việc chèn kí tự ' ' vào cùng một ví trí trên cả hai trình
tự là không có ý nghĩa.
Cặp trình tự ( , ) đƣợc gọi là "hai trình tự sắp hàng" hay "một bắt cặp"
của hai trình tự X, Y. Bảng 2.2 minh họa một một cách sắp hàng hai trình tự X và Y,
trong đó:
Một đột biến ở vị trí số 2, nuclêôtít C ở trình tự bị đột biến thành
nuclêôtít G ở trình tự hoặc ngƣợc lại.
Một kí tự cách ' ' đƣợc chèn vào vị trí thứ 4 trên Trình tự . Nhắc lại, do
chúng ta không thể phân biệt đƣợc liệu trong quá trình tiến hóa, một
nuclêôtít đã bị mất khỏi vị trí thứ 4 trên trình tự hay nuclêôtít G đã

đƣợc chèn thêm vào trình tự Y, ta gọi phép đột biến ở vị trí 4 là
"thêm/mất" hay gọi tắt là "indel".
Một đột biến ở vị trí số 9, nuclêôtít T ở trình tự bị đột biến thành
nuclêôtít G ở trình tự hoặc ngƣợc lại.


Bảng 2.2. Hai trình tự và sau khi được sắp hàng

1
2
3
4
5
6
7
8
9
10
Trình tự
A
C
T

A
C
G
G
T
T


Số hóa bởi Trung tâm Học liệu

21
Trình tự
A
G
T
G
A
C
G
G
G
T

Tức là, có 3 phép đột biến (hai phép thay thế và một phép thêm/mất) giữa hai
trình tự X và Y. Dễ thấy có nhiều cách sắp hàng khác nhau hai trình tự X, Y. Bảng
2.3 biểu diễn hai cách sắp hàng khác của hai trình tự X và Y:
Có 4 phép đột biến trong cách sắp hàng X1 và Y1; trong đó có 3 phép thay
thế và 1 phép thêm/mất.
Có 6 phép đột biến trong cách sắp hàng X2 và Y2; trong đó có 3 phép thay
thế' và 3 phép thêm/mất. Độ dài của X2 và Y2 cũng lớn hơn độ dài của X
và Y một đơn vị.
Bảng 2.3. Các cách sắp hàng khác nhau hai trình tự X và Y

1
2
3
4
5

6
7
8
9
10
11
Trình tự X1
A

C
T
A
C
G
G
T
T

Trình tự Y1
A
G
T
G
A
C
G
G
G
T


Trình tự X2
A

C
T
A
C
G
G

T
T
Trình tự Y2
A
G
T
G
A
C
G

G
G
T

Tất cả ba cách sắp hàng trên đều thỏa mãn các điều kiện ràng buộc 1, 2, và 3
của bài toán. Tiêu chuẩn sau đây đƣợc dùng để lựa chọn cách sắp hàng tốt nhất
(cách sắp hàng tối ƣu):
Một sắp hàng được gọi là tốt nhất (tối ưu) nếu như mức độ giống nhau giữa
hai trình tự ADN và sau khi sắp hàng là lớn nhất.

Tiếp theo sẽ trình bày cách đo độ giống nhau giữa hai trình tự ADN sau khi
đƣợc sắp hàng. Gọi
, , , ,A C G TA
là tập các kí tự có thể xuất hiện trên trình tự
ADN, trong đó:
A, C, G, T là bốn loại nuclêôtít
' ' là kí tự cách biểu diễn cho một nuclêôtít đã bị mất khỏi trình tự.
Gọi là ma trận điểm xác định mức độ giống nhau giữa các kí tự, trong đó
(x, y) là điểm giống nhau giữa hai kí tự
,xyx A
. Bảng 2.4 mô tả một ví dụ về ma
trận điểm , trong đó:
Điểm giữa hai nuclêôtít giống nhau (match score) là 2. Điểm này thƣờng

Số hóa bởi Trung tâm Học liệu

22
có giá trị dƣơng, cho nên thƣờng gọi là điểm thƣởng.
Điểm giữa hai nuclêôtít khác nhau (mismatch score) là -1. Đây là điểm
cho một một phép thay thế nuclêôtít.
Điểm giữa một nuclêôtít và kí tự ' ' (indel score) là -2. Đây là điểm cho
một phép thêm/mất. Điểm này có giá trị âm, cho nên thƣờng gọi là điểm
phạt.
Điểm giữa 2 kí tự ' ' là 0. Điều này thể hiện việc chèn thêm hai kí tự ' '
vào cùng một vị trí trên hai trình tự là vô nghĩa, nó sẽ không làm thay đổi
mức độ giống nhau giữa hai trình tự.
Lƣu ý, ma trận điểm là ma trận đối xứng, tức là (x, y) = (y, x) với mọi
kí tự
,xyx A
.

Bảng 2.4. Ma trận điểm giữa các nuclêôtít

A
C
G
T

A
2
-1
-1
-1
-2
C
-1
2
-1
-1
-2
G
-1
-1
2
-1
-2
T
-1
-1
-1
2

-2

-2
-2
-2
-2
0

Một trình tự ADN bao gồm n nuclêôtít đƣợc biểu diễn bởi một xâu gồm n kí
tự
1
, ,
n
X x x
trong đó x
i
là một nuclêôtít. Trình tự ADN
1
, ,
i
i
X x x
bao gồm
i nuclêôtít đầu tiên (từ vị trí 1 đến vị trí i) của trình tự X đƣợc gọi là trình tự tiền tố
của trình tự X.
Gọi hai trình tự sau khi đƣợc sắp hàng là
1
, ,
k
X x x


1
, ,
k
Y y y
với
,
ii
xyx A
. Điểm giống nhau f (X, Y) giữa hai trình tự X và Y đƣợc tính theo công
thức sau:
1
,,
k
ii
i
f X Y x yC

Trong đó
,
ii
xyC
là điểm giống nhau giữa hai kí tự
,
ii
xyx A
. Với cách tính
điểm nhƣ trên, ta có thể dễ dàng tính đƣợc mức độ giống nhau cho các cách sắp
hàng khác nhau hai trình tự X, Y nhƣ ở Bảng 2.5. Cụ thể là, cách sắp hàng và


Số hóa bởi Trung tâm Học liệu

23
có tổng điểm là 10; trong khi cách sắp hàng X1 với Y1; hay X2 với Y2 có tổng điểm
tƣơng ứng là 7 và 1. Vậy cách sắp hàng và tốt hơn cách sắp hàng X1 và Y1
hay X2 và Y2.
Bảng 2.5. Các cách sắp hàng khác nhau với tổng điểm khác nhau

1
2
3
4
5
6
7
8
9
10
11
Tổng
Trình tự
A
C
T

A
C
G
G
T

T


Trình tự
A
G
T
G
A
C
G
G
G
T


f XY,

2
-1
2
-2
2
2
2
2
-1
2

10

Trình tự X1
A

C
T
A
C
G
G
T
T


Trình tự Y1
A
G
T
G
A
C
G
G
G
T


1, 1f X Y

2
-2

-1
-1
2
2
2
2
-1
2

7
Trình tự X2
A

C
T
A
C
G
G

T
T

Trình tự Y2
A
G
T
G
A
C

G

G
G
T

2, 2f X Y

2
-2
-1
-1
2
2
2
-2
-2
-1
2
1

2.1.3. Thuật toán Needleman-Wunsch
Với hai trình tự ADN X và Y, có thể sắp hàng chúng theo nhiều cách khác
nhau. Phần tiếp theo sẽ trình bày thuật toán Quy hoạch động Needleman-Wunsch
[4] để sắp hàng tối ƣu X và Y với tổng điểm lớn nhất.
Tƣ tƣởng của thuật toán quy hoạch động là xây dựng lời giải của bài toán lớn
dựa trên lời giải của các bài toán có kích thƣớc nhỏ hơn (gọi là các bài toán con).
Nghiệm của các bài toán con đƣợc lƣu vào bảng quy hoạch động để không phải
giải bài toán con nhiều lần; đồng thời làm cơ sở để xây dựng nghiệm của bài toán
lớn. Thuật toán quy hoạch động gồm những bƣớc chính sau đây:

Bước 1: Tìm bài toán cơ sở mà nghiệm tối ƣu của bài toán cơ sở có thể dễ
dàng tìm đƣợc. Trong trƣờng hợp bài toán sắp hàng hai trình tự, bài toán
cơ sở là bài toán sắp hàng hai trình tự có độ dài bằng 0. Nghiệm tối ƣu của
bài toán là 0.
Bước 2: Xây dựng công thức truy hồi để có thể tìm nghiệm tối ƣu của bài
toán có kích thƣớc lớn dựa vào nghiệm của các bài toán có kích thƣớc nhỏ
hơn. Trong trƣờng hợp bài toán sắp hàng hai trình tự, nghiệm tối ƣu của
bài toán với hai trình tự tiền tố và đƣợc xây dựng dựa vào nghiệm tối ƣu

Số hóa bởi Trung tâm Học liệu

24
của ba bài toán có kích thƣớc nhỏ hơn là:
Nghiệm của bài toán với hai trình tự tiền tố
11
,
pq
XY

Nghiệm của bài toán với hai trình tự tiền tố
1
,
pq
XY

Nghiệm của bài toán với hai trình tự tiền tố
1
,
pq
XY


Bƣớc 3: Từ bảng lƣu nghiệm của các bài toán với kích thƣớc khác nhau,
xây dựng nghiệm của bài toán toán với dữ liệu đầu vào.
Thuật toán Needleman-Wunsch đƣợc mô tả chi tiết nhƣ sau:

Thuật toán Needleman-Wunsch bắt cặp hai trình tự AND
Dữ liệu vào: Hai trình tự
1
, ,
p
X x x

1
, ,
q
Y y y
; ma trận điểm
C
đo mức
độ giống nhau giữa các kí tự thuộc tập kí tự
, , , ,A C G TA

Yêu cầu: Chèn thêm các kí tự ' ' vào hai trình tự X và Y để tổng điểm giữa hai trình
tự sau khi sắp hàng là lớn nhất.
Dữ liệu ra: Hai trình tự X và Y là kết quả của việc sắp hàng, và mức độ giống nhau
giữa chúng.
Ý tƣởng: Gọi:

1
, ,

i
i
X x x
: Trình tự tiền tố gồm i nuclêôtít đầu tiên của X;

1
, ,
j
j
Y y y
: Trình tự tiền tố gồm j nuclêôtít đầu tiên của Y.

,,
ij
F i j f X Y
: Tổng điểm lớn nhất (nghiệm tốt nhất) khi sắp hàng
hai trình tự tiền tố
i
X

j
Y

Dễ thấy F(0,0) = 0 là nghiệm tối ƣu của bài toán cơ sở sắp hàng hai trình tự
rỗng X
0
, Y
0
.
Có ba khả năng xảy ra khi so sánh hai nuclêôtít x

i
và y
j
:
x
i
bắt cặp với y
j
và điểm bắt cặp là
,
ij
xyC

x
i
bắt cặp với „ ‟ và điểm bắt cặp là
,
i
xC

y
j
bắt cặp với „ ‟ và điểm bắt cặp là
,
j
yC


Số hóa bởi Trung tâm Học liệu


25
Tức là,
,F i j
đƣợc tính theo công thức truy hồi nhƣ sau:
1, 1 ,
, 1, ,
, 1 ,
ij
i
j
F i j x y
F i j Max F i j x
F i j y
C
C
C
(2.1)
Cụ thể là:
Nếu
1, 1 ,
ij
F i j x yC
là giá trị lớn nhất, nuclêôtít x
i
ở vị trí thứ i
trên trình tự X sẽ đƣợc bắt cặp cùng nuclêôtít y
j
ở vị trí thứ j trên trình tự
Y.
Nếu

1, ,
i
F i j xC
là giá trị lớn nhất, nuclêôtít x
i
ở vị trí thứ i trên
trình tự X sẽ đƣợc bắt cặp với ' '. Tức là nuclêôtít x
i
bị mất khỏi trình tự
Y.

, 1 ,
j
F i j yC
là giá trị lớn nhất, nuclêôtít y
j
ở vị trí thứ j trên trình
tự Y sẽ đƣợc bắt cặp với ' '. Tức là nuclêôtít y
j
bị mất khỏi trình tự X.
Thuật toán:
Bước 1: Khởi tạo giá trị F(0, 0) = 0 cho bài toán cơ sở X
0
, Y
0
.
Bước 2: Với mọi cặp giá trị
1 , 1 i p j q
, tính giá trị
,F i j

cho cặp
tiền tố
,
ij
XY
theo công thức 2.1.
Bƣớc 3 : Gọi
,F p q
là nghiệm tốt nhất của bài toán cho hai trình tự X và
Y. Sử dụng bảng F để thực hiện chèn các kí tự ' ' vào hai trình tự X và Y
để thu đƣợc hai trình tự sắp hàng X và Y tƣơng ứng.

Ví dụ: Xét hai trình tự X = „ACTACGGTT‟ bao gồm 9 nuclêôtít và Y =
„AGTGACGGGT‟ bao gồm 10 nuclêôtít, ta có bảng F nhƣ ở Bảng 2.6.
Bảng 2.6. Bảng F của thuật toán quy hoạch động trên hai trình tự ADN
j

i
0
1

A

2

G
G
3

T

T
4

G
G
5

A
A
6

C
C
7

G
G
8

G
G
9

G
G
10

T
T
0

0
-2
-4
-6
-8
-10
-12
-14
-16
-18
-20
1 A
-2
2
0
-2
-4
-6
-8
-10
-12
-14
-16

×