Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú ( Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.08 MB, 69 trang )

1

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ ĐÌNH GIANG

PHÂN TÍCH TRÌNH TỰ TRONG TIN SINH
HỌC VÀ ỨNG DỤNG TRÊN CƠ SỞ DỮ LIỆU
GENOME TÔM SÚ

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ : 60.48.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. Nguyễn Long Giang

Thái Nguyên - 2014

Số hóa bởi Trung tâm Học liệu

/>

2

MỤC LỤC
MỤC LỤC..........................................................................................................................................................1
Danh mục các thuật ngữ...................................................................................................................................4
Danh sách bảng..................................................................................................................................................5

Danh sách hình vẽ..............................................................................................................................................6
MỞ ĐẦU............................................................................................................................................................7
MỞ ĐẦU............................................................................................................................................................7
Chƣơng 1. CÁC KHÁI NIỆM CƠ BẢN....................................................................................................9
1.1. Các khái niệm cơ bản trong sinh học phân tử............................................................. 9
1.2. Các bài toán cơ bản trong tin sinh học ...................................................................... 12
1.3. Các ứng dụng của tin sinh học ................................................................................... 13
1.4. Một số cơ sở dữ liệu sinh học lớn trên thế giới ........................................................ 14
Chƣơng 2. BÀI TOÁN PHÂN TÍCH MỐI QUAN HỆ GIỮA CÁC TRÌNH TỰ ........................19
2.1. Bài toán phân tích mối quan hệ giữa hai trình tự...................................................... 19
2.1.1. Giới thiệu bài toán ...........................................................................................19
2.1.2. Phƣơng pháp giải quyết bài toán .....................................................................20
2.1.3. Thuật toán Needleman-Wunsch.......................................................................23

2.2. Bài toán phân tích mối quan hệ cục bộ giữa hai trình tự.......................................... 26
2.1.4. Giới thiệu bài toán ...........................................................................................26
2.1.5. Thuật toán phân tích mối quan hệ cục bộ giữa hai trình tự .............................27

2.3. Tìm kiếm trình tự tƣơng đồng bằng BLAST ............................................................ 31
2.3.1. Giới thiệu bài toán ...........................................................................................31
2.3.2. Thuật toán BLAST...........................................................................................31

2.4. Bài toán phân tích mối quan hệ giữa đa trình tự....................................................... 34
2.4.1. Giới thiệu bài toán ...........................................................................................34
2.4.2. Thuật toán quy hoạch động ..............................................................................36
2.4.3. Thuật toán ngôi sao ..........................................................................................39
2.4.4. Thuật toán sắp hàng lũy tiến ............................................................................42

Chƣơng 3. XÂY DỰNG CSDL HỆ GIEN TÔM SÚ VÀ TÍCH HỢP CÔNG CỤ BLAST ......48
3.1. Kiến trúc hệ thống ...................................................................................................... 48

Số hóa bởi Trung tâm Học liệu

/>

3

3.2. Thiết kế cơ sở dữ liệu ................................................................................................. 49
3.2.1. Nguồn số liệu đầu vào .....................................................................................49
3.2.2. Thiết kế cơ sở dữ liệu ......................................................................................49

3.3. Thiết kế chức năng hệ thống ...................................................................................... 53
3.3.1. Mô hình phân cấp chức năng ...........................................................................53
3.3.2. Mô hình luồng dữ liệu .....................................................................................55
3.3.3. Đặc tả chi tiết một số chức năng cơ bản ..........................................................57

3.4. Một số giao diện chƣơng trình ................................................................................... 64
3.4.1. Giao diện trang chủ ..........................................................................................64
3.4.2. Nạp dữ liệu từ tệp XML...................................................................................64
3.4.3. Nhập dữ liệu các trình tự Protein, Nucleotide, EST ........................................64
3.4.4. Tra cứu thông tin..............................................................................................66
3.4.5. Tìm kiếm chuỗi tƣơng đồng bằng BLAST ......................................................67

KẾT LUẬN......................................................................................................................................................68
Tài liệu tham khảo ...........................................................................................................................................69

Số hóa bởi Trung tâm Học liệu

/>

4

Danh mục các thuật ngữ
Thuật ngữ tiếng Anh

Thuật ngữ tiếng Việt

Bioinformatics

Tin sinh học

Molecular biology

Sinh học phân tử

Nucleic acid

Axít nuclêic

DNA

AND

RNA

ARN

Nucleotide

Nuclêôtít

Protein

Prôtêin

Amino Acid

Axít amin

Gene

Gien

Genome

Hệ gien

Cromosome

Nhiễm sắc thể

Sequence

Trình tự

Pairwise alignment

Sắp hàng trình tự

Số hóa bởi Trung tâm Học liệu

/>

5

Danh sách bảng
Bảng 1.1. Tên đầy đủ, tên viết tắt của 5 loại nuclêôtít: ......................................................... 9
Bảng 1.2. Tên đầy đủ, tên viết tắt của 5 loại nuclêôtít......................................................... 11
Bảng 2.1. Hai trình tự AND X và Y ..................................................................................... 19
Bảng 2.2. Hai trình tự

và

sau khi được sắp hàng ........................................................ 20

Bảng 2.3. Các cách sắp hàng khác nhau hai trình tự X và Y .............................................. 21
Bảng 2.4. Ma trận điểm giữa các nuclêôtít ......................................................................... 22
Bảng 2.5. Các cách sắp hàng khác nhau với tổng điểm khác nhau .................................... 23
Bảng 2.6. Bảng F của thuật toán quy hoạch động trên hai trình tự ADN .......................... 25
Bảng 2.7. Sắp hàng hai trình tự X và Y với tổng điểm lớn nhất.......................................... 26
Bảng 2.8. Ma trận quy hoạch động F của bài toán sắp hàng cục bộ hai trình tự AND X và
Y ................................................................................................................................... 30
Bảng 2.9. Sắp hàng cục bộ hai trình tự X và Y ................................................................... 30
Bảng 2.10. Minh họa ý tưởng của thuật toán BLAST ......................................................... 32
Bảng 2.11. Ba bắt cặp XY, XZ, YZ tương thích với nhau có thể kết hợp thành sắp hàng 3
trình tự ......................................................................................................................... 36
Bảng 2.12. Ba bắt cặp XY, XZ, YZ không tương thích với nhau để kết hợp thành sắp hàng
3 trình tự ...................................................................................................................... 36
Bảng 2.13. Sắp hàng tối ứu ba trình tự X, Y, Z ................................................................... 39

Số hóa bởi Trung tâm Học liệu

/>

6

Danh sách hình vẽ

Hình 1.1. Minh họa cấu trúc một Axit amin ...................................................................... 10
Hình 1.2. Trung tâm thông tin công nghệ sinh học Hoa Kỳ .............................................. 15
Hình 1.3. Cấu trúc cơ bản của NCBI ................................................................................. 16
Hình 2.1. Sắp hàng lũy tiến với 5 trình tự .......................................................................... 43
Hình 3.1. Kiến trúc hệ thống CSDL hệ gien tôm Sú........................................................... 49
Hình 3.2. Mô hình CSDL hệ gien tôm Sú ........................................................................... 50

Số hóa bởi Trung tâm Học liệu

/>

7

MỞ ĐẦU
Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ
của các ngành tin học, toán học ứng dụng, thống kê và khoa học máy tính để giải
quyết các bài toán trong sinh học. Tin sinh học bao gồm việc xây dựng, quản lý và
lƣu trữ nguồn dữ liệu quy mô toàn cầu liên quan đến sinh học, trên đó xây dựng và
hoàn thiện các chƣơng trình máy tính xử lý dữ liệu, là công cụ hỗ trợ hiệu quả cho
việc nghiên cứu, khám phá bản chất sinh học của giới tự nhiên và sản xuất ra các
sản phẩm sinh học mong muốn phục vụ đời sống con ngƣời. Tin sinh học có tính
ứng dụng cao trong cuộc sống, đặc biệt là trong lĩnh vực công nghệ sinh học, nông
nghiệp và y dƣợc. Các bài toán cơ bản trong tin sinh học bao gồm: quản lý và lưu

trữ dữ liệu, phân tích mối quan hệ giữa các trình tự, dự đoán cấu trúc các trình tự,
mô hình hóa, nghiên cứu tiến hóa. [4]
Một trong những bài toán quan trọng trong tin sinh học là phân tích mối quan
hệ giữa các trình tự, gọi tắt là phân tích trình tự. Các bài toán cơ bản trong phân tích
trình tự là: tìm kiếm trình tự tƣơng đồng trong cơ sở dữ liệu; sắp hàng trình tự;
chuyển đổi trình tự. Mục tiêu của phân tích trình tự là:
Xác định các gien và các chức năng của từng gien.
Xác định sự lặp lại của các trình tự.
Xác định protêin dựa trên quy tắc sắp đặt của các biểu thức gien.
Xác định các vùng chức năng khác nhau của ADN.
Mục tiêu của luận văn là:
1) Nắm bắt đƣợc các khái niệm cơ bản trong tin sinh học và các cơ sở dữ liệu
sinh học lớn trên thế giới, các phƣơng pháp giải quyết bài toán sắp hàng trình tự,
một trong những bài toán cơ bản trong phân tích trình tự.
2) Xây dựng cơ sở dữ liệu cục bộ lƣu trữ các chuỗi gien tôm sú (bao gồm các
chuỗi nuclêôtít, protêin và EST) và tích hợp các công cụ phân tích trình tự nhằm
mục đích làm sáng tỏ các vấn đề nghiên cứu lý thuyết. Dữ liệu đƣợc thu thập từ
Phòng công nghệ AND ứng dụng - Viện Công nghệ sinh học (nay là Viện Genome
học) và từ các cơ sở dữ liệu sinh học trên Internet.
Đối tượng nghiên cứu của luận văn là các chuỗi gene tôm Sú đƣợc thu thập từ
Viện Công nghệ sinh học và các chuỗi gene tôm Sú từ ngân hàng gene thế giới
(genbank), bao gồm các chuỗi EST, Nucleotide và Protein.

Số hóa bởi Trung tâm Học liệu

/>

8

Phạm vi nghiên cứu lý thuyết là bài toán phân tích trình tự trong tin sinh học,

phạm vi nghiên cứu thực nghiệm là xây dựng cơ sở dữ liệu và tích hợp công cụ
BLAST tìm kiếm trình tự tƣơng đồng trong cơ sở dữ liệu các trình tự gien tôm Sú
(bao gồm các trình tự nucleôtít, protêin và EST)
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu
thực nghiệm. Về nghiên cứu lý thuyết: luận văn thực hiện tổng hợp các khái niệm
và các kết quả nghiên cứu về sắp hàng trình tự. Về nghiên cứu thực nghiệm: luận
văn thực hiện xây dựng cơ sở dữ liệu và tích hợp công cụ tìm kiếm trình tự tƣơng
đồng BLAST trên cơ sở dữ liệu đƣợc xây dựng nhằm sáng tỏ các vấn đề về lý
thuyết.
Bố cục của luận văn gồm phần mở đầu và hai chƣơng nội dung, phần kết luận
và danh mục các tài liệu tham khảo.
Chƣơng 1 trình bày các khái niệm cơ bản trong tin sinh học, các bài toán cơ bản
trong tin sinh học, các cơ sở dữ liệu sinh học lớn trên thế giới và một số ứng dụng của
tin sinh học. Chƣơng 2 trình bày bài toán phân tích mối quan hệ giữa các trình tự và
các thuật toán so sánh trình tự. Chƣơng 3 trình bày nội dung về ứng dụng thử
nghiệm làm sáng tỏ các vấn đề nghiên cứu lý thuyết, bao gồm thiết kế và xây
dựng một cơ sở dữ liệu lƣu trữ các trình tự gien của con tôm Sú, tích hợp công
cụ tìm kiếm trình tự tƣơng đồng BLAST trên cơ sở dữ liệu cục bộ đƣợc xây
dựng.
Cuối cùng, phần kết luận nêu những đóng góp của luận văn, hƣớng phát triển
tiếp theo.

Số hóa bởi Trung tâm Học liệu

/>

9

Chƣơng 1. CÁC KHÁI NIỆM CƠ BẢN
1.1.

Các khái niệm cơ bản trong sinh học phân tử

Tin sinh học (Bioinformatics) là lĩnh vực khoa học mới có tính ứng dụng cao
trong cuộc sống, đặc biệt là trong lĩnh vực công nghệ sinh học, nông nghiệp và ydƣợc. Tin sinh học là lĩnh vực khoa học liên ngành, trong đó sinh học và tin học
đóng vai trò chủ đạo. Về cơ bản, tin sinh học tập trung vào nghiên cứu, phát triển
và áp dụng các phƣơng pháp và công cụ tin học để giải quyết các bài toán trong
sinh học.
Tiếp theo, luận văn giới thiệu một số khái niệm cơ bản trong sinh học phân tử.
Sinh học phân tử (molecular biology) là một nhánh của sinh học (biology), tập
trung nghiên cứu các sinh vật ở mức độ phân tử. Cụ thể là, sinh học phân tử tập
trung giải trình tự (sequencing) và phân tích các trình tự nuclêôtít (trình tự ADN),
các trình tự axít amin (trình tự prôtêin). Trong phần này, luận văn tập trung giới
thiệu các kiến thức cơ bản trong sinh học phân tử để sử dụng ở các chƣơng sau.
1) Axít nuclêic và nuclêôtít
Axít nuclêic (nucleic acid) là một đại phân tử sinh học (large biological
molecule) mang thông tin di truyền mã hóa các chức năng, và đặc điểm của mọi
sinh vật sống. Axít nuclêic gồm hai loại: ADN ( Axít Deoxyribo Nuclêic) và ARN
(Axít Ribo Nuclêic).
Thành phần cơ bản cấu tạo một trình tự axít nuclêic là các phân tử hóa học
nuclêotít (nucleotide). Trình tự ADN chứa bốn loại nuclêôtít khác nhau là: Adenine,
Cytosine, Guanine, và Thymine. Trình tự ARN có thành phần tƣơng tự nhƣ trình tự
ADN, ngoại trừ nuclêôtít Thymine đƣợc thay thế bởi nuclêôtít Uracil. Tức là, ARN
chứa 4 loại nuclêôtít: Adenine, Cytosine, Guanine, và Uracil. Tên đầy đủ, tên viết
tắt của năm loại nuclêôtít đƣợc mô tả ở Bảng 1.1.
Bảng 1.1. Tên đầy đủ, tên viết tắt của 5 loại nuclêôtít:
STT
1
2
3

4
5

Tên đầy đủ
Adenine
Cytosine
Guanine
Thymine
Uracil

Số hóa bởi Trung tâm Học liệu

Tên viết tắt
A
C
G
T
U

/>

10

Do đó, thông tin về một trình tự ADN đƣợc biểu diễn bằng một trình tự các
nuclêôtít nằm trên một sợi (các nuclêôtít nằm trên sợi còn lại có thể suy luận dựa
theo quy tắc trên). Để đơn giản, một trình tự ADN sẽ đƣợc biểu diễn bởi một xâu kí
tự chứa 4 loại kí tự: A, C, G và T (tên viết tắt của 4 loại nuclêôtít). Ví dụ,
"CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGTT" là một trình tự ADN.
Với cách biểu diễn này, thông tin về các trình tự DN có thể đƣợc lƣu giữ, tìm kiếm,
và trao đổi một cách hiệu quả.

2) Protein và axit amin
Prôtêin/trình tự prôtêin (protein) là loại dữ liệu phổ biến và quan trọng trong
sinh học phân tử. Nó quyết định đến chức năng, quá trình phát triển, cũng nhƣ các
bệnh tật của các sinh vật sống. Prôtêin đƣợc cấu tạo bởi một trình tự các axít amin
(amino acid), trong đó mỗi axít amin là một hợp chất hữu cơ đƣợc tạo bởi ba thành
phần chính là: nhóm amin (NH2), nhóm cacboxyl (COOH) và nhóm R quyết định
tính chất của axít amin (xem Hình 1.1)

Hình 1.1. Minh họa cấu trúc một Axit amin
Trong tự nhiên có 20 loại axít amin khác nhau nhƣ mô tả ở Bảng 1.2. Mỗi axít
amin có tên đầy đủ, tên viết tắt 3 kí tự và tên viết tắt 1 kí tự. Thông thƣờng, chúng
ta sử dụng tên viết tắt một kí tự để biểu diễn một axít amin.
Trình tự axít amin có thể đƣợc biểu diễn bằng một xâu kí tự chứa 20 loại kí tự
khác nhau, là tên viết tắt của 20 loại axít amin khác nhau. Ví dụ:
„ESPQIRRDMGRLCATWPSKDSEDGAGTALRAATPLTANGATTTGLSVTLA
PKQTNWDECWSSPCQNGGTCVDGVAYYNCTCPEGFSGSNCEENVDE‟ là
một trình tự axít amin. Với cách biểu diễn này, chúng ta có thể dễ dàng lƣu giữ các
Số hóa bởi Trung tâm Học liệu

/>

11

trình tự axít amin trong các cơ sở dữ liệu nhằm phục vụ nhiều mục đích khác nhau.
Bảng 1.2. Tên đầy đủ, tên viết tắt của 5 loại nuclêôtít
STT
1
2
3
4

5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Tên axít amin Tên viết tắt (3 ký tự) Tên viết tắt (1 ký tự)
Alanine
Ala
A
Ar
Arginine
g
R
Asparagine
Asn
N
Aspartic
Asp

D
Cysteine
Cys
C
Glutamine
Gln
Q
Glutamic
Glu
E
Glycine
Gly
G
Histidine
His
H
Isoleucine
Ile
I
Leucine
Leu
L
Lysine
Lys
K
Methionine
Met
M
Phenylalanine
Phe

F
Proline
Pro
P
Serine
Ser
S
Threonine
Thr
T
Tryptophan
Trp
W
Tyrosine
Tyr
Y
Valine
Val
V

3) Nhiễm sắc thể và hệ gien
Nhiêm sắc thể (chromosome) là một cấu trúc trong tế bào chứa hai loại thông
tin là trình tự ADN và các prôtêin histone có nhiệm vụ kết hợp/đóng gói và điều
khiển các chức năng của trình tự ADN. Độ dài của trình tự ADN trong một nhiễm
sắc thể có thể từ vài nghìn cho đến hàng trăm triệu nuclêôtít. Số lƣợng nhiêm sắc
thể trong môi sinh vật có thể khác nhau. Ví dụ, loài ngƣời có 23 cặp nhiễm sắc thể
với tổng độ dài lên tới 3 tỉ nuclêôtít.
Tập hợp tất cả các nhiêm sắc thể của một sinh vật đƣợc gọi là hệ gien của sinh
vật. Hệ gien sẽ mang toàn bộ thông tin di truyền quyết định đến chức năng và đặc
điểm của sinh vật. Một hệ gien có thể chứa nhiều gien khác nhau. Ví dụ hệ gien

ngƣời chứa khoảng 25 nghìn gien khác nhau. Hai hệ gien của hai cá thể của cùng

Số hóa bởi Trung tâm Học liệu

/>

12

một loài (ví dụ của hai ngƣời khác nhau) thƣờng rất giống nhau. Sự khác nhau giữa
hệ gien của hai cá thể sẽ tạo ra sự khác nhau giữa hai cá thể đó.
4) EST (expressed sequence tag)
EST, hay còn gọi là nhãn xác định trình tự biểu hiện, thực chất là các đoạn
trình tự ngắn đƣợc trích ra từ một trình tự ADN đã biết. Các trình tự ADN ngẫu
nhiên (có thể là trình tự đầy đủ hay các trình tự một phần EST) đƣợc xác định bằng
sử dụng phƣơng pháp giải mã trình tự ngẫu nhiên rồi đƣợc đối chiếu với các đoạn
khung của hệ gen. Các vùng tƣơng ứng với các EST đƣợc xác định là các exon, còn
các vùng nằm giữa các exon tƣơng ứng với các intron (mặc dù, nguyên tắc cắt
intron khác nhau có thể sử dụng một exon không có mặt trong ADN hay EST đƣợc
giải mã trình tự).
Các thông tin giải mã trình tự ADN và EST cũng giúp tìm đƣợc sự liên kết
giữa các contig, giữa các đoạn khung và giữa chúng với nhau. Chẳng hạn nhƣ giả
sử có một phân tử ADN đƣợc phiên mã từ một gen kích thƣớc rất lớn có chiều dài
intron là 100 KB hoặc hơn. Có hai đoạn khung cùng chứa các trình tự khác nhau
của phân tử ADN chung này, thì nhiều khả năng chúng là các vùng liên kết của hệ
gen và biểu hiện là các đoạn của cùng một gen.

1.2.

Các bài toán cơ bản trong tin sinh học
Một số bài toán cơ bản và quan trọng trong tin sinh học bao gồm:

1) Quản lý dữ liệu
Một trong các bài toán quan trọng đầu tiên của tin sinh học là xây dựng các hệ
thống dữ liệu để quản lý và khai thác một cách hiệu quả lƣợng dữ liệu sinh học
khổng lồ. Dữ liệu sinh học bao gồm nhiều loại khác nhau, trong đó chủ yếu là các
trình tự nuclêôtít, và các trình tự axít amin. Lƣợng dữ liệu sinh học có thể lên đến
hàng triệu megabyte và đƣợc cập nhật liên tục theo thời gian. Chi tiết về cấu trúc và
cách sử dụng các hệ thống dữ liệu sinh học sẽ đƣợc trình bày chi tiết ở chƣơng Cơ
sở dữ liệu sinh học phân tử.
2) Phân tích mối quan hệ giữa các trình tự
Phát triển các mô hình, các phƣơng pháp và các công cụ tính toán để phân
tích mối quan hệ giữa các trình tự sinh học (chủ yếu là các trình tự nuclêôtít/prôtêin)
là lớp bài toán cốt lõi trong tin sinh học. Một số bài toán điển hình là sắp hàng hai
trình tự, hay sắp hàng đa trình tự, đo độ giống nhau giữa các trình tự.
3) Nghiên cứu tiến hóa
Số hóa bởi Trung tâm Học liệu

/>

Luận vận đậy đu ở file:Luận vận Full

Phân tích trình tự trong tin sinh học và ứng dụng trên cơ sở dữ liệu genome tôm sú ( Luận văn thạc sĩ)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về