Phương pháp đánh chỉ số cho csdl gen để tăng tốc độ tìm kiếm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.06 MB, 73 trang )

..

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

HÀ THỊ THANH HỒNG

PHƢƠNG PHÁP ĐÁNH CHỈ SỐ
CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái ngun, 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Hà Thị Thanh Hồng

PHƢƠNG PHÁP ĐÁNH CHỈ SỐ
CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM
Chuyên ngành: Khoa học máy tính
Mã số: 60. 48. 01. 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. Hồng Đỗ Thanh Tùng

Thái nguyên, 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN

i

LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là cơng trình nghiên cứu thực sự của
cá nhân, đƣợc thực hiện dƣới sự hƣớng dẫn khoa học của Tiến sĩ Hoàng Đỗ
Thanh Tùng.
Các số liệu, những kết luận nghiên cứu đƣợc trình bày trong luận văn
này trung thực và chƣa từng đƣợc cơng bố dƣới bất cứ hình thức nào.
Tơi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên

Hà Thị Thanh Hồng

Số hóa bởi Trung tâm Học liệu – ĐHTN

ii

LỜI CẢM ƠN
Đầu tiên tôi xin gửi lời cảm ơn sâu sắc nhất tới TS.Hoàng Đỗ Thanh
Tùng. Thầy đã hƣớng dẫn khoa học, đã tận tình chỉ bảo, giúp đỡ tôi thực hiện

luận văn.
Tôi xin cảm ơn các thầy cô Trƣờng Đại học Công nghệ Thông tin và
Truyền thông - Đại học Thái Nguyên đã giảng dạy và truyền kiến thức cho
tôi.
Tôi xin chân thành cảm ơn Ban giám hiệu trƣờng Cao đẳng Công
nghiệp Thực Phẩm và các đồng nghiệp trong khoa công nghệ thông tin đã tạo
mọi điều kiện giúp đỡ tơi hồn thành nhiệm vụ học tập.
Cuối cùng, tôi xin cảm ơn những ngƣời thân và các bạn bè chia sẻ, gúp
đỡ tơi hồn thành luận văn này.
Mặc dù đã hết sức cố gắng hoàn thành luận văn với tất cả sự nỗ lực của
bản thân, nhƣng luận văn vẫn cịn những thiếu sót. Kính mong nhận đƣợc
những ý kiến đóng góp của q Thầy, Cơ và bạn bè đồng nghiệp.
Tơi xin chân thành cảm ơn!
Việt Trì, ngày 10 tháng 6 năm 2015

Hà Thị Thanh Hồng

iii

MỤC LỤC
LỜI CẢM ƠN…………………………………………………………….….i
LỜI CAM ĐOAN …………………………………………………….……..ii
MỤC LỤC ........................................................................................................iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .................................. v
DANH MỤC BẢNG BIỂU ............................................................................. vi
DANH MỤC HÌNH VẼ .................................................................................. vii
MỞ ĐẦU ....................................................................................................................1
CHƢƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN ..............4

1.1 Giới thiệu tin sinh học ............................................................................. 4
1.1.1 Định nghĩa ......................................................................................... 4
1.1.2 Sự phát triển tin sinh học ở Việt Nam ............................................... 5
1.2 Sinh học phân tử ...................................................................................... 8
1.2.1 Axit nucleic và nucleotide ................................................................. 9
1.2.2 Protein và axit amin......................................................................... 10
1.2.3 GEN là gì? ....................................................................................... 11
1.2.4 Nhiễm sắc thể và hệ GEN ............................................................... 14
1.3 Cơ sở dữ liệu GEN................................................................................. 15
1.3.1 Cơ sở dữ liệu NCBI ......................................................................... 16
1.3.2 Cơ sở dữ liệu EMBL/EBI................................................................ 19
1.3.3 Cơ sở dữ liệu DDBJ ........................................................................ 19
1.4 Định dạng dữ liệu sinh học .................................................................... 20
1.4.1 Định dạng dữ liệu sinh học theo chuẩn FASTA ............................. 20
1.4.2 Định dạng dữ liệu sinh học theo dạng ALN/ClustalW ................... 22
1.4.3 GENBank ........................................................................................ 22

iv

1.5 Kết luận chƣơng 1 .............................................................................. 23
CHƢƠNG 2: PHƢƠNG PHÁP ĐÁNH CHỈ SỐ GEN ĐỂ TĂNG TỐC ĐỘ TÌM
KIẾM ........................................................................................................................25

2.1. Giới thiệu .............................................................................................. 25
2.2 Cấu trúc dữ liệu hệ GEN và sự cần thiết của chỉ số .............................. 27
2.2.1 Cấu trúc dữ liệu hệ GEN ................................................................. 27
2.2.2 Sự cần thiết và lợi thế của đánh chỉ số cho tìm kiếm tƣơng đồng
GEN .......................................................................................................... 29
2.3. Phƣơng pháp đánh chỉ số cho CSDL GEN .......................................... 30

2.4 Phƣơng pháp đánh chỉ số dựa trên sự biến đổi cấu trúc chỉ số ............. 31
2.5 Phƣơng pháp đánh chỉ số dựa vào kích thƣớc (Length based index
algorithms) ................................................................................................... 31
2.5.1 Thuật toán đánh chỉ số dựa trên kích thƣớc cố định ....................... 32
2.5.2 Thuật tốn đánh chỉ số dựa trên kích thƣớc biến đổi ...................... 35
2.6 Thuật toán Blast ..................................................................................... 40
2.6.1 Giới thiệu ......................................................................................... 40
2.6.2. Thuật toán ....................................................................................... 41
2.7. Kết luận chƣơng 2 ................................................................................. 45
CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM PHƢƠNG PHÁP ĐÁNH CHỈ SỐ
CHO CƠ SỞ DỮ LIỆU GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM ........................46

3.1 Bài tốn .................................................................................................. 46
3.2. Xây dựng chƣơng trình thử nghiệm .................................................... 47
3.2.1. Chuẩn bị dữ liệu ............................................................................. 47
3.2.2. Lựa chọn giải pháp ......................................................................... 49
Thuật toán ................................................................................................. 49
3.2.3. Thiết kế hệ thống ............................................................................ 50
3.3. Kết luận chƣơng 3 ................................................................................. 57

v

KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................59
DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................61

vi

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Viết đầy đủ

Từ viết tắt
CSDL

Cơ sở dữ liệu

GEN

Genome

DNA

Axit Deoxyribo Nucleic

ARN

Axit Ribo Nuclêic

NCBI

National Center for BioInformatic Information

dbEST

data base of Expressed Sequence Tags

MGC

Mamalian GEN Collection

EBI

European Biotechnology Information

BLAST

Basic Local Alignment Search Tool

EMBL

European Molecular Biology Laboratory

OMIM

Online Mendelian Inheritance in Man

EPO

European Patent Office

ISDC

ASD

International Sequence Database Collaboration
Minimum Information About a Microarray
Experiment
Alternative Splicing Database

ATD

Alternate Transcript Diversity

IPD

Immuno Polymorphism Database IPD
Center for Information Biology

MIAME

CIB – DDBJ

and DNA Data Bank of Japan

vii

DANH MỤC BẢNG BIỂU
Bảng 1.1. Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia ..7
Bảng 1.2. Kết quả bảo tồn, lƣu giữ nguồn GEN sinh vật .............................8
Bảng 1.3. Tên đầy đủ, tên viết tắt của năm loại nucleotide. ........................9
Bảng 2.1. Minh họa tƣ tƣởng chính của thuật toán BLAST ......................41

viii

DANH MỤC HÌNH VẼ
Hình 1.1. Cấu trúc xoắn kép của một trình tự DNA ...................................10
Hình 1.2. Minh họa cấu trúc của một axít amin..........................................11

Hình 1.3. Minh họa một đoạn GEN trong cấu trúc DNA ...........................12
Hình 1.4. Quá trình tổng hợp Protein từ đoạn DNA ...................................13
Hình 1.5. Định dạng chuẩn FASTA dùng để lƣu giữ thơng tin trình tự DNA
.....................................................................................................................21
Hình 1.6. Định dạng FASTA lƣu giữ nhiều trình tự DNA (Protein) ..........23
Hình 2.1. Cơ chế ánh xạ trình tự .................................................................28
Hình 2.2. Sơ đồ thuật tốn BLAST .............................................................44
Hình 3.1. Kết quả tìm kiếm hệ GEN ngƣời trên NCBI ..............................47
Hình 3.2. Cơ sở dữ liệu của NCBI ..............................................................48
Hình 3.3. Cơ sở dữ liệu mơ phỏng .............................................................49
Hình 3.4. Giao diện chính ...........................................................................52
Hình 3.5. Thơng báo lỗi từ hệ thống BLAST khi khơng tìm thầy dữ liệu về
trình tự truy vấn. ..........................................................................................53
Hình 3.6. Giao diện nhập dữ liệu ...............................................................54
Hình 3.7. Kết quả chạy thuật tốn BLAST .................................................55

1

MỞ ĐẦU
I. LÝ DO CHỌN ĐỀ TÀI
Trong vài thập niên gần đây, cùng với sự thay đổi và phát triển không
ngừng của ngành công nghệ thông tin với các hệ thống thông tin phục vụ
trong các lĩnh vực kinh tế, xã hội, y học, giáo dục …, nhu cầu thu thập, lƣu
trữ và xử lý thông tin càng ngày càng lớn. Bên cạnh đó việc tin học hố một
cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng nhƣ nhiều
lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lƣợng dữ liệu lƣu trữ
khổng lồ.
Nhƣ ta đã biết, cơ sở dữ liệu GEN bao gồm một tập hợp các chuỗi lớn
GEN có trình tự và độ dài khác nhau đƣợc bổ sung liên tục. Cơ sở dữ liệu

khổng lồ này có thể đƣợc lƣu trữ trên bộ nhớ của máy tính. Để tìm sự khác
biệt giữa một GEN này với một GEN khác trong chuỗi GEN với cấu trúc
hoàn chỉnh trong bộ nhớ của máy tính địi hỏi số lƣợng lớn các thao tác xử lý
vào ra (truy cập) ổ đĩa của máy tính. Nhƣng với số lƣợng các chuỗi GEN nhƣ
trên, việc xử lý thơng thƣờng trên máy tính là khó thực hiện do độ phức tạp cả
không gian lẫn thời gian truy cập. Có thể trả lời câu hỏi trên bằng cách tìm ra
một phƣơng pháp tìm kiếm dữ liệu có hiệu quả trình tự các GEN. [2]
Thuật tốn tìm kiếm dựa trên chỉ số là một phần quan trọng của tìm
kiếm GEN. Làm thế nào để xây dựng chỉ số để tính điểm tƣơng đồng giữa hai
chuỗi GEN? Một số phƣơng pháp xây dựng chỉ số cho tìm kiếm tƣơng đồng
GEN nhƣ: phƣơng pháp xây dựng dựa trên kích thƣớc, phƣơng pháp xây
dựng dựa vào biến đổi. Trong luận văn này tập trung nghiên cứu các phƣơng
pháp xây dựng chỉ số dựa trên kích thƣớc đặc biệt là thuật tốn Blast. Các
phƣơng pháp đƣợc đề cập trong luận văn tìm thấy rất nhanh sự giống nhau
Số hóa bởi Trung tâm Học liệu – ĐHTN

2

giữa hai chuỗi trong một cơ sở dữ liệu chuỗi GEN. Vì vậy tơi đã chọn đề tài
“Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm”
làm đề tài cho luận văn tốt nghiệp của mình.
II. MỤC TIÊU, ĐỐI TƢỢNG, PHẠM VI NGHIÊN CỨU
Trong khuôn khổ của luận văn tôi sẽ thực hiện và giải quyết những vấn
đề sau:
- Nghiên cứu tin sinh học, cấu trúc dữ liệu GEN.
- Nghiên cứu phƣơng pháp đánh chỉ số và một số thuật toán xây dựng
chỉ số.

- Đánh giá và thử nghiệm phƣơng pháp Blast trên cơ sở dữ liệu GEN.
III. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
Trong luận văn khảo sát các phƣơng pháp đánh chỉ số đã đƣợc nghiên
cứu cho cơ sở dữ liệu GEN đặc biệt là phƣơng pháp Blast để tìm các cặp đoạn
có độ giống nhau giữa một đoạn GEN đầu vào với đoạn GEN có trong cơ sở
dữ liệu để từ đó tăng tốc độ tìm kiếm [5]. Ngồi ra cịn có một số ứng dụng cơ
bản và quan trọng trong tin sinh học:
- Quản lý dữ liệu: xây dựng hệ thống quản lý và khai thác một cách có
hiệu quả lƣợng dữ liệu sinh học khổng lồ. Dữ liệu sinh học bao gồm nhiều
loại khác nhau, trong đó chủ yếu là các trình tự nucleotide, và các trình tự axit
amin.
- Phân tích mối quan hệ giữa các trình tự: Phát triển các mơ hình các
phƣơng pháp và các cơng cụ tính tốn để phân tích mối quan hệ giữa các trình
tự sinh học là lớp bài toán cốt lõi trong tin sinh học.

3

- Dự đốn cấu trúc bậc cao của các trình tự: Ngày nay, các máy giải
trình tự thế hệ mới có thể giải trình tự hệ GEN ngƣời trong vịng một ngày với
chi phí khoảng 50 nghìn Đơ la Mỹ. Tuy nhiên, việc xác định đƣợc cấu trúc
bậc cao của các trình tự (phổ biến là các trình tự Protein) vẫn là một bài tốn
khó cả về mặt thời gian và chi phí. Các nghiên cứu tin sinh học giúp phát triển
các mơ hình, phƣơng pháp và cơng cụ tính tốn để dự đốn cấu trúc bậc cao
của các trình tự dựa vào phân tích nội dung và mối quan hệ của chúng với
trình tự khác. Các phƣơng pháp dự đoán sẽ giảm thiểu một lƣợng lớn thời
gian và chi phí cho việc xác định cấu trúc bậc cao của các trình tự.
IV. PHƢƠNG PHÁP NGHIÊN CỨU
- Nghiên cứu các tài liệu liên quan đến tin sinh học, cơ sở dữ liệu GEN,
phƣơng pháp đánh chỉ số

- Tìm kiếm, thu thập và chia nhóm dữ liệu.
- Phƣơng pháp thực nghiệm và đối chứng qua chƣơng trình thử nghiệm.

4

CHƢƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN
1.1 Giới thiệu tin sinh học
1.1.1 Định nghĩa
Tin sinh học (BioInformatics) là một lĩnh vực khoa học sử dụng các
cơng nghệ của các ngành tốn học ứng dụng, tin học, thống kê, khoa học máy
tính, sinh học, hóa học, vật lý… và toán sinh học. Tin sinh học thƣờng gắn
liền với sinh học tính tốn (Computational biology) hoặc sinh học hệ thống
(System biology). Thuật ngữ tin sinh học là một phần của sinh học tính tốn.
Sự kết hợp giữa các nghành khoa học nói trên có sự đan xen với nhau và
tƣơng hỗ lẫn nhau vì vậy, thành quả nghiên cứu mang lại của ngành học này
không chỉ đóng góp cho sinh học mà cịn đóng góp cho các ngành khoa học
khác [1]. Một số bài toán và ứng dụng cơ bản và quan trọng trong tin sinh
học gồm:
Quản lý dữ liệu: Một trong các bài toán quan trọng đầu tiên của tin sinh
học là xây dựng các hệ thống dữ liệu để quản lý và khai thác một cách hiệu
quả lƣợng dữ liệu sinh học khổng lồ. Dữ liệu sinh học bao gồm nhiều loại
khác nhau, trong đó chủ yếu là các trình tự nucleotide, và các trình tự axít
amin. Lƣợng dữ liệu sinh học có thể lên đến hàng triệu megabyte và đƣợc cập
nhật liên tục theo thời gian. Vì vậy, vấn đề lƣu trữ và quản lý dữ liệu này là
bài toán đƣợc quan tâm đầu tiên.
- Phân tích mối quan hệ giữa các trình tự;
- Nghiên cứu tiến hóa;
- Dự đốn cấu trúc bậc cao của các trình tự;
- Kiểm sốt dịch bệnh;

- Phát triển thuốc và chẩn đoán bệnh;

5

- Phát triển các giống cây trồng, vật nuôi.
1.1.2 Sự phát triển tin sinh học ở Việt Nam
Tin sinh học là một lĩnh vực mới nhƣng không xa lạ. Những năm qua ở
Việt Nam cũng đã có một số nghiên cứu trong lĩnh vực phân tích GEN, xác
định trình tự DNA của một số loài quan trọng để đánh giá về mặt di truyền,
hay những biến dị hoặc từ đó xác định hệ số di truyền tìm ra các họ hàng thân
thích, hoặc để đánh giá mức độ biến đổi tính di truyền, hoặc nghiên cứu về đa
dạng sinh học, xây dựng ngân hàng GEN (GEN bank). Theo hƣớng đó, những
năm gần đây trên bƣớc đƣờng nghiên cứu về tài nguyên sinh vật và đa dạng
sinh học tại các tỉnh vùng Bắc Trung Bộ, Khoa Sinh trƣờng Đại học Vinh đã
tiến hành nhân bản GEN (polimerase chain reaction-PCR), giải trình tự ADN
(DNA sequencing) ở một số loài vi khuẩn lam, loại vi khuẩn có giá trị lớn
trong cố định nitơ khơng khí, có khả năng tổng hợp hữu cơ mạnh làm giàu
dinh dƣỡng cho đất, và có các hợp chất có hoạt tính sinh học cao có tác dụng
đến sinh trƣởng, phát triển, tăng năng suất cây trồng, hoặc bằng nhân bản
GEN và kỹ thuật phân tích tính đa hình của DNA đƣợc khuếch đại ngẫu nhiên
(random amplified polimorphism DNA, RAPD) đối với các cây ăn quả có giá
trị nhƣ cam Xã Đồi, bƣởi Phúc Trạch để từ đó đánh giá mức độ biến đổi di
truyền của chúng liên quan đến chất lƣợng quả, hoặc phân tích trình tự axit
amin trên một số giống rắn thƣờng sử dụng làm thuốc để từ cấu trúc của
protein tìm hiểu về chức năng và vai trị sinh học của nó, hay phân tích trình
tự DNA của một số lồi cá mới phát hiện đƣợc tại Nghệ An... Hiện nay kỹ
thuật RAPD đƣợc xem là kỹ thuật phân loại phân tử và đang đƣợc sử dụng để
xác định tính đa dạng sinh học và quan hệ họ hàng của các động vật, thực vật
khác nhau trong loài. Chẳng hạn gần đây Henry Nguyễn (đại học Texas-Mỹ)

nhờ sử dụng 43 cặp mồi (primer) ngẫu nhiên, đã phát hiện đƣợc sự khác biệt

6

di truyền của 13 giống lúa có nguồn gốc khác nhau ở châu Á, châu Âu và
trung Á. Cho nên, việc áp dụng tin sinh học trong nghiên cứu khả dĩ góp phần
tích cực vào việc điều tra tài ngun sinh vật, tìm kiếm những GEN quý hiếm,
nghiên cứu đa dạng sinh học ở mức độ phân tử và chống xói mịn di truyền...
mà lâu nay chƣa có điều kiện để khám phá. [1]
Trong một vài năm gần đây các viện nghiên cứu, các trƣờng đại học
mới xây dựng chƣơng trình và đào tạo những khóa học đầu tiên trong lĩnh vực
này. Hiện nay, đội ngũ cán bộ nghiên cứu về tin sinh học tập trung chủ yếu ở
các viện nghiên cứu và các trƣờng đại học có các chuyên ngành đào tạo về
công nghệ sinh học, nông lâm học… chủ yếu đƣợc đào tạo từ nƣớc ngoài. Các
hƣớng nghiên cứu chính của các nhóm hiện nay là:
- Các nghiên cứu trong lĩnh vực phân tích GEN, xác định trình tự DNA
của một số loài để đánh giá về mặt di truyền (xác định họ hàng thân thích,
đánh giá mức độ biến đổi tính di truyền)
- Khai thác dữ liệu sinh học, xây dựng ngân hàng GEN
- Các nghiên cứu về đa dạng sinh học, phân tích mối quan hệ tiến hóa
trình tự, ứng dụng trong di truyền, chọn giống (nhân bản phát triển và lƣu trữ
những gien quý hiếm, giải trình tự GEN ở một số lồi, làm tăng năng suất cây
trồng…)
- Phát triển phần mềm phân tích dữ liệu trình tự sinh học
- Xây dựng cơ sở dữ liệu thơng tin protein.
Ngồi các viện nghiên cứu, các trƣờng đại học, tại nƣớc ta, nguồn GEN
hiện đang đƣợc lƣu trữ, bảo quản tại một số tổ chức thuộc các bộ chủ quản
nhƣ Bộ Nông nghiệp và Phát triển Nông thôn, Bộ Y tế, Bộ Công thƣơng
[4]…. Dƣới đây là một số kết quả nghiên cứu và nguồn GEN hiện có ở nƣớc

ta.

7

Bảng 1.1. Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia
TT

Bộ/Ngành

Nhiệm vụ
- Bảo tồn nguồn GEN thực vật phục vụ cho mục tiêu
lƣơng thực và NN

Bộ Nông
1

nghiệp và
Phát triển
Nông thôn

- Bảo tồn nguồn GEN vật nuôi
- Bảo tồn nguồn GEN VSV đất, phân, bảo vệ thực vật và
VSV thú y
- Bảo tồn nguồn GEN cây rừng, cây chống chịu, cây cao
su, GEN ong, GEN và giống thủy sản

2

3

4

5

Bộ Y tế

- Bảo tồn nguồn GEN và giống cây thuốc
- Bảo tồn nguồn GEN VSV y học

Bộ Công

- Bảo tồn nguồn GEN VSV công nghiệp thực phẩm

Thƣơng

- Bảo tồn bộ sƣu tập nguồn GEN cây công nghiệp

Bộ GD& ĐT

- Bảo tồn một số nguồn GEN cây trồng nông nghiệp
- Bảo tồn bộ sƣu tập nguồn GEN VSV chung

Bộ Quốc

- Bảo tồn lƣu giữ nguồn GEN dƣợc liệu, con thuốc phục

phòng

vụ quốc phòng

8

Bảng 1.2. Kết quả bảo tồn, lưu giữ nguồn GEN sinh vật
TT Nguồn GEN

Bảo tồn, lƣu giữ tại Bảo tồn, lƣu giữ chuyển
chỗ

1

Cây

trồng

nông 30 nhiệm vụ

chỗ
28.028 nguồn GEN

nghiệp
2

Cây lâm nghiệp

164 vƣờn

Xấp xỉ 2000 giống

3

Cây thuốc

Xấp xỉ 100 lồi

2998 lồi

4

Vật ni

Xấp xỉ 30 giống

18 giống

5

Thủy sản

3 khu bảo tồn

2999

6

Vi sinh vật

21270 chủng

1.2 Sinh học phân tử
Sinh học phân tử (molecular biology) là một nhánh của sinh học
(biology), tập trung nghiên cứu các sinh vật ở mức độ phân tử. Cụ thể là, sinh
học phân tử tập trung giải trình tự (sequencing) và phân tích các trình tự
nucleotide (trình tự DNA), các trình tự axít amin (trình tự Protein), cũng nhƣ
các loại dữ liệu sinh học phân tử khác để hiểu đƣợc cấu trúc, chức năng, đặc
điểm, q trình tiến hóa, cũng nhƣ mối quan hệ và tƣơng tác giữa các loài
sinh vật. Sự phát triển mạnh mẽ của công nghệ giải trình tự DNA, cũng nhƣ
các phƣơng pháp tính tốn hiện đại đã giúp sinh học phân tử phát triển mạnh
mẽ cả về cơ sở lý thuyết cũng nhƣ các ứng dụng thực tế.[1]

9

1.2.1 Axit nucleic và nucleotide
Axít nuclêic (nucleic acid) là một đại phân tử sinh học (large biological
molecule) mang thông tin di truyền mã hóa các chức năng, và đặc điểm của
mọi sinh vật sống. Axít nuclêic gồm hai loại: DNA (Axít Deoxyribo Nuclêic)
và ARN (Axít Ribo Nuclêic).
Thành phần cơ bản cấu tạo một trình tự axít nuclêic là các phân tử hóa
học nuclêotít (nucleotide). Trình tự DNA chứa bốn loại nucleotide khác
nhau là: Adenine, Cytosine, Guanine, và Thymine. Trình tự ARN có thành
phần tƣơng tự nhƣ trình tự DNA, ngoại trừ nucleotide Thymine đƣợc thay
thế bởi nucleotide Uracil. Tức là, ARN chứa 4 loại nucleotide: Adenine,
Cytosine, Guanine, và Uracil. Tên đầy đủ, tên viết tắt của năm loại nucleotide
đƣợc mô tả ở Bảng 1.1.
Bảng 1.3. Tên đầy đủ, tên viết tắt của năm loại nucleotide.
Tên đầy đủ

Tên viết tắt

Adenine

A

Cytosine

C

Guanine

G

Thymine

T

Uracil

U

10

Hình 1.1. Cấu trúc xoắn kép của một trình tự DNA
Các nucleotide trên trình tự DNA liên kết với nhau để tạo thành một
trình tự có cấu trúc xoắn kép nhƣ Hình 1 Cấu trúc xoắn kép của trình tự DNA
gồm 2 sợi liên kết với nhau: sợi thứ nhất có chiều từ 5‟ đến 3‟; sợi thứ hai có
chiều ngƣợc lại từ 3‟ đến 5‟. Các nucleotide ở sợi thứ nhất sẽ liên kết với các
nucleotide ở sợi thứ hai (và ngƣợc lại) theo nguyên tắc:

- Nucleotide A luôn liên kết với nucleotide T
- Nucleotide G luôn liên kết với nucleotide C
Do vậy, thơng tin về một trình tự DNA đƣợc biểu diễn bằng một trình
tự các nucleotide nằm trên một sợi (các nucleotide nằm trên sợi còn lại có thể
suy luận dựa theo quy tắc trên). Để đơn giản, một trình tự DNA sẽ đƣợc biểu
diễn bởi một xâu kí tự chứa 4 loại kí tự: A, C, G, và T

(tên viết tắt của 4 loại

nucleotide).
Ví dụ: “CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGTT” là
một trình tự DNA. Với cách biểu diễn này, thơng tin về các trình tự DNA có
thể đƣợc lƣu giữ, tìm kiếm, và trao đổi một cách hiệu quả.
1.2.2 Protein và axit amin
Protein/ trình tự Protein (protein) là loại dữ liệu phổ biến và quan trọng
trong sinh học phân tử. Nó quyết định đến chức năng, q trình phát triển,
cũng nhƣ các bệnh tật của các sinh vật sống. Protein đƣợc cấu tạo bởi một

11

trình tự các axít amin (amino acid), trong đó mỗi axít amin là một hợp chất
hữu cơ đƣợc cấu tạo bởi ba thành phần chính là: nhóm amin (N 2), nhóm
cacboxyl (OO) và nhóm R quyết định tính chất của axít amin (xem Hình 2).

Hình 1.2. Minh họa cấu trúc của một axít amin
1.2.3 GEN là gì?
Trình tự DNA mang thông tin di truyền xác định các chức năng và đặc
điểm của sinh vật, trong khi Protein quyết định đến các chức năng, và quá
trình phát triển của sinh vật. Vậy mối liên hệ giữa trình tự DNA và trình tự

Protein nhƣ thế nào? Thơng tin chứa trên trình tự DNA chính là các hƣớng
dẫn để tạo ra các Protein. Mỗi Protein đƣợc tạo ra từ một đoạn DNA nằm trên
trình tự DNA thơng qua q trình tổng hợp Protein (Hình 3). Đoạn DNA nằm
trên trình tự DNA mang thơng tin hƣớng dẫn tổng hợp Protein đƣợc gọi là
đoạn gien.
Định nghĩa: GEN là một đoạn DNA mang một chức năng nhất định
trong q trình truyền thơng tin di truyền. [3]
GEN, một đoạn của DNA, hoạt động điều khiển hình thành những phân
tử protein. Ở ngƣời, chiều dài GEN có thể thay đổi từ vài trăm base đến hơn 2
triệu base. Dự án giải mã hệ GEN ngƣời (The Human GENe Project) ƣớc
đốn con ngƣời có khoảng 20,000 đến 25,000 GEN.

12

Mỗi cá thể có hai bản sao của một GEN, một bản từ bố và bản còn lại
từ mẹ. Hầu hết các GEN là nhƣ nhau ở mọi ngƣời, nhƣng có một số ít GEN
(ít hơn 1% tổng số) hơi khác nhau giữa mỗi ngƣời. Alen là các dạng của cùng
một GEN với những khác biệt nhỏ trong trình tự cơ sở DNA. Những khác biệt
nhỏ này tạo nên nét đặc trƣng của mỗi ngƣời.
Trên nhiễm sắc thể, một GEN thƣờng có một vị trí xác định và liên kết
với các vùng điều hòa phiên mã và các vùng chức năng khác để bảo đảm và
điều khiển hoạt động của GEN. Các đoạn GEN tạo nên chuỗi DNA. Thông
thƣờng, ngƣời ta nói đến GEN hàm ý là GEN cấu trúc. GEN cấu trúc là đoạn
DNA mang thông tin cần thiết mã hóa một chuỗi polypeptide. Trong đó, các
polypeptide là thành phần cấu trúc tạo nên các protein. Đây là nhóm phân tử
đóng vai trị quan trọng (nhƣng khơng phải là hồn tồn) quy định kiểu
hình của sinh vật. Chú ý rằng, khơng phải tất cả các đoạn nằm trên trình tự
DNA đều là đoạn GEN.

Hình 1.3. Minh họa một đoạn GEN trong cấu trúc DNA
Quá trình tổng hợp Protein từ DNA đƣợc chia thành hai giai đoạn:
Phiên mã (transcription) và dịch mã (translation) nhƣ minh họa trong hình 4.

13

Hình 1.4. Quá trình tổng hợp Protein từ đoạn DNA
- Giai đoạn phiên mã: Đoạn gien nằm trên trình tự DNA mang thông tin
hƣớng dẫn tổng hợp Protein đƣợc biến đổi thành đoạn ARN. Đoạn ARN có
nội dung giống hệt đoạn gien, ngoại trừ nucleotide Thymine (T) bị biến đổi
thành nucleotide Uracil (U). Ví dụ đoạn gien:
“CCTGAGCCAACTATTGATGAA” qua q trình phiên mã sẽ bị biến
đổi thành đoạn ARN “CCUGAGCCAACUAUUGAUGAA”.
- Quá trình dịch mã: Đoạn ARN sẽ đƣợc dịch mã thành đoạn axít amin
theo quy tắc mỗi bộ ba nucleotide liên tiếp (gọi là một codon) trên đoạn ARN
sẽ đƣợc mã hóa thành một axít amin.
Tại các gene trên 1 chuỗi (mạch) phân tử ADN, trật tự sắp xếp các
nucleotide tạo thành trình tự của gene. Dựa trên thơng tin từ trình tự này,
các RNA thơng tinđƣợc tạo ra thơng qua q trình phiên mã. Và rồi từ các
ARN thơng tin tế bào sẽ tổng hợp các protein qua quá trình dịch mã tại các
thời điểm nhất định của cuộc đời. Mỗi quan hệ giữa trình tự gene với trình tự
của các amino acid trên protein đƣợc gọi là mã di truyền (một dạng mật
mã chung cho mọi sinh vật). Thực chất, ba nucleotide liên tiếp (gọi là một bộ
ba hay một codon) trên gene sẽ thông qua những bộ ba tƣơng ứng ở RNA
thông tin và RNA vận chuyển mà quy định cho một loại amino acid nhất định
(có khoảng 20 loại amino acid khác nhau). Một loại amino acid có thể đƣợc

14

quy định bởi một số codon, tuy nhiên mỗi codon chỉ mã hố cho một loại
amino acid. Có 3 codon khơng mã hố cho amino acid mà là tín hiệu kết thúc
vùng mã hoá (gọi là mã kết thúc.
Ở nhiều lồi sinh vật, chỉ có một phần nhỏ trình tự của bộ gene
(genome) là dùng để mã hoá protein (gen cấu trúc). Chức năng của phần còn
lại là vẫn còn đang đƣợc giả định. Thực chất, một số vùng ADN có khả năng
bám với protein liên kết ADN, vùng này (gọi là vùng điều hồ) điều khiển
q trình nhân đơi và phiên mã có vai trị cực kỳ quan trọng. Cho tới nay, các
nhà khoa học mới chỉ có thể xác định một phần nhỏ vùng điều hoà trên
genome. Phần genome còn lại mà chúng ta chƣa biết đƣợc chức năng gọi
là vùng ADN bí ẩn (junk ADN).
Trình tự của ADN cũng xác định khả năng và vị trí mà ADN có thể bị
phân huỷ bởi các enzyme giới hạn, một công cụ quan trọng của ngành kỹ
thuật di truyền. Bản đồ các khả năng và vị trí cắt trên ADN genome có thể sử
dụng nhƣ là dấu vân tay của mỗi cá thể nhất định và đƣợc ứng dụng trong kỹ
thuật vân tay ADN (ADN fingerprinting).
1.2.4 Nhiễm sắc thể và hệ GEN
Nhiễm sắc thể và hệ GEN (chromosome) là một cấu trúc trong tế bào
chứa hai loại thông tin là trình tự DNA và các Protein histone có nhiệm vụ kết
hợp/đóng gói và điều khiển các chức năng của trình tự DNA. Độ dài của trình
tự DNA trong một nhiễm sắc thể có thể từ vài nghìn cho đến hàng trăm triệu
nucleotide. Số lƣợng nhiễm sắc thể trong mỗi sinh vật có thể khác nhau. Ví
dụ, lồi ngƣời có 23 cặp nhiễm sắc thể với tổng độ dài lên tới 3 tỉ nucleotide.
Tập hợp tất cả các nhiễm sắc thể của một sinh vật đƣợc gọi là hệ gien
của sinh vật. Hệ gien sẽ mang tồn bộ thơng tin di truyền quyết định đến chức
năng và đặc điểm của sinh vật. Một hệ gien có thể chứa nhiều gien khác nhau.

15

Ví dụ hệ gien ngƣời chứa khoảng 25 nghìn GEN khác nhau. Hai hệ
gien của hai cá thể của cùng một lồi (ví dụ của hai ngƣời khác nhau) thƣờng
rất giống nhau. Sự khác nhau giữa hệ gien của hai cá thể sẽ tạo ra sự khác
nhau giữa hai cá thể đó.
1.3 Cơ sở dữ liệu GEN
Dữ liệu sinh học ngày càng tăng theo cấp số mũ do sự phát triển của
các kỹ thuật giải trình tự. Nhƣ vậy, vấn đề đặt ra là cần phải có biện pháp lƣu
trữ, quản lý, sử dụng và chia sẻ nguồn dữ liệu này. Do đó mục tiêu là cần phải
xây dựng những dữ liệu này thành một CSDL hồn chỉnh để có thể thực hiện
đƣợc mục đích trên. Hơn thế nữa, với việc hệ thống hóa tồn bộ dữ liệu trên,
chúng ta dễ dàng thực hiện việc chia sẻ những thông tin ấy qua mạng hay kết
nối thêm vào những tập dữ liệu phân tán ở nơi khác. Trên thế giới, một số cơ
sở dữ liệu lớn, trực tuyến đã đƣợc xây dựng để cung cấp thông tin cho các nhà
nghiên cứu sinh học. Các thông tin này đƣợc sắp xếp và lƣu trữ bởi một hệ
thống các máy chủ rất mạnh.
Việc giải trình tự và thu thập dữ liệu sinh học phân tử đƣợc tiến hành
tại nhiều trung tâm công nghệ sinh học khác nhau ở nhiều quốc gia trên thế
giới. Mỗi trung tâm công nghệ sinh học sẽ quan tâm và giải trình tự một số
lồi sinh vật. Tuy nhiên hầu nhƣ các dữ liệu thu đƣợc đều đƣợc lƣu giữ và
chia sẻ tại các trung tâm thông tin về CNSH lớn trên thế giới nhƣ là:
- Trung tâm thông tin công nghệ sinh học quốc gia Hoa Kỳ NCBI
(National Center

Biotechnology Information) tại địa chỉ website

- Trung tâm thông tin công nghệ sinh học châu Âu EBI (European
Biotechnology Information) tại địa chỉ website

Phương pháp đánh chỉ số cho csdl gen để tăng tốc độ tìm kiếm

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về