Tải bản đầy đủ (.pdf) (73 trang)

Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.14 MB, 73 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

HÀ THỊ THANH HỒNG

PHƯƠNG PHÁP ĐÁNH CHỈ SỐ
CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái nguyên, 2015


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Hà Thị Thanh Hồng

PHƯƠNG PHÁP ĐÁNH CHỈ SỐ
CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM

Chuyên ngành: Khoa học máy tính
Mã số: 60. 48. 01. 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Hoàng Đỗ Thanh Tùng

Thái nguyên, 2015



i

LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của
cá nhân, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Hoàng Đỗ
Thanh Tùng.
Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn
này trung thực và chưa từng được công bố dưới bất cứ hình thức nào.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên

Hà Thị Thanh Hồng


ii

LỜI CẢM ƠN
Đầu tiên tôi xin gửi lời cảm ơn sâu sắc nhất tới TS.Hoàng Đỗ Thanh
Tùng. Thầy đã hướng dẫn khoa học, đã tận tình chỉ bảo, giúp đỡ tôi thực hiện
luận văn.
Tôi xin cảm ơn các thầy cô Trường Đại học Công nghệ Thông tin và
Truyền thông - Đại học Thái Nguyên đã giảng dạy và truyền kiến thức cho
tôi.
Tôi xin chân thành cảm ơn Ban giám hiệu trường Cao đẳng Công
nghiệp Thực Phẩm và các đồng nghiệp trong khoa công nghệ thông tin đã tạo
mọi điều kiện giúp đỡ tôi hoàn thành nhiệm vụ học tập.
Cuối cùng, tôi xin cảm ơn những người thân và các bạn bè chia sẻ, gúp
đỡ tôi hoàn thành luận văn này.
Mặc dù đã hết sức cố gắng hoàn thành luận văn với tất cả sự nỗ lực của

bản thân, nhưng luận văn vẫn còn những thiếu sót. Kính mong nhận được
những ý kiến đóng góp của quý Thầy, Cô và bạn bè đồng nghiệp.
Tôi xin chân thành cảm ơn!
Việt Trì, ngày 10 tháng 6 năm 2015

Hà Thị Thanh Hồng


iii

MỤC LỤC
LỜI CẢM ƠN…………………………………………………………….….i
LỜI CAM ĐOAN …………………………………………………….……..ii
MỤC LỤC ....................................................................................................iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ................................. v
DANH MỤC BẢNG BIỂU ........................................................................... vi
DANH MỤC HÌNH VẼ ............................................................................... vii
MỞ ĐẦU ................................................................................................................ 1
CHƯƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN ............. 4

1.1 Giới thiệu tin sinh học ........................................................................... 4
1.1.1 Định nghĩa ...................................................................................... 4
1.1.2 Sự phát triển tin sinh học ở Việt Nam ............................................. 5
1.2 Sinh học phân tử ................................................................................... 8
1.2.1 Axit nucleic và nucleotide............................................................... 9
1.2.2 Protein và axit amin ...................................................................... 10
1.2.3 GEN là gì? .................................................................................... 11
1.2.4 Nhiễm sắc thể và hệ GEN ............................................................. 14
1.3 Cơ sở dữ liệu GEN .............................................................................. 15
1.3.1 Cơ sở dữ liệu NCBI ...................................................................... 16

1.3.2 Cơ sở dữ liệu EMBL/EBI ............................................................. 19
1.3.3 Cơ sở dữ liệu DDBJ ...................................................................... 19
1.4 Định dạng dữ liệu sinh học.................................................................. 20
1.4.1 Định dạng dữ liệu sinh học theo chuẩn FASTA ............................ 20
1.4.2 Định dạng dữ liệu sinh học theo dạng ALN/ClustalW .................. 22
1.4.3 GENBank ..................................................................................... 22


iv

1.5 Kết luận chương 1............................................................................ 23
CHƯƠNG 2: PHƯƠNG PHÁP ĐÁNH CHỈ SỐ GEN ĐỂ TĂNG TỐC ĐỘ TÌM
KIẾM.................................................................................................................... 25

2.1. Giới thiệu ........................................................................................... 25
2.2 Cấu trúc dữ liệu hệ GEN và sự cần thiết của chỉ số ............................. 27
2.2.1 Cấu trúc dữ liệu hệ GEN ............................................................... 27
2.2.2 Sự cần thiết và lợi thế của đánh chỉ số cho tìm kiếm tương đồng
GEN ...................................................................................................... 29
2.3. Phương pháp đánh chỉ số cho CSDL GEN ......................................... 30
2.4 Phương pháp đánh chỉ số dựa trên sự biến đổi cấu trúc chỉ số ............. 31
2.5 Phương pháp đánh chỉ số dựa vào kích thước (Length based index
algorithms) ................................................................................................ 31
2.5.1 Thuật toán đánh chỉ số dựa trên kích thước cố định ...................... 32
2.5.2 Thuật toán đánh chỉ số dựa trên kích thước biến đổi ..................... 35
2.6 Thuật toán Blast .................................................................................. 40
2.6.1 Giới thiệu ...................................................................................... 40
2.6.2. Thuật toán .................................................................................... 41
2.7. Kết luận chương 2 .............................................................................. 45
CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM PHƯƠNG PHÁP ĐÁNH CHỈ SỐ

CHO CƠ SỞ DỮ LIỆU GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM ....................... 46

3.1 Bài toán ............................................................................................... 46
3.2. Xây dựng chương trình thử nghiệm................................................... 47
3.2.1. Chuẩn bị dữ liệu........................................................................... 47
3.2.2. Lựa chọn giải pháp ...................................................................... 49
Thuật toán.............................................................................................. 49
3.2.3. Thiết kế hệ thống ......................................................................... 50
3.3. Kết luận chương 3 .............................................................................. 57


v

KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................. 59
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................ 61


vi

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Từ viết tắt

Viết đầy đủ

CSDL

Cơ sở dữ liệu

GEN


Genome

DNA

Axit Deoxyribo Nucleic

ARN

Axit Ribo Nuclêic

NCBI

National Center for BioInformatic Information

dbEST

data base of Expressed Sequence Tags

MGC

Mamalian GEN Collection

EBI

European Biotechnology Information

BLAST

Basic Local Alignment Search Tool


EMBL

European Molecular Biology Laboratory

OMIM

Online Mendelian Inheritance in Man

EPO

European Patent Office

ISDC

ASD

International Sequence Database Collaboration
Minimum Information About a Microarray
Experiment
Alternative Splicing Database

ATD

Alternate Transcript Diversity

IPD

Immuno Polymorphism Database IPD
Center for Information Biology


MIAME

CIB – DDBJ

and DNA Data Bank of Japan


vii

DANH MỤC BẢNG BIỂU
Bảng 1.1. Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia.. 7
Bảng 1.2. Kết quả bảo tồn, lưu giữ nguồn GEN sinh vật ............................ 8
Bảng 1.3. Tên đầy đủ, tên viết tắt của năm loại nucleotide. ....................... 9
Bảng 2.1. Minh họa tư tưởng chính của thuật toán BLAST ..................... 41


viii

DANH MỤC HÌNH VẼ
Hình 1.1. Cấu trúc xoắn kép của một trình tự DNA .................................. 10
Hình 1.2. Minh họa cấu trúc của một axít amin ........................................ 11
Hình 1.3. Minh họa một đoạn GEN trong cấu trúc DNA .......................... 12
Hình 1.4. Quá trình tổng hợp Protein từ đoạn DNA.................................. 13
Hình 1.5. Định dạng chuẩn FASTA dùng để lưu giữ thông tin trình tự DNA
................................................................................................................. 21
Hình 1.6. Định dạng FASTA lưu giữ nhiều trình tự DNA (Protein) ......... 23
Hình 2.1. Cơ chế ánh xạ trình tự............................................................... 28
Hình 2.2. Sơ đồ thuật toán BLAST........................................................... 44
Hình 3.1. Kết quả tìm kiếm hệ GEN người trên NCBI ............................. 47
Hình 3.2. Cơ sở dữ liệu của NCBI ............................................................ 48

Hình 3.3. Cơ sở dữ liệu mô phỏng ........................................................... 49
Hình 3.4. Giao diện chính......................................................................... 52
Hình 3.5. Thông báo lỗi từ hệ thống BLAST khi không tìm thầy dữ liệu về
trình tự truy vấn. ....................................................................................... 53
Hình 3.6. Giao diện nhập dữ liệu ............................................................. 54
Hình 3.7. Kết quả chạy thuật toán BLAST ............................................... 55


1

MỞ ĐẦU
I. LÝ DO CHỌN ĐỀ TÀI
Trong vài thập niên gần đây, cùng với sự thay đổi và phát triển không
ngừng của ngành công nghệ thông tin với các hệ thống thông tin phục vụ
trong các lĩnh vực kinh tế, xã hội, y học, giáo dục …, nhu cầu thu thập, lưu
trữ và xử lý thông tin càng ngày càng lớn. Bên cạnh đó việc tin học hoá một
cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều
lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ
khổng lồ.
Như ta đã biết, cơ sở dữ liệu GEN bao gồm một tập hợp các chuỗi lớn
GEN có trình tự và độ dài khác nhau được bổ sung liên tục. Cơ sở dữ liệu
khổng lồ này có thể được lưu trữ trên bộ nhớ của máy tính. Để tìm sự khác
biệt giữa một GEN này với một GEN khác trong chuỗi GEN với cấu trúc
hoàn chỉnh trong bộ nhớ của máy tính đòi hỏi số lượng lớn các thao tác xử lý
vào ra (truy cập) ổ đĩa của máy tính. Nhưng với số lượng các chuỗi GEN như
trên, việc xử lý thông thường trên máy tính là khó thực hiện do độ phức tạp cả
không gian lẫn thời gian truy cập. Có thể trả lời câu hỏi trên bằng cách tìm ra
một phương pháp tìm kiếm dữ liệu có hiệu quả trình tự các GEN. [2]
Thuật toán tìm kiếm dựa trên chỉ số là một phần quan trọng của tìm
kiếm GEN. Làm thế nào để xây dựng chỉ số để tính điểm tương đồng giữa hai

chuỗi GEN? Một số phương pháp xây dựng chỉ số cho tìm kiếm tương đồng
GEN như: phương pháp xây dựng dựa trên kích thước, phương pháp xây
dựng dựa vào biến đổi. Trong luận văn này tập trung nghiên cứu các phương
pháp xây dựng chỉ số dựa trên kích thước đặc biệt là thuật toán Blast. Các
phương pháp được đề cập trong luận văn tìm thấy rất nhanh sự giống nhau


2

giữa hai chuỗi trong một cơ sở dữ liệu chuỗi GEN. Vì vậy tôi đã chọn đề tài
“Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm”
làm đề tài cho luận văn tốt nghiệp của mình.
II. MỤC TIÊU, ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU
Trong khuôn khổ của luận văn tôi sẽ thực hiện và giải quyết những vấn
đề sau:
- Nghiên cứu tin sinh học, cấu trúc dữ liệu GEN.
- Nghiên cứu phương pháp đánh chỉ số và một số thuật toán xây dựng
chỉ số.
- Đánh giá và thử nghiệm phương pháp Blast trên cơ sở dữ liệu GEN.
III. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
Trong luận văn khảo sát các phương pháp đánh chỉ số đã được nghiên
cứu cho cơ sở dữ liệu GEN đặc biệt là phương pháp Blast để tìm các cặp đoạn
có độ giống nhau giữa một đoạn GEN đầu vào với đoạn GEN có trong cơ sở
dữ liệu để từ đó tăng tốc độ tìm kiếm [5]. Ngoài ra còn có một số ứng dụng cơ
bản và quan trọng trong tin sinh học:
- Quản lý dữ liệu: xây dựng hệ thống quản lý và khai thác một cách có
hiệu quả lượng dữ liệu sinh học khổng lồ. Dữ liệu sinh học bao gồm nhiều
loại khác nhau, trong đó chủ yếu là các trình tự nucleotide, và các trình tự axit
amin.
- Phân tích mối quan hệ giữa các trình tự: Phát triển các mô hình các

phương pháp và các công cụ tính toán để phân tích mối quan hệ giữa các trình
tự sinh học là lớp bài toán cốt lõi trong tin sinh học.


3

- Dự đoán cấu trúc bậc cao của các trình tự: Ngày nay, các máy giải
trình tự thế hệ mới có thể giải trình tự hệ GEN người trong vòng một ngày với
chi phí khoảng 50 nghìn Đô la Mỹ. Tuy nhiên, việc xác định được cấu trúc
bậc cao của các trình tự (phổ biến là các trình tự Protein) vẫn là một bài toán
khó cả về mặt thời gian và chi phí. Các nghiên cứu tin sinh học giúp phát triển
các mô hình, phương pháp và công cụ tính toán để dự đoán cấu trúc bậc cao
của các trình tự dựa vào phân tích nội dung và mối quan hệ của chúng với
trình tự khác. Các phương pháp dự đoán sẽ giảm thiểu một lượng lớn thời
gian và chi phí cho việc xác định cấu trúc bậc cao của các trình tự.
IV. PHƯƠNG PHÁP NGHIÊN CỨU
- Nghiên cứu các tài liệu liên quan đến tin sinh học, cơ sở dữ liệu GEN,
phương pháp đánh chỉ số
- Tìm kiếm, thu thập và chia nhóm dữ liệu.
- Phương pháp thực nghiệm và đối chứng qua chương trình thử nghiệm.


4

CHƯƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN
1.1 Giới thiệu tin sinh học
1.1.1 Định nghĩa
Tin sinh học (BioInformatics) là một lĩnh vực khoa học sử dụng các
công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy
tính, sinh học, hóa học, vật lý… và toán sinh học. Tin sinh học thường gắn

liền với sinh học tính toán (Computational biology) hoặc sinh học hệ thống
(System biology). Thuật ngữ tin sinh học là một phần của sinh học tính toán.
Sự kết hợp giữa các nghành khoa học nói trên có sự đan xen với nhau và
tương hỗ lẫn nhau vì vậy, thành quả nghiên cứu mang lại của ngành học này
không chỉ đóng góp cho sinh học mà còn đóng góp cho các ngành khoa học
khác [1]. Một số bài toán và ứng dụng cơ bản và quan trọng trong tin sinh
học gồm:
Quản lý dữ liệu: Một trong các bài toán quan trọng đầu tiên của tin sinh
học là xây dựng các hệ thống dữ liệu để quản lý và khai thác một cách hiệu
quả lượng dữ liệu sinh học khổng lồ. Dữ liệu sinh học bao gồm nhiều loại
khác nhau, trong đó chủ yếu là các trình tự nucleotide, và các trình tự axít
amin. Lượng dữ liệu sinh học có thể lên đến hàng triệu megabyte và được cập
nhật liên tục theo thời gian. Vì vậy, vấn đề lưu trữ và quản lý dữ liệu này là
bài toán được quan tâm đầu tiên.
- Phân tích mối quan hệ giữa các trình tự;
- Nghiên cứu tiến hóa;
- Dự đoán cấu trúc bậc cao của các trình tự;
- Kiểm soát dịch bệnh;
- Phát triển thuốc và chẩn đoán bệnh;


5

- Phát triển các giống cây trồng, vật nuôi.
1.1.2 Sự phát triển tin sinh học ở Việt Nam
Tin sinh học là một lĩnh vực mới nhưng không xa lạ. Những năm qua ở
Việt Nam cũng đã có một số nghiên cứu trong lĩnh vực phân tích GEN, xác
định trình tự DNA của một số loài quan trọng để đánh giá về mặt di truyền,
hay những biến dị hoặc từ đó xác định hệ số di truyền tìm ra các họ hàng thân
thích, hoặc để đánh giá mức độ biến đổi tính di truyền, hoặc nghiên cứu về đa

dạng sinh học, xây dựng ngân hàng GEN (GEN bank). Theo hướng đó, những
năm gần đây trên bước đường nghiên cứu về tài nguyên sinh vật và đa dạng
sinh học tại các tỉnh vùng Bắc Trung Bộ, Khoa Sinh trường Đại học Vinh đã
tiến hành nhân bản GEN (polimerase chain reaction-PCR), giải trình tự ADN
(DNA sequencing) ở một số loài vi khuẩn lam, loại vi khuẩn có giá trị lớn
trong cố định nitơ không khí, có khả năng tổng hợp hữu cơ mạnh làm giàu
dinh dưỡng cho đất, và có các hợp chất có hoạt tính sinh học cao có tác dụng
đến sinh trưởng, phát triển, tăng năng suất cây trồng, hoặc bằng nhân bản
GEN và kỹ thuật phân tích tính đa hình của DNA được khuếch đại ngẫu nhiên
(random amplified polimorphism DNA, RAPD) đối với các cây ăn quả có giá
trị như cam Xã Đoài, bưởi Phúc Trạch để từ đó đánh giá mức độ biến đổi di
truyền của chúng liên quan đến chất lượng quả, hoặc phân tích trình tự axit
amin trên một số giống rắn thường sử dụng làm thuốc để từ cấu trúc của
protein tìm hiểu về chức năng và vai trò sinh học của nó, hay phân tích trình
tự DNA của một số loài cá mới phát hiện được tại Nghệ An... Hiện nay kỹ
thuật RAPD được xem là kỹ thuật phân loại phân tử và đang được sử dụng để
xác định tính đa dạng sinh học và quan hệ họ hàng của các động vật, thực vật
khác nhau trong loài. Chẳng hạn gần đây Henry Nguyễn (đại học Texas-Mỹ)
nhờ sử dụng 43 cặp mồi (primer) ngẫu nhiên, đã phát hiện được sự khác biệt


6

di truyền của 13 giống lúa có nguồn gốc khác nhau ở châu Á, châu Âu và
trung Á. Cho nên, việc áp dụng tin sinh học trong nghiên cứu khả dĩ góp phần
tích cực vào việc điều tra tài nguyên sinh vật, tìm kiếm những GEN quý hiếm,
nghiên cứu đa dạng sinh học ở mức độ phân tử và chống xói mòn di truyền...
mà lâu nay chưa có điều kiện để khám phá. [1]
Trong một vài năm gần đây các viện nghiên cứu, các trường đại học
mới xây dựng chương trình và đào tạo những khóa học đầu tiên trong lĩnh vực

này. Hiện nay, đội ngũ cán bộ nghiên cứu về tin sinh học tập trung chủ yếu ở
các viện nghiên cứu và các trường đại học có các chuyên ngành đào tạo về
công nghệ sinh học, nông lâm học… chủ yếu được đào tạo từ nước ngoài. Các
hướng nghiên cứu chính của các nhóm hiện nay là:
- Các nghiên cứu trong lĩnh vực phân tích GEN, xác định trình tự DNA
của một số loài để đánh giá về mặt di truyền (xác định họ hàng thân thích,
đánh giá mức độ biến đổi tính di truyền)
- Khai thác dữ liệu sinh học, xây dựng ngân hàng GEN
- Các nghiên cứu về đa dạng sinh học, phân tích mối quan hệ tiến hóa
trình tự, ứng dụng trong di truyền, chọn giống (nhân bản phát triển và lưu trữ
những gien quý hiếm, giải trình tự GEN ở một số loài, làm tăng năng suất cây
trồng…)
- Phát triển phần mềm phân tích dữ liệu trình tự sinh học
- Xây dựng cơ sở dữ liệu thông tin protein.
Ngoài các viện nghiên cứu, các trường đại học, tại nước ta, nguồn GEN
hiện đang được lưu trữ, bảo quản tại một số tổ chức thuộc các bộ chủ quản
như Bộ Nông nghiệp và Phát triển Nông thôn, Bộ Y tế, Bộ Công thương
[4]…. Dưới đây là một số kết quả nghiên cứu và nguồn GEN hiện có ở nước
ta.


7

Bảng 1.1. Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia
TT

Bộ/Ngành

Nhiệm vụ
- Bảo tồn nguồn GEN thực vật phục vụ cho mục tiêu

lương thực và NN

Bộ Nông
1

- Bảo tồn nguồn GEN vật nuôi

nghiệp và
Phát triển
Nông thôn

- Bảo tồn nguồn GEN VSV đất, phân, bảo vệ thực vật và
VSV thú y
- Bảo tồn nguồn GEN cây rừng, cây chống chịu, cây cao
su, GEN ong, GEN và giống thủy sản
- Bảo tồn nguồn GEN và giống cây thuốc

2

Bộ Y tế
- Bảo tồn nguồn GEN VSV y học

3

Bộ Công

- Bảo tồn nguồn GEN VSV công nghiệp thực phẩm

Thương


- Bảo tồn bộ sưu tập nguồn GEN cây công nghiệp
- Bảo tồn một số nguồn GEN cây trồng nông nghiệp

4

Bộ GD& ĐT
- Bảo tồn bộ sưu tập nguồn GEN VSV chung

5

Bộ Quốc

- Bảo tồn lưu giữ nguồn GEN dược liệu, con thuốc phục

phòng

vụ quốc phòng


8

Bảng 1.2. Kết quả bảo tồn, lưu giữ nguồn GEN sinh vật
TT Nguồn GEN

Bảo tồn, lưu giữ tại Bảo tồn, lưu giữ chuyển
chỗ

1

Cây


trồng

nông 30 nhiệm vụ

chỗ
28.028 nguồn GEN

nghiệp
2

Cây lâm nghiệp

164 vườn

Xấp xỉ 2000 giống

3

Cây thuốc

Xấp xỉ 100 loài

2998 loài

4

Vật nuôi

Xấp xỉ 30 giống


18 giống

5

Thủy sản

3 khu bảo tồn

2999

6

Vi sinh vật

21270 chủng

1.2 Sinh học phân tử
Sinh học phân tử (molecular biology) là một nhánh của sinh học
(biology), tập trung nghiên cứu các sinh vật ở mức độ phân tử. Cụ thể là, sinh
học phân tử tập trung giải trình tự (sequencing) và phân tích các trình tự
nucleotide (trình tự DNA), các trình tự axít amin (trình tự Protein), cũng như
các loại dữ liệu sinh học phân tử khác để hiểu được cấu trúc, chức năng, đặc
điểm, quá trình tiến hóa, cũng như mối quan hệ và tương tác giữa các loài
sinh vật. Sự phát triển mạnh mẽ của công nghệ giải trình tự DNA, cũng như
các phương pháp tính toán hiện đại đã giúp sinh học phân tử phát triển mạnh
mẽ cả về cơ sở lý thuyết cũng như các ứng dụng thực tế.[1]


9


1.2.1 Axit nucleic và nucleotide
Axít nuclêic (nucleic acid) là một đại phân tử sinh học (large biological
molecule) mang thông tin di truyền mã hóa các chức năng, và đặc điểm của
mọi sinh vật sống. Axít nuclêic gồm hai loại: DNA (Axít Deoxyribo Nuclêic)
và ARN (Axít Ribo Nuclêic).
Thành phần cơ bản cấu tạo một trình tự axít nuclêic là các phân tử hóa
học nuclêotít (nucleotide). Trình tự DNA chứa bốn loại nucleotide khác
nhau là: Adenine, Cytosine, Guanine, và Thymine. Trình tự ARN có thành
phần tương tự như trình tự DNA, ngoại trừ nucleotide Thymine được thay
thế bởi nucleotide Uracil. Tức là, ARN chứa 4 loại nucleotide: Adenine,
Cytosine, Guanine, và Uracil. Tên đầy đủ, tên viết tắt của năm loại nucleotide
được mô tả ở Bảng 1.1.
Bảng 1.3. Tên đầy đủ, tên viết tắt của năm loại nucleotide.
Tên đầy đủ

Tên viết tắt

Adenine

A

Cytosine

C

Guanine

G


Thymine

T

Uracil

U


10

Hình 1.1. Cấu trúc xoắn kép của một trình tự DNA
Các nucleotide trên trình tự DNA liên kết với nhau để tạo thành một
trình tự có cấu trúc xoắn kép như Hình 1 Cấu trúc xoắn kép của trình tự DNA
gồm 2 sợi liên kết với nhau: sợi thứ nhất có chiều từ 5’ đến 3’; sợi thứ hai có
chiều ngược lại từ 3’ đến 5’. Các nucleotide ở sợi thứ nhất sẽ liên kết với các
nucleotide ở sợi thứ hai (và ngược lại) theo nguyên tắc:
- Nucleotide A luôn liên kết với nucleotide T
- Nucleotide G luôn liên kết với nucleotide C
Do vậy, thông tin về một trình tự DNA được biểu diễn bằng một trình
tự các nucleotide nằm trên một sợi (các nucleotide nằm trên sợi còn lại có thể
suy luận dựa theo quy tắc trên). Để đơn giản, một trình tự DNA sẽ được biểu
diễn bởi một xâu kí tự chứa 4 loại kí tự: A, C, G, và T

(tên viết tắt của 4 loại

nucleotide).
Ví dụ: “CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGTT” là
một trình tự DNA. Với cách biểu diễn này, thông tin về các trình tự DNA có
thể được lưu giữ, tìm kiếm, và trao đổi một cách hiệu quả.

1.2.2 Protein và axit amin
Protein/ trình tự Protein (protein) là loại dữ liệu phổ biến và quan trọng
trong sinh học phân tử. Nó quyết định đến chức năng, quá trình phát triển,
cũng như các bệnh tật của các sinh vật sống. Protein được cấu tạo bởi một


11

trình tự các axít amin (amino acid), trong đó mỗi axít amin là một hợp chất
hữu cơ được cấu tạo bởi ba thành phần chính là: nhóm amin (N 2), nhóm
cacboxyl (OO) và nhóm R quyết định tính chất của axít amin (xem Hình 2).

Hình 1.2. Minh họa cấu trúc của một axít amin
1.2.3 GEN là gì?
Trình tự DNA mang thông tin di truyền xác định các chức năng và đặc
điểm của sinh vật, trong khi Protein quyết định đến các chức năng, và quá
trình phát triển của sinh vật. Vậy mối liên hệ giữa trình tự DNA và trình tự
Protein như thế nào? Thông tin chứa trên trình tự DNA chính là các hướng
dẫn để tạo ra các Protein. Mỗi Protein được tạo ra từ một đoạn DNA nằm trên
trình tự DNA thông qua quá trình tổng hợp Protein (Hình 3). Đoạn DNA nằm
trên trình tự DNA mang thông tin hướng dẫn tổng hợp Protein được gọi là
đoạn gien.
Định nghĩa: GEN là một đoạn DNA mang một chức năng nhất định
trong quá trình truyền thông tin di truyền. [3]
GEN, một đoạn của DNA, hoạt động điều khiển hình thành những phân
tử protein. Ở người, chiều dài GEN có thể thay đổi từ vài trăm base đến hơn 2
triệu base. Dự án giải mã hệ GEN người (The Human GENe Project) ước
đoán con người có khoảng 20,000 đến 25,000 GEN.



12

Mỗi cá thể có hai bản sao của một GEN, một bản từ bố và bản còn lại
từ mẹ. Hầu hết các GEN là như nhau ở mọi người, nhưng có một số ít GEN
(ít hơn 1% tổng số) hơi khác nhau giữa mỗi người. Alen là các dạng của cùng
một GEN với những khác biệt nhỏ trong trình tự cơ sở DNA. Những khác biệt
nhỏ này tạo nên nét đặc trưng của mỗi người.
Trên nhiễm sắc thể, một GEN thường có một vị trí xác định và liên kết
với các vùng điều hòa phiên mã và các vùng chức năng khác để bảo đảm và
điều khiển hoạt động của GEN. Các đoạn GEN tạo nên chuỗi DNA. Thông
thường, người ta nói đến GEN hàm ý là GEN cấu trúc. GEN cấu trúc là đoạn
DNA mang thông tin cần thiết mã hóa một chuỗi polypeptide. Trong đó, các
polypeptide là thành phần cấu trúc tạo nên các protein. Đây là nhóm phân tử
đóng vai trò quan trọng (nhưng không phải là hoàn toàn) quy định kiểu
hình của sinh vật. Chú ý rằng, không phải tất cả các đoạn nằm trên trình tự
DNA đều là đoạn GEN.

Hình 1.3. Minh họa một đoạn GEN trong cấu trúc DNA
Quá trình tổng hợp Protein từ DNA được chia thành hai giai đoạn:
Phiên mã (transcription) và dịch mã (translation) như minh họa trong hình 4.


13

Hình 1.4. Quá trình tổng hợp Protein từ đoạn DNA
- Giai đoạn phiên mã: Đoạn gien nằm trên trình tự DNA mang thông tin
hướng dẫn tổng hợp Protein được biến đổi thành đoạn ARN. Đoạn ARN có
nội dung giống hệt đoạn gien, ngoại trừ nucleotide Thymine (T) bị biến đổi
thành nucleotide Uracil (U). Ví dụ đoạn gien:
“CCTGAGCCAACTATTGATGAA” qua quá trình phiên mã sẽ bị biến

đổi thành đoạn ARN “CCUGAGCCAACUAUUGAUGAA”.
- Quá trình dịch mã: Đoạn ARN sẽ được dịch mã thành đoạn axít amin
theo quy tắc mỗi bộ ba nucleotide liên tiếp (gọi là một codon) trên đoạn ARN
sẽ được mã hóa thành một axít amin.
Tại các gene trên 1 chuỗi (mạch) phân tử ADN, trật tự sắp xếp các
nucleotide tạo thành trình tự của gene. Dựa trên thông tin từ trình tự này,
các RNA thông tinđược tạo ra thông qua quá trình phiên mã. Và rồi từ các
ARN thông tin tế bào sẽ tổng hợp các protein qua quá trình dịch mã tại các
thời điểm nhất định của cuộc đời. Mỗi quan hệ giữa trình tự gene với trình tự
của các amino acid trên protein được gọi là mã di truyền (một dạng mật
mã chung cho mọi sinh vật). Thực chất, ba nucleotide liên tiếp (gọi là một bộ
ba hay một codon) trên gene sẽ thông qua những bộ ba tương ứng ở RNA
thông tin và RNA vận chuyển mà quy định cho một loại amino acid nhất định
(có khoảng 20 loại amino acid khác nhau). Một loại amino acid có thể được


14

quy định bởi một số codon, tuy nhiên mỗi codon chỉ mã hoá cho một loại
amino acid. Có 3 codon không mã hoá cho amino acid mà là tín hiệu kết thúc
vùng mã hoá (gọi là mã kết thúc.
Ở nhiều loài sinh vật, chỉ có một phần nhỏ trình tự của bộ gene
(genome) là dùng để mã hoá protein (gen cấu trúc). Chức năng của phần còn
lại là vẫn còn đang được giả định. Thực chất, một số vùng ADN có khả năng
bám với protein liên kết ADN, vùng này (gọi là vùng điều hoà) điều khiển
quá trình nhân đôi và phiên mã có vai trò cực kỳ quan trọng. Cho tới nay, các
nhà khoa học mới chỉ có thể xác định một phần nhỏ vùng điều hoà trên
genome. Phần genome còn lại mà chúng ta chưa biết được chức năng gọi
là vùng ADN bí ẩn (junk ADN).
Trình tự của ADN cũng xác định khả năng và vị trí mà ADN có thể bị

phân huỷ bởi các enzyme giới hạn, một công cụ quan trọng của ngành kỹ
thuật di truyền. Bản đồ các khả năng và vị trí cắt trên ADN genome có thể sử
dụng như là dấu vân tay của mỗi cá thể nhất định và được ứng dụng trong kỹ
thuật vân tay ADN (ADN fingerprinting).
1.2.4 Nhiễm sắc thể và hệ GEN
Nhiễm sắc thể và hệ GEN (chromosome) là một cấu trúc trong tế bào
chứa hai loại thông tin là trình tự DNA và các Protein histone có nhiệm vụ kết
hợp/đóng gói và điều khiển các chức năng của trình tự DNA. Độ dài của trình
tự DNA trong một nhiễm sắc thể có thể từ vài nghìn cho đến hàng trăm triệu
nucleotide. Số lượng nhiễm sắc thể trong mỗi sinh vật có thể khác nhau. Ví
dụ, loài người có 23 cặp nhiễm sắc thể với tổng độ dài lên tới 3 tỉ nucleotide.
Tập hợp tất cả các nhiễm sắc thể của một sinh vật được gọi là hệ gien
của sinh vật. Hệ gien sẽ mang toàn bộ thông tin di truyền quyết định đến chức
năng và đặc điểm của sinh vật. Một hệ gien có thể chứa nhiều gien khác nhau.


15

Ví dụ hệ gien người chứa khoảng 25 nghìn GEN khác nhau. Hai hệ
gien của hai cá thể của cùng một loài (ví dụ của hai người khác nhau) thường
rất giống nhau. Sự khác nhau giữa hệ gien của hai cá thể sẽ tạo ra sự khác
nhau giữa hai cá thể đó.
1.3 Cơ sở dữ liệu GEN
Dữ liệu sinh học ngày càng tăng theo cấp số mũ do sự phát triển của
các kỹ thuật giải trình tự. Như vậy, vấn đề đặt ra là cần phải có biện pháp lưu
trữ, quản lý, sử dụng và chia sẻ nguồn dữ liệu này. Do đó mục tiêu là cần phải
xây dựng những dữ liệu này thành một CSDL hoàn chỉnh để có thể thực hiện
được mục đích trên. Hơn thế nữa, với việc hệ thống hóa toàn bộ dữ liệu trên,
chúng ta dễ dàng thực hiện việc chia sẻ những thông tin ấy qua mạng hay kết
nối thêm vào những tập dữ liệu phân tán ở nơi khác. Trên thế giới, một số cơ

sở dữ liệu lớn, trực tuyến đã được xây dựng để cung cấp thông tin cho các nhà
nghiên cứu sinh học. Các thông tin này được sắp xếp và lưu trữ bởi một hệ
thống các máy chủ rất mạnh.
Việc giải trình tự và thu thập dữ liệu sinh học phân tử được tiến hành
tại nhiều trung tâm công nghệ sinh học khác nhau ở nhiều quốc gia trên thế
giới. Mỗi trung tâm công nghệ sinh học sẽ quan tâm và giải trình tự một số
loài sinh vật. Tuy nhiên hầu như các dữ liệu thu được đều được lưu giữ và
chia sẻ tại các trung tâm thông tin về CNSH lớn trên thế giới như là:
- Trung tâm thông tin công nghệ sinh học quốc gia Hoa Kỳ NCBI
(National Center

Biotechnology Information) tại địa chỉ website


- Trung tâm thông tin công nghệ sinh học châu Âu EBI (European
Biotechnology Information) tại địa chỉ website


×