Tải bản đầy đủ (.pdf) (9 trang)

Luận văn : XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT part 2 potx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (343.49 KB, 9 trang )


x
DANH MỤC HÌNH
Trang
Hình 1.1 Định nghĩa Bioinformatics theo NCBI 1
Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng 2
Hình 2.1 Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS 8
Hình 2.2 Tƣơng quan giữa NCBI, NLM 11
Hình 2.3 Một số cơ sở dữ liệu trong NCBI 14
Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB - DDB) và công cụ tìm kiếm
tƣơng ứng…………………………………………………………………………… 16
Hình 2.5. Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB 16
Hình 2.6 Tổ chức genome của virus CaMV 19
Hình 2.7 Một số loài trong họ Caulimoviridae 20
Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus dsDNA 21
Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus 22
Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus
(+)ssRNA 22
Hình 2.11 Vị trí gene RT-RNasseH nằm trong cấu trúc genome Cauliflower mosaic
virus 23
Hình 2.12. Protein reverse transcriptase 24
Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus 24
Hình 2.14 Protein HSP-70 24
Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự 28
Hình 3.2 Sơ đồ xác định gene trong genome virus 29
Hình 3.3 Định dạng FASTA để thực hiện sắp gióng cột hai trình tự 30
Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT-
RNaseH trong ORF hay genome của virus 31
Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH 32
Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus 37
Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và


RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae …………………………38
Hình 4.1 File chứa accession number và dòng định nghĩa của giống Crinivirus 39

xi
Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên
NCBI……… 40
Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV……………… 41
Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH 46
Hình 4.5 Trang HOME PAGE 47
Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER 48
Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUBER 48
Hình 4.8 Trang tìm kiếm trình tự tƣơng đồng bằng Alignment 50
Hình 4.9 Trang kết quả khi thực hiện Alignment giữa các trình tự………………… 51
Hình 4.10 Trang tìm kiếm trình tự tƣơng đồng bằng BLAST 51
Hình 4.11 Trang cây phân loài của hai họ Caulimoviridae và Closteroviridae 52
Hình 4.12 Trang web thể hiện nội dung các đặc tính của họ…………………………53


















xii
DANH SÁCH CÁC CHỮ VIẾT TẮT

CSDL Cơ sở dữ liệu.
RT-RNaseH Reverse transcriptase-RnaseH
hsp-70 Heat sock protein 70.
Perl Practical Extraction and Report Language
CGI Common Gateway Interface
DBI Database Interface
DBD Datadbase Driver
WWW World Wide Web
HTML Hypertext Markup Language
HTTP Hypertext Transfer Protocol
NCBI Center for Bioinformatic Information
BLAST Basic Local Alignment Search Tool
EBI European Bioinformatics Insiture
EMBL European Molecular Biology Laboratory
SIB Swiss Insitute of Bioiformatics
DDBJ DNA Data Bank Japan
PDBj Protein Database Japan
CaMV Caulimoflower mosaic virus













1

PHẦN 1
LỜI MỞ ĐẦU
Với những bƣớc tiến vƣợt bậc trong việc khám phá và ứng dụng những kỹ thuật
sinh học phân tử vào trong giải trình tự genome của sinh vật, ngày càng nhiều trình tự
đƣợc giải. Đòi hỏi có sự lƣu trữ, tổ chức, quản lý và khai thác tốt các thông tin về trình
tự thu đƣợc này ngày càng hiệu quả và nhanh chóng hơn. Vì vậy, cần có sự hỗ trợ đắc
lực của các nghành khoa học khác.Với khả năng xử lý, lƣu trữ, liên kết và truy xuất
một lƣợng thông tin lớn một cách nhanh chóng của máy tính đã giúp nó trở thành một
công cụ hữu ích cho việc ứng dụng vào trong lĩnh vực sinh học. Sự kết hợp giữa ngành
tin học và sinh học dẫn đến cho ra đời một công cụ mới, phục vụ cho việc nghiên cứu
trong sinh học đó là Tin - sinh học. Mặc dù Tin - sinh học là một lĩnh vực mới ra đời
nhƣng triển vọng của nó phục vụ cho nghiên cứu sinh học rất lớn.
KHÁI NIỆM VỀ TIN - SINH HỌC
Sự kết hợp, liên thông giữa các ngành khoa học giúp cho khoa học có những
bƣớc phát triển mới.Trong thời đại khoa học hiện nay, sự kết hợp giữa các ngành lại
với nhau là hết sức cần thiết. Không một ngành khoa học nào có thể phát triển mà
không cần sự hổ trợ của ngành khác.Với những bƣớc đột phá mạnh mẽ trong lĩnh vực
công nghệ thông tin và một số thành tựu mới trong nghiên cứu sinh học (giải mã toàn
bộ genome của ngƣời và một số loài khác) thì sự kết hợp này cho ra đời một lĩnh vực
nghiên cứu mới – Bioinformatics hay Tin - sinh học là một ví dụ điển hình cho sự liên
kết này.
Nhƣ vậy, bioinformatics là gì? Có nhiều định nghĩa khác nhau về thuật ngữ

này. Có thể định nghĩa một cách ngắn gọn thuật ngữ này nhƣ sau “Bioinformatics là sự
kết hợp giữa công nghệ sinh học và công nghệ thông tin với mục tiêu giúp hiểu biết và
khám phá những nguyên lý trong sinh học” (theo trang web NCBI). [7, 22]








Công nghệ sinh học
Bioinformatics:
giúp hiểu biết và
khám phá những
nguyên lý trong
sinh học
Hình 1.1 Định nghĩa Bioinformatics theo NCBI.
Công nghệ tin học
2

TOÁN HỌC
KHOA HỌC MÁY TÍNH
THỐNG KÊ
SINH HỌC
HÓA HỌC
VẬT LÝ

Bioinformatics


Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng
Thật vậy, sự kết hợp này đã giải quyết hàng loạt những nghiên cứu trong sinh
học mà đòi hỏi thời gian khá dài hay khó có thể thực hiện bằng tay và mắt thƣờng
đƣợc.
Nhƣng định nghĩa trên chƣa hoàn toàn đầy đủ, vì bioinformatics không chỉ đơn
thuần là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin, mà là sự kết hợp
của nhiều ngành khoa học khác nhau nhƣ toán học, thống kê, khoa học máy tính, sinh
học, hóa học, vật lý,… Ngoài ra, sự kết hợp này có sự đan xen tƣơng hỗ với nhau. Vì
thế, thành quả nghiên cứu mang lại của ngành học này không chỉ đóng góp cho sinh
học mà còn cho các ngành khác. Một ví dụ rõ ràng nhất là trong qui trình nghiên cứu
về hệ thần kinh của động vật, con ngƣời đã phát hiện ra neuron thần kinh và cách xung
thần kinh đƣợc dẫn truyền các tính hiệu qua các tế bào thần kinh. Kết hợp với những
tính toán vật lý, trí tuệ nhân tạo, những lý thuyết sinh học trên đƣợc áp dụng vào tin
học, để hình thành một mạng tính toán (Neuron network). Một ví dụ khác là thuật giải
di truyền (GA - Genetic Algorithm) giúp giải những bài toán gần đúng có tính chính
xác cao, dựa trên lý thuyết tiến hóa trong sinh học của Darwin. Nhƣ vậy, sơ đồ trên
cần đƣợc bổ sung nhƣ sau:















3

Hầu hết, các nhà tin – sinh học trên thế giới hiện nay đang phát triển
bioinformatics theo hƣớng nhƣ định nghĩa ban đầu (theo trang NCBI) do công nghệ
sinh học là ngành khoa học mũi nhọn của thế kỷ 21.
Sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và
RT-RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL
sinh học lớn nhƣ NCBI, EMBL, DDBj,… Vì các CSDL này quá lớn và chứa rất nhiều
thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện
việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt
Vì vậy, khóa luận đƣợc thực hiện với các mục tiêu lần lƣợt nhƣ sau. Một là xây
dựng cơ sở dữ liệu (CSDL) về trình tự nucleotide và protein của 2 gene hsp-70 và
Reverse transcriptase-RNaseH (RT-RNaseH). Hai là dùng giao diện web để truy xuất
thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó.
Để đạt đƣợc mục tiêu này, khóa luận cần đảm bảo thực hiện nội dung nhƣ sau:
Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ
CSDL GenBank (NCBI cơ sở dữ liệu nucleotide).
Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH
(RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus.
Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ
liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này.
Dùng Perl script để chuyển tự động các dữ liệu vào CSDL.
Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang
web CSDL về hai gene hsp-70 và RT-RNaseH trên hai họ virus Closteroviridae
và Caulimoviridae.









4

PHẦN 2
TỔNG QUAN TÀI LIỆU
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU
2.1.1. Định nghĩa [3, 8]
Cơ sở dữ liệu (CSDL) là một tập hợp dữ liệu đƣợc tổ chức theo một cấu trúc
chặt chẽ nhằm phục vụ cho nhiều mục tiêu khác nhau một cách có chọn lọc. Tập hợp
dữ liệu sẽ đƣợc lƣu trữ trên các thiết bị lƣu trữ thông tin thứ cấp nhƣ băng từ, đĩa từ,…
để thỏa mãn nhu cầu khai thác thông tin đồng thời của nhiều ngƣời sử dụng hay nhiều
chƣơng trình ứng dụng với nhiều mục đích khác nhau.
Nhƣ vậy, các đặc tính của một CSDL là:
Tính nhất quán
Tính toàn vẹn
Tính tích hợp
Tính chia sẻ
Tính độc lập dữ liệu
Tính an toàn
Tính bảo mật
2.1.2. Hệ quản trị CSDL (Database Management System – DBMS)
Là một hệ thống phần mềm cho phép các nhà phân tích và thiết kế CSDL
cũng nhƣ ngƣời khai thác CSDL đƣợc thuận lợi trong quá trình định nghĩa, thao tác,
truy xuất và quản lý dữ liệu.
Hệ quản trị CSDL đầu tiên ra đời vào đầu những năm 60 dựa trên mô hình dữ
liệu phân cấp và mô hình mạng. Năm 1976 đánh dấu sự ra đời hệ quản trị CSDL đầu
tiên dựa trên mô hình quan hệ mang tên System-R. Đến những năm 90, bắt đầu xuất

hiện các hệ quản trị CSDL dựa trên mô hình hƣớng đối tƣợng,… Tuy nhiên chúng vẫn
dựa chủ yếu vào nền tảng là mô hình quan hệ. Hệ quản trị ODMG ra đời năm 1996
đƣợc coi là hệ quản trị thuần hƣớng đối tƣợng nhất.
Hiện nay, một số hệ quản trị CSDL mạnh đang đƣợc đƣa ra thị trƣờng nhƣ
Visual FoxPro, SQL-Server, Oracle,…


5


Một hệ quản trị cơ sở dữ liệu phải có khả năng giải quyết các vấn đề:
 Tính chủ quyền của dữ liệu: đó là phải bảo đảm vấn đề an toàn dữ liệu
và tính chính xác của dữ liệu.
 Tính bảo mật và quyền khai thác thông tin của ngƣời sử dụng.
 Tranh chấp dữ liệu: do có thể cùng một lúc có nhiều ngƣời cùng truy cập
vào một nguồn tài nguyên dữ liệu với các mục đích khác nhau nên hệ quản trị
CSDL phải có cơ chế ƣu tiên truy cập dữ liệu. Cơ chế ƣu tiên có thể đƣợc thực
hiện bằng cách cấp quyền ƣu tiên cho ngƣời khai thác (ngƣời đƣợc cấp quyền
hạn ƣu tiên cao hơn thì đƣợc phép truy cập dữ liệu trƣớc) hay dựa vào thời điểm
truy cập (ngƣời truy xuất trƣớc thì có quyền truy cập dữ liệu trƣớc).
 Phục hồi dữ liệu khi có sự cố.
2.1.3. Các mô hình dữ liệu [2, 3]
2.1.3.1. Định nghĩa
Mô hình dữ liệu là sự trừu tƣợng hóa thế giới thực, là sự biểu diễn dữ liệu
mức quan niệm. Mô hình dữ liệu đƣợc phân loại dựa trên các cách tiếp cận dữ liệu
khác nhau của các nhà phân tích, thiết kế CSDL. Mô hình dữ liệu hoàn toàn độc lập
giữa hệ thống máy tính và cấu trúc dữ liệu.
Hiện nay, có năm loại mô hình dữ liệu chính. Đó là:
 Mô hình dữ liệu mạng: thập niên 60-70.
 Mô hình dữ liệu phân cấp: thập niên 60-70.

 Mô hình dữ liệu quan hệ: thập niên 80.
 Mô hình dữ liệu thực thể kết hợp: thập niên 90.
 Mô hình dữ liệu hƣớng đối tƣợng: thập niên 90.
2.1.3.2. So sánh các mô hình dữ liệu [2]
Sự ra đời của mô hình dữ liệu quan hệ đã khắc phục đƣợc những khó
khăn khi thiết kế và quản lí CSDL theo mô hình mạng và mô hình phân cấp.
 Thứ nhất, mô hình mạng và mô hình phân cấp sử dụng nguyên lý chủ
nhân – thành viên, cha – con rất khó khăn cho việc thiết kế, sắp xếp và sau
khi thiết kế xong muốn sửa đổi rất phức tạp, hầu nhƣ phải làm lại từ đầu.
Mô hình quan hệ tổ chức dữ liệu dƣới dạng bảng dễ hiểu và đơn giản hơn
6

trong việc thiết kế và sửa đổi sau này. Ngoài ra, việc thiết kế mô hình quan
hệ hoàn toàn độc lập với hệ quản trị CSDL.
 Thứ hai, các ngôn ngữ để tạo và thao tác các cấu trúc trong mô hình
mạng và mô hình phân cấp rất khó sử dụng. Ví dụ khi sử dụng hệ quản trị
IDMS đòi hỏi phải thông thạo về ngôn ngữ từ điển dữ liệu tích hợp và các
trình biên dịch lƣợc đồ và lƣợc đồ con. Trong khi đó, các hệ quản trị theo
mô hình quan hệ dễ sử dụng hơn vì sử dụng ngôn ngữ truy vấn dữ liệu ở
mức độ cao nhƣ SQL,…
Do những ƣu điểm trên CSDL quan hệ ngày càng đƣợc sử dụng rộng rãi. Tuy
nhiên, trong một số trƣờng hợp, mô hình quan hệ trở nên không thích hợp, nhất là khi
sử dụng nó để thể hiện những dữ liệu có quan hệ cấu trúc nhƣ cây hệ thống sinh học.
đối với những loại dữ liệu loại này, sử dụng mô hình dữ liệu hƣớng đối tƣợng là thích
hợp nhất.
Khi một CSDL đƣợc xây dựng xong, thì việc tiếp theo là làm sao để có thể
truy xuất thông tin từ CSDL này, nghĩa là ngƣời dùng có thể nhận đƣợc các thông tin
mà họ cần hay có thể bổ sung thêm một vài thông tin qua một giao diện thân thiện.
Hơn thế nữa, ngƣời dùng còn muốn chia sẻ thông tin với các nơi khác. Để thực hiện
đƣợc điều đó, ngƣời ta thƣờng chọn giao thức CGI, hiển thị những đòi hỏi thông tin về

CSDL của ngƣời dùng thông qua dịch vụ web.

2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB
2.2.1. Perl [19]
2.2.1.1. Tóm tắt lịch sử phát triển
Perl là chữ viết tắt của “Practical Extraction and Report Language”. Larry
Wall tạo ra ngôn ngữ Perl năm 1986 nhằm quản trị và cấu hình các mạng máy tính lớn.
Ngôn ngữ này phát sinh từ ngôn ngữ lập trình C và bị ảnh hƣởng bởi ngôn ngữ khác
nhƣ BASIC, awk, sed và UNIX shell.
Năm 1987, Perl 1.0 ra đời.
Năm 1988, Perl 2.0 phát hành và đƣợc các nhà quản trị UNIX sử dụng rộng
rãi.

×