Luận văn : XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT part 6 pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (473.95 KB, 9 trang )

34

 Đối tƣợng trình tự (Sequence)
Các đối tƣợng dựa trên thực thể Sequence đƣợc liệt kê trong bảng 3.2
Mối quan hệ của các đối tƣợng này là một trình tự của đối tƣợng Sequence
chỉ có một số accession number, một thông tin chung về trình tự đó. Nhƣng một trình
tự có một hay nhiều tác giả cũng nhƣ một hay nhiều bài báo về trình tự đó.
Bảng 3.2 Các đối tƣợng phụ dựa trên đối tƣợng chính Trình tự (Sequence)

3.2.3.2. Thiết kế CSDL dạng bảng
Theo các mô tả trong mô hình đối tƣợng, ta chuyển từ mô hình đối tƣợng
sang mô hình quan hệ nhƣ sau:
 Mỗi đối tƣợng trong mô hình đối tƣợng là một quan hệ trong mô
hình quan hệ.
 Mỗi thuộc tính trong mô hình đối tƣợng là thuộc tính trên quan
hệ tƣơng ứng.
 Khóa của đối tƣợng là khóa của quan hệ tƣơng ứng.
Tên đối
tƣợng
Ý nghĩa của đối tƣợng
Thuộc tính
Ý nghĩa của thuộc tính
Gen_seq
Chứa trình tự nucleotide
Gen_name
Chứa tên trình tự nucleotide
Gen_seq
Chứa trình tự nucleotide
Length
Chứa chiều dài của gene
Pro_seq

Chứa trình tự protein
Pro_name
Chứa tên protein
Pro_seq
Chứa trình tự protein
Accession
number
Chứa số truy cập của
các trình tự trong CSDL
Acc_no
Là các số truy cập
NCBI
Các thông tin chung cho
trình tự
Definition
Định nghĩa của trình tự
Locus
Locus của trình tự
Pubday
Ngày công bố trình tự
Author
Các thông tin về tác giả
giải trình tự và những
bài báo của tác giả về
các trình tự đó
Author
Tác giả của trình tự
Paper
Bài báo của tác giả về trình
tự

35

 Tạo các quan hệ nhƣ sau:
 1:1 đặt khóa chính của quan hệ thứ nhất thành khóa ngoại của
quan hệ thứ hai và ngƣợc lại.
 1: n đặt khóa chính của quan hệ ở đầu một thành khóa ngoại
của quan hệ ở đầu n.
Ta có các bảng quan hệ và sơ đồ chi tiết của các bảng quan hệ (hình 3.7)
này nhƣ sau:
 organism_table(organism_id, organism_name, morphology,
physicochemical, nucleic_acid, protein, symptom_and_host_range,
susceptible_host, insusceptible_host, transmission,
geographic_distribution, diagnostic_and_method).
 char_table (char_id, family, genus, species, RNA_stage, organism_id)
 acc_table (acc_id, acc_no, organism_id)
 gen_seq (gen_id, gen_name, gen_seq, length, acc_id)
 pro_table (pro_id, pro_name, pro_seq, acc_id)
 ncbi_table (ncbi_id, definition, pubday, locus, acc_id)
 author_table (author_id, author_name, paper, ncbi_id)
Sau khi có các bảng quan hệ, ta thực hiện thiết kế các bảng này ở mức vật lý,
nghĩa là đƣa vào hệ quản trị CSDL quan hệ MySQL bằng các ngôn ngữ truy vấn SQL
nhƣ tạo CSDL, tạo bảng,…
3.2.3.3. Lƣu trữ các thông tin vào CSDL
Sau khi CSDL đƣợc thiết kế ở mức vật lý, ta thực hiện việc đƣa các dữ liệu
vào CSDL. Công việc này đƣợc thực hiện tự động cùng một lúc tất cả các quan hệ
bằng Perl script và thông qua hai gói DBI, DBD::MySQL để kết nối với CSDL. Tuy
nhiên, để việc trình bày này đƣợc mạch lạc rõ ràng, chúng tôi chia ra thành từng phần
nhƣ sau:
o Lƣu trữ các trình tự (chỉ có chứa trình tự gene và protein hsp-70 và RT-
RNaseH), thông tin chung, tác giả, bài báo, definition, locus, tên sinh

vật,…(các thành phần này đã có trong mẫu tin của NCBI).
o Lƣu trữ các đoạn gene và protein RT-RNaseH, mà chúng nằm trong bộ
genome hay các gene khác trong ORF (dữ liệu của phần này cần đƣợc
xác định qua nhiều bƣớc và đã đƣợc trình bày ở phần 3.2.2) và các thông
36

tin khác (ký chủ, vùng phân bố, triệu chứng,…) đƣợc tham khảo và thu
nhận từ các trang web trên Internet [21, 22].
Lƣu trữ các trình tự, thông tin chung, tác giả và bài báo,…
Một mẫu tin về trình tự gene hsp-70 hay RT-RNaseH đƣợc trình bày nhƣ
hình 4.2 ta có thể rút trích các thông tin để đƣa vào CSDL.
 Trong phần LOCUS: ta lấy phần đầu “SPO010920“ cho vào trƣờng
locus trong bảng ncbi_table, phần ngày tháng “02-MAR-2000 “ ta cho vào
trƣờng pubday cũng trong bảng ncbi_table.
 Trong phần DEFINITION: lấy toàn bộ phần này cho vào trƣờng
definition trong bảng ncbi_table.
 Phần ACCESSION: lấy số truy cập này cho vào trƣờng acc_no của bảng
acc_table.
 Phần ORGANISM: tách lấy các phần tên loài, họ, giống và RNA_stage.
 Phần AUTHOR, TITLE: lần lƣợt cho vào trƣờng author, paper của bảng
author_table
 Phần gene:lấy độ dài của đoạn gene.
 Phần note: lấy tên của gene.
 Phần product: lấy tên protein.
 Phần translation: cho vào trƣờng pro_seq của bảng pro_table.
 Phần ORIGIN: cho vào trƣờng gen_seq của bảng gen_table.
Lƣu trữ các thông tin gen, protein, morphylogy,…
Tất cả các trình tự gene, protein đƣợc xác định trong mục 3.2.2 đƣợc đƣa
tự động vào CSDL gen_seq và pro_seq bằng Perl script. Đồng thời các dữ liệu về
morphology, triệu chứng,… cũng đƣợc đƣa vào CSDL tự động bằng Perl script hay

bằng các thao tác bằng tay. Gồm có các thông tin sau:
 Trình tự gene và protein của virus có số ACCESSION tƣơng ứng.
 Độ dài của gene.
 Các đặc điểm sinh lý, sinh hóa, hình thể, vùng phân bố,…
Do quan hệ của các bảng đƣợc xác định ngay từ đầu, nên việc đƣa dữ liệu vào
phải đƣợc thực hiện tuần tự nhƣ sau:
 Đầu tiên là đƣa vào bảng organism_table
 Rồi lần lƣợt đến acc_table, gen_table, pro_table, char_table.
 Cuối cùng vào các bảng ncbi_table, author_table.
37

3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web
Nhằm mục đích cung cấp giao diện cho ngƣời sử dụng truy xuất thông tin,
chia sẽ CSDL trực tuyến, CSDL gene và protein hsp-70 và RT-RNaseH đƣợc tích hợp
với Web bằng giao thức CGI. Bên cạnh đó, việc tích hợp với web cũng nhằm cung cấp
một vài công cụ phân tích trình tự sinh học để hổ trợ cho việc truy xuất thông tin tốt
hơn.
Tiến trình ngƣời sử dụng lấy thông tin từ CSDL về hai gene trên đƣợc thực
hiện ở hình 3.6, gồm các bƣớc nhƣ sau:
 Thông qua giao thức truyền siêu văn bản HTTP, trình chủ web Apache
nhận thông tin từ yêu cầu trình duyệt, sau đó sử lý và chuyển đến script
CGI.
 Từ yêu cầu đƣa vào, sử dụng ngôn ngữ truy vấn SQL và các hàm trong
module DBI, DBD::MySQL để lấy kết quả trong CSDL của hai gene trên.
 Kết quả đƣợc script CGI chuyển đến trình chủ Apache. Sau đó Apache
chuyển thông tin kết quả lên trình duyệt của ngƣời sử dụng.

CSDL
hai GEN
Trình chủ web Apache

* Nhận và xử lý yêu
cầu
* Tƣơng tác CSDL
* Trả kết quả
PERL
DBI, CGI
DBD::MySQ
L
Kết quả
Yêu cầu
Trình duyệt client
Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus
38

gen_table

gen_id <pk>
gen_name
gen_seq
length
acc_id <fk>
acc_table
acc_id <pk>
acc_no
organism_id <fk>
organism_table
organism_id <pk>
organism_name
morphology
physicochemical
nucleic_acid
protein
symptom_and_host
susceptible_host
insusceptible_host
transmission
geographic_distribution
diagnostic_and_method
ncbi_table
ncbi_id <pk>
definition
pubday
locus
acc_id <fk>
pro_table
pro_id <pk>

pro_name
pro_seq
acc_id <fk>
author_table
author_id <pk>
author
paper
ncbi_id <fk>
char_table
char_id <pk>
family
genus
species
RNA_stage
organism_id <fk>
1
Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong
CSDL hai gene và protein hsp-70 và RT-RNaseH
ở hai họ virus Caulimoviridae và Closteroviridae

pk: primary key
fk: foreign key
1
1
1
n
1
1
1
AY

99
55
66
Ci
tr
us
tr
is
te
za
vi
ru
s
is
ol
at
e
46
4-
2
p6
,
Hs
p7
0h
,
p6
1,
CP
m,

CP
,
p1
8,
p1
3,
p2
0,
an
d
p2
3
ge
ns
,
co
mp
le
te
cd
1
1
1
1
39

PHẦN 4
KẾT QUẢ VÀ THẢO LUẬN
4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae
Khi sử dụng các từ khóa và phƣơng pháp nhƣ ở mục 3.2 (phần phƣơng pháp

và chƣơng trình sử dụng). Chúng tôi đã thu nhận đƣợc 7 file gồm:
Thu 3 file chứa ACCESSION NUMBER và dòng định nghĩa về loài và gene
hsp-70 tƣơng ứng cho 3 giống trong họ Closteroviridae.
Thu 4 file chứa ACCESSION NUMBER và dòng định nghĩa về loài và gene
Reverse transcriptase-RNaseH tƣơng ứng cho 4 giống trong họ Caulimoviridae.
Ví dụ, một file của giống Crinivirus chứa bảng danh sách các ACCESSION
NUMBER và dòng định nghĩa về loài và gene hsp-70 trong giống nhƣ sau:

Sau khi thu đƣợc các file chứa số ACCESSION NUMBER cùng với dòng định
nghĩa ngắn ngọn nhƣ trên, chúng tôi tiến hành chạy chƣơng trình perl script (đƣợc viết
dựa trên ngôn ngữ lập trình perl để phục vụ cho việc tải mẫu tin chứa ACCESSION
NUMBER có trong file) trên mạng Internet để tải thông tin, kết quả chúng tôi thu đƣợc
hơn 300 các mẫu tin có số ACCESION NUMBER và dòng định nghĩa chứa trong 7
file trên.
Ví dụ, một mẫu tin có số ACCESSION NUMBER AJ010920 sau khi chạy
chƣơng trình perl script thu đƣợc mẫu tin trên NCBI có dạng nhƣ sau:

Hình 4.1 File chứa ACCESSION NUMBER và dòng định nghĩa của giống Crinivirus
1: AJ344213
Tomato infectious chlorosis virus partial HSP70 gene for heat shock protein

70,
genomic RNA, isolate Gr/P1
gi|17976838|emb|AJ344213.1|TIN344213[17976838]

2: AJ010920
Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate
S1EA-19a, partial
gi|3560042|emb|AJ010920.1|SPO010920[3560042]

3: AY048854
Tomato chlorosis virus Sicily heat shock protein 70 gene, partial cds
gi|15292654|gb|AY048854.1|[15292654]
(…)
4: AJ010921
Sweet potato chlorotic stunt virus mRNA for heat shock protein 70, isolate
S2EA-4a, partial
gi|3560044|emb|AJ010921.1|SPO010921[3560044]
(…)

20: AY048855
Tomato infectious chlorosis virus Liguria heat shock protein 70 gene,
partial cds
gi|15292656|gb|AY048855.1|[15292656] (…)
40

LOCUS SPO010920 486 bp mRNA linear VRL 02-MAR-2000
DEFINITION Sweet potato chlorotic stunt virus mRNA for heat shock protein 70,
isolate S1EA-19a, partial.
ACCESSION AJ010920
VERSION AJ010920.1 GI:3560042

KEYWORDS heat shock protein 70; hsp70 gene; HSP70 protein.
SOURCE Sweet potato chlorotic stunt virus
ORGANISM Sweet potato chlorotic stunt virus
Viruses; ssRNA positive-strand viruses, no DNA stage;
Closteroviridae; Crinivirus.
REFERENCE 1
AUTHORS Alicai,T., Fenby,N.S., Gibson,R.W., Adipala,E., Vetten,J.H.,
Foster,G.D. and Seal,S.
TITLE Occurence of two serotypes of sweet potato chlorotic stunt virus in
East Africa and their associated differences in coat protein and
HSP70 homologue gene sequences
JOURNAL Plant Pathol. 48, 718-726 (1999)
REFERENCE 2 (bases 1 to 486)
AUTHORS Fenby,N.S.
TITLE Direct Submission
JOURNAL Submitted (28-AUG-1998) Fenby N.S., Department of Biology, Bristol
University, Woodland Road, Bristol, BS8 1UG, U.K
FEATURES Location/Qualifiers
source 1 486
/organism="Sweet potato chlorotic stunt virus"
/mol_type="mRNA"
/isolate="S1EA-19a"
/db_xref="taxon:81931"
gene 1 486
/gene="hsp70"
CDS <1 >486
/gene="hsp70"
/codon_start=2
/product="heat shock protein 70 (HSP70)"
/protein_id="CAA09397.1"

/db_xref="GI:3560043"
/db_xref="GOA:Q9YIR1"
/db_xref="UniProt/TrEMBL:Q9YIR1"
/translation="SAYVGGTMKVLRINGSEFIPTCLSVTATGDVVVGGAAQVLDSSQ
PHCYFYDLKRWVGVDRLSFEEIKRKISPQYTVRLEGNDVLITGISKGFSCTYTVK
QLYVDTLVRLFSNVEKLKILSLNVSVPADYKTKQRMFMKSVCESLGFPLRRIINE
PSAA"
ORIGIN
1 atcggcgtat gttggtggta cgatgaaggt ccttagaata aacgggtcgg agtttattcc
61 cacctgttta tctgtcacgg ctacaggcga cgtggttgtt ggtggggctg cccaggtttt
121 ggattcttcg cagttacccc attgctattt ctatgactta aaacgttggg ttggcgttga
181 taggttgtcc tttgaagaaa taaaacgtaa gatatcccca cagtatacgg tcagattgga
241 aggtaatgat gtgctaataa caggaatctc gaaggggttc tcttgtacat atactgtgaa
301 acagctcatt cttctctatg ttgacacctt ggtcagacta ttctcaaatg ttgaaaagct
361 gaagattctg agtttaaatg tgtcagttcc cgcagattac aaaaccaagc aacggatgtt
421 tatgaaatca gtttgtgagt cgctcggttt tccattgaga aggatcataa acgagccttc
481 tgctgc
//

Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên NCBI

41

Khi tiến hành khảo sát thu nhận trình tự bằng các từ khóa và nhƣ phƣơng pháp
phần 3.2.1, ở các giống thuộc họ Caulimoviridae chúng tôi chỉ nhận đƣợc 4 giống
(Caulimovirus, Soymovirus, Badnavirus và Petuvirus) có trình tự gene RT-RNaseH
đƣợc đăng tải trên NCBI. Còn hai giống còn lại (Tungrovirus và Cavemovirus) thì
không thu nhận đƣợc mẫu tin về gene RT-RnasH của hai giống này đăng tải.
Trong 4 giống (Caulimovirus, Soymovirus, Badnavirus và Petuvirus) ở
Caulimoviridae và 3 giống (Ampelovirus, Crinivirus và Closterovirus) ở
Closteroviridae khi sử dụng các từ khóa và phƣơng pháp này, chúng tôi nhận đƣợc hầu
hết các loài trong giống có chứa hai gene này. Vì trong quá trình tìm kiếm chúng tôi
tiến hành kiểm tra các mẫu tin thu nhận đƣợc bằng cách lấy trình tự gene trên để thức
hiện BLAST với tất cả các sinh vật trong CSDL nucleotide của NCBI, kết quả BLAST
không hoặc rất ít xuất hiện loài nào thuộc hai họ mà chúng tôi chƣa thu nhận. Tuy
nhiên, cũng thông qua BLAST thì chúng tôi nhận thấy các từ khóa đƣợc sử dụng vẫn
chƣa hoàn toàn đầy đủ, để có thể nhận đƣợc hoàn toàn gene hsp-70 và RT-RNaseH
trong hai họ, nên cần có sự kiểm tra lại bằng cách lấy một đoạn gene hsp-70 hay RT-
RNaseH rồi thực hiện BLAST trên NCBI.
4.2. Kết quả thu nhận trình tƣ hai gene hsp-70 và RT-RNaseH
Sau khi tải trên Internet chúng tôi thu nhận đƣợc:
 125 gene hsp-70 của Closteroviridae đã biết.
 215 gene RT-RNaseH của Caulimoviridae
Trong đó:
o Gene RT-RNaseH chỉ có 180 gene đã biết còn 35 gene lại nằm chung
với các gene khác trong ORF hay trong genome.

Vì có các gene RT-RNaseH nằm trong ORF hay genome nên chúng tôi tiến hành
thu nhận gene này bằng phƣơng pháp đƣợc mô tả nhƣ ở phần 3.2.2. Kết quả chúng tôi
thu nhận đƣợc 35 gene RT-RNaseH còn lại.
Ví dụ: mô hình xác định gene RT-RNaseH ở Caulimoviridae theo sơ đồ sau:

Alignment
Thu nhận đƣợc vị trí gene RT-
RNaseH trong ORF5, rồi dùng
perl script tách ra.
Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV
Gene RT-RNaseH
Gene RT-RNaseH nằm trong ORF5
42

Khi tiến hành khảo sát thu nhận trình tự trên NCBI, chúng tôi nhận đƣợc chiều
dài của hai gene có sự giao động lớn, do các phƣơng pháp và mục tiêu giải trình tự
khác nhau nên kết quả đăng tải trình tự về hai gene này có sự giao động khoảng từ 409
đến 2200 bp. Nhƣ phƣơng pháp thu nhận trình tự ở phần 3.2.2, chúng tôi chỉ tiến hành
sắp gióng cột dựa vào một trình tự gene RT-RNaseH đã biết chiều dài để tách lấy trình
tự gene RT-RNaseH nằm cùng với các gene khác hay genome của virus nên chỉ thu
đƣợc một đoạn nhất định của gene này. Tuy nhiên, với mụch đích xây dựng CSDL
phục vụ cho việc thiết kế primer để phân biệt giữa các loài nên có thể chấp nhận đƣợc.
Việc dựa vào sự bảo tồn của gene RT-RNaseH để thực hiện sắp gióng cột nên độ chính
xác của phƣơng pháp này không cao. Chỉ rất ít loài trong họ Caulimoviridae gene
Reverse transcriptase đƣợc xác định chính xác, còn lại hầu hết nó nằm chung với gene

RNaseH, nên chúng tôi chƣa có đủ các thông tin để tách riêng chúng ra đƣợc nên trong
CSDL chứa cả gene RT và RNaseH.
4.3. CSDL trình tự gene hsp-70 và RT-RNaseH
Nhờ sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70
và RT-RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong
CSDL sinh học lớn nhƣ NCBI, EMBL, DDBj, … Vì các CSDL này quá lớn và chứa
rất nhiều thông tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể
thực hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên
biệt. Do vậy, chúng tôi đã tập hợp các trình tự gene hsp-70 (của Closteroviridae) và
RT-RNaseH (của Caulimoviridae). Để xây dựng CSDL riêng cho hai gene này. Đồng
thời xác định các loài trong họ có chứa hai gene trên.
Về sinh vật
CSDL lƣu trữ hai họ, 7 giống, 56 loài. Số lƣợng trình tự thu nhận ở bảng 4.1.
Về trình tự
CSDL gene hsp-70 và RT-RNaseH gồm 325 trình tự (hsp-70 và RT-RNaseH),
kết quả chi tiết ở bảng III.3.2. và III.3.3. CSDL gene này đƣợc phân chia thành hai
nhóm trình tự hsp-70 thuộc Closteroviridae và RT-RNaseH thuộc Caulimoviridae,
tƣơng ứng với mỗi gene có thông tin về protein tƣơng ứng.

Luận văn : XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT part 6 pdf

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về