Tải bản đầy đủ (.pdf) (23 trang)

Đề tài giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (644.22 KB, 23 trang )

 
MỤC LỤC 
MỤC LỤC .......................................................................................................................... 1
DANH MỤC HÌNH............................................................................................................ 2
DANH MỤC BẢNG........................................................................................................... 3
TĨM TẮT........................................................................................................................... 4
CHƯƠNG 1: TỔNG QUAN .............................................................................................. 1
1.1 GIỚI THIỆU VỀ VIRUS CÚM................................................................................ 1
1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGỒI NƯỚC .................................... 4
1.3 MỤC TIÊU ĐỀ TÀI: ................................................................................................ 5
CHƯƠNG 2: NỘI DUNG THỰC HIỆN............................................................................ 7
2.1 PHƯƠNG PHÁP NGHIÊN CỨU ............................................................................ 7
2.2 THIẾT KẾ MỘT CƠ SỞ DỮ LIỆU VIRUSBANK CHỨA THƠNG TIN VỀ
VIRUS CÚM CHI TIẾT HĨA ĐẾN MỨC ĐỘ TỈNH THÀNH Ở VIỆT NAM ........... 7
2.2.1 Mơ hình quan niệm dữ liệu................................................................................ 7
2.2.2 Diễn giải........................................................................................................... 10
2.2.3 Mơ hình logic dữ liệu....................................................................................... 14
2.3 MODULE TỰ ĐỘNG DOWNLOAD DỮ LIỆU TỪ NGÂN HÀNG DỮ LIỆU
NCBI ............................................................................................................................. 14
2.4 MODULE TỰ ĐỘNG CẬP NHẬT DỮ LIỆU VÀO CƠ SỞ DỮ LIỆU
VIRUSBANK ............................................................................................................... 16
2.5 CÔNG CỤ CUNG CẤP THÔNG TIN VIRUS CÚM............................................ 17
CHƯƠNG 3: KẾT LUẬN ................................................................................................ 18
3.1 KẾT QUẢ ĐẠT ĐƯỢC ......................................................................................... 18
3.2 HƯỚNG PHÁT TRIỂN.......................................................................................... 18
TÀI LIỆU THAM KHẢO ................................................................................................ 19


DANH MỤC HÌNH 
Hình
Hình


Hình
Hình
Hình
Hình
Hình

1: Cấu trúc hệ gen của 3 loại cúm: cúm A, cúm B, cúm C............................ 2
2: Các đại dịch cúm xảy ra trên thế giới cho đến nay.................................... 3
3: Mô hình quan niệm dữ liệu VirusBank ................................................... 10
4: Mơ hình logic dữ liệu VirusBank ............................................................ 14
5: Giao diện form kết nối dữ liệu................................................................. 15
6: Giao diện form tạo file đường dẫn........................................................... 16
7: Giao diện form Download tự động, update tự động ................................ 17

 


DANH MỤC BẢNG 
Bảng 1: Tổng kế các đặc điểm chính của virus ....................................................... 1
Bảng 2: Thống kê số người nhiễm cúm H5N1 cho đến năm 2009.......................... 4
Bảng 3: Ví dụ nội dung file influenza_na.dat .......................................................... 7
Bảng 4: Ví dụ về nội dung file influenza.dat ........................................................... 8


TĨM TẮT 
Virus cúm (influenza) là một loại RNA virus, chính là nguyên nhân gây ra bệnh
cúm ở người và động vật. Với khả năng biến đổi và lan truyền nhanh từ động vật
sang động vật, từ động vật sang người, và đặc biệt là từ người sang người; virus
cúm là một trong những loài virus nguy hiểm nhất cho nền kinh tế cũng như sức
khỏe con người trên toàn thế giới từ trước đến nay. Chính vì vậy, sự hiểu biết về

cấu trúc phân tử của nó là một nhu cầu lớn trong các nghiên cứu về dịch bệnh.
Hiện nay, các tổ chức y tế, cũng như các ngân hàng dữ liệu trên thế giới đã lưu
trữ nhiều trình tự sinh học liên quan đến virus cúm. Tuy nhiên, các ngân hàng dữ
liệu sinh học này không chứa thông tin chi tiết đến các tỉnh thành của một quốc
gia. Vì vậy, chúng ta khơng có đầy đủ thơng tin để biểu diễn q trình lây nhiễm,
cũng như phân tích virus cúm ở Việt Nam một cách đầy đủ, đặc biệt có đủ thơng
tin để phục vụ cộng đồng.
Đề tài này trình bày giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu
virus cúm ở Việt Nam cho đến mức độ tỉnh thành; đồng thời xây dựng các công cụ
giúp cho việc khai thác thông tin theo tiêu chí người dùng về virus cúm nhanh
chóng và hiệu quả. Bên cạnh đó, đề tài cũng trình bày giải pháp cho phép cập
nhật dữ liệu một cách tự động từ các ngân hàng dữ liệu về virus cúm trên thế giới,
đặc biệt là ngân hàng dữ liệu của NCBI (National Center for Biotechnology
Information).

 


1

CHƯƠNG 1: TỔNG QUAN 
1.1 GIỚI THIỆU VỀ VIRUS CÚM
Virus cúm (influenza) - một loại RNA virus - là nguyên nhân gây ra bệnh cúm ở
người và động vật. Virus cúm được chia thành ba loại chính là cúm A, cúm B, và
cúm C. Cúm A bao gồm nhiều chủng (subtype) khác nhau (ví dụ H1N1, H2N2,
H5N1,…) và là virus cúm phổ biến và nguy hiểm nhất. Hình 1Error! Reference
source not found. mơ tả cấu trúc hệ gen của ba loại virus cúm: cúm A, cúm B,
cúm C. Cúm A và cúm B có 8 loại gen giống nhau, trong khi cúm C có 7 loại
gen. Tổng kết về virus cúm - loại virus, kích thước hệ gen, các loại gen, các loại
protein chính, các động vật chủ phổ biến - được nêu ra ở Bảng 1

Bảng 1: Tổng kế các đặc điểm chính của virus
Loại
virus

Kích thước
bộ gen

Các loại gen

Các loại protein chính

Các động vật
chủ phổ biến

Cúm A

~12 Kb

PB1, PB2, NP, HA,
NA, PA, NS, M

PB1, PB1-F2, PB2,PA,
HA, NA, NP, M1, M2,
NS1, NS2

Người, chim,
gia cầm,
động vật có vú

Cúm B


~12 Kb

PB1, PB2, NP, HA,
NA, PA, NS, M

PB1, PB2, PA, HA, NA,
NP, M1, BM2, NS1, NS2

Người,
hải cẩu

Cúm C

~10 Kb

PB1, PB2, NP, PA,
NS, M, HEF

PB1, PB2, P3, HE, NP,
M1, CM2, NS1, NS2

Người, lợn


2

Hình 1: Cấu trúc hệ gen của 3 loại cúm: cúm A, cúm B, cúm C
Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật
sang người, và đặc biệt là từ người sang người, virus cúm là một trong những loài

virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên tồn thế
giới từ trước đến nay. Hình 2 chỉ ra các mốc thời gian diễn ra các đại dịch cúm
trên thế giới do tổ chức y tế thế giới thống kê. Đầu tiên là đại dịch cúm Tây Ban
Nha H1N1 diễn ra năm 1918 đã giết khoảng 20-50 triệu người trên tồn thế giới.
Tiếp sau đó, một loạt các đại dịch cúm khác gây thiệt hại lớn đến nền kinh tế và
sức khỏe con người như cúm châu Á H2N2 năm 1957, cúm Hồng Kông H3N2
năm 1968, v.v…
Từ năm 2003 đến nay, thế giới và đặc biệt là châu Á và Việt Nam đang bị dịch
cúm gia cầm H5N1. Cúm gia cầm H1N1 có khả năng lây nhanh giữa gia cầm và
gia cầm, dẫn đến làm chết và phải thiêu hủy hàng loạt gia cầm. Đặc biệt nguy
hiểm hơn, chúng có khả năng lây từ gia cầm sang con người.


3

Hình 2: Các đại dịch cúm xảy ra trên thế giới cho đến nay
Cho đến ngày 24/9/2009, cả thế giới đã có 262 người chết vì cúm gia cầm, trong
đó Việt Nam có 56 trường hợp (xem Bảng 2 do tổ chức y tế thế giới thống kê).
Trung tâm kiểm sốt và phịng chống bệnh Mỹ dự đốn dịch cúm gia cầm H5N1
có thể ảnh hưởng đến 15-35% dân số Mỹ với thiệt hại kinh tế khoảng 70-167 tỉ
USD.
Hiện nay, cả thế giới, và đặc biệt ở Việt Nam, đang đối mặt với dịch cúm lợn
H1N1. Điều đặc biệt nguy hiểm của cúm lợn H1N1 là chúng có khả năng lây từ
người sang người và gây tử vong trong thời gian ngắn. Tổ chức y tế thế giới
(WHO) thông báo ngày 11/10/2009 có hơn 399.232 trường hợp bị nhiễm cúm
H1N1, trong đó hơn 4.735 trường hợp bị tử vong. (xem
Việt Nam đã ghi nhận
hơn 10 nghìn trường hợp bị nhiễm cúm H1N1, trong đó đã có hơn hai mươi ca tử
vong.
Sự phát triển mạnh mẽ của công nghệ sinh học đã giúp chúng ta giải mã bộ gen

của virus cúm trong một thời gian ngắn với chi phí vừa phải. Dự án giải mã toàn
bộ hệ gen của virus cúm đã được triển khai tại nhiều nơi như Viện nghiên cứu
quốc gia về các bệnh truyền nhiễm, Hoa Kỳ (NIAID) từ những năm 2004 [1]
Một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của virus cúm
đã được giải mã và lưu trữ ở các cơ sở dữ liệu dùng chung của thế giới như Trung
tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for
Biotechnology Information). NCBI hiện đang lưu giữ hơn 100.000 trình tự
DNA/protein của virus cúm được thu thập và giải mã từ nhiều quốc gia trên thế
giới trong suốt thời gian qua.


4
Bảng 2: Thống kê số người nhiễm cúm H5N1 cho đến năm 2009

Với một lượng dữ liệu khổng lồ đã được thu thập, việc xây dựng các hệ thống
thông tin, xây dựng các cơng cụ tìm kiếm và phân tích dữ liệu đang được phát
triển mạnh mẽ trên thế giới. Qua đó giúp chúng ta hiểu được cơ chế lây nhiêm, tạo
ra vắc-xin mới, theo dõi và kiểm soát dịch bệnh.
Nổi bật trong các hệ thống đó là hệ thống thông tin virus cúm của NCBI
( được phát triển bởi Bao và các
đồng nghiệp năm 2008 [2]. Hệ thống hiện lưu giữ hơn 100.000 trình tự
DNA/protein của các lồi virus cúm khác nhau. Một số chức năng chính của hệ
thống là:
− Cung cấp thông tin về virus cúm theo nhiều tiêu chí khác nhau như: loại
virus cúm (cúm A, cúm B, cúm C), động vật chủ (người, gia cầm,..),
quốc gia, loại protein.
Cung cấp một số cơng cụ tìm kiếm và phân tích dữ liệu như: tìm kiếm BLAST [1],
sắp hàng đa trình tự [5], xây dựng cây phát sinh lồi [8], v.v…
Tuy nhiên, các thông tin do hệ thống NCBI cung cấp chỉ chi tiết đến mức độ
quốc gia. Tức là không chi tiết đến mức độ các tỉnh thành trong một quốc

gia. Hệ thống cũng không cung cấp công cụ cho phép hiện thị và theo dõi
quá trình lây nhiểm của virus cúm.
1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGỒI NƯỚC
Ngồi nước:


5
Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI
(National Center for Biotechnology Information)
/>− Viện nghiên cứu genome Bắc Kinh, Trung Quốc, xây dựng

sở
dữ
liệu
virus
cúm
IVDB
( />− Phịng
thí
nghiệm
Quốc
gia
Los
Alamos
( />− Trường đại học Hàn Quốc và Viện Sức khỏe quốc gia xây
dựng “Cơ sở dữ liệu genome cúm và quyết định kháng
nguyên” ISED
Trong nước:
− Viện Công nghệ sinh học (Institute of Biotechnology - IBT)
đã tiến hành nghiên cứu và giải mã nhiều trình tự virus cúm

H5N1
− Cục thú y trung ương đã tiến hành giải mã toàn bộ hệ gen
của 33 virus cúm ở nhiều tỉnh thành khác nhau từ 10/2005
đến 5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh
Long, Hà Nội,v.v…
− Nhóm nghiên cứu của TS. Lê Sỹ Vinh ở Trường Đại học
Công nghệ, thuộc Đại học Quốc gia Hà Nội tiến hành phát
triển các phương pháp và công cụ tin sinh học để phân tích
dữ liệu virus cúm thu được
− Nhóm nghiên cứu của PGS. Trần Văn Lăng ở Phân viện
Công nghệ thông tin tại TPHCM trước đây, nay là Viện Cơ
học và Tin học ứng dụng (Institute of Mechanics and
Informatics – IAMI) thuộc Viện Khoa học và Công nghệ
Việt Nam đã nhiều năm nghiên cứu, xây dựng các công cụ
tin sinh phục vụ cho việc nghiên cứu các trình tự
DNA/protein làm nền tảng cho việc nghiên cứu vi khuẩn và
virus.


1.3 MỤC TIÊU ĐỀ TÀI:
Việc áp dụng Công nghệ thơng tin (CNTT) vào giải quyết các bài tốn trong Công
nghệ sinh học là một lĩnh vực mới trên thế giới cũng như ở Việt Nam. Nhờ sự phát
triển của Công nghệ sinh học, hiện nay chúng ta đã có khả năng trích chọn dữ liệu
sinh học phân tử (trình tự DNA, hay trình tự amino acid) từ virus qua đó giúp
chúng ta phân tích sự phát triển và lan rộng của virus cúm.
Mặc dù nhiều nghiên cứu về virus cúm đã được tiến hành ở Việt Nam, các nghiên
cứu chủ yếu tập trung vào việc giải mã các trình tự DNA và protein, qua đó tiến
hành một số phân tích để tim hiểu mối quan hệ giữa chúng.



6
Tuy nhiên, hiện nay chúng ta còn thiếu một hệ thống tin giúp các nhà quản lý
(bộ, ngành y tế); các nhà chun mơn; và người dân có được thơng tin, dữ liệu,
cũng như những cơng cụ phân tích (thống kê, mơ hình) về virus cúm trên thế
giới, đặc biệt chi tiết hóa cho virus cúm ở Việt Nam.
Đề tài này tập trung xây dựng công cụ cung cấp thông tin về virus cúm bao gồm
các chức năng:
Thiết kế một cơ sở dữ liệu chứa thông tin về virus cúm trên thế giới và
chi tiết hóa dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành
Tự động cập nhật dữ liệu từ ngân hàng dữ liệu NCBI.
Xây dựng công cụ cung cấp thông tin virus cúm


7

CHƯƠNG 2: NỘI DUNG THỰC HIỆN 
2.1 PHƯƠNG PHÁP NGHIÊN CỨU
− Tìm hiểu về virus cúm
− Tìm hiểu và thu thập đầy đủ thơng tin về các vấn đề cần giải quyết, bao
gồm cả phương pháp và phần mềm mã nguồn mở.
− Tận dụng tối đa các dữ liệu đã có sẵn. Tìm kiếm và bổ sung các dữ liệu
còn thiếu và đặc trưng của Việt Nam.
− Lựa chọn và kế thừa các phương pháp phù hợp với nội dung cần giải
quyết. Đồng thời, phát triển và cải tiến phương pháp, phần mềm mã
nguồn mở đã có.
− Các cơng cụ xây dựng hướng tới người dùng Việt Nam
− Khảo sát và tìm kiếm những thơng tin đã được công bố để bổ sung cho
cơ sở dữ liệu những thông tin đặc thù ở Việt Nam
− Tận dụng tối đa và cập nhật thường xuyên dữ liệu virus cúm từ các cơ sở
dữ liệu quốc tế như NCBI.

2.2 THIẾT KẾ MỘT CƠ SỞ DỮ LIỆU VIRUSBANK CHỨA THƠNG TIN VỀ
VIRUS CÚM CHI TIẾT HĨA ĐẾN MỨC ĐỘ TỈNH THÀNH Ở VIỆT NAM
2.2.1 Mơ hình quan niệm dữ liệu
Bắt
đầu
từ
nguồn
dữ
liệu
/>


NCBI

lưu

trữ

Gồm các file
-

genomeset.dat – có bảng chứa dữ liệu tổng quan về gen
influenza_na.dat – Bảng chứa dữ liệu tổng quan về nucleotic
- influenza_aa.dat – Bảng chứa dữ liệu tổng quan về protein
- influenza.dat – Bảng chứa nucleotide, protein và định danh các vùng mã
(coding regions IDs)
Ví dụ về nội dung file influenza_na.dat
Bảng 3: Ví dụ nội dung file influenza_na.dat
Accessio
n


Host

Seg
me
nt

Subty
pe

Country

Year

Lengt
h

S77429

Equine

4

H3N8

Sweden

1979

1061


AJ31075
0
S73497

Equine

6

H3N8

India

1987

1450

Seal

5

H7N7

USA

1980

90

Ag

e
Equine influenza virus
H3N8
Equine influenza virus
H3N8
Influenza A virus
(A/seal/Mass/1/1980(H

Ge
nde
r

Full
Len
gth
yes


8
V01087

Avian

4

X00897

Human

4


EU52189
3

Human

4

H3N8

Ukraine

1963

1765

1979

1878

H3

Singapo
re
Peru

2006

1037


7N7))
Influenza A virus
(A/duck/Ukraine/1/196
3(H3N8))
Influenza B virus

yes
yes

Influenza A Virus
(A/Arequipa/FLU3833/
2006(H3))

Ví dụ về nội dung file influenza.dat
Bảng 4: Ví dụ về nội dung file influenza.dat
Accession
Nucleotide
AB000604
AB000605
AB000606
AB000607
AB000608

Accession
Protein
BAA7582
4
BAA7582
7
BAA7583

0
BAA7583
3
BAA7583
6

Protein_ID
gb|AB000604:
4-1128
gb|AB000605:
4-1128
gb|AB000606:
4-1128
gb|AB000607:
4-1128
gb|AB000608:
4-1128

Accession
Protein
BAA75825
BAA75828
BAA75831
BAA75834
BAA75837

Protein_ID
(gb|AB000604
:4-731, 960)
(gb|AB000605

:4-731, 960)
(gb|AB000606
:4-731, 960)
(gb|AB000607
:4-731, 960)
(gb|AB000608
:4-731, 960)

Accession
Protein
BAA75826
BAA75829
BAA75832
BAA75835
BAA75838

Protein_ID
gb|AB000604:70
9-1128
gb|AB000605:70
9-1128
gb|AB000606:70
9-1128
gb|AB000607:70
9-1128
gb|AB000608:70
9-1128

Và thông tin từng file dữ liệu của Nucleotic, Protein, Gene
Các file này chứa đầy đủ thông tin của 1 gene, 1 protein hoặc 1 nucleotic.. Yêu

cầu cần thiết phải thiết kế một cơ sở dữ liệu có thể lưu trữ các thơng tin này nhưng
phải thêm phần chi tiết đến tỉnh thành ở Việt Nam, đồng thời phải dễ dàng cho
việc cập nhật tự động, truy xuất và hiển thị thơng tin.
Xem hình về file thông tin của 1 nucleotic


9

Influenza A virus (A/chicken/Egypt/1052S‐NLQP/2010(H5N1)) segment 4 
hemagglutinin (HA) gene, partial cds 
LOCUS
DEFINITION

GU811748
1584 bp
cRNA
linear
VRL 21-APR-2010
Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) segment 4
hemagglutinin (HA) gene, partial cds.
ACCESSION
GU811748
VERSION
GU811748.1 GI:289900038
KEYWORDS
.
SOURCE
Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1))
ORGANISM Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1))
Viruses; ssRNA negative-strand viruses; Orthomyxoviridae;

Influenzavirus A.
REFERENCE
1 (bases 1 to 1584)
AUTHORS
Arafa,A.A., Hagag,N.M., Abdullah,M.H., Yehia,N.M.,
Abdel-Halim,A.M., Kilany,W.H., Ahmed,M.S., Zanaty,A.M.,
Abdel-Aziz,O.M., Hassan,M.K. and Aly,M.M.
TITLE
Genetic analysis of recent Egyptian H5N1 viruses
JOURNAL
Unpublished
REFERENCE
2 (bases 1 to 1584)
AUTHORS
Arafa,A.A., Hagag,N.M., Abdullah,M.H., Yehia,N.M.,
Abdel-Halim,A.M., Kilany,W.H., Ahmed,M.S., Zanaty,A.M.,
Abdel-Aziz,O.M., Hassan,M.K. and Aly,M.M.
TITLE
Direct Submission
JOURNAL
Submitted (18-FEB-2010) National Laboratory for Veterinary Quality
Control on Poultry Production, Nadi-Elsaid Street, Dokki, Giza
12618, Egypt
FEATURES
Location/Qualifiers
source
1..1584
/organism="Influenza A virus
(A/chicken/Egypt/1052S-NLQP/2010(H5N1))"
/mol_type="viral cRNA"

/strain="A/chicken/Egypt/1052S-NLQP/2010"
/serotype="H5N1"
/isolation_source="farm"
/host="chicken"
/db_xref="taxon:720653"
/segment="4"
/country="Egypt: Qaliobia"
/collection_date="Feb-2010"
gene
<1..>1584
/gene="HA"
CDS
<1..>1584
/gene="HA"
/codon_start=3
/product="hemagglutinin"
/protein_id="ADD21384.1"
/db_xref="GI:289900039"
/translation="ANNSTEQVDTIMEKNVTVTHAQDILEKTHNGKLCDLDGVKPLIL
RDCSVAGWLLGNPMCDEFPNVSEWSYIVEKTNPANDLCYPGNFNNYEELKHLLSRINR
FEKIKIIPKSSWPDHEASLGVSSACPYQGGPSFYRNVVWLIKKNNTYPTIKESYHNTN
QEDLLVLWGIHHPNDEEEQTRIYKNPTTYISVGTSTLNQRLVPKIATRSKVNGQSGRV
EFFWTILKSNDTINFESNGNFIAPENAYKIVKKGDSTIMKSELEYGNCSTKCQTPVGA
INSSMPFHNIHPLTIGECPKYVKSNRLVLATGLRNSPQGEGRRKKRGLFGAIAGFIEG
GWQGMVDGWYGYHHSNEQGSGYAADRESTQKAIDGVTNKVNSIIDKMNTQFEAVGREF
NNLEKRIENLNKKMEDGFLDVWTYNAELLVLMENERTLDFHDSNVKNLYDKVRLQLRD
NAKELGNGCFEFYHRCDNECMESVRNGTYDYPQYSEEARLKREEISGVKLESIGTYQI
LSIYSTVASSLALAIIVAG"
ORIGIN
1 atgcaaacaa ctcaacagag caggttgaca caataatgga aaagaacgtc actgttacac

61 acgctcaaga catactggaa aagacacaca acgggaaact ctgcgatcta gatggagtga
121 agcctctaat tttaagagat tgtagtgtag ctggatggct cctcgggaac ccaatgtgtg


10
Từ các thơng tin trên, mơ hình quan niệm dữ liệu được thiết kế như sau:
LoaiGen
MaLoaiGen
VA(4)
MoTaLoaiGen LVA(100)

0,n

Asso

GenVirus

(1,1)

STTPhanDoan BT

0,n

Asso

LoaiVirusCum
MaLoaiVirusCum A(1)
MoTaLoaiVirus LVA(100)
1,n


0,n

Chung_H
H BT

Pro_Virus

NucCore_Virus

0,n

LoaiProtein

0,n

STT_Virus BT
Associa

MaLoaiProtein BT
TenLoaiProtein VA(6)

1,1

(1,1)

Nucleotide

ChungHN
Nuc_Subtype
0,n


1,1

(1,1)
Associ
Chung_N

(1,1)

0,n

Nuc_Host

N BT

1,1

DongVatChu

0,n

I
MaDongVatChu
TenDongVatChu
LVA(30)
MoTaDongVatChu LVA(100)
1,1

Nuc_MaSo
Nuc_MaDK

Nuc_GI
Nuc_PhienBan
Nuc_MoTa
Nuc_Ngay
Nuc_Giong
Nuc_Tuoi
Nuc_KichThuoc
Nuc_NoiDung
KTDayDu

0,n

LI
VA(10)
VA(10)
BT
LVA(200)
D
BL
BT
I
VA(5000)
BL

ThuocLoaiProtein

1,1
Protein
0,n
CDS_NucCore


1,1
Nuc_QH

CDS

QuanHuyen

CDS_MaSo
CDS_Vung
CDS_KichThuoc
CDS_NoiDung

MaQuanHuyen LI
TenQuanHuyen LVA(50)
0,n

1,1

LoaiDongVat
BT
MaLoaiDongVat
TenLoaiDongVat
LVA(50)
MoTaLoaiDongVat LVA(100)

LI
VA(10)
BT
VA(10)

LVA(200)
I
VA(5000)

1,1

0,n

Thuoc

Pro_MaSo
Pro_MaDK
Pro_PhienBan
Pro_GI
Pro_MoTa
Pro_KichThuoc
Pro_NoiDung

0,n

0,1

1,1
CDS_Protein

ChauLuc

QG_CL

QuocGia

QH_QG

LI
VA(50)
I
LVA(5000)

MaQuocGia VA(5)
TenQuocGia LVA(50)

1,1

0,n

MaChauLuc BT
TenChauLuc LVA(30)

Hình 3: Mơ hình quan niệm dữ liệu VirusBank
2.2.2 Diễn giải
1- LOAIVIRUS(MaLoaiVirus, MoTaLoaiVirus)
Vi rút cúm được chia thành ba loại chính là cúm A, cúm B, và cúm C.
Khóa truy xuất trong Nucleotide :
/organism="Influenza
(A/Egypt/N04434/2010(H5N1))"
/strain="A/Egypt/N04434/2010"

A

virus


2- Chung_H(H)
Chủng H có giá trị từ 1 đến 16
3- Chung_N(N)
Chủng N có giá trị từ 1 đến 9
4- ChungHN(H, N)
Mỗi loại Virus có nhiều chủng (Subtype) khác nhau. Ví dụ cúm A có các
chủng H1N1, H2N2, H5N1,… và là vi rút cúm phổ biến và nguy hiểm nhất.


11
Khóa truy xuất trong Nucleotide : Source/serotype="H5N1"
5- LoaiGen(MaLoaiGen, MoTaLoaiGen)
Các loại gien có trong các loại virus: HA; MP; NA; NP; NS; P3; PA; PB1;
PB2
Khóa truy xuất trong Nucleotide :
gene /gene= "HA"
CDS/gene="HA"
Trong Nucleotide, số thứ tự phân đoạn (segment) của các gene phụ thuộc
vào loại virus :
Loại vi rút Các loại gen
Cúm A

1-PB2, 2-PB1, 3-PA, 4-HA, 5-NP, 6-NA, 7-MP, 8-NS

Cúm B

1-PB1, 2-PB2, 3-PA, 4-HA, 5-NP, 6-NA, 7-MP, 8-NS

1-PB2, 2-PB1, 3-P3, 4-HE, 5-NP, 6-MP, 7-NS
Cúm C

Truy xuất cột thứ 3 trên file genomeset.dat, influenza_na.dat,
influenza_aa.dat
Khóa truy xuất trong Nucleotide Record:
Source/segment = 4
6- LOAIDONGVAT(MaLoaiDongVat, TenLoaiDongVat) :
Danh mục các loại động vật (Organism)
Truy xuất cột thứ 2 trong các file genomeset.dat, influenza_na.dat,
influenza_aa.dat
7- DONGVATCHU(MaDongVatChu, TenDongVatChu):
Danh mục động vật mang virus
Khóa truy xuất trong Nucleotide :
source/host="chicken"
source/host="human; gender F; age 18"
8- CHAULUC(MaChauLuc, TenChauLuc)
Danh mục các châu lục (Region) : Africa; Asia; Europe; North American;
Oceania; South American
9- QUOCGIA(MaQuocGia, TenQuocGia)
Danh mục quốc gia (Country), mỗi quốc gia thuộc một vùng
Khóa truy xuất trong Nucleotide :
source/country="Egypt: Qaliobia"
source/country="Egypt: Fayoum"

10- QUANHUYEN(MaQuanHuyen, TenQuanHuyen)


12
Danh mục quận/huyện (District), mỗi quận huyện có mã số phân biệt, có tên và
thuộc một quốc gia.
Khóa truy xuất trong Nucleotide :
source/country="Egypt: Qaliobia"

source/country="Egypt: Fayoum"

11- NUCLEOTIDE(Nuc_MaSo, Nuc_MaDK, Nuc_PhienBan, Nuc_GI,
Nuc_MoTa, Nuc_Ngay, Nuc_Giong, Nuc_Tuoi, Nuc_KichThuoc,
KTDayDu, Nuc_NoiDung)
• Nuc_MaDK (Accession): Số đăng ký trong GenBank. Truy xuất cột số 1
trong file influenza_na.dat. Sử dụng mã này để truy cập thơng tin chi tiết
record

Nucleotide

trong

NCIB,



dụ:

/>• Nuc_PhienBan (Version): Phiên bản của Nucleotide Record, Thông tin
Nucleotide khi được lưu lần đầu tiên trong GenBank sẽ có Version = 1.
Truy xuất dịng VERSION trong Nucleotide Record.
• Nuc_GI: Mã số truy cập thông tin Nucleotide trên website CBI. Giá trị của
GI

được

dùng

để


tạo

GenBank

Link

theo

cơng

thức

sau:

/>Ví dụ: />• Nuc_MoTa (Definition): Truy xuất dịng DEFINITION trong Nucleotide
Record.
• Nuc_Ngay (Date): Truy xuất trên dịng LOCUS
• Nuc_KichThuoc (Length): Truy xuất cột thứ 7 trong file influenza_na.dat
hoặc trên dòng LOCUS
• KTDayDu (Full-Length): Yes/No; Truy xuất cột thứ 11 trong file
influenza_na.dat
• Nuc_Giong (Gender): Truy xuất cột thứ 10 trong file influenza_na.da
• Nuc_Tuoi (Age): Truy xuất cột thứ 9 trong file influenza_na.da
• Nuc_NoiDung (Sequence): Truy xuất vùng ORIGIN cuối cùng trong
Nucleotide Record.


13
12- CDS(CDS_MaSo, CDS_KichThuoc, CDS_Vung, CDS_NoiDung)

Vùng trình tự mã hóa cho Protein. Mỗi CDS một mã số phân biệt, vùng CDS
trong chuỗi nucleotide, chiều dài vùng CDS và nơi dung chuỗi.
• CDS_Vung (Range): dùng biểu thị vùng CDS nằm trong chuỗi đang xét.
Truy xuất giá trị Range tại dòng CDS trong Nucleotide record hoặc
CDS//coded_by="GU811748.1:<1..>1584" trong Protein Record.
Từ dữ liệu Range ta có thể tính được thước chuỗi CDS.
• CDS_KichThuoc (Length): Từ Range ta có thể tính được CDS Length
• CDS_NoiDung (Sequence):
Tùy thuộc loại Segment mà 1 Nucleotide có một hay nhiều CDS, Đối với các
segment PB1, M và NS thì có hơn một CSD.
13- LOAIPROTEIN(MaLoaiProtein, TenLoaiProtein)
Danh mục loại Protein. Mỗi loại Protein có một mã số phân biệt và tên phân
biệt.
Có 16 loại Protein sau:
PB2; PB1; PB1-F2; PA; P3; HA; HE; NP; NA; NB; M1; M2; BM2; CM2; NS1; NS2.

Mỗi loại virus có một số loại Protein được liệt kê trong bảng sau:
Loại vi rút
Các loại protein chính
Cúm A

PB2, PB1, PB1-F2, PA, HA, NP, NA, M1, M2, NS1, NS2

Cúm B

PB1, PB2, PA, HA, NP, NA, NB, M1, BM2, NS1, NS2

Cúm C

PB2, PB1, P3, HE, NP, M1, CM2, NS1, NS2


14- Protein(Pro_MaSo, Pro_MaDK, Pro_PhienBan, Pro_GI, Pro_MoTa,
Pro_KichThuoc, Pro_NoiDung)
Mỗi Protein Record tương ứng với 1 CDS trong Nucleotide
• Pro_MaDH (Accession): Số đăng ký trong GenBank. Truy xuất cột số 1
trong file influenza_na.dat. Sử dụng mã này để truy cập thông tin chi tiết
record Nucleotide trong NCIB theo cú pháp
/>ví dụ: />• Pro_PhienBan (Version): Phiên bản của Protein Record, Thông tin
Protein khi được lưu lần đầu tiên trong GenBank sẽ có Version = 1. Truy
xuất dịng VERSION trong Protein Record.
• Pro_GI: dùng truy cập tài liệu liên quan đến Protein với cú pháp:
/>Ví dụ: />• Pro_MoTa (Definition): Truy xuất dòng DEFINITION trong Protein
Record.


14
• Pro_KichThuoc (Length): Truy xuất cột thứ 7 trong file influenza_aa.dat
hoặc trên dịng LOCUS
• Pro_NoiDung (Sequence): Truy xuất vùng ORIGIN cuối cùng trong
Protein Record hay khóa CDS/Translation
2.2.3 Mơ hình logic dữ liệu
LoaiGen

GenVirus

varchar(4)

MaLoaiGen
MoTaLoaiGen nvarchar(100)


LoaiVirusCum


MaLoaiVirusCum char(1)
MaLoaiGen
varchar(4)
STTPhanDoan
tinyint


MaLoaiVirusCum char(1)
MoTaLoaiVirus
nvarchar(100)

Chung_H

Pro_Virus

H tinyint

LoaiProtein

tinyint
MaLoaiProtein
MaLoaiVirusCum char(1)
STT_Virus
tinyint

ChungHN



MaLoaiProtein tinyint
TenLoaiProtein varchar(6)

Nucleotide

H tinyint
N tinyint

Chung_N
N tinyint

DongVatChu
MaDongVatChu
MaLoaiDongVat
TenDongVatChu
MoTaDongVatChu

int

tinyint
<fk>
nvarchar(30)
nvarchar(100)

Nuc_MaSo
MaQuanHuyen
MaDongVatChu
H
N

MaLoaiVirusCum
MaLoaiGen
Nuc_MaDK
Nuc_GI
Nuc_PhienBan
Nuc_MoTa
Nuc_Ngay
Nuc_Giong
Nuc_Tuoi
Nuc_KichThuoc
Nuc_NoiDung
KTDayDu

bigint
bigint
int
tinyint
tinyint
char(1)
varchar(4)
varchar(10)
varchar(10)
tinyint
nvarchar(200)
datetime
bit
tinyint
int
varchar(5000)
bit



<fk4>
<fk2>
<fk3>
<fk3>
<fk1>
<fk1>

Protein
Pro_MaSo
MaLoaiProtein
CDS_MaSo
Pro_MaDK
Pro_PhienBan
Pro_GI
Pro_MoTa
Pro_KichThuoc
Pro_NoiDung

bigint

tinyint
<fk1>
bigint
<fk2>
varchar(10)
tinyint
varchar(10)
nvarchar(200)

int
varchar(5000)

CDS
QuanHuyen
LoaiDongVat
tinyint

MaLoaiDongVat
TenLoaiDongVat
nvarchar50)
MoTaLoaiDongVat nvarchar(100)


MaQuanHuyen bigint
MaQuocGia
varchar(5)
<fk>
TenQuanHuyen nvarchar(50)

CDS_MaSo
Pro_MaSo
Nuc_MaSo
CDS_Vung
CDS_KichThuoc
CDS_NoiDung

QuocGia

ChauLuc



MaQuocGia varchar(5)
MaChauLuc tinyint
<fk>
TenQuocGia nvarchar(30)


MaChauLuc tinyint
TenChauLuc nvarchar(30)

Hình 4: Mơ hình logic dữ liệu VirusBank
2.3 MODULE TỰ ĐỘNG DOWNLOAD DỮ LIỆU TỪ NGÂN HÀNG DỮ
LIỆU NCBI
Ngân hàng dữ liệu NCBI cho phép download dữ liệu về nhưng phải sử dụng thủ
công. Số lượng các file virus cúm rất lớn, hơn 100.000, việc download từng file là
không thực hiện được. Module tự động download dữ liệu sẽ tự động lấy dữ liệu và

bigint

bigint
<fk1>
bigint
<fk2>
varchar(50)
int
varchar(5000)


15

lưu trữ vào thư mục được chỉ định. Yêu cầu của module này là phải được kết nối
với Internet. Tốc độ thực hiện tùy thuộc vào tốc độ đường truyền Internet.

Hình 5: Giao diện form kết nối dữ liệu


16

Hình 6: Giao diện form tạo file đường dẫn
2.4 MODULE TỰ ĐỘNG CẬP NHẬT DỮ LIỆU VÀO CƠ SỞ DỮ LIỆU
VIRUSBANK
Các file virus được download về là từng file riêng lẻ. Thơng tin của các virus này
cần phải được trích ra và lưu vào cơ sở dữ liệu để có thể truy xuất sau này. Việc
trích lọc các thơng tin từ các file phải được thực hiện tự động và u cầu chính xác,
nhanh chóng. Module cập nhật tự động có đầy đủ các khả năng này.


17

Hình 7: Giao diện form Download tự động, update tự động
2.5 CƠNG CỤ CUNG CẤP THƠNG TIN VIRUS CÚM
Cơng cụ cung cấp thông tin virus cúm thực chất là một website cho phép người
dùng tìm kiếm, thống kê các thơng tin về virus cúm. Hệ thống website có giao
diện thân thiện, dễ sử dụng và cho truy xuất, hiển thị thông tin
Việc cung cấp các công cụ thống kê về dữ liệu và sự lây lan của virus cúm là hết
sức cần thiết. Công cụ gồm các chức năng:
− Cho phép người dùng lựa chọn thống kê về virus cúm theo nhiều tiêu chí
khác nhau
− Thống kê và biểu diễn kết quả về virus cúm theo vị trí địa lý (quốc gia,
tỉnh thành ở Việt Nam)

− Thống kê và biểu diễn kết quả về virus cúm theo thời gian
− Thống kê và biểu diễn kết quả sự phát triển của virus cúm theo loại và
chủng virus


18

CHƯƠNG 3: KẾT LUẬN 
3.1 KẾT QUẢ ĐẠT ĐƯỢC
Các nghiên cứu ở Việt Nam thường được thực hiện riêng rẽ, chưa có sự gắn kết.
Hệ thống sẽ giúp lưu trữ dữ liệu một cách tập trung qua đó giúp cho việc tìm kiếm,
hiển thị và nghiên cứu về virus cúm ở Việt Nam một cách đầy đủ và tổng thể, làm
phong phú thêm ngân hàng dữ liệu về virus cúm.
Hệ thống website được đưa lên mạng Internet có thể giúp cho người dân có những
hiểu biết nhất định về sự phân bổ virus cúm trên tồn lãnh thổ, đồng thời cũng có
thể cung cấp dữ liệu có các tổ chức y tế có nhu cầu
Đề tài đã đạt được các kết quả như sau:
Cơ sở dữ liệu Virus cúm chi tiết đến từng tỉnh thành
Module tự động download dữ liệu từ NCBI
Module tự động cập nhật dữ liệu virus cúm, chi tiết hóa đến từng
tỉnh thành
Hệ thống website cung cấp các thông tin về virus cúm, cho phép tìm
kiếm và hiển thị thơng tin một cách khoa học.
3.2 HƯỚNG PHÁT TRIỂN
Hệ thống hiện nay chỉ mới dừng ở mức cung cấp thông tin, chưa đi sâu vào
phân tích thơng tin cũng như giải mã thông tin virus. Hướng phát triển sắp tới
là sẽ bổ sung thêm một số module thực hiện các công việc này.
Việc vận chuyển, buôn bán các động vật giữa các tỉnh thành dẫn đến việc lây
nhiễm các dịch bệnh một cách nhanh chóng và phức tạp. Việc tìm ra nguồn
gốc các ổ bệnh là hết sức quan trong qua đó giúp các nhà quản lý phát hiện và

cơ lập chính xác các ổ bệnh nhằm tránh việc lây lan hay những thiêu hủy gia
cầm không cần thiết. Dựa vào cơ sở dữ liệu chi tiết đến mức tỉnh thành ở Việt
Nam, chúng ta có thể tiến hành giải mã virus ở các ổ bệnh mới bùng phát, qua
đó tìm ra nguồn gốc (tỉnh thành) của ổ bệnh đó để có phương pháp đối phó.


19

TÀI LIỆU THAM KHẢO 
[1] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). Basic local
alignment search tool. J Mol Biol 215 (3): 403–410.
[2] Bao Y., P. Bolotov, D. Dernovoy, B. Kiryutin, L. Zaslavsky, T. Tatusova, J.
Ostell, D. Lipman (2008) The Influenza Virus Resource at the National
Center for Biotechnology Information. J. Virol. 2008 Jan; 82(2):596-601.
[3] Chang, S., Zhang, J., Liao, X., Zhu, X., Wang, D., Zhu, J., Feng, T., Zhu, B.,
Gao, G.F., Wang, J. et al. (2007) Influenza Virus Database (IVDB): an
integrated information resource DNA analysis platform for influenza virus
research. Nucleic Acids Res, 35, D376-380
[4] Dang Cao Cuong, Le Si Quang, Le Sy Vinh (2009). Influenza-specific
amino acid substitution model, The first international conference on
knowledge DNA systems engineering, Hanoi.
[5] Edgar RC (2004) MUSCLE: multiple sequence alignment with high
accuracy DNA high throughput. Nucl. Acids Res. 2004, 32:1792–1797.
[6] Fauci A: Race against time. Nature 2009, 435:423–42
[7] Nguyen TD, et al (2008) Multiple Sublineages of Influenza A Virus (H5N1),
Vietnam, 2005-2007. Emerging Infectious Diseases 2008, 14:632–636.
[8] Saitou N, Nei M (1987). The Neighbor-Joining method: a new method for
reconstructing phylogenetic trees. Mol Biol Evol 4 (4): 406-425
[9] Trần Văn Lăng và cộng sự. Nghiên cứu để xây dựng công cụ tin học xử lý
thông tin về Gene và Protein. Đề tài cấp bộ, Viện Khoa học và Công nghệ

Việt Nam quản lý, 2003-2004
[10]Trần Văn Lăng và cộng sự. Tính tốn hiệu năng cao và tính tốn lưới trong
một số bài tốn sinh học. Đề tài thuộc chương trình Nghiên cứu cơ bản,
2006-2007
[11] Trần Văn Lăng. Ứng dụng Tin học trong việc giải một số bài toán thuộc
Sinh học phân tử, Nxb. Giáo dục, 2008



×