Tải bản đầy đủ (.pdf) (79 trang)

Luận văn thạc sĩ công nghệ thông tin nghiên cứu một số vấn đề liên quan đến cơ sở dữ liệu virus cúm ở việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.3 MB, 79 trang )

Lời cảm ơn

Hoàn thành đề tài luận văn này, tôi đã nhận được sự giúp đỡ rất nhiệt tình
của các Thầy, Cô, gia đình, của các bạn bè và đồng nghiệp. Tôi xin gởi lời
cảm ơn chân thành đến với những người đã luôn sẳn lòng chia sẽ thời gian,
công việc và kiến thức để giúp tôi hoàn thành luận văn một cách tốt nhất.
Tôi xin chân thành bày tỏ lời cảm ơn đến Tiến sĩ Trần Văn Hoài, người Thầy
đã hết sức nhiệt tình hướng dẫn tôi thực hiện luận văn này.


Nguyễn Gia Khoa
MỤC LỤC
Phần Mở Đầu 1
1. Lý do thực hiện đề tài 1
2. Mục tiêu đề tài 6
3. Nội dung thực hiện 6
4. Ý nghĩa khoa học và thực tiễn của đề tài 6
Chương 1: Cơ Sở Dữ Liệu Virus Cúm 8
1.1 Khái quát 8
1.2 Xây dựng cở sở dữ liệu virus cúm 10
1.3 Kết luận 12
Chương 2: Xây Dựng Hệ Thống Cập Nhật 13
Tự Động Cơ Sở Dữ Liệu Virus Cúm 13
2.1 Những thách thức khi muốn cập nhật dữ liệu tự động 13
2.2 Xây dựng hệ thống cập nhật tự động cơ sở dữ liệu virus cúm 13
2.2.1 Mô hình hoạt động 13
2.2.2 Mô tả một số khối chức năng chính của hệ thống 15
2.2.2.1 Phần tương tác với người quản trị 15
2.2.2.2 Quyết định cập nhật dữ liệu 15
2.2.2.3 Lấy dữ liệu tự động 16
2.2.2.4 Phân tích dữ liệu mới cần lấy về 16


2.2.3 Hoạt động của hệ thống cập nhật 16
2.2.3.1 Thông tin truy cập trên hệ thống của NCBI 17
2.2.3.2 Cơ sở dữ liệu từ NCBI 17
2.2.3.3 Cơ sở dữ liệu từ DDBJ 18
2.2.3.4 Phương pháp lấy dữ liệu tự động 21
2.3 Kết luận 22
Chương 3: Hệ Thống Thông Tin Virus Cúm 23
3.1 Tổng quan 23
3.2 So sánh và đánh giá 23
3.3 Giới thiệu một số kết quả 25
3.3.1 Lấy dữ liệu ban đầu 25
3.3.2 Cập nhật dữ liệu định kỳ 26
3.3.3 Thêm dữ liệu từ một tập tin trình tự 26
3.3.4 Hệ thống thông tin virus cúm 28
3.3.4.1 Cung cấp thông tin virus cúm theo nhiều tiêu chí 29
3.3.4.2 Theo dõi mối quan hệ của virus cúm 30
3.3.4.3 Biểu diễn thông tin virus cúm của Việt Nam trên Google map 32
3.3.4.4 Thống kê virus cúm của Việt Nam 34
3.3.4.5 Thống kê virus cúm của Quốc tế 38
3.3.4.6 Thống kê virus cúm của Quốc gia 41
3.4 Kết luận 44
Chương 4: Khai Phá Dữ Liệu Virus Cúm 45
4.1 Phát biểu bài toán 45
4.2 Khai phá dữ liệu virus cúm Việt Nam 45
4.2.1 Thông tin virus các tỉnh thành Việt Nam 46
4.2.2 Thông tin virus cúm Việt Nam 50
4.2.3 Thông tin đặc trưng của virus cúm Việt Nam 53
4.3 Kết luận 56
Chương 5: Kết Luận 58
5.1 Đóng góp của đề tài 58

5.2 Hướng phát triển 58
Tài Liệu Tham Khảo
PHỤ LỤC
CƠ SỞ DỮ LIỆU VIRUS CÚM


Danh Mục Các Từ Viết Tắt

A Adenine
API Application Programming Interface
BLAST Basic Local Alignment Search Tool
C Cytosine
cDNA Complementary DNA
CSDL Cơ sở dữ liệu
DDBJ DNA Data Bank of Japan
DNA Deoxyribonucleic acid
EMBL European Molecular Bioinformatic Laboratory
IVDBVN Influenza Virus DataBase Vietnam
FASTA Fast Aligment Search Tool
G Guanine
GC Guanine Cytosine
INSDC International Nucleotide Sequence Database Collaboration
mRNA messager RNA
NCBI National Center for Biotechnology Information
RNA Ribonucleic acid
rRNA robosomal RNA
T Thymine, Thymidine
tRNA transfer RNA
U Uracil
Danh Mục Các Hình

Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI 2
Hình 2: Trang chủ hệ thống virus cúm của IVDB 2
Hình 3: Trang chủ hệ thống virus cúm của NCBI 3
Hình 4: Thống kê số trường hợp người mắc cúm H5N1 4
Hình 1.1: Mô hình quan hệ của cơ sở dữ liệu virus cúm 11
Hình 2.1: Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu 14
Hình 2.2: Trao đổi dữ liệu giữa ba ngân hàng DDBJ-NCBI-EMBL 15
Hình 2.3: Số lượt truy cập Web Server của DDBJ 19
Hình 2.4: Qui trình lấy dữ liệu mới 22
Hình 3.1: Thêm dữ liệu lần đầu tiên vào CSDL nội tại 25
Hình 3.2: Lập lịch cập nhật CSDL tự động theo định kỳ 26
Hình 3.3: Chọn quốc gia 27
Hình 3.4: Chọn tập tin trình tự 27
Hình 3.5: Thêm trình tự mới từ một tập tin 28
Hình 3.6: Hệ thống thông tin virus cúm của IVDBVN 29
Hình 3.7: Trình tự virus cúm của tỉnh Tiền Giang 30
Hình 3.8: Đánh dấu Tỉnh Tiền Giang trên Google map 30
Hình 3.9: Trình tự láng giềng của Tiền Giang 31
Hình 3.10: Xác định các tỉnh/thành phố láng giềng với Tiền Giang trên Google map 31
Hình 3.11: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng đánh dấu 32
Hình 3.12: Biểu diễn virus cúm của Việt Nam trên Google map theo dạng mối quan hệ giữa số
lượng trình tự và màu sắc 33
Hình 4.1: Các luật của virus cúm các tỉnh thành Việt Nam 48
Hình 4.2: Danh sách các luật của virus cúm Việt Nam 51
Hình 4.3: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Indonesia (khung bên
phải) 54
Hình 4.4: Khai phá dữ liệu virus cúm của Việt Nam (khung bên trái) và Thái Lan (khung bên
phải) 55

Danh Mục Các Bảng


Bảng 3.1: So sánh và đánh giá với các hệ thống thông tin virus cúm 23
Bảng 3.2: Các loại gene của virus cúm 36
Bảng 4.1: Danh sách các luật của virus cúm các tỉnh thành Việt Nam 49
Bảng 4.2: Danh sách các luật của virus cúm Việt Nam 52
Bảng 4.3: Danh sách các luật (tính chất) đặc trưng của virus cúm Việt Nam 56
1
Phần Mở Đầu
Tên đề tài:
NGHIÊN CỨU MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN
CƠ SỞ DỮ LIỆU VIRUS CÚM Ở VIỆT NAM

1. Lý do thực hiện đề tài
Virus cúm (influenza) - là nguyên nhân gây ra bệnh cúm ở người và động vật.
Virus cúm được chia thành ba loại chính là cúm A, cúm B, và cúm C. Cúm A bao
gồm nhiều chủng (subtype) khác nhau (ví dụ H1N1, H2N2, H5N1,…) và là virus
cúm phổ biến và nguy hiểm nhất. Với khả năng biến đổi và lan truyền nhanh từ
động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang
người, virus cúm là một trong những loài virus nguy hiểm nhất cho nền kinh tế
cũng như sức khỏe con người trên toàn thế giới từ trước đến nay.
Hiện nay, một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của
virus cúm đã được giải mã và lưu trữ ở các cơ sở dữ liệu dùng chung của thế giới
như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center
for Biotechnology Information) [4]. Theo thống kê ngày 22 tháng 03 năm 2011,
NCBI hiện đang lưu giữ hơn 150.000 trình tự DNA/protein của virus cúm được
thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua (Hình
1).
2

Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI

(
Ở châu Á, Viện nghiên cứu genome Bắc Kinh, Trung Quốc xây dựng cơ sở dữ
liệu virus cúm IVDB (). Hiện tại, IVDB lưu trữ
khoảng 43.000 trình tự DNA/protein của nhiều loại; nhiều chủng loại virus cúm
khác nhau của nhiều quốc gia trên thế giới [5].

Hình 2: Trang chủ hệ thống virus cúm của IVDB
()
3
Tuy nhiên, các thông tin do hệ thống NCBI, IVDB cung cấp chỉ chi tiết đến mức
độ quốc gia. Tức là không chi tiết đến mức độ các tỉnh thành trong một quốc gia
(Hình 3).


Hình 3: Trang chủ hệ thống virus cúm của NCBI
(

Việt Nam với khí hậu nhiệt đới là một trong những quốc gia chịu ảnh hưởng nặng
nề của virus cúm. Từ năm 2003 đến nay chúng ta đang phải đối mặt với dịch cúm
gia cầm H5N1. Cúm gia cầm H5N1 đã làm nhiều người chết, và thiêu hủy một
lượng lớn gia cầm với tổng thiệt hại hàng trăm triệu đô la Mỹ (Hình 4). Hiện nay,
chúng ta đang đối mặt với dịch cúm lợn H1N1 – số người nhiễm được thông báo
là 11 ngàn, và đã có trên 58 ca tử vong.
(

4

Hình 4: Thống kê số trường hợp người mắc cúm H5N1



Do tính chất đặc biệt nguy hiểm của virus cúm, hàng loạt các nghiên cứu về virus cúm
đã được tiến hành ở Việt Nam. Sự phát triển mạnh mẽ của công nghệ sinh học ở Việt
Nam đã giúp chúng ta đã tiến hành nhiều nghiên cứu về virus cúm ở mức độ sinh học
phân tử (molecular biology). Việc giải mã các trình tự DNA/protein hay thậm chí cả hệ
gen của virus đã được tiến hành trong thời gian qua. Hiện tại có hơn 2.951 trình tự
DNA/protein của virus cúm (chủ yếu là cúm gia cầm H5N1) đã được giải mã trên
nhiều tỉnh thành ở Việt Nam từ năm 2001 đến nay.
Cục thú y trung ương đã tiến hành nhiều nghiên cứu về virus cúm, đặc biệt là cúm gia
cầm H5N1. Tiêu biểu là nhóm nghiên cứu của TS. Nguyễn Tiến Dũng đã tiến hành giải
mã toàn bộ hệ gen của 33 virus cúm ở nhiều tỉnh thành khác nhau từ 10/2005 đến
5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh Long, Hà Nội,… Nhóm đã
5
đưa ra được mối quan hệ giữa các virus cúm gia cầm H5N1 của các tỉnh thành phố
khác nhau của Việt Nam [7].
Nhóm nghiên cứu của TS. Lê Sỹ Vinh ở Trường Đại học Công nghệ, thuộc Đại học
Quốc gia Hà Nội tiến hành phát triển các phương pháp và công cụ tin sinh học để phân
tích dữ liệu virus cúm thu được. Nhóm đã đưa ra được mô hình biến đổi amino acid
của virus cúm, giúp nâng cao độ chính xác khi phân tích các trình tự protein của virus
cúm so với các mô hình trước đó [6].
Nhóm nghiên cứu của PGS.TS Trần Văn Lăng ở Phân viện Công nghệ thông tin tại
TPHCM trước đây, nay là Viện Cơ học và Tin học ứng dụng (Institute of Mechanics
and Informatics – IAMI) thuộc Viện Khoa học và Công nghệ Việt Nam đã nhiều năm
nghiên cứu, xây dựng các công cụ tin sinh phục vụ cho việc nghiên cứu các trình tự
DNA/protein làm nền tảng cho việc nghiên cứu vi khuẩn và virus. Một số phần mềm
tiêu biểu là sắp hàng đa trình tự, vẽ bản đồ plasmid, thiết kế phần mềm mô phỏng cắt
enzym, xây dựng cây phân loài,…[2][3]
Mặc dù có nhiều nghiên cứu về virus cúm ở Việt Nam, các nghiên cứu chủ yếu tập
trung vào việc giải mã các trình tự DNA và protein, qua đó tiến hành một số phân tích
để tìm hiểu mối quan hệ giữa chúng.
Tuy nhiên, hiện nay chúng ta còn thiếu một hệ thống thông tin giúp cho các nhà quản

lý (bộ, ngành y tế); các nhà chuyên môn; và người dân có được thông tin, dữ liệu, cũng
như các công cụ phân tích (thống kê) về virus cúm trên thế giới, đặc biệt chi tiết hóa
cho các virus cúm ở Việt Nam.
Từ đây đặt ra một vấn đề đó là: Nghiên cứu để xây dựng hệ thống cho phép tạo dữ liệu
một cách tự động từ các cơ sở dữ liệu về gen liên quan đến virus cúm từ một số ngân
hàng dữ liệu sinh học trên thế giới. Từ đó, xây dựng hệ thống cập nhật dữ liệu virus
cúm cho các tỉnh thành của Việt Nam. Hệ thống này có thể cung cấp dữ liệu, thông tin
cho các nhà nghiên cứu; các nhà quản lý (bộ, ngành y tế); và người dân thông tin chi
tiết về dữ liệu virus cúm các tỉnh thành của Việt Nam.
6
2. Mục tiêu đề tài
Nghiên cứu để xây dựng hệ thống cho phép tạo dữ liệu một cách tự động từ các cơ sở
dữ liệu về gen liên quan đến virus cúm từ một số ngân hàng dữ liệu sinh học trên thế
giới. Từ đó, khai thác nguồn dữ liệu virus cúm từ ngân hàng dữ liệu này để xây dựng
hệ thống thông tin chi tiết về dữ liệu virus cúm cho các tỉnh thành của Việt Nam.
3. Nội dung thực hiện
 Tìm hiểu một số ngân hàng dữ liệu sinh học trên thế giới
 Nghiên cứu phương pháp cập nhật dữ liệu tự động
 Giải thích các thuộc tính gen của định dạng Blast
 Thiết kế cơ sở dữ liệu lưu trữ thông tin virus cúm theo yêu cầu sử dụng
 Xây dựng hệ thống cập nhật dữ liệu tự động
 Xây dựng hệ thống thông tin chi tiết về virus cúm cho các tỉnh thành của Việt
Nam
 Thu thập dữ liệu virus cúm từ DDBJ và NCBI
 Sử dụng khai phá dữ liệu để chiết xuất các thông tin hữu ích từ CSDL virus cúm.
4. Ý nghĩa khoa học và thực tiễn của đề tài
Sự phát triển mạnh mẽ của công nghệ sinh học ở Việt Nam đã giúp chúng ta đã tiến
hành nhiều nghiên cứu về virus cúm ở mức độ sinh học phân tử (molecular biology).
Việc giải mã các trình tự DNA/protein hay thậm chí cả hệ gen của virus đã được tiến
hành trong thời gian qua. Hiện tại chúng ta đã giải mã được nhiều trình tự DNA/protein

của virus cúm ở nhiều tỉnh thành trong suốt gần 10 năm qua. Theo thống kê vào ngày
22 tháng 03 năm 2011 trên hệ thống của NCBI, đã có hơn 2.951 trình tự DNA/protein
của virus cúm (chủ yếu là cúm gia cầm H5N1) đã được giải mã trên nhiều tỉnh thành ở
Việt Nam từ năm 2001 đến nay.
Thông thường, các trình tự DNA/protein được lưu trữ ở cơ sở dữ liệu quốc tế NCBI để
chia sẻ với mọi người. Tuy nhiên, đa số dữ liệu lưu trữ ở NCBI, IVDB không chứa
7
thông tin chi tiết đến các tỉnh thành. Chính vì vậy, chúng ta không có đầy đủ thông tin
để biểu diễn quá trình lây nhiễm, cũng như phân tích virus cúm ở Việt Nam một cách
chi tiết. Việc xây dựng một hệ thống có khả năng tự động cập nhật dữ liệu virus cúm từ
một số ngân hàng dữ liệu sinh học dùng chung của thế giới, đồng thời cung cấp thông
tin chi tiết dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành là hết sức cần
thiết.
Với dữ liệu chi tiết đến các tỉnh thành, chúng ta có thể áp dụng công nghệ “google
map” để hiển thị và theo dõi quá trình lan truyền của virus cúm. Qua đó giúp các nhà
quản lý và người dân thấy được phân bố của virus cúm trên các tỉnh thành dựa vào dữ
liệu sinh học phân tử được giải mã.
Mặc dù nhiều nghiên cứu về virus cúm đã được tiến hành ở Việt Nam, các nghiên cứu
chủ yếu tập trung vào việc giải mã các trình tự DNA và protein, qua đó tiến hành một
số phân tích để tìm hiểu mối quan hệ giữa chúng.
Tuy nhiên, hiện nay chúng ta còn thiếu một hệ thống tin giúp các nhà quản lý (bộ,
ngành y tế); các nhà chuyên môn; và người dân có được thông tin, dữ liệu, cũng như
những công cụ phân tích (thống kê) về virus cúm trên thế giới, đặc biệt chi tiết hóa cho
virus cúm ở Việt Nam.
Với dữ liệu được rút trích từ các ngân hàng dữ liệu trên thế giới, chúng ta sử dụng khai
phá dữ liệu để chiết xuất các thông tin hữu ích cho cộng đồng. Việc chiết xuất các
thông tin tiềm ẩn từ CSDL trình tự virus của các quốc gia sẽ giúp cho các nhà nghiên
cứu; các nhà quản lý có những thông tin hữu ích. Với những thông tin này, họ có thể
chủ động đưa ra các dự báo, sự chuẩn bị trong việc ứng phó với dịch cúm.
Ngoài ra, việc xây dựng hệ thống thông tin virus cúm chi tiết hóa đến mức tỉnh thành

của Việt Nam còn tạo ra một sản phẩm thân thiện với người dùng Việt Nam, thể hiện
qua nền tảng phát triển, giao diện và dữ liệu đầu vào.
8
Chương 1: Cơ Sở Dữ Liệu Virus Cúm

1.1 Khái quát
Để có thể xây dựng và triển khai hệ thống cập nhật cơ sở dữ dữ liệu virus cúm cho các
tỉnh thành của Việt Nam. Hệ thống này cho phép lấy dữ liệu một cách tự động chủ yếu
từ hai hệ thống của NCBI và DDBJ. Chúng ta cần phải thiết kế cơ sở dữ liệu để lưu trữ
các trình tự được lấy về từ các ngân hàng dữ liệu sinh học dùng chung trên thế giới.
Để hiểu rõ hơn về thông tin chi tiết của một trình tự, sau đây là một ví dụ mẫu về một
trình tự của virus cúm A H5N1, trình tự này được lấy từ về hệ thống của NCBI:
LOCUS EF566215 1733 bp cRNA linear VRL 01-MAY-2008
DEFINITION Influenza A virus (A/Duck/Viet Nam/367/2005(H5N1)) segment 4
hemagglutinin (HA) gene, partial cds.
ACCESSION EF566215
VERSION EF566215.1 GI:146215497
KEYWORDS .
SOURCE Influenza A virus (A/Duck/Viet Nam/367/2005(H5N1))
ORGANISM Influenza A virus (A/Duck/Viet Nam/367/2005(H5N1))
Viruses; ssRNA negative-strand viruses; Orthomyxoviridae;
Influenzavirus A.
REFERENCE 1 (bases 1 to 1733)
AUTHORS Komadina,N., Long,N.T. and Hoa,D.M.
TITLE Direct Submission
JOURNAL Submitted (04-APR-2007) WHO Collaborating Centre for Reference
and Research on Influenza Centre, 45 Poplar Rd., Parkville, Vic
3052, Australia
COMMENT Sequence entered by GenBank staff on behalf of submitter.
FEATURES Location/Qualifiers

source 1 1733
/organism="Influenza A virus (A/Duck/Viet
Nam/367/2005(H5N1))"
/mol_type="viral cRNA"
/strain="A/Duck/Viet Nam/367/2005"
/serotype="H5N1"
/host="duck"
/db_xref="taxon:438170"
/segment="4"
/country="Viet Nam: Tien Giang"
/collection_date="08-May-2005"
/note="passage level allantoic fluid"
gene 7 >1733
/gene="HA"
CDS 7 >1733
/gene="HA"
/codon_start=1
/product="hemagglutinin"
9
/protein_id="ABQ09853.1"
/db_xref="GI:146215498"
/translation="MEKIVLLFAIVSLVKSDQICIGYHANNSTEQVDTIMEKNVTVTH
AQDILEKTHNGKLCDLDGVKPLILRDCSVAGWLLGNPMCDEFINVPEWSYIVEKANPV
NDLCYPGDFNDYEELKHLLSRINHFEKIQIIPKSSWSSHEASLGVSAACPYQGKSSFF
RNVVWLIKKNSTYPTIKRSYNNTNQEDLLVMWGIHHPNDAAEQTKLYQNPTTYISVGT
STLNQRLVPRIATRSKVNGQSGRMEFFWTILKPNDAINFESNGNFIAPEYAYKIVKKG
DSTIMKSELEYGNCNTKCQTPMGAINSSMPFHNIHPLTIGECPKYVKSNRLVLATGLR
NSPQRERRRKKRGLFGAIAGFIEGGWQGMVDGWYGYHHSNEQGSGYAADKESTQKAID
GVTNKVNSIIDKMNTQFEAVGREFNNLERRIENLNKKMEDGFLDVWTYNAELLVLMEN
ERTLDFHDSNVKNLYDKVRLQLRDNAKELGNGCFEFYHKCDNECMESVRNGTYDYPQY

SEEARLKREEISGVKLESIGIYQILSIYSTVASSLALAIMVAGLSLWMCSNGSLQCRI
CIKFVSSDD"
ORIGIN
1 gtcaaaatgg agaaaatagt gcttcttttt gcgatagtca gtcttgttaa aagtgatcag
61 atttgcattg gttaccatgc aaacaactcg acagagcagg ttgacacaat aatggaaaag
121 aacgttactg ttacacatgc ccaagacata ctggaaaaga cacataacgg gaagctctgc
181 gatctagatg gagtgaagcc tctaattttg agagattgta gtgtagctgg atggctcctc
241 ggaaacccaa tgtgtgacga attcatcaat gtgccggaat ggtcttacat agtggagaag
301 gccaatccag tcaatgacct ctgttaccca ggggatttca atgactatga agaattgaaa
361 cacctattga gcagaataaa ccattttgag aaaattcaga tcatccccaa aagttcttgg
421 tccagtcatg aagcctcatt gggggtgagc gcagcatgtc cataccaggg aaagtcctcc
481 tttttcagaa atgtggtatg gcttatcaaa aagaacagta catacccaac aataaagagg
541 agctacaata ataccaacca agaagatctt ttggtaatgt gggggatcca ccatcctaat
601 gatgcggcag agcagacaaa gctctatcaa aacccaacca cctatatttc cgttgggaca
661 tcaacactaa accagagatt ggtaccaaga atagctacta gatccaaagt aaacgggcaa
721 agtgggagga tggagttctt ctggacaatt ttaaaaccga atgatgcaat caacttcgag
781 agtaatggaa atttcattgc tccagaatat gcatacaaaa ttgtcaagaa aggggactca
841 acaattatga aaagtgaatt ggaatatggt aactgcaaca ccaagtgtca aactccaatg
901 ggggcgataa actctagtat gccattccac aatatacacc ctctcaccat cggggaatgc
961 cccaaatatg tgaaatcaaa cagattagtc cttgcgactg ggctcagaaa tagccctcaa
1021 agagagagaa gaagaaaaaa gagaggatta tttggagcta tagcaggttt tatagaggga
1081 ggatggcagg gaatggtaga tggttggtat gggtaccacc atagcaatga gcaggggagt
1141 gggtacgctg cagacaaaga atccactcaa aaggctatag atggagtcac caataaggtc
1201 aactcgatca ttgacaaaat gaacactcag tttgaggccg ttggaaggga atttaacaac
1261 ttagaaagga gaatagagaa tttaaacaag aagatggaag acgggttctt agatgtctgg
1321 acttataatg ctgaacttct ggttctcatg gaaaatgaga gaactctaga ctttcatgac
1381 tcaaatgtca agaaccttta cgacaaggtc cgactacagc ttagggataa tgcaaaggag
1441 ctgggtaacg gttgtttcga gttctatcac aaatgtgata atgaatgtat ggaaagtgtg
1501 agaaacggaa cgtatgacta cccgcagtat tcagaagaag caagattaaa aagagaggaa
1561 ataagtggag taaaattgga atcaatagga atttaccaaa tactgtcaat ttattctaca

1621 gtggcgagtt ccctagcact ggcaatcatg gtagctggtc tatccttatg gatgtgctcc
1681 aatgggtcgt tacaatgcag aatttgcatt aaatttgtga gttcagatga tag

Một vấn đề đặt ra là làm như thế nào để chúng ta có thể xác định được nguồn gốc xuất
xứ của một trình tự virus cúm. Nghĩa là trình tự này được phân lập ở địa phương nào
trong một Quốc gia. Trong một trình tự, thuộc tính /country là nơi lưu giữ thông tin
về nguồn gốc của trình tự. Chẳng hạn như trình tự trên là /country="Viet
Nam:Tien Giang", cho chúng ta biết là virus này có nguồn gốc ở tỉnh Tiền Giang,
Việt Nam.
10
Bên cạnh đó, một số trình tự không ghi thông tin tỉnh thành ở thuộc tính /country thì
ta phải sử dụng thêm thông tin ở thuộc tính /organism để xác định nguồn gốc trình
tự.
Ví dụ: trình tự có Accession là GU186770 có thông tin sau:
/organism="Influenza A virus (A/duck/Hau Giang/07-12/2007(H5N1))"
/country="Viet Nam"
Với hai thông tin trên, cho ta biết trình tự này có nguồn gốc ở tỉnh Hậu Giang, Việt
Nam.
Các trình tự không thuộc hai trường hợp trên thì ta chỉ căn cứ vào thuộc tính
/country để xác định nguồn gốc xuất xứ của trình tự. Tức là trình tự không chú
thích thông tin nguồn gốc đến mức tỉnh thành phố mà chỉ chú thích đến mức quốc gia.
Những thông tin trên là cơ sở rất quan trọng để ta xây dựng được một CSDL nhằm đáp
ứng được việc lưu trữ nguồn gốc của trình tự cho tất cả các trường hợp. Nghĩa là CSDL
phải lưu trữ được các trình tự có tính địa phương (tỉnh/thành phố) và các trình tự chỉ
xác định được nguồn gốc ở mức quốc gia.
1.2 Xây dựng cở sở dữ liệu virus cúm
Như đã phân tích ở trên, ta cần xây dựng một CSDL đáp ứng các yêu lưu trữ được tất
cả các trường hợp về nguồn gốc xuất xứ của trình tự. Để đáp ứng được các yêu cầu đó,
CSDL của virus cúm đã được xây dựng như hình 1.1. Cơ sở dữ liệu này được thiết kế
theo hướng mở rộng để có thể đáp ứng cho sự phát triển của hệ thống sau này. Hiện tại,

hệ thống có thể quản lý thông tin chi tiết đến từng tỉnh thành của một quốc gia. Trong
tương lai, nếu ta có dữ liệu trình tự được chú thích đến mức quận/huyện hoặc mức thấp
hơn nữa thì cơ sở dữ liệu này vẫn đáp ứng được.
Trong CSDL này, bảng Location sẽ đảm nhận việc lưu trữ thông tin nguồn gốc xuất xứ
của trình tự. Giá trị của thuộc tính Location_value sẽ nhận giá trị của thuộc tính
Nation_id (mã quốc gia) hoặc Province_id (mã tỉnh thành).
11
CDS
CDS_ID
ACCESSION
ID_GENE_VALUE
CODON_START
DB_XREF
EC_NUMBER
EVIDENCE
EXCEPTION
[FUNCTION]
GENE
LABEL
LOCUS_TAG
MAP
NOTE
PRODUCT
PROTEIN_ID
PSEUDO
STANDART_NAME
TRANSLATION
TRANSL_EXCEPT
TRANSL_TABLE
USEDIN

EXPERIMENT
GENE_SYNONYM
CONTINENT
CONTINENT_ID
CONTINENT_NAME
GEN_TYPE
GENE_TYPE
DESCRIPTION_GT
GENECOMPLETE
ACCESSION
LOCUS_ID
KIND_ID
DEFINITION
VERSION
KEYWORDS
ORGANISM
COMMENTION
FEATURES
SOURCE_FEATURE_ID
GENE
CDS_ID
BASE_COUNT
TAX_ID
ORIGIN
DATE_UP
GENBANK_ID
GENVIRUS
VIRAL_ID
GENE_TYPE
LOCATION

LOCATION_ID
LOCATION_VALUE
NATION
NATION_ID
CONTINENT_ID
NATION_NAME
NEIGHBOR_PROVINCE
PROVINCE_ID
NEIGHBOR_ID
PRO_VIRUS
VIRAL_ID
PROTEIN_TYPE
PROTEIN_TYPE
PROTEIN_TYPE
PROTEIN_NAME
PROVINCE
PROVINCE_ID
NATION_ID
PROVINCE_NAME
SOURCE_FEATURE
SOURCE_FEATURE_ID
ACCESSION
LENGTH
ORGANISM
COUNTRY
DB_XREF
ISOLATION_SOURCE
LAB_HOST
MOL_TYPE
NOTE

SEGMENT
SEX
STRAIN
COLLECTED_BY
COLLECTION_DATE
PUBLISH_DATE
IDENTIFIED_BY
HOST
SEROTYPE
H
N
GENE_TYPE
TYPE
LOCATION_ID
AGE
GENDER
FULL_LENGTH
SUBTYPE_H
H
SUBTYPE_HN
H
N
SUBTYPE_N
N
ViralType
VIRAL_ID
DECRIPTION
GEN_REFERENCE
ACCESSION
REFERENCE_ID

REFERENCE
REFERENCE_ID
LENGHT
AUTHORS
TITLE
JOURNAL
MEDLINE
NEIGHBOR_NATION
NATION_ID
NATION_NEIGHBOR_ID

Hình 1.1: Mô hình quan hệ của cơ sở dữ liệu virus cúm
Phần thông tin chi tiết về CSDL virus cúm sẽ được trình bày ở phần phụ lục.
12
1.3 Kết luận
Các trình tự của virus cúm thường được lưu trữ ở các ngân hàng dữ liệu sinh học dùng
chung trên thế giới như NCBI và DDBJ. Giá trị của thuộc tính country trong tập tin
trình tự sẽ lưu thông tin về nguồn gốc của trình tự. Nhưng các thông tin về nguồn gốc
của các trình tự thường không đầy đủ đến mức tỉnh thành. Nghĩa là có trình tự thì ghi
chú nguồn gốc đến mức tỉnh thành nhưng một số trình tự thì chỉ ghi chú nguồn gốc đến
mức độ quốc gia. Chính vì vậy, việc thiết kế một CSDL có khả năng đáp ứng cho việc
ghi chú nguồn gốc xuất xứ của tất cả các trình tự là hết sức cần thiết. Ngoài ra, CSDL
phải có khả năng mở rộng, tức là trong tương lai nếu các trình tự virus cúm có thể ghi
chú thông tin nguồn gốc đến mức thấp hơn tỉnh thành thì CSDL này vẫn đáp ứng được.
13
Chương 2: Xây Dựng Hệ Thống Cập Nhật
Tự Động Cơ Sở Dữ Liệu Virus Cúm

2.1 Những thách thức khi muốn cập nhật dữ liệu tự động
Một cách thông thường, khi muốn lấy các dữ liệu về một số virus cúm nào đó. Người

dùng thường sử dụng các công cụ tìm kiếm và lấy trình tự của hệ thống NCBI hoặc
DDBJ. Các hệ thống này cho phép người dùng tìm kiếm và lấy trình tự về khi người
dùng sử dụng các từ khóa tìm kiếm. Kết quả trả về cho người dùng là một danh sách
các trình tự, sau đó người dùng chọn các trình tự cần lấy về, hệ thống sẽ cho phép họ
lấy dữ liệu về. Trong trường hợp số lượng trình tự của một kết quả tìm kiếm là lớn
(hàng ngàn kết quả) thì người sử dụng phải mất rất nhiều thời gian để chọn các trình tự
cần lấy. Mà chúng ta đã biết, số lượng các trình tự virus mới được giải mã và công bố
trên các ngân hàng này là thường xuyên. Cho nên, mỗi lần muốn lấy trình tự mới thì
người sử dụng phải mất khá nhiều thao tác và thời gian.
Vấn đề đặt ra là làm như thế nào mà chúng ta có thể lấy các trình tự mới một cách tự
động. Nghĩa là cần phải xây dựng một hệ thống có khả năng phát hiện các dữ liệu trình
tự mới, rồi sau đó lấy chúng về một cách tự động.
2.2 Xây dựng hệ thống cập nhật tự động cơ sở dữ liệu virus cúm
2.2.1 Mô hình hoạt động
Để thuận lợi cho việc quản lý, phân tích và tự cập nhật cơ sở dữ liệu cần phải thực hiện
kịp thời và thường xuyên nhằm hỗ trợ cho quá trình cập nhật được dễ dàng, đạt hiệu
quả cao và đảm bảo luôn luôn có được dữ liệu virus cúm mới nhất từ các cơ sở dữ liệu
trên thế giới.
Để đạt được những yêu cầu đề ra ở trên, hệ thống tự động cập nhật cơ sở dữ liệu virus
cúm được xây dựng theo mô hình sau (Hình 2.1).

14

Hình 2.1: Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu.

Nhận xét:
Các ngân hàng dữ liệu sinh học lớn trên thế giới (NCBI, DDBJ, EMBL, ) thường
được các nhà nghiên cứu sinh học sử dụng và cống bố các dữ liệu nghiên cứu của
mình. Do đó, dữ liệu trong các cơ sở dữ liệu này luôn chứa đựng các thông tin mới.
Thông thường, các dữ liệu mới sẽ được cập nhật và có sự liên thông giữa các hệ thống

lớn (Hình 3.2). Hệ thống hiện tại phục vụ nhu cầu thiết yếu cho các nhà nghiên cứu
ngoài nước củng như trong nước và người dân về các thông tin mới nhất của cơ sở dữ
liệu virus cúm các tỉnh thành của Việt Nam và Thế giới. Hệ thống có phần kết nối
chính là phần lấy dữ liệu tự động, phần này sẽ thực hiện phân tích và lấy về các dữ liệu
mới có trên các ngân hàng dữ liệu sinh học dùng chung trên thế giới. Phần chính thứ
hai đảm nhận việc phân tích các dữ liệu lấy về để cập nhật vào cơ sở dữ liệu nội tại.
2.Thông tin về dữ liệu

5.
L
ấy dữ liệu mới về

1.
Yêu cầu thông tin
về dữ liệu
7.
Cập nhật dữ
liệu
8.
Lưu vào cơ sở
dữ liệu
6.
Lưu thông tin về quá tr
ình
lấy dữ liệu
4.Thông tin về dữ
liệu cần cập nhật
3
.Xác định dữ
liệu mới


Lấy dữ liệu tự
động
Quyết định cập nhật dữ
li
ệu


Phân tích cập
nh
ật dữ liệu virus
cúm
CSDL



Ngân hàng d

liệu thế giới
Tương tác với người
quản trị
6.1 Gửi thông tin quá
trình lấy dữ liệu
15

Hình 2.2: Trao đổi dữ liệu giữa ba ngân hàng DDBJ-NCBI-EMBL, từ đó tạo thành cơ
sở dữ liệu trình tự Nucleotide Quốc tế (International Nucleotide Sequence Database
Collaboration – INSDC)

2.2.2 Mô tả một số khối chức năng chính của hệ thống

2.2.2.1 Phần tương tác với người quản trị
Nhiệm vụ chính của chức năng này là lưu trữ thông tin thu nhận được qua quá trình
phân tích dữ liệu mới, cũ; về quá trình lấy dữ liệu thành công hay lỗi. Những thông tin
này sẽ được kịp thời báo cáo về cho người quản trị thông qua hệ thống thư điện tử. Hệ
thống này cũng có thể gửi thông tin mới nhất khi có virus mới được cập nhật đến
những thành viên có đăng ký với website của hệ thống. Danh sách các thư điện tử sẽ
được lưu trữ trong cơ sở dữ liệu của hệ thống.
2.2.2.2 Quyết định cập nhật dữ liệu
Chức năng này dựa vào thông tin đã lưu trữ của những lần cập nhật trước và thông tin
về các tập tin có trong ngân hàng dữ liệu của thế giới để xác định xem tập tin nào cần
cập nhật lại, tập tin nào cần lấy về. Thông tin về các tập tin đã được lấy về có trong tập
“received.log”, các tập tin mới đang cần lấy về có trong “received_new.log”. Với các
16
tập tin dữ liệu nào lấy về bị lỗi sẽ được lưu trữ trong “received_error.log”. Phương
pháp này hiệu quả hơn vì ta chỉ cần tải về các tập tin cần thêm vào cơ sở dữ liệu. Với
việc lưu trữ các tập tin cập nhật bị lỗi sẽ giúp cho người quản trị hệ thống kiểm tra lại
nguyên nhân gây ra lỗi, nhằm nâng cao hiệu suất cập nhật của hệ thống cho những lần
sau.
2.2.2.3 Lấy dữ liệu tự động
Đây là chức năng thực hiện việc kết nối với máy chủ chứa dữ liệu và thực hiện việc lấy
dữ liệu về thông qua quyết định của người quản lý trong tập tin “download.log”. Thông
tin của tập tin cấu hình được định dạng như sau:
<Tên quốc gia cần lấy dữ liệu>@<đường dẫn đầy đủ đến thư mục>
Ví dụ: Muốn lấy dữ liệu từ máy chủ của NCBI cho quốc gia Việt Nam, sẽ có dạng như
sau:
Viet Nam@
2.2.2.4 Phân tích dữ liệu mới cần lấy về
Một trong những chức năng quan trọng nhất của hệ thống đó là làm như thế nào để xác
định được dữ liệu mới nhất từ các ngân hàng dữ liệu sinh học trên thế giới. Từ đó, hệ
thống đưa ra quyết định lấy dữ liệu mới về. Việc xác định và phân tích dữ liệu mới

nhất từ các ngân hàng trên thế giới của hệ thống sẽ dựa vào tập tin influenza_na.dat
trên hệ thống của NCBI. Tập tin này sẽ được hệ thống NCBI cập nhật thường xuyên
khi có một trình tự virus mới được công bố [4]. Hệ thống có một mô đun làm nhiệm vụ
so sánh dữ liệu hiện có với dữ liệu trên NCBI theo lịch trình đã định trước, khi phát
hiện có dữ liệu mới thì mô đun này sẽ kích hoạt chức năng lấy dữ liệu mới về.

2.2.3 Hoạt động của hệ thống cập nhật
Để hiểu rõ hơn về cách thức hoạt động của hệ thống, chúng ta cần tìm hiểu về thông tin
lưu trữ trên hai hệ thống của NCBI và DDBJ. Đây là hai hệ thống chính mà hệ thống
cập nhật tự động cơ sở dữ liệu virus cúm sẽ kết nối để lấy dữ liệu về.
17

2.2.3.1 Thông tin truy cập trên hệ thống của NCBI
NCBI cung cấp các tập tin cho phép truy cập thông tin tổng quan về các trình tự
Nucleotide, Protein của virus cúm đã được giải mã trên thế giới. Thông tin tại hệ thống
này luôn được cập nhật mới [4]. Khi một trình tự sinh học được công bố thì các ngân
hàng trong hệ thống INSDC sẽ cấp phát cho trình tự đó một mã số truy cập duy nhất,
mã số này được gọi là ACCESSION của trình tự. Với thông tin này, người sử dụng có
thể truy xuất trực tiếp nội dung chi tiết các trình tự đã được các phòng thí nghiệm
nghiên cứu và công bố thông qua mã số truy cập của trình tự.

2.2.3.2 Cơ sở dữ liệu từ NCBI
Hệ thống thông tin virus cúm của NCBI cung cấp đầy đủ các thông tin tổng quan về
các trình tự virus cúm đã được giải mã trên toàn thế giới.
Tại địa chỉ truy cập sẽ cung
cấp cho người sử dụng các tập tin sau:
 genomeset.dat – Tập tin chứa dữ liệu tổng quan về gen
 influenza_na.dat – Tập tin chứa dữ liệu tổng quan về nucleotide
 influenza_aa.dat – Tập tin chứa dữ liệu tổng quan về protein
Để hiểu rõ hơn về nội dung các tập tin, ta cần xem phần mô tả các thuộc tính trong

các tập tin.
 Accession number: Mã số truy cập của trình tự, mã số này sẽ được cấp phát duy
nhất khi một trình tự sinh học được giải mã thông qua tổ chức INSDC.
 Host : Động vật chủ (động hoặc thực vật mà virus bám vào)
 Genome segment number: Số đoạn gen
 Subtype: Chủng loại
 Country: Quốc gia
 Year/month/date: Ngày thu thập mẫu virus
18
 Sequence length: Chiều dài chuỗi trình tự
 Virus name: Tên Virus
 Age: Tuổi, được chỉ định khi động vật chủ là con người
 Gender: Giới tính, được chỉ định khi động vật chủ là con người
 Full-length : Tập tin influenza_na.dat và influenza_aa.dat có thêm thuộc tính
Full-length. Thuộc tính này sẽ nhận giá trị yes khi số đoạn gen của trình tự đã
được giải mã xong.
Ví dụ về nội dung của tập tin influenza_na.dat
Bảng 2.1: Nội dung của tập tin influenza_na.dat trên hệ thống NCBI
Accession Host Seg
ment
Sub-
type
Country Year Length Virus Name Age Gen
der
Full-
Lengt
h
EF566212 Avian 6 H5N1 Viet Nam 2005 1331 Influenza A virus
(A/Chicken/Viet
Nam/NCVD09/2005

(H5N1))
yes
EF566199 Avian 4 H5N1 Viet Nam 2005/
01/24
1709 Influenza A virus
(A/Chicken/Viet
Nam/NCVD10/2005
(H5N1))
yes
EF566213 Avian 6 H5N1 Viet Nam 2005 1330 Influenza A virus
(A/Chicken/Viet
Nam/NCVD10/2005
(H5N1))
yes
EF566198 Avian 4 H5N1 Viet Nam 2005 1709 Influenza A virus
(A/Chicken/Viet
Nam/NCVD12/2005
(H5N1))
yes
EF566214 Avian 6 H5N1 Viet Nam 2005 1331 Influenza A virus
(A/Chicken/Viet
Nam/NCVD12/2005
(H5N1))
yes
EU124169 Avian 4 H5N1 Viet Nam 2005/
08/10
1729 Influenza A virus
(A/Chicken/Vietnam
/Binh
Duong477/2005(H5

N1))
yes
EU124168 Avian 4 H5N1 Viet Nam 2005/
11/21
1736 Influenza A virus
(A/Chicken/Vietnam
/Long An
636/2005(H5N1))
yes

2.2.3.3 Cơ sở dữ liệu từ DDBJ
DDBJ là một ngân hàng có các hệ thống công nghệ thông tin phục vụ cho các nhà
nghiên cứu Sinh tin học khá đầy đủ. Một trong số những hệ thống rất hữu ích đó là hệ
19
thống WABI (Web API for Biology) [13][14]. Thông qua các hàm API mà hệ thống
này cung cấp, người dùng có thể biết được số lượng và tỷ lệ A, T, G, C của một trình
tự sinh học, lấy nội dung chi tiết của một trình tự,… từ máy chủ của DDBJ về máy tính
của mình. Hình 2.3 sẽ cho chúng ta biết số lượt truy cập đến Web Server của DDBJ.

Hình 2.3: Số lượt truy cập Web Server của DDBJ
Ví dụ: Muốn lấy một trình tự sinh học có mã số truy cập (ACCESSION) nào đó, ta làm
như sau:
-Cú pháp của DDBJ:
/>=<ACCESSION>, trong đó ACCESSION là số mã truy cập của trình tự cần lấy về.
-Với ACCESSION là GU186747, ta có hàm truy xuất như sau:
/>= GU186747
Sẽ cho kết quả như sau:
LOCUS GU186747 1372 bp cRNA linear VRL 25-NOV-2009
DEFINITION Influenza A virus (A/Muscovy duck/Ca Mau/07-04/2007(H5N1))
segment 6 neuraminidase (NA) gene, complete cds.

ACCESSION GU186747

×