ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Văn Sáu
NGHIÊN CỨU SỰ PHÁT TRIỂN CỦA VIRUT CÚM
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: khoa học máy tính
HÀ NỘI – 2009
1
Mục lục
Mục lục 1
L
ời nói đầu 3
Chương I. Giới thiệu về sinh học phân tử và tin-sinh học 4
1. Gi
ới thiệu về sinh học phân tử 4
2. Gi
ới thiệu về tin-sinh học 5
2.1. S
ắp hàng đa chuỗi 5
2.2. Cây ti
ến hóa 7
Chương II. Virut cúm 8
1.Sơ lược về virut cúm 8
2. Các lo
ại virut cúm 8
3. C
ấu trúc và tính chất 9
4. M
ột số thống kê và sự lây lan của virut cúm 10
4.1. M
ột số thống kê về dịch cúm 10
4.2. S
ự lây lan của virut cúm 12
Chương III. Ngân hàng gene virut cúm 13
1. Gi
ới thiệu tổng quan 13
2. Các ch
ức năng đã xây dựng 13
2.1. Quá trình xây d
ựng ngân hàng gene 14
2.1.1. Quá trình thu th
ập dữ liệu chi tiết cho Việt Nam 15
Nghiên cứu sự phát triển của virut cúm
2
2.1.2. Xây dựng cơ sở dữ liệu 16
2.2. Tìm ki
ếm các chuỗi 21
2.3. Ti
ện ích tải chuỗi 23
2.4.
Tiện ích sắp hàng đa chuỗi 23
2.5.
Tiện ích xây dựng cây tiến hóa 24
2.6. B
ản đồ phân bố của virut cúm 25
2.6. Bi
ểu đồ thống kê về virut cúm 28
Tài li
ệu tham khảo 31
Các hình
ảnh tham khảo 33
Các b
ảng tham khảo 35
Nghiên cứu sự phát triển của virut cúm
3
Lời nói đầu
Tin-sinh học (Bioinformatics) là một lĩnh vực nghiên cứu đang phát triển rất
m
ạnh mẽ. Tin-sinh học áp dụng những phương pháp trong tin học để giải quyết
các bài toán trong sinh h
ọc phân tử. Với sự phát triển mạnh mẽ của công nghệ sinh
h
ọc, một khối lượng lớn dữ liệu sinh học phân tử (gene, protein, genome) đã được
thu th
ập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giới như NCBI (National
Center for Biotechnology Information). Tin sinh học hiện đang được ứng dụng
ph
ổ biến trong sinh học phân tử, y-dược học, nông nghiệp, công nghệ thực phẩm,
môi trường và kiểm soát bệnh.
Hi
ện nay, tin-sinh học đang được ứng dụng rộng trong việc phát hiện và
ki
ểm soát bệnh. Một trong các ứng dụng cụ thể là kiểm soát bệnh cúm, với các
d
ịch bệnh đang lây lan như cúm gia cầm H5N1, cúm H1N1. Để góp phần vào việc
cung c
ấp thông tin, cũng như các công cụ phân tích cho việc kiểm soát bệnh cúm ở
Việt Nam, đề tài tập trung vào những mục tiêu chính sau: (1) cung cấp dữ liệu về
cúm trên thế giới và Việt Nam, (2) cung cấp các công cụ phân tích cơ bản như tìm
ki
ếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung cấp dữ liệu về virut cúm
chi ti
ết tới từng tỉnh thành của Việt Nam, (4) cung cấp bản đồ phân tán của virut
cúm trên th
ế giới và cho các tỉnh thành ở Việt Nam, (5) cung cấp biểu đồ thống kê
virut cúm cho các vùng c
ủa Việt Nam, và trên thế giới”.
Đề tài hy vọng sẽ góp phần vào việc nghiên cứu và kiểm soát các dịch bệnh
liên quan đến virut cúm ở Việt Nam.
Nghiên cứu sự phát triển của virut cúm
4
Chương I. Giới thiệu về sinh học phân tử và tin-sinh học
1. Giới thiệu về sinh học phân tử
Mọi cơ thể sống đều cấu tạo từ các tế bào.
T
ế bào có cấu tạo gồm vỏ và nhân, trong đó
nhân tế bào chứa ADN (hoặc ARN). Hình
1 mô t
ả cấu tạo của tế bào.
ADN (acid deoxyribo nucleic) mang
thông tin di truy
ền, được cấu tạo từ 4 thành
ph
ần cơ bản (gọi là các nucleotide –
Brown, 2000) Adenine (A), Cytosine (C),
Guanine (G), Thymine (T)
như hình 2.
Trong các chu
ỗi ADN, một số đoạn được
gọi là gene mang thông tin di truyền của các
loài sinh v
ật. Các nucleotide trong gene sẽ
kết hợp với nhau để tổng hợp ra protein. Cụ
thể là, một bộ ba nucleotide liên tiếp sẽ tạo
ra 1 axit amin. Có 20 lo
ại axit amin khác
nhau (Brown, 2002) là Phe (Phenylalanine),
Leu (Leucine), Ser (Serine), Tyr (Tyrosine),
Cys (Cysteine), Trp (Tryptophan), Pro (Pro-
line), His (Histidine), Gln (Glutamine), Arg
(Arginine), Ile (Isoleucine), Thr (Threonine), Asn (Asparagine), Lys (Lysine), Val
(Valine), Ala (Alanine), Asp (Aspartic Acid), Glu (Glutamic Acid), Gly (Glycine).
Hình 3 mô t
ả sự kết hợp của các ADN để tạo ra các axit amin. Từ các axit amin
này t
ạo nên các protein bằng cách liên kết với nhau. Sự sắp xếp khác nhau và số
lượ
ng khác nhau của các axit amin tạo thành vô số các protein khác nhau.
Nghiên cứu sự phát triển của virut cúm
5
ARN (Ribonucleic acid) cũng tương
tự như ADN nhưng trong thành phần cơ
bản của nó thì T được thay bằng U (Uracil).
2. Giới thiệu về tin-sinh học
Trong phần này chúng tôi sẽ trình bày một
số bài toán cơ bản trong tin
-sinh học như 1.
Sắp hàng đa chuỗi, 2. Cây tiến hóa.
2.1. Sắp hàng đa chuỗi
Trong quá trình tiến hóa của các loài sinh vật, các chuỗi ADN bị biến đổi do 3
phép biến đổi chính là (Brown, 2002).
1.
Thay thế là một hoặc vài nucleotide bị thay thế bởi một hoặc vài nucleo-
tide
khác trong chuỗi.
2.
Chèn là một hoặc vài nucleotide được chèn thêm vào chuỗi cũ.
3.
Xóa là một hoặc một vài nucleotide bị xóa đi ở chuỗi cũ.
Do 3
phép biến đổi chính ở trên làm cho các ADN sinh vật bị thay đổi. Vì
thế, để biết được mối quan hệ giữa các loài sinh vật (ADN) chúng ta phải dùng sắp
hàng đa chuỗi để tìm ra mối quan hệ này
.
Gióng hàng các chu
ỗi ADN, ARN hay protein là cách gióng sao cho chúng
gi
ống nhau nhất. Các chuỗi này sau khi gióng hàng sẽ có cùng chiều dài. Trường
hợp đơn giản nhất của gióng hàng là sắp hàng
2 chuỗi.
Nghiên cứu sự phát triển của virut cúm
6
Sắp hàng 2 chuỗi là trường hợp riêng của sắp hàng đa chuỗi. Ví dụ chúng ta
có hai chu
ỗi ADN của Human và Chimpanzee như bảng 1 dưới đây.
Sau khi gióng hàng hai chuỗi thì hai chuỗi sẽ có chiều dài bằng nhau như
bảng
2 bên dưới (Waterman, 2000).
Gióng hàng đa chuỗi là thực hiện tìm sự giống nhau của nhiều chuỗi thay
cho m
ột cặp như gióng hàng 2 chuỗi. Ví dụ, ta có gióng hàng đa chuỗi của 8 chuỗi
sau
ở bảng 3 (Waterman, 2000; Higgins, 2003).
Nghiên cứu sự phát triển của virut cúm
7
Hiện tại có một số phần mềm sắp hàng đa chuỗi được sử dụng rộng rãi là
MUSCLE (Edgar, R.C., 2004), CLUSTALAW (Thompson et al., 1994) hoặc T-
COFFEE (Notredame et al., 2000).
Sắp hàng đa chuỗi tạo ra tệp kết quả là đầu vào
để cho ta tìm ra cây tiến hóa giữa các loài
. Cây tiến hóa chính là biểu diễn trực
quan của mối quan hệ giữa các loài
.
2.2. Cây tiến hóa
Cây tiến hóa là biểu diễn mối quan hệ tiến hóa giữa các loài sinh vật một cách trực
quan dưới dạng cây
. Dựa vào cây tiến hóa người ta có thể xác định được loài nào
có quan h
ệ nguồn gốc với loài nào.
Trong nghiên c
ứu về virut
cúm, thông qua cây ti
ến hóa người
ta xác định được loài virut nào có
quan h
ệ tiến hóa từ loài virut nào,
tức là xác định được sự lây lan virut
t
ừ nơi này qua nơi khác thông qua
quan hệ nguồn gốc giữa chúng. Từ
đó, người ta đề
ra các biện pháp
phòng, ch
ống lây lan dịch tốt hơn.
Trong hình 4 là ví dụ mô tả về cây
ti
ến hóa của các loài virut cúm ở
Việt Nam từ năm
2001 đến 2007
(Wan X-F, Nguyen T, Davis -CT,
Smith CB, Zhao Z-M, et al, 2008),
ta th
ấy virut HK79-like, GX22-like,
F1-like có chung m
ột gốc và nằm ở
2 nhánh nên chúng có quan hệ nguồn gốc với nhau. Hiện tại có phần mềm thông
dụng sinh ra cây tiến hóa như CLUSTALAW (Thompson et al., 1994), PHYLIP
(Joe Felsenstein, mid-1995)
và phần mềm xem cây tiến hóa như TreeView (Ro-
deric D. M. Page, 2000).
Nghiên cứu sự phát triển của virut cúm
8
Chương II. Virut cúm
1.Sơ lược về virut cúm
Virut cúm được biết đến từ một trận dịch cúm xuất phát từ chim ở Tây Ban Nha
vào năm 1918 đã giết chết khoảng 40-50 triệu người (khoảng một nửa dân số thế
giới vào thời điểm đó - Theo thống kê của tổ chức y tế thế giới WHO). Cho đến
ngày hôm nay, các nhà khoa h
ọc mới giải mã được cách mà loại virut cúm này
t
ừng làm kinh hoàng thế giới bằng cách lây từ vật sang người và gây bệnh, vượt
qua ranh gi
ới về loài.
Virut cúm tên khoa h
ọc là influenza virus, thường được gọi là cúm (flu), là
tác nhân gây b
ệnh truyền nhiễm từ chim và động vật có vú, nó là virut ARN thuộc
h
ọ Orthomyxoviridae (Voyles, 2002). Dưới đây ta sẽ tìm hiểu các loài virut chính
thường gặp nhất
.
2. Các loại virut cúm
Virut cúm là virut ARN của họ Orthomyxoviridae (Voyles, 2002), gồm có 3 loại
chính
cúm A, cúm B, cúm C (CDC).
Cúm A là lo
ại virut cúm phổ biến thường gặp trong các trận dịch (hầu hết các
tr
ận dịch xảy ra đều là cúm A như hình 5). Cúm A có 15 tuýp từ H1 đến H15
(CDC)
. Cho đến nay tất cả các tuýp virut cúm được biết đều đã được tìm thấy ở
các loài chim di cư và chim sống gần nước (xem ở hình 5). Chúng có thể xâm
nh
ập mà không gây triệu chứng gì trong đường ruột, dạ dày của vật chủ.
Nghiên cứu sự phát triển của virut cúm
9
Cúm B là một loại virut cúm
thường gây bệnh ở người, thường
gây b
ệnh nhẹ và xảy ra ít hơn so
với cúm A. Người ta mới chỉ phát
hi
ện ra một loài vật khác bị
nhiễm cúm B là loài hải cẩu. Loại
cúm B này có t
ần số thay đổi 2-3
l
ần và ít hơn sự thay đổi của cúm
A.
Cúm C là m
ột loại virut cúm
gây b
ệnh chủ yếu ở người và lợn,
có th
ể gây ốm và lây lan cục bộ.
Cúm C g
ặp ít hơn hai loại cúm A, cúm B rất nhiều và thường gây ốm nhẹ ở trẻ
em. Tính chất dễ gây bệnh và lây lan của virut chính là do đặc điểm về cấu trúc
genome của virut gây nên
. Dưới đây chúng ta nói rõ hơn về cấu trúc và tính chất
này.
3. Cấu trúc và tính chất.
Cúm A, B và C có cấu trúc tương tự nhau. Chúng có chiều dài khoảng 80-120 na-
nomet và thường có hình cầu, mặc dù có cả hình sợi (NBCI GenBank).
Genome là thành ph
ần lõi của virut. Virut cúm có 8 đoạn (với cúm A và B)
và 7 đoạn (đối với cúm C) trong bộ genome của chúng (Nippon Rinsho, 1997).
Trong GenBank người ta lần lượt ký hiệu các đoạn này theo số từ 1 đến 8 là 1
(PB2), 2 (PB1), 3 (PA), 4 (HA), 5 (NP), 6 (NA), 7 (M1 và M2), 8 (NS1 và NS2)
đối với cúm A và B. Đối với cúm C thì 7 đoạn là 1 (PB2), 2 (PB1), 3 (P3), 4 (HE),
5 (NP), 6 (MP), 7 (NS) (Nippon Rinsho, 1997). Genome c
ủa cúm A và B mã hóa
11 lo
ại protein là hemagglutinin (HA), neuraminidase (NA), nucleoprotein (NP),
M1, M2, NS1, NS2 (NEP), PA, PB1, PB1-F2 và PB2. Còn genome c
ủa cúm C
Nghiên cứu sự phát triển của virut cúm
10
mã hóa 9 loại protein PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 (NCBI, Gen-
Bank).
Hai protein quan trọng của virut cúm là HA và NA.
Virut cúm có 2 protein l
ớn HA và NA (nhưng đơn giản) hầu như quy định
tính độ
c hại của virut. HA là đoạn liên kết của virut tới tế bào vật thể bị lây sang,
trong khi NA là bao g
ồm thay đổi của virut mới sinh ra từ những tế bào bị nhiễm
b
ằng cách chia tách phân tử này. Vì thế, những protein được sinh ra từ biến đổi
này có tính kháng thu
ốc. Do đó, chúng được gọi là những gen kháng (antigen).
Cúm A được phân loại dựa vào kiểu trên kháng thể tương ứng HA và NA, ví dụ:
H5N1.
Coding region c
ủa một gene là một phần của ADN hoặc ARN mà nó làm
nhi
ệm vụ sao chép phiên mã sang ARN khác, giống như ARN thông tin hoặc một
ARN không mã hóa
(cho trường hợp chuyển ARN hoặc một ribosom ARN). Một
đoạn mang phiên mã có thể dùng để giải mã protein. Đối với đoạn này thì nó
không ch
ứa những vùng gene như vị trí nhận dạng, chuỗi lặp, hoặc chuỗi kết thúc.
Chính do cấu trúc và tính chất genome của virut cúm làm cho chúng dễ gây
bệnh
. Sau đây là một số thông kê về dịch cúm.
4. Một số thống kê và sự lây lan của virut cúm
Dịch cúm H5N1, H1N1, bùng phát đã làm kinh hoàng loài người kể từ trận đại
dịch cúm Tây Ban
Nha 1918 và đến nay nó vẫn là một trong những dịch hết sức
nguy hiểm đối với loài người
. Sau đây, chúng ta điểm qua những trận dịch trong
lịch sử
.
4.1. Một số thống kê về dịch cúm
Các trận đại dịch kinh hoàng trong lịch sử được thống kê trong bảng 4 dưới đây.
Nghiên cứu sự phát triển của virut cúm
11
Các trận dịch cúm xảy ra gần đây (bảng 5).
Theo thống kê của tổ chức y tế thế giới WHO “Cumulative Number of Confirmed
Human Cases of A-vian Influenza A/(H5N) Reported to WHO 3 April 2008 ”.
Để hiểu rõ hơn virut cúm truyền bệnh như thế nào, chúng ta sẽ tìm hiểu
trong phần “sự lây lan của virut cúm” ở phần dưới đây
.
Nghiên cứu sự phát triển của virut cúm
12
4.2. Sự lây lan của virut cúm
Thông thường virut cúm không
th
ể lây nhiễm trực tiếp sang
người mà phải thông qua vật
ch
ủ trung gian như lợn, gà,…
Khi
ở trong vật thể trung gian
này thì virut t
ừ người và virut
cúm c
ủa một loài khác sẽ kết
h
ợp với nhau bằng cách trao đổi
các thành ph
ần trong tế bào của
chúng để tạo nên loại virut cúm
m
ới có khả năng gây bệnh ở
ngườ
i. Có hai quá trình lây lan
c
ủa virut cúm là drift và shift.
Chi ti
ết về hai quá trình lây lan
này có th
ể tham khảo từ trung
tâm ngăn chặn và kiểm soát dịch bệnh CDC “ />info/flu-viruses.html”.
Nghiên cứu sự phát triển của virut cúm
13
Chương III. Ngân hàng gene virut cúm
1. Giới thiệu tổng quan
Luận án này nghiên cứu về sự phát triển của virut cúm. Công việc của luận án là
xây d
ựng một ngân hàng gene virut cúm cho tất cả các nước trên thế giới và chi
ti
ết tới từng tỉnh thành/vùng miền của Việt Nam. Phần mềm này lấy dữ liệu tự
độ
ng từ ngân hàng gene NCBI (một trong 3 ngân hàng gene lớn nhất thế giới
NCBI http:// www.ncbi.nih.gov), tích h
ợp các công cụ phân tích dữ liệu tin sinh
h
ọc tượng tự như của NCBI và “làm rõ thông tin cho hầu hết các chuỗi cập nhật
được về Việt Nam mà chỉ có lượng rất nhỏ thông tin có sẵn khi cập nhật từ NCBI”.
Để góp phần vào việc cung cấp thông tin, cũng như các công cụ phân tích cho việc
ki
ểm soát bệnh cúm ở Việt Nam, đề tài tập trung vào những mục tiêu chính sau
(1) cung c
ấp dữ liệu về cúm trên thế giới và Việt Nam, (2) cung cấp các công cụ
phân tích cơ bản như
tìm kiếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung
c
ấp dữ liệu về virut cúm chi tiết tới từng tỉnh thành của Việt Nam, (4) cung cấp
b
ản đồ phân tán của virut cúm trên thế giới và cho các tỉnh thành ở Việt Nam, (5)
cung c
ấp biểu đồ thống kê virut cúm cho các vùng của Việt Nam, và trên thế giới”.
2. Các chức năng đã xây dựng
- Tự động cập nhật.
- Tìm ki
ếm chuỗi.
- Th
ực hiện sắp hàng đa chuỗi, sinh tệp tin biểu diễn toán học cây tiến hóa.
- Cho phép t
ải tệp tin chứa các chuỗi dạng fasta, genbank, sắp hàng đa chuỗi,
cây ti
ến hóa.
- Xây d
ựng bản đồ phân tán của virut cúm.
- Xây d
ựng biểu đồ thống kê virut cúm.
Nghiên cứu sự phát triển của virut cúm
14
Dưới đây sẽ đi vào trình bày cách xây dựng ngân hàng gen virut cúm như thế nào.
2.1. Quá trình xây dựng ngân hàng gene
Mô hình hoạt động của ngân hàng gen xây dựng như hình 7 bên dưới.
Việc đầu tiên và hết sức quan trọng cho việc xây dựng ngân hàng gene virut cúm
cho Việt Nam là thu thập dữ liệu và thông tin chi tiết các gene của Việt Nam.
Dưới đây là quá trình thu thập này.
Nghiên cứu sự phát triển của virut cúm
15
2.1.1. Quá trình thu thập dữ liệu chi tiết cho Việt Nam
Quá trình thu thập dữ liệu chi tiết cho Việt Nam là quá trình đầu tiên và quan trọng
nhất trong xây dựng ngân hàng gen
e virut cúm cho Việt Nam. Trong khi cập nhật
d
ữ liệu trực tiếp từ NCBI thông qua việc lấy các tệp tin ‘genomeset.dat’, ‘influen-
za.dat’, ‘influenza_aa.dat’, ‘influenza_na.dat’, ‘influenza.faa’, ‘influenza.fna’, ‘in-
fluenza.cds’ chia s
ẻ từ địa chỉ ftp:// ftp.ncbi.nih.gov/genomes/INFLUENZA/. Các
thông tin nh
ận được ở trên trong các tệp tin sẽ được tách ra để cho vào cơ sở dữ
liệu được xây dựng ở bên dưới. Trong các tệp tin này thông tin rõ ràng chuỗi nào ở
tỉnh thành/vùng nào của Việt Nam là rất ít. Vì thế, kết hợp với các tài liệu đáng tin
cậy từ các thông tin tìm kiếm trên các bài báo của các tác giả nghiên cứu virut cúm
ở Việt Nam (các bài báo đăng trên pubmed, thông tin trực tiếp từ tác giả của chuỗi
gen đó, ). Sau đây là một số bài báo trên pubmed có thông tin chi tiết về các tỉnh
thành c
ủa Việt Nam.
1. Evolution of
Highly Pathogenic H5N1
Avian Ifluen-za Viruses in
Vietnam between 2001
and 2007.
2. Multiple Subline-
ages of Influenza A Virus
(H5N1), Vietnam, 2005-
2007.
Các thông tin tìm
được chi tiết về Việt Nam
k
ể trên sẽ được chuẩn hóa
và
được cập nhật vào tệp
tin “listTown.txt” để cập
nh
ật vào cơ sở dữ liệu.
“
listTown.txt” là tệp tin có
d
ạng ký hiệu tỉnh thành
Nghiên cứu sự phát triển của virut cúm
16
/vùng chưa chuẩn hóa => tỉnh thành/vùng của Việt Nam được chuẩn hóa. Ví dụ
thông tin từ một bài báo tìm được (bài báo có dữ liệu năm 2005-2007 ở trên).
Chu
ẩn hóa dữ liệu chi tiết về Việt Nam được cho ở bảng 6.
Sau khi đã có thông tin chi tiết về Việt Nam chúng ta bắt tay vào xây dựng
cơ sở dữ liệu lưu trữ các gene đó
.
2.1.2. Xây dựng cơ sở dữ liệu
Xây dựng cơ sở dữ liệu là
phần tiếp theo sau khi đã
có thông tin chi tiết hầu
hết các gene về Việt Nam
.
Trước hết chúng ta
xây dựng chương trình tự
động cập nhật thông tin từ
NCBI về để xây dựng cơ
sở dữ liệ
u. Để có thể cập
nh
ật dữ liệu người dùng
ph
ải đăng nhập vào hệ
thống để quản lý cập nhật dữ liệu. Từ trang chủ, người dùng chọn tab “Login” để
vào trang đăng nhập như h
ình 9 ở bên. Tên người dùng và mật khẩu của người
dùng được lưu trữ trong cơ sở dữ liệu “users” ở bảng “information” với hai trường
là “user” và “pass”. N
ếu người dùng có thông tin ở trong bảng “information” này
thì s
ẽ được phép quản lý cập nhật cơ sở dữ liệu sau khi đăng nhập thành công như
hình 10.
Nghiên cứu sự phát triển của virut cúm
17
Tự động cập nhật
thông tin các chu
ỗi từ
ngân hàng gene NCBI
theo phương thức ftp từ
đị
a chỉ sau i-
.nih.gov/genomes/INFLU
ENZA/ t
ừ các tệp tin ‘ge-
nomeset.dat’, ‘influez-
a.dat’, ‘influenza_aa.dat’,
‘influenza_na.dat’, ‘influ-
enza.faa’, ‘influenza.f-na’,
‘influenza.cds’ (nh
ững tệp tin tổng hợp dữ liệu từ trước tới thời điểm hiện tại của
NCBI) và />(nh
ững thư mục chứa dữ liệu gần đây được cập nhật) những tệp tin này được tự
độ
ng tải về. Sử dụng module Net::FTP trong perl để thực hiện việc này.
Sau đây là các tệp tin được tải tự động về từ NCBI.
T
ệp genomeset.dat chứa thông tin về accession, host, segment, subtype, country,
year, length, name, age, gender (
như bảng 7).
my $ftp = new NET::FTP(“ /> $ftp->login(“annynomous”, “annynomous”);
$ftp->cwd(“ /> $ftp->get(“filename”);
Nghiên cứu sự phát triển của virut cúm
18
Tệp influenza.cds chứa thông tin về gb(genbank), accession, length, name, seg-
ment, sequence (
như bảng 8).
Tệp influenza.dat chứa thông tin về accession nucleotide (ANuc), accession pro-
tein (APro) (
như bảng 9 bên dưới).
Tệp influenza.faa là tệp tin fasta chứa số accession của nucleotide của GenBank,
s
ố accession của protein của GenBank , chỉ ra là protein coding region, hai trường
ti
ếp theo (nếu có) là lặp lại nếu một chuỗi của nucleotide mã hóa nhiều hơn một
protein và sau cùng là chu
ỗi (bảng 10).
Tệp influenza.fna là tệp tin fasta chứa thông tin về gi|genbank identify|gb| acces-
sion|name và s
au đó là chuỗi (như bảng 11).
Nghiên cứu sự phát triển của virut cúm
19
Tệp influenza_aa.dat là tệp tin chứa thông tin về protein như accession, host, seg-
ment, subtype, country, year, length, name, gender, full length of genomeset (
như
bảng
12).
Tệp influenza_na.dat là tệp chứa thông tin về nucleotide như accession, host, seg-
ment, subtype, country, year, length, name, gender, full length of genomeset (
như
bảng
13).
Cập nhập thêm thông tin chi tiết về Việt Nam từ tệp “listTown.txt” được xây dựng
ở trên. Từ đó xây dựng lên cơ sở dữ liệu influenza có các bảng sau.
B
ảng “genomeset” có các trường accession, host, segment, subtype, country, year,
length, name, age, gender (
bảng 14).
Bảng này cung cấp thông tin cho quá trình tìm kiếm “genomset”.
Nghiên cứu sự phát triển của virut cúm
20
Bảng “coding_region” có các trường acc_nucleotide, host, segment, subtype,
country, year, length, name, age, gerder, acc_protein, title, containt (
như bảng 15
bên dưới).
Bảng này cung cấp thông tin tìm kiếm “coding region”.
B
ảng “nucleotide” có các trường accession, host, segment, subtype, country, year,
length, name, age, gender, title, contain (
như bảng 16).
Bảng “nucleotide” cung cấp thông tin cho quá trình tìm kiếm “nucleotide”.
B
ảng “protein” có các trường accession, host, segment, subtype, country, year,
length, name, age, gender, type, title, contain (
như bảng 17 cho bên dưới).
Bảng “protein” cung cấp thông tin cho quá trình tìm kiếm các protein.
Các
tệp tin được tải tự động ngoài những tệp tin trong thư mục updates của
NCBI là những tệp tin
có định dạng “genbank” và “fasta” của các accession trong
quá trình trích
lấy thông tin từ tệp tin ở thư mực updates. Và chúng sẽ được tự
độ
ng thêm link trong quá trình truy xuất của người dùng để có thể sử dụng khi
Nghiên cứu sự phát triển của virut cúm
21
dùng offline cũng như online. Những file này được chứa tương ứng trong thư mục
“
GENBANK” và “FASTA”.
Sau khi xây d
ựng xong dữ liệu thì việc đầu tiên ngân hàng gen cung cấp
cho người dùng là tìm kiếm chuỗi.
2.2. Tìm kiếm các chuỗi
Người dùng có thể tìm kiếm
các chu
ỗi về protein, nucleo-
tide, coding region, genome
(
ở tab Genomes set) bằng
cách ch
ọn nút radio tương
ứ
ng với phần đó.
Trong phần tìm kiếm
v
ề kiểu virut cúm người
dùng có th
ể chọn kiểu cúm
A, B, C hay b
ất kỳ kiểu cúm
A, B, C nào (any)
trong trường “Virus Species”. Mục “Host” cho phép chọn cúm
gia c
ầm, cúm Blow fly, Trong trường “Country/Region” mặc định ban đầu được
ch
ọn là Việt Nam, người dùng có thể thay đổi chọn nước bất kỳ hoặc tất cả (any)
các nước trên trường này. Mục “Segment/Protein” cho phép người dùng chọn các
segment tương ứng của virut cúm. Trường kế tiếp là “Region of Vietnam” (các
t
ỉnh thành/vùng của Việt Nam) chỉ có tác dụng nếu người dùng chọn Việt Nam
trong ph
ần “Country/Region”. Đây là những lựa chọn cơ bản có tác dụng trong
các ph
ần tìm kiếm chuỗi ở bên dưới. Dưới đây là các kiểu kèm thêm điều kiện tìm
ki
ếm khác.
1.
Tìm kiếm các chuỗi với các điều kiện kèm theo các trường bên dưới cho
phép ch
ọn “subtype” như H5N1, H1N1, chọn chuỗi từ năm nào đến năm nào
trong trườ
ng “From year” (ví dụ: 2000) và “To year” (ví dụ: 2009), hay chọn chiều
dài t
ối thiểu và tối đa của chuỗi trong trường “Min.length” (ví dụ chiều dài nhỏ
Nghiên cứu sự phát triển của virut cúm
22
nhất là 200) và “Max.length” (ví dụ
chiều dài lớn nhất là 1000) hoặc
thông tin có trong ph
ần “name” của
chu
ỗi tìm được trong phần “Search
by a string” (ví d
ụ Vietnam/2003).
2.
Tìm kiếm theo accession
được cho ở trường “Search by ac-
cession
” cho phép chúng ta tìm
ki
ếm theo “accession” (accession là
key trong cơ sở dữ liệu của ngân
hàng gene được quy định chung
cho các ngân hàng gene trên th
ế
giới).
3.
Tìm kiếm với các lựa chọn
cơ bản là phần dưới cùng “Get se-
quences
” cho phép tìm kiếm các
chu
ỗi với các điều kiện đã chọn ở
đầ
u tiên, không bao hàm phần
“search by string”.
K
ết quả chúng ta nhận được
khi tìm ki
ếm như hình 12 bên.
Ph
ần tìm kiếm genomset cũng
tìm kiếm giống như phần tìm kiếm
chu
ỗi nêu ở trên. Hình 13 là giao
di
ện của trang tìm kiếm genomeset.
K
ết quả khi tìm kiếm geno-
set
như hình 14.
Sau khi tìm kiếm chuỗi xong thì
Nghiên cứu sự phát triển của virut cúm
23
việc tiếp theo người dùng có thể rất cần là việc tải các chuỗi đã tìm kiếm được
theo ý muốn của mình
. Dưới đây là phần tiện ích tải chuỗi.
2.3. Tiện ích tải chuỗi
Trong phần kết quả tìm kiếm các chuỗi của ‘protein’, ‘nucleotide’, ‘coding region’
hay ‘genome set’
người dùng có
th
ể lựa chọn tải về các chuỗi theo
lo
ại ‘protein’, ‘nucleotide’ hay
‘coding region’ ho
ặc danh sách
các ‘accesion’ c
ủa ‘protein’ hoặc
‘nucleotide’ v
ới lựa chọn được
tích
ở phần trước tên của acces-
sion. Hình
ảnh minh họa tải tệp tin
dạng FASTA khi người dùng nhấp
vào l
ựa chọn tải chuỗi như hình 15
bên.
D
ạng tệp tin FASTA tải về có định dạng như bảng 18 dưới đây.
Tệp tin chứa các chuỗi tải về chính là đầu vào cho phần “sắp hàng đa chuỗi” để
tìm quan hệ nguồn gốc giữa các loài sinh vật
(xem thêm phần 2.1.Sắp hàng đa
chuỗi
, chương I ở trên).
2.4. Tiện ích sắp hàng đa chuỗi
Phần mềm xây dựng sử dụng phần mềm MUSCLE (Multiple squence comparison
by
log epectation) (Edgar, 2004) version 3.6 tải tại địa chỉ: ve-
Nghiên cứu sự phát triển của virut cúm
24
5.com/muscle để thực
hi
ện sắp hàng đa chuỗi
các chuỗi tìm kiếm được
của người dùng. Phần
m
ềm cho phép người
dùng trực tuyến sử dụng
sắp hàng đa chuỗi tối đa
cho 1000 chuỗi. Nếu vượt
quá con s
ố này sẽ gặp
thông báo l
ỗi và đưa ra
đị
a chỉ trang web cho
người dùng tải công cụ
“muscle” về dùng trên máy của người dùng với đầu vào là tệp tin FASTA chứa
các chu
ỗi mà người dùng có thể tải về được theo tiện ích ở trên. Hình 16 minh họa
k
ết quả của sắp hàng đa chuỗi.
M
ục đích của “Sắp hàng đa chuỗi”(MSA) là đầu vào cho tạo cây tiến hóa
(phylogentic tree) sau này (xem thêm về cây tiến hóa ở mục 2.2. Cây tiến hóa, ở
chương I
bên trên).
2.5. Tiện ích xây dựng cây tiến hóa
Cây tiến hóa là cây xây dựng từ tệp
MSA. Nhìn vào “
cây tiến hóa” mà
chúng ta d
ễ nhận ra loài nào có quan
h
ệ nguồn gốc từ loài nào. Từ đó,
trong phòng chống dịch cúm người
ta có thể phát hiện về sự lây lan,
ngu
ồn gốc của các loài virut mới
xu
ất hiện cũng như sẽ đề ra biện
pháp phòng và ch
ống lây lan dịch
cúm. Hình 17 là ví d
ụ về một cây tiến hóa.