Tải bản đầy đủ (.pdf) (109 trang)

Hợp tác nghiên cứu ứng dụng tin sinh học trong phát triển dịch tễ học phân tử một số virut gây bệnh ở người

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.08 MB, 109 trang )

BỘ KHOA HỌC VÀ CÔNG NGHỆ - BỘ Y TẾ
VIỆN VỆ SINH DỊCH TỄ TRUNG ƯƠNG
*****



BÁO CÁO TỔNG HỢP
NHIỆM VỤ HỢP TÁC QUỐC TẾ KHOA HỌC
VÀ CÔNG NGHỆ THEO NGHỊ ĐỊNH THƯ



TÊN NHIỆM VỤ

HỢP TÁC NGHIÊN CỨU ỨNG DỤNG TIN SINH HỌC
TRONG PHÁT TRIỂN DỊCH TỄ HỌC PHÂN TỬ
MỘT SỐ VIRÚT GÂY BỆNH Ở NGƯỜI




Cơ quan chủ trì: VIỆN VỆ SINH DỊCH TỄ TRUNG ƯƠNG
Chủ nhiệm nhiệm vụ: TS. LÊ THỊ KIM TUYẾN


8185


HÀ NỘI - 2010
BỘ KHOA HỌC VÀ CÔNG NGHỆ - BỘ Y TẾ
VIỆN VỆ SINH DỊCH TỄ TRUNG ƯƠNG


*****



SẢN PHẨM KHOA HỌC VÀ CÔNG NGHỆ
NHIỆM VỤ HỢP TÁC QUỐC TẾ KHOA HỌC
VÀ CÔNG NGHỆ THEO NGHỊ ĐỊNH THƯ



Tên nhiệm vụ

HỢP TÁC NGHIÊN CỨU ỨNG DỤNG TIN SINH HỌC
TRONG PHÁT TRIỂN DỊCH TỄ HỌC PHÂN TỬ
MỘT SỐ VIRÚT GÂY BỆNH Ở NGƯỜI




Cơ quan chủ trì: VIỆN VỆ SINH DỊCH TỄ TRUNG ƯƠNG
Chủ nhiệm nhiệm vụ:
TS. LÊ THỊ KIM TUYẾN









HÀ NỘI – 2010
MỤC LỤC

MỞ ĐẦU
1

Chương 1. TỔNG QUAN
3
1.1. CÔNG NGHỆ TIN SINH HỌC
3
1.1.1. Khái niệm về Tin sinh học
3
1.1.2. Lĩnh vực nghiên cứu chính của tin sinh học
4
1.1.2.1. Phân tích trình tự
4
1.1.2.2. Tìm kiếm gen
5
1.1.2.3. Dò tìm đột biến
5
1.1.2.4. So sánh trình tự
6
1.1.2.5. Bảo tồn đa dạng sinh học
6
1.1.3. Công cụ phần mềm Tin sinh học
7
1.1.3.1. Phần mềm Tin sinh học miễn phí
7
1.1.3.2. Phần mềm Tin sinh học thương mại
8

1.1.3.3. Phần mềm Tin sinh học bản quyền BioNumerics
8
1.2. ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU DỊCH TỄ HỌC PHÂN TỬ BỆNH
Ở NGƯỜI

9

1.2.1. Khái niệm về Dịch tễ học phân tử
9
1.2.2. Dịch tễ học phân tử bệnh sởi
11
1.2.2.1. Virút sởi
11
1.2.2.2. Nghiên cứu dịch tễ học phân tử bệnh sởi
11
1.2.3. Dịch tễ học phân tử bệnh Rubella
14
1.2.3.1. Virút Rubella
14
1.2.3.2. Nghiên cứu dịch tễ học phân tử bệnh Rubella
15
1.2.4. Ứng dụng Tin sinh học trong nghiên cứu Dịch tễ học phân tử
16

Chương 2 - PHƯƠNG PHÁP NGHIÊN CỨU
19
2.1. CHUYỂN GIAO CÔNG NGHỆ TIN SINH HỌC ỨNG DỤNG TRONG NGHIÊN CỨU
DỊCH TỄ HỌC PHÂN TỬ VIRÚT GÂY BỆNH Ở NGƯỜI

19


2.1.1. Đào tạo và chuyển giao Công nghệ Tin sinh học tại Pháp
19
2.1.1.1. Đào tạo kiến thức về Công nghệ Tin sinh học
19
2.1.1.2. Chuyển giao Công nghệ Tin sinh học trong chọn lựa phần mềm phù hợp
20
2.1.2. Đào tạo và chuyển giao Công nghệ Tin sinh học tại Việt Nam
21
2.2. ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU ĐẶC ĐIỂM GENOTYP CHỦNG
VIRÚT SỞI VÀ RUBELLA LƯU HÀNH TẠI CÁC VÙNG ĐỊA LÝ DÂN CƯ
22

2.2.1. Phương pháp Sinh học phân tử ứng dụng trong phân tích genotyp chủng
virút sởi và Rubella
22

2.2.1.1. Vật liệu
22
2.2.1.2. Gây nhiễm chủng virút trên nuôi cấy tế bào
23
2.2.1.3. Tách chiết ARN virút
23
2.2.1.4. Phương pháp nhân gen bằng RT-PCR và Nested PCR
24
2.2.1.5. Phương pháp RFLP
25
2.2.1.6. Phương pháp multiplex realtime PCR
25
2.2.1.7. Phương pháp xác định trình tự nucleotit

27
2.2.2. Phân tích genotyp chủng virút sởi và Rubella bằng phần mềm Tin sinh học
BioNumerics
28

2.2.2.1. Phân tích genotyp chủng virút bằng phần mềm “BioNumerics sequence”
28
2.2.2.2 Phân tích genotyp chủng virút bằng phần mềm “BioNumerics fingerprint”
28
2.2.2.3. Dựng cây phả hệ phát sinh loài bằng phần mềm “BioNumerics Tree and
Netword Inference”
29


Chương 3. KẾT QUẢ VÀ BÀN LUẬN
31
3.1. HỢP TÁC NGHIÊN CỨU VÀ CHUYỂN GIAO CÔNG NGHỆ TIN SINH HỌC ỨNG
DỤNG TRONG DỊCH TỄ HỌC PHÂN TỬ

31

3.1.1. Kết quả nghiên cứu và chuyển giao Công nghệ Tin sinh học
31
3.1.2. Kết quả so sánh và chọn lựa các chương trình Tin sinh học phù hợp
31
3.2. KẾT QUẢ ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU ĐẶC ĐIỂM
GENOTYP CHỦNG VIRÚT SỞI VÀ RUBELLA LƯU HÀNH TẠI CÁC VÙNG ĐịA LÝ DÂN
CƯ KHÁC NHAU

34



3.2.1. Giải trình tự nucleotit đoạn gen quan trọng của virút sởi
34
3.2.1.1. Tách chiết ARN virút sởi
34
3.2.1.2. Kết quả RT-PCR và Nested PCR nhân đoạn gen Nucleocapsit N virút sởi
35
3.2.1.3. Kết quả giải trình tự đoạn ADN đặc hiệu nucleoprotein N virút sởi
37
3.2.1.4. Kết quả RFLP phân tích tính đa dạng đoạn ADN gen N virút sởi
40
3.2.2. Giải trình tự nucleotit đoạn gen glycoprotein E1 virút Rubella
43
3.2.2.1. Tách chiết ARN virút Rubella
43
3.2.2.2. Kết quả RT-PCR khuếch đại ADN gen E1 virút Rubella
43
3.2.2.3. Giải trình tự nucleotit gen E1 virút Rubella
45
3.2.3. Kết quả multiplex realtime PCR xác định virút sởi và Rubella
47
3.2.3.1. Kết quả mutliplex PCR
47
3.2.3.2. Kết quả mutliplex realtime PCR
49
3.2.4. Ứng dụng phần mềm BioNumerics trong xác định genotyp chủng virút sởi & Rubella
52
3.2.4.1. Kết quả chọn lựa chương trình phần mềm Tin sinh học phù hợp
52

3.2.4.2. Kết quả ứng dụng phần mềm BioNumerics trong phân tích genotyp virút
sởi và Rubella
54

3.2.4.3. Bản đồ dịch tễ phân bố các genotyp virút sởi và Rubella
60
3.2.5. Đánh giá hiệu quả về khoa học công nghệ
62

Chương 4. KẾT LUẬN
64

TÀI LIỆU THAM KHẢO
66

PHỤ LỤC
70


1
MỞ ĐẦU

Trong vài thập kỷ qua, Sinh học phân tử được đánh giá là một ngành khoa học
với những bước phát triển mạnh mẽ. Hàng loạt công cụ ứng dụng sinh học ra đời góp
phần thúc đẩy quá trình phân tích và giải mã các dữ liệu thông tin thu được từ các
nghiên cứu sinh học ở mức độ phân tử ADN. Có thể nói chưa bao giờ thông tin sinh
học trở nên phong phú và đa dạng như hiện nay. Để giải mã khối luợng thông tin đồ sộ
như vậy, Công nghệ thông tin đã được ứng dụng vào Sinh học một cách khá triệt để.
Tin sinh học ra đời, chính là sự kết hợp khoa học giữa Công nghệ thông tin và các
thành tựu nghiên cứu sinh học ở mức độ phân tử ADN.

Những thành tựu của Tin sinh học đã hỗ trợ mạnh mẽ trong việc đưa Sinh học,
Y học vào giải quyết những công việc thực tiễn, thúc đẩy nhanh quá trình chẩn đoán
bệnh, tìm ra các y dược phẩm mới, vắcxin phòng dịch, kít chẩn đoán Tin sinh học
còn là công cụ hữu ích trong việc xử lý các dữ liệu thông tin về trình tự ADN của các
bộ gen, lập bản đồ phát sinh và phân bố các genotyp của các loài vi sinh lưu hành theo
vùng địa lý và theo thời gian. Điều này là cần thiết trong nghiên cứu giám sát dịch tễ
học phân tử nhằm ngăn chặn dịch bệnh nguy hiểm ở người.
Lĩnh vực Tin sinh học vô cùng phát triể
n trên Thế giới. Việc đưa Tin học vào
Sinh học đã và đang được quan tâm bởi hầu hết các nước phát triển. Trong khu vực
Châu Á, các nước như Trung Quốc, Hàn Quốc, Nhật Bản đã và đang có những đột phá
trong lĩnh vực này. Đối với Việt Nam, Tin sinh học là ngành khoa học non trẻ và cũng
chỉ xuất hiện ở các Viện nghiên cứu và trong một vài trường Đại học lớn và cũng chỉ
dừ
ng lại ở trong giới nghiên cứu về Công nghệ sinh học. Điều thiết yếu cần có trong
Tin sinh học là những ngân hàng dữ liệu cho phép mọi người dễ dàng truy cập thông
tin. Thứ hai nữa là cần có những phần mềm tin học làm công cụ để phân tích những dữ
liệu trong ngân hàng sinh học này. Tuy nhiên, ở nước ta, việc tạo ra các sản phẩm phần
mềm để đưa vào áp dụng vô cùng hiếm hoi. Đội ngũ những ng
ười làm Tin sinh học
còn hạn hẹp. Để có được những ngân hàng dữ liệu đặc hiệu cho hoàn cảnh Việt Nam,
cần có một môi trường nghiên cứu phát triển thuận lợi nhằm tạo ra nhu cầu cho Tin

2
sinh học. Việc đào tạo một đội ngũ chuyên gia về Tin sinh học là điều quyết định cho
sự thành công của việc phát triển Tin sinh học. Đội ngũ này đòi hỏi không những chỉ
nắm bắt được trình độ tư duy toán học của Tin học mà còn phải thông hiểu những vấn
đề hiện nay của Sinh học. Việc đào tạo kỹ năng nghiên cứu độc lập và khả n
ăng cộng
tác với các đồng nghiệp trên Thế giới của đội ngũ khoa học này sẽ là điều kiện thiết

yếu trong quá trình phát triển của Tin sinh học Việt Nam.
Xuất phát từ những đòi hỏi cấp bách và thực tiễn của ngành Tin sinh học Việt
Nam, với định hướng phát triển và ứng dụng công nghệ Tin sinh học trong nghiên cứu
dịch tễ học phân tử, nhiệm vụ hợ
p tác quốc tế giữa Viện Vệ sinh Dịch tễ TƯ và Viện
Pasteur Paris, Pháp “Hợp tác nghiên cứu ứng dụng Tin sinh học trong dịch tễ học
phân tử một số virút gây bệnh nguy hiểm ở người” đã được triển khai nhằm đạt hai
mục tiêu chính:
1. Hợp tác nghiên cứu và chuyển giao công nghệ Tin sinh học (Bioinformatic) ứng
dụng trong Dịch tễ học phân tử một số virút gây bệnh ở người.
2.
Ứng dụng Tin sinh học trong nghiên cứu đặc điểm genotyp của một số chủng virút
(Rubella, sởi) lưu hành tại các vùng địa lý dân cư khác nhau.
Việc xây dựng các ứng dụng Tin sinh học hỗ trợ trong nghiên cứu và chuyển
giao công nghệ Tin sinh học là vô cùng cần thiết, qua đó giúp chúng ta nhanh chóng
hoà nhập với cộng đồng ngoài nước, mở ra cơ hội hợp tác nghiên cứu khoa học với các
nước trong khu vực và trên thế giới. Hơn thế, việc ứng dụng rộng rãi và thành công của
Tin sinh học trong nhiều lĩnh vực Sinh học đóng góp phần thiết yếu trong việc thúc đẩy
phát triển nền Sinh học của một Quốc gia.













3
Chương 1. TỔNG QUAN

1.1. CÔNG NGHỆ TIN SINH HỌC
1.1.1. Khái niệm về Tin sinh học
Tin sinh học (Bioinformatic) chính là sự kết hợp giữa Công nghệ thông tin và
các nghiên cứu Sinh học ở mức độ phân tử ADN. Thuật ngữ Tin sinh học được đặt ra
bởi Paulien Hogeweg vào năm 1978 khởi nguồn từ việc nghiên cứu các quá trình tin
học trong hệ thống kháng sinh. Nói rộng hơn, Tin sinh học còn được biết đến là một
lĩnh vực khoa học sử dụng các ngành toán học ứng dụ
ng, tin học thống kê, khoa học
máy tính, trí tuệ nhân tạo, hoá học và hoá sinh để giải quyết các vấn đề sinh học. Một
thuật ngữ thường được dùng cho Tin sinh học là Sinh học tính toán (computational
biology). Tuy nhiên Tin sinh học thiên về việc phát triển các giải thuật, lý thuyết và các
kỹ thuật thống kê và tính toán để giải quyết các bài toán bắt nguồn từ nhu cầu quản lý
và phân tích dữ liệu sinh học. Trong khi đó Sinh học tính toán thiên về kiểm đị
nh các
giả thuyết (hypothesis) được đặt ra của một vấn đề trong sinh học nhờ máy tính thực
nghiệm trên dữ liệu mô phỏng, với mục đích chính là phát hiện và nâng cao trí thức về
sinh học. Thuật ngữ Tin sinh học và Sinh học tính toán thường được dùng để hoán đổi
cho nhau, mặc dù cái trước, nói một cách nghiêm túc, là tập con của cái sau. Những
mối quan tâm chính trong các dự án Tin sinh học và Sinh học tính toán là việc sử dụng
các công cụ toán học
để trích rút các thông tin hữu ích từ các dữ liệu hỗn độn được thu
thập từ các kỹ thuật sinh học với lưu lượng mức độ lớn [3], [4].
Tin sinh học ngày nay đòi hỏi sự sáng tạo và tiến bộ của cơ sở dữ liệu, thuật
toán, kỹ thuật tính toán thống kê và lý thuyết để giải quyết các vấn để thực tế phát sinh
từ việc quản lý và phân tích dữ liệu sinh học. Trong những thập kỷ qua, với sự kết hợp
giữa sự phát triển nhanh chóng trong nghiên cứu công nghệ gen và các nghiên cứu

phân tử cùng với sự phát triển công nghệ thông tin đã tạo ra một số lượng dữ liệu
khổng lồ của thông tin liên quan đến sinh học phân tử. Có thể nói, “Tin sinh học chính
là tên đặt ra cho các ứng dụng toán học và vi tính để làm sáng tỏ các hiểu biết về các
quá trình sinh học”. Các hoạt động thường g
ặp trong tin sinh học gồm lập bản đồ phát

4
sinh loài, phân tích ADN và các chuỗi protein, kéo dài ADN và các chuỗi protein khác
nhau để so sánh chúng và tạo ra và xem các mô hình 3-D của cấu trúc protein [3], [31].

1.1.2. Lĩnh vực nghiên cứu chính của Tin sinh học
Thực chất Tin sinh học gắn liền với nhiều ngành khoa học khác nhau, nghiên
cứu trên nhiều lĩnh vực khác nhau, nhằm thu thập, lưu trữ và phân tích các dữ liệu sinh
học. Kết quả của những nghiên cứu này tạo ra các phần mềm giúp giải quyết một số
vấn đề xung quanh việc tìm hiểu về gen, protein và một số vấn đề khác liên quan đến
Sinh học phân tử.
1.1.2.1. Phân tích trình tự
Kể từ khi bộ gen của Phage Φ-X174 được xác định trình tự (1977) cho đến nay,
trình tự ADN của rất nhiều loài sinh vật đã được lưu trữ trong các ngân hàng cơ sở dữ
liệu gen. Việc so sánh các gen trong cùng một loài hay giữa các loài khác nhau có thể
cho thấy sự tương đồng về chức năng của protein, hay mối quan hệ phát sinh chủng
loài giữa những loài này thể hiện trên cây phát sinh chủng loài (phylogenetic tree). Với
sự tăng trưởng khổng lồ của dữ liệu loại này, việc phân tích trình tự ADN một cách thủ
công trở nên không thể thực hiện nổi.
Ngày nay, các chương trình máy tính được sử dụng để giúp tìm các trình tự
tương đồng trong bản đồ gen của hàng loạt sinh vật, với số lượng nucleotit trong trình
tự lên đến hàng tỷ. Những chương trình này có thể tìm kiế
m những trình tự ADN
không giống nhau hoàn toàn do các đột biến nucleotit gây nên bởi sự thay thế, mất hay
thêm các gốc bazơ. Thuật ngữ bắt cặp trình tự (sequence alignment) được áp dụng

ngay cả trong quá trình xác định trình tự ADN, là kỹ thuật xác định trình tự đoạn nhỏ
(shotgun sequencing). Kỹ thuật này đã được công ty Celera Genomics sử dụng để xác
định trình tự genom của vi khuẩn Haemophilus influenza. Kỹ thuật xác định trình tự
hiện nay không th
ể tiến hành với cả đoạn ADN lớn cỡ vài chục nghìn nucleotit trở lên
nên cần phải xác định trình tự nhỏ để giải mã hàng nghìn đoạn trình tự với kích thước
khoảng 600-800 nucleotit. Sau đó, những đoạn trình tự nhỏ này được sắp xếp thứ tự và
nối lại với nhau thông qua việc bắt cặp trình tự ở những đầu gối lên nhau (overlap) tạo

5
thành một trình tự genom hoàn chỉnh. Xác định trình tự đoạn nhỏ là kỹ thuật ưu tiên sử
dụng trong hầu hết các nghiên cứu giải mã genom hiện nay và giải thuật lắp ráp genom
(genome assembly algorithms) là một trong những lĩnh vực nóng của tin sinh học.
[2],[3]. Hiện nay, nhiều phòng thí nghiệm tại các Viện nghiên cứu đầu ngành của VN
cũng đang triển khai kỹ thuật lắp ráp genom trong việc xác định trình tự nucleotit hoàn
chỉnh của các genom virút (cúm H5N1, SARS) và đ
ã bước đầu thành công [9], [14].
1.1.2.2. Tìm kiếm gen
Trong nghiên cứu bản đồ gen (genomics), thuật ngữ annotation là quá trình đánh
dấu các gen và các đặc tính sinh học khác trong một chuỗi ADN. Không phải tất cả các
nucleotit bên trong một genom đều là gen. Phần lớn các ADN bên trong genom của
sinh vật bậc cao là các đoạn ADN không phục vụ cho một nhiệm vụ cụ thể nào được
gọi là những đoạn ADN rác. Tin sinh học giúp cho việc tìm kiếm tự động các gen và
những trình tự điều khiển bên trong một genom. Hệ thống phần mềm làm nhiệm vụ
“genome annotation” đầu tiên đã được thiết kế vào năm 1995 bởi Owen White cho giải
mã vi khuẩn Haemophilus influenza. Tác giả White đã xây dựng hệ thống phần mềm
này để tìm kiếm các gen nằm trong chuỗi ADN làm nhiệm vụ mã hoá các protein,
ARNt vận chuyển và các chức năng khác tạo nên chức năng đầu tiên của các gen đó.
Hiện nay, hầu hết các hệ thống genome annotation đề
u hoạt động tương tự nhưng các

chương trình nhằm để phân tích lĩnh vực nghiên cứu bản đồ gen ADN thường xuyên
được cải tiến [3].
1.1.2.3. Dò tìm đột biến
Rất nhiều các nghiên cứu xác định trình tự (sequencing) hiện nay là nhằm tìm
ra các đột biến điểm (point mutation) xảy ra trên các gen khác nhau. Tập các dữ liệu
được tạo ra đòi hỏi các hệ thống tự động đọc những dữ liệu ki
ểu chuỗi này (sequence
data) rồi so sánh trình tự kết quả với các trình tự đã biết trên genom. Những hệ thống
oligonucleotit microarray cho phép nghiên cứu đồng thời hàng trăm ngàn vị trí trên
toàn bản đồ gen đang được sử dụng để xác định những đột biến thêm và mất đoạn
nhiễm sắc thể. Mô hình chuỗi Markov ẩn (Hidden Markov Model) và phương pháp

6
phân tích điểm thay đổi đang được phát triển để có thể suy ra số lượng thực của những
thay đổi từ các dữ liệu thu nhận hỗn độn [3] .
1.1.2.4. So sánh trình tự
Khi so sánh trình tự sinh học, có hai vấn đề được đặt ra, đó là việc so sánh đối
xứng toàn cục và so sánh đối xứng cục bộ. So sánh đối xứng toàn cục là quá trình so
sánh đối xứng cho toàn bộ các phân tử của hai trình tự. Mỗi mộ
t phân tử của một trình
tự sẽ được so sánh đối xứng với một phần tử của trình tự kia hoặc ứng với một ký tự
trống (gap). Khác với so sánh đối xứng toàn cục, so sánh đối xứng cục bộ chỉ thực hiện
việc so sánh đối xứng trên một số phần của các trình tự được so sánh. So sánh đối xứng
cục bộ có ý nghĩa sinh học lớn hơn so sánh toàn cục vì thông thường không phải tất cả
các phần tử trong trình tự tham gia vào việc xác định đặc tính sinh học của trình tự.
Một số chương trình Tin sinh học đóng vai trò công cụ hỗ trợ cho việc so sánh trình tự.
Giải thuật so sánh trình tự đối xứng hiện đang được sử dụng là Needleman-Wunsch và
Smith-Waterman. Chức năng so sánh này nằm trong mođun ClustalX. Công dụng của
chương trình cho phép nhập và so sánh các đoạn trình tự hoặc các tập tin so sánh dạng
FASTA, phylip, v.v…[14], [31].

1.1.2.5. Bảo tồn đa dạng sinh học
Tin sinh học thường áp dụng trong lĩnh vực bảo tồn đa dạng sinh học
(biodiversity). Tính đa dạng sinh học lớn nhất của Thế giới tập trung ở các nước thuộc
vùng khí hậu nhiệt đới. Thông tin quan trọng nhất được thu thập chính là tên, miêu tả,
sự phân bố, trạng thái và kích thước dân số của các chủng loài (species), nhu cầu thói
quen và cách mà mỗi t
ổ chức tương tác với các chủng loài khác. Thông tin này được
lưu trữ vào trong cơ sở dữ liệu các máy tính, được truy xuất bởi các chương trình phần
mềm để tìm kiếm, hiển thị, phân tích các thông tin đó một cách tự động, và quan trọng
nhất, là để giao tiếp được với con người, đặc biệt qua internet. Các chuỗi ADN của các
loài sắp tuyệt chủng có thể được bảo quản, tên cùng miêu tả của mỗi loài được lư
u lại
để có thể cho phép truy cập tối đa các thông tin cần cho việc bảo tồn đa dạng sinh học.
Một ví dụ của ứng dụng này là dự án Species 2000. Đây là một dự án nghiên cứu toàn
cầu dựa vào internet để giúp cung cấp thông tin về mỗi chủng loài được biết đến của

7
cây, động vật, nấm (fungus) và vi khuẩn còn tồn tại để làm nền tảng cho việc nghiên
cứu đa dạng sinh học toàn cầu. Bất cứ ai trên thế giới cũng có thể tìm thấy lượng lớn
thông tin về bất kì chủng loài nào từ các cơ sở dữ liệu cung cấp [3], [15].

1.1.3. Công cụ phần mềm Tin sinh học
Tin sinh học có mục đích phải giải mã bí ẩn sinh học chứa trong vài tỷ nucleotit.
Trình t
ự các đoạn genom được lưu trữ tại các Ngân hàng gen trên Thế giới là nguồn dữ
liệu khổng lồ để tra cứu. Những số liệu cần lựa chọn và so sánh đòi hỏi các chương
trình tin học. Công cụ phần mềm giữ vị trí thiết yếu cần có trong Tin sinh học. Thống
kê cho thấy, các phần mềm tin học đang được sử dụng có số lượng phong phú cùng với
tính ứng dụng cao trong nhiều lĩnh vực khoa học.
1.1.3.1. Phần mềm Tin sinh học miễn phí

Hàng trăm phần mềm đã được lập trình giúp cho việc chọn lựa, so sánh và xử lý
các thông tin về trình tự ADN và protein. Nhiều phần mềm miễn phí hiện đang được sử
dụng rộng rãi trong các nghiên cứu phân tích trình tự gen như FASTA, BLAST, Mega
4, Cn3D, Phylip, Peptool, Genetool, ClustalX, BioEdit, SeqVISTA, SAGA, Primer3,
T-coffee, PC-Genes, Discovery Studio Gene, DNASIS, DNAMAN, VECTOR NTI,
AnnHyb, DNA Club, Plasmid Processor, Oligos v.v… Trong số đó, phần mềm BLAST
được sử dụng rộng rãi nhất trong việc tìm kiế
m những trình tự nucleic acid hoặc
protein tương đồng lưu trữ trên các cơ sở dữ liệu từ Ngân hàng gen. Phần mềm
ClustalW được dùng để so sánh sắp xếp các trình tự (Multiple Alignment). Cho đến
nay, phần mềm MEGA4 là một trong những phần mềm miễn phí được công nhận có
tính ứng dụng cao trong tính toán và dựng cây phả hệ phân loại loài.
Các ngôn ngữ lập trình của máy tính như Perl và Python thường được dùng để
giao tiếp và ly trích dữ liệu từ các ngân hàng cơ s
ở dữ liệu sinh học thông qua những
chương trình tin sinh học. Cộng đồng những lập trình viên tin sinh học đã triển khai
nhiều dự án phần mềm mã nguồn mở (free/open source) như EMBOSS, Bioconductor,
BioPerl, BioRuby và BioJava. Điều này giúp cho việc chia sẻ, phát triển và phổ biến
các công cụ lập trình và tài nguyên lập trình giữa các nhà tin sinh học [2],[3],[24],[30].

8
Tại Việt Nam, định hướng xây dựng phần mềm phục vụ việc nghiên cứu Công
nghệ sinh học để có thể xử lý và phân tích trình tự sinh học, qua đó nắm bắt được
nguyên lý thiết kế cũng như bước đầu tạo ra sản phẩm phần mềm mang thương hiệu
Việt Nam trong lĩnh vực Tin sinh học đang được các nhà khoa học quan tâm. Sản
phẩm phần mềm HiBio của Phân viện Công ngh
ệ thông tin TP. Hồ Chí Mình hợp tác
với Viện Công nghệ sinh học Việt Nam ra đời là một minh chứng cho định hướng này.
Sản phẩm phàn mềm HiBio là tập hợp gồm các mođun chương trình độc lập, trong đó
mỗi mođun thực hiện một chức năng riêng như: mođun nhập và soạn thảo dữ liệu trình

tự, mođun so sánh bắt cặp trình tự, mođun tạo vectơ cắt [31].
1.1.3.2. Phầ
n mềm Tin sinh học thương mại
Dù có được những lợi thế về nguồn thông tin to lớn, hữu ích và miễn phí như
hiện nay, việc sử dụng những phần mềm miễn phí rõ ràng vẫn chưa đáp ứng được việc
truy cập và khai thác những thông tin có giá trị và cập nhật nhất trong nguồn dữ liệu
khổng lồ của các Ngân hàng gen. Do tính cạnh tranh rất cao trong quá trình nghiên cứu
khoa học trên toàn cầu, một số chương trình phần mềm đã được nâng cấp và thương
mại hoá nhằm tạo thuận lợi lớn nhất cho việc áp dụng phương pháp nghiên cứu dùng
Tin sinh học. Nhiều chương trình phần mềm thương mại được nâng cấp và sử dụng tại
các Trung tâm nghiên cúu khoa học và bệnh viện trên Thế giới. Có thể kể một số phần
mền bản quyền điển hình như Paul*, BioNumerics, MacClade, Hennig86, TreeRot,
WINCLADA … Các chương trình này cho phép phân loại phân tử nhanh chóng và tự
động, hỗ trợ cho việc phân tích kết quả thử nghiệm. Tuy nhiên để có được những
chương trình này cần phải đặt mua. Do vậy các chương trình thương được trang bị ở
những cơ sở có điều kiện kinh phí cho phép.
1.1.3.3. Phần mềm Tin sinh học bản quyền BioNumerics
Một trong danh mục các phần mềm thương mại được công nhận trên toàn thế
giới và hiện được sử dụng thường nhật ở rất nhiều phòng nghiên cứu tại các trường đại
học, bệnh viện, Viện nghiên cứu, ngành thực phẩm, y dược phẩm các ngành công
nghiệp là phần mềm BioNumerics [4].

9
BioNumerics là phần mềm tin học bản quyền của Hãng Applied Maths (Bỉ).
Tính nổi trổi của BioNumerics là sự xuất hiện của các giải trình tự thông lượng cao,
microarrays, Maldi, và phần lớn các kỹ thuật phân loại phân tử nhanh chóng và tự động
ưu việt này giúp cho nó có thể dễ dàng tạo ra một lượng lớn dữ liệu từ các kỹ thuật thử
nghiệm khác nhau, hỗ trợ cho việc phân tích kết quả thử nghiệm
Phần mềm BioNumerics có 12 mođun (module), bao gồm 06 mođun ứng dụng
và 06 mođun phân tích:

• Mođun ứng dụng: Kiểu vân tay (Fingerprint types)
, kiểu 2D gel (2D gel types)
, kiểu đặc tính (Character types) , kiểu trình tự (Sequence types) , kiểu xu
hướng dữ liệu (Trend data types)
và các kiểu ma trận (Matrix types) .
• Mođun phân tích: Mođun Cây và mạng suy luận (Tree and network inference
module) , Mođun Nhận dạng (Indentification module) , Mođun kích thước và
thống kê (Dimensioning and Statistics module) , Mođun các công cụ chia sẻ cơ sở
dữ liệu (Database sharing tools module), Mođun Audit trails and Versioning ,
Mođun phân tích trình tự sinh học phân tử (Sequence Molecular analysis module).

1.2. ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU DỊCH TỄ HỌC PHÂN TỬ
BỆNH Ở NGƯÒI
1.2.1. Khái niệm về Dịch tễ học phân tử
Trong Y học, các tác nhân gây bệnh phần lớn đều là vi sinh. Căn nguyên gây
nên dịch bệnh đã được biết đến. Một dịch bệnh bùng nổ từ các đơn vị cơ thể (tế bào, vi
rút) nhân lên từ một cơ thể gốc được gọi là tổ tiên, lan truyền ra ngoài, lây nhiễm từ cá
thể này sang cá thể khác. Tại các ổ dịch xảy ra không cùng một địa đ
iểm và thời gian
sẽ xuất hiện nhiều dòng tế bào khác nhau. Trong điều kiện kinh tế hội nhập và giao lưu
dễ dàng như hiện nay, mọi người có thể di chuyển khắp Thế giới, bất kỳ lúc nào và bất
kỳ nơi nào. Cùng với sự giao lưu này, các ổ dịch cũng có thể di chuyển theo. Mô hình
dịch tễ học các bệnh dịch đã thay đổi [22], [28], [33].

10
Trong những năm gần đây, sự xuất hiện và tái xuất hiện các bệnh dịch nguy
hiểm đang là vấn đề đe dọa nghiêm trọng đến sức khoẻ cộng đồng. Các dịch bệnh nguy
hiểm lây lan một cách nhanh chóng từ vùng lãnh thổ địa lý của Quốc gia này sang
Quốc gia khác. Nguy cơ bùng nổ các đại dịch là vấn đề nổi cộm trong Y học. Xác định
tính đa dạng di truyền của các chủng vi sinh gây b

ệnh nguy hiểm ở người nhằm phát
hiện và ngăn chặn kịp thời dịch bệnh là vấn đề cấp bách không chỉ ở Việt nam mà còn
được đặt ra ở nhiều Quốc gia trên Thế giới. Một hướng nghiên cứu mới “Dịch tễ học
phân tử” được các nhà khoa học trên toàn thế giới quan tâm. Khái niệm về ngành khoa
học này đã được công nhận “Dịch tễ học phân tử là phân tích so sánh các genom để
nghiên c
ứu quá trình lan truyền của một bệnh ở một quần thể” [WHO]. Dịch tễ học
phân tử cho phép theo rõi riêng rẽ từng chủng vi sinh gây bệnh. Có thể xác định bao
nhiêu chủng đang lưu hành trên mỗi vùng địa lý khác nhau. Việc xác định sự biến đổi
trên trình tự ADN genom của các chủng cho phép so sánh tính chất của các dịch bệnh
xảy ra tại các địa điểm và thời gian khác nhau. [6], [10], [12], [21], [27], [28].
Dịch tễ học phân tử đã tr
ở thành một công cụ chính xác và ngày càng đóng vai
trò cần thiết bởi nó cho phép:
- Xác định nguồn gốc và đường lây truyền của mỗi tác nhân gây bệnh.
- Quan sát genotyp các chủng gây bệnh theo thời gian và địa điểm.
- Cho thông tin về khả năng ngăn chặn sự lây truyền của chủng gây bệnh.
- Đánh giá hiệu quả của các chương trình tiêm chủng vắcxin.
- Theo rõi sự tiến hoá và biến đổi của các chủng vi sinh gây bệnh.
Ở Việt nam, D
ịch tễ học phân tử là lĩnh vực khoa học hoàn toàn mới và bắt đầu
được triển khai trong những năm gần đây. Nhiệm vụ đặt ra cho công tác chăm sóc sức
khoẻ cộng đồng của ngành Y tế dự phòng là phải giám sát dịch tễ học, phát hiện và
ngăn chặn kịp thời các dịch bệnh nguy hiểm ở người. Các phương pháp sinh học phân
tử phân tích đặc tính sinh học và sự biến đổi genotyp các ch
ủng vi sinh gây bệnh ở mức
độ ADN là phần thiết yếu trong nghiên cứu giám sát dịch tễ học phân tử [5],[13],[22].
Theo công bố của WHO, đặc tính di truyền của virút hoang dã là một phần thiết
yếu của các giám sát dựa trên phòng thí nghiệm. Trong đó bao gồm cả việc xác định


11
genotyp các chủng hiện đang lưu hành. Việc giám sát bệnh cần phải được mở rộng
trong mọi vùng lãnh thổ Thế giới và tiến hành liên tục trong tất cả các giai đoạn. Các
dữ liệu gen có thể giúp xác nhận và ngăn chặn các nguồn lây lan của bệnh.

1.2.2. Dịch tễ học phân tử bệnh sởi
1.2.2.1. Virút sởi

Hình 1.2.2.1a. Cấu trúc phân tử virút sởi

Hình 1.2.2.1b. Bản đồ genom virút sởi
Virút sởi thuộc gia đình Paramyxoviridae,
chi Morbillivirus. Genom virút sởi là một
sợi đơn thẳng âm tính có chiều dài khoảng
15.894 nucleotit mã hoá cho 06 cấu trúc
protein: Nucleoprotein (N), Phosphoprotein
(P), Hemagglutinin (H), Membran (M),
Fusion (F), và Large (L). Virút sởi được
cho là có đặc tính đơn loài, tuy nhiên sự
biến đổi về đặc điểm di truyền đã được mô
tả với các chủng hoang dã. (Hình
1.2.2.1a,b). [27], [33].


1.2.2.2. Nghiên cứu dịch tễ học phân tử bệnh sởi
+ Trên Thế giới: Bệnh sởi được biết đến từ thế kỷ thứ IX, nhưng cho đến nay
vẫn tồn tại và được xếp vào một trong những bệnh gây tỷ lệ tử vong cao cho trẻ em
trên thế giới. Theo công bố của Trung tâm Ngăn ngừa và Kiểm soát bệnh tật (CDC,
Mỹ), trên thế giới, mỗi năm ướ
c tính có khoảng 20 triệu ca mắc sởi, trong đó 164 nghìn

ca tử vong do sởi.
Theo danh pháp tiêu chuẩn hoá của WHO, các genotyp virút sởi hoang dã được
tách biệt thành 08 nhánh có tên A, B, C, D, E, F, G, và H, với 22 kiểu gen [WHO,
2001]. Chủng sởi Edmonston (Edm-wt.USA/54) được làm gốc chuẩn cho nhánh A
(Bảng 1.2.2.2). Sự khác biệt của kiểu gen virút sởi dựa trên kết quả phân tích trình tự

12
ADN vùng biến đổi nhất của 500 nucleotit đầu cuối -COOH của gen N hoặc toàn bộ
gen H. Tuy nhiên cùng với thời gian, nhiều trình tự genom ADN virút sởi mới đã được
bổ sung thêm trong danh mục dữ liệu của GenBank thế giới. Điều này cho thấy có sự
biến đổi về trình tự ADN của các chủng virút hoang dã tại các vùng địa lý. Việc kiểm
soát, ngăn chặn và khống chế sự lây lan nhằm tiến tới thanh toán bệnh sởi trên toàn c
ầu
được WHO đặt lên hàng đầu. Điều này cần có sự hợp lực của tất cả các quốc gia trên
thế giới[10], [27].

Bảng 1.2.2.2. Danh mục chủng virút sởi chuẩn đại diện cho nhóm và dưới nhóm

Genotyp Trạng thái Tên chủng
Số đăng ký trong
Genebank

Gen H Gen N
A Hoạt động Edmonston-wt.USA/54 U03669 U01987
B1 Hoạt động Yaounde.CAE/12.83 "Y14" AF079552 U01988
B2 Hoạt động Libreville.GAB/84 "R96" AF079551 U01994
B3 Hoạt động New Yord.USA/94 L46752 L46753
Ibandan.NIE/97/1 AJ239133 AJ232203
C1 Hoạt động Tokyo.JPN/84/K AY047365 AY043459
C2 Hoạt động Maryland.USA/77 "JM" M81898 M89921

Erlangen.DEU/90 "WTF Z80808 X84872
D1 Bất hoạt Bristol.UNKUNK/74 (MPV) Z80805 D01005
D2 Hoạt động Johannesburg.SOA/88/1 AF085198 U64582
D3 Hoạt động Illinois.USA/89/1"Chicago-1" M81895 U01977
D4 Hoạt động Montreal.CAN/89 AF079554 U01976
D5 Hoạt động Palau.BLA/93 L46757 L46758
Bangkok.THA/93/1 AF009575 AF079555
D6 Hoạt động New Jersey.USA/94/1 L46757 l46750
D7 Hoạt động Victoria.AUS/16.85 AF247202 AF243450
Illinois.USA/50.99 AY043416 AY037020
D8 Hoạt động Manchester.UNK/30.94 U29285 AF280803
E Bất hoạt Goettingen.DEU/71"Braxator" Z80897 X84879

13
F Bất hoạt MVs/Madrid.SPA/94 PESS Z80830 X84865
G1 Bất hoạt Berkeley.USA/83 AF079553 U01974
G2 Hoạt động Amsterdam.NET/49.97 AF171231 AF171232
G3 Hoạt động MVs/Victoria.AUS/24.99 AF353621 AF353622
H1 Hoạt động Hunan.CHN/93/7 AF045201 AF045212
H2 Hoạt động Beijing.CHN/94/1 AF045203 AF045217

+ Việt Nam: Từ năm 1983, bệnh sởi được xếp là 1 trong 6 bệnh được triển khai
tiêm phòng vắcxin trong Chương trình tiêm chủng mở rộng Quốc gia. Đến năm 2005,
tỷ lệ mắc sởi chỉ còn 0,16 ca/100.000 dân (Bộ Y tế, 2005). Tuy nhiên, sự bùng nổ của
các vụ dịch sởi ở mọi lứa tuổi, xảy ra tại nhiều địa phương trong những năm gần đây là
vấn đề nổi cộm trong ngành Y tế Dự phòng. Điển hình là các vụ dịch sởi xẩy ra ở Nghệ
An (1998), Nha Trang (2000), Gia Lai (2002), Lao Cai (2005), Lai Châu (2006) và
Thái Nguyên (2006), Ninh Bình (2008), Tp HCM (2009). Theo báo cáo của Chương
trình TCMRQG, tính đến tháng 03 năm 2009 đã có 7629 ca nghi mắc sởi. Việc chẩn
đoán nhanh, chính xác căn nguyên gây dịch sởi là vấn đề cấp bách được đặt ra cho

công tác giám sát dịch tễ học. Cho đến nay, để phục vụ công tác chẩn đoán giám sát
dịch tễ học bệnh sởi, kỹ thuật IgM-ELISA vẫn đ
ang được triển khai tại một số phòng
thí nghiệm chuẩn thức Quốc gia.
Nghiên cứu Dịch tễ học phân tử bệnh sởi bắt đầu được đề cập ở Việt Nam từ
năm 2002 với mục tiêu xác định sự phân bố các genotype virút sởi và nguồn gốc các
chủng sởi du nhập từ bên ngoài. Các kỹ thuật sinh học phân tử đóng vai trò quan trọng
và hỗ trợ đắc lự
c cho việc xác định và phân biệt sởi với các căn nguyên gây sốt phát
ban khác. Để triển khai định hướng nghiên cứu này, các kỹ thuật PCR, Đa dạng độ dài
đoạn cắt hạn chế (RFLP) và giải trình tự ADN (sequencing) bắt đầu được thực hiện tại
một số phòng thí nghiệm chuẩn thức quốc gia của các Viện đầu ngành như Viện Vệ
sinh Dich tễ TƯ, Viện Pasteur TpHCM Bước đầu giải trình tự một đoạn gen dài 450
nucleotide ở đầu tận cùng -COOH của gen nucleocapsit (N) của một số chủng virút sởi
phân lập tại Việt Nam cho thấy các chủng virút sởi lưu hành tại miền Bắc Việt Nam
vào những năm 1997-2000 thuộc nhóm H2. Các chủng này có cấu trúc gen gần giống

14
chủng Mvi/Beijing/CHN/94-1 chuẩn của WHO. Tuy nhiên, nghiên cứu gần đây nhất đã
phát hiện genotyp H1 được xác định trong vụ dịch sởi ở Nha Trang vào tháng 03/2000.
Genotyp này có cấu trúc tương tự như chủng chuẩn Mvi/Hunan.CHI/93 [23]. Từ 2005,
bằng kỹ thuật Giải trình tự đã xác định các chủng sởi hoang dại lưu hành tại một số
vùng địa lý Việt Nam đều thuộc genotyp H1. So với danh mục chủng virút sởi phân bố
trên toàn thế
giới, genotyp H1 và H2 có tỷ lệ biến đổi tương đối xa so với chủng gốc
chuẩn A (Edmonston). Các genotyp này xuất hiện và chỉ lưu hành tại một số nước châu
Á như Nhật Bản, Trung quốc và Việt Nam. [10], [21], [22].

1.2.3. Dịch tễ học phân tử bệnh Rubella
1.2.3.1. Virút Rubella

Hình 1.2.3.1a. Cấu trúc phân tử virút Rubella
Hình 1.2.3.1b. Bản đồ genom virút Rubella
Virút Rubella là thành viên duy nhất của chi
Rubivirus và gia đình của Togaviridae. Các
hạt virion hình cầu có đường kính 50-70 nm,
được bao phủ bởi một lớp màng lipid. Bên
trong màng lipid là một capsid có cấu trúc
icosahedral với đường kính là 40 nm. Genom
virút Rubella là một sợi đơn ARN dương tính,
được bao bọc bởi capsid. Trên màng tế bào
phân bố các "gai" glycoprotein E1 và E2.
(Hình 1.2.3.1a).

Các gen ARN bên trong capsid có chiều dài
khoảng 9.757 nucleotit và mã hóa cho 05
protein bao gồm 02 protein phi cấu trúc (P150
và RdRp) và 03 protein cấu trúc: protein
capsid và 02 glycoprotein màng E1 và E2.
(Hình 1.2.3.1b).[6].




15
1.2.3.2. Nghiên cứu dịch tễ học phân tử bệnhRubella
+ Trên Thế giới: Rubella là loại bệnh do virut Rubella gây ra, dễ lây lan qua
đường hô hấp. Bệnh Rubella rất nguy hiểm cho phụ nữ mang thai đặc biệt là trong 3
tháng đầu của thai kỳ, sẽ ảnh hưởng xấu tới thai nhi, gây sảy thai hoặc sinh non. 90%
phụ nữ mang thai trong 3 tháng đầu của thai kỳ sẽ sinh ra em bé bị hội chứng Rubella
bẩm sinh như: điếc, đục thủy tinh thể, tật mắ

t nhỏ, tăng nhãn áp bẩm sinh, tật đầu nhỏ,
viêm não, màng não, chậm phát triển tâm thần, gan to, lách to. Trẻ sinh ra có thể bị hội
chứng Rubella bẩm sinh (CRS), mắc các chứng bệnh về tim, mắt, tai hoặc thiểu năng
trí tụê.
Theo báo cáo của tổ chức Y tế thế giới WHO thì mỗi năm, chỉ tính riêng ở các
nước đang phát triển, khoảng 100.000 trường hợp CRS. Thời điểm dịch bùng phát năm
1964-1965 ở các nước ph
ương Tây, hơn 20.000 trẻ em sinh ra bị khuyết tật do ảnh
hưởng của virus. Tại VN, theo báo cáo tổng kết của chương trình Tiêm chủng mở rộng
quốc gia, trong năm 2009 có 965 ca được chẩn đoán dương tính với Rubella.
Theo các công bố khoa học, trình tự gen E1 đã được sử dụng cho các kiểu gen
và phân tích phát sinh loài của chủng virút Rubella. Các genotyp Rubella hiện đang lưu
hành trên Thế giới được phân bố thành 2 nhóm chính với 09 kiểu genotyp RGI (1A,
1B,1C,1D,1E,1G,1H,1i,1j) và 03 kiểu genotyp RGII (2A,2B,2C) (Bảng 1.2.3.2). [29].

Bảng 1.2.3.2. Danh mục chủng chuẩn sử dụng trong phân tích genotyp virút Rubella


Genotyp Chủng chuẩn # GenBank
1A RVi/BEL/63 AF188704
1B RVi/ISR/88 AY968209
1C RVi/SLV/02[1C] AY968211
1D RVi/Cal.USA/97[1D]CRS AY968206
1E RVi/Shandong.CHN/02[1E] AY968210
1F RVi/Anhui.CHN/00[1F] AY968215
1G RVi/Minsk.BLR/29.04/1 AM258945
1H RVi/Minsk.BLR/28.05/2 AM258953
1i Rvi/Milan.ITA/46.92 (4655-ITA92) AY161360

16

1j RVs/Miami.FL.USA/32.02 EF602117
2A RVi/Beijing.CHN/80[2A] AY258323
2B RVi/W ash.USA/16.00[2B] AY968220
2C Rvi/Mosscow.RUS/97 (C74) DQ085340

+ Việt Nam: Phụ nữ mang thai mắc Rubella trong 3 tháng thai đầu tiên sẽ để lại dị
tật bẩm sinh cho trẻ. Đây là vấn đề ảnh hưởng nghiêm trọng đến sức khoẻ cộng đồng.
Chương trình giám sát bệnh dịch ở Việt nam cho thấy, ngày càng có nhiều các ca sốt
phát ban có biểu hiện lâm sàng tương tự sởi được xác định căn nguyên do virút
Rubella. Điển hình là các vụ dịch Rubella xẩy ra năm 2005 và 2006 tại nhi
ều địa
phương trên cả nước với hàng nghìn ca mắc. Tuy vậy, các nghiên cứu về Rubella mới
chỉ dừng ở mức độ xây dựng kỹ thuật chẩn đoán lâm sàng và huyết thanh học. Vì vậy
việc cần thiết phải tiến hành nghiên cứu dịch tễ học phân tử để tìm hiểu đặc điểm di
truyền, nguồn gốc và sự phân bố của virút Rubella lưu hành ở Việt Nam nhằm mục
tiêu phát hiện và khống chế dịch bệnh.


1.2.4. Ứng dụng Tin sinh học trong nghiên cứu Dịch tễ học phân tử
+ Trên Thế giới: Từ khi trình tự ADN tế bào con người được phân tích, Tin sinh
học có mục đích phải giải mã bí ẩn sinh học chứa trong vài tỷ nucleotit. Tin sinh học
cung cấp các công cụ tìm kiếm khai thác thông tin về hệ genome- transcriptome-
proteotome của nhiều cơ thể sinh vật cũng như các công cụ phân tích thông tin sinh
học ở mức độ phân tử. Trình tự các đoạn genom virút
được lưu trữ tại các Ngân hàng
gen trên Thế giới là cơ sở cho việc so sánh kết quả phân tích và dựng cây phả hệ miêu
tả nguồn gốc và sự phân bố các genotyp chủng vi sinh.
Cho đến nay, nguồn cơ sở dữ liệu công cộng lớn nhất, lưu trữ tới hàng tỷ dữ liệu
về trình tự gen và protein được cung cấp bởi ba Ngân hàng gen thế giới nổi tiếng:
- NCBI: Trung tâm Quốc gia về Công nghệ Sinh học (National Center for

Biotechnology Information) của Mỹ.
- EMBL: Phòng thí nghiệm Sinh học phân tử của châu Âu (European Molecular
Biology Laboratory).

17
- DDBJ: Ngân hàng dữ liệu ADN Nhật Bản (DNA data Bank of Japan [14], [35].
Những số liệu cần so sánh đòi hỏi các chương trình máy tính. Vai trò của các
thuật toán, hệ thống xử lý dữ liệu, môi trường mạng hết sức quan trọng. Kết quả của
những nghiên cứu này tạo ra các phần mềm giúp giải quyết một số vấn đề xung quanh
việc tìm hiểu về gen, protein và một số vấn đề khác liên quan đến Sinh học.
Điển hình
như phần mềm Evolutionary Biology Group (Oxford) (
.) là
một trong những công cụ hữu ích trong nghiên cứu Dịch tễ học phân tử các bệnh virút.
Các chưong trình phần mềm tin học giúp cho việc xác định vị trí và sự khác biệt trên
trình tự ADN genom chính xác đến tỷ lệ dưới 1/1000. Tin sinh học đã trở nên một công
cụ không thể thiếu được trong phân tích đặc điểm di truyền (genotyping) của các
genom virút. Nhiều công trình nghiên cứu của các tác giả ngoài nước đều nhấn mạnh
đến vai trò của Tin sinh họ
c trong các nghiên cứu sinh học ở mức độ phân tử [1], [10],
[19], [28], [34].
+ Tại Việt Nam: Trong những năm gần đây. Tin sinh học bắt đầu được triển
khai ở nước ta trong việc phân tích và xác định trình tự ADN của các tác nhân vi sinh
gây bệnh. Các công trình khoa học ứng dụng các chương trình Tin sinh học được thực
hiện tại một số Viện nghiên cứu khoa học và trường Đại học lớn trong nước như Viện
Vệ sinh Dị
ch tễ TƯ, Viện Pasteur TP HCM, Viện Công nghệ sinh học VN, Trường Đại
học Khoa học tự nhiên TP HCM, Trường Đại học Y Dược Tp HCM… là những minh
chứng [15], [22], [23], [30]. Phòng Thí nghiệm chuẩn thức quốc gia bệnh Hô hấp Viện
VSDTTƯ đã ứng dụng các chương trình phần mềm BioEdit, Mega4, MEGALIGN,

DNASIS trong việc phân tích các trình tự genom ADN của virút cúm H5N1 và H1N1.
Chương trình tin học BLAST, ClustalW, Phylip, pmimer3, DNAstar và Mega3 đã
được các tác giả chọn lựa và sử dụng trong định nhánh (phylogenetic) virút Dengue và
Viêm não Nhật Bản phân lập tại Việt Nam. Bên cạnh các phần mềm miễn phí, một số
chương trình Tin học thương mại bước đầu cũng đã được sử dụng trong phân tích xác
định các genotyp vi sinh gây bệnh. Trong số đó, Chương trình phần mềm bản quyền
BioNumerics của Hãng Applied Maths (Bỉ) hiện được sử dụng trong các công trình

18
nghiên cứu và chẩn đoán bệnh tại Bệnh viện Nhiệt đới Tp HCM, Bệnh viện Lao Phạm
Ngọc Thạch Tp HCM, Viện Di truyền Nông nghiệp và Trường Đại học Cần Thơ.
Các công bố cho thấy, việc xây dựng mối quan hệ phát sinh chủng loại của các
chủng vi sinh ngày càng phổ biến trong các nghiên cứu về phân loại genotyp. Tin sinh
học đã trở thành yếu tố rất quan trọng góp phần cho sự thành công trong các nghiên
cứu thuộc lĩnh vực Sinh học nói chung và Dịch tễ học phân tử nói riêng. Để có cơ sở
chính xác cho các chiến lượ
c hoạch định công tác phòng chống bệnh dịch, các nghiên
cứu dịch tễ học phân tử về các tác nhân gây bệnh cần phải triển khai một cách thống
nhất có hệ thống. Điều này đòi hỏi phải xây dựng được bộ số liệu về đặc điểm di
truyền, sự tiến hoá, phân bố theo địa dư của các tác nhân gây bệnh. Những bộ số liệu di
truyền này không những chỉ được sử dụng tại Việt Nam mà còn góp phần xây dựng
ngân hàng dữ liệu các tác nhân gây bệnh của thế giới. Điều này cho thấy sự cần thiết
phải ứng dụng và phát triển Tin sinh học vào lĩnh vực nghiên cứu Dịch tễ học phân tử.
















19
Chương 2 - PHƯƠNG PHÁP NGHIÊN CỨU

2.1. CHUYỂN GIAO CÔNG NGHỆ TIN SINH HỌC ỨNG DỤNG TRONG NGHIÊN
CỨU DỊCH TỄ HỌC PHÂN TỬ VIRÚT GÂY BỆNH Ở NGƯỜI
Một trong những mục tiêu chính của hợp tác quốc tế nhằm nâng cao kiến thức
và kỹ năng về Công nghệ Tin sinh học cho đội ngũ cán bộ khoa học VN. Phía đối tác
Pháp giúp đào tạo, chuyển giao công nghệ mới trong lĩnh vực Tin sinh học. Quy trình
chuyển giao công nghệ được thực hiện thông qua các khoá đào tạo về lý thuyết và thực
hành Tin sinh học cho đội ngũ cán bộ Việt Nam. Chuyển giao công nghệ hướng
chuyên sâu về lĩ
nh vực ứng dụng Tin sinh học trong phân tích đặc điểm di truyền của
chủng vi sinh vật gây bệnh ở người trên mô hình bệnh sởi và Rubella.

2.1.1. Đào tạo và chuyển giao Công nghệ Tin sinh học tại Pháp
2.1.1.1. Đào tạo kiến thức về Công nghệ Tin sinh học
Định hướng chính của đề tài là chọn lựa và ứng dụng chương trình phần mềm
phù hợp với điều kiện của VN. Các phần mề
m được chọn lựa và kết nối với nhau để
tạo nên các quy trình phù hợp với việc phân tích dữ liệu và trình tự ADN của mỗi virút.
Quy trình đào tạo lý thuyết và thực hành Tin sinh học cho 06 nghiên cứu viên
Việt Nam được tiến hành tại Viện Pasteur Paris Pháp tập trung nghiên cứu các chức

năng ứng dụng của các phần mềm Tin sinh học dựa trên hệ thống phần mềm đang được
sử dụng củ
a Viện Pasteur Paris: Tools at Pasteur Paris, Evolutionary Biology Group
(Oxford) và một số phần mềm bản quyền (BioNumerics):
- Hiển thị cặp trình tự chính và trình tự bắt cặp.
- Tìm vị trí của một enzym giới hạn trong một trình tự.
- Tìm kiếm đoạn mồi.
- Phân tích, so sánh mức độ tương đồng giữa các trình tự.
- Dựng cây phát sinh chủng loại.
- Tìm kiếm các trình tự, các đoạn lặp, các enzym trong cơ s
ở dữ liệu.


20
2.1.1.2. Chuyển giao Công nghệ Tin sinh học trong chọn lựa phần mềm phù hợp
Quy trình nghiên cứu lựa chọn phần mềm phù hợp trong phân tích xác định
genotyp chủng virút Sởi và Rubella, dựa trên các chương trình phần mềm đang được
được sử dụng rộng rãi trong nghiên cứu phân tích ADN genom như: Blast, DIALIGN,
Phylip, Shibase, NEBcutter, Genomatix, BLOCKS, PRODOM, T-coffee Primer3,
MEGA4, ClustalX.
Quy trình chuyển giao công nghệ được thực hiện qua hợp tác quốc tế trong việc
chọn lựa chương trình Tin sinh học phù hợp. Danh mục hơn 300 chương trình phầ
n
mềm đang được sử dụng tại Viện Pasteur Paris được liệt kê trên website
/> là nguồn thông tin phong phú và hữu ích cho
việc chọn lựa chương trình phần mềm phù hợp nhất cho nghiên cứu Dịch tễ học phân
tử. Chức năng chính của một số chương trình phần mềm hiện đang được sử dụng
thường nhật tại Viện Pasteur Paris được miêu tả trong Bảng 2.1.1.2

Bảng 2.1.1.2. Chức năng chính của các chương trình phần mềm Tin sinh học



Nội dung
Phần mềm
Tin sinh học
Chức năng chính
1 Tìm kiếm cơ sở dữ
liệu
BLAST
FASTA

Cytoscape


ShiBASE

- Tìm kiếm trình tự tương đồng trên cơ sở dữ liệu.
- So sánh trình tự.

- Phân tích và hình ảnh hoá các tương tác dữ liệu
mạng.

- Cơ sở dữ liệu tương tác cho các so sánh đặc tính
di truyền của Shigella.
2 Xử lý trình tự SQUIZZ

EMBOSS


-Chuyển đổi định dạng tập tin.


- Trích dẫn, chỉ rõ và tìm kiếm các cặp lân cận của
các tính năng trên trình tự.
- Hiển thị tập tin ABI.
- Sao ấn trình tự.
- Xử lý trình tự.
3 So sánh và sắp xếp
các trình tự
ClustalW
T-Coffee

Dialign

WISE
- Điều chỉnh thẳng cột hàng các trình tự.


- Điều chỉnh thẳng cột hàng DNA/Protein.

- So sánh Protein và trình tự DNA (Bộ gen hoặc

×