Tải bản đầy đủ (.pdf) (83 trang)

Xây dựng cơ sở dữ liệu hai gen 16s và 32s

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.05 MB, 83 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MƠN CƠNG NGHỆ SINH HỌC
***000***

LÊ VĂN TÁM
XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE 16S VÀ 23S
RIBOSOM RNA Ở VI KHUẨN – ỨNG DỤNG CƠ SỞ DỮ LIỆU
HAI GENE 16S VÀ 23S RIBOSOM RNA Ở VI KHUẨN ĐỂ
PHÁT HIỆN CÁC TÁC NHÂN GÂY BỆNH VIÊM
MÀNG NÃO MỦ (Bacterial Meningitis)

Luận văn kỹ sƣ
Chuyên ngành: Công nghệ sinh học

Thành phố Hồ Chí Minh
-2006-


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MƠN CƠNG NGHỆ SINH HỌC
***000***

XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE 16S VÀ 23S
RIBOSOM RNA Ở VI KHUẨN – ỨNG DỤNG CƠ SỞ DỮ LIỆU
HAI GENE 16S VÀ 23S RIBOSOM RNA Ở VI KHUẨN ĐỂ
PHÁT HIỆN CÁC TÁC NHÂN GÂY BỆNH VIÊM
MÀNG NÃO MỦ (Bacterial Meningitis)

Luận văn Kỹ sƣ


Chuyên ngành: Công nghệ sinh học

Giáo viên hƣớng dẫn
TS. TRẦN THỊ DUNG
LƢU PHÚC LỢI

Sinh viên thực hiện
LÊ VĂN TÁM

Thành phố Hồ Chí Minh
-2006-


MINISTRY OF EDUCATION AND TRAINING
NONG LAM UNIVERSITY, HCMC
DEPARTMENT OF BIOTECHNOLOGY
************

CONSTRUCT DATABASE OF 16S AND 23S RIBOSAMAL RNA
GENE IN BACTERIA – APPLICATION THE DATABASE
FOR DETECTION BACTERIAL MENINGITIS

Graduation thesis
Major: Biotechnology

Professor

Student

Ph.D. TRAN THI DUNG


LE VAN TAM

LUU PHUC LOI

Ho Chi Minh City
-2006-


LỜI CẢM ƠN
Tơi xin bày tỏ lịng biết ơn sâu sắc đến:
Ban Giám hiệu trƣờng Đại học Nông Lâm thành phố Hồ Chí Minh, Ban chủ
nhiệm Bộ mơn Cơng nghệ Sinh học, cùng tất cả quý thầy cô đã truyền đạt kiến
thức cho tơi trong suốt q trình học tại trƣờng.
TS. Trần Thị Dung và Cử Nhân Lƣu Phúc Lợi đã tận tình hƣớng dẫn, giúp đỡ
tơi trong thời gian làm khóa luận tốt nghiệp.
Xin gởi lời cảm ơn đến tập thể lớp Công Nghệ Sinh Học K28 đã động viên,
giúp đỡ và luôn ở bên cạnh tôi trong những lúc vui buồn.
Cha mẹ kính u đã ni nấng, dạy dỗ và động viên để con có thể đạt đƣợc
thành quả nhƣ ngày hơm nay.
Thành phố Hồ Chí Minh, ngày…tháng…năm 2006
Sinh viên
LÊ VĂN TÁM

iii


TĨM TẮT KHĨA LUẬN
LÊ VĂN TÁM, Đại học Nơng Lâm TP. Hồ Chí Minh. Tháng 8/2006. “XÂY
DỰNG CƠ SỞ DỮ LIỆU HAI GENE 16S VÀ 23S RIBOSOM RNA Ở VI KHUẨN

– ỨNG DỤNG CƠ SỞ DỮ LIỆU HAI GENE 16S VÀ 23S RIBOSOM RNA Ở VI
KHUẨN ĐỂ PHÁT HIỆN CÁC TÁC NHÂN GÂY BỆNH VIÊM MÀNG NÃO
MỦ (Bacterial Meningitidis)”
Hội đồng hƣớng dẫn:
– TS. Trần Thị Dung
– Cử nhân Lƣu Phúc Lợi
Khóa luận đƣợc thực hiện tại bộ mơn Cơng Nghệ Sinh Học - Trƣờng Đại Học
Nơng Lâm TP. Hồ Chí Minh, từ tháng 1/2006 đến 8/2006.
Với sự phát triển của kỹ thuật sinh học phân tử, một số lƣợng lớn các gene 16S
và 23S rRNA đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL
sinh học lớn nhƣ NCBI, EMBL, DDBj…Vì các CSDL này quá lớn và chứa rất nhiều
thông tin khác nhau, không tập trung cho một đối tƣợng cụ thể nên khó có thể thực
hiện việc truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do
vậy, mục tiêu của đề tài là tiến hành xây dựng cơ sở dữ liệu hai gene 16S và 23S rRNA
ở vi khuẩn và ứng dụng CSDL này để phát hiện các loài vi khuẩn gây bệnh viêm màng
não mủ.
Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực hiện những nội dung nhƣ
sau:
Dùng Perl script để thu nhận các mẫu tin của hai gene từ trang CSDL GenBank
(CSDL nucleotide của NCBI). Tiếp tục sử dụng Perl script tách các mẫu tin thu
nhận đƣợc thành từng phần riêng biệt nhƣ accession number (mã số truy cập),
gi, definition, sequence (trình tự của gene)…
Thiết kế CSDL dựa vào mơ hình dữ liệu quan hệ. Dùng Perl script để chuyển tự
động các thông tin tách đƣợc ở bƣớc trên vào CSDL.
Sử dụng giao thức CGI kết hợp với ngơn ngữ lập trình Perl để thiết kế trang
web CSDL về hai gene 16S và 23S rRNA ở các loài vi khuẩn.

iv



Sử dụng trình tự của hai gene 16S và 23S rRNA trong CSDL để thiết kế mồi cho
phản ứng PCR phát hiện và phân biệt các tác nhân gây bệnh viêm màng não
mủ.
Đề tài đã đạt đƣợc những kết quả nhƣ sau:
Đã thu thập đƣợc 2825 mẫu tin về gene 16S rRNA và 305 mẫu tin về gene 23S
rRNA từ cơ sở dữ liệu GenBank (NCBI).
Tạo đƣợc CSDL của hai gene 16S và 23S rRNA tích hợp với web.
Trang web CSDL của hai gene và gồm có 5 trang chính: HOME, SEARCH,
TOOL, LINK, ABOUT. Từ các trang web này, ngƣời sử dụng có thể truy xuất
thơng tin, tìm kiếm trình tự, so sánh một trình tự quan tâm với các trình tự trong
CSDL (alignment, BLAST)… Ngồi ra, những trang web chính này cịn kết nối
đến những trang phụ khác để cung cấp các tiện ích cho ngƣời dùng.
Thiết kế mồi cho phản ứng PCR phát hiện các tác nhân gây bệnh viêm màng
não mủ bằng chƣơng trình thiết kế mồi Primrose.

v


MỤC LỤC
Nội dung

Trang

LỜI CẢM ƠN ............................................................................................................. iii
TÓM TẮT KHÓA LUẬN .......................................................................................... iv
MỤC LỤC ................................................................................................................... vi
DANH SÁCH CÁC BẢNG VÀ SƠ ĐỒ ......................................................................x
DANH SÁCH CÁC HÌNH ......................................................................................... xi
DANH SÁCH CÁC CHỮ VIẾT TẮT .................................................................... xiii
PHẦN 1: MỞ ĐẦU .......................................................................................................1

1.1. ĐẶT VẤN ĐỀ ......................................................................................................... 1
1.2. MỤC ĐÍCH ............................................................................................................. 2
1.3. YÊU CẦU ................................................................................................................ 2
PHẦN 2: TỔNG QUAN TÀI LIỆU ............................................................................3
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU .......................................................................... 3
2.1.1. Định nghĩa .................................................................................................................. 3
2.1.2. Hệ quản trị CSDL (Database Management System – DBMS) ....................... 3
2.1.3. Các mơ hình dữ liệu ................................................................................................. 3
2.2. NGƠN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB ................... 3
2.2.1. Perl ............................................................................................................................... 3
2.2.1.1. Tóm tắt lịch sử phát triển................................................................................. 3
2.2.1.2. Ứng dụng.............................................................................................................. 4
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng............................................ 4
2.2.2. Giới thiệu về mạng Internet ................................................................................... 5
2.2.3. Tích hợp CSDL với web dùng CGI ...................................................................... 5
2.3. CƠ SỞ DỮ LIỆU SINH HỌC ............................................................................... 6
2.3.1. NCBI (National Center for Bioinformatic Information) ................................. 6
2.3.1.1. Vài nét về NCBI .................................................................................................. 6
2.3.1.2. Một số cơ sở dữ liệu trong NCBI .................................................................... 7
2.3.1.3. Một số công cụ trong NCBI ............................................................................. 7
2.3.2. EBI (European Bioinformatics Institute) ........................................................... 8
vi


2.3.2.1. Vài nét về EBI ..................................................................................................... 8
2.3.2.2. Một số cơ sở dữ liệu trong EBI ....................................................................... 8
2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học ..................................... 9
2.3.3. SIB (Swiss Institute of Bioinformatics) ............................................................... 9
2.3.4. DDBJ (DNA Data Bank Japan) và PDBj (Protein Database Japan) ......... 10
2.4. BỆNH VIÊM MÀNG NÃO MỦ .......................................................................... 12

2.4.1. Sơ lƣợc về bệnh viêm màng não mủ................................................................... 12
2.4.1.1. Định nghĩa ......................................................................................................... 12
2.4.1.2. Bệnh theo lứa tuổi ............................................................................................ 12
2.4.1.3. Các con đƣờng xâm nhiễm của vi khuẩn gây bệnh .................................. 13
2.4.2. Các triệu chứng biểu hiện lâm sàng của bệnh ................................................. 13
2.4.2.1. Những triệu chứng giai đoạn khởi phát ...................................................... 13
2.4.2.2. Biểu hiện lâm sàng của viêm màng não mủ ............................................... 13
2.4.3. Hậu quả của bệnh trên những đối tƣợng bị lây nhiễm .................................. 15
2.4.4. Tình hình bệnh viêm màng não mủ trên thế giới và Việt Nam ................... 15
2.5. VI KHUẨN GÂY BỆNH VIÊM MÀNG NÃO MỦ .......................................... 16
2.6. CÁC PHƢƠNG PHÁP XÉT NGHIỆM BỆNH VIÊM MÀNG NÃO MỦ ...... 18
2.6.1. Phƣơng pháp chẩn đoán lâm sàng ..................................................................... 18
2.6.2. Phƣơng pháp xét nghiệm vi khuẩn học ............................................................. 18
2.6.3. Phƣơng pháp miễn dịch học ................................................................................ 19
2.6.4. Phƣơng pháp tế bào học ....................................................................................... 19
2.6.5. Phƣơng pháp sinh hoá ........................................................................................... 19
2.6.5.1. Đƣờng trong dịch não tủy .............................................................................. 19
2.6.5.2. Đạm trong dịch não tủy .................................................................................. 19
2.6.5.3. Phƣơng pháp khảo sát nồng độ lactate ....................................................... 20
2.6.6. Phƣơng pháp chụp cắt lớp – CT (computer tomography) ........................... 20
2.6.7. Phƣơng pháp xét nghiệm dựa vào kỹ thuật PCR ........................................... 20
2.7. KỸ THUẬT PCR VÀ ỨNG DỤNG TRONG VIỆC PHÁT HIỆN TÁC NHÂN
GÂY BỆNH VIÊM MÀNG NÃO MỦ ....................................................................... 20
2.7.1. Nguyên tắc của kỹ thuật PCR ............................................................................. 20
2.7.2. Quy trình của phản ứng PCR .............................................................................. 21
2.7.3. Seminested PCR/ Multiplex PCR ....................................................................... 22
vii


2.7.3.1. Seminested PCR ............................................................................................... 22

2.7.3.2. Multiplex PCR .................................................................................................. 22
2.7.4. Ứng dụng kỹ thuật PCR trong việc phát hiện vi khuẩn gây bệnh viêm
màng não mủ. ..................................................................................................................... 22
2.8. GENE 16S rRNA VÀ 23S rRNA .......................................................................... 24
2.8.1. RNA ribosome (rRNA) – Cấu trúc ribosome .................................................. 24
2.8.2. Gene 16S rRNA thƣớc đo tiến hóa ...................................................................... 25
2.8.3. Gene 23S rRNA ....................................................................................................... 28
2.9. ĐIỀU TRỊ BỆNH VIÊM MÀNG NÃO MỦ BẰNG KHÁNG SINH ............... 28
PHẦN 3: PHƢƠNG PHÁP VÀ CÁC CHƢƠNG TRÌNH SỬ DỤNG ..................29
3.1. CÁC CHƢƠNG TRÌNH VÀ NGƠN NGỮ LẬP TRÌNH ĐƢỢC SỬ DỤNG 29
3.1.1. Hệ điều hành............................................................................................................ 29
3.1.2. Các chƣơng trình phân tích trình tự ................................................................. 29
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW.................................................... 29
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST ................... 30
3.1.3. Hệ quản trị CSDL quan hệ MySQL .................................................................. 30
3.1.4. Apache web server ................................................................................................. 31
3.1.5. Ngơn ngữ lập trình Perl và các gói sử dụng ..................................................... 31
3.1.6. Chƣơng trình thiết kế mồi Primrose 2.17 ......................................................... 32
3.2. PHƢƠNG PHÁP .................................................................................................. 33
3.2.1. Thu nhận các mẫu tin chứa trình tự và thơng tin liên quan của hai gene
16S và 23S rRNA ............................................................................................................... 33
3.2.3. Thiết kế CSDL gene 16S và 23S rRNA .............................................................. 38
3.2.3.1. Phân tích dữ liệu .............................................................................................. 38
3.2.3.2. Thiết kế CSDL dạng bảng .............................................................................. 39
3.2.3.3. Lƣu trữ các thơng tin vào CSDL .................................................................. 41
3.2.4. Tích hợp CSDL gene 16S rRNA và 23S rRNA với trang web ...................... 42
3.3. Thiết kế mồi cho phản ứng PCR phát hiện vi khuẩn viêm màng não ............. 42
3.3.1 Thiết kế mồi dựa trên trình tự gene 16S rRNA ................................................ 43
3.3.2. Thiết kế mồi dựa trên trình gene 23S rRNA .................................................... 47
3.3.3. Nhiệt độ nóng chảy của mồi ................................................................................. 51

PHẦN 4: KẾT QUẢ VÀ THẢO LUẬN ...................................................................52
viii


4.1. Kết quả thu nhận các mẫu tin chứa trình tự và thông tin liên quan của hai
gene 16S và 23S rRNA ................................................................................................. 52
4.2. CSDL gene 16S và 23S rRNA .............................................................................. 52
4.3. Trang web thể hiện thông tin CSDL gene 16S và 23S rRNA ............................ 52
4.3.1. Trang thông tin chung về CSDL gene 16S và 23S rRNA (Home Page) ..... 54
4.3.2. Trang tìm kiếm (Search Page) ............................................................................ 55
4.3.3. Trang cơng cụ (Tool Page) ................................................................................... 58
4.3.4. Trang Meningitidis ................................................................................................ 60
4.4. Kết quả thiết kế mồi phát hiện các tác nhân viêm màng màng não mủ ......... 60
PHẦN 5: KẾT LUẬN VÀ ĐỀ NGHỊ ........................................................................63
PHẦN 6: TÀI LIỆU THAM KHẢO .........................................................................64
PHỤ LỤC

ix


DANH SÁCH CÁC BẢNG VÀ SƠ ĐỒ
Trang
Bảng 2.1. Tóm tắt tác nhân gây bệnh theo lứa tuổi ...................................................... 12
Bảng 2.2. Dấu hiệu và triệu chứng của bệnh viêm màng não mủ ................................ 14
Bảng 2.3. Các nhóm kháng sinh đặc trị vi khuẩn viêm màng não mủ ......................... 28
Bảng 3.1. Các đối tƣợng phụ dựa trên đối tƣợng chính sinh vật .................................. 38
Bảng 3.2. Các đối tƣợng phụ dựa trên đối tƣợng chính trình tự .................................. 39
Sơ đồ tóm tắt q trình thu nhận mẫu tin của hai gene 16S và 23S rRNA ................... 33
Sơ đồ các đối tƣợng chính trong CSDL hai gene 16S và 23S rRNA ............................ 38
Sơ đồ chi tiết các bảng quan hệ .................................................................................... 40

Sơ đồ cấu trúc các trang web thể hiện thông tin CSDL gene 16S và 23S rRNA .......... 53

x


DANH SÁCH CÁC HÌNH
Trang
Hình 2.1. Tƣơng tác giữa Perl script-DBI-DBD và RBDMS ........................................ 5
Hình 2.2. Tƣơng quan giữa NCBI, NLM (National Library of Medicine) và NIH ....... 6
Hình 2.3. Một số cơ sở dữ liệu trong EBI ..................................................................... 9
Hình 2.4. Ba cơ sở dữ liệu nucleotide (GenBank – EMBL – DDB) và cơng cụ tìm
kiếm tƣơng ứng ............................................................................................................. 11
Hình 2.5. Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB ................................... 11
Hình 2.6. Quy trình phản ứng PCR .............................................................................. 21
Hình 2.7. Thành phần cấu tạo của ribosome ở prokaryote ........................................... 25
Hinh 2.8. Vị trí và kích thƣớc của 16S và 23S rRNA trong bộ gene vi khuẩn ............. 27
Hình 3.1. Tìm kiếm bằng từ khóa trong trang Home Page của NCBI ......................... 34
Hình 3.2. Trang kết quả tìm kiếm bằng từ khóa cho gene 16S rRNA .......................... 34
Hình 3.3. Kết quả tìm kiếm thể hiện ở dạng text ......................................................... 35
Hình 3.4. File text chứa mã số truy cập ........................................................................ 35
Hình 3.5. Tất cả mẫu tin của gene 16S rRNA ............................................................... 36
Hình 3.6. Một mẫu tin của gene 16S rRNA có mã số truy cập AB016268 .................. 37
Hình 3.7. Thiết kế CSDL ở mức vật lý ........................................................................ 41
Hình 3.8. Tiến trình lấy thơng tin từ CSDL hai gene ở vi khuẩn ................................. 42
Hình 3.9. Tạo CSDL trình tự gene 16S rRNA ở các vi khuẩn viêm màng não mủ ...... 43
Hình 3.10. Chọn trình tự đích trong thiết kế mồi phát hiện Streptococcus pneumoniae
dựa trên gene 16S rRNA. .............................................................................................. 43
Hình 3.11. Xác định các thơng số cho mồi và số lƣợng mồi đƣợc tạo ra trên trình tự
đích 16S rRNA .............................................................................................................. 44
Hinh 3.12. Danh sách các mồi thiết kế đƣợc trên 16S rRNA ....................................... 44

Hình 3.13. Vị trí bắt cặp của mồi xi trên trình tự đích 16S rRNA ............................ 45
Hình 3.14. Vị trí bắt cặp của mồi ngƣợc trên trình tự đích 16S rRNA ......................... 46
Hinh 3.15. Kiểm tra lại sự bắt cặp của mồi ngƣợc và mồi xi trên trình tự đích 16S
rRNA ............................................................................................................................. 46
Hình 3.16. Kết quả kiểm tra sự bắt cặp mồi xuôi và mồi ngƣợc trên trình tự đích gene
16S rRNA ...................................................................................................................... 47
xi


Hình 3.17. Danh sách các mồi thiết kế đƣợc cho trình tự gene 23S rRNA ở
Streptococcus pneumoniae ........................................................................................... 48
Hình 3.18. Vị trí bắt cặp của mồi xi trên trình tự đích 23S rRNA ............................ 49
Hình 3.19. Vị trí bắt cặp của mồi ngƣợc trên trình tự đích 23S rRNA ......................... 49
Hình 3.20. Kiểm tra lại sự bắt cặp của mồi ngƣợc và mồi xi trên trình tự đích 23S
rRNA ............................................................................................................................. 50
Hình 3.21. Kết quả kiểm tra sự bắt cặp mồi xi và mồi ngƣợc trên trình tự đích gene
23S rRNA ...................................................................................................................... 50
Hình 3.22. Tính nhiệt độ nóng chảy của mồi xi 16S ................................................ 51
Hình 4.1. Trang Home Page ......................................................................................... 54
Hình 4.2. Trang tìm kiếm theo mã số truy cập (accession number)............................. 55
Hình 4.3. Trang kết quả tìm kiếm bằng mã số truy cập ............................................... 56
Hình 4.4. Trang tìm kiếm theo tên lồi (species name) ............................................... 57
Hình 4.5. Trang kết quả tìm kiếm theo tên lồi (species name) ................................... 57
Hình 4.6. Trang cơng cụ sắp gióng cột (Alignment) .................................................... 58
Hình 4.7. Trang kết quả sắp gióng cột hai trình tự ....................................................... 59
Hình 4.8. Trang cơng cụ BLAST ................................................................................. 59
Hình 4.9. Trang Meningitidis ....................................................................................... 60
Hình 4.10. Sự bắt cặp của cặp mồi 16S rRNA trên trình tự đích và trình tự ngồi vùng
đích ............................................................................................................................... 61
Hình 4.11. Sự bắt cặp của cặp mồi 23S rRNA trên trình tự đích và trình tự ngồi vùng

đích ............................................................................................................................... 61

xii


DANH SÁCH CÁC CHỮ VIẾT TẮT
CSDL

Cơ Sở Dữ Liệu

Perl

Practical Extraction and Report Language

CGI

Common Gateway Interface

DBI

Database Interface

DBD

Database Driver

WWW

World Wide Web


HTML

Hypertext Markup Language

HTTP

Hypertext Transfer Protocol

NCBI

Center for Bioinformatic Information

BLAST

Basic Local Alignment Search Tool

EBI

European Bioinformatics Institute

EMBL

European Molecular Biology Laboratory

SIB

Swiss Institute of Bioiformatics

DDBJ


DNA Data Bank Japan

PDBj

Protein Database Japan

PCR

Polymerase Chain Reaction

rRNA

ribosomal RNA

xiii


1

PHẦN 1: MỞ ĐẦU
1.1. ĐẶT VẤN ĐỀ
Sự phát triển của ngành công nghệ thông tin trong những thập kỷ qua đã góp
phần cải thiện chất lƣợng cuộc sống con ngƣời. Máy tính đã có mặt trong hầu hết các
ngành khoa học, hỗ trợ con ngƣời giải quyết những công việc khó khăn và nhiều thời
gian.
Cơng nghệ sinh học đƣợc xem là ngành khoa học mũi nhọn của thế kỷ XXI. Với
sự ra đời của kỹ thuật giải trình tự, nhiều bộ gene của sinh vật đã đƣợc giải mã, tạo ra
một lƣợng dữ liệu sinh học khổng lồ. Điều này địi hỏi có sự lƣu trữ, quản lí và khai
thác các dữ liệu một cách hiệu quả. Với khả năng xử lí và truy xuất lƣợng thơng tin lớn
và nhanh chóng, máy tính đã trở thành cơng cụ hữu ích trong nghiên cứu sinh học. Sự

kết hợp giữa ngành sinh học và tin học đã cho ra đời một công cụ mới đó là Tin – Sinh
học (Bioinformatics). Tin – Sinh học giúp giải quyết hàng loạt những nghiên cứu trong
sinh học mà địi hỏi thời gian dài hay khó có thể thực hiện bằng tay đƣợc.
Cho đến nay, Tin – Sinh học đạt đƣợc nhiều thành tựu to lớn. Nhiều CSDL sinh
học đã đƣợc thiết lập nhƣ NCBI, EMBL, DDBJ…Các CSDL này chứa lƣợng lớn
thông tin phục vụ đắc lực cho các nhà nghiên cứu sinh học.
Gene 16S và 23S rRNA là 2 gene có chức năng cần thiết cho sự sống của vi
khuẩn, vừa có vùng bảo tồn và vừa có vùng biến động ở các cấp độ khác nhau, giúp
cho việc định danh hay xác định mối quan hệ họ hàng giữa hai hay nhiều loài vi
khuẩn. Các gene này đã đƣợc giải trình tự và lƣu trữ trong các CSDL sinh học trực
tuyến. Tuy nhiên, việc tìm kiếm các thơng tin trình tự của hai gene trong các CSDL
lớn thƣờng tốn nhiều thời gian do thông tin không tập trung cho một đối tƣợng cụ thể.
Hiện nay, rất nhiều bệnh nguy hiểm do vi khuẩn gây ra trong đó có bệnh viêm
màng não mủ. Bệnh xảy ra thƣờng xuyên và để lại di chứng nặng nề nếu khơng điều
trị kịp thời. Việc chẩn đốn bệnh bằng các phƣơng pháp truyền thống thƣờng hạn chế
về mặt thời gian. Phƣơng pháp PCR hiện nay đƣợc sử dụng rộng rãi do tính đơn giản,
nhanh và chính xác. Gene 16S và 23S rRNA là hai gene thích hợp cho việc thiết kế mồi
đặc hiệu để phát hiện các vi khuẩn gây bệnh viêm màng não.
Với các lý do trên cùng với sự đồng ý hƣớng dẫn của TS Trần Thị Dung và Cử
nhân Lƣu Phúc Lợi, chúng tôi thực hiện đề tài “Xây dựng CSDL hai gene 16S và 23S
rRNA ở vi khuẩn - Ứng dụng CSDL này để phát hiện các vi khuẩn gây bệnh viêm
màng não mủ”.


2

1.2. MỤC ĐÍCH
– Thu thập trình tự và thơng tin liên quan về hai gene 16S và 23S rRNA ở vi
khuẩn, tổ chức thành một CSDL riêng biệt.
– Ứng dụng trình tự hai gene trong CSDL để thiết kế mồi cho phản ứng PCR phát

hiện các vi khuẩn gây bệnh viêm màng não mủ. Từ đó chứng minh khả năng sử dụng
của gene 23S rRNA có nhiều ƣu điểm hơn so với gene 16S rRNA.
– Tìm hiểu khả năng ứng dụng trong phát hiện tác nhân gây bệnh của phần mềm
Primrose 2.17 (trƣớc đó phần mềm này ra đời với mục đích phân loại phả hệ bằng
gene 16S rRNA).
1.3. YÊU CẦU
– CSDL phải chứa một lƣợng lớn trình tự của hai gene 16S và 23S rRNA ở các
loài vi khuẩn khác nhau trong đó có vi khuẩn gây bệnh viêm màng não mủ.
– CSDL phải đƣợc tích hợp với web, tạo giao diện thân thiện với ngƣời sử dụng.
– Thông qua các trang web, ngƣời dùng có thể truy cập CSDL để tìm kiếm các
thơng tin về hai gene nhƣ tên của vi khuẩn, tên của trình tự, chiều dài trình tự, tác giả
giải trình tự…
– Tích hợp các cơng cụ phân tích trình tự vào trang web nhƣ BLAST,
Alignment…
– Thiết kế mồi đặc hiệu phân biệt đƣợc các vi khuẩn trong nhóm vi khuẩn viêm
màng não mủ thơng qua chƣơng trình thiết kế mồi Primrose 2.17.


3

PHẦN 2: TỔNG QUAN TÀI LIỆU
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU
2.1.1. Định nghĩa
Cơ sở dữ liệu (CSDL) là một tập hợp dữ liệu đƣợc tổ chức theo một cấu trúc
chặt chẽ nhằm phục vụ cho nhiều mục tiêu khác nhau một cách có chọn lọc. Tập hợp
dữ liệu sẽ đƣợc lƣu trữ trên các thiết bị lƣu trữ thông tin thứ cấp nhƣ băng từ, đĩa từ…
để thỏa mãn nhu cầu khai thác thông tin đồng thời của nhiều ngƣời sử dụng hay nhiều
chƣơng trình ứng dụng với nhiều mục đích khác nhau.
2.1.2. Hệ quản trị CSDL (Database Management System – DBMS)
Là một hệ thống phần mềm cho phép các nhà phân tích và thiết kế CSDL

cũng nhƣ ngƣời khai thác CSDL đƣợc thuận lợi trong quá trình thiết kế, thao tác, truy
xuất và quản lý dữ liệu.
Hiện nay, một số hệ quản trị CSDL mạnh đang đƣợc đƣa ra thị trƣờng nhƣ
Visual FoxPro, SQL-Server, Oracle…
2.1.3. Các mô hình dữ liệu
Mơ hình dữ liệu là sự trừu tƣợng hóa thế giới thực, là sự biểu diễn dữ liệu ở
mức quan niệm. Hiện nay, có năm loại mơ hình dữ liệu chính. Đó là:
Mơ hình dữ liệu mạng
Mơ hình dữ liệu phân cấp
Mơ hình dữ liệu quan hệ
Mơ hình dữ liệu thực thể kết hợp
Mơ hình dữ liệu hƣớng đối tƣợng
2.2. NGƠN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB
2.2.1. Perl
2.2.1.1. Tóm tắt lịch sử phát triển
Perl (Practical Extraction and Report Language) do Larry Wall tạo ra vào năm
1986 nhằm quản trị các mạng máy tính lớn. Ngơn ngữ này phát sinh từ ngơn ngữ lập
trình C và bị ảnh hƣởng bởi ngôn ngữ khác nhƣ BASIC, Awk, Sed và UNIX shell.
Năm 2000, phiên bản 5.6 xuất hiện. Phiên bản này đã chuyển sang định dạng
tiêu chuẩn và có sự hỗ trợ cả Unicode và UTF-8.


4

Năm 2002, phiên bản Perl 5.8 ra đời cùng với nhiều cải tiến mới đƣợc bổ
sung.
2.2.1.2. Ứng dụng
Perl đƣợc dùng để xử lý tập tin, truy cập dữ liệu và đƣợc dùng cho giao diện
cổng chung (Common Gateway Interface – CGI), tiến hành tạo script của Microsoft
Windows, tạo giao diện ngƣời dùng đồ họa (Graphical User Interface – GUI).

Ƣu điểm: là ngơn ngữ dễ nắm bắt, thích hợp cho xử lý chuỗi và văn bản thuần
túy, đƣợc sự hỗ trợ của nhiều hệ điều hành. Vì vậy, Perl là ngơn ngữ lập trình thích
hợp cho các nhà tin – sinh học vì nó có thể giúp cho việc thao tác trên các chuỗi trình
tự sinh học, tạo CSDL sinh học dễ dàng hơn. Ngồi ra, Perl cịn đƣợc hỗ trợ bởi các
module (tập các hàm) giúp kết nối, truy xuất CSDL với trang web, tạo ra trang web
động.
Nhƣợc điểm: chỉ có thể dùng để viết các chƣơng trình, script nhỏ.
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng
Module CGI (Common Gateway Interface): Module này gồm các hàm giúp
viết kịch bản Perl theo giao thức CGI. Các script này giúp lấy thơng tin từ trình duyệt
khách gởi đến máy chủ, đƣa vào chƣơng trình xử lý và trả thơng tin kết quả đến máy
khách.
Module DBI (Database Interface): là tập các hàm, biến và những qui ƣớc
cần thiết cho việc tƣơng tác với một CSDL nhất định thông qua Perl script, hoàn toàn
độc lập với hệ quản trị CSDL (Tim Bunce). Những tƣơng tác có thể nhập, nâng cấp,
xử lý, rút trích…dữ liệu vào hay ra khỏi CSDL.
Module DBD (Database Driver): là một module phụ thuộc loại hệ quản trị
CSDL và liên kết với module DBI để truy cập vào một loại hệ quản trị CSDL nhất
định. Nhƣ vậy tƣơng ứng với một hệ quản trị CSDL có một loại DBD. Ví dụ nhƣ hệ
quản trị MySQL có Database Driver là DBD::MySQL.


5

RDBMS

P
E
R
L


D
B
I

DBD

S
C
R
I
P
T

S
w
i
t
c
h

DBD

RDBMS

DBD
RDBMS

Hình 2.1. Tương tác giữa Perl script-DBI-DBD và RBDMS
2.2.2. Giới thiệu về mạng Internet

Năm 1957, Bộ quốc phòng Mỹ thành lập cơ quan nghiên cứu các dự án kỹ
thuật cao ARPA (Advanced Research Projects Agency), thuộc một bộ phận trong bộ
quốc phòng. Chỉ một thập niên sau, năm 1969, ARPA thiết lập mạng ARPANET –
tiền thân của Internet ngày nay. ARPANET là một mạng máy tính nối bốn máy chủ tại
các trƣờng đại học California – Los Angeles, đại học California – Santa Barbara, viện
nghiên cứu Standford và đại học Utah lại với nhau.
Đến năm 1973, mạng xuyên quốc gia đầu tiên đƣợc thiết lập giữa hai nƣớc
Anh và Na Uy.
Năm 1982, giao thức TCP/IP ra đời và nhanh chóng trở thành giao thức
chuẩn.
Internet dần dần đƣợc phát triển và đột phá từ khi có sự ra đời của dịch vụ
WWW (World Wide Web). Và từ đây, Internet đƣợc mở rộng sử dụng cho các ngành
nghiên cứu khác và trở thành một cơng cụ có mục đích thƣơng mại.
2.2.3. Tích hợp CSDL với web dùng CGI
Gồm ba bƣớc:
Bƣớc 1: từ trình duyệt web (trên máy client) gởi đi những yêu cầu của
ngƣời dùng đến máy server. Ở máy server, thông qua trình ứng dụng CGI chuyển
những u cầu đó thành những câu truy vấn SQL.
Bƣớc 2: kết nối CSDL, thực hiện những câu truy vấn đó.


6

Bƣớc 3: thu lấy kết quả truy vấn, thông qua trình ứng dụng CGI chuyển kết
quả thu đƣợc từ CSDL thành định dạng HTML, rồi trả về máy client.
2.3. CƠ SỞ DỮ LIỆU SINH HỌC
Sự phát triển của kỹ thuật và thiết bị thí nghiệm nhƣ kỹ thuật DNA Microarray, kỹ
thuật giải trình tự tự động cho phép tạo ra hàng ngàn dữ liệu sinh học trong chốc lát.
Nhƣ vậy vấn đề đặt ra là cần phải có biện pháp lƣu trữ, quản lý, sử dụng và chia sẻ
nguồn dữ liệu này. Do đó cần xây dựng các dữ liệu này thành một CSDL hồn chỉnh

để có thể thực hiện đƣợc mục đích trên. Hơn thế nữa, với việc hệ thống hóa tồn bộ dữ
liệu trên, chúng ta dễ dàng thực hiện việc chia sẻ những thông tin ấy qua mạng Internet
hay kết nối thêm vào những tập dữ liệu ở nơi khác.
Một số CSDL lớn, trực tuyến đã đƣợc xây dựng để cung cấp thông tin cho các
nhà nghiên cứu sinh học nhƣ NCBI, EBI, SIB, DDBJ…
2.3.1. NCBI (National Center for Bioinformatic Information)
2.3.1.1. Vài nét về NCBI
NCBI là chữ viết tắt của “National Center for Bioinformatic Information”.
Đây là trung tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của
Hoa Kỳ (NIH – National Institute of Health). NCBI chính thức đƣợc thành lập vào
ngày 4/10/1988. Đến năm 1991, NCBI đảm nhiệm việc quản lý CSDL trình tự DNA
và từ đó NCBI cịn đƣợc gọi là GenBank.

NIH

NLM

NCBI

Hình 2.2. Tương quan giữa NCBI, NLM (National Library of Medicine) và NIH
NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông
qua những CSDL trực tuyến. Ngồi ra, NCBI cịn tham gia những nghiên cứu về “sinh
học tính tốn” (computation biology), phát triển những cơng cụ phân tích dữ liệu bộ
gene, protein…


7

2.3.1.2. Một số cơ sở dữ liệu trong NCBI
Nucleotide (GenBank): là CSDL về trình tự nucleotide.

Protein: là CSDL về trình tự amino acid.
Genome: trình tự tồn bộ genome của một số sinh vật.
Structure: hay cịn có tên gọi là MMDB (Molecular Modeling Database)
chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn những chuỗi
nucleotide.
Ngoài ra, NCBI còn một số CSDL khác. Chúng là các CSDL trung gian, đƣợc
tạo thành từ sự kết hợp của hai hay nhiều CSDL trên, hay do liên kết đến các CSDL
khác.
2.3.1.3. Một số công cụ trong NCBI
– Công cụ khai thác dữ liệu
Tìm kiếm thơng tin sinh học dựa trên từ khóa có dạng văn bản:
Entrez: chứa các phƣơng thức tìm kiếm nhƣ tìm kiếm dựa trên accession
number hay dựa theo tên sinh vật, tên gene, tên protein…
Tìm kiếm trình tự tƣơng đồng: có phần mềm điển hình nhƣ:
BLAST (Basic Local Alignment Search Tool). Thơng tin hƣớng dẫn về
BLAST có ở trang BLAST Homepage.
Stand-alone BLAST: là phần mềm có thể tải về từ NCBI. Phần mềm này
thực hiện việc tìm kiếm các trình tự tƣơng đồng trên CSDL trình tự cục bộ.
Phân loại sinh vật:
Taxonomy Browser: công cụ thực hiện việc tìm kiếm trên CSDL Taxonomy.
Taxonomy BLAST: nhóm lại những kết quả có tỉ lệ tƣơng đồng khi thực hiện
BLAST, tùy thuộc vào sự phân loại của chúng trong CSDL Taxonomy.
TaxTable: tóm tắt kết quả sau khi thực hiện BLAST với CSDL Taxonomy và
hiển thị mối quan hệ giữa sinh vật này với sinh vật khác bằng các biểu đồ màu.
– Cơng cụ phục vụ cho việc góp trình tự protein, DNA, EST, STS lên
NCBI
Sequin: phần mềm này có thể tải về từ NCBI, hỗ trợ cho việc tạo ra những
file văn bản (chứa trình tự, tên tác giả, bài báo…) có cấu trúc theo khn mẫu. Trong
phần mềm này cịn kèm theo một số cơng cụ nhỏ nhƣ cơng cụ tìm khung đọc mở, cơng



8

cụ gióng cột trình tự… phần mềm này thích hợp cho việc góp nhiều trình tự cùng một
lúc.


NCBI cịn tích hợp khá nhiều những cơng cụ, phần mềm phân tích

trình tự DNA, protein nhƣ:
ORF Finder, Electronic-PCR (e-PCR), VecScreen, Homologene, COGs,
COGnitor, GEO, MGC, Clone Registry, CDD, LocusLink…
2.3.2. EBI (European Bioinformatics Institute)
2.3.2.1. Vài nét về EBI
EBI là viện Tin - sinh học của Cộng đồng chung Châu Âu, EBI đặt tại
Welcome Trust Genome Campus nƣớc Anh, thành lập năm 1992. EBI bắt nguồn từ
EMBL (European Molecular Biology Laboratory). EMBL đƣợc thành lập năm 1980
tại phịng thí nghiệm sinh học phân tử Heidelberg của Đức và đây là CSDL trình tự
nucleotide đầu tiên của thế giới.
EBI phục vụ cho việc nghiên cứu trong các lĩnh vực nhƣ sinh học phân tử, di
truyền, y học, nơng nghiệp… bằng cách xây dựng, duy trì những CSDL chia sẻ trực
tuyến thông tin cần thiết. Bên cạnh đó, EBI cịn thực hiện những nghiên cứu trong lĩnh
vực Tin-sinh học và sinh học phân tử tính tốn.
2.3.2.2. Một số cơ sở dữ liệu trong EBI
EMBL (European Molecular Biology Laboratory): cịn đƣợc gọi là EMBLBANK chứa CSDL về trình tự DNA, RNA.
MSD (Macromolecular Structure Database): chứa thông tin cấu trúc của các
đại phân tử sinh học nhƣ protein, DNA, RNA…
ArrayExpress: tích trữ nguồn dữ liệu về sự biểu hiện của gene dựa trên kỹ
thuật Microarray.
TrEMBL (Translate EMBL): là cơ sở dữ liệu về protein. Do lƣợng trình tự

này ngày càng nhiều và để quản lý tốt hơn, TrEMBL đã kết hợp với Swiss-Prot (CSDL
về trình tự protein của Thụy Sỹ), PIR (CSDL về protein của trƣờng đại học Y
Georgetown, Hoa Kỳ) tạo thành CSDL UniProt.
Ngồi ra, EBI cịn một số CSDL khác. Chúng là các CSDL trung gian, đƣợc tạo
thành từ sự kết hợp của hai hay nhiều CSDL trên hay do liên kết đến CSDL khác


9

2.3.2.3. Một số cơng cụ hỗ trợ phân tích trình tự sinh học
FASTA: Do Smith và Waterman tạo ra năm 1981, là chƣơng trình tìm kiếm
những trình tự tƣơng đồng, có thể là trình tự DNA hay trình tự protein, trong CSDL đã
chọn.

Cơ sở dữ liệu về protein
của trƣờng đại học Y
Georgetown (Mỹ)

Cơ sở dữ liệu về
protein của Thụy
Sỹ đặt tại Geneva

Hình 2.3. Một số cơ sở dữ liệu trong EBI
BLAST: chủ yếu là phần mềm WU-BLAST (Washington University Basic
Local Alignment Tool version 2.0). Đặc điểm chính của cơng cụ này là tìm kiếm vùng
trình tự tƣơng đồng nhanh chóng.
ClustalW: là cơng cụ dành cho việc sắp gióng cột ở hai hay nhiều trình tự
sinh học (cả protein và DNA), cơng cụ này cho ra kết quả có ý nghĩa sinh học cao.
2.3.3. SIB (Swiss Institute of Bioinformatics)
Là viện Tin-sinh học của Thụy Sỹ đặt tại Geneva, nơi cung cấp dịch vụ trên

web chất lƣợng cao cho cộng đồng khoa học thế giới qua trang ExPASy (Expert
Protein Analysis System).


10

Một số CSDL trong ExPASy:
SWISS-PROT: là CSDL protein, đƣợc thành lập năm 1986. Nhƣng kể từ
năm 1987, SWISS-PROT liên kết với EBI.
SWISS-2DPAGE

(2-dimensional

polyacrylamide

gel

electrophoresis

database): chứa dữ liệu điện di hai chiều từ protein của ngƣời, chuột, E. coli…
PROSITE: tích trữ về các họ protein có cùng chức năng.
ENZYME (enzyme nomenclature): cung cấp thơng tin về danh pháp của
enzyme.
SWISS-3DIMAGE: lƣu trữ hình ảnh chất lƣợng cao của các đại phân tử sinh
học đã biết cấu trúc không gian ba chiều.
2.3.4. DDBJ (DNA Data Bank Japan) và PDBj (Protein Database Japan)
DDBJ là CSDL về trình tự DNA của Nhật Bản, chính thức đi vào hoạt động
năm 1986, đặt tại viện di truyền quốc gia (NIG). Đến năm 2001, trung tâm thông tin về
sinh học ở NIG đƣợc tổ chức lại với cái tên là CIB (Center Information Biology) kết
hợp với DDBJ, viết tắt CIB/DDBJ.

PDBj là CSDL của Nhật Bản, tích trữ dữ liệu về cấu trúc, chức năng protein.
DDBJ của Nhật Bản, EMBL của Châu Âu, NCBI của Hoa Kỳ là ba CSDL về trình
tự nucleotide lớn, mang tính chất tồn cầu và ba cơ sở dữ liệu này có sự hợp tác, trao
đổi qua lại dữ liệu. Từ đó càng làm cho dữ liệu về trình tự nucleotide trở nên phong
phú hơn. Các tổ chức này đều xây dựng cơng cụ tìm kiếm trong CSDL của họ. Với
NCBI là Entrez, EBI là SRS và CIB là getentry. Nhƣ vậy để có thể khai thác hiệu quả
các CSDL này thì việc đầu tiên cần thực hiện là nắm vững các hoạt động của công cụ
tìm kiếm “search engines” này.


11

NIH

Entrez

NCBI

GenBank

•Submissions
•Updates

EM B L
•Submissions
•Updates

EMBL
DDBJ
EBI


CIB

NIG

•Submissions
•Updates

SRS

getentry
Hình 2.4. Ba cơ sở dữ liệu nucleotide (GenBank – EMB – DDBJ) và cơng cụ tìm kiếm
tương ứng
Ngồi ra cịn có sự kết hợp của các CSDL protein trên thế giới để tạo ra một
CSDL thống nhất wwPDB (world wide Protein Database).

Hình 2.5. Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB


×