Tải bản đầy đủ (.pdf) (51 trang)

Luận văn thạc sĩ dự đoán kháng kháng sinh sử dụng hướng tiếp cận dựa trên học máy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.28 MB, 51 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
──────── * ───────

NGUYỄN HUY TÌNH

DỰ ĐỐN KHÁNG KHÁNG SINH SỬ DỤNG
HƢỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY

LUẬN VĂN THẠC SĨ

HÀ NỘI 12 – 2020


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
──────── * ───────

NGUYỄN HUY TÌNH

DỰ ĐỐN KHÁNG KHÁNG SINH SỬ DỤNG
HƢỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY

NGÀNH

: CÔNG NGHỆ THÔNG TIN

CHUYÊN NGÀNH

: HỆ THỐNG THÔNG TIN


MÃ SỐ

: 8480104.01

LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. ĐẶNG THANH HẢI

HÀ NỘI 12 – 2020
2


LỜI CAM ĐOAN
Với mục đích học tập, nghiên cứu để nâng cao kiến thức và trình độ chun
mơn nên tơi đã làm luận văn này một cách nghiêm túc và hồn tồn trung thực.
Trong luận văn tơi có sử dụng một số tài liệu tham khảo của một số tác giả. Tơi
đã chú thích và nêu ra trong phần tài liệu tham khảo ở cuối luận văn.
Tôi xin cam đoan và chịu trách nhiệm về nội dung và sự trung thực trong luận
văn tốt nghiệp Thạc sĩ của mình.
Hà Nội, ngày 22 tháng 12 năm 2020

Nguyễn Huy Tình

3


LỜI CẢM ƠN
Lời đầu tiên tôi xin ch n thành cảm n c c thầy cô gi o trong tr ờng Đại Học
Công Nghệ - Đại học Quốc Gia Hà Nội đ c iệt là c c thầy cô của khoa Công Nghệ
Thông Tin đã truyền đạt cho tôi những kiến thức, kinh nghiệm vô cùng quý báu trong
suốt thời gian qua.

Tôi xin gửi lời cảm n đến TS. Đ ng Thanh Hải – giảng viên khoa Công Nghệ
Thông tin – Tr ờng Đại học Cơng Nghệ đã tận tình giúp đỡ, trực tiếp chỉ bảo và
h ớng dẫn tận tình trong suốt quá trình làm luận văn. Luận văn này đ ợc thực hiện
trong khuôn khổ đề tài mã số 102.05-2016.14 đ ợc tài trợ bởi Quỹ Phát triển khoa học
và công nghệ Quốc gia (NAFOSTED).
Cuối cùng tôi xin đ ợc cảm n đến gia đình ạn è đã động viên đóng góp ý
kiến và giúp đỡ trong quá trình học tập, nghiên cứu và hồn thành luận văn.
Do thời gian, kiến thức và kinh nghiệm của tơi cịn hạn chế nên khóa luận
khơng thể tránh khỏi những sai sót. Tơi hy vọng sẽ nhận đ ợc những ý kiến nhận xét,
góp ý của các thầy cơ giáo và các bạn để đồ n đ ợc hoàn hiện h n.
Tôi xin chân thành cảm n!
Hà Nội, ngày 22 tháng 12 năm 2020

Nguyễn Huy Tình

4


MỤC LỤC
LỜI CAM ĐOAN ................................................................................................. 3
LỜI CẢM ƠN....................................................................................................... 4
MỤC LỤC ............................................................................................................ 5
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................... 7
DANH MỤC HÌNH VẼ ....................................................................................... 8
DANH MỤC BẢNG BIỂU .................................................................................. 9
MỞ ĐẦU ............................................................................................................ 10
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT................................................................... 12
1.1. CÁC KHÁI NIỆM LIÊN QUAN ĐẾN GEN ......................................... 12
1.1.1. Giới thiệu chung ............................................................................... 12
1.1.2. Khái niệm về thuốc kháng sinh ........................................................ 17

1.1.3. Sự đề kháng kháng sinh của vi khuẩn .............................................. 20
1.2. KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU ................................ 24
1.2.1. Định nghĩa về khai phá dữ liệu ........................................................ 24
1.2.2. Học có giám sát ................................................................................ 24
1.2.3. Khái niệm về thuật tốn phân lớp trong học có giám sát ................. 26
1.2.4. Bài toán phân lớp.............................................................................. 26
1.2.5. Tổng quan về một số thuật toán phân lớp c

ản............................. 27

1.2.6. Đ nh giá mơ hình phân lớp .............................................................. 29
CHƯƠNG 2: DỰ ĐOÁN KHÁNG KHÁNG SINH .......................................... 32
2.1. BỘ DỮ LIỆU GEN E.COLI ................................................................... 32
2.2. XÂY DỰNG BỘ GEN ............................................................................ 36
2.2.1. Dự đo n gen mã hóa protein sử dụng phần mềm Prodigal .............. 36
2.2.2. Phân cụm các gen mã hóa protein sử dụng phần mềm CD-HIT,
eggNOG ................................................................................................................. 37
2.2.3. Đ nh dấu các gen kháng kháng sinh sử dụng CARD ...................... 38
2.3. LẬP BẢNG DỮ LIỆU ............................................................................ 41
CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT LUẬN .............................................. 45
5


3.1. Mơ hình thực nghiệm .............................................................................. 45
3.2. Thử nghiệm ............................................................................................. 45
3.2.1. Cấu hình phần cứng .......................................................................... 45
3.2.2. Kết quả thực hiện.............................................................................. 45
3.3. Đ nh gi ................................................................................................... 48
3.3.1. Đ nh gi chung ................................................................................. 48
3.3.2. So sánh với một số ph


ng ph p kh c ............................................. 48

CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................... 50
4.1. Kết luận ................................................................................................... 50
4.2. H ớng phát triển trong t

ng lai ............................................................. 50

TÀI LIỆU THAM KHẢO .................................................................................. 51

6


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Ký hiệu viết tắt

Thuật ngữ đầy đủ

DNA

DeoxyriboNucleic Acid

RNA

ReboNucleic Acid

SVM

Support Vector Machine


Thuận toán máy vector hỗ
trợ

RF

Random Forest

Thuật tốn rừng ngẫu
nhiên

ADA

Adaboost

Thuật tốn Adaboost

NB

Nạve Bayes

Thuật tốn Nạve Bayes

PBP

Penicillin-Binding
Proteins

Protein gắn penicillin


7

Giải thích


DANH MỤC HÌNH VẼ
Hình 1-1: Các c p nhiễm sắc thể ở ng ời .......................................................... 12
Hình 1-2: Một đoạn gen của vi khuẩn E.coli ..................................................... 13
Hình 1-3: Cấu trúc DNA .................................................................................... 14
Hình 1-4: Cấu trúc amino acid ........................................................................... 15
Hình 1-5: C chế đề kháng của vi khuẩn ........................................................... 20
Hình 1-6: Thuận tốn SVM ................................................................................ 27
Hình 1-7: Thuật tốn Random Forest ................................................................. 28
Hình 1-8: Thuật tốn Adaboost .......................................................................... 28
Hình 2-1: Web tải dữ liệu gen E.coli.................................................................. 32
Hình 2-2: Đầu vào ứng dụng Prodigal ............................................................... 36
Hình 2-3: Đầu ra ứng dụng Prodigal: c c đoạn gen mã hóa protein .................. 37
Hình 2-4: Đầu ra ứng dụng Prodigal: c c đoạn protein ..................................... 37
Hình 2-5: Đầu ra phần mềm CD-HIT ................................................................ 38
Hình 2-6: Các gen có khả năng kh ng kh ng sinh ............................................. 39
Hình 2-7: Các họ gen kháng kháng sinh ............................................................ 39
Hình 2-8: Các thuốc kháng sinh mà vi khuẩn kháng lại .................................... 40
Hình 2-9: Kĩ thuật kháng thuốc của vi khuẩn .................................................... 41
Hình 3-1: Đ nh gi độ chính xác theo giải thuật................................................ 47
Hình 3-2: Đ nh gi độ chính xác theo từng loại kháng sinh .............................. 47

8


DANH MỤC BẢNG BIỂU

Bảng 1-1: Danh sách amino acid ........................................................................ 16
Bảng 1-2: Chức năng c c loại protein c

ản .................................................... 17

Bảng 1-3: Bộ dữ liệu huấn luyện........................................................................ 26
Bảng 1-4: Ma trận nhầm lẫn ............................................................................... 29
Bảng 1-5: Ma trận chuẩn hóa ............................................................................ 30
Bảng 2-1: Danh sách các dòng E.coli................................................................. 34
Bảng 2-2: Bảng đ nh dấu hoạt động của E.coli ................................................. 36
Bảng 2-3: Bộ gen accessory dùng để dự đo n ................................................... 43
Bảng 2-4: Bảng t

ng t c thuốc ampicillin ....................................................... 44

Bảng 3-1: Độ chính xác dự đo n (accuracy) ...................................................... 47
Bảng 3-2: Thời gian huấn luyện và tài nguyên sử dụng .................................... 48
Bảng 3-3: So s nh độ chính xác (accuracy) với c c ph

9

ng ph p kh c ........... 49


MỞ ĐẦU
Kháng sinh là loại thuốc quan trọng giúp ngăn ngừa sự tiến triển của bệnh lý
gây ra bởi vi khuẩn (nhiễm trùng), giảm các triệu chứng và biến chứng nghiêm trọng
của bệnh. Tuy nhiên, việc lạm dụng quá mức khiến những loại kh ng sinh đã sử dụng
tr ớc đ y ít hiệu quả ho c khơng có hiệu quả trong việc điều trị các nhiễm trùng do vi
khuẩn về sau. Đ y là một trong những vấn đề nhức nhối của các tổ chức y tế trên thế

giới.
Kháng thuốc kháng sinh (kháng kháng sinh) là khả năng của vi khuẩn ho c các
tác nhân gây bệnh dạng vi khuẩn kháng lại các hiệu quả của thuốc kh ng sinh. Khi đó
vi khuẩn sẽ thay đổi theo một cách mới để làm giảm ho c loại bỏ hiệu quả của thuốc,
hóa chất ho c c c t c nh n kh c đ ợc dùng để chữa bệnh.
Bất kì vi khuẩn nào sống sót sau khi điều trị kh ng sinh đều có thể nhân lên và
truyền c c đ c tính của nó cho các thế hệ sau.
Ngồi ra, một số vi khuẩn có thể chuyển c c đ c tính kháng thuốc của chúng
sang các vi khuẩn kh c điều này làm gia tăng số l ợng chủng loại vi khuẩn kháng
thuốc kháng sinh ngày càng nhiều h n.
Tình trạng kháng kháng sinh ngày càng gia tăng nh ng nh n loại ch a tìm ra
đ ợc loại kháng sinh nào hoàn toàn mới để thay thế những thuốc hiện dùng điều này
gây ra nhiều lo ngại trong cơng cuộc chăm sóc sức khỏe y tế cho cộng đồng.
Các hậu quả của nhiễm trùng kháng thuốc có thể bao gồm:


Bệnh n ng h n thời gian phục hồi l u h n.



Bệnh t i đi t i lại th ờng xun



Ph



Tử vong khi khơng có thuốc hiệu quả điều trị


ng ph p và chi phí điều trị cao h n.

Theo một nghiên cứu đ ợc công bố năm 2013 chi phí kinh tế do kháng kháng sinh
có thể lên tới 55 tỷ USD và các bệnh nhiễm trùng thơng th ờng có thể tăng tỉ lệ tử
vong từ 0% lên 30%. Nếu chúng ta khơng có những hành động kịp thời thì vào năm
2050 số ng ời chết do các bệnh nhiễm khuẩn có liên quan đến đề kháng kháng sinh có
thể tăng lên tới 10 triệu ng ời/năm và làm giảm ~3,5% GDP toàn cầu do phát sinh
tổng chi phí điều trị có liên quan đến đề kháng kháng sinh.
Cũng vào thời điểm đó với tổng sản l ợng kinh tế toàn cầu chiếm gần 100 nghìn tỷ
USD nh ng cứ mỗi 3 giây sẽ có một ng ời tử vong có liên quan đến đề kháng kháng
sinh và mỗi đầu ng ời hiện nay sẽ gánh thêm một khoản chi phí đến h n 10 nghìn
USD.
10


Tại Việt Nam, tình trạng đề kháng kháng sinh hiện nay đang ở mức o động. Số
chủng vi khuẩn kháng thuốc và đa kh ng thuốc ngày càng nhiều, và mức độ đề kháng
kh ng sinh ngày càng gia tăng một c ch đ ng ngại.
Vì vậy, việc khảo s t định kỳ về hiệu quả của kh ng sinh trong điều trị các bệnh
nhiễm khuẩn th ờng g p trong cộng đồng, là rất quan trọng đ c biệt là đối với các
bệnh nhiễm khuẩn đ ờng hô hấp. Các dữ liệu nghiên cứu này góp phần quan trọng
trong các quá trình nghiên cứu để đ a ra c c ph c đồ điều trị mới có hiệu quả h n
đồng thời nâng cao ý thức của giới y tế và khuyến khích sự tuân thủ tốt h n với các
nguyên tắc chỉ định/sử dụng kháng sinh hợp lý trong hệ thống chăm sóc sức khỏe cũng
nh trong cộng đồng trên toàn thế giới.
Một trong những vấn đề cấp thiết đ t ra là dự đo n đ ợc một chủng loại vi
khuẩn có kháng lại một dịng kh ng sinh nào đó hay khơng để chúng ta đ a ra ph c đồ
điều trị hợp lý, hiệu quả. Và đó cũng là lý do tơi quyết định chọn đề tài: “Dự đo n
kháng kháng sinh sử dụng h ớng tiếp cận dựa trên học m y”.
Luận văn có ố cục gồm 3 ch


ng chính:

Chƣơng 1: C sở lý thuyết
Ch ng này giới thiệu tổng quan về hệ gen, protein cấu trúc hệ gen trong sinh
học đồng thời cũng giới thiệu tổng quan về c c kĩ thuật khai phá dữ liệu (nói chung)
và kĩ thuật phân lớp dữ liệu (nói riêng).
Chƣơng 2: Dự đo n kh ng kh ng sinh
Ch ng này đi s u tìm hiểu về xây dựng bộ dữ liệu, biến đổi, trích chọn đ c
tr ng. Đồng thời đi s u vào tìm hiểu các thuật tốn phân lớp: SVM, Nạve Bayes,
Random Forest, Adaboost.
Chƣơng 3: Thực nghiệm và kết luận
Ch ng này sẽ trình bày việc áp dụng các mơ hình phân lớp để dự đo n kh ng
kháng sinh với những dòng vi khuẩn E.coli và trên c c dòng kh ng sinh c ản:
Ampicillin, Gentamicin, Ciprofloxaxin, Trimethoprin.
Cuối cùng là một số kết luận và h ớng phát triển trong t

11

ng lai


CHƢƠNG 1: CƠ SỞ LÝ THUYẾT
1.1. CÁC KHÁI NIỆM LIÊN QUAN ĐẾN GEN
1.1.1. Giới thiệu chung
C thể của sinh vật bao gồm cả con ng ời đều có cấu tạo từ tế bào (cell). Mỗi
chúng ta đều có 100 nghìn tỉ tế ào mà ên trong là n i l u trữ các thông tin di truyền.
Những thông tin này là chức năng của tế ào và cũng để phân biệt ng ời này với
ng ời khác. Có nhiều loại tế bào khác nhau: tế bào não, tế bào da, tế ào c tế bào
tủy,...[1]

Với con ng ời, mỗi tế bào có 23 c p nhiễm sắc thể. Mỗi nhiễm sắc thể đ ợc
cấu thành từ một phân tử DNA (gọi là một trình tự DNA). Và gen là một đoạn đ c biệt
của phân tử DNA có chức năng điều khiển cấu trúc và hoạt động của tế bào.

Hình 1-1: Các cặp nhiễm sắc thể ở ngƣời
Những DNA này cấu tạo bởi các base A, C, G và T. Những base này kết hợp
với nhau theo kiểu xoắn và có trình tự đ c tr ng để x c định chức năng của từng loại
tế bào, cái này gọi là mã di truyền. Phần lớn c c gen đều mã hóa protein tuy nhiên số
l ợng gen quá lớn đã tạo ra thách thức không nhỏ cho ngành sinh học phân tử cũng
nh c c nhà khoa học máy tính.
Chẳng hạn, chúng ta cần những tri thức cần thiết để hiểu đ ợc những căn ệnh
di truyền hay những bệnh sinh ra do đột biến gen.
Có 2 loại gen chính đó là:
 Gen mã hóa: đ y là c c gen mang thơng tin, chúng có chức năng mã hóa các
protein cấu tạo nên thành phần cấu trúc và chức năng của tế bào.
 Gen điều hòa: là các gen tham gia vào hoạt động điều khiển và kiểm sốt
các q trình biểu hiện protein.
12


Ngồi ra cịn có các cách phân loại gen khác, ví dụ phân loại theo cấu trúc của
gen thì chúng ta có thể có gen phân mảnh và gen khơng phân mảnh.
 Gen phân mảnh: là các gen có vùng mã hóa khơng liên tục.
 Gen khơng phân mảnh: là các gen có vùng mã hóa liên tục.
Bộ gen hay hệ gen (genome) là tập hợp chứa tồn bộ thơng tin di truyền của
một c thể sinh vật đ ợc mã hóa ADN (ở một số virus có thể là ARN). Bộ gen bao
gồm những vùng chứa gen lẫn những đoạn khơng phiên mã.
Có 4 đại phân tử khơng thể thiếu để hình thành nên c thể sống đó là:






Nucleic acid: l u trữ chỉ thị di truyền
Protein: biểu hiện của vật chất sống
Polysaccharide: tham gia cấu tạo tế bào, là nguồn dự trữ năng l ợng chính
Lipid: thành phần của màng tế ào đ ợc cấu tạo từ các acid béo, là nhân tố
chính để hình thành các màng sinh học.

Hình 1-2: Một đoạn gen của vi khuẩn E.coli
1.1.1.1. Nucleic acid
Nucleic acid là vật chất mang thông tin di truyền của c c c thể sống đ ợc hình
thành từ các phân tử nucleotide. Mỗi nucleotide có 3 thành phần:
 Phosphate
 Đ ờng
 Và một base hữu c .
Do các Nucleotide chỉ khác nhau ở base hữu c nên th ờng dùng thuật ngữ
Base thay cho Nucleotide. Đại phân tử Nucleic acid gồm 2 loại đa ph n tử giống nhau:
 DNA: Deoxyribonucleic Acid
13


 RNA: Rebonucleic Acid
a. DNA
Đại phân tử DNA là chuỗi xoắn kép gồm 2 mạch đ n mỗi mạch đ n là một
chuỗi nucleotide. Chuỗi nucleotide của DNA gồm: phosphate đ ờng Desoxyribose và
một trong 4 base hữu c là :






Adenin (A)
Cytosine (C)
Guanine (G)
Thymine (T)

Các nucleotide trong một mạch đ n liên kết với nhau bằng liên kết cộng hóa trị
đ ợc hình thành giữa đ ờng của nucleotide này với phosphate của nucleotide kế tiếp.
Các mạch đ n liên kết với nhau bằng liên kết hydro từ các base. Trong đó G
của mạch này liên kết với C của mạch kia, A của mạch này liên kết với T của mạch
kia.

Hình 1-3: Cấu trúc DNA
Do các Nucleotide chỉ khác nhau thành phần base hữu c nên đại phân tử DNA
nh là một trình tự sinh học gồm c c ase A T G C. Và điều này rất hữu ích khi biểu
diễn c c đại phân tử DNA trên máy tính bằng chuỗi ký tự chứa bốn chữ A, T, G, C.
Chẳng hạn, một chuỗi có 10 nucleotide thì số loại DNA khác nhau là
410=220=1,048,576.

14


b. RNA
Đại phân tử RNA t

ng tự nh DNA nh ng kh c nhau là:

 Là chuỗi xoắn đ n
 Đ ờng Pentose là Ribose

 Thymine đ ợc thay bởi Uracil (U)
Trong tế bào có 3 loại RNA chính tham gia vào quá trình dịch mã sang protein:
 mRNA (messenger RNA): là c c RNA thơng tin đ y chính là ản sao của
trình tự trên DNA, nhằm chuyển thơng tin mã hóa trên DNA đến bộ máy
giải mã protein t ng ứng.
 tRNA (transfer RNA): là các RNA vận chuyển đóng vai trị vận chuyển các
amino acid đến bộ máy dịch mã để tổng hợp ra protein từ mRNA t ng ứng.
 rRNA (ribosomal RNA): là các RNA của ribosome, rRNA chiếm phần lớn
tổng số RNA của tế bào. Ribosome là thành phần trong bộ máy dịch mã của
tế ào đ ợc tạo thành bằng cách kết hợp rRNA với protein.
1.1.1.2. Protein
a. Khái niệm
Protein đ ợc tạo thành từ c c amino acid. C c amino acid đ ợc tạo thành từ các
base trên trình tự DNA và có tất cả 20 loại amino acid chính. Amino acid đ ợc cấu tạo
từ 3 yếu tố: nhóm amin (-NH2), nhóm carboxyl (-COOH) và nguyên tử cacbon trung
t m đính với 1 nguyên tử hydro và nhóm biến đổi R quyết định tính chất của amino
acid.
Kích th ớc một protein có thể từ 3 đến 10 nm và tìm ra cấu trúc của chúng là
bài tốn khó và tốn kém (cần 50,000$-200 000$ để tìm ra một cấu trúc mới).

Hình 1-4: Cấu trúc amino acid

15


Tên

Ký hiệu 3 kí tự

Ký hiệu 1 kí tự


Alanine

Ala

A

Arginine

Arg

R

Asparagine

Asn

N

Aspartic acid

Asp

D

Cysteine

Cys

C


Glutamine

Gln

Q

Glutamic acid

Glu

E

Glycine

Gly

G

Histidine

His

H

Isoleucine

Ile

I


Leucine

Leu

L

Lysine

Lys

K

Methionine

Met

M

Phenylalanine

Phe

F

Proline

Pro

P


Serine

Ser

S

Threonine

Thr

T

Tryptophan

Trp

W

Tyrosine

Tyr

Y

Valine

Val

V


Bảng 1-1: Danh sách amino acid

16


b. Chức năng của Protein
Protein có rất nhiều chức năng kh c nhau liên quan đến toàn bộ họa động sống
của tế ào quy định các tính trạng và các tính chất của c thể sống.

Chức năng

Loại Protein
Protein vận động

Chịu trách nhiệm cho sự co c
chuyển động



Protein cấu trúc

Có tính chất x và ền nên có ý nghĩa
cung cấp sự hỗ trợ cho các bộ phận
khác nhau của c thể.

Protein Enzyme

Chất xúc tác cho các phản ứng sinh
hóa.


Protein Hormone

Giúp c thể ln đ ợc điều hịa và cân
bằng.

Protein vận chuyển

Vận chuyển chất đến c c n i trong c
thể.

Protein kháng thể

Có vai trị bảo vệ c thể khỏi các
kháng ngun xâm nhập

Protein dự trữ

Có vai trị dữ trữ chất dinh d ỡng cho
c thể
Bảng 1-2: Chức năng các loại protein cơ bản

1.1.2. Khái niệm về thuốc kháng sinh
1.1.2.1. Định nghĩa
Kháng sinh (hay trụ sinh) là những chất đ ợc chiết xuất từ các vi sinh vật, nấm,
đ ợc tổng hợp ho c bán tổng hợp, có khả năng tiêu diệt vi khuẩn hay kìm hãm sự phát
triển của vi khuẩn một c ch đ c hiệu [3].
Kháng sinh có tác dụng lên vi khuẩn ở cấp độ phân tử th ờng là vị trí quan
trọng của vi khuẩn hay một phản ứng trong quá trình phát triển của vi khuẩn. Thời
x a, các cách trị nhiễm trùng chủ yếu dựa trên c c ph ng ph p y học dân gian. Loại

kh ng sinh đầu tiên là Penicillin đ ợc Alexander Flemming phát hiện vào năm 1928
đã mở ra cuộc cách mạng trong việc nghiên cứu và chế tạo kháng sinh.
17


1.1.2.2. Phân loại kháng sinh
a. Theo phổ t c dụng
Do c chế đ c hiệu của từng loại kháng sinh mà mỗi nhóm chỉ tác dụng lên một
số chủng vi khuẩn nhất định, giới hạn này gọi là phổ kháng khuẩn của kháng sinh.
 Kháng sinh phổ hẹp: là loại kháng sinh chỉ tác dụng lên 1 ho c 1 số lồi vi
sinh vật nhất định. Ví dụ, isoniazid chỉ tác dụng lên Mycobacterium
tuberculois.
 Kháng sinh phổ rộng: là loại kháng sinh có tác dụng lên nhiều loại vi khuẩn,
cả vi khuẩn gram âm và vi khuẩn gram d ng ví dụ nh nhóm quinolone
macrolide, carbapenem.
b. Theo cấu trúc hóa học
 Nhóm Beta lactam: gồm các kháng sinh có cấu trúc hóa học chứa vịng Beta
lactam, chia làm bốn nhóm:
o Penicillin
o Cephalosporin
o Carbapennem
o Monobactam
 Nhóm Aminoglycosid: trong cấu trúc hóa học có chứa gốc đ ờng và nhóm
chức amino gồm:
o Amikacin
o Tobramycin
o Gentamycin
 Nhóm macrolid: đ ợc phân lập từ Streptomyces gồm:
o Erythomycin
o Clarithomycin

o Azithromycin
 Nhóm lincosamid: gồm:
o Lincomycin
o Clindamycin
 Nhóm quinolone: là kháng sinh tổng hợp. Gồm các loại:
o Fluorquinolon
o Ciprofloxacin
o Lovofloxacin
o Moxifloxacin
 Nhóm glycopeptide: kháng sinh bán tổng hợp, khi sử dụng các kháng sinh
này cần đo nồng độ trong m u để đảm bảo hiệu quả điều trị. Gồm:
o Vancomycin
18


o Teicoplanin
 Và một số nhóm khác: Tetracylin, Trimethoprine, Polymyxin…
1.1.2.3. Cơ chế tác dụng của kháng sinh
a. Ức chế sinh tổng hợp v ch tế ào vi khuẩn
 Với vi khuẩn gram m: nhóm eta lactam đi vào tế bào thơng qua kênh
porin ở màng ngồi của tế bào vi khuẩn và gắn với PBP(Penicillin Binding
Protein) là một enyme tham gia vào quá trình nối peptidoglycan để tạo vách
vi khuẩn.
 Với vi khuẩn gram d ng: vi khuẩn này không có màng ngồi của tế bào
nên eta lactam t c động trực tiếp lên PBP. Nhóm Glycopeptide gắn với Dalanyl, từ đó ảnh h ởng lên q trình tổng hợp peptidoglycan.
b. Ức chế màng ào t

ng

Màng ào t ng có chức năng chính là thẩm thấu chọn lọc các chất. Khi kháng

sinh gắn đ ợc lên màng làm thay đổi tính thẩm thấu chọn lọc của màng khiến cho các
thành phần ion bên trong bị tho t ra ngoài và n ớc từ ên ngoài đi vào g y chết tế bào.
c. Ức chế sinh tổng hợp Protein
 Tetracyline: gắn lên tiểu đ n vị 30s ngăn cản tRNA gắn với mRNAribosome, là kháng sinh kiềm khuẩn.
 Aminoglycoside: gắn lên tiểu đ n vị 30s ngăn cản quá trình phiên mã
mRNA đồng thời làm mRNA phiên mã sai, là kháng sinh diệt khuẩn.
 Macroline, lincosamide: gắn lên tiểu đ n vị 50s, kết thúc quá trình phát triển
của chuỗi protein, là kháng sinh kiềm khuẩn.
 Clorpheniramin: gắn lên tiểu đ n vị 50s và ngăn cản quá trình gắn các acid
amin tạo chuỗi protein, là kháng sinh kiềm khuẩn.
 Linezolid: gắn với 23S ribosomal RNA của tiểu đ n vị 50s ngăn cản quá
trình tạo phức hợp 70s cần cho tổng hợp protein, là kháng sinh kiềm khuẩn.
d. Ức chế sinh tổng hợp Acid Nucleic
 Quinolone: t c động lên enzyme DNA gyrase và topoisomerase IV ảnh
h ởng lên qu trình nh n đơi DNA.
 Rifampicin: gắn vào DNA-dependent RNA polymerase, ức chế tổng hợp
RNA của tế bào vi khuẩn.
e. Ức chế sinh tổng hợp folate
 Sulfonamide: có cấu trúc gần giống với PABA (para-aminobenzoic), nên
cành tranh với PABA là chất tham gia vào q trình chuyển hóa acid folic
(là tiền chất để tổng hợp acid nucleic), tác dụng kiềm khuẩn.
19


 Trimethoprime: ức chế enzyme dihydrofolate reductase, ảnh h ởng lên quá
trình tổng hợp acid folic, tác dụng kiềm khuẩn.
Nh vậy, mỗi kh ng sinh có c chế khác nhau, tác động lên quá trình sinh
tr ởng và phát triển của vi khuẩn. Phối hợp kh ng sinh cũng đ ợc dựa vào vị trí tác
động nhằm gia tăng hiệu quả của các loại kháng sinh. Khi lựa chọn kh ng sinh điều trị
cho ng ời bệnh, cần lựa chọn kháng sinh dựa trên tình trạng nhiễm khuẩn nguy c

nhiễm vi khuẩn đa kh ng vị trí nguồn nhiễm khuẩn, phổ kháng khuẩn của kháng sinh
và tính thấm của kháng sinh vào mô nhiễm khuẩn.
1.1.3. Sự đề kháng kháng sinh của vi khuẩn
Đề kh ng kh ng sinh khơng có nghĩa là c thể chống lại tác dụng của kháng
sinh. Hiện t ợng kháng kháng sinh xảy ra khi mầm bệnh hay vi khuẩn có khả năng tạo
ra cách chống lại thuốc kháng sinh làm cho kháng sinh không thể tiêu diệt ho c ngăn
ch n đ ợc sự phát triển của chúng.
Vi khuẩn có thể kháng thuốc kháng sinh một cách tự nhiên ho c kháng thuốc
thu đ ợc nhờ đột biến gen ho c tiếp nhận gen kháng thuốc từ một lồi vi khuẩn khác.
1.1.3.1. Các loại hình đề kháng kháng sinh
Khả năng kh ng lại kháng sinh của vi khuẩn có nguồn gốc từ gene. Các gene
kháng thuốc nằm trong các nhiễm sắc thể, ho c trong một yếu tố di động nh c c
plasmide, các yếu tố có thể chuyển vị trí ho c integron (đề kháng ngoài nhiễm sắc thể).
Sự đề kháng này th ờng có thể là đề kháng tự nhiên ho c đề kháng mắc phải.

Hình 1-5: Cơ chế đề kháng của vi khuẩn

20


a. Đề kh ng tự nhiên
 Các gene có khả năng đề kháng nằm trong thông tin di truyền và có ở tất cả
các chủng của cùng một lồi. Sự đề kháng này đ ợc biết ngay từ lúc đầu khi
nghiên cứu x c định hoạt tính của kháng sinh và x c định phổ tác dụng của
thuốc kháng sinh.
 Nguyên nhân do kháng sinh không thể tiếp cận đ ợc đích ho c có ái lực yếu
với đích. Ví dụ: các Pseudomonas kháng kháng sinh nhóm macrolides, ho c
vi khuẩn gram m kh ng Vancomycine đều là tự nhiên. Đ y là sự đề kháng
th ờng xuyên và có nguồn gốc nhiễm sắc thể, ổn định và di truyền lại cho
các thế hệ con cháu (truyền dọc) khi phân chia tế ào nh ng không truyền

từ vi khuẩn này sang vi khuẩn khác.
b. Đề kh ng mắc phải
 Vi khuẩn có thể phát triển đề kháng với kháng sinh mà tr ớc đó nhạy cảm
do thay đổi ở gene.
 Sự đề kháng này là một trong hai loại sau: đột biến nhất thời ho c mắc phải
c c gene đề kháng từ một vi khuẩn khác thông qua quá trình tiếp xúc.
c. Đột iến nhiễm sắc thể nhất thời (diễn tiến dọc)
Đột biến nhiễm sắc thể nhất thời là c chế đề kháng kháng sinh của khoảng 1020% các vi khuẩn. Khi đó c c gene đề kháng có trong nhiễm sắc thể của vi khuẩn. Sự
đột biến chỉ ảnh h ởng đến một đ c tính và sự đề kháng nói chung chỉ liên quan đến
một kháng sinh ho c một họ kháng sinh có cùng c chế tác dụng. Để xử lý tr ờng hợp
này có thể xử dụng kết hợp nhiều loại kháng sinh với nhau.
d. Mắc phải c c gene kh ng thuốc từ một vi khuẩn kh c (diễn tiến ngang)
- Tính đề kháng của vi khuẩn do mắc phải các yếu tố di truyền ngoại lai tiêu
biểu cho đa số c c tr ờng hợp riêng biệt ở l m sàng và đ ợc thấy ở cả vi khuẩn gram
d ng và gram m. Việc mắc phải yếu tố di truyền mới có thể do trao đổi trực tiếp
chất liệu nhiễm sắc thể ho c do trao đổi các yếu tố di động. Tr ờng hợp thứ hai này,
c c gene đề kháng có ở trong một đoạn DNA vi khuẩn nằm ở bên ngoài và trên một số
yếu tố di động của nhiễm sắc thể nh c c plasmids. Dạng đề kháng này có thể chuyển
từ vi khuẩn này sang vi khuẩn khác và thậm chí ở các vi khuẩn thuộc các loài khác
nhau. Sự chuyển giao của một plasmide đ n độc cũng làm tăng nguy c đề kháng với
nhiều thuốc. Ví dụ: vi khuẩn Shigella, gây bệnh tiêu chảy, có thể chuyển một plasmide
đề kháng với 4-5 kháng sinh khác nhau.
- Các gene ho c nhóm gene đề kháng có thể lây truyền bằng nhiều cách: chuyển
thể (transformation), chuyển nạp (transduction), chuyển vị (transposition) ho c giao
phối (conjugation). Sự chuyển thể cho phép sự mắc phải và sát nhập DNA tự do vào
21


mơi tr ờng sau khi vi khuẩn mẹ chết (ví dụ: lậu cầu kháng penicillin). Sự chuyển nạp
là c chế chuyển tải gene, mà vật mang là virus vi khuẩn hay cịn gọi là bacteriophage.

Bằng cách này thơng tin di truyền đ ợc chuyển giữa các vi khuẩn thuộc cùng một loài.
C c plasmid th ờng đ ợc chuyển bằng cách giao phối. Giao phối là một tiến trình
trong đó DNA đ ợc chuyển từ một vi khuẩn cho sang một vi khuẩn nhận theo một c
chế phức hợp cần sự tiếp xúc ch t của tế bào và là cách thức chính gây sự phát tán tính
kháng thuốc của các vi khuẩn gây bệnh. T ng tự nh thế tính đề kh ng đ ợc truyền
cho các vi khuẩn con. Các vi khuẩn đã có yếu tố di động này có thể đ ợc phục hồi trở
lại tính nhạy cảm với kháng sinh nếu chúng khơng cịn tiếp xúc với kháng sinh nữa.
1.1.3.2. Cơ chế đề kháng
a. Ức chế ằng enzyme
Vi khuẩn sản xuất ra enzyme gây phân hủy ho c làm bất hoạt kháng sinh. Sự
sản xuất enzyme có thể đ ợc cảm ứng bới một yếu tố bên ngồi (một kháng sinh khác)
ho c bất biến (khơng bị ảnh h ởng bởi kích thích bên ngồi).
b. Giảm tính thấm của tế ào vi khuẩn
 Các vi khuẩn là các vi sinh vật đ n ào: màng tế bào chất phân cách tế bào
chất với môi tr ờng bên ngồi. Các vi khuẩn gram m cịn đ ợc trang bị
thêm một vỏ bên ngoài, gọi là thành ngoài, có tác dụng nh một hàng rào
che chở cho các PBP nằm ở bên trong. Chất dinh d ỡng và kháng sinh phải
đi ngang qua lớp vỏ này để thấm vào bên trong vi khuẩn, theo cách thức
khuyến tán thụ động ngang qua các kênh (lỗ nhỏ). Sự giảm tính thấm của tế
bào làm giảm l ợng kh ng sinh đi vào ên trong đến đích t c dụng, nguyên
nhân do biến đổi tính thấm lớp màng bên trong ho c bên ngoài vi khuẩn. Sự
biến đổi các lỗ của lớp thành tế bào vi khuẩn gram âm có thể làm giảm ho c
ngăn cản sự khuyếch tán của kháng sinh vào vị trí tác dụng.
 C c đột biến của các lỗ đóng vai trị quan trọng trong việc ph t t n đề
kh ng đ c biệt tiếp theo sự giảm kích th ớc lỗ ho c giảm số l ợng các lỗ.
Tính thấm liên quan đến các lỗ th ờng phối hợp với việc tổng hợp các betalactamases và tạo nên sự đề kháng cho vi khuẩn.
c. Biến đổi vị trí gắn kết
Hiện t ợng này là do nguồn gốc từ nhiễm sắc thể ho c plasmide theo c chế
làm giảm độ ái lực của kháng sinh tại vị trí tác dụng. Gồm các kiểu biến đổi sau:






Biến đổi các protein liên kết với penicillin (PBP).
Biến đổi vị trí gắn kết ở ribosom.
Biến đổi men DNA-gyrase và men topoisomerase.
Biến đổi các tiền chất đích ở thành tế bào VK.
22


 Biến đổi c c enzyme đích
d. B m đẩy
Kháng sinh khơng thể đạt đến vị trí tác dụng do m đẩy chủ động đẩy kháng
sinh ra khỏi tế bào vi khuẩn (efflux). Các chất vận chuyển đẩy thuốc ra là các thành
phần ình th ờng của tế bào vi khuẩn và góp phần lớn cho tính đề kháng nội sinh của
vi khuẩn chống lại nhiều thuốc kh ng sinh. C c m này cần năng l ợng. Việc tiếp
xúc với thuốc kháng sinh làm thuận lợi cho việc tăng số l ợng m do đột biến các
chất mang làm tăng mạnh tính đề kháng của vi khuẩn. Đ y cũng có thể là nguyên
nh n g y đề kháng chéo.

1.1.3.3. Một số thống kê về kháng kháng sinh
Tổ chức Y tế Thế giới (WHO) xếp Việt Nam vào nhóm c c n ớc có tỉ lệ kháng
kháng sinh cao nhất thế giới. Từ năm 2009 đến nay, số l ợng thuốc kháng sinh ở Việt
Nam bán ra ngoài cộng đồng đã tăng gấp 2 lần. Nguyên nhân chính là do lạm dụng
kháng sinh, có tới 88% kháng sinh tại thành thị đ ợc bán ra mà không cần kê đ n ở
nơng thơn tỉ lệ lên đến 91%.[4]
Tình trạng kh ng kh ng sinh g y t c động lớn lên nền kinh tế không chỉ trong
n ớc mà trên tồn thế giới. Tình trạng này ngày càng gia tăng khi ở Việt Nam đã xuất
hiện những vi khuẩn kháng lại tất cả các loại kháng sinh.

Trong phòng và điều trị lao theo đ nh gi của WHO, ở Việt Nam, dịch tễ lao
còn diễn biến phức tạp. Việt Nam vẫn đứng thứ 12 trong 22 n ớc có số ng ời bệnh lao
cao và đứng thứ 14 trong số 27 n ớc có gánh n ng bệnh lao kh ng đa thuốc. Tỷ lệ lao
kh ng đa thuốc là 2,7% trong số bệnh nhân lao mới (khoảng 4800 bệnh nhân) và
chiếm 19% trong số bệnh nh n lao điều trị lại (khoảng 3400 bệnh nhân).
Tại các khoa hồi sức tích cực, vấn đề này cịn nan giải h n do n i đ y tập trung
những bệnh nhân n ng nhất, qua nhiều khoa điều trị. Tại các tỉnh phía Nam, tỉ lệ E.coli
kháng kháng sinh lên tới 74,6%; tỉ lệ kháng của vi khuẩn gây nhiễm trùng
K.pneumoniae lên tới gần 60%; vi khuẩn A.baumannii (gây nhiễm khuẩn bệnh viện)
có tỉ lệ kháng với hầu hết các loại kháng sinh ở mức trên 90%… Với nhóm kháng sinh
carbapenem, nhóm kháng sinh mạnh nhất hiện nay cũng có tỉ lệ lên tới 50% đ c biệt
là các vi khuẩn gram âm mang gen kháng thuốc nh Beta lactamase.
Với thực trạng đ ng o động nh vậy thì việc nghiên cứu để phòng tránh
kháng kháng sinh là rất cấp thiết, mang tính thời sự cao.

23


1.2. KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU
1.2.1. Định nghĩa về khai phá dữ liệu
Khai phá dữ liệu (KPDL) là một lĩnh vực đa ngành dựa trên kết quả từ trí thơng
minh nhân tạo, xác suất và thống kê, lý thuyết tính tốn phức tạp, lý thuyết kiểm sốt,
lý thuyết thơng tin, triết học, tâm lý, thần kinh học và c c lĩnh vực khác. KPDL cho
phép ch ng trình “học tập” và tự động cải thiện năng lực từ kinh nghiệm tích lũy. Ví
dụ nh trong đề tài này ch ng trình có thể dự đo n xem một mối quan hệ giữa chủng
loại vi khuẩn và kháng sinh có phải là kháng hay khơng kháng. Các thuật toán khai
phá dữ liệu th ờng đ ợc chia thành hai loại tùy theo cách sử dụng chúng: Thuật tốn
học máy – có giám sát (phân lớp), và thuật tốn học máy – khơng giám sát (phân
cụm).
1.2.2. Học có giám sát

Học có gi m s t th ờng đ ợc thực hiện trong bối cảnh phân loại, khi chúng ta
muốn ánh xạ đầu vào đến nhãn đầu ra, ho c hồi quy, khi chúng ta muốn ánh xạ đầu
vào thành đầu ra liên tục. Các thuật toán phổ biến trong học tập có giám sát bao gồm
hồi quy logistic ayes ng y th m y vect hỗ trợ, mạng n -ron nhân tạo và rừng ngẫu
nhiên. Trong cả hồi quy và phân loại, mục tiêu là tìm ra các mối quan hệ ho c cấu trúc
cụ thể trong dữ liệu đầu vào cho phép chúng ta tạo ra dữ liệu đầu ra chính xác một
cách hiệu quả. L u ý rằng đầu ra "đúng" đ ợc x c định hồn tồn từ dữ liệu huấn
luyện, vì vậy m c dù chúng ta có sự thật c ản rằng mơ hình của chúng ta sẽ giả định
là đúng nh ng khơng có nghĩa là nhãn dữ liệu ln đúng trong c c tình huống thực tế.
Các dữ liệu có nhiễu ho c khơng chính xác rõ ràng sẽ làm giảm hiệu quả của mơ hình
của bạn.
Khi tiến hành học có giám sát, những cân nhắc chính là độ phức tạp của mơ
hình và sự cân bằng giữa ph ng sai. L u ý rằng cả hai điều này đều có liên quan với
nhau độ phức tạp của mơ hình chính là độ phức tạp của hàm mà ta đang cố gắng học t ng tự nh ậc của một đa thức. Độ phức tạp t ng ứng của mơ hình th ờng đ ợc
x c định bởi bản chất của dữ liệu đào tạo của bạn. Nếu bạn có một l ợng nhỏ dữ liệu
ho c nếu dữ liệu của bạn không đ ợc trải đều trong c c tr ờng hợp có thể xảy ra khác
nhau, bạn nên chọn mơ hình có độ phức tạp thấp. Điều này là do một mơ hình có độ
phức tạp cao sẽ khơng phù hợp nếu đ ợc sử dụng trên một số l ợng nhỏ c c điểm dữ
liệu.
Overfitting đề cập đến việc học một chức năng rất phù hợp với dữ liệu đào tạo
nh ng khơng tổng qu t hóa cho c c điểm dữ liệu khác - nói c ch kh c ta đang học
một c ch nghiêm túc để tạo ra dữ liệu đào tạo của mình mà khơng tìm hiểu xu h ớng
ho c cấu trúc thực tế trong dữ liệu dẫn đến điều này đầu ra.
24


Biểu diễn theo mơ hình tốn học, giả thiết chúng ta có một dữ liệu đầu vào là
tập 𝑋 = {𝑥1, 𝑥2 … 𝑥n }, đã iết kết quả phân lớp là 𝑌 = {𝑦1 , 𝑦2 … 𝑦n }. Học có
giám sát là từ tập dữ liệu đầu vào X, dùng huấn luyện tạo ra một hàm ánh xạ mỗi phần
tử từ tập X sang phần tử t ng ứng của tập Y:

𝑦i ≈ f(xi ), ∀𝑖 = 1 2 … 𝑛

(1.1)

Hàm ánh xạ này đóng vai trị là một mơ hình dùng trong tr ờng hợp có dữ liệu
đầu vào mới qua mơ hình sẽ tính đ ợc kết quả phân lớp t ng ứng với dữ liệu đầu
vào. Ví dụ trong đề tài này ta có tập dữ liệu đầu vào là các bộ gen – kh ng sinh đã g n
nhãn kết quả đầu ra là có kháng ho c khơng kháng. Sau khi thuật tốn tạo ra một mơ
hình, tức là một hàm số mà đầu vào là một dữ liệu quan hệ gen – kháng sinh và đầu ra
là một nhãn kháng, ho c không kháng, khi nhận đ ợc một quan hệ tập gen – kháng
sinh mới mà mơ hình ch a nhìn thấy bao giờ, nó sẽ dự đo n đ ợc quan hệ đó là có
kháng hay khơng kháng. Bảng dữ liệu minh họa nh d ới đ y.
Gen_m Label

Card Gens

Gen1

Gen2

Gen3

Gen4



E.coli 1

0


0

0

0



0

N

E.coli 2

0

1

0

0



1

N

E.coli 3


0

0

0

0



1

Y

E.coli 4

0

0

1

0



0

N


E.coli 5

1

1

0

0



0

N

E.coli 6

0

0

0

1



0


N

E.coli 7

0

1

0

0



0

N

E.coli 8

0

0

0

0




1

N

….















E.coli 40

0

0

1

1




0

N

E.coli 41

0

0

0

0



0

Y

E.coli 42

0

1

0


0



0

N

E.coli 43

0

0

0

1



0

N

E.coli 44

0

0


1

0



0

N

E.coli 45

0

1

1

0



0

N

E.coli 46

0


1

0

0



0

N

E.coli 47

0

0

1

0



1

Y

E.coli 48


0

1

0

0



1

Y

E.coli 49

0

0

1

0



1

N


25


×