Tải bản đầy đủ (.pdf) (75 trang)

Nghiên cứu một số phương pháp dự báo trong khai phá dữ liệu và ứng dụng dự báo dịch tả tại hà nội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.46 MB, 75 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP DỰ BÁO TRONG
KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG DỰ BÁO DỊCH TẢ
TẠI HÀ NỘI

DƢƠNG QUỐC HUY

HÀ NỘI - 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP DỰ BÁO TRONG
KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG DỰ BÁO DỊCH TẢ
TẠI HÀ NỘI

DƢƠNG QUỐC HUY
CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60.48.02.018

TS. LÊ VĂN PHÙNG

HÀ NỘI – 2018




LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận văn này là kết quả nghiên cứu của bản
thân. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu rõ nguồn
gốc một cách rõ ràng trong danh mục tài liệu tham khảo được đề cập ở phần sau của
luận văn. Những đóng góp trong luận văn là kết quả nghiên cứu của tác giả đã được
công bố trong các bài báo của tác giả ở phần sau của luận văn và chưa được công bố
trong bất kỳ công trình khoa học nào khác.
Hà Nội, tháng 11 năm 2018
Tác giả luận văn

Dƣơng Quốc Huy


LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc tới tập thể các Giáo sư, Tiến sĩ, giảng viên
khoa Công nghệ Thông tin Trường Đại học mở Hà Nội đã tận tình giảng dạy,
truyền đạt kiến thức cho tôi trong suốt thời gian học tập vừa qua. Tôi xin bày tỏ
lòng biết ơn đến TS. Lê Văn Phùng người đã tận tình hướng dẫn, chỉ bảo và chia sẻ
những tài liệu rất hữu ích để tôi hoàn thành luận văn.
Xin chân thành cảm ơn lãnh đạo Trường Đại học mở Hà Nội đã tạo điều kiện
giúp đỡ tôi về mọi mặt trong suốt thời gian học tập tại trường cũng như thời gian
thực hiện luận văn.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến gia đình, người thân, bạn bè, đồng
nghiệp những người luôn động viên, khuyến khích và giúp đỡ để tôi có thể hoàn
thành tốt nội dung nghiên cứu.
Tôi xin chân thành cảm ơn !


Hà Nội, tháng 11 năm 2018
Tác giả luận văn

Dƣơng Quốc Huy


MỤC LỤC
PHẦN MỞ ĐẦU.....................................................................................................1
1. Tính cấp thiết của đề tài ...................................................................................1
2. Mục tiêu nghiên cứu ........................................................................................2
3. Đối tượng và phạm vi nghiên cứu ....................................................................2
4. Phương pháp nghiên cứu ..................................................................................3
5. Kết cấu luận văn ...............................................................................................3
CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ...................................4
VÀ BÀI TOÁN DỰ BÁO ......................................................................................4
1.1. Tổng quan về khai phá dữ liệu .....................................................................4
1.1.1. Các vấn đề chung nhất về khai phá dữ liệu...........................................4
1.1.2. Tổng quan về phân loại và dự đoán trong khai phá dữ liệu ..................6
1.1.3. Tổng quan về mô hình dự báo dịch bệnh ..............................................7
1.1.4. Dự báo dịch bệnh với mô hình toán học về dịch tễ học .............. Error!
Bookmark not defined.
1.1.5. Dự báo dịch bệnh dựa trên khai phá dữ liệu .........................................8
1.1.6. Tổng quan về tả và dịch tả ..................................................................12
CHƢƠNG 2: CÁC PHƢƠNG PHÁP DỰ BÁO TRONG ........................................17
KHAI PHÁ DỮ LIỆU .............................................................................................17
2.1. Các phương pháp dự đoán ...........................................................................17
2.1.1. Các mô hình điển hình về hồi quy ......................................................17
2.1.2. Kiểm thử trong hồi quy .......................................................................17
2.2. Phương pháp phân lớp .................................................................................18
2.2.1. Phân lớp kiểu Bayes ............................................................................18

2.2.2. Phân lớp dựa trên các quy tắc IF-THEN .............................................20
2.2.3. Phân lớp bằng các luật kết hợp ...........................................................20
2.2.4. Phân lớp theo các thuật toán di truyền ................................................22
2.2.5. Phân lớp theo cách tiếp cận tập thô .....................................................23
2.2.6. Phân lớp theo cách tiếp cận tập mờ.....................................................24
2.3. Một số mô hình học máy điển hình trong dự báo .......................................25
2.3.1. Hồi quy tuyến tính ..............................................................................26
2.3.2. K láng giềng .......................................................................................26


2.3.3. Cây quyết định ....................................................................................27
2.3.4. Bagging ...............................................................................................31
2.3.5. Rừng ngẫu nhiên .................................................................................32
2.3.6. Máy học vector hỗ trợ ........................................................................40
2.3.7. Naïve Bayes ........................................Error! Bookmark not defined.
CHƢƠNG 3: ỨNG DỤNG DỰ BÁO DỊCH TẢ TẠI HÀ NỘI .......................44
3.1. Bài toán dịch tả tại Hà Nội ..........................................................................44
3.2. Dữ liệu .........................................................................................................45
3.3. Phương pháp thực hiện ................................................................................46
3.4. Cách đánh giá ..............................................................................................47
3.5. Thực nghiệm và kết quả ..............................................................................47
3.5.1. Kết quả thực nghiệm phân loại theo cách thứ nhất ...................................48
3.5.2. Kết quả thực nghiệm phân loại theo cách thứ hai ...............................54
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN..........................................................61
TÀI LIỆU THAM KHẢO ...................................................................................62


DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Viết tắt


Tiếng Anh

Cơ sở dữ liệu

CSDL
CART

DM

Tiếng Việt

Classification and Regression

Thuật toán phân loại và cây hồi

Trees

quy

Data Mining

Khai phá dữ liệu

ENSO

El Nino Southern Oscillation

KDD


Knowledge Discovery from Data

Phát hiện tri thức từ dữ liệu

kNN

k Nearest Neighbors

K láng giềng

OOB

Out-of-bag

Dữ liệu túi ước tính

SVM

Support Vector Machines

Máy học vector hỗ trợ

Ramdom Forests

Rừng ngẫu nhiên

RF


DANH SÁCH BẢNG

Bảng 3.1.

Mô tả các đặc trưng thống kê ..............................................................47

Bảng 3.2.

Ảnh hưởng của kích cỡ cửa sổ trượt tới hiệu năng hệ thống ..............48

Bảng 3.3.

Độ ảnh hưởng của các biến số tới hiệu năng hệ thống ........................51

Bảng 3.4.

Độ ảnh hưởng của biến số ENSO tới hiệu năng của hệ thống ............52

Bảng 3.5.

Ảnh hưởng của các yếu tố khí hậu các tuần trước đó tới hiệu năng hệ thống..52

Bảng 3.6.

Bảng ma trận lỗi phân lớp ...................................................................53

Bảng 3.7.

Bảng so sánh khả năng phân lớp của các bộ phân lớp phổ biến .........54

Bảng 3.8.


Ảnh hưởng của kích cỡ cửa sổ trượt tới hiệu năng hệ thống ..............55

Bảng 3.9.

Độ ảnh hưởng của các biến số tới hiệu năng hệ thống ........................57

Bảng 3.10.

Độ ảnh hưởng của biến số ENSO tới hiệu năng của hệ thống ............57

Bảng 3.11.

Ảnh hưởng của các yếu tố khí hậu các tuần trước đó tới hiệu năng hệ thống58

Bảng 3.12.

Bảng ma trận lỗi phân lớp ...................................................................59

Bảng 3.13.

Bảng so sánh khả năng phân lớp của các bộ phân lớp phổ biến .........60


DANH SÁCH HÌNH
Hình 1.1:

Các lĩnh vực liên quan đến DM và KDD ................................................5

Hình 1.2:


Quá trình chuyển đổi tỷ lệ dương tính .....................................................8

Hình 1.3:

Kiến trúc hệ thống BioCaster ................................................................10

Hình 1.4:

Mô hình phân cấp về lan truyền dịch tả trong môi trường ....................13

Hình 2.1:

Hồi quy tuyến tính .................................................................................26

Hình 2.2:

Giải thuật kNN .......................................................................................27

Hình 2.3:

Cây quyết định học từ dữ liệu cho phép dự báo cho Golf .....................28

Hình 2.4:

Giải thuật Bagging của cây quyết định ..................................................31

Hình 2.5:

Phương pháp phân lớp random forest ....................................................35


Hình 2.6:

Giải thuật rừng ngẫu nhiên. ...................................................................39

Hình 2.7:

Rừng ngẫu nhiên ....................................................................................40

Hình 2.8:

Phân lớp tuyến tính với học máy vector hỗ trợ .....................................41

Hình 2.9:

Hồi quy với máy học vector hỗ trợ ........................................................42

Hình 3.1.

Sơ đồ thực hiện của hệ thống dự báo dịch tả dựa trên phân loại tình
trạng bệnh theo tháng.............................................................................46

Hình 3.2.

Ảnh hưởng kích cỡ khung cửa sổ trượt tới hiệu năng hệ thống ............49


1

PHẦN MỞ ĐẦU
1. Tính cấp thiết của đề tài

Dự báo trong y tế đã và đang được ứng dụng rộng rãi ở nhiều nước trên thế
giới, thu hút sự chú ý của các nhà nghiên cứu, các nhà quản lý, hoạch định chính
sách, những người cung cấp và sử dụng dịch vụ y tế. Dự báo là một hoạt động
thường xuyên có tính tất yếu của các cá nhân và tổ chức nhằm dự báo (dự đoán) các
thông tin chưa biết trên cơ sở các thông tin đã biết. Trong lĩnh vực y tế và chăm sóc
sức khỏe chứa đựng một lớp rộng lớn các bài toán dự báo với phạm vi dự báo ở
nhiều cấp độ từ tỉnh, quốc gia, thế giới. Chính vì vậy dự báo dịch bệnh luôn nhận
được sự quan tâm của cộng đồng nghiên cứu. Nhằm góp phần ngăn chặn dịch bệnh
phát triển, đã có nhiều nghiên cứu liên quan, trong đó dự báo sớm là một biện pháp
góp phần đáng kể. Kết quả từ các nghiên cứu dự báo dịch bệch là bằng chứng cho
việc lập kế hoạch và quản lý các hoạt động chăm sóc sức khỏe. Chính vì vậy dự báo
đã được coi là công cụ cho các nhà quản lý. Cùng với sự phát triển nhanh chóng của
khoa học công nghệ, nhiều phương pháp và kỹ thuật mới đã được sử dụng cho dự
báo. Trong đó, mô hình dự báo bằng phương pháp học máy là một trong những kỹ
thuật tiên tiến đang có xu hướng áp dụng rộng rãi. Trong bối cảnh thực hiện các
nghiên cứu với sự hạn chế về thời gian và nguồn lực, sử dụng mô hình học máy
trong dự báo dịch bệnh là một phương pháp thích hợp, giải quyết được tính phức
tạp và không chắc chắn của các kết quả phân tích tạo cơ sở cho ra quyết định. Ở
Việt Nam, ứng dụng học máy trong dự báo vẫn là một lĩnh vực non trẻ. Số lượng
các chuyên gia về lĩnh vực này cũng như các nghiên cứu ứng dụng các phương
pháp dự báo dịch bệnh trong y tế còn hạn chế trong khi nhu cầu cần bằng chứng
trong xây dựng các chương trình, chính sách y tế đang ngày càng gia tăng.
Ngày nay, các bệnh truyền nhiễm tuy không còn giữ vai trò "độc tôn" và
đang có xu hướng giảm trong cộng đồng, nhưng dưới tác động của nhiều yếu tố như
khí hậu, môi trường và ý thức con người, nhiều bệch dịch truyền nhiễm đã được
thanh toán trước đây, nay tái xuất hiện và cùng với đó, nhiều bệch dịch mới nổi lên,


2
đặc biệt ở các vùng chịu ảnh hướng của biến đổi khí hậu và đời sống kinh tế còn

nghèo. Chính vì vậy việc tìm hiểu nguyên nhân dịch bệnh đã không còn gói gọn
trong việc phát hiện căn nguyên vi sinh vật, mà mở rộng ra cho nhiều loại yếu tố tự
nhiên, xã hội và sinh học có các mức độ liên quan với số ca mắc bệnh trong cộng
đồng. Ngoài việc phát hiện ra căn nguyên và các yếu tố ảnh hưởng, cần có các mô
hình được xây dựng bằng các kỹ thuật khác nhau nhằm cảnh báo dịch bệnh sớm
giúp giảm thiểu nguy cơ, tổn thất xảy ra cho con người dựa vào các thông số về tự
nhiên, môi trường, hành vi, thói quen trong cộng đồng... Trong những năm gần đây,
sự sẵn có và ngày càng tăng nguồn dữ liệu, đặc biệt là dữ liệu khí hậu - thời tiết từ
các cảm biến từ xa và những dữ liệu phân tích lại, cũng như sự phát triển trong việc
dự báo đã mang lại cơ hội mới cho phân tích và dự báo dịch bệnh trong ngành y tế.
Chính vì vậy việc nghiên cứu tìm hiểu các kỹ thuật xây dựng mô hình dự báo dịch
bệnh với mối liên quan của các yếu tố khí hậu tới sự xuất hiện và lan truyền dịch
bệnh là rất cần thiết.

2. Mục tiêu nghiên cứu
- Tổng quan được các phương pháp dự báo trong khai phá dữ liệu.
- Thực nghiệm dự báo dịch tả tại Hà Nội.

3. Đối tƣợng và phạm vi nghiên cứu
 Đối tƣợng nghiên cứu
- Một số phương pháp dự báo trong khai phá dữ liệu
- Một số các thuật toán và kỹ thuật học máy áp dụng trong dự báo.
- Dịch Tả và các yếu tố khí hậu ảnh hưởng đến dịch tả tại Hà Nội.
- Hệ thống dự báo dịch tả.
 Phạm vi nghiên cứu
- Giới hạn về không gian nghiên cứu: Địa bàn thành phố Hà Nội.
- Giới hạn về thời gian nghiên cứu: khảo sát, thu thập dữ liệu về dịch tả và các
yếu tố khí hậu giai đoạn từ 2007 đến 2010.



3

4. Phƣơng pháp nghiên cứu
- Phương pháp nghiên cứu lý luận: Đọc tài liệu, thu thập, phân tích tài liệu để
thu thập thông tin và hệ thống hóa các công trình nghiên cứu khoa học có liên quan
đến đề tài.
- Các phương pháp nghiên cứu thực tiễn:
 Phương pháp phân tích
 Phương pháp tổng hợp
 Phương pháp thống kê
 Phương pháp xử lý dữ liệu

5. Kết cấu luận văn
Với đề tài “Nghiên cứu một số phƣơng pháp dự báo trong khai phá dữ
liệu và ứng dụng dự báo dịch tả tại Hà Nội”. Học viên dự kiến thực hiện các nội
dung nghiên cứu chính theo kế hoạch như sau:
 Chương 1: Tổng quan về khai phá dữ liệu và bài toán dự báo.
 Chương 2: Các phương pháp dự báo trong khai phá dữ liệu.
 Chương 3: Ứng dụng dự báo dịch tả tại Hà Nội.


4

CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
VÀ BÀI TOÁN DỰ BÁO
1.1. Tổng quan về khai phá dữ liệu
1.1.1. Các vấn đề chung nhất về khai phá dữ liệu
Theo bách khoa toàn thư, khai phá dữ liệu (DM) là khâu chủ yếu trong quá
trình phát hiện tri thức từ dữ liệu để trợ giúp cho việc làm quyết định trong quản lý.
DM sử dụng nhiều phương pháp của phân tích thống kê, của lý thuyết nhận dạng,

của các hệ học, các mạng nơ-ron nhân tạo... nhằm phát hiện các mẫu hình tri thức
trực tiếp từ các kho dữ liệu. DM và phát hiện tri thức là những nghiên cứu mới
trong tổ chức và khai phá các hệ thống thông tin và trợ giúp quyết định.
Thuật ngữ DM do Fayyad Smyth và Piatestky-Shapiro đề xuất năm 1989. Có
rất nhiều định nghĩa khác nhau về DM đã được đưa ra. Theo nghĩa đơn giản nhất,
DM là việc trích lọc tri thức từ một lương lớn dữ liệu. Nó còn có một số tên gọi
khác nhau như “trích chọn tri thức”, “phân tích dữ liệu/ mẫu”, “khảo cổ dữ liệu”,
“nạo vét dữ liệu”,…
Giáo sư Tom Mitchell đã đưa định nghĩa về DM như sau: “DM là việc sử
dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những quyết định
trong tương lại”. Với một cách tiếp cận thực tế hơn, tiến sĩ Fayyed đã phát biểu:
“DM thường được xem là việc khám phá tri thức trong các CSDL, là một quá trình
xuất những thông tin ẩn, trước đây chưa biết và có khả năng là hữu ích, dưới dạng
các quy luật, ràng buộc, quy tắc trong CSDL”. Các nhà thống kê thì xem “ DM như
là một quá trình phân tích được thiêt kế thăm dò một lượng lớn các dữ liệu nhằm
phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa
các biến và sau đó sẽ hợp thức hóa các kết quả tìm được bằng cách áp dụng các mẫu
đã phát hiện được cho tập con mới của dữ liệu”.
Nói chung, DM là cốt lõi của quá trình phát hiện tri thức. Nó gồm có các thuật
giải DM chuyên dùng, một số quy định về hiệu quả tính toán chấp nhận được. DM
nhằm tìm ra những mẫu mới, mẫu có tính chất không tầm thường, những thông tin
tiềm ẩn mang tính dự đoán chưa được biết đến và có khả năng mang lại lợi ích. Nói
gọn hơn, DM là việc tìm kiếm các kiến thức/các mẫu hấp dẫn trong kho dữ liệu.
4


5
DM là hoạt động trọng tâm của quá trình phát hiện tri thức.
Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu
Phát hiện tri thức và khai phá dữ liệu được ứng dụng trong nhiều ngành và

lĩnh vực khác nhau như: tài chính ngân hàng, thương mại, y tế, giáo dục, thống kê,
máy học, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán toán học, tính toán song song với
tốc độ cao, thu thập cơ sở tri thức cho hệ chuyên gia,....Trong đó phát hiện tri thức
từ dữ liệu (KDD) và DM rất gần gũi với lĩnh vực thống kê, dựa nhiều vào nền tảng
lý thuyết của nó, cũng như tạp trung vào kiểm định những giả thiết, sử dụng các
phương pháp thống kê để phát hiện ra các mẫu, các luật bên trong dữ liệu. KDD và
DM cũng liên quan chặt chẽ đến máy học, dưa nhiều vào heuristics (phương pháp
giải quyết vấn đề bằng cách đánh giá kinh nghiệm, tìm giải pháp qua thử nghiệm và
cải tiến) và tập trung vàocải tiến hiệu quả của giải thuật học. Kho dữ liệu và các
công cụ phân tích trực tuyến cũng liên quan chặt chẽ đến KDD và DM [1].

Khoa học,
Thống kê,
Xác suất

Công nghệ
cơ sở dữ liệu

Phương pháp
hiển thị

Trí tuệ nhân
tạo

DM và KDD

Máy học

Khoa học
thông tin


Khoa học
kinh tế

Hình 1.1: Các lĩnh vực liên quan đến DM và KDD

5


6

1.1.2. Tổng quan về phân loại và dự đoán trong khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực liên ngành, chịu sự tác động của nhiều ngành
kiến thức. Trước hết, do phụ thuộc vào cách tiếp cận khai phá dữ liệu đã sử dụng
dẫn tới việc phải dùng các kỹ thuật của nhiều ngành khác chẳng hạn như là mạng
nơ-ron, tập mờ, lý thuyết tập thô, việc trình diễn tri thức, chương trình quy nạp
logic,... Tiếp đó, do phụ thuộc vào loại dữ liệu được khai phá hoặc ứng dụng khai
phá dữ liệu triển khai nên hệ thống kahi phá dữ liệu phải tích hợp các kỹ thuật từ
các phân tích dữ liệu không gian, trích rút thông tin, nhận biết mẫu, phân tích ảnh,
xử lý tín hiệu, đồ họa vi tính, công nghệ web, kinh tế, thương mại, tin sinh học hoặc
triết học [1].
Nhờ việc đóng góp của nhiều ngành kiến thức khác nhau cho khai phá dữ
liệu nên việc nghiên cứu khai phá dữ liệu đã đượckỳ vọng sinh thành một lượng
phong phú các hệ thống khai phá dữ liệu. Do vậy cần phải phân định rõ ràng các hệ
thống khai phá dữ liệu có khả năng giúp người sử dụng phân biệt rõ ràng và xác
định việc kết nối tốt nhất với nhu cầu của họ. Các hệ thống khai phá dữ liệu có thể
phân loại theo các tiêu chuẩn khác nhau như sau [1]:
 Theo loại của CSDL đã khai phá
- Các mô hình dữ liệu (hệ thống khai phá dữ liệu quan hệ, hệ thống khai phá
dữ liệu giao dịch, hệ thống khai phá dữ liệu quan hệ - đối tượng, hệ thống khai phá

dữ liệu kho dữ liệu).
- Các kiểu dữ liệu đã xử lý (hệ thống khai phá dữ liệu không gian, hệ thống
khai phá dữ liệu chuỗi thời gian, hệ thống khai phá dữ liệu văn bản, hệ thống khai
phá dữ liệu dòng dữ liệu, hệ thống khai phá dữ liệu đa phương tiện, hệ thống khai
phá dữ liệu Web).
- Các loại CSDL riêng cho mỗi ứng dụng.
 Theo loại của tri thức đã phát hiện
- Dựa trên các chức năng khai phá dữ liệu như đặc trưng hóa, tách lọc, kết hợp
và phân tích tương quan, phân loại dự đoán, phân cụm, phân tích ngoại lai, phân
tích tiến hóa. Một hệ thống khai phá dữ liệu toàn diện thường cung cấp đã chức
năng hoặc tích hợp nhiều chức năng.

6


7
- Dựa trên hạt nhân hoặc tính trừu tượng của tri thức được khám phá bao gồm
các tri thức tổng quát (ở mức trừu tượng cao), tri thức mức nguyên thủy (ở mức dữ
liệu thô), hoặc tri thức ở mức đa tầng (xem xét một số mức trừu tượng). Một hệ
thống khai phá dữ liệu liên tiến sẽ rất tiện cho việc phát hiện tri thức ở đa mức trừu
tượng. Các hệ thống khai phá dữ liệu cũng có thể được phân loại như những thứ mà
các quy tắc khai phá dữ liệu (các mẫu xuất hiện một cách phổ biến) ngược với các
bất quy tắc (loại trừ, ngoại lai).
Nói chung, các quy tắc khai phá dữ liệu mô tả khái niệm, sự kết hợp, phân
tích tương quan, phân loại, dự đoán và phân cụm sẽ loại trừ được các phần tử
ngoại lai,... Các phương pháp này cũng có thể giúp cho việc khám phá các phân
tử ngoại lai.
 Theo loại kỹ thuật đã sử dụng
- Các kỹ thuật có thể được mô tả tùy theo mức độ tương tác sử dụng, ví dụ như
các hệ tự trị, các hệ thống thăm dò tương tác.

- Các hệ thống hướng truy vấn, hoặc các phương pháp phân tích dữ liệu đã sử
dụng, ví dụ như các kỹ thuật hướng CSDL hay kho dữ liệu, máy học, thống kê, hiển
thị, nhận dạng mẫu, mạng nơ-ron,...
Một hệ thống khai phá dữ liệu phức tạp thường chấp nhận các kỹ thuật khai
phá dữ liệu đa tạp hoặc trắc nghiệm một kỹ thuật tích hợp, hiệu quả trên cơ sở liên
hợp nhiều cách tiếp cận riêng lẻ.
 Theo loại các ứng dụng đã thích ứng
-

Các hệ thống khai phá dữ liệu có được trang bị riêng cho ngành tài chính,
giao thông liên lạc, thị trường vốn, thư tín điện tử,...

-

Các ứng dụng khác nhau thường đòi hỏi sự tích hợp các phương pháp đặc
tả. Do vậy, nhìn chung các hệ thống khai phá dữ liệu đa mục tiêu không
thể có đủ các nhiệm vụ khai phá đặc trưng theo miền.

1.1.3. Tổng quan về mô hình dự báo dịch bệnh
Mỗi một dịch bệnh có nguyên nhân bùng phát và các yếu tố liên quan khác
nhau. Mục tiêu của luận văn tập trung vào dự báo dịch tả nên các thông tin tổng
quan đến mô hình dự báo cũng được tìm hiểu xung quanh các mô hình dự báo Tả.

7


8
Trong phần tiếp theo của luận văn sẽ lần lượt giới thiệu một số mô hình dự báo dịch
bệnh điển hình đã được công bố trong những năm gần đây.


1.1.4. Dự báo dịch bệnh dựa trên khai phá dữ liệu
Yujuan Yue và cộng sự [8] trình bày các mô hình dịch Tả (tỷ lệ dương tính
với V.cholerae) theo tác động của các yếu tố khí hậu tại khu vực cửa sông Châu
Giang, Trung Quốc. Dữ liệu được lấy tại 24 điểm lấy mẫu (ký hiệu là Z1-Z24)
thuộc 4 khu vực được giám sát nằm trong vùng 22-24 vĩ độ Bắc và 112-114 kinh độ
Đông. Dữ liệu về tỷ lệ dương tính với V.cholerae, nhiệt độ nước, độ pH, nhiệt độ bề
mặt đất được Trung tâm giám sát và ngăn ngừa dịch bệnh Trung Quốc (Chinese
Center for Disease Control and Prevention: China CDC) cung cấp theo từng điểm
lẫy mẫu hàng tháng từ tháng 01/2008 tới tháng 12/2009. Dữ liệu về nhiệt độ không
khí, lượng mưa, áp suất không khí, độ ẩm, số giờ nắng, tốc độ gió được thu thập
hàng ngày từ hai trạm khí tượng Quảng Châu và Thẩm Quyến; sau đó được chuyển
thành dữ liệu tháng.

Hình 1.2: Quá trình chuyển đổi tỷ lệ dƣơng tính
Mô hình dịch Tả (xem xét quan hệ của tỷ lệ dương tính với V.cholerae) theo mỗi
yếu tố khí hậu tại điểm lấy mẫu (i, j) được cụ thể hóa bằng hai phương trình sau đây:
Cit,j1  Cit, j  m[(Cit1, j  Cit, j )  (Cit1, j  Cit, j )  (Cit, j 1  Cit, j )  (Cit, j 1  Cit, j )] 

(14)

md[(Cit1, j 1  Cit, j )  (Cit1, j 1  Cit, j )  (Cit1, j 1  Cit, j )  (Cit1, j 1  Cit, j )]
Ci't, j 1  t1(TIt(i1, j )  TIt(i , j ) )  Cit,j1

(15)

Theo hình 1.2 và diễn giải cụ thể trong hai phương trình (14)-(15), ô (i, j)
đang được quan sát thực hiện việc trao đổi với các ô lân cận của nó theo tám hướng
8



9
một cách đồng bộ tại mỗi nhịp thời gian. Xem xét mô hình ảnh hưởng của nhiệt độ
nước (các yếu tố khí hậu khác là hoàn toàn tương tự) tới dịch Tả. Các quy tắc tính
toán theo ô được thi hành theo các công thức (14) và (15), trong đó t1 là hệ số nhiệt
độ nước, m là hệ số chuyển giao V.cholerae giữa các ô lân cận và d là hệ số đường
chéo theo sự khác biệt giữa chuyển giao V.cholerae giữa các ô đường chéo và
chuyển giao V.cholerae giữa các ô lân cận.

TIt(i , j )



ô (i, j) tại các nhịp thời gian t và t+1, tương ứng.

TIt(i1, j )

C It (i , j )

là giá trị nhiệt độ nước tại



C It (i1, j )

là các giá trị nồng

độ V.cholerae tại ô (i, j) tại các nhịp thời gian t và t+1, tương ứng.

C 'tI(1i , j )


là giá trị

kết luận về nồng độ V.cholerae tại ô (i, j) vào nhịp thời gian t+1. Giá trị các tham số
t1, m, d được xác định qua hồi quy tuyến tính.
Năm 2008, Nigel Collier và cộng sự [10] giới thiệu một hệ thống dựa trên
một phương pháp phân tích một lượng lớn các truy vấn tìm kiếm Google để theo
dõi dịch cúm trong cộng đồng. Dựa trên lập luận tần số tương đối của các truy vấn
nhất định có liên quan cao với số lần khám bệnh, với một bệnh nhân có các triệu
chứng giống cúm có thể ước tính chính xác mức độ hiện thời trạng thái cúm hàng
tuần tại mỗi khu vực của nước Mỹ, với một độ trễ báo cáo khoảng một ngày. Ước
tính cúm tức thời cho phép các nhà quản lý y tế công cộng và các chuyên gia y tế
đáp ứng các dịch vụ tốt hơn. Nếu một khu vực xuất hiện sự tăng mạnh số lượt khám
bệnh thì khu vực đó cần được quan tâm để tập trung nguồn lực bổ sung để xác định
nguyên nhân các ổ dịch, cung cấp dung lượng vaccine thêm hoặc nâng cao nhận
thức truyền thông địa phương khi cần thiết. Các tác giả nhận định rằng, dù cho kết
quả nghiên cứu và hệ thống còn có một số hạn chế cũng như không thể thay thế
được các hệ thống truyền thống, song việc phát hiện sớm được cung cấp bởi
phương pháp có thể trở thành một kênh phòng thủ quan trọng phòng chống dịch
cúm tương lai tại Mỹ, và có thể trên thế giới. Hình 1.3 cung cấp mô hình kiến trúc
khái quát hệ thống BioCaster giám sát dịch bệnh dựa trên dữ liệu phương tiện xã
hội và để hoàn thành hệ thống đòi hỏi một nỗ lực lớn của một đội ngũ chuyên gia
nhiều lĩnh vực, đặc biệt là xử lý ngôn ngữ tự nhiên và dịch tễ học.

9


10

Hình 1.3: Kiến trúc hệ thống BioCaster
Năm 2012, R. Chunara và cộng sự [11] xây dựng một mô hình hỗ trợ dự báo

sớm dịch Tả sử dụng dữ liệu từ Twitter. Các tác giả nhận định rằng phân tích hồi
cứu dựa trên dữ liệu báo cáo từ các nguồn y tế công cộng thường bị giới hạn về thời
gian và các nguồn dữ liệu khác có thể cung cấp một cơ hội thu thập thông tin sớm
về cách thức một dịch bệnh đang diễn ra, và do đó tạo cơ hội cho việc thực hiện các
biện pháp can thiệp kịp thời và hiệu quả hơn. Ở đây, các tác giả sử dụng hai nguồn
thông tin không chính thức từ HealthMap () và Twitter
() cùng với nguồn thông tin chính thức từ Bộ Y tế công cộng
(Ministère de la Santé Publique et de la Population: MSPP) Haiti. Dữ liệu được thu
thập trong thời gian 100 ngày, từ 20/10/2010 đến 28/01/2011. Các tác giả tập trung
vào các khoảng thời gian bùng phát dịch bệnh, và phát hiện dữ liệu chuỗi thời gian
phù hợp với một phân phối mũ. Trong trường hợp chuỗi thời gian phân phối mũ ở
đây, công thức đơn giản sau được sử dụng để tính toán số nhiễm bệnh dựa trên mô
hình SIR:
Re = 1 + rTc
Trong đó, Tc = 1/b (b là tỷ lệ chuyển dịch từ nhiễm bệnh mô hình SIR) và r
tốc độ tăng trưởng. Kết quả cho thấy có mối tương quan cao xu hướng về khối
lượng theo thời gian giữa dữ liệu không chính thức và dữ liệu chính thức trong giai
đoạn đầu của một ổ dịch hoặc sự kiện có liên quan. Hơn nữa, sự tương quan tốt nhất
với độ trễ một ngày chứng tỏ khả năng sử dụng các dữ liệu không chính thức trong

10


11
việc phát hiện sớm một ổ dịch để đạt được cái nhìn sâu sắc vào việc ước tính số
nhiễm bệnh dịch Tả trong giai đoạn phát triển ban đầu của dịch bệnh. Điều này càng
có ý nghĩa rất quan trọng để tiến hành các biện pháp kiểm soát dịch bệnh khi mà dữ
liệu chính thức được công bố trễ hai tuần trong trường hợp dịch tả Haiti năm 2010.
Các tác giả cũng cho rằng mô hình này có khả năng phù hợp với các bệnh dịch
khác. Tuy nhiên, R. Chunara và cộng sự cũng chỉ ra một số hạn chế của phương

pháp sử dụng dữ liệu phương tiện truyền thông dự báo dịch bệnh. Thứ nhất, hạn chế
từ trình độ sử dụng phương tiện xã hội thấp kém ở những vùng dịch bệnh và điều
này có thể được khắc phục trong tương lai. Thứ hai, hạn chế về nhân khẩu học cung
cấp dữ liệu cá nhân trên các phương tiện xã hội (ví dụ như blog, điện thoại di động,
v.v.). Thứ ba, một sai lệch tiềm ẩn là thông điệp phương tiện xã hội có thể chứa các
sai lệch do dựa trên các cảnh báo sai, tin đồn, hoặc báo cáo sai, đặc biệt là trong các
tình huống của sự sợ hãi hoặc hoảng sợ. Cuối cùng, độ tương quan giữa dữ liệu
nguồn phương tiện xã hội với báo cáo chính thức vào khoảng thời gian cuối dịch
bệnh là rất thấp.
Ngoài ra còn tồn tại một số công trình nghiên cứu về khai phá phương tiện
xã hội ứng dụng vào y tế như Prieto VM và cộng sự [12], José Carlos Santos và
Sérgio Matos [13], Yusheng Xie và cộng sự [14].
Ali và cộng sự [15] đã phân tích dữ liệu ca bệnh Tả tại Matlab, Bangladesh từ năm 1988 đến năm 2001 và rút ra kết luận: Số ca dịch tả tại Matlab chịu ảnh
hưởng mạnh của nhiệt độ tại thành phố và nhiệt độ bề mặt nước biển. Nghiên cứu
này dự báo số ca mắc tả trên toàn vùng và sử dụng phương pháp phân tích chuỗi
thời gian.
R. C. Reiner và cộng sự [16]đã xây dựng mô hình dự báo số ca mắc tả trước
11 tháng tại Matlab. Dữ liệu được sử dụng trong nghiên cứu này là các tham số khí
tượng, chỉ số dao động Nam và số ca mắc tả của Matlab từ năm 1995 đến năm
2008. Chỉ số dao động phía Nam (SOI) và tình trạng ngập lụt ở Matlab là các yếu tố
khí hậu cục bộ có ảnh hưởng lớn nhất đến số ca mắc tả. Ngoài ra, nghiên cứu này đã
dự báo số ca theo đơn vị thanas và có một kết luận quan trọng là các thanas tại trung
tâm Matlab có vai trò trong việc lây lan bệnh ra toàn thành phố. Kỹ thuật xây dựng
mô hình dự báo được sử dụng trong nghiên cứu này là mô phỏng bằng mô hình xích
11


12
Markov đa chiều không đồng nhất (Multidimensional Inhomogeneous Markov
Chain – MDIMC).

Xu Min và cộng sự [17] sử dụng mô hình MaxEnt – một mô hình dựa trên mô
hình kỳ vọng cực đại – để phân tích ảnh hưởng của khí hậu đến bệnh Tả ở Trung
Quốc từ năm 2001-2008. Theo kết quả của nghiên cứu này, lượng mưa, nhiệt độ và
độ cao so với mặt biển có ảnh hưởng mạnh nhất tới số ca bệnh tả. Khoảng cách tới bờ
biển, độ ẩm tương đối và khí áp cũng có ảnh hưởng. Tuy nhiên số giờ nắng và quá
trình giảm mức nước sông hầu như không có ảnh hưởng đến số ca bệnh.

1.1.5. Tổng quan về tả và dịch tả
Tả là một bệnh truyền nhiễm cấp tính do vi khuẩn tả Vibrio cholerae nhóm
huyết thanh O1 và O319 gây nên. Bệnh lây theo đường tiêu hóa, chủ yếu do ăn phải
thức ăn hoặc nước uống bị ô nhiễm vi khuẩn tả. Bệnh tả lây lan nhanh và có khả
năng gây thành dịch lớn với tỷ lệ mắc và tử vong cao, đặc biệt tại các nước đang
phát triển. Cho đến nay bệnh tả vẫn lưu hành ở nhiều quốc gia và khu vực, theo Tổ
chức y tế thế giới số lượng các vụ dịch tả và số ca mắc tả có xu hướng tăng trong
những năm gần đây, bệnh tả và tiêu chảy - là nguyên nhân đứng hạng thứ năm gây
tử vong trên toàn cầu, và đứng hạng thứ hai gây tử vong đối với trẻ em dưới năm
tuổi [9].
Theo R.R Colwell [18] thuật ngữ bệnh tả ("cholera") có nguồn gốc từ tiếng Hy
Lạp, được giải thích hoặc "cholera" là từ ghép của "chole" ("mật") và "rein " ("dòng
chảy") có nghĩa là dòng chảy mật, hoặc là "máng xối của mái nhà" (các triệu chứng
của bệnh tả-có thể đã gợi ý cho người Hy Lạp dòng chảy nặng của nước trên máng
mái nhà trong cơn dông). Dù cho không tính đến các khu vực phát triển của thế
giới, thì bệnh tả vẫn là một mối đe dọa lớn ở quy mô toàn cầu. Bệnh tả có thể gây ra
tình trạng mất nước nghiêm trọng và dẫn đến tử vong cho chủ thể nếu không được
điều trị đúng cách thông qua bù nước. Năm 1883, Rocbert Kock đã phân lập được
vi khuẩn tả từ phân người bệnh và từ niêm mạc ruột của những xác chết vì bệnh
tả.Vi khuẩn tả Vibrio cholerae (V.cholerae) thuộc giống Vibrio, chúng có thể tồn tại
lâu trong phân, đất ẩm, nước và thực phẩm. Trong đất vi khuẩn tả có thể sống 60
ngày, trong phân 150 ngày, trên bề mặt thân thể 30 ngày, trong sữa 6 - 10 ngày, trên
rau quả 7 - 8 ngày, trong nước 20 ngày.

12


13
Là một bệnh - gây ra bởi vi khuẩn V.cholerae - dịch tả có thể tấn công dữ dội
các quốc gia nghèo nàn về vệ sinh và thiếu thốn về cơ sở hạ tầng thoát nước và
lương thực. Trong những năm gần đây, cụ thể hơn là từ khi bắt đầu của thiên niên
kỷ mới, sự bùng phát dịch tả đã tàn phá khủng khiếp nhất tới các khu vực nghèo
nhất và không ổn định nhất của thế giới, nơi cư trú một lượng lớn người dân phải
chịu dựng một tần suất gặp và bị tổn thương bởi các sự kiện cực đoan (như bão) và
thiên tai. Kết quả là, các mẫu bệnh tả nổi lên chuyển từ các khu vực đặc hữu có tính
lịch sử (ví dụ như khu vực Vịnh Bengal) tới các quốc gia nguyên sơ với bệnh trước
đây - nhưng còn rất khó khăn - ở châu Phi và Trung và Nam Mỹ.

Hình 1.4: Mô hình phân cấp về lan truyền dịch tả trong môi trƣờng [9]
Hình 1.4 mô tả một mô hình phân cấp về lan truyền dịch tả trong môi trường,
trong đó, các nhóm tác động lan truyền dịch tả là các ảnh hưởng mùa (seasonal
effects), các biến đổi đa dạng khí hậu (Climate Variability), Các yếu tố kinh tế-xã
hội, nhân khẩu học, vệ sinh môi trường của con người (Human Socioeconomics,
demographics, sanitation). Mỗi nhóm tác động lan truyền dịch tả trên đây lại bao
gồm rất nhiều yếu tố có thể mà mỗi một khu vực cụ thể tác động của mỗi yếu tố
như vậy lại lớn/nhỏ khác nhau. Điều đó có nghĩa là mỗi mô hình dự

13


14

ch tҧOjP
ӝ

t trong nhӳng bӋ
nh dӏ
ch nhҥ
y cҧ
m nhҩ
t vӟLFiF\
Ӄ
u tӕbiӃ
Qÿ
ә
i
thӡi tiӃ
t - NKtK
ұ
XYjÿѭ
ӧFFRLQKѭP
ӝWKuQKP
ү
u vӅWiFÿ
ӝng cӫa biӃ
Qÿ
ӕ
LNKtK
ұ
u
tӟLFiFE
Ӌ
nh dӏ
ch [18]. NhiӅ
XF{QJWUuQKQJKLr

n cӭu vӅmӕLOLrQTXDQF
ӫa biӃ
Qÿ
ә
i
khi hұ
u vӟi dӏ
ch tҧÿmÿѭ
ӧFF{QJE
ӕ, chҷ
ng hҥ
n [18], [19], [20], [21], [22].

1JKLrQF
ӭu cӫ
a Rita R Colwell [18] ÿѭ
ӧFFRLOjP
ӝt trong nhӳQJF{QJWU
sӟm nhҩ
t vӅWiFÿ
ӝng cӫa biӃ
Qÿ
ә
LNKtK
ұ
u tӟi dӏ
ch tҧ
ÿѭ
ӧFFRLOjKuQK
ү

u vӅWiF
ÿ
ӝ
ng cӫ
a biӃ
Qÿ
ә
LNKtK
ұ
u tӟLFiF

nh dӏ
ch.
.H\D&KDXGKXULYj61&KDWWHUMHH
[19] dӵDWUrQE
Ӌ
nh tҧnhұ
Qÿ
ӏ
nh bӋ
nh tҧvӅ
FѫE
ҧ
QOjP
ӝt bӋ
QKWKHRÿѭ
ӡQJQѭ
ӟFFKRQrQFiFF
ҧ
i tiӃ

n vӅvӋsinh y tӃF{QJF
ӝ
ng

giӳYDLWUzFKtQKÿ
ӇSKzQJQJ
ӯa hoһ
c thұ
PFKt[yDE
ӓFăQE
Ӌ
nh tҧ
WX\QKLrQ
ӕ
i
vӟi nhiӅ
XQѭ
ӟFÿDQJSKiWWUL
Ӈ
QYjNK
{QJJLjXFyU
ҩ
WNKyÿ
Ӈÿҥ
Wÿѭ
ӧc cҧ
i thiӋ
QQKѭ

\FKRQrQÿ

һ
t ra nhu cҫ
XU}UjQJY
Ӆloҥ
i vҳ
F[LQFyKL
Ӌ
u quҧYjFyV
ҹ
Qÿ
ӇÿL
Ӆ
u trӏ
dӉGjQJOjJL
ҧ
LSKiSTXDQWU
ӑ
QJYjKL
Ӌ
u quҧnhҩ
t.
Colin D. Butler [21] tәng hӧSFiFWiFÿ
ӝng cӫa biӃ
Qÿ
әLNKtK
ұ
Xÿ
ӕi vӟi viӋ
c


KuQKWKjQKYjEQJSKi
WFiFG
ӏ
ch bӋ
QK QyLFKXQJ
YjG
ӏ
ch tҧ QyLULrQJ
/
tӟLKuQKWKjQKYjEQJSKiWG
ӏ
ch tҧ
F{QJWUuQKQJKLrQF
ӭu cho thҩ
y:
-

BiӃ
Qÿ
әLNKtK
ұ
XFyWK
ӇOjPWăQJW
ӹlӋmҳ
FWLrXFK
ҧ
y nhiӉ
PWUQJGR
QJX\rQQKkQÿѭ
ӧFF{QJQK

ұ
n, gӗPFyQKL
Ӌ
Wÿ
ӝWăQJJL
ҧ
m tiӃ
p cұ
n nguӗ
n


ӟc sҥ
ch do hҥ
QKiQYjWKL
Ӌ
t hҥ
LFKRFѫV
ӣhҥtҫ
QJQѭ
ӟFYjY
ӋVLQKP{L
WUѭ
ӡQJGRONJO
өt.
-

BiӃ
Qÿ
әLNKtK

ұ
XOLrQTXDQÿ
Ӄ
n cҧKDLJLDLÿR
ҥ
n cӫD(162ÿm
ҧ
QKKѭ
ӣng

ÿ
Ӄ
n tӹlӋmҳ
F FiF
Ӌ
nh nhiӋ
E
W
ӟL
ÿ Yj
Ӆ
n nhiӉ
WUX\
P NKiF QKDX
Ӈӣ
ÿi


, bao gӗm cҧbӋ
nh sӕW UpW

ӕt xuҩ
t huyӃ
VW OHLVKPDQLDVLV
ӝ
i


ng), sӕWYjQJGDE
Ӌ
nh tҧ
WLrXFK
ҧ
y. BiӃ
Qÿ
әLNKtK
ұ
u hiӋ
QQD\ÿDQJ
ra sӵJLDWăQJNLrQWUuYjWiL[X
ҩ
t hiӋ
n cӫ
a mӝt sӕbӋ
nh, bao gӗm cҧmӝ
t

sӕtӯQJÿѭ
ӧFFRLOjOR
ҥ
i bӓ, loҥ

i trӯhoһ
c kiӇ
PVRiW0
ӕ
LWѭѫQJTXDQ
ӳa


WWKѭ
ӡQJWtFKF
ӵc ӣnhiӋ
Wÿ
ӝbӅmһ
WQѭ
ӟc biӇ
n kӃ
t hӧp vӟL(O1LQR


nh tҧӣ3HUX(FXDGRU&RORPELD0H[LFR
ӧFQrX
WURQJWjLOL
Ӌ
u.
7Uѭ
ӟFQăPFK
ӍFyP
ӝWYjLWUѭ
ӡng hӧp bӋ
nh tҧÿmÿѭ

ӧFEiRFiR
ӣmiӅ
n


c ViӋ
W1DP7X\QKLrQYjRFX
ӕLQăPÿmEQJSKiW
ӏ
ch tҧxҧ
y ra tҥ
i khu
14


×