Tải bản đầy đủ (.pdf) (63 trang)

Luận văn Thạc sĩ ngành công nghệ thông tin: Khai phá dữ liệu và ứng dụng trong y tế dự phòng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 63 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

HOÀNG VĂN TIẾN

KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG
Y TẾ DỰ PHÒNG

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

GIÁO VIÊN HƯỚNG DẪN

Đặng Thanh Hải

Hà Nội - 2018


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

HOÀNG VĂN TIẾN

KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG
Y TẾ DỰ PHÒNG

Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý Hệ thống thông tin
Mã số: 8480205.01

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN


NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. ĐẶNG THANH HẢI

Hà Nội - 2018


LỜI CAM ĐOAN
Luận văn “Khai phá dữ liệu và ứng dụng trong y tế dự phòng” đánh dấu cho
những thành quả, kiến thức của tôi đã tiếp thu được trong quá trình rèn luyện, học tập
và nghiên cứu tại Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội. Tôi xin cam
đoan các nội dung được trình bày trong luận văn này được xây dựng, hoàn thành bằng
chính quá trình nghiên cứu của bản thân và dưới sự hướng dẫn của thầy giáo TS. Đặng
Thanh Hải.
Trong quá trình làm luận văn này, tôi đã tham khảo một số tài liệu từ nhiều
nguồn khác nhau, các nội dung tham khảo đều được trích dẫn rõ ràng. Nếu có điều gì
không trung thực, tôi xin chịu mọi hình thức kỷ luật theo đúng quy định.
Hà Nội, ngày 02 tháng 10 năm 2018
Học viên

Hoàng Văn Tiến

xi


LỜI CÁM ƠN
Lời đầu tiên, tôi xin gửi lời cám ơn đến Thầy Cô giáo tại trường Đại học Công
nghệ - Đại học Quốc gia Hà Nội nói chung và Thầy Cô giáo trong bộ môn Hệ thống
thông tin và Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc
gia Hà Nội đã nhiệt tình giảng dạy, truyền đạt những kiến thức, kinh nghiệm quý báu
trong suốt thời gian tôi học tập tại trường.
Đặc biệt, tôi xin gửi lời cám ơn chân thành nhất đến TS. Đặng Thanh Hải,

người đã hướng dẫn tôi trong suốt quá trình thực hiện luận văn này. Nhờ sự hướng dẫn
và chỉ bảo tận tình của Thầy, tôi đã có được những kiến thức và kinh nghiệm quý báu
về cách xác định vấn đề nghiên cứu, phương pháp nghiên cứu, trình bày kết quả và
hoàn thành luận văn của mình.
Cuối cùng, tôi xin gửi lời cám ơn tới toàn thể gia đình, bạn bè và đồng nghiệp
đã luôn quan tâm, ủng hộ và động viên, giúp tôi có nghị lực phấn đấu để hoàn thành
tốt luận văn.
Hà Nội, ngày 02 tháng 10 năm 2018
Học viên

Hoàng Văn Tiến

xii


TÓM TẮT NỘI DUNG
Phân tích và dự báo từ lâu đã được ứng dụng trong mọi lĩnh vực nhằm đưa ra
những định hướng, chiến lược phát triển trong tương lai. Ngành Y tế không đứng
ngoài xu thế đó, đặc biệt là dự báo dịch bệnh truyền nhiễm từ lâu đã được các nhà
khoa học quan tâm nghiên cứu và ngày càng phát triển. Phân tích và dự báo dịch bệnh
truyền nhiễm được quan tâm vì những lợi ích rất lớn nó mang lại trong công tác phòng
ngừa dịch bệnh. Phân tích và dự báo diễn biến của dịch bệnh giúp chúng ta chủ động
trong công tác phòng ngừa, nhằm giảm thiểu những tổn hại do dịch bệnh gây ra. Việc
xác định được chu kỳ diễn biến của dịch bệnh truyền nhiễm dựa trên các yếu tố thời
gian, khí hậu và vùng địa lý rất được quan tâm. Nắm bắt chu kỳ diễn biến của dịch
bệnh, đưa ra dự báo và lên phương án ứng phó, khoanh vùng, dập dịch nhanh, không
để lây lan là hết sức quan trọng góp phần hạn chế tối đa hậu quả của dịch bệnh gây ra
cho con người.
Đề tài nghiên cứu trước hết tìm hiểu kiến thức nền tảng về khai phá dữ liệu, sau
đó tìm hiểu sâu các kỹ thuật khai phá dữ liệu tiên tiến đang nhận được nhiều sự quan

tâm của cộng đồng nghiên cứu trên thế giới, qua đó đề xuất vận dụng phương pháp và
công cụ khai phá dữ liệu phù hợp với tập dữ liệu dịch cúm do Google Flu Trends công
bố. Google Flu Trends là dịch vụ của Tập đoàn Google, cung cấp số liệu ước tính về
dịch cúm tại hơn 25 quốc gia, thông qua việc tổng hợp các truy vấn tìm kiếm trên
www.google.com, thông qua đó cố gắng đưa ra dự báo chính xác về dịch cúm. Năm
2008, Google Flu Trends được Google.org lần đầu tiên đưa ra để giúp dự báo sự bùng
phát dịch cúm của 25 nước trên thế giới.
Đề xuất lựa chọn phương pháp khai phá dữ liệu phù hợp trên tập dữ liệu dịch
bệnh cúm do Google Flu Trends công bố, tìm ra chu kỳ diễn biến của dịch, đưa ra các
dự báo và hỗ trợ định hướng hoạt động y tế dự phòng theo từng thời điểm trong năm,
nhằm có những chính sách và biện pháp phù hợp để hạn chế thiệt hại của dịch bệnh
gây ra.

xiii


MỞ ĐẦU
Ngày nay, con người đang phải đối mặt với tình hình dịch bệnh lây nhiễm
hoành hành, bùng phát một cách nhanh chóng. Một số bệnh dịch trước đây chỉ lưu
hành rải rác ở Tây Phi như Ebola, MERS-CoV từ Trung Đông, vv… thì hiện nay đã
lan rộng nhiều quốc gia trên thế giới, kể cả các quốc gia phát triển có hệ thống y tế dự
phòng tiên tiến và có bề dày kinh nghiệm ứng phó với dịch bệnh truyền nhiễm. Sự
phát triển của dịch bệnh không những gia tăng sự lây lan về phạm vi mà còn phát triển
đa dạng về chủng loại, dịch cúm gia cầm A(H5N1), A(H7N9) có khả năng lây sang
người chưa khống chế được tại Trung Quốc thì đã xuất hiện những chủng cúm biến thể
mới A(H5N6), A(H9N2), A(H5N8).
Có thể thấy, dịch bệnh ngày càng diễn biến phức tạp về phạm vi và chủng loại.
Thực tế đó, đòi hỏi công tác y tế dự phòng cần phải được đẩy mạnh, nâng cao nhằm
khoanh vùng và hạn chế sự lây lan của dịch bệnh. Công tác giám sát dịch bệnh lây
nhiễm, phân tích và dự báo phục vụ ra quyết định ngày càng trở nên quan trọng và cần

được đẩy mạnh.
Chính từ sự cấp thiết đó, học viên đã chọn đề tài “Khai phá dữ liệu và ứng
dụng trong y tế dự phòng” làm luận văn thạc sĩ của mình, nhằm góp phần công sức
nhỏ bé cho lĩnh vực y tế dự phòng có thêm một số giải pháp phân tích, dự báo hiệu quả
dịch bệnh truyền nhiễm hiện nay, góp phần nâng cao ứng dụng công nghệ thông tin
trong lĩnh vực y tế đặc biệt là lĩnh vực y tế dự phòng. Nội dung luận văn tập trung vào
những phần sau:
Chương 1: Giới thiệu về lĩnh vực y tế dự phòng
Trong chương này giới thiệu tổng quan về lĩnh vực y tế dự phòng, lịch sử hình
thành và phát triển của y tế dự phòng. Nội dung Chương 1 cũng sẽ giới thiệu thực
trạng bùng phát và mô hình dịch bệnh truyền nhiễm hiện nay.
Chương 2: Các phương pháp và công cụ khai phá dữ liệu
Nội dung được trình bày tại chương này xoay quanh khái niệm, tính chất cơ bản
của các phương pháp khai phá dữ liệu phổ biến hiện nay. Đồng thời, qua đó đề xuất
một phương pháp và công cụ phù hợp khai phá tập dữ liệu dịch bệnh cúm được công
bố bởi Google Flu Trends.
Chương 3: Phương pháp phân tích và dự báo với chuỗi dữ liệu thời gian
Đi sâu vào kỹ thuật phân tích chuỗi dữ liệu chuỗi thời gian (time series data) và
áp dụng kỹ thuật này với tập dữ liệu dịch bệnh cúm do Google Flu Trends công bố trên
mô hình ARIMA.
Chương 4: Thực nghiệm và đánh giá
Phân tích và đưa ra kết quả dự báo dựa trên tập dữ liệu Google Flu Trends công

xiv


bố dịch bệnh cúm, sử dụng các phương pháp phân tích chuỗi dữ liệu thời gian và công
cụ khai phá dữ liệu.
Phần kết luận nêu ra những kết quả đã đạt được, những đóng góp của luận văn
và định hướng phát triển nghiên cứu trong tương lai để nâng cao tính ứng dụng thực tế

của đề tài nghiên cứu cho lĩnh vực y tế dự phòng.

xv


MỤC LỤC
LỜI CAM ĐOAN ...........................................................................................................xi
LỜI CÁM ƠN ............................................................................................................... xii
TÓM TẮT NỘI DUNG ............................................................................................... xiii
MỞ ĐẦU ......................................................................................................................xiv
MỤC LỤC ....................................................................................................................xvi
DANH MỤC CÁC HÌNH VẼ ......................................................................................xix
DANH MỤC CÁC BẢNG BIỂU.................................................................................xxi
DANH MỤC VIẾT TẮT............................................................................................ xxii
DANH SÁCH CÁC THUẬT NGỮ .......................................................................... xxiii
CHƯƠNG 1: GIỚI THIỆU VỀ LĨNH VỰC Y TẾ DỰ PHÒNG ................................... 1
1.1. Giới thiệu về y tế dự phòng ...................................................................................... 1
1.1.1. Lịch sử phát triển của y tế dự phòng .....................................................................1
1.1.2. Những vai trò của lĩnh vực y tế dự phòng .............................................................2
1.2. Dịch bệnh .................................................................................................................. 3
1.3. Dự báo dịch bệnh trong lĩnh vực y tế dự phòng ....................................................... 4
1.4. Thực trạng nghiên cứu dự báo trong y tế dự phòng ................................................. 5
1.5. Mục tiêu nghiên cứu ................................................................................................. 6
Tóm tắt Chương 1 ............................................................................................................6
CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU .............. 8
2.1. Khai phá dữ liệu ....................................................................................................... 8
2.1.1. Khái niệm ..............................................................................................................8
2.1.2. Ưu điểm của khai phá dữ liệu với các phương pháp khác ....................................9
2.1.3. Những khó khăn trong khai phá dữ liệu ..............................................................10
2.2. Các kỹ thuật khai phá dữ liệu ................................................................................. 10

2.2.1. Hồi quy (Regression) ...........................................................................................11
2.2.2. Kết hợp (Association) ..........................................................................................12
2.2.3. Phân lớp (Classification) .....................................................................................13
2.2.4. Phân cụm (Clustering) .........................................................................................13
2.3. Dữ liệu chuỗi thời gian (time series data) .............................................................. 13

xvi


2.4. Các công cụ, phần mềm hỗ trợ khai phá dữ liệu .................................................... 14
2.4.1. Phân tích số liệu bằng phần mềm Weka ..............................................................14
2.4.2. Giới thiệu về SPSS (Statistical Product and Services Solutions) ........................16
2.4.3. Phân tích số liệu bằng R ......................................................................................16
Tóm tắt chương 2...........................................................................................................17
CHƯƠNG 3. PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO ....................................... 19
VỚI CHUỖI DỮ LIỆU THỜI GIAN ............................................................................ 19
3.1. Dữ liệu chuỗi thời gian ........................................................................................... 19
3.2. Tính dừng của dữ liệu chuỗi thời gian ................................................................... 21
3.2.1. Kiểm tra tính dừng chuỗi thời gian .....................................................................21
3.2.2. Biến đổi chuỗi không dừng thành chuỗi dừng ....................................................22
3.3. Mô hình ARIMA .................................................................................................... 22
3.3.1. Mô hình tự hồi quy AR (Autoregressive process) ..............................................23
3.3.2. Mô hình trung bình trượt MA (Moving Average) ...............................................23
3.3.3. Mô hình trung bình trượt và tự hồi quy ARMA (Autoregressive Moving
Average) ........................................................................................................................23
3.3.4. Mô hình trung bình trượt tự hồi quy ARIMA (Autoregressive Intergrated
Moving Average) ...........................................................................................................24
3.3.5. Dự báo dữ liệu chuỗi thời gian ............................................................................24
Tóm tắt chương 3...........................................................................................................26
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ......................................................... 27

4.1. Mô hình thực nghiệm ............................................................................................. 27
4.2. Mục đích thực nghiệm ............................................................................................ 28
4.3. Tập dữ liệu Google Flu Trends .............................................................................. 28
4.4. Môi trường, cấu hình hệ thống và công cụ ............................................................. 30
4.4.1. Cấu hình phần cứng .............................................................................................30
4.4.2. Các công cụ phần mềm sử dụng ..........................................................................30
4.5. Kết quả thực nghiệm............................................................................................... 30
4.5.1. Lựa chọn và xử lý dữ liệu ....................................................................................31
4.5.2. Phân tách dữ liệu .................................................................................................36
4.6. Đánh giá kết quả ..................................................................................................... 43
xvii


Tóm tắt chương 4...........................................................................................................43
KẾT LUẬN ................................................................................................................... 45
1. Các kết quả đạt được ................................................................................................. 45
2. Hướng nghiên cứu tiếp theo ...................................................................................... 45
TÀI LIỆU THAM KHẢO ............................................................................................. 46
Tiếng Việt ...................................................................................................................... 46
Tiếng Anh ...................................................................................................................... 46
PHỤ LỤC ...................................................................................................................... 47

xviii


DANH MỤC CÁC HÌNH VẼ
Hình 2.1. Các bước khai phá dữ liệu ............................................................................ 8
Hình 2.2. Tuyến tính hồi quy với một dự đoán duy nhất ............................................. 11
Hình 2.3. Mô hình hồi quy phi tuyến tính .................................................................... 12
Hình 2.4. Giao diện phần mềm weka ........................................................................... 15

Hình 2.5. Giao diện SPSS............................................................................................. 16
Hình 2.6. Giao diện phần mềm R ................................................................................. 17
Hình 3.1. Số liệu diễn biến cúm tại phía Nam Châu phi từ năm 2006 đến 2015 ......... 19
Hình 3.2. Biểu diễn xu hướng giảm của dữ liệu........................................................... 19
Hình 3.3. Biểu diễn thay đổi chuỗi thời gian theo từng khoảng thời gian ................... 20
Hình 3.4. Biểu diễn chu kỳ chuỗi thời gian .................................................................. 20
Hình 3.5. Sơ đồ chuỗi thời gian với định lượng Y(t) theo diễn biến thời gian t .......... 20
Hình 3.6. Các bước chính trong phương pháp Box‐Jenkins ........................................ 26
Hình 4.1. Biểu đồ so sánh dữ liệu dự báo của Google Flu Trends và Trung tâm kiểm
soát và phòng ngừa các chứng bệnh của Mỹ ................................................................ 28
Hình 4.2. Mẫu dữ liệu bệnh cúm của 25 nước trên thế giới được tổng hợp từ 2003 đến
2015 .............................................................................................................................. 29
Hình 4.3. Cài đặt gói thư viện ...................................................................................... 31
Hình 4.4. Nạp dữ liệu ................................................................................................... 32
Hình 4.5. Tập dữ liệu cúm của Argentina .................................................................... 32
Hình 4.6. Tập dữ liệu cúm của Argentina năm 2004 ................................................... 33
Hình 4.7. Diễn biến cúm năm 2004 của Argentina theo tháng .................................... 33
Hình 4.8. Dữ liệu cúm của năm 2004 Argentina được làm sạch ................................. 34
Hình 4.9. Diễn biến cúm Argentina năm 2014 được làm sạch .................................... 35
Hình 4.10. So sánh số liệu bệnh cúm của Argentina với dữ liệu được làm mịn .......... 36
Hình 4.11. Sơ đồ dữ liệu được phân tách theo thành phần tính thời vụ, xu hướng và
chu kỳ ........................................................................................................................... 36
Hình 4.12. Mô hình ACF .............................................................................................. 37
Hình 4.13. Mô hình PACF ........................................................................................... 38
Hình 4.14. Mô hình kiểm tra với d = 1 ....................................................................... 38
Hình 4.15. Mô hình ACF với d = 1 ............................................................................. 39
Hình 4.16. Mô hình PACF với d = 1 ........................................................................... 39
Hình 4.17. Mô hình ARIMA (1, 1, 1) ............................................................................ 40

xix



Hình 4.18. Mô hình ARIMA (1, 1, 7) ............................................................................ 41
Hình 4.19. Mô hình dự báo với hệ số (1, 1, 1) ............................................................. 41
Hình 4.20. Mô hình dự báo .......................................................................................... 42
Hình 4.21. Mô hình dự báo ARIMA (0, 2, 0)(0, 0, 1)(7) ............................................. 42
Hình 4.22. Diễn biến dịch bệnh thực tế tại Argentina từ năm 2003 đến 2015 ............. 43

xx


DANH MỤC CÁC BẢNG BIỂU
Bảng 1. Cấu hình phần cứng ........................................................................................ 30
Bảng 2. Các công cụ, phần mềm sử dụng .................................................................... 30

xxi


DANH MỤC VIẾT TẮT
TT

Viết tắt

Tiếng Anh

Tiếng Việt

1.

ARIMA


Autoregressive integrated moving Tự hồ i quy tích hơ ̣p trung
average
bin
̀ h trươ ̣t

2.

ACF

Autocorrelation function

Chức năng tự tương quan

3.

PACF

Partial autocorrelation plots

Sự tự tương quan thành phần

4.

BI

Business intelligence

Thông minh nghiệp vụ


5.

KDD

Knowledge discovery in database

Khai phá tri thức trong cơ sở
dữ liệu

6.

SPSS

Statistical product and services Giải pháp sản phẩm và dịch
solutions
vụ thống kê

7.

AR

Autoregressive

Tự hồi quy

8.

MA

Moving average


Trung bình trượt

9.

ARMA

Autoregressive moving average

Trung bình trượt tự hồi quy

10. GDP

Gross domestic product

Tổng sản phẩm quốc nội

11. CDC

Centers for disease control and Trung tâm kiểm soát và phòng
prevention
ngừa dịch bệnh

xxii


DANH SÁCH CÁC THUẬT NGỮ
TT

Thuật ngữ tiếng Anh


Nghĩa tiếng Việt

1.

Ebola

Bệnh do virus Ebola

2.

MERS-CoV

Hội chứng hô hấp Trung Đông

3.

H5N1, H7N9, H5N6,
Virus cúm gia cầm H5N1, H7N9, H5N6, H9N2, H5N8
H9N2, H5N8

4.

Internet

Mạng Internet

5.

Petabybe


Đơn vị lưu trữ trên máy tính

6.

HD

Độ phân giải cao hay độ nét cao

7.

CPU

Bộ vi xử lý trung tâm

8.

RAM

Bộ nhớ truy cập ngẫu nhiên

9.

OS

Hệ điều hành

xxiii



CHƯƠNG 1: GIỚI THIỆU VỀ LĨNH VỰC Y TẾ DỰ PHÒNG
1.1. Giới thiệu về y tế dự phòng
Y tế dự phòng là lĩnh vực y tế thực hiện các biện pháp giám sát, dự báo, phòng
ngừa và kiểm soát dịch bệnh [9]. Lĩnh vực y tế dự phòng có chức năng triển khai các
hoạt động nghiên cứu, dự báo qua đó làm cơ sở để định hướng đưa ra những chính
sách nhằm giám sát, bảo vệ và nâng cao sức khỏe cộng đồng trước những nguy cơ về
dịch bệnh ngày càng tăng hiện nay [9].
Lĩnh vực y tế dự phòng gồm 5 mảng hoạt động chuyên môn cụ thể: dịch tễ, quản lý
y tế, dự phòng, quản lý môi trường y tế, sức khỏe nghề nghiệp và nâng cao sức khỏe
[1]. Các hoạt động chuyên môn y tế dự phòng, nỗ lực hướng tới việc ngăn ngừa bệnh
tật trong cộng đồng.
1.1.1. Lịch sử phát triển của y tế dự phòng
Hippocrates, một bác sĩ người Hy Lạp ở Thế kỷ thứ 5 trước Công nguyên, đã phân
loại các nguyên nhân gây bệnh thành những khía cạnh có liên quan đến mùa, khí hậu,
và điều kiện bên ngoài và những nguyên nhân như thức ăn, chế độ luyện tập và thói
quen không bình thường của mỗi cá nhân [5]. Tại thời kỳ Trung Cổ, vai trò của y học
dự phòng đã bị bỏ qua, bất chấp các tai họa của bệnh hủi và bệnh dịch hạch. Dưới thời
Phục hưng, những nghiên cứu mới đã làm cách mạng hoá toàn bộ ngành y học thời
bấy giờ, các nhà nghiên cứu đã nhìn thấy được mối quan hệ giữa các mùa, điều kiện
môi trường và tỷ lệ mắc bệnh.
Đồng thời với sự phát triển của kiến thức y học, đã hình thành phong trào nghiên
cứu các biện pháp phòng ngừa nguy cơ dịch bệnh. Ví dụ, năm 1388 đã tiến hành hoạt
động vệ sinh đầu tiên ở nước Anh, nhằm vào việc loại bỏ những nguy cơ dịch bệnh;
vào năm 1443 là dịch bệnh dịch hạch đầu tiên đã được kiểm soát và thực hiện các hoạt
động vệ sinh phòng ngừa; và năm 1518 đã có những nỗ lực mạnh mẽ đầu tiên trong
việc báo cáo dịch bệnh và thực hiện cách ly người bệnh bị bệnh truyền nhiễm [9].
Nghiên cứu thống kê tử vong được bắt đầu ở Anh vào Thế kỷ 17, cơ sở hoạt động
trong lĩnh vực dịch tễ học đã được thành lập vào giữa Thế kỷ 17 [9]. Năm 1700, một
tác phẩm về rối loạn nghề nghiệp đã được xuất bản ở Ý [9]. Một học viên người Anh
trong nửa đầu thế kỷ XVIII đã viết về chất độc, bệnh dịch hạch, đậu mùa, sởi và kèm

theo đó là phương pháp phòng bệnh [9]. Chủng ngừa bệnh lây nhiễm đã được phát
minh vào năm 1798 [9]. Điểm đáng chú ý vào những năm đầu của Thế kỷ 19 là đã
phát hiện được nguyên nhân lây truyền các bệnh như sốt, thương hàn, bệnh tả và uốn
ván [9]. Trong cùng thời kỳ, các nhà nghiên cứu dành nhiều sự quan tâm đến các vấn
đề vệ sinh dịch tễ và dinh dưỡng.
Kỷ nguyên hiện đại trong y học dự phòng được mở ra vào giữa Thế kỷ 19 với sự
khám phá của Louis Pasteur về vai trò của các vi khuẩn sống như là nguyên nhân gây
ra bệnh nhiễm trùng [9]. Cũng cuối Thế kỷ này, vai trò truyền bệnh do côn trùng đã
1


được xác định [9]. Xét nghiệm huyết thanh học đã được phát hiện bởi Widal, bằng
việc tìm ra phản ứng ngưng kết đối với huyết thanh người mắc bệnh thương hàn năm
1896 và thử nghiệm Wassermann cho bệnh giang mai năm 1906 [9]. Với việc khám
phá ra các nguyên tắc miễn dịch của cơ thể con người đã dẫn đến sự phát triển của việc
tiêm chủng chủ động để phòng ngừa các bệnh cụ thể [9]. Bên cạnh đó, những tiến bộ
trong điều trị đã mở ra những cách khác để dự phòng bệnh bạch hầu bằng thuốc kháng
sinh và bệnh giang mai bằng arsphenamine [9]. Năm 1932, các thuốc sulfonamide và
sau đó là kháng sinh bao gồm penicillin, streptomycin, chlortetracycline và
chloramphenicol tạo ra cơ hội mới để phòng ngừa và chữa trị các bệnh do các vi khuẩn
khác nhau gây ra [9].
Sau năm 1900, có thêm nhiều tiến bộ khác trong lĩnh vực y học dự phòng, việc sử
dụng tia X và các chất phóng xạ trong chẩn đoán và điều trị bệnh (ví dụ như bệnh lao
và ung thư) cũng như trong nghiên cứu sinh lý cơ bản đã mở ra những khả năng mới
[9]. Sự hiểu biết sâu hơn về các chức năng nội tiết, với việc sản xuất các chiết xuất
hoocmôn có sẵn như insulin, dẫn đến các biện pháp phòng ngừa các bệnh chuyển hóa
nhất định [9]. Vai trò của dinh dưỡng trong sức khoẻ và bệnh tật và của nhiều yếu tố
thực phẩm thiết yếu đối với sức khoẻ của chế độ ăn uống hợp lý [9]. Những tiến bộ
khác của Thế kỷ 20 trong lĩnh vực y tế dự phòng bao gồm sự thừa nhận rộng hơn các
yếu tố tâm lý liên quan đến tổng thể sức khoẻ con người, các kỹ thuật phẫu thuật,

phương pháp gây tê mới và nghiên cứu di truyền học [9].
1.1.2. Những vai trò của lĩnh vực y tế dự phòng
Trong khi một số người nghĩ rằng bác sĩ như là một ai đó để khám, chữa cho họ khi
bị bệnh, có một sự thật là việc gặp bác sĩ về y tế dự phòng cũng quan trọng không kém
quan trọng trong việc quản lý sức khoẻ của bản thân, như chúng ta vẫn thường nghe
câu phòng bệnh hơn chữa bệnh [1]. Ngăn ngừa bệnh tật bằng cách kiểm tra tình trạng
sức khoẻ để phát hiện những nguy cơ tiềm ẩn, tiêm vắc xin đầy đủ và áp dụng các thói
quen lành mạnh là những cách để chúng ta có thể sống một cuộc sống khỏe mạnh hơn.
Từ những nhu cầu cấp thiết trong công tác phòng chống nguy cơ và bảo vệ sức
khỏe người dân, lĩnh vực y tế dự phòng có những vai trò cụ thể sau:
- Giám sát, phát hiện sớm các bệnh truyền nhiễm, các nguồn bệnh chưa rõ nguyên
nhân [1];
- Tổ chức thực hiện các biện pháp phòng, chống và kiểm soát dịch bệnh [1];
- Quản lý dữ liệu và cung cấp thông tin rộng rãi cho xã hội về các bệnh và dịch
bệnh truyền nhiễm [1];
- Phòng, chống bệnh không lây nhiễm, bệnh xã hội [1];
- Giám sát và phòng, chống bệnh không lây nhiễm, bệnh xã hội [1];
- Thực hiện các hoạt động phòng, chống yếu tố nguy cơ bệnh không lây nhiễm;
2


triển khai các hoạt động phòng, chống tác hại của lạm dụng rượu bia và đồ uống có
cồn khác [1];
- Thực hiện và kiểm tra, giám sát hoạt động phòng, chống bệnh không lây nhiễm,
bệnh xã hội; thống kê, báo cáo, xây dựng và quản lý cơ sở dữ liệu về bệnh không lây
nhiễm, bệnh xã hội [1];
- Nghiên cứu, phát triển và sử dụng vắc xin, sinh phẩm y tế hỗ trợ phòng ngừa các
bệnh truyền nhiễm một cách chủ động [1];
- Hướng dẫn, kiểm tra việc sử dụng vắc xin, sinh phẩm y tế và an toàn tiêm chủng
[1].

1.2. Dịch bệnh
Bệnh là tình trạng bất thường, ảnh hưởng xấu đến cấu trúc hoặc chức năng của một
phần hoặc toàn bộ cơ thể con người, nhưng không do chấn thương nào từ bên ngoài
gây ra [5]. Một căn bệnh có thể do các yếu tố bên ngoài như tác nhân gây bệnh hoặc
rối loạn chức năng nội bộ gây ra [5]. Ví dụ, rối loạn chức năng nội bộ của hệ thống
miễn dịch có thể tạo ra nhiều bệnh khác nhau, bao gồm các dạng suy giảm miễn dịch,
mẫn cảm, dị ứng và rối loạn tự miễn dịch.
Trên cơ thể người, khái niệm bệnh được sử dụng để chỉ tình trạng gây đau đớn, rối
loạn chức năng, sang chấn tâm lý hoặc tử vong của người bị bệnh, hoặc các vấn đề
tương tự đối với những người tiếp xúc với người bệnh đó [5]. Theo nghĩa rộng hơn,
đôi khi nó bao gồm những thương tích, khuyết tật, rối loạn, hội chứng, nhiễm trùng,
triệu chứng bị cô lập, hành vi sai lệch (không làm chủ được hành vi) và các biến thể
không điển hình của cấu trúc và chức năng trên cơ thể. Có bốn loại bệnh chính: bệnh
truyền nhiễm, bệnh thiếu hụt vi chất, bệnh di truyền và bệnh sinh lý [5]. Bệnh cũng có
thể được phân loại theo những cách khác, chẳng hạn như các bệnh truyền nhiễm và
không lây nhiễm [5].
Dịch bệnh là bệnh được lan truyền nhanh chóng và ảnh hưởng đến số lượng lớn
người trong vòng một thời gian rất ngắn [5]. Khi có dịch bệnh xuất hiện các cơ quan
kiểm soát dịch bệnh thực hiện các biện pháp nghiệm vụ trong thẩm quyền quản lý để
khoang vùng, khống chế dịch. Ví dụ, với bệnh sởi khi số lượng mắc lớn hơn 15 trường
hợp trên 100.000 người trong thời gian hai tuần liên tiếp có thể đưa ra cảnh báo dịch
bệnh truyền nhiễm.
Trong những năm gần đây, chúng ta phải đối mặt với tình hình dịch bệnh hoành
hành, bùng phát nhanh chóng và diễn biến phức tạp, đặc biệt là các dịch bệnh nguy
hiểm, Ebola, MERS-CoV liên tục gia tăng, dịch bệnh cúm A(H5N1), A(H7N9)... chưa
khống chế được triệt để; bệnh do vi rút Zika lây truyền mạnh mẽ. Nhiều bệnh truyền
nhiễm trước đây đã bị khống chế, nhưng gần đây bùng phát và gia tăng trở lại như: tay
chân miệng, sốt xuất huyết, bại liệt, sởi... Chỉ tính riêng năm 2017, trên thế giới tình
hình dịch bệnh diễn biến phức tạp, xuất hiện nhiều dịch bệnh mới; số ca mắc cúm
3



A(H7N9) liên tục xuất hiện tại Trung Quốc, MERS-CoV bùng phát tại Trung Đông.
Có thể thấy, dịch bệnh ngày càng diễn biến phức tạp về phạm vi và chủng loại. Thực
tế đó, đòi hỏi công tác y tế dự phòng cần phải được đẩy mạnh, nâng cao nhằm khoanh
vùng và hạn chế sự lây lan của dịch bệnh. Công tác giám sát dịch bệnh lây nhiễm,
phân tích và dự báo phục vụ ra quyết định ngày càng trở nên quan trọng và cần được
đẩy mạnh.
1.3. Dự báo dịch bệnh trong lĩnh vực y tế dự phòng
Hoạt động dự báo hỗ trợ các cơ quan, tổ chức đưa ra những thông tin nhận định
cho tương lai trên cơ sở các thông tin đã có trong quá khứ và hiện tại. Lĩnh vực y tế dự
phòng là một mảng lớn cho các hoạt động dự báo, với nhiều cấp độ khác nhau từ phạm
vi một địa phương, quốc gia và toàn cầu. Vì vậy, hoạt động dự báo tình hình diễn biến
dịch bệnh trong lĩnh vực y tế dự phòng luôn nhận được sự quan tâm từ các nhà nghiên
cứu. Thông qua hoạt động dự báo, nhận định trước xu hướng diễn biến của dịch bệnh,
giúp các cơ quan chức năng chủ động triển khai các biện pháp ngăn chặn sự bùng phát
và lây lan của dịch bệnh. Hoạt động nghiên cứu dự báo tình hình dịch bệnh truyền
nhiễm thời gian qua đã góp phần quan trọng giúp các nhà quản lý và hoạch định chính
sách trong công tác lập kế hoạch và định hướng chính sách y tế.
Cùng với sự phát triển của khoa học, đã có nhiều phương pháp và kỹ thuật mới
được ứng dụng trong hoạt động dự báo. Dự báo dựa vào các kỹ thuật khai phá dữ liệu
đang được ứng dụng rộng rãi. Từ thực tế, các hoạt động nghiên cứu trên thực địa
thường gặp những hạn chế về nguồn lực và thời gian, thì việc ứng dụng khai phá dữ
liệu trong dự báo dịch bệnh, góp phần giải quyết bài toán dự báo dịch bệnh với chi phí
thấp. Ở Việt Nam, ứng dụng các phương pháp và kỹ thuật khai phá dữ liệu trong dự
báo dịch bệnh vẫn chưa được triển khai nhiều với số ít các nhà nghiên cứu, trong khi
nhu cầu dự báo phục vụ xây dựng các chương trình, hoạt động, chính sách y tế ngày
càng tăng.
Do điều kiện tự nhiên như biến đổi khí hậu, môi trường, nhiều bệnh dịch truyền
nhiễm trước đây đã được đầy lùi, nay lại bùng phát mạnh mẽ với nhiều biến thể và

chủng loại mới, đặc biệt tại các vùng có điều kiện khí hậu khắc nghiệt. Bên cạnh việc
nghiên cứu để tìm ra nguyên nhân và yếu tố gây nên sự bùng phát của dịch bệnh, cần
phải ứng dụng các kỹ thuật dự báo khác nhau để xây dựng mô hình dự báo dịch bệnh,
dựa trên tác động của các yếu tố điều kiện tự nhiên, khí hậu, môi trường..., nhằm đưa
ra cảnh báo sớm diễn biến dịch bệnh trong tương lại, chủ động triển khai các công tác
nghiệp vụ, qua đó giúp giảm thiểu nguy cơ và thiệt hại của dịch bệnh đến con người.
Trong những năm gần đây, cùng với sự phát triển bùng nổ của Internet làm gia tăng
các nguồn dữ liệu, trong đó có dữ liệu dịch bệnh, khí hậu, thời tiết,… được thu thập
thường xuyên từ khắp nơi trên thế giới, đó là một điều kiện lý tưởng cho công tác dự
báo, bên cạnh đó sự phát triển của các phương pháp và kỹ thuật dự báo đem lại cơ hội
mới cho sự bùng nổ hoạt động phân tích và dự báo dịch bệnh trong lĩnh vực y tế.
4


1.4. Thực trạng nghiên cứu dự báo trong y tế dự phòng
Đến nay, có nhiều mô hình dự báo dịch bệnh được xây dựng và ứng dụng trong
lĩnh vực y tế. Ví dụ, mô hình toán học của bệnh sốt rét được bắt đầu nghiên cứu năm
1911 với mô hình của Ross và được cải tiến bởi Macdonald năm 1957. Gần đây, có rất
nhiều mô hình nghiên cứu bệnh sốt rét như: mô hình dịch tễ toán học SIR (Susceptible
– Infected – Recovered) và SIS (Susceptible – Infected - Susceptible) với tư tưởng
chính là xây dựng mô hình dự báo sự lan truyền của bệnh thông qua số người và số
muỗi bị nhiễm bệnh. Qua tham khảo, nhận thấy các phương pháp dự báo dịch bệnh
ban đầu đều dựa trên mô hình lan truyền dịch bệnh, điển hình cho tư tưởng này là mô
hình SIR. Ý tưởng của mô hình này là phân tách tổng số người trong một khu vực bị
nhiễm bệnh thành 3 lớp, trong đó:
- Lớp dễ bị bệnh S: Những người trong lớp này chưa hề mắc bệnh và có nguy cơ
bị nhiễm bệnh.
- Lớp nhiễm bệnh I: Những người trong lớp này đã mắc bệnh và có khả năng
truyền bệnh sang người khác.
- Lớp hết bệnh R: Những người trong lớp này đã được trị khỏi bệnh hoặc đã chết vì

bệnh.
Với mô hình SIR này, kết quả dự báo sẽ chính xác khi bệnh dịch xảy ra trong
khoảng thời gian ngắn để lượng dân số trong khu vực luôn ổn định, tính cả người đã
chết vì bệnh dịch này vào tổng số dân; chu kỳ ủ bệnh không đáng kể; tập mẫu dân số
đủ lớn để có kết quả xấp xỉ đúng. Mức độ lan truyền dịch bệnh được xác định như sau:
𝑇

𝛼

𝑆 + 𝐼 → 2𝐼 và 𝐼 → 𝑅

(1.1)

Trong đó:
𝑇

𝑆 + 𝐼 → 2𝐼: Ở vế trái, người trong lớp S bị người trong lớp I lây bệnh với tốc
độ r > 0, khiến người đó chuyển sang lớp I, thu được vế phải là 𝐼 + 𝐼 = 2𝐼.
𝛼

𝐼 → 𝑅: Người trong lớp I sau một thời gian sẽ hết bệnh (hoặc chết vì bệnh) và
chuyển sang lớp R với tốc độ 𝑎 > 0.
Mỗi lớp trong mô hình SIR là một hàm số theo thời gian t gồm 𝑆(𝑡 ), 𝐼(𝑡) và 𝑅(𝑡).
Lớp nhiễm bệnh có tốc độ tỉ lệ thuận với số lượng người nhiễm bệnh và người dễ
bệnh, tức rSI, với 𝑟 > 0 là tham số hằng, đó cũng là tốc độ mất đi số người trong lớp
dễ bệnh. Tốc độ hết bệnh của người nhiễm bệnh tỉ lệ thuận với số lượng người nhiễm
bệnh, tức aI, với 𝑎 > 0 là hằng số, 1/𝑎 là độ đo thời gian một người ở trong trạng thái
nhiễm bệnh. Chu kỳ ủ bệnh ngắn, tức người dễ bệnh khi tiếp xúc với mầm bệnh sẽ
nhiễm bệnh ngay. Dựa trên các giá trị đầu vào, xác định được các tham số trong trong
phương trình này. Mô hình kết quả được dùng để dự báo 𝑆(𝑡 ), 𝐼(𝑡) và 𝑅 (𝑡 ) với t là

thời gian tương lai. Mô hình dịch tễ học toán học có thể áp dụng thành công và cho kết
5


quả lý tưởng trên những hệ thống không quá phức tạp.
Trong thời gian gần đây, kỹ thuật và mô hình phân tích chuỗi thời gian (timeseries) được sử dụng rộng rãi, nghiên cứu dự báo trong các lĩnh vực khác nhau và dự
báo diễn biến dịch bệnh trong tương lai. Việc sử dụng mô hình phân tích chuỗi thời
gian, khắc phục được các nhược điểm của mô hình hồi quy luận lý (logistic), hồi quy
đa biến, do không thể xem xét tính tự tương quan của những dữ liệu mang tính chuỗi
thời gian, làm hạn chế khả năng dự đoán. Nhằm cải thiện độ chính xác trong thiết lập
mô hình cảnh báo dịch bệnh, một số nhà nghiên cứu đã tiến hành kết hợp kỹ thuật
phân tích chuỗi thời gian và các mô hình dự báo, nhằm xác định ảnh hưởng của điều
kiện địa lý, thời gian,… tới số ca mắc một bệnh nào đó. Từ các phân tích nêu trên, luận
văn thực hiện nghiên cứu kết hợp mô hình ARIMA và với các kỹ thuật phân tích chuỗi
thời gian để thiết lập mô hình dự báo thống nhất. Các kỹ thuật khai phá dữ liệu được
đề cập chi tiết tại Chương 2, nhằm đưa ra phân tích và lựa chọn kỹ thuật khai phá dữ
liệu phù hợp với chuỗi dữ liệu thời gian.
1.5. Mục tiêu nghiên cứu
Từ các phân tích ở trên luận văn này tập trung nghiên cứu hệ thống hóa các kỹ
thuật khai phá dữ liệu, lựa chọn các phương pháp phù hợp nhằm xây dựng mô hình
giải quyết bài toán phân tích và dự báo dự báo dịch bệnh truyền nhiễm. Mô hình nhận
đầu vào là tập dữ liệu về tình hình dịch bệnh trong quá khứ, và có đầu ra là mô hình dự
báo diễn biến dịch bệnh trong tương lai, qua đó giúp nhận định chu kỳ, xu hướng diễn
biến của dịch bệnh.
Từ mục tiêu trên, luận văn tập trung nghiên cứu các vấn đề sau:
- Nghiên cứu tổng quan các phương pháp và kỹ thuật khai phá dữ liệu, lựa chọn
phương pháp thích hợp với tập dữ liệu dịch bệnh truyền nhiễm;
- Tiến hành thực nghiệm phân tích, dự báo dịch cúm với các phương pháp khai phá
dữ liệu được lựa chọn trên tập dữ liệu dịch cúm được công bố;
- Xây dựng mô hình dự báo phù hợp và hiệu quả trong công tác dự báo dịch cúm

có khả năng ứng dụng cho tình hình thực tế ở Việt Nam.

Tóm tắt Chương 1
Chương 1 đã giới thiệu tổng quan các vấn đề của dịch bệnh truyền nhiễm, lịch sử
hình thành, phát triển của y tế dự phòng và thực trạng diễn biến dịch bệnh truyền
nhiễm hiện nay. Qua thực trạng đó, để thấy được tính cấp thiết trong việc ứng dụng
công nghệ thông tin trong phân tích, dự báo qua đó hỗ trợ công tác quản lý, định
hướng chính sách y tế để phòng ngừa và ngăn chặn diễn biến dịch bệnh. Bên cạnh đó,
cũng đề cập hiện trạng và phương pháp nghiên cứu ứng dụng phân tích, dự báo trong
lĩnh vực y tế đặc biệt là mảng y tế dự phòng.
6


Chương 2 của luận văn sẽ trình bày các phương pháp và công cụ phổ biến hiện nay
phục vụ khai thác dữ liệu, đề xuất lựa chọn một phương pháp phù hợp nhằm xử lý,
phân tích và dự báo tập dữ liệu về dịch bệnh cúm do Google Flu Trends cung cấp.

7


CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU
Với sự phát triển mạnh mẽ của Internet, dữ liệu được tạo ra ngày càng nhiều về số
lượng, khối lượng và phát triển mạnh về quy mô làm cho việc phân loại, lựa chọn, khai
thác, sử dụng gặp nhiều khó khăn.
Khai phá dữ liệu là một trong những thuật ngữ mới xuất hiện từ những năm 1990,
nó là hệ quả của sự bùng nổ Internet. Theo một công bố của Intel vào tháng 9/2013 cứ
11 giây trôi qua chúng ta có thêm 1 Petabybe dữ liệu, nó tương đương với một video
chất lượng HD dài 13 năm. Và để khai phá, trích xuất nó thì khai phá dữ liệu ra đời.
Về kỹ thuật của khai phá dữ liệu thì có thể có nhiều kỹ thuật được áp dụng và việc áp
dụng kỹ thuật khai phá dữ liệu nào còn tùy thuộc vào bài toán và dữ liệu cần khai phá.

2.1. Khai phá dữ liệu
2.1.1. Khái niệm
Khai phá dữ liệu là quá trình trích xuất thông tin bên trong bộ dữ liệu lớn để xác
định các mẫu và thiết lập các mối quan hệ để giải quyết các vấn đề thông qua phân tích
dữ liệu [6]. Công cụ khai thác dữ liệu cho phép chúng ta dự đoán xu hướng trong
tương lai dựa trên bộ dữ liệu đang có.
Bên cạnh cái tên khai phá dữ liệu người ta còn dùng một số tên gọi khác như: khai
phá tri thức từ cơ sở dữ liệu, phân tích dữ liệu, trích lọc dữ liệu,…. Khai phá dữ liệu
bao gồm 5 bước sau:

Hình 2.1. Các bước khai phá dữ liệu
Bước 1) Lựa chọn: tại bước này, những dữ liệu trực tiếp liên quan đến yêu cầu sẽ
được thu thập từ các tập dữ liệu gốc ban đầu.
Bước 2) Tiền xử lý: dữ liệu tại bước này được làm sạch (xử lý tập dữ liệu không
đầy đủ, dữ liệu có nhiễu, dữ liệu không nhất quán,…), kết quả của bước này ta sẽ có
một tập dữ liệu nhất quán, đầy đủ, được rút gọn.
Bước 3) Đổi dạng: chuyển dữ liệu về dạng phù hợp cho việc khai phá, dữ liệu sau
khi làm sạch tại bước tiền xử lý thậm chí không phải là đã sẵn sàng cho khai thác, khi
8


đó chúng ta cần phải biến đổi chúng thành các hình thức thích hợp.
Bước 4) Khai phá dữ liệu: đây là giai đoạn chính, trong đó các phương pháp phân
tích dữ liệu phù hợp sẽ được áp dụng để trích xuất ra các mẫu dữ liệu dựa vào các tập
dữ liệu ban đầu.
Bước 5) Trình diễn: sử dụng các kỹ thuật, công cụ để biểu diễn trực quan hoá dữ
liệu được khai phá cho người sử dụng.
2.1.2. Ưu điểm của khai phá dữ liệu với các phương pháp khác
2.1.2.1. Học máy (machine learning)
Phương pháp học máy đã có nhiều cải tiến để phù hợp hơn với khai phá dữ liệu,

tuy nhiên sự khác biệt giữa thiết kế, các đặc điểm của cơ sở dữ liệu làm cho học máy
trở nên không phù hợp, mặc dù hiện nay đa phần các phương pháp khai phá dữ liệu
vẫn dựa trên nền tảng của phương pháp học máy. Các phương pháp trong máy học cần
được phát triển để phù hợp với các yêu cầu và thách thức của khai phá dữ liệu. Đầu
tiên là tập dữ liệu có độ nhiễu cao, yêu cầu đặt ra cho một giải thuật đối với tập dữ liệu
bị nhiễu trở nên quan trọng hơn. Thứ hai là kích thước lớn của các tập dữ liệu cần xử
lý, các tập dữ liệu trong khai phá dữ liệu thường có kích thước lớn. Trong thực tế, kích
thước của các tập dữ liệu trong khai phá dữ liệu thường ở mức Tera-byte. Với kích
thước như thế, thời gian xử lý thường cực kỳ dài. Vì vậy, việc vận dụng các kỹ thuật
nhằm cải tiến các giải thuật để tạo ra các phiên bản phù hợp với những yêu cầu mới
của khai phá dữ liệu trở nên quan trọng.
Trong hệ quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp dữ liệu được liên
kết logic với nhau, lưu trữ dữ liệu trong một hay nhiều file và được tổ chức lưu trữ,
sửa đổi và truy xuất thông tin hiệu quả và dễ dàng. Trong học máy, thuật ngữ cơ sở dữ
liệu là nói tới một tập các mẫu dữ liệu được lưu trong một tệp. Một thuật toán sẽ sử
dụng tập dữ liệu và thông tin đi kèm tập dữ liệu đó làm đầu vào và kết quả đầu ra cho
việc học.
Với đặc điểm của cơ sở dữ liệu trong học máy được đề cập, có thể thấy học máy có
khả năng áp dụng trên tệp các bản ghi của cơ sở dữ liệu. Tuy nhiên, quá trình phát hiện
tri thức trong cơ sở dữ liệu (knowledge discovery in database – KDD) làm tăng thêm
các khó khăn vốn đã là điển hình trong học máy và vượt quá khả năng của học máy.
Trong thực tế, cơ sở dữ liệu thường động, không đầy đủ, bị nhiễu và lớn hơn nhiều so
với các tập dữ liệu học máy, điều này làm cho đa phần các thuật toán học máy hầu hết
không hiệu quả. Do vậy, trong khai phá dữ liệu cần tập trung xử lý những vấn đề này
trong cơ sở dữ liệu.
2.1.2.2. Phương pháp hệ chuyên gia
Các hệ chuyên gia sẽ nắm bắt các tri thức trong một bài toán cụ thể. Các kỹ thuật
thu thập giúp các chuyên gia trong việc khai thác tri thức, mỗi phương pháp là kỹ thuật
9



xây dựng các tập luật. Các ví dụ chuyên gia đưa ra có giá trị cao hơn nhiều so với dữ
liệu trong cơ sở dữ liệu. Hơn nữa, các chuyên gia sẽ xác nhận giá trị và sự hữu dụng
của các mẫu được phát hiện. Ở phương pháp này đòi hỏi có sự tham gia của con người
mà cụ thể là các chuyên gia với kinh nghiệm của mình trong việc phát hiện tri thức.
2.1.3. Những khó khăn trong khai phá dữ liệu
Khi khai phá dữ liệu gặp phải những thách thức sau đây:
- Cơ sở dữ liệu lớn: Kích thước của cơ sở dữ liệu được xác định thông qua số lượng
các mẫu tin, các thuộc tính (hay các biến) và các bảng, số lượng có thể là hàng trăm
thuộc tính và bảng, hàng triệu các mẫu tin. Như vậy, kích thước của cơ sở dữ liệu tính
bằng terabyte đã bắt đầu xuất hiện. Dữ liệu với số chiều cao (tương ứng với thuộc tính
khi biểu diễn qua không gian các mẫu dữ liệu) làm gia tăng kích thước không gian tìm
kiếm trong mô hình quy nạp. Khi xây dựng mô hình chỉ một tập con trong cơ sở dữ
liệu tham gia, do vậy trong các thuật toán khai phá là các mẫu dữ liệu tìm được đôi khi
không có giá trị đại diện chung cho toàn bộ cơ sở dữ liệu. Một giải pháp cho vấn đề
này là giảm bớt số chiều của bài toán và sử dụng tri thức trước (prior knowledge) để
nhận biết các biến ít liên quan.
- Vấn đề over-fitting: Khi thuật toán khai phá tìm kiếm với các tham số tốt nhất cho
một mô hình đặc biệt và một giới hạn của tập dữ liệu, mô hình ấy có thể over-fitting
trên tập dữ liệu ấy nhưng lại thi hành không chính xác trên tập dữ liệu được kiểm tra.
Một giải pháp thường được sử dụng là thẩm định chéo.
- Dữ liệu và tri thức được cập nhật, thay đổi: Dữ liệu thay đổi nhanh chóng theo
thời gian dẫn đến những mẫu dữ liệu đã được khai phá trước đây không còn giá trị.
Thêm vào đó, các biến đã được đo trong cơ sở dữ liệu bị thay đổi, bị xóa hoặc đã tăng
lên với một độ đo mới. Điều này có thể được thực hiện bằng cách gia tăng các phương
thức cập nhật mẫu và xem xét các thay đổi cho việc khám phá bằng việc sử dụng nó để
xử lý thích hợp việc tìm kiếm các mẫu chỉ với sự thay đổi.
- Dữ liệu thiếu và nhiễu: Đây là vấn đề rất được quan tâm trong khai phá dữ liệu,
việc dữ liệu thiếu và nhiễu thường dẫn đến việc dự đoán thiếu chính xác.
- Tích hợp với hệ thống: Hệ thống khai phá dữ liệu thực sự là hữu ích khi phải

được tích hợp với cơ sở dữ liệu thông qua các giao diện như truy vấn, bảng tính và các
công cụ trực quan khác. Hơn nữa, phải tạo ra một môi trường thuận lợi cho việc tương
tác với người dùng.
2.2. Các kỹ thuật khai phá dữ liệu
Các nhiệm vụ của khai phá dữ liệu gồm hai phần: dự đoán (predictive) được sử
dụng để dự đoán các giá trị tương lai của cùng hoặc một tính năng khác và mô tả
(descriptive) tìm các mô hình thú vị và dễ diễn giải của con người [6]. Trong nội dung
luận văn, học viên sẽ đề cập đến bốn kỹ thuật khai thác dữ liệu: Hồi quy (regression);
10


×