ghiên cứu một số phương pháp tìm các luật kết hợp phân lớp trên tập mẫu học và ứng dụng trong chẩn đoán bệnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 74 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THÔNG

PHẠM THANH TUẤN

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP
TÌM CÁC LUẬT KẾT HỢP PHÂN LỚP TRÊN TẬP MẪU HỌC
VÀ ỨNG DỤNG TRONG CHẨN ĐOÁN BỆNH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên, 2019

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THÔNG

PHẠM THANH TUẤN

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP
TÌM CÁC LUẬT KẾT HỢP PHÂN LỚP TRÊN TẬP MẪU HỌC
VÀ ỨNG DỤNG TRONG CHẨN ĐOÁN BỆNH

Chuyên ngành: Khoa học máy tính
Mã số: 8 48 01 01

Người hướng dẫn khoa học: TS. Lê Văn Phùng

Thái Nguyên, 2019
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự
hướng dẫn khoa học của TS. Lê Văn Phùng. Các số liệu và kết quả trình bày
trong luận văn là trung thực, chưa được công bố bởi bất kỳ tác giả này hay ở
bất kỳ công trình nào khác.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

ii
LỜI CẢM ƠN
Trong quá trình thực hiện đề tài “Nghiên cứu một số phương pháp tìm
các luật kết hợp phân lớp trên tập mẫu học và ứng dụng trong chẩn đoán bệnh”,
tôi đã nhận được rất nhiều sự giúp đỡ, tạo điều kiện của tập thể Ban Giám hiệu,
Phòng Đào tạo, khoa Công nghệ thông tin và các phòng chức năng của trường
Đại học Công nghệ thông tin và truyền thông, Đại học Thái Nguyên. Tôi xin
bày tỏ lòng cảm ơn chân thành về sự giúp đỡ quý báu đó.
Tôi xin được bày tỏ lòng biết ơn sâu sắc đến TS. Lê Văn Phùng là thầy

giáo trực tiếp hướng dẫn, chỉ bảo giúp tôi hoàn thành luận văn này.
TÁC GIẢ LUẬN VĂN

Phạm Thanh Tuấn

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

iii
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. i
LỜI CẢM ƠN ................................................................................................... ii
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT....................................... v
DANH MỤC BẢNG BIỂU ............................................................................. vi
DANH MỤC HÌNH VẼ .................................................................................. vii
MỞ ĐẦU ........................................................................................................ viii
CHƯƠNG 1. PHÂN LỚP VÀ PHƯƠNG PHÁP XÂY DỰNG CÂY
PHÂN LỚP THEO TẬP MẪU HỌC ............................................................ 1
1.1. Tổng quan về kỹ thuật khai phá dữ liệu ..................................................... 1
1.1.1. Khái niệm về khai phá dữ liệu ................................................................ 1
1.1.2. Một số phương pháp khai phá dữ liệu hiện đại và thông dụng............... 2
1.1.3. Các ứng dụng khai phá dữ liệu ............................................................... 3
1.2. Những vấn đề chung nhất về phân lớp và phương pháp phân lớp cơ bản . 7
1.2.1 Khái niệm phân lớp dữ liệu ...................................................................... 7
1.2.2. Các bước tiến hành phân lớp dữ liệu ...................................................... 7
1.2.3. Phân lớp theo cây quyết định .................................................................. 9
1.2.4. Phân lớp kiểu Bayes .............................................................................. 12
1.2.5. Phân lớp dựa trên các quy tắc IF-THEN............................................... 13

1.2.6. Phân lớp dựa trên luật kết hợp .............................................................. 16
1.2.7. Phân lớp dựa vào K-lân cận gần nhất ................................................... 18
1.2.8. Phân lớp dựa vào giải thuật di truyền ................................................... 19
1.2.9. Phân lớp theo cách tiếp cận tập thô....................................................... 20
1.2.10. Phân lớp theo cách tiếp cận tập mờ .................................................... 21
1.3. Khái niệm về tập mẫu học và phương pháp xây dựng cây phân lớp ....... 24
1.3.1. Định nghĩa tập mẫu học ........................................................................ 24
1.3.2. Xây dựng cây phân lớp dựa theo Khóa ................................................. 24

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

iv
1.3.3. Xây dựng cây phân lớp nhờ các luật kết hợp phân lớp (Class
Association Rules) trong bảng mẫu học ......................................................... 27
CHƯƠNG 2. MỘT SỐ PHƯƠNG PHÁP TÌM CÁC LUẬT KẾT HỢP
PHÂN LỚP TRÊN TẬP MẪU HỌC .......................................................... 29
2.1. Phương pháp phân lớp dựa trên luật kết hợp ........................................... 29
2.1.1. Các bước tiến hành phân lớp dựa trên luật kết hợp .............................. 29
2.1.2. Tạo luật kết hợp bằng cây quyết định ................................................... 29
2.2. Một số thuật toán cổ điển xây dựng cây phân lớp dựa trên luật kết hợp . 29
2.2.1. Thuật toán CBA-RG ............................................................................. 30
2.2.2. Thuật toán CBA-CB.............................................................................. 32
2.3. Thuật toán hiện đại ................................................................................... 34
2.3.1. Thuật toán CBA cải tiến........................................................................ 34
2.3.2. Ví dụ áp dụng thuật toán cải tiến .......................................................... 37
CHƯƠNG 3. CHƯƠNG TRÌNH THỬ NGHIỆM TÌM CÁC LUẬT KẾT
HỢP PHÂN LỚP DỰA TRÊN TẬP MẪU HỌC....................................... 42

3.1. Bài toán thử nghiệm ................................................................................. 42
3.1.1. Bài toán và tập mẫu học đầu vào .......................................................... 42
3.1.2. Chọn thuật toán thử nghiệm .................................................................. 46
3.2. Môi trường thử nghiệm ............................................................................ 47
3.2.1. Chọn môi trường chứa dữ liệu đầu vào ................................................ 47
3.2.2. Chọn ngôn ngữ lập trình ....................................................................... 47
3.3. Nội dung và kết quả thử nghiệm .............................................................. 47
3.3.1. Mô hình thuật toán thử nghiệm ............................................................. 47
3.3.3. Một số giao diện chính của chương trình thử nghiệm .......................... 50
3.4. Đánh giá chương trình thử nghiệm .......................................................... 51
3.5. Mở rộng bài toán ...................................................................................... 51
KẾT LUẬN .................................................................................................... 60
TÀI LIỆU THAM KHẢO ............................................................................ 62

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

v
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
1. DM – Data Mining.
2. CSDL – Cơ sở dữ liệu.
3. CBA - Classification-Based Associon
4. CMAR - Classification based on Multiple Asociation Rule

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

vi
DANH MỤC BẢNG BIỂU

Bảng 1.1.

Ví dụ về tập mẫu học…………………………………….….....15

Bảng 1.2.

Các bộ huấn luyện đã được phân lớp trong CSDL……….…....20

Bảng 1.3.

Ví dụ tập mẫu học được phân lớp dựa theo khóa…………...…33

Bảng 2.1.

Ví dụ tập mẫu học để tìm các luật kết hợp phân lớp theo thuật toán

cải tiến……………………………………………………...…………..47
Bảng 2.2.

Bảng tổng hợp………………………………………..………...49

Bảng 2.3a. Khoản mục…………………………………………..…….…...50
Bảng 2.3b. Các luật kết hợp phân lớp phổ biến 1 – Khoản mục……..….…50
Bảng 2.3c. Các luật kết hợp phân lwps 2 – Khoản mục………..……….…50
Bảng 3.1.

Tập mẫu học……………………………………………………55

Bảng 3.2.

Bảng mẫu học được số hóa…………………………………….56

Bảng 3.3.

Bảng tổng hợp kết quả thu được…………………………...…..59

Bảng 3.4.

Bảng mấu học (mở rộng) đầu vào……………………………...60

Bảng 3.5.

Bảng mẫu học mở rộng được số hóa………………………......64

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

vii
DANH MỤC HÌNH VẼ
Hình 1.1. Cây quyết định cho việc chơi Gold………….………………...….16
Hình 1.2. Một tập thô xấp xỉ tập các bộ của C khi dùng các tập xấp xỉ trên và
dước của C. Các vùng hình chũ nhật biểu diễn các lớp tương
đương………………………………………………………...………………27
Hình 1.3. Các giá trị mờ thật với thu nhập, biểu diễn mức thành viên các giá

trị thu nhập theo các loại {thấp, trung bình, cao}……………...................…28
Hình 1.4. Cây phân lớp xây dựng với 2 trường hợp…………………………34

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

viii
MỞ ĐẦU
1. Lý do chọn đề tài
Thế kỷ XXI được xem là một kỷ nguyên của công nghệ thông tin. Cùng
với việc ứng dụng công nghệ thông tin ở hầu hết các lĩnh vực trong nhiều năm
qua dẫn đến lượng dữ liệu, thông tin của nhân loại được lưu trữ ngày một tăng.
Nguồn dữ liệu khổng lồ ấy được tích lũy với tốc độ bùng nổ từ rất nhiều lĩnh
vực: khoa học, kinh doanh, giao dịch, thương mại, chứng khoán,… Vậy chúng
ta có thể khai thác được gì từ “núi” dữ liệu tưởng chừng như bỏ đi ấy.
Cùng với việc tăng không ngừng khối lượng dữ liệu, các hệ thống thông
tin cũng được chuyên môn hóa, phân hạch hóa theo các lĩnh vực như sản xuất,
tài chính, buôn bán thị trường .v.v, tuy nhiên các hệ quản trị cơ sở dữ liêu truyền
thống chỉ khai thác được một lượng thông tin nhỏ không còn đáp ứng đủ những
yêu câu, những thách thức mới. Do vậy một khuynh hướng mới được ra đời đó
là kỹ thuật phát hiện tri thức trong cơ sở dữ liệu. Khai phá dữ liệu (Data Mining
– DM) ra đời phần nào đó đã giải quyết hữu hiệu những yêu cầu, thách thức
đó.
Một trong những lĩnh vực nghiên cứu các phương pháp ứng dụng khai
phá dữ liệu, tìm kiếm tri thức, kết xuất tri thức… từ dữ liệu là tìm kiếm các
Luật kết hợp phân lớp (Class Association Rules) cũng được nghiên cứu từ nhiều
năm trước đây và đã có những kết quả khả quan và mang lại hướng ứng dụng
có hiệu quả cao. Ngày nay, kỹ thuật khai phá dữ liệu dựa trên việc tìm kiếm

các luật kết hợp phân lớp đã được áp dụng và mang lại hiệu quả cho nhiều
ngành, nhiều lĩnh vực như: Kinh tế, tài chính, khoa học - kỹ thuật, ngân hàng,
thương mại, giáo dục, y tế… các kỹ thuật khai phá dự liệu bằng Luật kết hợp
phân lớp rất đa dạng và phong phú như các kỹ thuật dựa trên các thuật toán
CBA-RG, CBA-CB,…
Với mong muốn nắm vững hơn các quá trình phát hiện tri thức từ dữ liệu
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

ix
sử dụng Luật kết hợp phân lớp nhằm phục vụ công tác nghiên cứu chuyên môn
cũng như mong muốn đưa các kỹ thuật khai phá dữ liệu sử dụng Luật kết hợp
phân lớp vào thực tế nên tôi lựa chọn thực hiện luận văn tốt nghiệp với đề tài
“Nghiên cứu một số phương pháp tìm các luật kết hợp phân lớp trên tập mẫu
học và ứng dụng trong chẩn đoán bệnh”. Mục đích thực hiện luận văn này là
tổng hợp các kiến thức về kỹ thuật khai phá dữ liệu bằng phương pháp tìm các
luật kết hợp phân lớp trên tập mẫu học.
2. Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu là những kỹ thuật phân lớp dựa trên luật kết hợp
Phạm vi nghiên cứu tập trung vào các thuật toán tìm kiếm Luật kết hợp
phân lớp cổ điển và hiện đại.
3. Hướng nghiên cứu của đề tài:
Nghiên cứu các kỹ thuật khai phá dữ liệu nói chung, trong đó chú trọng
việc tìm các luật kết hợp phân lớp trên tập mẫu học.
Nghiên cứu những bài toán ứng dụng phương pháp cải tiến tìm các luật
kết hợp phân lớp trên tập mẫu học.
4. Phương pháp nghiên cứu:
Kết hợp lý thuyết với đánh giá thực nghiệm.

Sưu tập và tổng hợp các kết quả nghiên cứu về khai phá dữ liệu, thuật
toán tìm các luật kết hợp phân lớp từ nguồn sách của các nhà xuát bản trong và
ngoài nước, các luận văn cao học, luận án tiến sĩ và các bài báo khoa học.
Phân tích bài toán ứng dụng và chọn lọc thuật toán thử nghiệm thích hợp
(dự kiến là áp dụng thuật toán cải tiến).
5. Ý nghĩa khoa học, thực tiễn của đề tài:
* Ý nghĩa khoa học
Đề tài đi sâu nghiên cứu một mảng kỹ thuật khai phá dữ liệu nhằm hỗ
trợ cho mục đích sử dụng khác nhau. Có mục đích tìm các nhân tố tích cực, có
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

x
mục đích tìm các lỗi lưu trữ trong tập dữ liệu, có mục đích tìm kiếm nhận dạng
tội phạm, gian lận tài chính hoặc cũng có thể làm dự báo, phân tích thị trường,....
Trong phạm vi ứng dụng rộng rãi như đã nêu ở trên, việc nghiên cứu các
thuật toán tìm các luật kết hợp phân lớp dựa trên tập mẫu học đã mang ý nghĩa
khoa học và thực tiễn rất lớn. Đề tài thực hiện với hy vọng sẽ đóng góp phần
khoa học nhất định trong việc tổng hợp, đánh giá một nhiệm vụ khai phá dữ
liệu quan trọng nhằm phát hiện những tri thức có ý nghĩa lớn, bảo đảm cơ sở
toán học trong chuyên ngành khoa học máy tính.
* Ý nghĩa thực tiễn
Góp phần chứng tỏ khả năng ứng dụng phong phú của khai phá dữ liệu,
áp dụng trực tiếp vào việc chuẩn đoán bệnh trong các bệnh viện.
Dựa trên việc nghiên cứu một số phương pháp tìm các luật phân lớp trên
tập mẫu học, đã làm rõ và phong phú thêm về thuật toán mới, thuật toán cải
tiến để ứng dụng vào thực tế.
Luận văn có thể được sử dụng làm tài liệu tham khảo cho các sinh viên

đại học, học viên ngành Công nghệ thông tin nghiên cứu về khai phá dữ liệu
bằng luật kết hợp phân lớp.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

1

CHƯƠNG 1.
PHÂN LỚP VÀ PHƯƠNG PHÁP XÂY DỰNG CÂY PHÂN LỚP THEO
TẬP MẪU HỌC
1.1. Tổng quan về kỹ thuật khai phá dữ liệu
Trong máy tính, thuật ngữ dữ liệu được xem như là các đặc tính được
biết đến mà có thể ghi lại và lưu trữ trên các thiết bị ghi nhớ của máy tính. Dữ
liệu là những mô tả về sự vật, con người và sự kiện trong thế giới thực.
Dữ liệu bao gồm số, ký tự, văn bản, hình ảnh, đồ họa, âm thanh, đoạn
phim,…. Có một số giá trị nào đó đối với người sử dụng và chúng được lưu
trữ, xử lý trong máy tính.
Ví dụ:
- Dữ liệu về khách: tên, địa chỉ, điện thoại, thẻ tín dụng...
- Dữ liệu về xe ô tô của khách: hãng xe, đời xe, năm sản xuất…
- Dữ liệu về nhật ký sử chữa: ngày phục vụ, tên thợ sửa chữa, số tiền
thanh toán…
Trong hoạt động kinh tế xã hội của con người, người ta thường chia ra
hai loại dữ liệu là loại dữ liệu phản ảnh cấu trúc nội bộ của cơ quan (nhân sự,
nhà xưởng, thiết bị,… dữ liệu ít biến động) và loại dữ liệu phản ánh hoạt động
của tổ chức (sản xuất, mua bán, giao dịch,…). Trong doanh nghiệp, không kể
con người và thiết bị, dữ liệu cùng với xử lý là hai thành phần cơ bản của hệ

thống: dữ liệu thường dùng để ghi nhận thực trạng.
1.1.1. Khái niệm về khai phá dữ liệu
Theo bách khoa toàn thư, khai phá dữ liệu (DM) là khâu chủ yếu trong
quá trình phát triển tri thức từ dữ liệu để trợ giúp cho việc làm quyết định trong
quản lý. DM sử dụng nhiều phương pháp của phân tích thống kê, của lý thuyết
nhận dạng, của các hệ học, các mạng nơ-ron nhân tạo… nhắm phát hiện các
mẫu hình tri thức trực tiếp từ các kho dữ liệu. DM và phát triển tri thức là những
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

2

hướng nghiên cứu mới trong tổ chức và khai thác các hệ thống thông tin và trợ
giúp quyết định.
Thuật ngữ DM do Fayyad Smyth và Piatestky-Shapiro đề xuất năm 1989.
Có rất nhiều định nghĩa khác nhau về DM đã được đưa ra. Theo định nghĩa đơn
giản nhất, DM là việc trích lọc tri thức từ một lượng lớn dữ liệu. Nó còn có một
số tên gọi khác như “trích lọc tri thức”, “phân tích dữ liệu/mẫu”, “khảo cổ dữ
liệu”. “nạo vét dữ liệu”,….
Giáo sư Tom Mitchell đã đưa ra định nghĩa về DM như sau: “DM là việc
sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những quyết
định trong tương lai”. Với cách tiếp cận thực tế hơn, tiến sĩ Fayyad đã phát biểu
: “DM thường được xem là việc khám phá tri thực trong các CSDL, là một quá
trình trích xuất những thông tin ẩn, trước đây chữ biết và có khả năng là hữu
ích dưới dạng các quy luật, ràng buộc, quy tắc trong CSDL”. Các nhà thống kê
thì xem “DM như một quá trình phân tích được thiết kế thăm dò và/hoặc các
mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thực hóa các
kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con

mới của dữ liệu”.
Nói chung, DM là cốt lõi của quá trình phát hiện tri thức. Nó gồm có các
giải thuật DM chuyên dùng, một số quy định về hiệu quả tính toán chấp nhận
được. DM nhằm tìm ra những mẫu mới, mẫu có tính chất không tầm thường,
những thông tin tiềm ẩn mang tính dự đoán chưa được biết đến và có khả năng
mang lại lợi ích. Nói gọn hơn, DM là việc tìm kiếm các kiến thức/các mẫu hấp
dẫn trong kho dữ liệu.
DM là hoạt động trọng tâm của quá trình phát hiện tri thức.
1.1.2. Một số phương pháp khai phá dữ liệu hiện đại và thông dụng
Với hai đích chính của khai thác dữ liệu là dự đoán (Prediction) và mô tả
(Description), người ta thường sử dụng các phương pháp sau cho khai phá dữ
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

3

liệu:
- Phân lớp (Classification)
- Hồi quy (Regression)
- Phân nhóm (Clustering)
- Tổng hợp (Summarization)
- Mô hình ràng buộc (Dependency modeling)
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)
- Biểu diễn mô hình (Model Representation)
- Kiểm định mô hình (Model Evaluation)
- Phương pháp tìm kiếm (Search Melthod)
1.1.3. Các ứng dụng khai phá dữ liệu
Khai phá dữ liệu (DM) được vận dụng trong nhiều lĩnh vực khác nhau

nhằm khai thác nguồn dữ liệu phong phú được lưu trữ trong các hệ thống thông
tin. Tùy theo bản chất của từng lĩnh vực, việc vận dụng Data mining có những
cách tiếp cận khác nhau.
DM được vận dụng có hiệu quả để giải quyết các bài toán phức tạp trong
những ngành đòi hỏi kĩ thuật cao như: tìm kiếm mỏ dầu từ ảnh viễn thám, xác
định vùng gãy trong ảnh địa chất để dự đoán thiên tai, cảnh báo hỏng hóc trong
các hệ thống sản xuất.
Phân nhóm và dự đoán là những công cụ rất cần thiết cho việc quy hoạch
và phát triển hệ thống quản lý và sản xuất trong thực tế như: dự đoán tái sử
dụng điện năng cho các công ty cung cấp điện, lưu lượng viễn thông cho các
công ty điện thoại, mức độ tiêu thụ sản phẩm cho các nhà sản xuất, giá trị của
sản phẩm trên thị trường cho các công ty tài chính hay phân nhóm khách hàng
tiềm năng.
Ngoài ra DM còn được áp dụng trong việc giải quyết các vấn đề xã hội
như: phát hiện tội phạm hay tăng cường an ninh xã hội và mang lại những hiệu
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

4

quả thiết thực cho các hoạt động trong đời sống hàng ngày. Việc ứng dụng DM
phân theo ngành phân bố trong khoảng 5 năm gần đây với tỷ lệ sau.
* Phân tích dữ liệu gen và sinh học y học
- Trong sinh học, DM dùng để tìm kiếm, so sánh các hệ gen và thông tin
di truyền, tìm mối liên hệ giữa các hệ gen và chuẩn đoán một số bệnh di truyền.
DM đã trở thành một công cụ mạnh và đóng góp thiết thực vào việc phân
tích gen theo các cách sau:
Nghiên cứu tương tự và so sánh các chuỗi gen: Một nghiên cứu quan

trọng trong phân tích gen là nghiên cứu tương tự là so sánh các chuỗi gen. các
chuỗi gen được cô lập từ các mô bệnh khỏe và có thể được so sánh với nhau để
nhận dạng những khác biệt giữa hai lớp gen.
Phân tích kết hợp: Nhận dạng các chuỗi gen cùng xảy ra, phân tích kết
hợp có thể được sử dụng giúp chúng ta xác định các loại gen thường kết hợp
với nhau để gây nên bệnh.
Phân tích hướng đi: Liên kết các gen ở các giai đoạn khác nhau của quá
trình phát triển bệnh, nếu một chuỗi hoạt động của các gen ở những giai đoạn
khác nhau của bệnh được xác định, thì có thể giúp chúng ta chế tạo ra các dược
phẩm can thiệp vào từng giai đoạn của bệnh. Do đó, có thể tạo được cách điều
trị bệnh hiệu quả hơn.
- Trong y học: DM giúp tìm ra mối liên hệ giữa các triệu chứng, chuẩn
đoán bệnh.
* Phân tích dữ liệu tài chính
Trên phương diện tài chính và thị trường chứng khoán, DM dùng để phân
tích tình hình tài chính phân tích đầu tư, phân tích cổ phiếu.
Dữ liệu tài chính nhận được tương đối hoàn chỉnh, đáng tin cậy và chất
lượng cao làm thuận lợi cho việc phân tích dữ liệu, DM một cách hệ thống. Các
ứng dụng của DM vào lĩnh vực tài chính như:
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

5

- Dự đoán trả tiền vay và phân tích chính sách tín dụng khách hàng: Dự
đoán trả tiền vay và phân tích chính sách tín dụng khách hàng là vấn đề quan
trọng đối với việc kinh doanh của ngân hàng. Có nhiều yếu tố (chẳng hạn: tỉ lệ
trả lên thu nhập, mức học vấn, vùng dân cư, lịch sử tín dụng,…) có thể ảnh

hưởng mạnh hoặc yếu đến việc thực hiện trả tiền vay và sự đánh giá mức độ tín
nhiệm khách hàng. Các phương pháp DM như lựa trọn đặc trưng, xếp hạng các
thuộc tính liên quan có thể giúp xác định các yếu tố quan trọng và loại bỏ những
yếu tố không liên quan. Do đó, ngân hàng có thể điều chỉnh chính sách cho vay
đối với những khách hàng mà trước đây ngân hàng đã từ chối nhưng nay tỉ lệ
mạo hiểm đối với họ là thấp dựa vào các phân tích trên.
- Phát hiện các tội phạm tài chính: để phát hiện việc chuyển tiền bất chính
vào ngân hàng và tội phạm tài chính, việc tích hợp thông tin từ các CSDL khác
nhau (CSDL giao dịch ngân hàng, CSDL về lịch sử tội phạm) là rất quan trọng.
Sau khi có dữ liệu tổng hợp chúng ta có thể dựa trên các công cụ của DM để
phát hiện ra mẫu khác thường.
* Dịch vụ bán lẻ
Trong thông tin thương mại: dùng để phân tích dữ liệu người dùng, phân
tích dữ liệu maketing, phân tích đầu tư, phát hiện gian lận.
Dịch vụ bán lẻ là một trong lĩnh vực của DM. Một lượng dữ liệu khổng
lồ đã và đang thu nhập ngày càng tăng, đặc biệt với sự gia tăng về sự tiện lợi,
lợi ích và tính phổ biến của việc kinh doanh trên web, thương mại điện tử. Dữ
liệu bán lẻ cung cấp một kho dữ liệu phong phú cho việc khai phá dữ liệu.
Khai phá dữ liệu bán lẻ có thể giúp chúng ta xác định hành vi mua hàng
của khách hàng, phát hiện những mẫu mua hàng của người dùng, những khuynh
hướng mua hàng.
Thiết kế các chiến dịch kinh doanh: giữ khách hàng – phân tích lòng
trung thành của khách hàng: lòng trung thành của khách hàng và khuynh hướng
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

6

mua hàng có thể được phân tích một cách hệ thống.
* Công nghiệp viễn thông
Trong thông tin kĩ thuật: DM dùng để phân tích các sai hỏng, điều khiển
và lập lịch trình.
Công nghiệp viễn thông đã phát triển nhanh từ các dịch vụ điện thoại cục
bộ và điện thoại đường dài cho đến các dịch vụ truyền thông khác như Voice,
FAX, Image, E-mail, truyền dữ liệu web, các giao lộ dữ liệu khác, tích hợp viễn
thông, mạng máy tính, internet, các phương tiện truyền thông khác đã và đang
thực hiện. Điều này tạo ra một yêu cầu lớn về DM để giúp hiểu thêm việc kinh
doanh, xác định các mẫu viễn thông, chặn đứng các hoạt động lừa dối tạo nhằm
điều kiện sử dụng các tài nguyên tốt hơn và nâng cao được chất lượng dịch vụ.
Về phân tích nhu cầu: dữ liệu viễn thông là các dữ liệu đa chiều đích
thực, với các chiều như: giờ gọi, thời gian gọi, vị trí người gọi, vị trí người được
gọi, kiểu cuộc gọi. Phân tích đa chiều với các dữ liệu kiểu này có thể giúp xác
định nhu cầu và hành vi của các nhóm người dùng từng vùng,… Từ đó cung
cấp các dịch vụ, thiết bị phù hợp hơn.
Về phân tích các mẫu gian lân và xác định các mẫu khác thường: Việc
xác định những người dùng gian lận tiềm năng và những mẫu sử dụng không
điển hình là rất quan trọng. Những mẫu này có thể được khám phá bởi phân
tích đa chiều, phân tích cụm, phân tích phần tử ngoài cuộc.
* Công nghiệp viễn thông
Khai phá dữ liệu được sử dụng rất nhiều để phân tích dữ liệu, hỗ trợ ra
quyết định.
* Khai thác dữ liệu Web
Các trang web nổi tiếng trên thế giới đã làm dịch vụ tìm kiếm cho đông
đảo khách hàng nhờ việc liên kết và sưu tập một khối lượng dữ liệu khổng lồ
như Google, Alexa Internet archive, IBM webfountain, Internet Archive,….
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

7

1.2. Những vấn đề chung nhất về phân lớp và phương pháp phân lớp cơ
bản
1.2.1 Khái niệm phân lớp dữ liệu
- Khái niệm
Phân lớp dữ liệu là một quy trình để tìm ra một tập các mô hình để mô
tả và phân lớp các lớp dữ liệu hoặc khái niệm nhằm mục đích phân loại dữ liệu
hoặc dự đoán lớp của những đối tượng chưa biết.
Việc đưa ra những mô hình phân lớp được dựa trên việc phân tích một
tập mẫu học (Training Data), tức là các đối tượng dữ liệu đã biết trước lớp của
chúng. Trên cơ sở đó rút ra các luật phân lớp. Các luật này sẽ được áp dụng cho
tập dữ liệu có cùng cấu trúc như tập mẫu học.
Chúng ta cũng phân biệt kỹ thuật phân lớp (Data classification) với kỹ
thuật phân cụm dữ liệu (Data Clustering).
Phân cụm dữ liệu (Data Clustering) nhằm mục đích nhóm các đối tượng
trong tập dữ liệu thành các nhóm (hoặc lớp) sao cho các đối tượng trong một
nhóm thì giống nhau về những tiêu thức nào đó và chúng sẽ khác với các đối
tượng trong nhóm khác.
Phân lớp dữ liệu (Data Classification) được dựa trên việc phân tích một
mẫu học đã biết trước nhãn của lớp.
Phân cụm dữ liệu không dựa trên tập mẫu học đã biết mà sử dụng các
phương pháp, mô hình khác nhau và các tiêu thức phân loại để tiến hành phân
nhóm tập dữ liệu. Có nhiều phương pháp được sử dụng cho kỹ thuật phân cụm,
ví dụ: phân cụm dựa trên khoảng cách (Distance – Base Clustering), hoặc phân
cụm dựa trên ràng buộc (Constrain - Base Clustering)…
1.2.2. Các bước tiến hành phân lớp dữ liệu
Quá trình phân lớp dữ liệu có thể được chia làm các bước như sau:

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

8

* Bước 1 – Thu thập và tiền xử lý: thu thập tạo bảng mẫu học và xử lý
trước khi đưa vào xây dựng mô hình.
Tập mẫu học là một bảng quan hệ dạng chuẩn, trong đó có một cột là thuộc
tính ghi lại giá trị phân lớp (class-attributes), và các cột khác ghi lại các giá trị
dựa vào đó để phân lớp (non-class attributes).
Tập mẫu học được thu thập hoặc rút ra từ tập dữ liệu thực tế.
Các nội dung tiền xử lý bao gồm:
- Làm sạch dữ liệu (Data cleaning): loại bỏ những tạp nhiễu ảnh hưởng
đến mô hình (có thể dùng các kỹ thuật làm sạch khác nhau)
- Phân tích mức thích hợp của thuộc tính: loại bỏ ra khỏi tập mẫu những
thuộc tính không cần thiết (ví dụ như thuộc tính ngày trong tuần đối với những
ứng dụng không liên quan)
- Chuẩn hóa dữ liệu: nhằm loại bỏ dự bị thường dữ liệu hoặc loại bỏ sự
thừa dữ liệu.
- Chuyển hóa dữ liệu (data transformation): dữ liệu có thể được xử lý tới
mức khái niệm ở mức cao hơn. Ví dụ giá trị thuộc tính thu nhập có được chuyển
về các giá trị cao, thấp, trung bình.
* Bước 2 – Học (Learning): Tập mẫu học được phân tích bằng một
thuật toán phân lớp nó tạo ra một mô hình bao gồm các luật phân lớp.
Trong bước này có thể sử dụng nhiều phương pháp và thuật toán khác
nhau để xây dựng mô hình.
* Bước 3 – Phân lớp: Mô hình được sử dụng cho việc phân lớp. Đầu
tiên cần phải đánh giá độ chính xác của mô hình (bằng một số phương pháp

khác nhau). Nếu độ chính xác của mô hình chấp nhận được thì mô hình sẽ được
sử dụng cho việc phân lớp các đối tượng dữ liệu khác mà chưa biết lớp của
chúng.
- Đánh giá phương pháp phân lớp
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

9

Các phương pháp phân lớp có thể được đánh giá theo các tiêu chuẩn sau:
a) Độ chính xác của dự đoán: liên quan đến khả năng dự đoán đúng nhãn
của lớp đối với các đối tượng mới.
b) Tốc độ: liên quan đến các chi phí thời gian, bộ nhớ dùng để sử dụng
mô hình.
c) Phạm vi: liên quan đến việc sử dụng mô hình cho những tập dữ liệu
lớn.
d) Độ dễ hiểu (interpretability): liên quan đến mức độ dễ hiểu của mô hình.
1.2.3. Phân lớp theo cây quyết định
- Mô tả phương pháp
- Đầu vào của quy trình xây dựng cây quyết định phân lớp là một tập
mẫu học (training examples) là một bảng quan hệ dạng chuẩn, gồm có các thuộc
tính C1, C2, C3.... trong đó C1, C2, C3 là các thuộc tính không phân lớp (nonclass), có thể là các kiểu nhị phân (binary), định danh (nomimal), hoặc liên tục
(số nguyên hoặc thực). C là thuộc tính phân lớp (lớp) (ví dụ có thể nhận các giá
trị yes, no hoặc true, false). Các phần tử của tập mẫu học này được phân thành
các lớp tùy thuộc vào giá trị có thể của thuộc tính C.
Cây quyết định phân lớp (gọi tắt là cây quyết định) bao gồm các nút, và
các đường nối giữa các nút biểu diễn quá trình kiểm tra phân lớp theo tập mẫu
học.

Cây phân lớp được dùng để phân loại một tập các phần tử trong một bảng
quan hệ hoặc dùng để dự báo phân lớp đối với một mẫu (example) chưa biết.
Ví dụ: ta có số liệu quan sát về thời tiết cho việc chơi gofl. Tập các mẫu
học T được cho ở bảng dưới đây.
- Thuộc tính phân lớp: PLAY
- Các thuộc tính không phân lớp: OUTLOOK, TEMPERATURE,
HUMIDITY, WINDY.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

10

Bảng 1.1 Ví dụ về tập mẫu học
OUTLOOK

TEMPERATURE HUMIDITY

WINDY

PLAY

overcast

83

78

FALSE

play

overcast

64

65

TRUE

play

overcast

72

90

TRUE

play

overcast

81

75

FALSE

play

rain

70

96

FALSE

play

rain

68

80

FALSE

play

rain

65

70

TRUE

Don’t play

rain

75

80

FALSE

play

rain

71

80

TRUE

Don’t play

sunny

85

85

FALSE

Don’t play

sunny

80

90

TRUE

Don’t play

sunny

72

95

FALSE

Don’t play

sunny

69

70

FALSE

play

sunny

75

70

TRUE

play

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

11

Ta có một cây phân lớp cho việc chơi gofl như trong hình 1.1.
outlook
rain

overca
sunn
y
Humidity

Play

<=

Windy
true

fals

Don’t
play

Play

>7
Play

Don’t
play

Hình 1.1. Cây quyết cho việc chơi gofl
Hình 1.1. Cây quyết định cho việc chơi gofl [13]
Để phân loại cho một mẫu (một phần tử/bản ghi/dòng của bảng dữ liệu)
khi sử dụng cây quyết định, mẫu đó sẽ được di chuyển xuống từ gốc cây tới
một lá nào đó. Tại mỗi nút quyết định, người ta sẽ kiểm tra các giá trị thuộc
tính của mẫu, và mẫu sẽ được đi tiếp theo nhánh ứng với đầu ra kết quả của
pháp kiểm tra. Khi mẫu di chuyển tới một nút lá nó sẽ được phân lớp theo nhãn
của lá.
Có nhiều thuật toán để xây dựng cây quyết định phân lớp. Người ta sẽ
xây dựng cây Quyết định bằng cách chia đệ quy một tập hợp mẫu học (training
set) thành các tập con bằng các phép kiểm tra để phân chia. Một hướng tiếp cận
từ trên xuống dưới, chia để trị được mô tả như sau:

- Nếu tiêu chuẩn kết thúc thỏa mãn, nó sẽ trả về một cây là một lá được
gán nhãn là lớp phổ biến trong các mẫu học tại nút hiện tại.
- Nếu không nó sẽ xây dựng một cây như một nút quyết định bằng việc
tìm một phép kiểm tra mà dựa trên nó một thuộc tính sẽ được coi là tốt nhất
cho việc chia tập mẫu học thành các tập con mà mỗi tập sẽ tương ứng với một
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

12

đầu ta có thể của phép kiểm tra. Đối với mỗi tập con này lại được xây dựng một
cây con với việc sử dụng quy trình như trên.
1.2.4. Phân lớp kiểu Bayes
Các phân lớp kiểu Bayes thuộc loại thống kê. Chúng có thể dự đoán về
khả năng là thành viên của lớp, như xác suất mà một bộ nhận được thuộc về
một lớp nào đó. Cách phân lớp kiểu Bayes dựa trên lý thuyết của Bayes. Các
nghiên cứu khi so sánh các thuật toán phân lớp đã tìm ra một lớp Bayes đơn
giản nổi tiếng như bộ phân loại bình dị (naive) để so sánh trong thực hành với
cây quyết định và bộ phận loại mạng nơ-ron được chọn. Các bộ phận loại Bayes
cũng đạt đọ chính xác và tốc độ cao khi dùng cho CSDL lớn.
Các bộ phận phân loại bình dị thừa nhận rằng sự ảnh hưởng của một giá
trị thuộc tính vào một lớp đã cho là độc lập với các giá trị của các thuộc tính
khác. Giả thiết này được gọi là “độc lập theo điều kiện của lớp”. Nó được tạo
ra để đơn giản tính toán, theo nghĩa này, được gọi là “bình dị”. Các mạng Bayes
là các mô hình đồ họa, không như các bộ phận phân loại Bayes bình dị, cho
phép biểu diễn các phụ thuộc trong tập con các thuộc tính. Các mạng Bayes có
thể được sử dụng phân lớp.
Lý thuyết Bayes được đặt tên sau Thomas Bayes, một tu sỹ người Anh

lập dị, người sớm tìm hiểu lý thuyết quyết định và xác suất ở thế kỷ VIII. Cho
x là một bộ dữ liệu. Theo thuật ngữ Bayes, x được xem là “bằng chứng”. Thông
thường nó được mô tả bằng các bộ đo tạo trên một tập n thuộc tính. Cho H là
một số giả thiết, chẳng hạn như là bộ dữ liệu x thuộc về lớp C. Đối với các vấn
đề về phân lớp, chúng ta muốn xác định P(H/X), xác suất mà giả thiết H gán
cho “bằng chứng” hoặc bộ dữ liệu X thuộc vào lớp C, dựa vào đó chúng ta biết
về mô tả thuộc tính của X.
P(H/X) là xác suất của H điều kiện X. Ví dụ, giả sử bộ dữ liệu được hạn
chế trong phạm vi các khách hàng đã mô tả với các thuộc tính tuổi và thu nhập,
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

13

X là khách 35 tuổi có thu nhập 40.000$. Giả sử H là giả thiết khách hàng sẽ
mua một máy tính. Lúc đó P(H/X) là xác suất mà khách hàng X sẽ mua một
máy tính dựa trên việc chúng ta đã biết tuổi và thu nhập của khách hàng.
Trái lại, P(H) là tiền xác suất của H. Đối với ví dụ của chúng ta, đây là
xác suất mà một khách nào đã cho nào đó sẽ mua một máy tính, không quan
tâm đến tuổi và thu nhập hoặc một thông tin nào khác. Hậu xác suất P(H/X)
dựa trên nhiều thông tin hơn (ví dụ như thông tin về khách hàng) so với thông
tin tiền xác suất P(H). P(H/X) độc lập với X.
Tương tự, P(X/H) là hậu xác suất của X xác định điều kiện trên H. Đó là
xác suất mà khách hàng X có tuổi 35 thu nhập 40.000$ sẽ mua một máy tính.
P(X) là tiền xác suất của X. Trong ví dụ của chúng ta, đó là xác suất mà
một người trong tập khách hàng của chúng ta có tuổi 35 và thu nhập 40.000$.
Việc ước lượng xác suất này như thế nào? P(H), P(X/H) và P(X) có thể
được ước lượng từ dữ liệu đưa ra. Lý thuyết của Bayes là có ích. Nó cung cấp

một cách tính hậu xác suất P(H/X) từ P(X), P(X/H) và P(X):
X
P ( ) P(H)
𝐻
H
𝑃( ) =
𝑋
𝑃(𝑋)
1.2.5. Phân lớp dựa trên các quy tắc IF-THEN
Chúng ta nghiên cứu các cách phân loại dựa trên quy tắc ở nơi các mô
hình học được trình diễn bằng một tập quy tắc IF-THEN. Trước hết chúng ta
xem các quy tắc nào được dùng để phân loại. Sau đó chúng ta xét các cách có
thể phát sinh hoặc từ cây quyết định hoặc trực tiếp từ dữ liệu huấn luyện nhờ
việc sử dụng một thuật toán “phủ thường xuyên”.
Các quy tắc là một phương pháp tốt để trình diễn thông tin hoặc một
lượng tri thức. Một bộ phân loại dựa trên quy tắc sử dụng một tập các quy tắc
IF-THEN để phân loại. Một quy tắc IF-THEN là một biểu diễn dạng:
IF điều kiện THEN kết luận
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

ghiên cứu một số phương pháp tìm các luật kết hợp phân lớp trên tập mẫu học và ứng dụng trong chẩn đoán bệnh

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về