Tải bản đầy đủ (.pdf) (65 trang)

Phân loại đa nhãn, đa lớp dựa vào luật kết hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (617.66 KB, 65 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM


PHẠM XUÂN DŨNG

PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO
LUẬT KẾT HỢP



LUẬN VĂN THẠC SĨ

Chuyên ngành: Công nghệ Thông tin
Mã ngành: 60480201



CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS. TS. LÊ HOÀI BẮC

TP. HỒ CHÍ MINH, tháng 9 năm 2014





CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

Cán bộ hướng dẫn khoa học: PGS. TS. Lê Hoài Bắc
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)





Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 09 tháng 11 năm 2014

Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)
TT Họ và tên Chức danh Hội đồng
1 PGS. TSKH. Nguyễn Xuân Huy Chủ tịch
2 TS. Võ Đình Bảy Phản biện 1
3 TS. Lư Nhật Vinh Phản biện 2
4 TS. Vũ Thanh Hiền Ủy viên
5 TS. Lê Mạnh Hải Ủy viên, Thư ký
Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được sửa
chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV



TRƯỜNG ĐH CÔNG NGHỆ TP. HCM
PHÒNG QLKH – ĐTSĐH
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

TP. HCM, ngày 27 tháng 09 năm 2014

NHIỆM VỤ LUẬN VĂN THẠC SĨ


Họ tên học viên: Phạm Xuân Dũng Giới tính: Nam
Ngày, tháng, năm sinh: 22/10/1984 Nơi sinh: Phú Yên
Chuyên ngành: Công nghệ thông tin MSHV: 1241860002
I- Tên đề tài:
PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP
II- Nhiệm vụ và nội dung:
Nghiên cứu phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp.
Thực hiện thuật toán và xác định tính hiệu quả của phương pháp này, đồng thời so
sánh với các thuật toán khác.
III- Ngày giao nhiệm vụ: 02/04/2014
IV- Ngày hoàn thành nhiệm vụ: 27/09/2014
V- Cán bộ hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên)
PGS. TS. LÊ HOÀI BẮC

CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký) (Họ tên và chữ ký)



PGS. TS. LÊ HOÀI BẮC

i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ
công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn

gốc.
Học viên thực hiện Luận văn
(Ký và ghi rõ họ tên)



Phạm Xuân Dũng

ii

LỜI CẢM ƠN


Trước tiên tôi xin chân thành cảm ơn thầy giáo PGS.TS. Lê Hoài Bắc đã tận
tình hướng dẫn, chỉ bảo tôi trong thời gian qua.
Tôi xin bày tỏ lòng biết ơn tới các thầy cô giáo trong khoa Công nghệ Thông
tin nói riêng và trường Đại học Công nghệ Tp.HCM nói chung đã dạy bảo, cung cấp
những kiến thức quý báu cho tôi trong suốt quá trình học tập và nghiên cứu tại
trường.
Tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè, những người luôn cổ vũ,
quan tâm và giúp đỡ tôi trong suốt thời gian học tập cũng như làm luận văn.
Do thời gian và kiến thức có hạn nên luận văn chắc không tránh khỏi những
thiếu sót nhất định. Tôi rất mong nhận được những sự góp ý quý báu của thầy cô và
các bạn.
Hồ Chí Minh, 09-2014
Phạm Xuân Dũng

iii

TÓM TẮT


Sự phát triển của công nghệ thông tin kéo theo sự bùng nổ thông tin. Các kho
tài liệu ngày càng lớn và chứa nhiều tài liệu thuộc nhiều loại khác nhau. Rõ ràng
nhiệm vụ phân loại các tài liệu này theo từng chuyên mục là một việc hết sức cần
thiết. Từ đó mở ra khả năng phân loại các tài liệu mới vào các phân lớp đã biết.
Phân lớp và Tìm luật kết hợp là hai nhiệm vụ quan trọng trong khai thác dữ
liệu. Việc phân lớp nhằm mục đích dự đoán một cách chính xác nhất có thể có phân
lớp của một đối tượng chưa biết. Việc phân lớp và tìm luật kết hợp là tương tự nhau
ngoại trừ đối với phân lớp thì mục tiêu dự đoán chỉ là một thuộc tính phân lớp trong
khi luật kết hợp có khả năng suy diễn đối với một tập các thuộc tính khác nhau.
Đã có nhiều nghiên cứu giải quyết vấn đề phân lớp như phân lớp dựa vào cây
quyết định, phân lớp dựa vào mạng nơ ron, phân lớp dựa vào lý thuyết xác suất
Bayes, phân lớp dựa vào lý thuyết tập thô, phân lớp dựa vào luật kết hợp, phân lớp
dựa vào thống kê…
Hướng tiếp cận sử dụng luật kết hợp trong việc phân loại dữ liệu lần đầu tiên
được đưa ra vào năm 1998 và đã đạt được nhiều kết quả khả quan so với hướng tiếp
cận truyền thống sử dụng cây quyết định Quinlan. Đã có một số bộ phân lớp dựa
vào luật kết hợp khá chính xác như CBA, CMAR. Tuy nhiên, các bộ phân lớp này
chỉ gắn một thuộc tính phân lớp với mỗi luật kết hợp, vì thế các luật kết hợp này
thường không thích hợp cho việc phân loại đa lớp.
Luận văn sẽ tập trung vào việc nghiên cứu, phân tích và đánh giá thuật toán
phân loại đa nhãn, đa lớp dựa vào luật kết hợp (Multi-class Multi-label Associative
Classification – MMAC) để giải quyết vấn đề. Theo đó một đối tượng không chỉ
được gán nhãn phân lớp với một lớp duy nhất mà có khả năng được gán nhãn với
nhiều phân loại khác nhau, các nhãn này được sắp xếp theo một thứ tự nhất định.
Bên cạnh đó luận văn còn trình bày 3 đơn vị đo lường độ chính xác của việc phân
iv

loại dựa vào luật kết hợp nhằm đánh giá độ chính xác của MMAC so với các bộ
phân loại hiện có.

Một cách tiếp cận mới đối với phân loại đa nhãn, đa lớp đã được đề xuất có
nhiều đặc điểm khác biệt so với truyền thống và phương pháp phân loại dựa vào
luật kết hợp ở chỗ: (1) MMAC là một bộ phân loại đa nhãn, đa lớp, theo đó mỗi thể
hiện được gắn kết với một danh sách có thứ tự các nhãn phân loại. (2) Những hướng
tiếp cận phân loại dựa vào luật kết hợp truyền thống thường phải duyệt dữ liệu huấn
luyện nhiều lần để tìm các tập phổ biến trong khi đó MMAC chỉ cần duyệt dữ liệu
huấn luyện một lần. (3) MMAC đưa ra một kỹ thuật sắp thứ tự luật một cách chi tiết
nhằm giảm tối thiểu việc ngẫu nhiên chọn hai hay nhiều luật trong qui trình sắp thứ
tự luật. (4) MMAC đưa ra khái niệm học đệ qui nhằm rút trích nhiều luật hơn và
giảm tối thiểu vai trò của phân lớp mặc định (default class) khi phân lớp các đối
tượng kiểm tra.
Nghiên cứu thực hiện trên 16 bộ dữ liệu Weka đã cho thấy phương pháp
phân loại đa nhãn, đa lớp dựa vào luật kết hợp có hiệu quả, phù hợp và có tỷ lệ phân
loại cao hơn các phương pháp cây quyết định (PART), thuật toán CBA và RIPPER.
Định hướng trong tương lai sẽ dự kiến mở rộng phương pháp để xử lý dữ liệu liên
tục.
v

ABSTRACT

The development of information technology leads to the information
explosion. The increasingly large document repositories, and contains many
documents of different types. Clearly the task of document classification for each
category is an essential work. Since then opens the possibility of classifying new
documents classified in the know.
Classification and Finding association rules are two important tasks in data
mining. The classification for the purpose of accurately predicting possible
classification of an unknown object. The classification and to find association rules
are similar except for the target classification predicts only a subclass properties
while association rules are capable of inference for a different set of attributes.

There have been many studies to solve the problem as subclass classification
based on decision trees, classification based on neural networks, classification based
on Bayesian probability theory, classification based on rough set theory,
classification based on association rules, classification based on statistical
The approach uses association rules to classify data was first launched in
1998 and has achieved many positive results compared to the traditional approach
using decision trees Quinlan. There have been a number of classification based on
association rule fairly accurate as CBA, CMAR. However, the classification is only
an attribute associated with each classification association rules, hence the
association rules are usually not suitable for multi-class classification.
This thesis will focus on research, analysis and evaluation algorithm multi-
class multi-label classification based on association rules (Multi-Class, Multi-Label
Associative Classification - MMAC) to solve the problem. Accordingly, an object
not only labeled classification with a single class that is likely to be labeled with
many different classification, the labels are arranged in a certain order. Besides, the
thesis presents three units of measurement accuracy of the classification based on
vi

association rules in order to assess the accuracy of the MMAC compared with the
existing classification.
A new approach for multi-class multi-label classification has been proposed
many different characteristics compared to traditional classification methods based
on association rules in place: (1) MMAC is a multi-classifier multi-layer label, in
which each instance is associated with an ordered list of classification labels. (2)
The approach to classification based on association rules have traditionally
approved training data multiple times to find common set while browsing MMAC
just once training data. (3) MMAC gives a sort of technical detail rules to minimize
randomly select two or more law in law ordering process. (4) MMAC introduces the
concept of recursive learning to extract many more law and minimize the role of the
default classification (default class) when classifying test subjects.

Research carried out on 16 Weka data sets show that multi-class
classification method based on multi-label association rules is effective, consistent
and high classification rate than the decision tree method (PART), CBA and
RIPPER algorithm. Orientation future plans to expand the approach to handle
continuous data.

vii

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

TÓM TẮT iii

ABSTRACT v

MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG ix

DANH MỤC BẢNG x

DANH MỤC HÌNH xi

Chương 1:

TỔNG QUAN 1

1.1 Giới thiệu 1


1.2 Mục tiêu nghiên cứu 2

1.3 Đối tượng nghiên cứu 2

1.4 Phạm vi nghiên cứu 2

1.5 Bố cục luận văn 3

Chương 2:

CÁC NGHIÊN CỨU LIÊN QUAN 4

Chương 3:

PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP 9

3.1 Phân loại là gì? 9

3.2 Các vấn đề quan tâm của phân loại 11

3.3 Phân loại đa nhãn (Multi-label Classification) 12

3.4 Luật kết hợp 13

3.5 Một số định nghĩa 14

3.6 Phân loại dựa vào luật kết hợp 15

3.7 Phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp (MMAC) 18


3.8 Độ đo lượng giá 32

viii

3.9 Độ chính xác phân loại 34

3.10 Kết luận 36

Chương 4:

THỬ NGHIỆM, ĐÁNH GIÁ, HƯỚNG PHÁT TRIỂN 37

4.1 Thiết kế tổng thể 37

4.2 Chuẩn bị dữ liệu 37

4.3 Thiết kế chương trình 39

4.4 Kết quả thực nghiệm và đánh giá 39

4.5 Kết luận 46

Chương 5:

KẾT LUẬN 47

5.1 Ưu điểm 47

5.2 Nhược điểm 48


5.3 Hướng phát triển 48

TÀI LIỆU THAM KHẢO 49



ix

MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG
CAR Class Association Rule
MMAC Multi-class Multi-label Associative Classification


x

DANH MỤC BẢNG
Bảng 3.1: Tập dữ liệu huấn luyện ví dụ 23

Bảng 3.2: Tập phổ biến có một phần tử 24

Bảng 3.3: Tập phổ biến có hai phần tử 25

Bảng 3.4: Tập phổ biến có ba phần tử 26

Bảng 3.5: Các luật phân loại sau khi phân rã các tập phổ biến 26

Bảng 3.6: Các luật phân loại sau khi sắp xếp theo độ Confidence, Support, và loại
bỏ luật thừa 27

Bảng 3.7: Tập dữ liệu huấn luyện mới 27


Bảng 3.8: Tập phổ biến một phần tử (quá trình học đệ qui) 28

Bảng 3.9: Tập phổ biến hai phần tử (quá trình học đệ qui) 28

Bảng 3.10: Tập phổ biến ba phần tử (quá trình học đệ qui) 29

Bảng 3.11: Các luật phân loại sau khi phân rã các tập phổ biến (quá trình học đệ
qui) 29

Bảng 3.12: Các luật phân loại sau khi sắp xếp theo độ Confidence, Support, và
loại bỏ luật thừa (quá trình học đệ qui) 30

Bảng 3.13: Tập dữ liệu huấn luyện mới (quá trình học đệ qui) 30

Bảng 3.14: Tập phổ biến một phần tử (quá trình học đệ qui) 30

Bảng 3.15: Tập phổ biến hai phần tử (quá trình học đệ qui) 31

Bảng 3.16: Tập phổ biến ba phần tử (quá trình học đệ qui) 31

Bảng 3.17: Các luật phân loại sau khi phân rã các tập phổ biến (quá trình học đệ
qui) 31

Bảng 3.18: Các luật phân loại sau khi sắp xếp theo độ Confidence, Support, và
loại bỏ luật thừa (quá trình học đệ qui) 31

Bảng 4.1: Dữ liệu huấn luyện 40

Bảng 4.2: Bộ phân loại CBA 41


Bảng 4.3: Bộ phân loại MMAC 41

Bảng 4.4: Độ chính xác phân loại của PART, RIPPER, CBA và MMAC 43

Bảng 4.5: Số bộ phân loại của các thuật toán PART, RIPPER, CBA và MMAC 45
xi

DANH MỤC HÌNH
Hình 2.1: Cây quyết định cho bộ dữ liệu thời tiết 6

Hình 3.1: Xử lý phân loại dữ liệu 9

Hình 3.2: Tìm Luật kết hợp 14

Hình 3.3: Phân lớp dựa vào luật kết hợp 18

Hình 3.4: Đánh giá độ chính xác phân loại 34

Hình 4.1: Thiết kế chương trình 39

Hình 4.2: Độ chính xác trung bình của các thuật toán PART, RIPPER, CBA và
MMAC dựa trên 16 bộ dữ liệu Weka khác nhau 44

Hình 4.3: Số lượng trung bình các bộ phân loại được xác định bằng các thuật toán
PART, RIPPER, CBA và MMAC 46


1


Chương 1: TỔNG QUAN
1.1 Giới thiệu
Trong quá trình hoạt động, con người tạo ra nhiều dữ liệu nghiệp vụ. Các tập
dữ liệu được tích lũy có kích thước ngày càng lớn và có thể chứa nhiều thông tin ẩn
dạng những quy luật chưa được khám phá. Chính vì vậy, một nhu cầu đặt ra là cần
tìm cách trích rút từ tập dữ liệu đó các luật về phân loại dữ liệu hay dự đoán những
xu hướng dữ liệu tương lai. Những quy tắc nghiệp vụ thông minh được tạo ra sẽ
phục vụ đắc lực cho các hoạt động thực tiễn, cũng như phục vụ đắc lực cho quá
trình nghiên cứu khoa học. Nhiệm vụ phân loại và dự đoán dữ liệu ra đời để đáp
ứng mong muốn đó.
Nhiệm vụ phân loại dữ liệu đã, đang và sẽ phát triển mạnh mẽ trước những
khao khát tri thức của con người. Trong những năm qua, phân loại dữ liệu đã thu
hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy
(machine learning), hệ chuyên gia (expert system), thống kê (statistics) Phân loại
cũng được ứng dụng trong nhiều lĩnh vực thực tế như: thương mại, nhà băng,
maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục
Một nhiệm vụ quan trọng trong khai thác dữ liệu là tìm ra tất cả các luật kết
hợp trong dữ liệu. Phân loại và tìm luật kết hợp là tương tự nhau, ngoại trừ
đối với phân loại thì mục tiêu dự đoán chỉ là một thuộc tính phân loại trong khi đó
luật kết hợp có khả năng suy diễn đối với một tập các thuộc tính khác nhau.
Đã có nhiều nghiên cứu giải quyết vấn đề phân loại như phân loại dựa vào
cây quyết định, phân loại dựa vào mạng nơ ron, phân loại dựa vào lý thuyết xác suất
Bayes, phân loại dựa vào lý thuyết tập thô, phân loại dựa vào luật kết hợp, phân loại
dựa vào thống kê…
Trong những năm gần đây, hướng tiếp cận sử dụng luật kết hợp trong việc
phân loại dữ liệu, gọi là phân loại kết hợp, đã được đề xuất và đã đạt được nhiều kết
2

quả khả quan so với hướng tiếp cận truyền thống sử dụng cây quyết định Quinlan.
Đã có một số bộ phân loại dựa vào luật kết hợp khá chính xác như CBA, CMAR.

Tuy nhiên, các bộ phân loại này chỉ gắn một thuộc tính phân loại với mỗi luật kết
hợp, vì thế các luật kết hợp này thường không thích hợp cho việc phân loại đa lớp.
1.2 Mục tiêu nghiên cứu
Luận văn sẽ tập trung vào việc nghiên cứu, phân tích và đánh giá thuật toán
phân loại đa nhãn, đa lớp dựa vào luật kết hợp (Multi-class Multi-label Associative
Classification – MMAC) để giải quyết vấn đề. Theo đó một đối tượng không chỉ
được gán nhãn phân loại với một lớp duy nhất mà có khả năng được gán nhãn với
nhiều phân loại khác nhau, các nhãn này được sắp xếp theo một thứ tự nhất định.
Bên cạnh đó luận văn còn trình bày 3 đơn vị đo lường độ chính xác của việc phân
loại dựa vào luật kết hợp nhằm đánh giá độ chính xác của MMAC so với các bộ
phân loại hiện có.
1.3 Đối tượng nghiên cứu
Đối tượng nghiên cứu là tập cơ sở dữ liệu Weka [16].
1.4 Phạm vi nghiên cứu
Luận văn sẽ tìm hiểu các phương pháp phân loại đa nhãn đa lớp. Từ đó tập
trung nghiên cứu phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp. Thực
hiện thuật toán và xác định tính hiệu quả của phương pháp này bằng việc đánh giá
độ chính xác của bộ phân loại, đồng thời so sánh với các kết quả của thuật toán
PART, RIPPER và CBA. Kết quả thực nghiệm cho thấy, độ chính xác và số lượng
bộ phân loại sử dụng phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp
được đề cập trong luận văn cho kết quả cao hơn so với các thuật toán phân loại đa
nhãn đa lớp khác, cải thiện nhiều khả năng dự đoán, đây đáng là một hướng nên
xem xét và phát triển trong tương lai.
3

1.5 Bố cục luận văn
Luận văn được bố cục như sau:
Chương 1: tổng quan về luận văn gồm các mục: giới thiệu, mục tiêu, đối
tượng và phạm vi nghiên cứu.
Chương 2: giới thiệu về các nghiên cứu liên quan trong và ngoài nước.

Chương 3: tập trung trình bày phương pháp phân loại đa nhãn, đa lớp dựa
vào luật kết hợp và 3 đơn vị đo lường độ chính xác của việc phân loại dựa vào luật
kết hợp nhằm đánh giá độ chính xác của MMAC so với các bộ phân loại hiện có.
Chương 4: trình bày một số kết quả đã đạt được khi tiến hành áp dụng
phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp trên bộ dữ liệu Weka.


4

Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN
Phân loại là một công việc quan trọng trong khai thác dữ liệu nhằm mục đích
dự đoán một cách chính xác nhất có thể có phân loại của một đối tượng chưa biết.
Trong khi phân loại đơn nhãn chỉ gắn một thuộc tính phân loại với một luật kết hợp
đã được nghiên cứu phổ biến [6], [14], [15], [18] và một vài nghiên cứu khác đã
thực hiện được phân loại đa nhãn. Hầu hết các nghiên cứu cho đến nay về phân loại
đa nhãn đều có liên quan đến phân loại văn bản [12], [13]. Có rất nhiều phương
pháp để xây dựng phân loại đơn lớp từ dữ liệu, chẳng hạn như chia để trị [7] và chia
tách để trị [4]. Hầu hết các kỹ thuật phân loại truyền thống có nguồn gốc từ các
phương pháp tiếp cận, chẳng hạn như cây quyết định [6], thống kê đã không thể giải
quyết vấn đề đa nhãn.
Một phương pháp phân loại đa nhãn được biết đến là phân loại mỗi lớp với
mọi lớp còn lại (One vs rest - OvR) [19] từ dữ liệu huấn luyện xây dựng được một
bộ phân loại nhị phân trên mỗi lớp, thực hiện so sánh với tất các cả các phần còn lại.
Phương pháp OvR chỉ định một giá trị thực cho các thành viên của mỗi lớp.
Một phương pháp phân loại đa nhãn khác là phân loại theo từng cặp (One vs
One - OvO) [19] thực hiện xây dựng một phân loại đã được huấn luyện trên mỗi cặp
có thể có của lớp. Cho K lớp, kết quả có (K-1)*K/2 phân loại nhị phân, có thể xảy
ra vấn đề nếu K lớn. Mặt khác, phương pháp OvR không hiệu quả do tạo ra phân
loại đơn, vì mỗi lớp có thể dễ dàng được tách ra khỏi phần còn lại bất cứ khi nào có
hai hay nhiều luật dự đoán thử nghiệm, nghĩa là bất cứ khi nào kết quả không có

luật có thể dự đoán các trường hợp thử nghiệm [11].
Một nhiệm vụ quan trọng trong khai thác dữ liệu là tìm ra tất cả các luật kết
hợp trong dữ liệu. Phân loại và tìm luật kết hợp là tương tự nhau, ngoại trừ
đối với phân loại thì mục tiêu dự đoán chỉ là một thuộc tính phân loại trong khi đó
luật kết hợp có khả năng suy diễn đối với một tập các thuộc tính khác nhau. Trong
5

những năm gần đây, một cách tiếp cận mới sử dụng luật kết hợp trong việc phân
loại, gọi là phân loại kết hợp, đã được đề xuất [15], [1].
Hướng tiếp cận sử dụng luật kết hợp trong việc phân loại dữ liệu lần đầu tiên
được trình bày bởi Liu và các đồng sự của Đại học Quốc gia Singapore trong việc
phát hiện tri thức trong cơ sở dữ liệu ở hội nghị quốc tế được tổ chức tại New York,
1998 [1] và đã đạt được nhiều kết quả khả quan so với hướng tiếp cận truyền thống
sử dụng cây quyết định Quinlan [6]. Kể từ đó việc phân loại kết hợp đã được mở ra.
Bộ phân loại chính xác của thuật toán phân loại kết hợp đã được xác nhận trong 10
năm qua thông qua các nghiên cứu và thực nghiệm.
Đã có một số phương pháp phân loại dựa vào luật kết hợp khá chính xác như
CBA [1], CMAR [15] và CPAR [18]. Thuật toán phân loại kết hợp đầu tiên CBA
tạo ra các phân loại các luật kết hợp bằng cách sử dụng phương pháp lặp đi lặp lại
tương tự như thuật toán Apriori. Để tạo ra và thử nghiệm trên các tập dữ liệu lớn, cơ
sở dữ liệu cần phải được quét nhiều lần, do đó, số lượng các luật tăng theo cấp số
nhân và sử dụng nhiều tài nguyên hệ thống hơn. Đối với các luật có cùng một độ hỗ
trợ và tin cậy, thuật toán CBA sắp xếp và chọn ngẫu nhiên, điều này làm giảm độ
chính xác phân loại trong một số trường hợp. Thuật toán CMAR là mở rộng của
thuật toán CBA, sử dụng phương pháp phát sinh luật giống như FP-Growth. Thuật
toán CMAR tìm thấy các mô hình phổ biến và đồng thời tạo ra luật phân loại kết
hợp, sử dụng phương pháp kiểm tra giá trị χ
2
để đánh giá các luật và sau đó phân
loại một trường hợp mới, khắc phục xu hướng của việc sử dụng một luật đơn.

CMAR cải thiện hiệu quả của thuật toán bằng cách định nghĩa một cấu trúc dữ liệu
mới đó là CR-tree (Compressed Rule tree) cây nén có mức độ cao, lưu trữ, sao lưu,
lượt bớt các luật phân loại. Trong khi thuật toán CMAR không tận dụng đầy đủ lợi
thế của các đặc điểm phân loại, có rất nhiều các nút dư thừa trong FP-tree.
Ross Quinlan đã đề xuất một kỹ thuật gọi là phân loại ID3 [8] có khả năng
phân loại dữ liệu sử dụng cây. Phương pháp này có thể được coi là một phần của
luật phân loại dựa trên việc phân loại (cây) có thể được chuyển đổi thành một bộ
6

các luật mà mỗi đường đi từ nút gốc đến lá là một luật có ý nghĩa. Hình 2.1 cho thấy
một cây gồm 5 luật. Các cách để xây dựng một cây bằng thuật toán ID3 được dựa
trên một công thức toán học được gọi là information gain (IG) trong đó IG của tất
cả các thuộc tính trong tập dữ liệu huấn luyện sẽ được đánh giá để chọn ra nút gốc.
Thuộc tính với mức tăng cao nhất được chọn là nút gốc và một nhánh cho mỗi giá
trị của nó được xây dựng.







Hình 2.1: Cây quyết định cho bộ dữ liệu thời tiết [8]
IG về cơ bản đánh giá các thuộc tính trong việc phân chia dữ liệu dựa trên
nhãn lớp như thế nào là tốt. Kết quả của một sự phân chia được xác định bằng cách
sử dụng một thuộc tính của lớp có nhãn tăng cao nhất gán cho thuộc tính đó. Thuật
toán lặp đi lặp lại quá trình này cho các thuộc tính còn lại cho đến khi cây không thể
chia được nữa hoặc tất cả các trường dữ liệu trong một nút đang có cùng một lớp.
Khi cây kết thúc, một luật sẽ được đại diện bởi một đường dẫn bắt đầu từ gốc đến lá
bất kỳ, trong đó đường đi chính của luật là các nút trên đường đi và lớp là lá.

Sau khi giới thiệu thuật toán ID3, Quinlan tăng cường nó bằng cách tỉa thêm
để đơn giản hóa kết quả bằng cách loại bỏ các cây con có giá trị lỗi lớn. Trong một
bản tóm tắt, cắt tỉa liên quan đến tính toán sai lầm của các cây con và so sánh nó với
Quang cảnh
Nắng
Mưa
Có mây
Độ ẩm
Gió
Đi
Cao Trung bình
Cao Thấp
Không đi
Đi
Không đi Đi
7

những lá của nó. Kết quả của việc tăng cường vào ID3 là một thuật toán gọi là C4.5
[6] cho thấy sự vượt trội so kỹ thuật phân loại khác như xác suất và bao phủ.
RIPPER [17] chia các dữ liệu huấn luyện liên quan đến nhãn lớp. Sau đó,
thường bắt đầu với tập lớp ít nhất, nó xây dựng một luật bằng cách thêm các mẫu
(giá trị thuộc tính) cho đến khi luật là hoàn hảo. Đối với mỗi luật rỗng, các thuật
toán tìm kiếm các giá trị tốt nhất của thuộc tính trong tập dữ liệu sử dụng IG và
thêm nó vào luật. Thực hiện thêm giá trị của thuộc tính cho đến khi luật trở nên
hoàn hảo tại thời điểm đó các luật sẽ được tạo ra. Giai đoạn này được gọi là phát
triển luật. Đồng thời, trong khi các luật được xây dựng, RIPPER sử dụng cắt tỉa mở
rộng các mẫu tích cực và tiêu cực liên quan đến các luật ứng cử viên để giảm sự dư
thừa và loại bỏ các giá trị của thuộc tính không cần thiết. Thuật toán dừng xây dựng
các luật khi bất kỳ luật tìm thấy có 50% lỗi hoặc trong một cài đặt mới của RIPPER
các luật tạo ra có độ dài tổi thiểu sau khi thêm một luật ứng cử viên là lớn hơn một

luật thu được trước khi thêm các luật ứng cử viên.
Công việc cắt tỉa khác xảy ra trên các luật ứng cử viên để đưa ra các phân
loại chính thức. Vì vậy, đối với mỗi luật ứng cử viên tạo ra, việc thay thế hai luật
được thực hiện: thay thế và sửa đổi nó. Đầu tiên thực hiện bằng cách phát triển một
luật và lọc để giảm thiểu các lỗi trên các luật tổng thể được tìm thấy. Việc sửa đổi
các luật được thực hiện tương tự, ngoại trừ các thuật toán chỉ chèn một mẫu bổ sung
cho luật và các quy định sửa đổi đối với dữ liệu để lựa chọn các luật với tỷ lệ lỗi
thấp nhất. Công việc cắt tỉa trong RIPPER giải thích tại sao kích thước bộ phân loại
được tạo của thuật toán là nhỏ. Lần thử nghiệm trên một số bộ dữ liệu UCI cho thấy
rằng các thuật toán quy nạp như RIPPER có độ chính xác tốt hơn khi so sánh với
cây quyết định.
Một thuật toán phân loại lai ghép có sử dụng cây quyết định và phương pháp
tiếp cận quy tắc quy nạp với nhau để tạo ra phân loại trong một giai đoạn chứ không
phải là hai giai đoạn được gọi là PART đã được đề xuất trong [20]. PART sử dụng
quy tắc quy nạp để tạo ra các luật ứng cử viên và sau đó thực hiện lọc bằng cách sử
8

dụng phương pháp cắt tỉa dựa trên cây quyết định. PART xây dựng một luật giống
như các thuật toán quy nạp, xây dựng các quy tắc trực tiếp từ các dữ liệu, nó xuất
phát từ một cây con (một phần của cây quyết định) của dữ liệu và sau đó PART sẽ
chuyển đổi đường dẫn đến lá với phạm vi độ bao phủ lớn nhất tạo thành một quy tắc
và các cây con sẽ được loại bỏ cùng với các trường hợp tích cực của nó từ tập dữ
liệu. Quá trình tương tự được lặp đi lặp lại cho đến khi tất cả các trường trong tập
dữ liệu được lấy ra.
Tuy nhiên, các phương pháp phân loại này chỉ gắn một thuộc tính phân loại
với mỗi luật kết hợp, vì thế các luật kết hợp này thường không thích hợp cho việc
phân loại đa lớp. Ví dụ một tài liệu có hai nhãn phân loại là “Sức khỏe” và “Chính
phủ”, giả sử rằng tài liệu này kết hợp với nhãn “Sức khỏe” 50 lần và nhãn “Chính
phủ” 48 lần trong tổng số 98 lần tài liệu xuất hiện trong dữ liệu huấn luyện. Hướng
tiếp cận truyền thống trong CBA sẽ tạo ra luật gắn nhãn “Sức khỏe” cho tài liệu vì

nó có tần suất xuất hiện nhiều hơn và loại bỏ luật gắn nhãn “Chính phủ”. Tuy nhiên
rõ ràng việc giữ lại luật gán nhãn “Chính phủ” sẽ cung cấp nhiều thông tin hữu ích
trong việc phân loại tài liệu vì nó vẫn có tần suất xuất hiện cao.

9

Chương 3: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP
3.1 Phân loại là gì?
Phân loại dữ liệu là một xử lý bao gồm hai bước (Hình 3.1). Ở bước đầu tiên,
xây dựng mô hình mô tả một tập cho trước các lớp dữ liệu. Mô hình này có được
bằng cách phân tích các bộ cơ sở dữ liệu. Mỗi bộ được giả định thuộc về một lớp
cho trước, các lớp này chính là các giá trị của một thuộc tính được chỉ định, gọi là
thuộc tính nhãn lớp. Các bộ dữ liệu để xây dựng mô hình gọi là tập dữ liệu huấn
luyện. Do nhãn lớp của mỗi mẫu huấn luyện đã biết trước nên bước này cũng được
biết đến như là học có giám sát. Điều này trái ngược với học không có giám sát,
trong đó các mẫu huấn luyện chưa biết sẽ thuộc về nhãn lớp nào và số lượng hay tập
các lớp được học chưa biết trước.

Hình 3.1: Xử lý phân loại dữ liệu [5]
10


Mô hình học được biểu diễn dưới dạng các luật phân loại, cây quyết định hay
công thức toán học. Ví dụ, cho trước một cơ sở dữ liệu thông tin về độ tín nhiệm
của khách hàng, các luật phân loại được học để nhận biết các khách hàng có độ tín
nhiệm là tốt hay khá tốt (Hình 3.1a). Các luật được dùng để phân loại các mẫu dữ
liệu tương lai cũng như cung cấp cách hiểu tốt hơn về nội dung cơ sở dữ liệu.
Trong bước thứ hai (hình 3.1b), mô hình được dùng để phân loại. Trước tiên,
đánh giá độ chính xác dự đoán của mô hình (hay phân loại). Phần cuối của chương
này sẽ mô tả một số phương pháp đánh giá độ chính xác phân loại. Phương pháp

holdout là một kỹ thuật đơn giản sử dụng một tập kiểm tra các mẫu đã được gắn
nhãn lớp. Các mẫu này được chọn lựa ngẫu nhiên và độc lập với các mẫu huấn
luyện. Độ chính xác của mô hình trên một tập kiểm tra cho trước là phần trăm các
mẫu của tập kiểm tra được mô hình phân loại đúng. Đối với mỗi mẫu kiểm tra, nhãn
lớp đã biết được so sánh với dự đoán lớp của mô hình đã học cho mẫu đó. Nếu độ
chính xác của mô hình được đánh giá dựa trên tập dữ liệu huấn luyện, sự đánh giá
này có thể là tối ưu, do vậy mô hình học có khuynh hướng quá phù hợp dữ liệu. Bởi
vậy, cần dùng một tập kiểm tra.
Nếu độ chính xác của mô hình là chấp nhận được, mô hình có thể được sử
dụng để phân loại các bộ hay các đối tượng dữ liệu tương lai mà chưa biết nhãn lớp.
Ví dụ, các luật phân loại học trong hình 3.1a: việc phân tích dữ liệu khách hàng từ
các khách hàng đã tồn tại có thể được dùng để dự đoán độ tín nhiệm của các khách
hàng mới.
Ví dụ: Giả sử rằng ta có một cơ sở dữ liệu các khách hàng trên danh sách thư
AllElectronics. Danh sách thư được dùng để gửi đi các tài liệu quảng cáo mô tả các
sản phẩm mới và niêm yết lên các sản phẩm hạ giá. Cơ sở dữ liệu mô tả các thuộc
tính của khách hàng như tên, tuổi, thu nhập, nghề nghiệp và độ tín nhiệm. Khách
hàng được phân loại vào nhóm người mua hay không mua máy tính tại
AllElectronics. Giả sử rằng các khách hàng mới được thêm vào cơ sở dữ liệu và bạn
11

sẽ thông báo cho những khách hàng này thông tin bán máy tính. Thay vì gửi tài liệu
quảng cáo tới từng khách hàng mới, ta chỉ gửi tài liệu quảng cáo tới những người có
khả năng muốn mua máy tính, như vậy chi phí sẽ hiệu quả hơn. Mô hình phân loại
được xây dựng và sử dụng cho mục đích này.
3.2 Các vấn đề quan tâm của phân loại
3.2.1 Chuẩn bị dữ liệu để phân loại
Các bước tiền xử lý dữ liệu sau đây giúp cải thiện độ chính xác, hiệu suất và
khả năng mở rộng của phân loại.
- Làm sạch dữ liệu: Đây là quá trình thuộc về tiền xử lý dữ liệu để gỡ bỏ

hoặc làm giảm nhiễu và cách xử lý các giá trị khuyết. Bước này giúp làm giảm sự
mập mờ khi học.
- Phân tích sự thích hợp: Nhiều thuộc tính trong dữ liệu có thể không thích
hợp hay không cần thiết để phân loại. Vì vậy, phép phân tích sự thích hợp được
thực hiện trên dữ liệu với mục đích gỡ bỏ bất kỳ những thuộc tính không thích hợp
hay không cần thiết. Trong học máy, bước này gọi là trích chọn đặc trưng. Phép
phân tích này giúp phân loại hiệu quả và nâng cao khả năng mở rộng.
- Biến đổi dữ liệu: Dữ liệu có thể được tổng quát hoá tới các mức khái niệm
cao hơn. Điều này rất hữu ích cho các thuộc tính có giá trị liên tục. Ví dụ, các giá trị
số của thuộc tính thu nhập được tổng quát hoá sang các phạm vi rời rạc như thấp,
trung bình và cao. Tương tự, các thuộc tính giá trị tên như đường phố được tổng
quát hoá tới khái niệm mức cao hơn như thành phố. Nhờ đó các thao tác vào/ra
trong quá trình học sẽ ít đi.
Dữ liệu cũng có thể được tiêu chuẩn hoá, đặc biệt khi các mạng nơron hay
các phương pháp dùng phép đo khoảng cách trong bước học. Tiêu chuẩn hoá biến
đổi theo tỷ lệ tất cả các giá trị của một thuộc tính cho trước để chúng rơi vào phạm
vi chỉ định nhỏ như [-1.0,1.0] hay [0,1.0]. Tuy nhiên điều này sẽ cản trở các thuộc

×