(Luận án tiến sĩ) nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.15 MB, 120 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Văn Sang

NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN
ĐẶC TRƢNG CHO PHÂN LỚP DỮ LIỆU

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

HÀ NộI – 2018
ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Văn Sang

NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT
GỌN ĐẶC TRƢNG CHO PHÂN LỚP DỮ LIỆU

Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.01.04
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC:
1. PGS. TS. NGUYỄN HÀ NAM
2. PGS. TS. NGUYỄN HẢI CHÂU

Hà Nội – 2018

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu do tôi thực hiện dƣới sự
hƣớng dẫn của PGS.TS. Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu tại Bộ môn
các Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trƣờng Đại học Công nghệ,
Đại học Quốc gia Hà nội. Các số liệu và kết quả trình bày trong luận án là trung
thực và chƣa đƣợc công bố trong bất cứ các cơng trình nào khác trƣớc đây.
Tác giả

Hà Văn Sang

i

LỜI CẢM ƠN
Luận án đƣợc thực hiện tại Bộ môn Hệ thống Thông tin-Khoa CNTT,
Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội, dƣới sự hƣớng dẫn của
PGS.TS. Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu.
Trƣớc tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Nguyễn Hà Nam
và PGS.TS. Nguyễn Hải Châu. Hai Thầy đã tận tụy chỉ dạy, giúp đỡ tôi từ định
hƣớng nghiên cứu đến việc giải quyết những vấn đề khó khăn nhất trong q trình
nghiên cứu. Khơng chỉ về lĩnh vực nghiên cứu khoa học, các Thầy cịn chỉ bảo cho
tơi nhiều điều trong cuộc sống. Đó là những bài học vơ cùng q giá và hữu ích cho
chính bản thân tôi trong thời gian tới.
Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các nhà khoa học
trong khoa CNTT đã truyền đạt cho tôi những kiến thức quý báu và đã tạo điều kiện
thuận lợi cho tơi trong q trình học tập và nghiên cứu.
Tơi xin gửi lời cảm ơn tới các Thầy, Cô giáo ở Bộ mơn Tin học Tài chính kế
tốn, khoa Hệ thống Thơng tin kinh tế, Học viện Tài chính, những ngƣời đồng
nghiệp đã tạo điều kiện giúp đỡ tôi về mặt thời gian cũng nhƣ sắp xếp công việc

trong quá trình tơi làm nghiên cứu sinh.
Tơi cũng gửi lời cảm ơn tất cả bạn bè, những ngƣời đã giúp đỡ và hỗ trợ tơi
trong suốt q trình nghiên cứu.
Cuối cùng, tơi vơ cùng biết ơn gia đình, bố mẹ tơi, anh chị em, đặc biệt là vợ
của tôi, những ngƣời đã động viên, tạo mọi điều kiện thuận lợi để tơi có thể hồn
thành chƣơng trình nghiên cứu sinh của mình.
Hà Văn Sang

Hà Nội, 1-12-2017

ii

TÓM TẮT
Rút gọn đặc trƣng ngày càng đƣợc sử dụng rộng rãi nhằm tăng hiệu năng
cũng nhƣ giảm chi phí trong q trình phân tích dữ liệu. Mục tiêu của việc rút gọn
đặc trƣng là xác định và giảm bớt đặc trƣng của dữ liệu gốc dựa trên việc biến đổi
không gian đặc trƣng hoặc lựa chọn những đặc trƣng quan trọng, loại bỏ các đặc
trƣng không liên quan, dƣ thừa nhằm giảm kích thƣớc dữ liệu, từ đó cải thiện hiệu
quả, độ chính xác của các mơ hình phân tích dữ liệu. Các kỹ thuật rút gọn đặc trƣng
đã đƣợc áp dụng rộng rãi trong nhiều ứng dụng khác nhau nhƣ: cho điểm tín dụng,
phân tích dữ liệu ung thƣ, tìm kiếm thơng tin, phân lớp văn bản. Tuy nhiên, không
tồn tại một kỹ thuật rút gọn đặc trƣng mà hiệu quả trên mọi miền dữ liệu. Trong
luận án này, chúng tơi tập trung vào việc tìm hiểu, phân tích và cải tiến một số kỹ
thuật rút gọn đặc trƣng nhằm tăng hiệu năng của kỹ thuật phân tích dữ liệu hiện có
theo hai hƣớng tiếp cận là lựa chọn đặc trƣng và trích xuất đặc trƣng.
Có nhiều cách tiếp cận rút gọn đặc trƣng khác nhau đã đƣợc giới thiệu, tuy
nhiên các cách tiếp cận này vẫn tồn tại một số hạn chế khi áp dụng với các miền dữ
liệu khác nhau. Chúng tôi đã đề xuất phƣơng pháp lựa chọn đặc trƣng có tên FRFE
(Fast Recursive Feature Elimination) dựa trên hƣớng tiếp cận đóng gói (wrapper)

với lõi là một thủ tục loại bỏ đặc trƣng đệ quy. Để tăng hiệu quả của việc lựa chọn
đặc trƣng, chúng tôi đã đề xuất một hàm đánh giá (ranking) đặc trƣng và thủ tục lựa
chọn đặc trƣng tƣơng ứng. Hơn nữa, do đặc điểm của phƣơng pháp lựa chọn đặc
trƣng đóng gói là chi phí tính tốn cao, vì vậy chúng tôi đã áp dụng các thƣ viện xử
lý phân tán để cải thiện hiệu năng của thuật toán đề xuất. Kết quả thực nghiệm thuật
tốn FRFE (đƣợc viết bằngngơn ngữ R) trên hai bộ dữ liệu tín dụng Đức và Úc cho
thấy thuật toán đề xuất đã cải thiện đƣợc thời gian chạy so với thuật toán cơ sở và
đạt kết quả khả quan so với các kỹ thuật hiện có.
Theo hƣớng tiếp cận trích xuất đặc trƣng, chúng tơi đã đề xuất phƣơng pháp
trích xuất đặc trƣng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số
lƣợng đặc trƣng dựa trên kỹ thuật hàm nhân PCA. Đóng góp chính của phƣơng

iii

pháp đề xuất là xây dựng một hàm nhân mới dựa trên việc kết hợp có định hƣớng
một số hàm nhân cơ bản[67]. Kết quả thực nghiệm thuật toán C-KPCA trên bốn bộ
dữ liệu ung thƣ cho thấy thuật toán đề xuất cho kết quả ổn định và tốt hơn so với
các phƣơng pháp khác trong nhiều trƣờng hợp.
Từ khóa: khai phá dữ liệu, học máy, lựa chọn đặc trưng, trích xuất đặc
trưng,rút

gọn

đặc

iv

trưng,

KPCA

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................... I
LỜI CẢM ƠN................................................................................................................... II
TÓM TẮT ........................................................................................................................ III
MỤC LỤC ........................................................................................................................ V
DANH MỤC TỪ VIẾT TẮT ...................................................................................... VIII
DANH MỤC HÌNH ẢNH................................................................................................ X
DANH MỤC BẢNG BIỂU ........................................................................................... XII
MỞ ĐẦU ............................................................................................................................ 1
Tính cấp thiết của luận án ................................................................................................... 1
Mục tiêu của luận án ........................................................................................................... 3
Đối tƣợng và phạm vi nghiên cứu ...................................................................................... 4
Phƣơng pháp nghiên cứu .................................................................................................... 4
Đóng góp của luận án ......................................................................................................... 4
Bố cục của luận án .............................................................................................................. 5
CHƢƠNG 1.

TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƢNG ................................... 7

1.1

Rút gọn đặc trƣng ...................................................................................................... 7

1.2

Lựa chọn đặc trƣng.................................................................................................... 7

1.3

1.4

1.2.1

Mục tiêu của lựa chọn đặc trƣng ..................................................................... 8

1.2.2

Phân loại các kỹ thuật lựa chọn đặc trƣng ...................................................... 8

1.2.3

Các thành phần chính của lựa chọn đặc trƣng ................................................ 9

1.2.4

Thủ tục lựa chọn đặc trƣng ........................................................................... 12

1.2.5

Các mơ hình lựa chọn đặc trƣng ................................................................... 13

Trích xuất đặc trƣng ................................................................................................ 16
1.3.1

Mục tiêu của trích xuất đặc trƣng ................................................................. 17

1.3.2

Phân loại các kỹ thuật trích xuất đặc trƣng ................................................... 17

Một số nghiên cứu về rút gọn đặc trƣng ................................................................. 19
1.4.1

Hƣớng nghiên cứu về lựa chọn đặc trƣng ..................................................... 19

1.4.2

Hƣớng nghiên cứu về trích xuất đặc trƣng.................................................... 28

1.4.3

Phân tích và đánh giá .................................................................................... 30
v

1.5

Kết luận chƣơng ...................................................................................................... 31

CHƢƠNG 2.

KỸ THUẬT LỰA CHỌN ĐẶC TRƢNG TRONG BÀI TỐN CHO

ĐIỂM TÍN DỤNG ............................................................................................... 32
2.1

Bài tốn cho điểm tín dụng ..................................................................................... 32

2.2

Các nghiên cứu liên quan ........................................................................................ 35

2.3

Phƣơng pháp đề xuất ............................................................................................... 37

2.4

2.5

2.3.1

Sơ đồ hệ thống lựa chọn đặc trƣng................................................................ 37

2.3.2

Đề xuất hàm đánh giá và chiến lƣợc tìm kiếm đặc trƣng phù hợp ............... 38

2.3.3

Cải tiến tốc độ xử lý bằng thƣ viện H20 ....................................................... 45

Thực nghiệm và kết quả .......................................................................................... 48
2.4.1

Thiết lập thực nghiệm ................................................................................... 48

2.4.2

Dữ liệu thực nghiệm ...................................................................................... 49

2.4.3

Đánh giá hiệu năng phân lớp......................................................................... 49

2.4.4

Kết quả thực nghiệm ..................................................................................... 53

Kết luận chƣơng ...................................................................................................... 66

CHƢƠNG 3.

KỸ THUẬT TRÍCH XUẤT ĐẶC TRƢNG TRONG BÀI TỐN

PHÂN TÍCH DỮ LIỆU UNG THƢ .................................................................. 68
3.1

Bài tốn phân tích dữ liệu ung thƣ .......................................................................... 68

3.2

Các nghiên cứu liên quan ........................................................................................ 70

3.3

Phƣơng pháp giải quyết ........................................................................................... 72

3.4

3.5

3.3.1

Sơ đồ hệ thống trích xuất đặc trƣng .............................................................. 72

3.3.2

Hàm nhân tùy chọn cho PCA ........................................................................ 74

3.3.3

Xây dựng hàm nhân tùy chọn ....................................................................... 78

Thực nghiệm và kết quả .......................................................................................... 83
3.4.1

Thiết lập thực nghiệm ................................................................................... 83

3.4.2

Dữ liệu thực nghiệm ...................................................................................... 84

3.4.3

Kết quả thực nghiệm ..................................................................................... 85

Kết luận chƣơng ...................................................................................................... 96

KẾT LUẬN ...................................................................................................................... 97
DANH MỤC CƠNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN.............. 99
TÀI LIỆU THAM KHẢO ............................................................................................ 100

vi

vii

DANH MỤC TỪ VIẾT TẮT

Từ viết tắt
ACO
AUC
BG
CFS
DL
DT
FCFS
FRFE
GA
ICA
IG
KDD
k-NN
LDA
LR

MLP
mRMR
OLTP
PCA
PSO
RF
RG
SA
SBE
SBG
SBS
SFG
SFS

Từ gốc

Giải nghĩa

Ant Colony Optimization
Area under curve
Bidirectional Generation
Correlation-based Feature
Selection
Deep Learning
Decision Tree
Fast Correlation-based Feature
Selection
Fast Recursive Feature Elimination
Genetic Algorithm
Independent component analysis

Information Gain
Knowledge Discovery in Databases
k-Nearest Neighbors
Linear discriminant analysis
Logistic Regression
Multi-layer Perceptron
minimum Redundancy Maximum
Relevance
Online transaction processing
Principal Component Analysis
Particle Swarm Optimization
Random Forest
Random Generation
Simulated Annealing
Sequential Backward Elimination
Sequential Backward Generation
Sequential Sackward Search
Sequential Forward Generation
Sequential forward search

Tối ƣu đàn kiến
Diện tích dƣới đƣờng cong
Sinh tập con từ hai hƣớng
Lựa chọn đặc trƣng dựa trên
tƣơng quan
Học sâu
Cây quyết định
Lựa chọn đặc trƣng dựa trên
tƣơng quan nhanh
Loại bỏ đặc trƣng đệ quy nhanh

Thuật toán di truyền
Phân tích thành phần độc lập
Độ lợi thơng tin
Khám phá tri thức
k-láng giềng gần nhất
Phân tích biệt thức tuyến tính
Hồi qui logistic
Perceptron nhiều tầng
Phù hợp nhiều nhất-dƣ thừa ít
nhất
Xử lý giao dịch trực tuyến
Phân tích thành phần chính
Tối ƣu hóa bầy đàn
Rừng ngẫu nhiên
Sinh tập con ngẫu nhiên
Thuật tốn mô phỏng tôi luyện
Loại bỏ lùi tuần tự
Sinh tập con lùi tuần tự
Tìm kiếm lùi tuần tự
Sinh tập con tiến tuần tự
Tìm kiếm tiến tuần tự

viii

SVD
SVM

Singular Value Decomposition
Support Vector Machine

ix

Phân tích giá trị riêng
Máy véc tơ hỗ trợ

DANH MỤC HÌNH ẢNH
Hình 1.1 Lựa chọn đặc trƣng. ................................................................................................ 7
Hình 1.2 Ba thành phần chính của lựa chọn đặc trƣng[59] ................................................... 9
Hình 1.3 Thủ tục lựa chọn đặc trƣng[86] ............................................................................ 12
Hình 1.4 Mơ hình chọn lựa đặc trƣng Lọc........................................................................... 13
Hình 1.5 Mơ hình chọn lựa đặc trƣng đóng gói ................................................................... 14
Hình 1.6 Trích xuất đặc trƣng. ............................................................................................. 16
Hình 2.1 Quy trình lựa chọn đặc trƣng của bài tốn cho điểm tín dụng .............................. 38
Hình 2.2 Sơ đồ khối của thuật toán lựa chọn đặc trƣng theo hƣớng tiến ............................ 39
Hình 2.3 Sơ đồ khối của lựa chọn đặc trƣng theo hƣớng lui ............................................... 41
Hình 2.4 Chiến lƣợc lựa chọn đặc trƣng FRFE ................................................................... 44
Hình 2.5 Kiến trúc của thƣ viện H20 ................................................................................... 46
Hình 2.6 Phân lớp Random forest........................................................................................ 47
Hình 2.7 Ví dụ về đƣờng cong AUC [27] ........................................................................... 51
Hình 2.8 Kiểm chứng chéo 5 lần ......................................................................................... 52
Hình 2.9 Danh sách các đặc trƣng đƣợc sắp xếp theo độ lợi thơng tin (IG) giảm dần ........ 53
Hình 2.10 Danh sách các đặc trƣng đƣợc sắp xếp theo độ đo Relief-F giảm dần ............... 54
Hình 2.11 Danh sách các đặc trƣng đƣợc sắp xếp theo độ tƣơng quan giảm dần ............... 55
Hình 2.12 So sánh kết quả dự đốn sử dụng 5, 10, 15, 20 đặc trƣng có thứ hạng cao nhất
trên bộ dữ liệu của Đức ................................................................................................ 56
Hình 2.13 Độ chính xác phân lớp với bộ dữ liệu Đức ......................................................... 56
Hình 2.14 Độ chính xác phân lớp trên bộ dữ liệu Đức theo hƣớng quay lui ....................... 58
Hình 2.15 So sánh kết quả sử dụng đặc trƣng đƣợc lựa chọn trên bộ dữ liệu Đức ............. 58

Hình 2.16 Xếp hạng đặc trƣng theo độ lợi thông tin (IG) trên bộ dữ liệu tín dụng của Úc . 60
x

Hình 2.17 Xếp hạng đặc trƣng theo độ đo Relief-F trên bộ dữ liệu tín dụng của Úc .......... 61
Hình 2.18 Xếp hạng đặc trƣng theo độ tƣơng quan trên bộ dữ liệu tín dụng của Úc .......... 62
Hình 2.19 So sánh kết quả dự đoán sử dụng 5, 7, 10 đặc trƣng có thứ hạng cao nhất trên bộ
dữ liệu tín dụng của Úc................................................................................................. 63
Hình 2.20 Độ chính xác phân lớp với bộ dữ liệu Úc ........................................................... 63
Hình 2.21 Độ chính xác dự đốn trên bộ dữ liệu tín dụng Úc ............................................. 65
Hình 2.22 Độ chính xác dự đốn sử dụng đặc trƣng đƣợc lựa chọn trên bộ dữ liệu Úc ..... 65
Hình 3.1 Phân tích dữ liệu ung thƣ ...................................................................................... 69
Hình 3.2 Quy trình trích xuất đặc trƣng cho bài tốn phân tích dữ liệu ung thƣ ................. 72
Hình 3.3 Chuyển dữ liệu sang khơng gian có chiều lớn hơn[21] ........................................ 75
Hình 3.4 Độ chính xác phân lớp với bộ dữ liệu ung thƣ ruột kết ........................................ 87
Hình 3.5 Độ chính xác phân lớp với bộ dữ liệu ung thƣ bạch cầu ...................................... 89
Hình 3.6 Độ chính xác phân lớp với bộ dữ liệu lymphoma................................................. 91
Hình 3.7 So sánh độ chính xác phân lớp với bộ dữ liệu ung thƣ tuyến tiền liệt .................. 93
Hình 3.8 So sánh hiệu năng phân lớp trên bốn bộ dữ liệu ung thƣ...................................... 94

xi

DANH MỤC BẢNG BIỂU
Bảng 1.1 Chiến lƣợc tìm kiếm và hƣớng tìm kiếm[59] ....................................................... 11
Bảng 1.2 Ƣu nhƣợc điểm của mơ hình Lọc[8] .................................................................... 14
Bảng 1.3 Ƣu nhƣợc điểm của mơ hình Đóng gói [8] .......................................................... 15
Bảng 1.4 So sánh ba mơ hình[33] ........................................................................................ 16
Bảng 2.1 Ý nghĩa của diện tích dƣới đƣờng cong AUC ...................................................... 51
Bảng 2.2 So sánh hiệu năng của các bộ phân lớp [55] trên bộ dữ liệu tín dụng của Đức ... 57

Bảng 2.3. Hiệu năng của các bộ phân lớp khác nhau [55] với bộ dữ liệu tín dụng Đức ... 59
Bảng 2.4 So sánh hiệu năng của các bộ phân lớp trên bộ dữ liệu tín dụng của Úc ............. 64
Bảng 2.5 Hiệu năng của các bộ phân lớp khác nhau trên bộ dữ liệu tín dụng của Úc ........ 66
Bảng 3.1 Cấu trúc bảng dữ liệu ung thƣ ruột kết ................................................................. 73
Bảng 3.2 Các hàm nhân đƣợc sử dụng ................................................................................ 83
Bảng 3.3 Tổng hợp các bộ dữ liệu ung thƣ đƣợc sử dụng trong thực nghiệm .................... 84
Bảng 3.4 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thƣ ruột kết ......................... 85
Bảng 3.5 So sánh hàm nhân mới với hàm nhân cơ sở trên dữ liệu ung thƣ ruột kết ........... 86
Bảng 3.6 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thƣ ruột kết ..................... 87
Bảng 3.7 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thƣ bạch cầu ........................ 88
Bảng 3.8 So sánh với hàm nhân cơ sở trên bộ dữ liệu ung thƣ bạch cầu ............................ 88
Bảng 3.9 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thƣ bạch cầu ................... 89
Bảng 3.10 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thƣ máu trắng .................... 90
Bảng 3.11 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu máu trắng ...... 90
Bảng 3.12 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu lymphoma ........................... 91
Bảng 3.13 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thƣ tuyến tiền liệt .............. 92
xii

Bảng 3.14 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu ung thƣ tiền liệt
tuyến ............................................................................................................................. 92
Bảng 3.15 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thƣ tuyến tiền liệt ......... 93
Bảng 3.16 So sánh phƣơng pháp đề xuất(C-KPCA) với các phƣơng pháp lựa chọn đặc
trƣng khác ..................................................................................................................... 94
Bảng 3.17 So sánh C-KPCA với các phƣơng pháp khác trên hai bộ dữ liệu Colon và
Prostate ......................................................................................................................... 95
Bảng 3.18 So sánh C-KPCA với các phƣơng pháp khác trên hai bộ dữ liệu Lymphoma và
Prostate ......................................................................................................................... 96

xiii

MỞ ĐẦU
Tính cấp thiết của luận án
Trong những năm gần đây, dữ liệu trong thực tế đã gia tăng một cách nhanh
chóng cả về dung lƣợng lẫn về chủng loại.Dữ liệu với số chiều lớn đã trở thành
thách thức đối với các kỹ thuật xử lý, phân tích dữ liệu hiện có. Học máy (machine
learning) và khai phá dữ liệu (data mining) cung cấp các công cụ giúp con ngƣời
giải quyết vấn đề quản lý, bóc tách thơng tin và tri thức bằng cách tự động phân tích
một lƣợng lớn dữ liệu. Tuy nhiên, các kỹ thuật phân tích dữ liệu nhƣ phân lớp, dự
báo có thể dẫn đến kết quả thấp hoặc khơng chính xác do khơng phải lúc nào dữ
liệu cũng đƣợc xử lý đầy đủ, vẫn có nhiều dữ liệu dƣ thừa, khơng liên quan, hay
nhiễu. Ngồi ra, các thuật toán phân lớp chạy mất nhiều thời gian, thậm chí có thể
khơng thể thực hiện đƣợc nếu dữ liệu chƣa đƣợc tiền xử lý một cách thích hợp.
Rút gọn đặc trƣng là kỹ thuật giải quyết vấn đề thu gọn chiều dữ liệu nhằm
giải quyết các vấn đề nêu trên. Rút gọn đặc trƣng đƣợc phân loại thành “lựa chọn
đặc trưng” và “trích xuất đặc trưng”. Trong đó,lựa chọn đặc trƣng có thể chọn ra
một nhóm con các đặc trƣng phù hợp, liên quan từ tập dữ liệu gốc bằng cách loại bỏ
các đặc trƣng nhiễu, dƣ thừa khơng liên quan trong khi đó trích xuất đặc trƣng sẽ
trích rút ra các đặc trƣng mới bằng một phép chuyển đổi. Rút gọn đặc trƣng tạo điều
kiện cho các kỹ thuật phân tích xử lý dữ liệu cải tiến hiệu năng theo nghĩa nâng cao
hiệu suất mà vẫn giữ nguyên hoặc nâng cao đƣợc hiệu quả.
Nhiều kỹ thuật rút gọn đặc trƣng đã đƣợc cộng đồng nghiên cứu trên thế giới
công bố [9][12][69][99]. Theo thống kê từ năm 2010 tới năm 2017 trên cơ sở dữ
liệu của Google scholar() thì có tới 88.500 tài liệu liên

1

quan tới chủ đề lựa chọn đặc trƣng (tìm kiếm từ khóa “Feature Selection”), và có tới

159.000 tài liệu liên quan tới chủ đề trích xuất đặc trƣng(tìm kiếm từ khóa “Feature
Extraction”). Cũng trong khoảng thời gian từ 2010-2017 trên cơ sở dữ liệu của trang
Sciencedirect1 thì chủ đề lựa chọn đặc trƣng có trên 11.880 bài báo khoa học, trong
khi chủ đề trích chọn đặc trƣng có hơn 32.980 bài báo liên quan.
Trong những năm gần đây, nhiều nghiên cứu đã tập trung vào cải tiến hiệu
năng của kỹ thuật rút gọn đặc trƣng bằng cách lựa chọn tập con đặc trƣng có ích,
hoặc trích xuất đặc trƣng. Điển hình nhƣ luận án của Hall [34]đề xuất phƣơng pháp
lựa chọn đặc trƣng dựa trên tƣơng quan cho học máy; Diao và cộng sự[23] sử dụng
tìm kiếm hài hịa (Harmony Search) cho việc xây dựng phƣơng pháp lựa chọn đặc
trƣng. Osiris Villacampa[91] nghiên cứu phƣơng pháp lựa chọn đặc trƣng và phân
lớp cho việc ra quyết định của công ty; Nziga [69] sử dụng phƣơng pháp trích xuất
đặc trƣng PCA thƣa cho dịng dữ liệu. Verónica Bolón-Canedo cùng cộng sự [90]
giới thiệu về dữ liệu có số thuộc tính lớn và các phƣơng pháp lựa chọn đặc trƣng
cho dữ liệu tin sinh.Basant Agarwal và Namita Mittal[5] nghiên cứu trích xuất đặc
trƣng nổi bật trong việc phân tích quan điểm. Urszula và Lakhmi [83] giới thiệuxu
hƣớng nghiên cứu về lựa chọn đặc trƣng trong nhận dạng mẫu. Liang cùng cộng sự
[56] nghiên cứu về rút gọn đặc trƣng cho bài toán học đa nhãn.Florian Eyben [26]
trích xuất khơng gian đặc trƣng nhằm phân lớp dữ liệu âm thanh trực tuyến. Mark
Nixon[68] sử dụng các kỹ thuật trích xuất đặc trƣng trong việc xử lý ảnh. Tuy
nhiên, các phƣơng pháp rút gọn đặc trƣng khác nhau sẽ cho kết quả khác nhau với
từng miền ứng dụng tƣơng ứng.
Cộng đồng nghiên cứu tại Việt Nam đã quan tâm và cơng bố nhiều cơng
trình khoa học liên quan tới học máy và khai phá dữ liệu. Tuy nhiên, hƣớng nghiên

1

2

cứu về rút gọn đặc trƣng chƣa đƣợc quan tâm nhiều. Cụ thể, việc tìm kiếm từ khóa
“lựa chọn đặc trưng”, “lựa chọn thuộc tính”, hay “trích chọn đặc trưng” trên
Google Scholar2 cho kết quả chỉ khoảng vài chục tài liệu. Tài liệu liên quan tới lựa
chọn đặc trƣng, trích xuất đặc trƣng là kết quả nghiên cứu của một số trƣờng đại
học. Chẳng hạn gần đây có một số luận án liên quan tới chủ đề rút gọn thuộc tính
nhƣ: trong năm 2015, Hà Đại Dƣơng [2] nghiên cứu một số phƣơng pháp trích chọn
đặc trƣng nhằm phát hiện đám cháy qua dữ liệu ảnh; Vũ Văn Định [1] thực hiện
việc rút gọn thuộc tính trong bảng quyết định không đầy đủ theo hƣớng tiếp cận tập
thô; Nguyễn Thị Lan Hƣơng [3] nghiên cứu và rút gọn thuộc tính trong bảng quyết
định động theo hƣớng tiếp cận tập thô. Các luận án này đã đề xuất việc áp dụng một
kỹ thuật lựa chọn hoặc trích xuất đặc trƣng vào bài tốn của mình, tập trung chủ yếu
tới bài tốn xử lí ảnh.
Nhƣ vậy, có thể nhận thấy rằngrút gọn đặc trƣng hiện vẫn là chủ đề để các
nhà nghiên cứu trong và ngoài nƣớc tiếp tục nghiên cứu và phát triển.

Mục tiêu của luận án
Mục tiêu của luận án là nghiên cứu cải tiến một số kỹ thuật rút gọn đặc trƣng
tiên tiến trong phân lớp dữ liệu đối với một số miền ứng dụng.
Hƣớng tiếp cận lựa chọn đặc trƣng xác định một tập con đặc trƣng tốt nhất
có thể từ tập đặc trƣng ban đầu mà khơng làm giảm kết quả phân lớp. Để giải quyết
mục tiêu này, luận án tập trung giải quyết một số vấn đề sau:
-

Xây dựng một hàm đánh giá đặc trƣng phù hợp với dữ liệu cần phân tích.

-

Áp dụng chiến lƣợc tìm kiếm theo kinh nghiệm nhằm làm giảm khơng gian
tìm kiếm.

2

/>
3

Hƣớng tiếp cận trích xuất đặc trƣng xác định một phép biến đổi đặc trƣng
hiệu quả để thu đƣợc tập đặc trƣng mới phù hợp với bộ phân lớp tƣơng ứng. Để giải
quyết mục tiêu này, luận án tập trung giải quyết một số vấn đề sau:
-

Tìm hiểu kỹ thuật hàm nhân trong việc biến đổi không gian đặc trƣng.

-

Xây dựng hàm nhân mới phù hợp với dữ liệu cần phân tích.
Với mục tiêu cải tiến hiệu năng của các kỹ thuật phân tích dữ liệu, chúng tơi

đã lựa chọn đề tài của luận án với tiêu đề: "Nghiên cứu cải tiến các kỹ thuật rút
gọn đặc trưng cho phân lớp dữ liệu”.

Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu của luận án là kỹ thuật rút gọn đặc trƣng cho bài toán
phân lớp, theo hai hƣớng tiếp cận lựa chọn đặc trƣng và trích xuất đặc trƣng.
Phạm vi áp dụng các kỹ thuật rút gọn đặc trƣng vào các miền ứng dụng là
tƣơng đối rộng. Trong luận án này, chúng tôi giới hạn phạm vi với hai miền ứng
dụng là bài tốn cho điểm tín dụng và phân tích dữ liệu ung thƣ.

Phƣơng pháp nghiên cứu

Luận án sử dụng các phƣơng pháp phân tích, tổng hợp lý thuyết, phƣơng
pháp mơ hình hóa và phƣơng pháp nghiên cứu thực nghiệm. Trong đó, lý thuyết cơ
sở đƣợc phân tích vàphƣơng pháp đề xuất đƣợc mơ hình hóa. Cuối cùng phƣơng
pháp nghiên cứu thực nghiệm đƣợc dùng để đánh giá, kiểm chứng kết quả của
phƣơng pháp đề xuất.

Đóng góp của luận án
Luận án đề xuất phƣơng pháp rút gọn đặc trƣng nhằm tăng hiệu năng của các
kỹ thuật phân lớp theo hai hƣớng tiếp cận chính là lựa chọn đặc trƣng và trích xuất
đặc trƣng:
Lựa chọn đặc trưng: chúng tơi đã đề xuất phƣơng pháp lựa chọn đặc trƣng
(FRFE) dựa trênhƣớng tiếp cận đóng gói. Nội dung chính của phƣơng pháp đề
xuất là việc loại bỏ đặc trƣng đệ quy và việc cải tiến hàm đánh giá đặc trƣng. Hàm
đánh giá đặc trƣng đề xuất có ƣu điểm là giúp tăng hiệu quả phân lớp và giúp cho

4

kết quả này đƣợc ổn định hơn.Phƣơng pháp đề xuất giúp tự động tìm ra tập con
đặc trƣng tối ƣu cho mỗi bộ dữ liệu. Một vấn đề khác mà các phƣơng pháp lựa
chọn đặc trƣng phải đối mặt đó là các phƣơng pháp lựa chọn đặc trƣng đóng gói
(wrapper) có chi phí tính tốn lớn. Để giải quyết vấn đề này chúng tôi sử dụng bộ
phân lớp rừng ngẫu nhiên (random forest) với khả năng xử lý song song nhằm làm
giảm thời gian thực hiện của phƣơng pháp đề xuất. Thực nghiệm trên bộ dữ liệu
tín dụng cho thấy phƣơng pháp lựa chọn đặc trƣng đề xuất này có khả năng đạt
đƣợc mục tiêu mà luận án đặt ra. Những đóng góp dựa trên hƣớng tiếp cận lựa
chọn đặc trƣng cho bài tốn cho điểm tín dụng đƣợc báo cáo trong các cơng bố
[SANGHV1, SANGHV2, SANGHV3, SANGHV5].
Trích xuất đặc trưng: Ngoài cách tiếp cận lựa chọn đặc trƣng, một hƣớng tiếp cận
khác là trích xuất đặc trƣng đã và đang đƣợc nhiều nhóm nghiên cứu quan tâm phát

triển khi các kỹ thuật lựa chọn đặc trƣng trở nên ít hiệu quả. Chúng tơi đã đề xuất
kỹ thuật trích xuất đặc trƣng có tên C-KPCA (Custom-Kernel PCA) nhằm làm
giảm số lƣợng đặc trƣng dựa trên kỹ thuật hàm nhân PCA. Cải tiến chính trong đề
xuất của chúng tơi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số
hàm nhân cơ bản[40]. Chúng tôi đã tiến hành thực nghiệm trên 04 bộ dữ liệu ung
thƣ và so sánh kết quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng
nhƣ so sánh với một số phƣơng pháp lựa chọn đặc trƣng phổ biến khác. Thực
nghiệm cho thấy C-KPCA cho kết quả ổn định và tốt hơn so với các phƣơng pháp
khác trong nhiều trƣờng hợp. Hƣớng tiếp cận trích xuất đặc trƣng cho bài tốn phân
tích dữ liệu ung thƣ đƣợc cơng bố trong[SANGHV4].
Các kết quả nghiên cứu trình bày trong luận án đƣợc cơng bố trong 05 cơng
trình. Trong đó có 02 bài báo đăng ở tạp chí nƣớc ngồi [SANGHV1, SANGHV2];
03 bài báo hội thảo quốc tế đƣợc cơng bố có chỉ số Scopus, trong đó 02 bài báo
đƣợc Springer xuất bản và đƣa vào danh mục LNCS.

Bố cục của luận án
Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chính
của luận án này đƣợc chia thành 03 chƣơng, cụ thể nhƣ sau:
5

Chƣơng 1: Phần đầu giới thiệu về lý thuyết cơ bản liên quan tới rút gọn đặc
trƣng, lựa chọn đặc trƣng và trích xuất đặc trƣng, đồng thời điểm lại một số nghiên
cứu gần đây. Sau phần phân tích, đánh giá là kết luận của chƣơng.
Chƣơng 2: Đề xuất một hàm đánh giá đặc trƣng và áp dụng chiến lƣợc tìm
kiếm theo kinh nghiệm dựa trên hàm đánh giá này nhằm nâng hiệu quả của việc lựa
chọn đặc trƣng. Sau khi trình bày về quy trình, giải pháp đề xuất, luận án áp dụng
phƣơng pháp đề xuất cho bộ dữ liệu tín dụng. Phần cịn lại của chƣơng thực hiện
thực nghiệm trên các bộ dữ liệu tín dụng và so sánh kết quả với một số phƣơng
pháp lựa chọn đặc trƣng khác.

Chƣơng 3: Đề xuất một phƣơng pháp trích xuất đặc trƣng dựa trên việc xây
dựng một hàm nhân mới trên cơ sở kết hợp một số hàm nhân cơ bản nhằm biến đổi
không gian đặc trƣng phù hợp với miền dữ liệu. Sau khi trình bày về quy trình,
phƣơng pháp đề xuất, phƣơng pháp đề xuất đƣợc tiến hành trênbốn bộ dữ liệu ung
thƣ. Việc thực nghiệm và so sánh với một số kỹ thuật khác đƣợc thực hiện ở phần
còn lại của chƣơng.

6

Chƣơng 1.

TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƢNG

Hầu hết các lĩnh vực khoa học và công nghệ ngày nay đều địi hỏi phân tích
dữ liệu nhằm bóc tách các tri thức hữu ích giúp cải tiến hay nâng cao hiệu quả của
các lĩnh vực này. Dữ liệu quan sát và thu thập đƣợc từ những ứng dụng trong thực
tế thƣờng chứa nhiều thông tin nhiễu, dƣ thừa, đặc biệt vớitập dữ liệu có số lƣợng
thuộc tính lớn cóthể dẫn tới việc tốn kém tài nguyên khiáp dụng kỹ thuật phân tích
dữ liệu, và nhiều trƣờng hợp khơng thể thực hiện đƣợc. Xuất phát từ nhu cầu thực
tiễn đó, các kỹ thuật rút gọn đặc trƣng đƣợc nghiên cứu và phát triển để giải quyết
những vấn đề trên. Nội dung chƣơng này nhằm giới thiệu tổng quan về vấn đề rút
gọn đặc trƣng và điểm lại một số hƣớng nghiên cứu về rút gọn đặc trƣng tiêu biểu
hiện nay. Phần cuối của chƣơng sẽ đƣa ra một số phân tích, đánh giá một số kỹ
thuật rút gọn đặc trƣng thƣờng đƣợc áp dụng hiện nay.

1.1

Rút gọn đặc trƣng

Rút gọn đặc trƣng đƣợc hiểu là quá trình thu gọn hoặc biến đổi không gian
biểu diễn dữ liệu ban đầu thành một không gian con hoặc một khơng gian mới có số
đặc trƣng nhỏ hơn không gian ban đầu mà vẫn giữ đƣợc các đặc tính của dữ liệu
gốc. Trong nhiều trƣờng hợp, tập dữ liệu ban đầu có chứa nhiều đặc trƣng không
liên quan cho sự mô tả bản chất của hiện tƣợng mà ta quan tâm, khi đó có thể loại
bỏ các đặc trƣng không liên quan này và chỉ giữ lại các đặc trƣng quan trọng. Có
hai phƣơng pháp để rút gọn đặc trƣng gồm lựa chọn đặc trƣng và trích xuất đặc
trƣng.

1.2
-

Lựa chọn đặc trƣng

Lựa chọn đặc trưng (Feature Selection): chọn lựa một tập con các đặc trƣng
từ các đặc trƣng ban đầu mà khơng có sự thay đổi về giá trị của đặc trƣng.
x1
x2
⋮
xN

𝑙ự𝑎 𝑐𝑕ọ𝑛 đặ𝑐 𝑡𝑟ư𝑛𝑔

x𝑖 1
x𝑖 2
⋮
x𝑖 M

(𝑀 < 𝑁)

Hình 1.1 Lựa chọn đặc trƣng.
7

Lựa chọn đặc trƣng là một trong những phƣơng pháp hết sức tự nhiên để giải
quyết vấn đề loại bỏ các đặc trƣng dƣ thừa, trùng lặp và không liên quan trong dữ
liệu. Kết quả của lựa chọn đặc trƣng là một tập con các đặc trƣng từ tập đặc trƣng
ban đầu nhƣng vẫn đảm bảo các tính chất của dữ liệu gốc. Lựa chọn đặc trƣng giúp:
(1) cải tiến hiệu năng (về tốc độ, khả năng dự đoán, và đơn giản hóa mơ hình); (2)
trực quan hóa dữ liệu cho việc lựa chọn mơ hình; (3) giảm chiều và loại bỏ nhiễu.
1.2.1

Mục tiêu của lựa chọn đặc trưng

Mục tiêu chính của lựa chọn đặc trƣng là xác định các đặc trƣng quan trọng
và loại bỏ các đặc trƣng không liên quan hoặc khơng phù hợp. Các thuật tốn lựa
chọn đặc trƣng khác nhau sẽ có thể có các mục tiêu khác nhau. Một số mục tiêu
thƣờng đƣợc sử dụng:
-

Tìm ra tập con các đặc trƣng có kích cỡ nhỏ nhất có thể, mà nó là cần và đủ
cho việc phân tích dữ liệu (cụ thể ở đây là phân lớp)

-

Chọn một tập con có M đặc trƣng từ một tập gồm N đặc trƣng ban đầu
(M
-

Chọn một tập con các đặc trƣng nhằm cải tiến độ chính xác dự đốn hoặc
làm giảm kích cỡ của tập dữ liệu mà khơng làm giảm độ chính xác dự đốn
của bộ phân lớp.
1.2.2

Phân loại các kỹ thuật lựa chọn đặc trưng

Dựa vào tính sẵn có của thông tin nhãn lớp (label), kỹ thuật lựa chọn đặc
trƣng có thể đƣợc chia thành ba loại: phƣơng pháp có giám sát, bán giám sát, và
khơng giám sát. Thơng tin nhãn có sẵn của lớp giúp cho các thuật tốn lựa chọn đặc
trƣng có giám sát lựa chọn đƣợc các đặc trƣng phù hợp. Khi chỉ có một số ít dữ liệu
đã đƣợc gán nhãn, có thể sử dụng lựa chọn đặc trƣng bán giám sát, trong đó có thể
tận dụng đƣợc lợi thế của cả dữ liệu đƣợc gán nhãn và dữ liệu không đƣợc gán
nhãn. Hầu hết các thuật toán lựa chọn đặc trƣng bán giám sátđều dựa trên việc xây
dựng ma trận tƣơng tự và lựa chọn các đặc trƣng phù hợp nhất với ma trận tƣơng tự
đó.

8

1.2.3

Các thành phần chính của lựa chọn đặc trưng

Liu và Motoda[59] chỉ ra ba thành phần chính của lựa chọn đặc trƣng là: (1)
Chiến lƣợc tìm kiếm tập con, (2) Hƣớng tìm kiếm hay nguyên tắc lựa chọn, bổ
sung, loại bỏ hoặc thay đổi đặc trƣng trong quá trình tìm kiếm, và (3) Tiêu chí đánh
giá các tập con khác nhau.Hình 1.2 dƣới đây thể hiện lựa chọn đặc trƣng theo 3
thành phần nói trên.
Tiêu chí đánh giá

Chính xác
Nhất qn
Tồn bộ Kinh nghiệm
Cơ bản

Khơng xác định

Chiến lƣợc tìm kiếm
Tiến
Lùi
Ngẫu nhiên
Hƣớng tìm kiếm

Hình 1.2 Ba thành phần chính của lựa chọn đặc trƣng[59]

(1) Chiến lƣợc tìm kiếm
Do số tập con là 2N nên khơng gian tìm kiếm sẽ tăng theo hàm mũ khi N tăng
lên. Khơng gian tìm kiếm sẽ là tƣơng đối nhỏ khi số lƣợng đặc trƣng N là nhỏ. Khi
khơng gian tìm kiếm lớn thì chiến lƣợc tìm kiếm đƣợc sử dụng sẽ ảnh hƣởng lớn tới
hiệu năng của nó. Kết quả tìm kiếm phụ thuộc vào việc lựa chọn chiến lƣợc tìm
kiếm. Mục tiêu là tìm đƣợc một tập con các đặc trƣng tối ƣu trong thời gian ít nhất
có thể theo các tiêu chí cho trƣớc. Các chiến lƣợc tìm kiếm có thể đƣợc chia thành 3
nhóm dƣới đây.
Tìm kiếm tồn bộ (chiến lược vét cạn): trong chiến lƣợc này, tất cả các khả
năng có thể của các tập con sẽ đƣợc kiểm tra. Kết quả cuối cùng một tập con tốt
9

nhất theo tiêu chí tìm kiếm. Độ phức tạp khơng gian của chiến lƣợc này trong
trƣờng hợp tổng quát nhất là 𝛰 2𝑁 . Khi biết trƣớc đƣợc hƣớng tìm kiếm, thì khơng

gian tìm kiếm sẽ là

𝑁
0

+

𝑁
1

+⋯+

𝑁
𝑀

Trong đó, M là số lƣợng đặc trƣng tối

thiểu của một tập con thỏa mãn một số tiêu chí đánh giá nào đó.
Tìm kiếm theo kinh nghiệm: là quá trình tìm kiếm sử dụng hàm đánh giá để
hƣớng dẫn sự tìm kiếm. Mục tiêu của hàm đánh giá nhằm xác định theo kinh
nghiệm định hƣớng để tìm đƣợc tập con tối ƣu. Chiến lƣợc tìm kiếm theo kinh
nghiệm chỉ thực hiện theo một lộ trình cụ thể và tìm ra một tập con gần tối ƣu nên
nó cho kết quả nhanh hơn so với chiến lƣợc tìm kiếm vét cạn.
Tìm kiếm khơng xác định: chiến lƣợc này khác với hai chiến lƣợc kể trên ở
chỗ nó tìm kiếm tập con kế tiếp một cách ngẫu nhiên. Chiến lƣợc này thƣờng đƣợc
áp dụng trong không gian tìm kiếm khá lớn và tồn tại nhiều giá trị tối ƣu cục bộ. Ƣu
điểm chính là của chiến lƣợc này là tránh đƣợc các tối ƣu cục bộ và tƣơng đối dễ cài
đặt.
(2)Hƣớng tìm kiếm
Việc tìm kiếm tập con các đặc trƣng tối ƣu trong khơng gian tìm kiếm có thể

bắt đầu từ một tập rỗng sau đó lần lƣợt thêm từng đặc trƣng hoặc bắt đầu từ một tập
đủ các đặc trƣng rồi loại bỏ từng đặc trƣng. Với việc tìm kiếm nhƣ vậy thì thời gian
trung bình để tìm ra tập con tối ƣu giữa các hƣớng tìm kiếm khác nhau khơng có sự
khác biệt. Việc tạo ra tập con các đặc trƣng có mối liên hệ chặt chẽ với hƣớng tìm
kiếm.
Tìm kiếm tiến tuần tự(Sequential Forward Generation-SFG): Bắt đầu từ một
tập rỗng các đặc trƣng Sselect Tại mỗi bƣớc tìm kiếm, dựa trên một số tiêu chí nhất
định, một đặc trƣng đƣợc thêm vào tập Sselect. Quá trình tìm kiếm này sẽ dừng lại
khi tất cả các đặc trƣng trong tập đặc trƣng ban đầu đƣợc thêm vào Sselect . Kết quả
là một danh sách xếp hạng các đặc trƣng đƣợc tạo ra theo thứ tự đƣợc thêm vào
Sselect.
Tìm kiếm lùi tuần tự (Sequential Backward Generation-SBG): Bắt đầu với
một tập đủ các đặc trƣng. Tại mỗi bƣớc tìm kiếm dựa vào một số tiêu chí nào đó,

10

(Luận án tiến sĩ) nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về