(Luận án tiến sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.12 MB, 152 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NGÂN

NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN
VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ CÔNG NGHÊ THÔNG TIN

Hà Nội – 2017

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NGÂN

NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN
VÀ ỨNG DỤNG

Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.01.04
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS HÀ QUANG THỤY
2. PGS.TS PHAN XUÂN HIẾU

Hà Nội – 2017

LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là cơng trình nghiên cứu của riêng tơi. Các
kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng
tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực
và chưa từng được công bố trong các công trình nào khác.
Nghiên cứu sinh

Phạm Thị Ngân

i

LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống thông tin – Khoa Công nghệ
thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội dưới sự hướng
dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TS. Phan Xuân Hiếu.
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy và
thầy Phan Xuân Hiếu, những người đã đưa tôi tiếp cận và đạt được những thành
công trong lĩnh vực nghiên cứu của mình. Tơi đặc biệt gửi lời cảm ơn tới thầy Hà
Quang Thụy đã luôn tận tâm, động viên, khuyến khích và chỉ dẫn tơi hồn thành
được bản luận án này.
Tơi xin bày tỏ lịng biết ơn tới thầy Nguyễn Trí Thành đã nhiệt tình hướng
dẫn và truyền đạt các kinh nghiệm nghiên cứu trong quá trình tôi thực hiện luận án.
Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học
thuộc Trường Đại học Công nghệ (đặc biệt là các thành viên của Phịng thí nghiệm
khoa học dữ liệu và công nghệ tri thức – DS&KTlab) - Đại học Quốc gia Hà Nội đã
giúp đỡ về chuyên môn và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học
tập và nghiên cứu.
Tơi xin bày tỏ lịng cảm ơn chân thành tới các cộng sự đã cùng tôi thực hiện

các cơng trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và chia sẻ
những kinh nghiệm về chun mơn, đóng góp các ý kiến q báu cho tơi trong q
trình nghiên cứu.
Tơi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đóng
góp các ý kiến q báu để tơi hồn thiện luận án.
Tơi cũng bày tỏ lịng lịng cảm ơn sâu sắc tới Ban giám đốc Học viện Cảnh
sát nhân dân; Tập thể lãnh đạo Bộ mơn Tốn-Tin học, Học viện Cảnh sát nhân dân
đã tạo kiện thuận lợi cho tôi trong q trình nghiên cứu; cảm ơn các đồng chí trong
Bộ mơn Tốn-Tin học đã ln ủng hộ, quan tâm và động viên tôi.
Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại,
các anh chị em đã ln chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững
chắc cho tôi trong suốt thời gian qua.

ii

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ...........................................vii
DANH MỤC CÁC BẢNG ....................................................................................... ix
DANH MỤC CÁC HÌNH VẼ................................................................................... x
MỞ ĐẦU .................................................................................................................... 1
Chương 1.

TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN ...... 10

1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện .... 10
1.1.1.

Phân lớp đơn nhãn ................................................................................. 10

1.1.2.

Phân lớp đơn nhãn đa thể hiện .............................................................. 11

1.1.3.

Phân lớp đa nhãn ................................................................................... 12

1.1.4.

Phân lớp đa nhãn đa thể hiện ................................................................. 13

1.2. Giới thiệu chung về phân lớp đa nhãn ......................................................... 14
1.2.1.

Kỹ thuật phân lớp đa nhãn ..................................................................... 15

1.2.1.1.

Tiếp cận chuyển đổi bài tốn .......................................................16

1.2.1.2.

Tiếp cận thích nghi thuật tốn......................................................22

1.2.1.3.

Tóm tắt về các thuật toán được giới thiệu ...................................28

1.2.2.

Dữ liệu đa nhãn ..................................................................................... 29

1.2.2.1.

Các độ đo dữ liệu đa nhãn............................................................29

1.2.2.2.

Phân bố nhãn ................................................................................30

1.2.2.3.

Mối quan hệ giữa các nhãn ..........................................................30

1.2.3.

Đánh giá phân lớp đa nhãn .................................................................... 31

1.2.3.1.

Các độ đo dựa trên mẫu ...............................................................32

1.2.3.2.

Các độ đo dựa trên nhãn ..............................................................34

1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn ................................................ 36
iii

1.3.1.

Tiếp cận giảm chiều không gian đặc trưng đầu vào .............................. 37

1.3.2.

Tiếp cận giảm chiều không gian nhãn đầu ra ........................................ 41

1.4. Học bán giám sát cho phân lớp đa nhãn ...................................................... 43
1.5. Kết luận chương 1 .......................................................................................... 43
Chương 2.

HAI MƠ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG

VIỆT

........................................................................................................... 45

2.1. Mơ hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều
kiện và tiêu chuẩn kỳ vọng tổng quát ........................................................... 45
2.1.1.

Nhận diện thực thể có tên ...................................................................... 45

2.1.2.

Mơ hình đề xuất ..................................................................................... 46

2.1.2.1. Sử dụng tiêu chuẩn kỳ vọng tổng qt vào mơ hình trường nhẫu
nhiên có điều kiện CRFs ..............................................................................48
2.1.2.2.

Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng qt ........51

2.1.2.3.

Mơ hình đề xuất cho bài tốn nhận diện thực thể có tên .............52

2.1.3.

Ứng dụng mơ hình ................................................................................. 56

2.2. Một mơ hình phân lớp đơn nhãn trong hệ tư vấn xã hội ........................... 59
2.2.1.

Sơ bộ về tư vấn xã hội ........................................................................... 59

2.2.2.

Mơ hình đề xuất ..................................................................................... 62

2.2.3.

Ứng dụng mơ hình ................................................................................. 66

2.3. Kết luận chương ............................................................................................. 68

Chương 3.

PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ

LIỆU THEO CHỦ ĐỀ ẨN .................................................................................... 70
3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn ...... 70
3.1.1.

Biểu diễn dữ liệu theo chủ đề ẩn ........................................................... 70

3.1.2.

Mơ hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ
đề ẩn
................................................................................................ 75

3.1.2.1.

Pha 1 – Huấn luyện mơ hình ........................................................77

3.1.2.2.

Pha 2 – Đánh giá mơ hình huấn luyện .........................................82
iv

3.1.3.

Ứng dụng phân lớp đa nhãn đánh giá khách sạn ................................... 83

3.1.3.1.

Xây dựng tập dữ liệu thực nghiệm ..............................................84

3.1.3.2.

Thực nghiệm ................................................................................85

3.1.3.3.

Kết quả thực nghiệm ....................................................................86

3.2. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng
cách các chủ đề ẩn .......................................................................................... 87
3.2.1.

Mơ hình biểu diễn văn bản theo đồ thị khoảng cách ............................. 89

3.2.1.1.

Biểu diễn dữ liệu theo đồ thị khoảng cách...................................89

3.2.1.2.

Mơ hình đồ thị khoảng cách và mơ hình n-gram .........................92

3.2.2.

Mơ hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ
thị khoảng cách chủ đề ẩn ..................................................................... 93

3.2.2.1.

Pha huấn luyện mơ hình...............................................................95

3.2.2.2.

Pha phân lớp sử dụng mơ hình huấn luyện ..................................97

3.2.3.

Ứng dụng phân lớp đa nhãn đánh giá khách sạn ................................... 98

3.3. Kết luận chương 3 ........................................................................................ 100
Chương 4.

KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN

BẢN TIẾNG VIỆT ................................................................................................ 102
4.1. Tiếp cận phân cụm bán giám sát ................................................................ 102
4.1.1.

Tiếp cận dựa trên ràng buộc ................................................................ 102

4.1.2.

Tiếp cận dựa trên khoảng cách ............................................................ 103

4.2. Mơ hình phân lớp đa nhãn bán giám sát ................................................... 105
4.2.1.

Phát biểu bài toán phân lớp đa nhãn bán giám sát .............................. 105

4.2.2.

Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát106

4.2.2.1.

Thuật toán TESC và LIFT .........................................................107

4.2.2.2.

Thuật toán phân lớp đa nhãn bán giám sát ................................109

4.2.3.

Mơ hình phân lớp đa nhãn bán giám sát đề xuất ................................. 116

4.3. Một mơ hình ứng dụng phân lớp đa nhãn văn bản bán giám sát ............ 117
4.3.1.

Mơ hình đề xuất ................................................................................... 117

v

4.3.1.1.

Pha 1. Huấn luyện mơ hình ........................................................118

4.3.1.2.

Pha 2. Phân lớp sử dụng mơ hình huấn luyện ...........................120

4.3.2.

Ứng dụng phân lớp đa nhãn sử dụng mơ hình đề xuất ........................ 120

4.4. Kết luận chương 4 ........................................................................................ 123
KẾT LUẬN ............................................................................................................ 124
DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI
LUẬN ÁN ............................................................................................................... 128
TÀI LIỆU THAM KHẢO .................................................................................... 129

vi

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Kí hiệu
ANN
BPMLL
BR
CC
CDE
CLR
CML
CRFs
CTM
DTM

ECC
EPCC
EPS
FE
FS
IBLR
IG
kNN
LC
LP
LDA
LIFT
LP
LSA
MI
MIML
MLC
ML-DT
ML-kNN
MLL
MLNB
MMAC
MMP

Tiếng Anh
Artificial neural network
Backpropagation for Multilabel
Learning
Binary Relevance
Classifier Chains

Tiếng Việt
Mạng Nơ-ron nhân tạo
Phân lớp đa nhãn mạng Nơron
lan truyền ngược
Phân lớp nhị phân
Chuỗi bộ phân lớp
Phương pháp tích hợp phụ
ChiDep Ensemble
thuộc Chi
Calibrated Label Ranking
Xếp hạng nhãn xác định
Collective Multi-Label Classifier Bộ phân lớp đa nhãn nhóm
Conditional Random Fields
Trường ngẫu nhiên có điều kiện
Corelated Topic Model
Mơ hình chủ đề tương quan
Dynamic Topic Model
Mơ hình chủ đề động
Ensemble of Classifier Chains
Tích hợp chuỗi bộ phân lớp
Ensemble of Probabilistic
Tích hợp chuỗi bộ phân lớp xác
Classiﬁer Chains
suất
Ensemble of Pruned Sets
Tích hợp các tập cắt tỉa
Feature Extraction
Trích chọn đặc trưng
Feature Selection

Lựa chọn đặc trưng
Instance-Based Learning by
Học dựa trên thực thể bằng hồi
Logistic Regresion
quy logic
Information Gain
Độ lợi thông tin
k Nearest Neighbour
k láng giềng gần nhất
Label Combination
Kết hợp nhãn
Label Powerset
Tập lũy thừa nhãn
Latent Dirichlet Allocation
Mơ hình chủ đề ẩn
Multi-Label Learning with Label Học đa nhãn với đặc trưng nhãn
specIfic FeaTures
riêng biệt
Label Power set
Tập lũy thừa nhãn
Latent Semantic Analysis
Phân tích ngữ nghĩa ẩn
Mutual Information
Thông tin tương hỗ
Multi-Instance Multi-Label
Đa nhãn đa thể hiện
Multi-Label Classiffication
Phân lớp đa nhãn
Multi-Label Decision Tree
Cây quyết định đa nhãn

Multi-Label k Nearest Neighbour k Láng giềng gần nhất đa nhãn
Multi-Label Learning
Học đa nhãn
Multilabel Naive Bayes
Naïve Bayes đa nhãn
Multiclass Multilabel Associative
Phân lớp kết hợp đa nhãn đa lớp
Classiﬁcation
Multilabel Multiclass
Thuật toán Perceptron phân lớp
Perceptron
đa lớp đa nhãn
vii

MuLAM

Multilabel Ant - Miner

NER
PCA
PCC

Named Entity Recognition
Principal Component Analysis
Probabilistic Classiﬁer Chains

PCT

Predictive Clustering Trees

PMM1
PMM2
POS
PS
PW
RPC
RSL
SVM
TESC
TFIDF

Thuật toán tối ưu đàn kiến đa
nhãn
Nhận dạng thực thể có tên
Phân tích thành phần chính
Chuỗi bộ phân lớp xác suất
Thuật tốn cây phân cụm dự
đốn

Parametric Mixture Models

Mơ hình hòa trộn tham số

Part Of Speech
Pruned Sets
Pairwise Methods
Ranking by Pairwise
Comparision
Ranking via Single-label

Learning
Support Vector Machine
TExt classification using Semisupervised Clustering
Term Frequency Inverse
Document Frequency

Từ loại
Các tập bị cắt tỉa
Phương pháp cặp đôi
Phương pháp xếp hạng theo so
sánh cặp đôi
Xếp hạng thông qua học đơn
nhãn
Máy vectơ hỗ trợ
Phân lớp văn bản sử dụng phân
cụm bán giám sát
Trọng số về tần suất và độ quan
trọng của từ

viii

DANH MỤC CÁC BẢNG
Bảng 1.1 Ví dụ về dữ liệu đa nhãn ............................................................................16
Bảng 1.2 Tóm tắt các thuật tốn phân lớp đa nhãn ...................................................29
Bảng 1.3 Bảng ký hiệu dữ liệu phân lớp thực và dự đoán ........................................34
Bảng 2.1 Mẫu ngữ cảnh từ vựng ...............................................................................55
Bảng 2.2 Mẫu ngữ cảnh phát hiện tên thực thể.........................................................55
Bảng 2.3 Kết quả thực nghiệm ..................................................................................57
Bảng 2.4 Bảng đặc trưng tiểu sử và đặc trưng xã hội của người dùng .....................67

Bảng 2.5 Kết quả thực nghiệm ..................................................................................67
Bảng 3.1 Ví dụ về kết quả của mơ hình chủ đề ẩn cho tài liệu .................................81
Bảng 3.2 Ví dụ về dữ liệu đa nhãn ............................................................................82
Bảng 3.3 Tập dữ liệu thực nghiệm ............................................................................84
Bảng 3.4 Tập dữ liệu huấn luyện ..............................................................................84
Bảng 3.5 Tập dữ liệu cho mơ hình chủ đề ẩn............................................................85
Bảng 3.6 Kết quả phân lớp ........................................................................................86
Bảng 3.7 Bảng phân phối tập từ trên mỗi chủ đề ẩn .................................................96
Bảng 3.8 Kết quả thực nghiệm của mơ hình phân lớp đa nhãn dựa trên mơ hình chủ
đề ẩn và đồ thị khoảng cách ....................................................................................100
Bảng 4.1 Kết quả thực nghiệm 1 và thực nghiệm 2 ................................................121
Bảng 4.2 Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5 .......................122

ix

DANH MỤC CÁC HÌNH VẼ
Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và
Scopus (phải) tới năm 2013 [22] .................................................................................3
Hình 0.2 Phân bố các chủ đề trong các chương của luận án .......................................7
Hình 1.1 Phân lớp đơn nhãn truyền thống [128].......................................................10
Hình 1.2 Học đơn nhãn đa thể hiện [128] .................................................................11
Hình 1.3 Học đa nhãn [128] ......................................................................................13
Hình 1.4 Học đa nhãn đa thể hiện [128] ...................................................................14
Hình 1.5 Hai tiếp cận học đa nhãn [21] ....................................................................15
Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn .......................................17
Hình 1.7 Thuật tốn phân lớp BR [89] .....................................................................18
Hình 1.8 Thuật tốn phân lớp CC [64] .....................................................................20
Hình 1.9 Thuật tốn phân lớp CLR [84] ...................................................................21
Hình 1.10 Thuật tốn phân lớp RakEL [43], [84] .....................................................22

Hình 1.11 Thuật tốn ML-kNN [84] .........................................................................23
Hình 1.12 Thuật tốn phân lớp ML-DT [84] ............................................................25
Hình 1.13 Thuật tốn phân lớp Rank-SVM [84] ......................................................26
Hình 1.14 Thuật tốn phân lớp CML [84] ................................................................27
Hình 1.15 Các độ đo đánh giá của hệ thống đa nhãn [84] ........................................31
Hình 1.16 Mơ hình lựa chọn đặc trưng cho phân lớp dữ liệu [47] ...........................36
Hình 2.1 Đồ thị vơ hướng mơ tả CRFs .....................................................................49
Hình 2.2 Mơ hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng
quát ............................................................................................................................53
Hình 2.3 Tập các ràng buộc (Constraint file)............................................................54
Hình 2.4 Kết quả mơ hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng
tổng quát trên các tập ràng buộc khác nhau ..............................................................58
Hình 2.5 Mơ hình hệ thống tư vấn xã hội .................................................................64
Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ
đề [16] .......................................................................................................................72
Hình 3.2 Mơ hình sinh trong LDA [15] ....................................................................73
Hình 3.3 Thuật tốn sinh trong mơ hình LDA ..........................................................73
Hình 3.4 Mơ hình chủ đề ẩn cho bài tốn phân lớp đa nhãn ....................................78
Hình 3.5 Phân tích nhận xét của người dùng về khách sạn Romana ........................87

x

Hình 3.6 Biểu diễn văn bản theo khơng gian vectơ, v1 và v2 là hai văn bản trong
không gian vectơ ba chiều T1, T2, T3 trong đó Ti là từ .............................................88
Hình 3.7 Minh họa biểu diễn đồ thị khoảng cách .....................................................90
Hình 3.8 Mơ hình phân lớp đa nhãn dựa trên biểu diễn dữ liệu theo đồ thị khoảng
cách các chủ đề ẩn. ....................................................................................................94
Hình 3.9 Biểu diễn đồ thị khoảng cách trên câu chủ đề............................................96
Hình 4.1 Mơ hình phân lớp bán giám sát đề xuất ...................................................117

Hình 4.2 Mơ hình ứng dụng phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt
.................................................................................................................................119

xi

MỞ ĐẦU
Tính cấp thiết của luận án
Cùng với sự bùng nổ dữ liệu cả về dung lượng lẫn về chủng loại, phân lớp dữ
liệu tự động là rất cần thiết và là một trong những chủ đề chính trong khai phá dữ
liệu. Trong mười thuật toán khai phá dữ liệu điển hình nhất có tới bảy thuật tốn
liên quan tới bài toán phân lớp là thuật toán C4.5 và cải biên, thuật toán máy vectơ
hỗ trợ SVM (Support Vector Machine, cịn được gọi là máy vectơ tựa), thuật tốn
EM (Expectation–Maximization), thuật toán Adaboost, thuật toán k-láng giềng gần
nhất k-NN, thuật tốn Bayes “ngây thơ” (Nạve Bayes), thuật tốn CART
(Classification and Regression Trees) [121]. Bản chất của bài toán phân lớp dữ liệu
là xây dựng một hàm (hoặc ánh xạ) toàn phần từ tập dữ liệu (gồm các dữ liệu đã tồn
tại hoặc sẽ xuất hiện) thuộc một miền ứng dụng tới một tập hữu hạn nhãn cho trước
dựa trên thông tin đã biết về hàm này trên một tập con các dữ liệu đã được gán nhãn
(được gọi là tập ví dụ mẫu). Hàm kết quả được gọi là mơ hình (bộ) phân lớp
(classification model/classifier) hay mơ hình dự báo (prediction model) lớp. Do bài
tốn phân lớp địi hỏi cho trước một tập ví dụ mẫu cho nên nó cũng được gọi là bài
tốn học có giám sát.
Một thuật tốn phân lớp điển hình thường trải qua hai bước thực hiện. Bước
thứ nhất, được gọi là bước học mơ hình (learning step), thực hiện việc phân tích dữ
liệu thuộc một tập con ví dụ mẫu, được gọi là tập dữ liệu huấn luyện (training
dataset), để xây dựng một mơ hình phân lớp phù hợp với tập dữ liệu huấn luyện. Về
bản chất, ở bước học, thuật toán phân lớp “học” một hàm có khả năng gán nhãn cho
mọi dữ liệu miền ứng dụng. Hàm phân lớp kết quả từ bước học được sử dụng để dự
báo nhãn cho các dữ liệu mới. Tuy nhiên, trước khi đem mơ hình phân lớp vào ứng

dụng thực tế, thuật toán phân lớp cần tiến hành bước đánh giá mơ hình (model
evaluation, hay kiểm thử mơ hình (model testing)). Ở bước đánh giá mơ hình, một
tập con ví dụ mẫu, được gọi là tập dữ liệu kiểm thử (testing data), được sử dụng để
đo độ chính xác của thuật tốn. Mơ hình phân lớp được áp dụng trên các ví dụ trong
tập dữ liệu kiểm thử để nhận được các nhãn dự báo và các nhãn này được so sánh
1

với nhãn thực sự đã có tương ứng của ví dụ. Nếu tỷ lệ nhãn dự báo trùng hợp với
nhãn thực sự càng cao thì mơ hình phân lớp càng chính xác. Nhằm đảm bảo việc
đánh giá mơ hình phân lớp là khách quan, tập dữ liệu kiểm thử và tập dữ liệu huấn
luyện là rời nhau (hai tập dữ liệu khơng chứa chung một ví dụ bất kỳ). Khi chất
lượng của mơ hình phân lớp được khẳng định thì nó được sử dụng để “gán” nhãn
cho mọi dữ liệu chưa có nhãn (hiện có và sẽ có) thuộc miền ứng dụng.
Tính ứng dụng cao của phân lớp làm cho bài tốn phân lớp được tiến hóa từ
đơn giản tới ngày càng phức tạp hơn theo hướng từ phân lớp đơn nhãn tới phân lớp
đa nhãn hoặc phân lớp đa thể hiện, và cho tới phân lớp đa nhãn đa thể hiện [128].
Phân lớp đơn nhãn (còn được gọi là phân lớp truyền thống) quy ước mỗi đối tượng
dữ liệu có duy nhất một nhãn (hàm phân lớp đơn trị). Phân lớp đa nhãn quy ước mỗi
đối tượng dữ liệu có thể có hơn một nhãn (hàm phân lớp đa trị), chẳng hạn, một tài
liệu về chuyển nhượng cầu thủ bóng đá có thể vừa thuộc lớp kinh tế vừa thuộc lớp
thể thao. Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng với
nhiều thể hiện và mỗi đối tượng này tương ứng với một nhãn. Một ví dụ điển hình
về đối tượng đơn nhãn đa thể hiện là coi mỗi đối tượng là một chùm chìa khóa chứa
nhiều chìa khóa, mỗi khóa có thể mở được một phịng [124]. Giả sử có một phịng
khóa cửa và có N chùm chìa khóa, nếu một chùm nào đó chứa chìa khóa mở được
phịng này thì chùm đó được coi là hữu ích. Phân lớp đa nhãn - đa thể hiện quy ước
một đối tượng dữ liệu tương ứng với nhiều thể hiện và các thể hiện này tương ứng
với nhiều nhãn. Chương 1 của luận án sẽ đề cập chi tiết hơn về quá trình tiến hóa
bài tốn phân lớp.

Luận án “Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng” tập
trung vào bài toán phân lớp đa nhãn. Phân lớp đa nhãn (Multi-Label Classiffication:
MLC) hay học đa nhãn (Multi-Label Learning: MLL) là một khung học máy
(learning framwork) giám sát mới nổi trong thời gian gần đây [22], [40], [42], [84].
Khung học máy này đã thể hiện sự phù hợp với thực tế và tính ứng dụng rộng rãi
trong các bài tốn phân lớp, điển hình là trong phân lớp văn bản, phân tích dữ liệu
đa phương tiện, sinh học, khai phá mạng xã hội, học điện tử và nhiều miền ứng

2

dụng khác [21], [40]. Tuy nhiên, học đa nhãn đòi hỏi những tiến hóa mới đối với
các phương pháp học máy cho giải pháp thích hợp với dữ liệu đa nhãn như vấn đề
về mối quan hệ giữa các nhãn, chi phí tính tốn của thuật tốn, vấn đề mất cân bằng
nhãn, vấn đề đa chiều của dữ liệu... Đây là các vấn đề cần tiếp tục nghiên cứu, cải
tiến và phát triển để nâng cao hiệu quả phân lớp đa nhãn.

Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và Scopus
(phải) tới năm 2013 [22]

Chính vì lý do đó, học đa nhãn cuốn hút một cộng đồng nhiên cứu rộng rãi trên
thế giới. Bằng các truy vấn phù hợp vào cơ sở dữ liệu ISI và Scopus [22], E. Gibaja và
S. Ventura nhận được thông tin về số lượng hàng năm các công bố khoa học về học đa
nhãn và trích dẫn tới các cơng bố đó trong các cơ sở dữ liệu ISI và Scopus. Kết quả số
liệu thống kê của các tác giả được chỉ dẫn tại Hình 0.1. Các biểu đồ trong Hình 0.1
chứng tỏ rằng học đa nhãn là chủ đề nhận được sự quan tâm ngày càng tăng trong cộng
đồng nghiên cứu. Tính tới năm 2013, theo các tác giả thì hội nghị ECML/PKDD 2009
và hai hội nghị MLD 2009 và MLD 2010 chứa một lượng đáng kể các cơng trình
nghiên cứu về học đa nhãn. Các nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang
và cộng sự1, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự2, Sebastián Ventura

Soto3 và cộng sự với nhiều đóng góp nổi bật về học đa nhãn.

1

và /> và />3
/>2

3

Học đa nhãn là chủ đề nghiên cứu của một số luận án Tiến sỹ trên thế giới,
chẳng hạn như [51], [67], [92], [111], [113]. Luận án của J. Read [67] đề xuất giải
pháp phân lớp đa nhãn trên quy mơ lớn với hai mơ hình phân lớp dựa trên phương
pháp tập cắt tỉa và chuỗi bộ phân lớp; hai tiếp cận này nhận được đánh giá tốt từ
cộng đồng nghiên cứu nhờ tính hiệu quả trên cả phương diện về sự đa dạng và quy
mô của dữ liệu. Tác giả H.Q.Le [51] đề xuất một kỹ thuật lựa chọn đặc trưng đa lớp
và một thuật toán phân lớp đa nhãn trên miền dữ liệu web có cấu trúc nhóm. Thuật
toán phân lớp đa nhãn đa cặp (Multi-Pair) chuyển đổi bài toán phân lớp đa nhãn về
nhiều bài toán phân lớp nhị phân (OVA One-Vs-All), sau đó, tiếp tục phân tách mỗi
bộ phân lớp nhị phân thành các cặp so sánh nhỏ hơn và đơn giản hơn giữa một
nhóm và một tập con của phần bù của nhóm. Phân tách như vậy giúp tận dụng được
cấu trúc nhóm trong phần bù và giảm sự mất cân bằng dữ liệu trong phương pháp
OVA. Trong một tiếp cận khác, S.S.Bucak [113] đề xuất một phương pháp biểu
diễn ảnh dựa trên học đa nhân và thuật toán học đa nhãn dựa trên tiếp cận xếp hạng
đa nhãn, trong đó thuật tốn xếp hạng đa nhãn sẽ xếp hạng tất cả lớp ảnh sao cho
các lớp liên quan sẽ có hạng cao hơn các lớp ít liên quan. Luận án của S.Jungjit
[111] đề xuất một mơ hình phân lớp đa nhãn kết hợp hai bộ phân lớp đa nhãn kinh
điển là phân lớp đa nhãn k láng giềng gần nhất (MLkNN) và phân lớp đa nhãn mạng
Nơron lan truyền ngược (BPMLL) với giải pháp lựa chọn đặc trưng thơng qua tìm
kiếm các tập con đặc trưng phù hợp.

Theo M. L. Zhang và Z. H. Zhou [84], các cơng trình nghiên cứu sớm nhất về
học đa nhãn là tập trung vào miền ứng dụng phân lớp văn bản [6], [106]. Theo thời
gian, học đa nhãn được ứng dụng vào nhiều miền ứng dụng đa dạng (đặc biệt là miền
ứng dụng phân lớp dữ liệu ảnh) và nhiều phương pháp học đa nhãn đã được đề xuất
[1], [7], [23], [25], [42], [44], [63], [66], [73], [74], [76], [114], [117], [118], [127]. Các
phương pháp ban đầu thường đi theo cách tiếp cận là cố gắng chia bài toán học đa nhãn
thành nhiều bài toán phân lớp hai nhãn hoặc chuyển nó thành phương pháp học máy
xếp hạng nhãn trong phân lớp đa nhãn [23], [42], [73], [74], những tiếp cận gần đây
chú trọng hơn đến việc khai thác mối quan hệ giữa các nhãn [7], [76], [117], [118], tiếp

4

cận khai thác mối quan hệ đa nhãn và dự đoán chuỗi tuần tự [65].
Trong học đa nhãn, các giải pháp biểu diễn dữ liệu và lựa chọn đặc trưng dữ
liệu tốt cho phép nâng cao tính hiệu quả của các giải pháp học đa nhãn [24], [82],
[83], [87], [93], [94], [127] và nhiều giải pháp đã được đề xuất. M.L. Zhang và cộng
sự sử dụng chiến thuật lựa chọn đặc trưng dựa trên phân tích thành phần chính PCA
và các thuật toán di truyền để loại bỏ các đặc trưng dư thừa, không liên quan và chọn
ra tập đặc trưng phù hợp nhất cho bài toán phân lớp [82] hoặc khai thác các đặc trưng
cụ thể cho từng nhãn để sử dụng cho quá trình huấn luyện và kiểm thử [83], [87].
A.Elisseeff và J.Weston sử dụng các đặc trưng nhãn được sắp xếp để khai thác mối
quan hệ giữa các nhãn trong bài toán phân lớp đa nhãn [1]. O.G.R. Pupo và cộng sự
đánh trọng số đặc trưng dựa trên bộ lọc nhằm cải tiến các thuật toán lười (lazy
algorithm) phân lớp đa nhãn [93] hoặc cải tiến thuật toán ReliefF đánh trọng số và
lựa chọn đặc trưng cho phân lớp đa nhãn bao gồm việc sử dụng phương pháp chuyển
đổi bài toán đa nhãn về bài toán phân lớp đơn nhãn và thích nghi thuật tốn ReliefF
trực tiếp giải quyết bài toán phân lớp đa nhãn [94]. Phân tích các đặc trưng dữ liệu
cho phân lớp đa nhãn cũng là một trong các hướng nghiên cứu được quan tâm gần
đây [44].

Tại Việt Nam, qua khảo sát các công trình khoa học được cơng bố, phân lớp
đơn nhãn đã nhận được sự quan tâm rộng rãi của cộng đồng nghiên cứu4. Trong khi
đó, phân lớp đa nhãn, đặc biệt là phân lớp đa nhãn văn bản tiếng Việt, còn khá ít5 và
đa phần do các nhóm nghiên cứu tại Đại học Công nghệ, Đại học Quốc gia Hà Nội
tiến hành và hiện chưa có luận án tiến sỹ nào về phân lớp đa nhãn.
Các tiếp cận về phân lớp đa nhãn trước đây chủ yếu tập trung vào giải thuật
theo phương pháp học giám sát, các mơ hình phân lớp đa nhãn bán giám sát vẫn còn
hiếm. Luận án này tiếp nối các nghiên cứu về phân lớp đa nhãn, tiếp tục phân tích,
đánh giá và đề xuất cải tiến mơ hình phân lớp về phương pháp biểu diễn dữ liệu, lựa

4

Google Scholar trả về tài liệu đối với truy vấn “classification” + “Vietnamese” ngày 26/9/2017
Google Scholar trả về 29 tài liệu đối với truy vấn ““multi-label classification” + “Vietnamese”” ngày
20/12/2016.
5

5

chọn đặc trưng và đề xuất mới thuật toán phân lớp đa nhãn theo phương pháp bán
giám sát nhằm tận dụng nguồn tài nguyên dữ liệu chưa gán nhãn phong phú. Phân
lớp văn bản có tính ứng dụng do sự xuất hiện rộng rãi của văn bản trong mọi lĩnh
vực của đời sống, ở sách báo, thông điệp, diễn đàn,… Do đó, luận án tập trung vào
bài tốn phân lớp đa nhãn văn bản tiếng Việt.
Nghiên cứu của luận án hướng tới một số mục tiêu sau đây. Thứ nhất,
luận án cung cấp một khảo sát khái quát về phân lớp đa nhãn. Thứ hai, luận án đề
xuất các phương pháp biểu diễn dữ liệu và lựa chọn đặc trưng phù hợp nhằm nâng
cao hiệu quả của giải pháp phân lớp đa nhãn văn bản tiếng Việt. Nghiên cứu, đề
xuất các thuật toán phân lớp đa nhãn dựa trên các thuật toán phân lớp hiện đại là

mục tiêu thứ ba của luận án. Cuối cùng, luận án xây dựng một số phần mềm thử
nghiệm thực thi các giải pháp biểu diễn dữ liệu và thuật toán phân lớp đa nhãn được
luận án đề xuất để kiểm chứng tính hiệu quả của các đề xuất đó.
Đối tượng nghiên cứu của luận án là phương pháp biểu diễn dữ liệu, lựa
chọn đặc trưng và thuật toán phân lớp đa nhãn trong miền dữ liệu văn bản tiếng Việt.
Phạm vi nghiên cứu của luận án được giới hạn ở phương pháp biểu diễn dữ
liệu, lựa chọn đặc trưng và thuật toán phân lớp đa nhãn văn bản tiếng Việt, tập trung
vào miền ứng dụng phân tích nhận xét đánh giá tiếng Việt.
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết đề xuất mơ
hình biểu diễn dữ liệu và thuật tốn phân lớp đa nhãn cũng như nghiên cứu thực
nghiệm để kiểm chứng đánh giá các đề xuất của luận án.
Luận án tham gia vào dòng nghiên cứu về phân lớp đa nhãn trên thế giới và
đạt được một số đóng góp được ghi nhận, tập trung vào các nghiên cứu về phân lớp
đa nhãn văn bản tiếng Việt.
Thứ nhất, luận án đề xuất hai mơ hình biểu diễn dữ liệu cho phân lớp đa nhãn
là mơ hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] và mơ hình biểu diễn dữ liệu theo
đồ thị khoảng cách các chủ đề [PTNgan4].
Thứ hai, trên cơ sở phát triển thuật toán phân cụm bán giám sát đơn nhãn
TESC [120], luận án đề xuất một thuật toán phân lớp đa nhãn bán giám sát (Thuật

6

toán MULTICS [PTNgan5], [PTNgan6]) sử dụng chiến thuật “tham lam” khai thác
các đặc trưng riêng biệt của các nhãn.
Thứ ba, luận án tham gia đóng góp vào dịng nghiên cứu về học phân lớp đơn
nhãn văn bản tiếng Việt tương ứng với hai ứng dụng thực tiễn là đề xuất mơ hình
gán nhãn thực thể có tên [PTNgan1] và mơ hình hệ tư vấn xã hội [PTNgan2].
Đồng thời, nhằm minh chứng cho tiềm năng ứng dụng thực tiễn của các mơ
hình đề xuất, luận án thực thi các thực nghiệm để kiểm chứng tính hữu dụng của các

thuật tốn và mơ hình được luận án đề xuất. Kết quả thực nghiệm cho thấy tiềm
năng ứng dụng cao các kết quả nghiên cứu từ luận án.
Luận án cũng có đóng góp trong việc cung cấp một nghiên cứu tổng quan về
học máy đa nhãn.
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo. Hình 0.2 cung cấp một khung nhìn sơ bộ
về phân bố các chủ đề trong bốn chương nội dung của luận án.

Hình 0.2 Phân bố các chủ đề trong các chương của luận án

Chương 1 của luận án cung cấp một nghiên cứu khái quát từ phân lớp đơn
nhãn tới phân lớp đa nhãn. Phân lớp đơn nhãn tuy đơn giản, hiệu quả nhưng khơng
phù hợp với khơng ít tình huống trong thực tế; khung học máy đa nhãn (đơn thể
7

hiện) thể hiện được tính thực tế và ứng dụng rộng rãi trong nhiều bài toán phân lớp;
Các vấn đề cơ bản liên quan đến khung học máy đa nhãn kết tinh ở hai lớp phương
pháp phân lớp đa nhãn (chuyển đổi bài toán và thịch nghi thuật toán), rút gọn đặc
trưng (giảm chiều) và lựa chọn các đặc trưng hữu ích trong phân lớp đa nhãn; các
độ đo và phương pháp đánh giá phân lớp đa nhãn.
Luận án cung cấp hai mơ hình phân lớp đơn nhãn ứng dụng thực tế
[PTNgan1], [PTNgan2]. Mơ hình gán nhãn thực thể có tên tiếng Việt dựa trên mơ
hình trường ngẫu nhiên điều kiện (CRFs) sử dụng tập ràng buộc theo tiêu chuẩn kỳ
vọng tổng qt. Mơ hình hệ tư vấn xã hội tiếng Việt dựa trên tiếp cận lọc cộng tác
kết hợp thông tin bổ sung về người dùng liên quan từ phương tiện xã hội; tác động
của các đặc trưng bổ sung từ phương tiện xã hội tới hiệu quả tư vấn cũng được khảo
sát. Chương 2 của luận án trình bày chi tiết về cách tiếp cận của luận án và mơ hình
phân lớp đơn nhãn được đề cập.
Chương 3 của luận án đề xuất hai mơ hình phân lớp đa nhãn dựa trên tiếp cận

về biểu diễn dữ liệu nhằm cung cấp các đặc trưng mới nâng cao hiệu quả mơ hình.
Trong mơ hình đầu tiên [PTNgan3], biểu diễn dữ liệu theo chủ đề ẩn nhằm khai
thác thông tin ngữ nghĩa ẩn trong văn bản giúp làm giàu thêm các đặc trưng của dữ
liệu và lựa chọn các đặc trưng tiêu biểu, quan trọng hoặc mang tính quyết định (loại
bỏ những đặc trưng khơng có hoặc ít quan trọng) dựa trên thơng tin tương hỗ
(Mutual Information). Một mơ hình ứng dụng cho bài toán đánh giá danh tiếng cho
1000 khách sạn Việt Nam đã được xây dựng. Mơ hình thứ hai [PTNgan4] đề nghị
một phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn. Kết quả
áp dụng mơ hình vào bài tốn đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam
đã minh chứng được tính hiệu quả khi sử dụng biểu diễn đồ thị khoảng cách.
Xây dựng được ví dụ mẫu trong phân lớp đa nhãn là một công việc rất tốn
kém và mất nhiều thời gian do sự tồn tại các mối liên quan giữa các nhãn trong cùng
một thể hiện, vì vậy, phân lớp đa nhãn bán giám sát là một giải pháp hiệu quả. Luận
án đề xuất một thuật toán phân lớp đa nhãn bán giám sát MULTICS [PTNgan5,
PTNgan6] trên cơ sở mở rộng thuật toán phân lớp văn bản đơn nhãn bán giám sát

8

TESC [120]. Luận án xây dựng một mơ hình phân lớp đa nhãn bán giám sát trên nền
thuật toán MULTICS áp dụng vào bài toán xây dựng hệ thống đánh giá danh tiếng
cho 1000 khách sạn ở Việt Nam. Kết quả thực nghiệm cho thấy tính hiệu quả của
thuật tốn MULTICS. Thuật toán MULTICS và các nội dung liên quan được trình
bày trong Chương 4 của luận án.

9

Chương 1. TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP

ĐA NHÃN
Trong mục đầu tiên, luận án trình bày về sự tiến hóa của bài tốn phân lớp từ
phân lớp đơn nhãn truyền thống tới phân lớp đa nhãn đơn thể hiện, phân lớp đơn
nhãn đa thể hiện và cuối cùng là phân lớp đa nhãn đa thể hiện. Tiếp đó, luận án tập
trung phân tích các đặc điểm của phân lớp đa nhãn (đơn thể hiện) bao gồm đặc điểm
của dữ liệu đa nhãn và biểu diễn dữ liệu, kỹ thuật phân lớp đa nhãn và phương pháp
đánh giá phân lớp đa nhãn.

1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện
Bài toán phân lớp dữ liệu về bản chất là xây dựng một hàm từ tập dữ liệu của
miền ứng dụng vào một tập nhãn cho trước. Đối tượng phân lớp trong tập dữ liệu
miền ứng dụng được biểu diễn bằng một tập đặc trưng là kết quả của quá trình khảo
sát và hiểu dữ liệu. Như vậy, một đối tượng phân lớp có thể được biểu diễn bằng
các tập đặc trưng khác nhau. “Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một
tập đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng, ngược lại, “đa thể
hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn
dữ liệu miền ứng dụng. Ngầm định bài toán phân lớp trong luận án là phân lớp dữ
liệu “đơn thể hiện” nếu khơng có chỉ dẫn tường minh.

1.1.1. Phân lớp đơn nhãn
Một cách hình thức, bài tốn phân lớp đơn nhãn được phát biểu như sau: Ký
hiệu

là khơng gian thể hiện (hoặc khơng gian thuộc tính) và

Cho trước một tập mẫu D = *(
thể hiện và

)(

)

là một nhãn đã biết của

(

là tập các nhãn.

)+ trong đó

là một

. Nhiệm vụ đặt ra là cần học một hàm

ánh xạ từ khơng gian thể hiện vào tập các nhãn.

Hình 1.1 Phân lớp đơn nhãn truyền thống [128]

Trong phân lớp đơn nhãn văn bản, các đối tượng phân lớp là tập các văn bản.
Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn
10

bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện).
Mơ hình phân lớp đơn nhãn nhị phân truyền thống đánh giá và kiểm tra mỗi tài liệu
trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không.
Tồn tại một số biến thể của bài toán phân lớp đơn nhãn. Khác với phân lớp
đơn nhãn nguyên thủy yêu cầu mỗi đối tượng được gán duy nhất một nhãn, một số
biến thể phân lớp đơn nhãn cho phép mỗi đối tượng được gán tới một tập nhãn với
mỗi nhãn trong tập tương ứng với một giá trị xác suất hoặc một giá trị hạng [11].

C. C. Aggarwa [11] tổng kết một số kỹ thuật cơ bản trong phân lớp đơn nhãn
và trở thành nền tảng cho các phương pháp phân lớp như phương pháp cây quyết
định, phương pháp dựa trên luật, phương pháp dựa trên thực thể, phương pháp máy
vectơ hỗ trợ, phương pháp mạng nơron, phương pháp xác suất...

1.1.2. Phân lớp đơn nhãn đa thể hiện
Trong nhiều ứng dụng thực tế (phân lớp ảnh, trích chọn ảnh, phân lớp văn
bản, khai phá web, phát hiện thư rác (spam), an ninh máy tính, phát hiện khn
mặt…), một phần tử dữ liệu chỉ thuộc vào một lớp nhưng được biểu diễn bằng một
tập các thể hiện kết hợp với nhau. Đây là bài toán phân lớp đơn nhãn đa thể hiện,
một dạng tiến hóa từ phân lớp đơn nhãn. Theo Z.H Zhou và cộng sự [128], [129],
các cơng trình cơng bố sớm nhất về học đa thể hiện là [95], [115]. Trong bài toán
phân lớp đa thể hiện, mỗi phần tử dữ liệu được biểu diễn dưới dạng túi; tập dữ liệu
huấn luyện bao gồm nhiều túi, mỗi túi chứa nhiều thể hiện, túi được gán nhãn
dương nếu nó chứa ít nhất một thể hiện dương; ngược lại thì gán nhãn âm. Mục tiêu
là gán nhãn cho các túi chưa biết một cách chính xác.

Hình 1.2 Học đơn nhãn đa thể hiện [128]

Cho trước một tập dữ liệu *(

)(

11

)

(

)+ trong đó,

là

{

một tập các thể hiện
số thể hiện trong

và

}
là nhãn của

(

) trong đó,

là

. Khung học máy này học một hàm

ánh xạ từ không gian thể hiện vào tập nhãn.
Trong phân lớp đơn nhãn đa thể hiện trên miền dữ liệu văn bản, các đối tượng
phân lớp là tập các văn bản. Xây dựng các tập các đặc trưng khác nhau (ví dụ như mỗi
tập đặc trưng biểu diễn cho một đoạn văn bản [107], hay mỗi tập đặc trưng biểu diễn
cho một câu trong văn bản [119]), một văn bản được biểu diễn bởi các tập đặc trưng
vừa xây dựng (đa thể hiện). Mơ hình phân lớp đơn nhãn đa thể hiện đánh giá và kiểm
tra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không.
Hầu hết các tiếp cận phân lớp đơn nhãn đa thể hiện được tiến hành theo

phương pháp thích nghi thuật tốn, trong đó một thuật tốn phân lớp đơn nhãn đơn
thể hiện được chuyển đổi theo hướng chuyển hóa mục tiêu phân biệt trên thể hiện
sang mục tiêu phân biệt trên các túi dữ liệu. Theo Z.H Zhou và cộng sự [128], một
số thuật toán phân lớp đơn nhãn đa thể hiện điển hình là: Thuật tốn mật độ thay đổi
(Diverse Density) [95] và thuật toán mật độ thay đổi dựa trên entropy cực đại EMDD [105], thuật toán cây quyết định RELIC [36], thuật toán k láng giềng gần nhất
Citation-kNN và Bayesian – kNN [72], thuật toán mạng nơron BP-MIP và mở rộng
[85], các thuật toán dựa trên máy vectơ hỗ trợ và phương pháp nhân như MI-SVM
[107], DD-SVM [123], MISS-SVM [130], MI-Kernel [116]. Một số tiếp cận theo
phương pháp chuyển đổi bài toán theo hướng chuyển đổi biểu diễn đa thể hiện về
đơn thể hiện được Z.H Zhou và M.L Zhang đề xuất [130].

1.1.3. Phân lớp đa nhãn
Cũng trong nhiều ứng dụng thực tế (phân lớp văn bản, gán nhãn ảnh, dự đoán
chức năng gen, phân lớp video,… ), một đối tượng có thể đồng thời được gán vào
nhiều lớp khác nhau. Đây là bài toán phân lớp đa nhãn. Bài tốn này là một sự tiến
hóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu
đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đề
này sẽ được chỉ ra ở các phần tiếp theo.

12

(Luận án tiến sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về