Tóm tắt Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.47 MB, 27 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ NGÂN

NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN
VÀ ỨNG DỤNG

Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.01.04

TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2017

Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại
học Quốc gia Hà Nội
Người hướng dẫn khoa học: PGS. TS. Hà Quang Thụy
PGS.TS. Phan Xuân Hiếu
Phản biện: PGS. TS Lương Chi Mai...........................
Viện CNTT, Viện Hàn lâm KH&CNVN........................
Phản biện: PGS.TS Đỗ Văn Thành .............................
Bộ Kế hoạch và Đầu tư ...................................................
Phản biện: TS. Nguyễn Thị Minh Huyền ...................
Trường Đại học Khoa học Tự nhiên, ĐHQGHN............
Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia
chấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHN
vào hồi 09 giờ ngày 12 tháng 12 năm 2017
Có thể tìm hiểu luận án tại:
-

Thư viện Quốc gia Việt Nam

-

Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà

MỞ ĐẦU
Tính cấp thiết của luận án
Phân lớp là một trong những bài toán điển hình trong khai phá
dữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực của
đời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp
được tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớp
đơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tới
phân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyền
thống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phân
lớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn.
Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng
với nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đa
thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện
và các thể hiện này tương ứng với nhiều nhãn.
Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phương
pháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đa
nhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuật
toán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Phân
lớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộng
đồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như các
nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng
sự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, Sebastián

Ventura Soto và cộng sự, v.v.
Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn,
tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các
phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết
những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn.
1

Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng
vào phân lớp văn bản tiếng Việt.
Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khai
thác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toán
MULTICS [PTNgan5], [PTNgan6]) trên cơ sở áp dụng một chiến
lược tham lam khi tích hợp hai thuật toán LIFT và TESC .
Thứ hai, luận án đề nghị hai mô hình biểu diễn dữ liệu cho phân lớp đa
nhãn là mô hình biểu diễn dữ liệu đồ thị khoảng cách [PTNgan4] khai thác
các thông tin bậc cao về trật tự và khoảng cách đặc trưng trong văn bản và
mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] khai thác các thông tin ngữ
nghĩa ẩn trong văn bản làm giàu thêm các đặc trưng cho mô hình.
Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãn
văn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn bao
gồm mô hình gán nhãn thực thể có tên đề xuất trong [PTNgan1] và
mô hình hệ tư vấn xã hội đề xuất trong [PTNgan2].
Luận án cũng thực thi các thực nghiệm kiểm chứng các thuật toán
và mô hình đề xuất. Dữ liệu thực nghiệm được thu thập từ các trang web
tiếng Việt liên quan tới miền ứng dụng. Luận án cũng cung cấp một
nghiên cứu tổng quan về học máy đa nhãn.
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung,
phần kết luận và danh mục tài liệu tham khảo. Hình 0.1 cung cấp một
khung nhìn sơ bộ về phân bố các chủ đề trong bốn chương của luận án.

Chương 1 cung cấp một khái quát từ phân lớp đơn nhãn tới phân lớp
đa nhãn; tập trung vào các vấn đề cơ bản của học đa nhãn bao gồm
phương pháp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh giá.
Chương 2 đề xuất hai mô hình phân lớp đơn nhãn thông qua hai
bài toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt.
2

Hình 0.1 Phân bố các chủ đề trong các chương của luận án

Chương 3 đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa
nhãn: sử dụng mô hình chủ đề ẩn LDA và mô hình đồ thị khoảng
cách kết hợp với mô hình LDA.
Chương 4 phân tích và đề xuất một tiếp cận phân lớp đa nhãn bán
giám sát với đặc trưng riêng biệt dựa trên kỹ thuật phân cụm.
Chương 1
TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN
1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa
thể hiện
Mục này cung cấp một khung tổng quát về sự tiến hóa trong bài
toán phân lớp từ phân lớp truyền thống đơn nhãn tới phân lớp đa
nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện và phân lớp đa
nhãn đa thể hiện.
1.2. Giới thiệu chung về phân lớp đa nhãn
1.2.1.

Kỹ thuật phân lớp đa nhãn

Kỹ thuật phân lớp đa nhãn được định hướng theo hai tiếp cận là
3

các kỹ thuật theo tiếp cận chuyển đổi bài toán và các kỹ thuật theo
tiếp cận thích nghi thuật toán.
Kỹ thuật chuyển đổi bài toán là đưa bài toán phân lớp đa nhãn
trở về bài toán phân lớp truyền thống và sử dụng các kỹ thuật vốn có.
Kỹ thuật thích nghi thuật toán là cải biên các thuât toán vốn có cho
bài toán phân lớp truyền thống thích nghi được với bài toán phân lớp.
1.2.2.

Biểu diễn dữ liệu cho phân lớp đa nhãn

Ngoài đặc thù mỗi dữ liệu có thể tương ứng với nhiều nhãn lớp,
dữ liệu đầu vào của bài toán phân lớp đa nhãn có thêm một số đặc
điểm bổ sung so với dữ liệu đầu vào của bài toán phân lớp đơn nhãn.
Một số đặc điểm cần quan tâm là độ đo dữ liệu đa nhãn, phân bố
nhãn trong tập dữ liệu miền ứng dụng, mỗi quan hệ giữa các nhãn,…
1.2.3.

Đánh giá phân lớp đa nhãn

Trong bài toán học máy truyền thống, hiệu quả của hệ thống học
được đánh giá thông qua các độ đo thông thường như độ chính xác
(accuracy), độ hồi tưởng (recall), độ đo hài hoà F-measure,… Tuy
nhiên, việc đánh giá hiệu quả thực thi trong học đa nhãn phức tạp
hơn nhiều so với học đơn nhãn truyền thống vì mỗi một mẫu có thể
đồng thời thuộc về nhiều lớp. Do đó, một số độ đo đánh giá hiệu quả
của hệ thống học đa nhãn được đề xuất. M.L. Zhang và Z.H. Zhou
[Zhang14] chia các độ đo thành hai nhóm là độ do dựa trên mẫu và
độ đo dựa trên nhãn.

1.3. Giảm chiều dữ liệu trong phân lớp đa nhãn
Xu thế của dữ liệu lớn làm nảy sinh hiện tượng “bủng nổ chiều
dữ liệu” làm ảnh hưởng trực tiếp đến việc áp dụng các thuật toán vốn
có. Mặt khác, tập đặc trưng có thể tồn tại các đặc trưng không liên
quan hoặc dư thừa tác động không tốt tới hiệu quả học mô hình và
4

phân lớp. Hai vấn đề về giảm chiều dữ liệu được đề xuất bao gồm
giảm chiều đặc trưng đầu vào và giảm chiều không gian nhãn đầu ra.
1.4. Học bán giám sát cho phân lớp đa nhãn
Việc gán nhãn cho dữ liệu đòi hỏi nhiều công sức và thời gian
trong khi dữ liệu không có nhãn thì rất sẵn có và dễ dàng thu được.
Tiếp cận học bán giám sát nhận được sự quan tâm của cộng đồng.
1.5. Kết luận chương 1
Chương 1 trình bày về các dạng bài toán phân lớp với bước phát
triển từ phân lớp đơn nhãn, phân lớp đa nhãn đến phân lớp đa nhãn đa
thể hiện. Chương này tập trung vào trình bày tổng quan về phân lớp đa
nhãn bao gồm dữ liệu đa nhãn và biểu diễn dữ liệu đa nhãn; kỹ thuật
phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn.
Chương 2 HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN
TIẾNG VIỆT
2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên
có điều kiện và tiêu chuẩn kỳ vọng tổng quát
2.1.1. Nhận diện thực thể có tên

Nhận diện thực thể có tên (NER) là bài toán khá cơ bản trong
nhóm các bài toán trích chọn thông tin. Bài toán có nhiệm vụ tìm
kiếm và rút ra những thông tin liên quan đến thực thể trong văn bản,
thông thường là loại thực thể.

2.1.2. Mô hình đề xuất

Tiêu chuẩn kỳ vọng tổng quát [Druck08] là những điều kiện trong
hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mô hình
[Gideon08, Gideon10]. Luận án đề xuất một mô hình gán nhãn bán giám
sát [PTNgan1] sử dụng các tiêu chuẩn kỳ vọng tổng quát [Gideon08]
nhằm kết hợp những tri thức tiền nghiệm vào mô hình huấn luyện, khai
5

thác mô hình xác suất theo chủ đề ẩn Latent Dirichlet Allocation (LDA)
để xây dựng tập ràng buộc về phân phối xác suất của các đặc trưng và tập
thực thể cho trước, từ đó tính toán kỳ vọng có điều kiện của mô hình. Tiêu
chuẩn kỳ vọng tổng quát được sử dụng để xác định tham số ước lượng
cho hàm mục tiêu của mô hình trường ngẫu nhiên có điều kiện CRFs trên
tập đặc trưng mức từ như đặc trưng từ loại (POS), đặc trưng theo ký tự và
đặc trưng theo cửa sổ trượt để bổ sung thêm quan hệ trước sau nhằm nâng
cao hiệu quả cho mô hình. Bài toán nhận diện thực thể có tên:
Đầu vào:
- D: tập mọi dữ liệu văn bản liên quan đến miền ứng dụng
- DL ⊂ D: tập ví dụ mẫu chứa thực thể đã được gán nhãn.
- DU ⊂ D: tập ví dụ mẫu chứa dữ liệu văn bản chưa gán nhãn.
- L: tập các thực thể có tên
Đầu ra:
- Bộ gán nhãn thực thể có tên M: DL.
Mô hình giải quyết bài toán trình bày ở Quy trình 2.1 và hình 2.1.
Pha 1: Các bước tiền xử lý dữ liệu
Bước 1: Module tách câu, tách từ
Bước 2: Gán nhãn từ loại cho mỗi từ POS
Bước 3: Gán nhãn thực thể NER

Pha 2: Xây dựng bộ phân lớp bán giám sát dựa trên mô hình
trường điều kiện ngẫu nhiên CRF kết hợp tiêu chuẩn tổng quát
Bước 1: Xây dựng tập ràng buộc trên tập DU
Bước 2: Lựa chọn tập thuộc tính trên DL
Bước 3: Xây dựng bộ gán nhãn
Bước 4: Đánh giá mô hình

Quy trình 2.1. Thủ tục giải quyết bài toán

2.1.3 Ứng dụng mô hình

Mô hình áp dụng trong miền ứng dụng nhận diện thực thể có tên
tiếng Việt trên văn bản pháp luật. Thực nghiệm được tiến hành trên
một số tập ràng buộc khác nhau kết hợp với các tập dữ liệu huấn
luyện khác nhau để đánh giá mức độ ảnh hưởng của các ràng buộc và
dữ liệu có nhãn đến mô hình. Đồng thời, chúng tôi tiến hành thực
6

nghiệm gán nhãn thực thể sử dụng mô hình CRF làm cơ sở để so
sánh với phương pháp đề xuất.

Hình 2.1. Mô hình đề xuất

Kết quả thực nghiệm ở Bảng 2.3 cho thấy, mô hình đề xuất cho
kết quả tốt nhất là 90.14% và luôn cao hơn mô hình cơ sở.
ER

PR%

ORG
PER
LOC
ALL

90.00
100.00
12.50
58.33

ORG
PER
LOC
ALL

90.00
100.00
56.25
77.78

ORG
PER
LOC
ALL

100.00
100.00
75.00
88.89

CRF
RE%
F1 %
PR%
500 tokens of training data
75.00
81.82
90.00
66.67
80.00
100.00
100.00
22.22
25.00
72.41
64.62
63.89
1000 tokens of training data
100.00
94.74
90.00
83.33
90.91
100.00
81.82
66.67
56.25
87.50
82.35
77.78

1500 tokens of training data
71.43
83.33
100.00
100.00
100.00
100.00
100.00
85.71
75.00
88.89
88.89
88.89

CRF-GE
RE%

F1 %

100.00
66.67
100.00
82.14

94.74
80.00
40.00
71.88

100.00

90.91
75.00
87.50

94.74
95.24
64.29
82.35

83.33
90.91
100.00
91.43

90.91
95.24
85.71
90.14

Bảng 2.1. Kêt quả thực nghiệm mô hình gán nhãn thực thể có tên

7

2.2. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội
2.2.1. Sơ bộ về tư vấn xã hội

Hệ tư vấn xã hội được định nghĩa trên hai khía cạnh: theo nghĩa
hẹp và theo nghĩa rộng. Trong đó, theo nghĩa hẹp, hệ tư vấn xã hội là
hệ tư vấn truyền thống có sử dụng các quan hệ xã hội trực tuyến như

quan hệ niềm tin, quan hệ bạn bè, quan hệ thành viên, quan hệ theo
dõi,… là một đầu vào bổ sung cho hệ thống. Theo nghĩa rộng, hệ tư
vấn xã hội là hệ tư vấn bất kỳ hướng tới lĩnh vực phương diện xã hội.
2.2.2. Mô hình đề xuất

Luận án đề xuất một hệ thống tư vấn xã hội sử dụng mô hình lọc
cộng tác với phương pháp hướng người dùng xây dựng tập đặc trưng
từ mối quan hệ xã hội và độ tương đồng giữa người dùng [PTNgan2].
Mô hình đề xuất xây dựng tập người dùng tin cậy dựa trên sự kết hợp
kỹ thuật phân tích quan điểm người dùng, tính toán độ tương đồng
người dùng và xây dựng tập đặc trưng khác nhau nhằm đánh giá sự
ảnh hưởng đặc trưng đền quyết định tư vấn, bằng phân tích thống kê
sản phầm yêu thích của người dụng tin cậy, lựa chọn sản phẩm có khả
năng cao nhất tư vấn cho người dùng. Trong mô hình, tập sản phẩm
xem xét được coi là tập nhãn được xác định trước, việc tư vấn sản
phẩm chính là gán cho người dùng một sản phẩm trong tập các sản
phẩm xem xét. Bài toán tư vấn xã hội:
Đầu vào:
- D: Tập dữ liệu là tập các bình luận của người dùng về sản
phẩm. Chia tập D thành tập Dtrain làm dữ liệu huấn luyện và
Dtest làm dữ liệu kiểm thử.
- L: Danh sách các sản phẩm quan tâm
Đầu ra:
- Hệ tư vấn các sản phẩm cho người dùng mới M:DtrainL
8

Phương pháp giải quyết bài toán được trình bày ở Quy trình 2.2.
Pha 1: Xây dựng tập dữ liệu về người dùng
Bước 1: Lựa chọn các danh mục sản phẩm để tư vấn – tập

nhãn L
Bước 2: Phân tích quan điểm người dùng trên tập dữ
liệu D để tìm ra tập sản phẩm người dùng quan tâm
Pha 2: Xây dựng hệ thống tư vấn cho người dùng mới về sản phẩm
Bước 1: Tập dữ liệu về người dùng được chia ngẫu nhiên
thành 2 tập dữ liệu huấn luyện (Dtrain) và tập kiểm thử
(Dtest)
Bước 2: Xác định độ tương đồng trên tập người dùng
Dtrain và mỗi người dùng trên tập Dtest để tìm ra tập
người dùng tin cậy trên Dtrain.
Bước 3: Xác định tập sản phẩm ưa thích của tập người
dùng tin cậy để tư vấn cho người dùng mới.
Bước 4: Đánh giá hiệu quả của hệ tư vấn.

Quy trình 2.2. Thủ tục giải quyết bài toán

Hình 2.2. Mô hình đề xuất

2.2.3. Ứng dụng mô hình

Mô hình được áp dụng trong xây dựng hệ tư vấn xã hội cho người
dùng về sản phẩm điện thoại di động (ĐTDĐ) trên mạng xã hội
Facebook bao gồm 7 thương hiệu sản phẩm ĐTDĐ nổi tiếng. Dữ liệu
9

về người dùng được thu thập và phân tích quan điểm để xây dựng
danh sách sản phẩm yêu thích. Mô hình cũng đề xuất xây dựng 2 loại
tập tập đặc trưng bao gồm đặc trưng tiểu sử và đặc trưng xã hội được
đánh giá riêng biệt và kết hợp để xác định độ tương đồng giữa người

dùng và tập người dùng tin cậy làm cơ sở tư vấn sản phẩm.
Kết quả thực nghiệm ở Bảng 2.2. cho thấy, việc sử dụng tập đặc
trưng khác nhau ảnh hưởng đến quyết định tư vấn, trong đó đặc
trưng xã hội có ảnh hưởng tốt hơn đặc trưng tiểu sử, đồng thời việc
kết hợp cả hai loại đặc trưng cho kết quả tốt nhất. Mặt khác, tại mỗi
thực nghiệm, độ chính xác bậc thấp luôn cao hơn độ chính xác bậc
cao cho thấy kết quả tư vấn với số lượng ít sản phẩm cho kết quả tốt
hơn nhiều sản phẩm.
Features
Đặc trưng tiểu sử
Đặc trưng xã hội
Kết hợp 2 loại đặc trưng

P@1
0.416
0.456
0.512

P@2
0.385
0.429
0.487

P@3
0.353
0.407
0.446

MAP@3
0.377

0.424
0.481

Bảng 2.2. Kết quả thực nghiệm

2.3. Kết luận chương 2
Chương này trình bày về hai mô hình phân lớp đơn nhãn do
luận án đề xuất bao gồm mô hình gán nhãn thực thể có tên và mô
hình hệ tư vấn xã hội. Các kết quả nghiên cứu trong Chương 2 được
công bố trong [PTNgan1], [PTNgan2].
Chương 3
PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ
LIỆU THEO CHỦ ĐỀ ẨN
3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo
chủ đề ẩn
3.1.1. Biểu diễn dữ liệu theo chủ đề ẩn

Mục này trình bày về biểu diễn dữ liệu theo mô hình chủ đề ẩn
10

LDA [Blei03, Blei12].
3.1.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo
chủ đề ẩn

Phát biểu bài toán phân lớp sử dụng phương pháp biểu diễn dữ
liệu theo chủ đề ẩn như sau:
Đầu vào:
-

: tập dữ liệu văn bản đa nhãn chia thành 2 tập Dtrain làm tập dữ
liệu huấn luyện và tập Dtest làm tập dữ liệu kiểm thử.

-

DU: tập dữ liệu không nhãn liên quan đến chủ đề thuộc miền
ứng dụng để xây dựng mô hình chủ đề ẩn.

-

L: tập nhãn cho trước gồm q nhãn

Đầu ra:
-

Mô hình phân lớp đa nhãn M sao cho M được đánh giá kiểm thử
đạt hiệu quả cao.
Mô hình đề xuất được thể hiện trong Quy trình 3.1 và mô hình

đề xuất tại hình 3.1.
Pha 1: Huấn luyện mô hình
Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ
từ dừng, chuẩn hóa dữ liệu và biểu diễn dữ liệu theo đặc
trưng TF.IDF cho tập Dtrain
Bước 2: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và
tập đặc trưng về phân phối chủ đề ẩn trên mỗi câu của
tập Dtrain.
Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông
tin tương hỗ MI [Doquire11] để rút gọn và tìm ra tập đặc
trưng tiêu biểu nhất cho quá trình phân lớp.

Bước 4: Xây dựng bộ phân lớp đa nhãn
Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện
Bước 1: Tiền xử lý dữ liệu kiểm thử Dtest
Bước 2: Xây dựng tập đặc trưng cho dữ liệu kiểm thử Dtest
Bước 3: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1

Quy trình 3.1. Thủ tục giải quyết bài toán

11

Hình 3.1. Mô hình đề xuất

Trọng tâm của mô hình xây dựng tập đặc trưng bao gồm đặc
trưng TF.IDF và đặc trưng về phân phối xác suất chủ đề ẩn LDA
trong văn bản được thực hiện ở bước 1, 2 ở pha huấn luyện mô hình.
Mô hình chủ đề ẩn LDA cung cấp các đặc trưng ngữ nghĩa ẩn trong
văn bản nhằm biểu diễn văn bản được đầy đủ hơn. Ngoài ra, mô hình
còn áp dụng một kỹ thuật lựa chọn đặc trưng nhằm làm loại bỏ đặc
trưng dư thừa, chọn lọc các đặc trưng hữu ích nhất. Đây là một trong
các bước cơ bản trong các mô hình học máy nhằm tăng cường thực
thi của mô hình.
3.1.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn
Mô hình đề xuất được áp dụng trong bài toán đánh giá danh tiếng
khách sạn, trong đó tập trung vào 5 lĩnh vực: sự phục vụ nhân viên, chất
lượng phòng, khách sạn, chất lượng đồ ăn, vị trí và giá cả, trang thiết bị.
Dữ liệu thực nghiệm được thu thập từ các website du lịch, xây dựng 2 tập
dữ liệu bao gồm tập dữ liệu có gán nhãn làm tập huấn luyện và kiểm thử, và tập
dữ liệu không nhãn để xây dựng mô hình chủ đề ẩn LDA. Để đánh giá hiệu quả

12

mô hình chúng tôi thiết kế thực nghiệm với các tập đặc trưng khác nhau bao
gồm: đặc trưng TF.IDF; TF.IDF và đặc trưng xác suất chủ đề ẩn LDA với số
lượng chủ đề ẩn khác nhau; TF.IDF+đặc trưng LDA+kỹ thuật rút gọn đặc trưng
MI. Kết quả thực nghiệm được thể hiện ở Bảng 3.2 cho thấy kết quả tốt nhất
nhận được khi kết hợp đặc trưng theo cách thứ 3 là TF.IDF + LDA + MI.
Average of 5-folds valuation
TF.IDF
TF.IDF + LDA_15 topics
TF.IDF + LDA_20 topics
TF.IDF + LDA_25 topics
TF.IDF + LDA_20 topics + Feature Selection

Precision
0.6764
0.6798
0.6827
0.6793
0.6835

Recall
0.7025
0.7056
0.7125
0.7075
0.7108

F1

0.6804
0.6842
0.6883
0.6844
0.6890

Bảng 3.1. Kết quả mô hình đề xuất

3.2. Phân lớp đa nhãn văn bản dựa trên đồ thị khoảng cách và
mô hình chủ đề ẩn
3.2.1. Mô hình biểu diễn văn bản theo đồ thị khoảng cách

Mục này trình bày về biểu diễn dữ liệu theo đồ thị khoảng cách
[Aggarwal13]. Luận án giới thiêu một số phát hiện so sánh biểu diễn
dữ liệu văn bản theo n-gram và theo đồ thị khoảng cách.
3.2.2. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo
đồ thị khoảng cách chủ đề ẩn

Mô hình chủ đề ẩn [Blei03, Blei12] được sử dụng hiệu quả trong
nhiều bài toán, khai thác được các đặc trưng ngữ nghĩa ẩn, đặc trưng
tổng quát trong tài liệu. Bên cạnh đó, mô hình đồ thị khoảng cách
[Aggarwal13] biểu diễn được thông tin ở bậc cao bao gồm các đặc
trưng tần suất, các đặc trưng trật tự và khoảng cách giữa các từ trong
văn bản.
Luận án đề xuất tiếp cận làm giàu đặc trưng kết hợp hai mô hình
theo hướng khai thác đặc trưng về chủ đề ẩn trong các tài liệu, sau đó
sử dụng đồ thị khoảng cách biểu diễn cấu trúc kết nối giữa các chủ đề
(thay vì cấu trúc từ như trong [Aggarwal13]) thể hiện ở Bước 1, 2
13

trong pha huấn luyện mô hình nhằm khai thác các thông tin về tần suất
chủ đề, khoảng cách giữa các chủ đề, thứ tự giữa các chủ đề… làm
giàu thêm đặc trưng cho mô hình.
Phát biểu bài toán như đã trình bày tại mục 3.1.2. Mô hình giải
quyết bài toán thể hiện ở Quy trình 3.2.và Hình 3.2.
Pha 1: Huấn luyện mô hình
Bước 1: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và
biểu diễn câu chủ đề trên tập dữ liệu Dtrain
Bước 2: Biểu diễn đồ thị khoảng cách trên câu chủ đề trên
tập Dtrain
Bước 3: Xây dựng bộ phân lớp đa nhãn
Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện
Bước 1: Xây dựng tập đặc trưng dựa trên mô hình chủ đề
ẩn và biểu diễn đồ thị khoảng cách cho tập Dtest
Bước 2: Phân lớp và đánh giá hiệu quả của mô hình

Quy trình 3.2. Thủ tục giải quyết bài toán

Hình 3.2. Mô hình phân lớp đa nhãn dựa trên đồ thị khoảng cách và mô hình chủ đề ẩn.

3.2.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn

Mô hình được ứng dụng giải quyết bài toán đánh giá danh tiếng
khách sạn như trình bày ở mục 3.1.3. Đầu tiên, xây dựng các mô hình chủ
14

đề ẩn LDA với số lượng chủ đề ẩn khác nhau là 10, 15, 25 50 và 100.

Bảng 3.2. Kết quả mô hình đề xuất

Dựa trên mô hình chủ đề ẩn, chuyển đổi dữ liệu biểu diễn theo từ
sang biểu diễn câu chủ đề. Xây dựng mô hình đồ thị khoảng cách trên
câu chủ đề với số bậc khác nhau lần lượt là: 0,1,2,3
Kết quả phân lớp thể hiện ở Bảng 3.2 cho thấy mô hình đề xuất
cho kết quả tốt hơn phương pháp cơ sở sử dụng đặc trưng tần suất
xuất hiện theo mô hình không gian vectơ và tốt hơn phương pháp
biểu diễn sử dụng mô hình đồ thị khoảng cách trên tập từ.
3.3. Kết luận chương 3
Chương 3 đã trình bày hai phương pháp biểu diễn dữ liệu cho
phân lớp đa nhãn bao gồm mô hình biểu diễn dựa trên mô hình chủ
15

đề ẩn LDA và mô hình biểu diễn dựa trên đồ thị khoảng cách kết hợp
chủ đề ẩn LDA. Các kết quả nghiên cứu trong Chương 3 được công
[PTNgan3, PTNgan4].
Chương 4 KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN
VĂN BẢN TIẾNG VIỆT
4.1. Tiếp cận phân cụm bán giám sát
Mục này giới thiệu về kỹ thuật phân cụm bán giám sát nói chung
gồm tiếp cận dựa trên ràng buộc và tiếp cận dựa trên khoảng cách.
4.2. Mô hình phân lớp đa nhãn bán giám sát
4.2.1. Phát biểu bài toán phân lớp đa nhãn bán giám sát
Phát biểu bài toán phân lớp đa nhãn bán giám sát theo tiếp cận
phân cụm bán giám sát được thể hiện như sau:
Gọi D = {D , D } là tập văn bản, trong đó D vàD tương ứng là
tập dữ liệu đã gán nhãn và tập dữ liệu chưa gán nhãn, trong đó L là tập
bao gồm q nhãn được định nghĩa trước L = l , l , … , l ;

Trong bước huấn luyện, mục tiêu là xây dựng một phân hoạch C
trên
tập
dữ
liệu
D = {D , D }, C = {C , … , C }
và
()

()

C = d , … , d|

(1 ≤ i ≤ m), trong đó, ⋃
C = D vàC ∩
C = ∅(1 ≤ i ≠ j ≤ m). Các văn bản trong mỗi hoạchC được gán
|

cùng nhãn cụm l .
Sau khi thu được phân hoạch C, chúng tôi xây dựng mô hình phân
lớp sử dụng phương pháp tìm kiếm láng giềng gần nhất để dự đoán tập
nhãn cho các dữ liệu không nhãn theo công thức.
l(d ) = l
Trong đó, C = arg

min dis d , c , c

(4.1)
là tâm cụmC

và

dis(. ) là độ đo khoảng cách được sử dụng để xác định độ tương tự của
dữ liệu. Theo đó, văn bản chưa gán nhãn d sẽ được gán nhãn của
cụmC là cụm gần nhất với d . Mô hình đã tận dụng được dữ liệu chưa
gán nhãn đưa vào quá trình phân hoạch và xây dựng mô hình phân lớp f
16

để dự đoán nhãn cho các dữ liệu không nhãn d .
4.2.2. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán
giám sát
Ý tưởng của thuật toán được phát triển từ tiếp cận khai thác đặc
trưng riêng nhãn là đặc trưng mang tính chất phân biệt của một nhãn
trong LIFT do M. L. Zhang và L. Wu đề xuất [Zhang15] và tiếp cận về
phân cụm bán giám sát TESC do W. Zhang và cộng sự đề xuất
[Zhang15]. Trong khi việc xây dựng tập đặc trưng riêng nhãn trong
LIFT dựa trên tập âm, dương (tập chứa nhãn và không chứa nhãn),
tiếp cận của luận có sự khác biệt trong phân chia tập dữ liệu kết hợp
chiến thuật tham lam, tập đặc trưng riêng biệt được tạo ra không chỉ
cho một nhãn mà có thể là cho cả một tập nhãn. Trong khi LIFT sử
dụng kỹ thuật phân cụm giám sát (Kmeans), luận án sử dụng một kỹ
thuật phân cụm bán giám sát TESC nhằm tận dụng được nguồn tài
nguyên không nhãn phong phú để nâng cao thực thi của mô hình.
TESC nguyên thủy được sử dụng cho dữ liệu đơn nhãn, do đó thuật
toán đề xuất đã có những bước chuyển đồi thích hợp mà không làm
mất tính chất dữ liệu đa nhãn. Sau khi phân cụm dữ liệu, bước phân
lớp dựa trên kỹ thuật láng giềng gần nhất để gán nhãn của cụm gần
nhất cho dữ liệu không nhãn.
Mô hình gồm hai bước: Bước 1 – phân cụm dữ liệu. Bản chất là xây

dựng tập đặc trưng riêng biệt cho các nhãn theo trình tự nhãn chiếm ưu
thế. Bước 2 – phân lớp nhằm xác định tập nhãn cho dữ liệu dựa trên kỹ
thuật láng giềng gần nhất khai thác tập nhãn của cụm láng giềng gần nhất.
Thuật toán phân cụm được đặt tên là MULTICSLearn(.) được
trình bày theo dạng giả mã (pseudo-code) như sau:
( , 1, 2, )
Đầu vào:
: Tập dữ liệu có nhãn và không nhãn.

17

={

,

}, Trong đó

và
lần lượt là tập dữ liệu có nhãn và không nhãn. Khởi tạo
ban đầu
là toàn bộ tập dữ liệu huấn luyện.
: tập nhãn mặc định cho tất cả dữ liệu trong
. Khởi tạo ban
đầu
là tập rỗng.
: tập nhãn (ngoài
) có thể thêm vào dữ liệu trong
( = \ ). Khởi tạo ban đầu
là tập tất cả các nhãn

Đầu ra:
: tập các cụm được gán nhãn.
1. Gọi
là một nhãn trong tập
có tần xuất xuất hiện
lớn nhất trong tập dữ liệu
2. Xây dựng tập nhãn giả ∗ = { , , }, trong đó
← ∪ { },
← ∪ { } ∪ {" : ¹ÆÙ Ì \{ }},
← \{ }
←
( , { , , });
∗
←
( , ∗)
3. Chia tập dữ liệu thành 3 tập con dựa trên phân hoạch
∗
:
a.
: tập chứa dữ liệu có nhãn và không nhãn
trong đó dữ liệu có nhãn được gãn nhãn
b.
: tập chứa dữ liệu có nhãn và không nhãn
trong đó dữ liệu có nhãn được gãn nhãn
c.
: tập chứa dữ liệu có nhãn và không nhãn
trong đó dữ liệu có nhãn được gãn nhãn
4. Đối với tập
:
( , 1 ∪ { })

← ∪
5. Đối với tập
a. Nếu mọi dữ liệu trong
có cùng tập nhãn, gọi
tập nhãn này là
( , )
← ∪
b. Ngược lại
( ,
È{λ}, \{λ}, )
6. Đối với tập
a. Nếu mọi dữ liệu trong
có cùng tập nhãn, gọi
tập nhãn này là
( , )
← ∪
b. Ngược lại
(
, , \{λ}, )
7. Return

Thủ tục 4.1. Thủ tục phân cụm MULTICSLearn

Để tìm được phân hoạch
C rỗng

trên tập dữ liệu, đầu tiên khởi tạo tập

={}, sau đó gọi thủ tục phân cụm với các tham số như sau:
( , {}, , ). Phân hoạch này là cơ sở xây dựng mô

hình phân lớp ở bước tiếp theo.
Trong bước phân lớp dữ liệu, đầu vào là phân hoạch
18

trên tập

dữ liệu được xây dựng ở bước huấn luyện và dữ liệu cần gán nhãn.
Đầu ra của bước này sẽ là tập nhãn tương ứng với mỗi văn bản cần
gán nhãn. Phương pháp 1NN được áp dụng ở bước này theo hướng
tính khoảng cách của văn bản cần gán nhãn với tâm các cụm để tìm
ra cụm gần nhất, khi đó nhãn cụm gần nhất sẽ được gán cho văn bản
cần gán nhãn. Giả mã của bước phân lớp được thể hiện như sau:
Thủ tục MULTICSClassifier
Đầu vào:
: tập các cụm dữ liệu đã được gán nhãn
= { ,…, }
: tập dữ liệu chưa gán nhãn
Đẩu ra:
: Tập các nhãn tương ứng với mỗi văn bản trong
1. Với mỗi văn bản
∈
2.
=
//
là cụm đầu tiên xét đến trong
3.
=
//

là nhãn của cụm
4.
Với mỗi cụm
∈
5.
,
=
−
//tính khoảng cách của
và
6.
If
,
>
,
7.
=
8. Endif
9.
End for
10.
=
11. Thêm
vào tập
12. End for

Thủ tục 4.2. Thủ tục MULTICSClassification

Do tính chất phức tạp trong phân chia dữ liệu, độ phức tạp thuật
toán đề xuất rất khó để đưa ra trường hợp tổng quát. Một số trường

hợp đơn giản có thể xác định thuật toán thực thi tương đối tốt.
- Trường hợp vùng |D2| ≈ |D3| ≈ | |/2. Thời gian thực thi bao
gồm thời gian phân hoạch theo TESC và 2 lần đệ quy MULTICS
trên D2 và D3: ( ) ≈
này là (

+ 2 ( /2). Độ phức tạp trong trường hợp

).

- Trường hợp vùng |D1| ≈ |D2| ≈ |D3| ≈ | |/3. Tương tự, tính
được thời gian thực thi: ( ) ≈
tạp trong trường hợp này là (

+
).
19

/9 + 2 × ( /3). Độ phức

4.2.3. Mô hình phân lớp đa nhãn bán giám sát đề xuất

Quy trình các bước giải quyết bài toán được thực hiện như sau:
Pha 1: Xây dựng mô hình phân lớp đa nhãn dựa trên kỹ thuật phân
cụm bán giám sát
Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu
huấn luyện bao gồm dữ liệu có nhãn và dữ liệu không nhãn
Bước 2: Làm giàu đặc trưng
Bước 3: Rút gọn đặc trưng

Bước 4: Xây dựng bộ phân lớp theo thuật toán
MULTICSLearn.
Pha 2: Phân lớp dữ liệu và đánh giá
Bước 1: Tiền xử lý và xây dựng tập đặc trưng cho dữ liệu
kiểm thử
Bước 2: Làm giàu đặc trưng
Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng
rút gọn
Bước 4: Sử dụng bộ phân lớp trên tập dữ liệu kiểm thử và
đánh giá.

Quy trình 4.1. Các bước giải quyết bài toán theo mô hình đề xuất

Mô hình biểu diễn cho quy trình này được thể hiện ở Hình

Hình 4.1. Mô hình phân lớp bán giám sát đề xuất

4.3. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát
Thừa hưởng các kết quả thu được từ các mô hình biểu diễn
dữ liệu theo chủ đề ẩn (đã trình bày ở Chương 3) nhằm khai thác các
ngữ nghĩa ẩn làm giàu cho tập đặc trưng và tiếp cận bán giám sát
phân lớp đa nhãn theo thuật toán MULTICS trình bày ở trên, luận án
20

đề xuất một mô hình phân lớp đa nhãn bán giám sát cho miền ứng
dụng văn bản tiếng Việt như trình bày ở mục 3.1.3 và các bước giải
quyết bài toán được thực hiện theo Quy trình 4.2.
Pha 1: Huấn luyện mô hình
Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ

từ dừng, chuẩn hóa dữ liệu và biểu diễn dữ liệu theo đặc
trưng TF.IDF / Nhị phân
Bước 2: Xây dựng mô hình chủ đề ẩn LDA và tập đặc trưng
chủ đề ẩn.
Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông
tin tương hỗ MI do Doquire và Verleysen đề xuất để rút
gọn và tìm ra tập đặc trưng tiêu biểu nhất cho quá trình
phân lớp.
Bước 4: Xây dựng bộ phân lớp đa nhãn sử dụng thuật toán
MULTICS
Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện
Bước 1: Tiền xử lý dữ liệu kiểm thử và xây dựng tập đặc
trưng
Bước 2: Bổ sung tập đặc trưng phân phối chủ đề ẩn cho dữ
liệu huấn luyện
Bước 3: Biểu diễn dữ liệu kiểm thử theo tập đặc trưng
lựa chọn
Bước 4: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1

Quy trình 4.2. Quy trình giải quyết bài toán.

Hình 4.2. Mô hình phân lớp đa nhãn bán giám sát mở rộng

21

Để đánh giá hiệu quả của mô hình đề xuất, một bộ thực nghiệm
được thiết kế như sau :

-

Thực nghiệm 1 (BN): Chỉ sử dụng tập đặc trưng nhị phân.

-

Thực nghiệm 3 (BN+LDA): Sử dụng đặc trưng nhị phân và đặc trưng
phân phối xác suất chủ đề ẩn LDA.

-

Thực nghiệm 4 (TFIDF+LDA): Sử dụng tập đặc trưng TFIDF và đặc
trưng phân phối xác suất chủ đề ẩn LDA.

-

Thực nghiệm 5 (TFIDF+LDA+MI): Sử dụng tập đặc trưng TFIDF và đặc
trưng chủ đề ẩn LDA với kỹ thuật lựa chọn đặc trưng.

Thực nghiệm 2 (BN+MI): Sử dụng đặc trưng nhị phân và lựa chọn đặc
trưng sử dụng thông tin tương hỗ.

Training
dataset
size

500

750

1000

Unlabeled
dataset
size

Precisionmicro
(%)

BN
Recallmicro
(%)

F1micro
(%)

Precisionmicro
(%)

0
50
100
200
300
0
50
100
200
300
0
50

100
200
300

77.4
81.4
80.6
83
79.6
77.7
82.4
82.1
80.7
79
80.1
80.7
81.3
81
82.4

81.1
77.7
78.7
82.5
80.4
81.5
81.3
82.3
82.5
82.3

79.6
81
83.3
84.4
83.9

79.2
79.5
79.7
82.7
80
79.6
81.8
82.2
81.6
80.6
79.8
80.9
82.3
82.6
83.2

74.3
76.3
73.1
74.8
81
75.7
77
74.8

74.1
79.9
80.3
78.4
83.1
75.9
78.2

BN + MI
Recallmicro
(%)

75.8
78.7
78.5
76.4
76.1
76.8
78.2
78.2
81.2
80.4
78.1
81.2
82.7
84.6
80.9

F1micro
(%)

75
77.5
75.7
75.6
78.5
76.2
77.6
76.4
77.5
80.2
79.1
79.8
82.8
80
79.5

Unlabeled
dataset size

Bảng 4.2. Kết quả thực nghiệm 1 và thực nghiệm 2
BN+LDA F1micro (%)

TFIDF+LDA F1micro (%)

Number of topics

TFIDF+LDA+MI F1 micro (%)

Number of topics

Number of topics

10

15

25

50

100

10

15

25

50

100

10

15

25

50

100

0

79.4

79.1

79.2

80.5

80.6

79.2

81.5

82.4

80

80.9

79.5

82.4

80.5

80.7

80.6

50

79.5

80.1

80

80.9

80.9

78.4

82.5

85.3

81.5

82.2

82

83.9

81.8

83.7

82.8

100

81.1

81.1

79.6

80.3

80.2

84.9

84.4

82.3

83.5

83.4

83.5

82.8

83.6

82.7

200

79.8

80.6

79.8

80

79.8

81.3
79.4
3

81.9

81.2

81.4

82.3

82.3

81.4

83.5

83.8

83.6

80.2

79.8

80.6

79.7

80.3

80.8

81.9

82.6

81.7

83.8

80.5

83.4

84

83.6

83.9

300

Bảng 4.3. Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5

Kết quả thực nghiệm 1, 2 ở Bảng 4.2 và Bảng 4.3 cho thấy mô
hình đề xuất bổ sung đặc trưng chủ đề ẩn LDA kết hợp đặc trưng
22

TFIDF cho kết quả tốt nhất khi thực thi thuật toán MULTICS. Đồng
thời, việc sử dụng lựa chọn đặc trưng không cho hiệu quả tốt hơn. Điều
này có thể lý giải bởi trong thuật toán MULTICS, không phải toàn bộ
tập đặc trưng được lựa chọn mà chỉ sử dụng các đặc trưng liên quan do
đó cũng có ý nghĩa của việc lựa chọn đặc trưng liên quan và bỏ đi những
đặc trưng dư thừa. Mặt khác do với đặc trưng phân phối xác suất chủ đề
ẩn LDA, nên đặc trưng TFIDF kết hợp LDA cho kết quả tốt hơn đặc
trưng nhị phân BN kết hợp LDA.
4.5. Kết luận chương 4
Chương 4 đề xuất một thuật toán phân lớp đa nhãn dựa trên phân

cụm bán giám sát (MULTICSLearn, MULTICSClassification) trên cơ
sở tích hợp thuật toán phân lớp đa nhãn LIFT và thuật toán phân cụm
đơn nhãn TESC. Một chiến thuật “tham lam” và một phương thức gán
“nhãn giả” được áp dụng trong tích hợp hai thuật toán nền. Thuật
toán được đề xuất được áp dụng vào một mô hình phân lớp đa nhãn
văn bản tiếng Việt. Các kết quả nghiên cứu trong Chương 4 được
công bố trong [PTNgan5 ,PTNgan6]
KẾT LUẬN
I. Những kết quả chính của luận án
Luận án đạt được một số đóng góp sau đây về phân lớp đơn
nhãn và đa nhãn văn bản tiếng Việt.
Thứ nhất, luận án đề xuất hai mô hình phân lớp đơn nhãn. Mô
hình gán nhãn thực thể có tên được đề xuất là một mô hình học bán
giám sát trường ngẫu nhiên có điều kiện CRFs dựa trên tiêu chuẩn kỳ
vọng tổng quát. Mô hình hệ tư vấn xã hội dựa trên các kỹ thuật phân
tích quan điểm người dùng, sử dụng mô hình lọc cộng tác hướng người
dùng dựa vào sự tương đồng giữa các người dùng trong mạng xã hội.
Thứ hai, luận án đề xuất hai giải pháp biểu diễn dữ liệu phân
lớp đa nhãn văn bản tiếng Việt bao gồm phương pháp biểu diễn dữ
23

Tóm tắt Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về