Tải bản đầy đủ (.pdf) (62 trang)

Giải pháp gom nhóm đặc trưng đồng nghĩa Tiếng Việt trong đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM - KNN và phân cụm HAC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1004.92 KB, 62 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ



Phạm Huyền Trang




GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA
TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM
DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ
PHÂN CỤM HAC





KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin









HÀ NỘI - 2011



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ



Phạm Huyền Trang




GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA
TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM
DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ
PHÂN CỤM HAC




KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin



Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
ThS Trần Mai Vũ




HÀ NỘI - 2011

i

Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo,
PGS-TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn, động
viên, giúp đỡ em trong suốt quá trình thực hiện đề tài.
Em xin gửi lời cảm ơn sâu sắc tới quí Thầy Cô trong Khoa Công nghệ thông tin đã
truyền đạt kiến thức quí báu cho em trong những năm học vừa qua.
Em cũng xin gửi lời cảm ơn tớ
i các anh chị, các bạn và các em sinh viên trong
nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ
trợ kiến thức chuyên môn để hoàn thành tốt khoá luận.
Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38 trong thời gian em thực hiện khóa luận.
Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn chăm sóc, động
viên, khích lệ con trên mỗi bước đường học vấn của con.
Cuối cùng, xin chân thành cảm ơn các Anh Chị và B
ạn Bè, đặc biệt là các thành
viên lớp K52CA và K52CHTTT đã ủng hộ và giúp đỡ tôi trong suốt thời gian tôi học tập
trên giảng đường đại học và thực hiện đề tài.
Tôi xin chân thành cảm ơn !


Hà Nội, ngày 20 tháng 05 năm 2011
Sinh viên



Phạm Huyền Trang

ii

Tóm tắt nội dung
Khai phá quan điểm dựa trên đặc trưng (FOM) là một trong những bài toán khai
phá quan điểm quan trọng [5, 18, 23]. Đối với một sản phẩm, bài toán này tìm đến mức
câu đánh giá để phát hiện các đặc trưng của sản phẩm, và tạo ra một bản tổng kết quan
điểm đánh giá theo từng đặc trưng đó. Tuy nhiên, trong văn bản đánh giá sản phẩm,
khách hàng thường dùng các từ hoặc cụm từ rất khác nhau để
nói đến cùng một đặc trưng
sản phẩm. Vì vậy, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ được coi
là đồng nghĩa trên một miền sản phẩm cần được nhóm vào cùng một nhóm đặc trưng
[27].
Dựa trên phương pháp phân lớp bán giám sát gom nhóm đặc trưng sản phẩm của
Zhongwu Zhai và cộng sự, 2010 [27], khóa luận đề xuất một giải pháp gom nhóm các đặc
tr
ưng đồng nghĩa trong các đánh giá tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN
[17] và phân cụm HAC.
Thực nghiệm trên miền sản phẩm điện thoại di động trên website bán hàng trực
tuyến Thế giới di động (
) cho thấy giải pháp gom nhóm đặc trưng
sản phẩm đồng nghĩa tiếng Việt do khóa luận đề xuất có độ đo Purity là 0.68 và độ đo
Accuracy là 0.65. Kết quả trên cho thấy phương pháp gom nhóm đặc trưng đồng nghĩa
tiếng Việt được khóa luận đề xuất và triển khai là có tính hiệu quả.

iii

Lời cam đoan

Tôi xin cam đoan giải pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt trong các
đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC được
trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang
Thụy và ThS. Trần Mai Vũ
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một
cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có
việc sao chép tài liệu, công trình nghiên cứu của ngườ
i khác mà không chỉ rõ về tài liệu
tham khảo.


Hà Nội, ngày 20 tháng 05 năm 2011
Tác giả
Phạm Huyền Trang

iv

Mục lục
Lời cảm ơn i

Tóm tắt nội dung ii
Lời cam đoan iii
Danh sách hình vẽ vii
Danh sách bảng biểu viii
Danh sách các từ viết tắt ix
Mở đầu 1
Chương 1. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm
khách hàng 3

1.1. Khái quát về khai phá quan điểm khách hàng 3

1.1.1. Khái niệm về khai phá quan điểm 3
1.1.2. Ứng dụng của khai phá quan điểm 3
1.1.3. Khai phá quan điểm khách hàng trên đặc trưng sản phẩm 4
1.2. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm tiếng Việt dựa
trên đặc trưng sản phẩm 7

1.2.1. Bài toán gom nhóm đặc trưng đồng nghĩa 7
1.2.2. Một số nghiên cứu liên quan trên thế giới 9
1.2.3. Giải pháp hiện thời 10
Tóm tắt chương một 11
Chương 2. Phân lớp bán giám sát SVM-kNN 13
2.1. Một số nội dung cơ bản về phân lớp bán giám sát 13
2.1.1.Khái niệm 13
2.1.2. Các phương pháp phân lớp bán giám sát điển hình 14
2.2. Phương pháp luận SVM-kNN dựa trên học bán giám sát 15
v

2.2.1. Thuật toán máy vector hỗ trợ (SVM) 15

2.2.2. Thuật toán K người láng giềng gần nhất (kNN) 18
2.2.3. Phương pháp phân lớp bán giám sát SVM-kNN 19
Tóm tắt chương hai: 24
Chương 3.Đề xuất một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt tự động
25

3.1. Đề xuất một giải pháp gom nhóm đặc trưng sản phẩm tiếng Việt dựa trên phân lớp
bán giám sát SVM-kNN kết hợp phân cụm HAC 25

3.2. Pha 1: Biểu diễn vector thể hiện đặc trưng 27
3.2.1. Xác định ngữ nghĩa của các thể hiện đặc trưng. 28

3.2.2. Xác định ngữ cảnh của thể hiện đặc trưng 29
3.2.3. Biểu diễn thể hiện đặc trưng dưới dạng vector 29
3.3. Pha 2: Tạo tập huấn luyện cho bộ phân lớp SVM-kNN 30
3.3.1. Quá trình phân cụm 32
3.3.2. Gán nhãn cho các cụm 34
3.3.Pha 2: Phân lớp bán giám sát SVM-kNN 34
Tóm tắt chương 3: 37
Chương 4. Thực nghiệm và đánh giá 38
4.1. Môi trường và các công cụ sử dụng thực nghiệm 38
4.2. Xây dựng tập dữ liệu 39
4.3. Thực nghiệm 40
4.3.1. Quá trình biểu diễn vector thể hiện đặc trưng 40
4.3.2. Thực nghiệm tạo tập huấn luyện cho SVM-kNN 40
4.3.3. Thực nghiệm phân lớp bán giám sát SVM-kNN: 42
Tóm tắt chương 4 47
vi

Kết luận 48

Tài liệu tham khảo 49



vii

Danh sách hình vẽ
Hình 1: Ví dụ biểu diễn cây đối tượng 5
Hình 2: Ví dụ minh họa các khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá và Đặc
trưng trong 1 nhận xét của khách hàng trên forum 6


Hình 3: Ví dụ về bản tổng hợp quan điểm về điện thoại N72. 7
Hình 4: Ví dụ về đặc trưng đồng nghĩa 8
Hình 5: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm 16
Hình 6: Ví dụ về thuật toán kNN 19
Hình 7: Minh họa vector hỗ trợ và vector biên 21
Hình 8: Miêu tả khái quát của mô hình đề xuất bởi Kunlun Li, Xuerong Luo vàMing
Jin[17] 22

Hình 9: Mô hình đề xuất gom nhóm đặc trưng đồng nghĩa 27
Hình 10: Sơ đồ các phần tử trước khi phân cụm 31
Hình 11: Sơ đồ các phần tử sau khi phân cụm phân cấp tích tụ từ dưới lên – HAC 31
Hình 12: Sơ đồ so sánh kết quả của mô hình đề xuất với phương pháp của K.Li và cộng
sự [17] 44


viii

Danh sách bảng biểu
Bảng 1. Cấu hình hệ thống thử nghiệm 38
Bảng 2. Công cụ phần mềm sử dụng 39
Bảng 3: Bảng số lượng dữ liệu đầu vào 40
Bảng 4. Kết quả thực nghiệm thuật toán HAC với 5 giá trị ngưỡng α 41
Bảng 5. Các thể hiện đặc trưng cùng các cụm không đơn tương ứng 42
Bảng 6. Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn
chiếm 30% tổng số dữ liệu 44

Bảng 7: Kết quả thực nghiệm khi s = 4, t= 0.8, k = 5 46
Bảng 8. Kết quả thực nghiệm phân lớp SVM-kNN với t= 0.8, k = 5khi dữ liệu gán nhãn
chiếm 40% tổng số dữ liệu 46



ix

Danh sách các từ viết tắt
LDA
Latent Dirichlet Allocation
HAC Hierarchical Agglomerative Clustering
SVM Support Vector Machine
kNN K Nearest Neighbors
EM
Expectation Maximization
SSSVM
Semi-Supervisered Support Vector Machine
S3VM-kNN
Semi-Supervisered Support Vector Machine-k Nearest Neighbors
TFIDF
Term Frequency Inverse Document Frequency

1

Mở đầu

Khai phá và tổng hợp quan điểm khách hàng dựa trên đặc trưng sản phẩm (FOM)
đang là một trong những lĩnh vực nhận thu hút nhiều sự quan tâm trên thế giới [5, 18, 20,
23]. Mục tiêu của bài toán này là tạo ra một bản tổng hợp các quan điểm của khách hàng
trên từng đặc trưng sản phẩm. Bản tổng hợp như vậy cung cấp cho khách hàng một cái
nhìn trực quan về ý kiến của những khách hàng đã dùng sản phẩ
m trước đó, đồng thời,
giúp nhà sản xuất phát hiện ra những hạn chế còn mắc phải của sản phẩm và nhờ vậy có
thể khắc phục những nhược điểm đang tồn tại.

Gom nhóm đặc trưng đồng nghĩa được người dùng đề cập đến trong các đánh giá
là một bài toán con của bài toán FOM thực hiện việc nhóm các từ cùng chỉ đến một đặc
trư
ng nào đó vào một nhóm. Các đặc trưng được xác định là đồng nghĩa tùy thuộc từng
miền sản phẩm khác nhau.
Trong những năm gần đây, một số giải pháp gom nhóm đặc trưng sản phẩm đã
được đưa ra [7, 11, 27]. Tuy nhiên, đối với tiếng Việt, chưa có một nghiên cứu nào đi sâu
nghiên cứu vấn đề này. Giải pháp hiện thời của chúng tôi trong [21] là xây dựng bằng tay
bộ từ điển
đồng nghĩa tiếng Việt trên miền sản phẩm điện thoại.
Trong khóa luận này, chúng tôi sử dụng kỹ thuật học bán giám sát để gom nhóm
đặc trưng sản phẩm trên miền sản phẩm điện thoại di động dựa trên hướng tiếp cận của
Zhongwu Zhai và cộng sự, 2010 [27]. Chúng tôi đề xuất một mô hình tự động gom nhóm
đặc trưng đồng nghĩa, theo đó, đối với một miền sả
n phẩm mới, việc tạo tập dữ liệu huấn
luyện được thi hành bằng thuật toán phân cụm HAC theo ngưỡng α. Sau đó, thuật toán
phân lớp bán giám sát SVM-kNN dựa trên ngữ nghĩa và ngữ cảnh của từng đặc trưng
được áp dụng. Chúng tôi lựa chọn phân lớp bán giám sát SVM-kNN vì phương pháp này
cho kết quả tốt với độ đo F1 khoảng 80 đến 98% với miền dữ liệu tiếng Anh như kết quả

nghiên cứu của Kunlun Li và cộng sự năm 2010 [17]. Khóa luận tiến hành thực nghiệm
mô hình gom nhóm đặc trưng dựa trên HAC và SVM-kNN với kết quả đạt mức phù hợp
với kết quả trong các công bố khoa học liên quan trên thế giới (Purity là 0.68 và Accuracy
là 0.65).
Nội dung của khóa luận được chia thành các chương như sau:
2

Chương 1: Khóa luận giới thiệu khái quát về khai phá quan điểm khách hàng cũng
như một số khái niệm liên quan trong khai phá quan điểm khách hàng dựa trên đặc trưng.
Ngoài ra, bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá tiếng Việt cùng

một số nghiên cứu liên quan và giải pháp hiện thời của chúng tôi cũng được trình bày tại
chương này.
Chương 2: Khóa luận giới thiệu về thuật toán phân lớp SVM, kNN. Từ đó, khóa
luận trình bày chi ti
ết phương pháp phân lớp bán giám sát SVM-kNN là phương pháp
phân lớp được sử dụng để giải quyết bài toán gom nhóm đặc trưng sản phẩm.
Chương 3: Khóa luận đề xuất một mô hình giải pháp gom nhóm đặc trưng đồng
nghĩa dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC trên miền dữ liệu
tiếng Việt. Đồng thời, khóa luận cũng trình bày chi tiết các pha cũng những các bước
trong mô hình.
Chương 4: Khóa luận trình bày một số thực nghi
ệm việc gom nhóm đặc trưng sản
phẩm đồng nghĩa tiếng Việt trong các đánh giá của khách hàng trên miền sản phẩm điện
thoại di động. Kết quả thực nghiệm được đánh giá theo các độ đo tương ứng phù hợp với
bài toán gom nhóm đặc trưng.
Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển
tương lai.

3

Chương 1. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá
quan điểm khách hàng
1.1. Khái quát về khai phá quan điểm khách hàng
1.1.1. Khái niệm về khai phá quan điểm
Theo Bing Liu, 2010 [5], thông tin văn bản có thể được chia ra thành hai loại
chính, là sự kiện và quan điểm.Thông tin sự kiện thể hiện khách quan về những thực thể,
sự kiện hay các thuộc tính của chúng. Thông tin quan điểm thể hiện chủ quan của con
người, miêu tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính. Khai phá
quan điểm đang là một lĩnh vực nghiên cứ
u gần đây thu hút sự quan tâm đặc biệt không

chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,…
trên thế giới nói chung và ở Việt Nam nói riêng. Quá trình khai phá quan điểm đóng một
vai trò quan trọng trong thế giới ngày nay, không chỉ trong lĩnh vực kinh tế (đặc biệt trong
thương mại điện tử) mà còn trong lĩnh vực xã hội (đặc biệt trong mạng xã hội trực tuyến).
Khai phá quan điểm thuộ
c vào lĩnh vực khai phá văn bản, đề cập đến việc áp dụng
các giải pháp của xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và công nghệ mạng để trích
xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người
[20]. Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện theo
nhiều mức độ khác nhau.
1.1.2. Ứng dụng của khai phá quan điểm
Khai phá quan điểm đang trở thành một lĩnh vực quan trọng trong những năm gần
đây do phạm vi ứng dụng rộng của nó. Bo Pang and Lillian Lee, 2008 [6] chỉ ra 4 miền
ứng dụng chính của khai phá quan điểm.
Miền ứng dụng đầu tiên là các website đánh giá. Các website này tự động tổng hợp
quan điểm và đánh giá của người sử dụng (chẳng hạn, trang Epinion:
/>). Các website có tính năng mời gọi đánh giá (review-
solicitation) cũng được xếp vào loại này, trong đó tổng hợp đánh giá người dùng
(Summarizing user reviews) là một chứcc năng quan trọng.
Miền ứng dụng thứ hai là khai phá quan điểm đóng vai trò công nghệ thành phần
con (Sub-Component Technology) trong các hệ thống khác, chẳng hạn như các hệ thống
4

tư vấn (recommendation systems), hệ thống hỏi-đáp (Question answer systems), thành
phần tương tác người-máy (human–computer interaction) của các hệ thống.
Miền ứng dụng thứ ba là các ứng dụng trong thông minh doanh nghiệp (Business
Intelligence) và thông minh chính quyền (Government Intelligence). Khai phá quan điểm
được dùng trong nhận biết quan điểm khách hàng, tình báo công nghiệp (thông minh
doanh nghiệp) hoặc xu hướng truyền thông thù địch… (thông minh chính quyền).
Cuối cùng, khai phá quan điểm áp dụng trong liên miền ứng dụng khác nhau.

1.1.3. Khai phá quan điểm khách hàng trên đặc trưng sản phẩm
Khai phá và tổng hợp quan điểm dựa trên đặc trưng là một trong ba bài toán điểm
hình thuộc lĩnh vực khai phá quan điểm. Ba bài toán điển hình đó là: Phân lớp quan điểm,
khai phá quan hệ so sánh và khai phá quan điểm dựa trên đặc trưng. Trong ba bài toán
trên, khai phá quan điểm dựa trên đặc trưng là một bài toán đang rất được chú ý trong lĩnh
vực khai phá quan điểm. Trong mục này, khóa luận sẽ trình bày một số khái niệm liên
quan đến bài toán khai phá quan đ
iểm dựa trên đặc trưng và mô hình hóa cho bài toán
này.
a. Một số khái niệm liên quan
- Đối tượng (object): Một đối tượng O là một một sản phẩm [5].
Ví dụ: Điện thoại Nokia N72, bộ phim “Cuốn theo chiều gió”, …
- Đặc trưng (feature):
Bài toán gom nhóm đặc trưng đồng nghĩa liên quan trực tiếp đến khái niệm đặc
trưng. Do vậy, chúng tôi xin trình bày chi tiết về khái niệm này như dưới đây.
Mỗi đối tượng O được liên hệ với một cặp O (T,A) với T là một sự phân cấp c
ủa
các thành phần, thành phần con, … và A là một tập các thuộc tính của O [5]. Mỗi thành
phần lại có tập các thành phần con và thuộc tính riêng của nó. Để làm rõ hai khái niệm
thành phần và thuộc tính ở trên, có một ví dụ đơn giản như sau: Xét đối tượng là điện
thoại Nokia N72. Đối tượng này có một tập các thành phần, như: pin, màn hình, … và
một tập các thuộc tính như chất lượng âm thanh, kích cỡ, c
ảm ứng, … Thành phần pin
cũng có một tập các thuộc tính như: chất lượng pin, kích cỡ pin,…
5

Một đối tượng được thể hiện bởi một cây. Gốc cây là đối tượng đó, mỗi một node
không phải là gốc là một thành phần của đối tượng. Mỗi cung thể hiện quan hệ giữa các
thành phần. Mỗi node cũng được liên kết với các thuộc tính.


Hình 1. Ví dụ biểu diễn cây đối tượng
Tuy nhiên, việc xử lý ngôn ngữ tự nhiên liên quan là một nhiệm vụ rất khó; hơ
n
nữa, để tránh sự phân cấp, có thể coi thành phần và thuộc tính là đặc trưng quan điểm
(hay đặc trưng).
- Đoạn đánh giá về một đặc trưng: Đoạn văn bản đánh giá về một đặc trưng f của
đối tượng O trong s là một tập các câu liên tiếp trong s diễn tả quan điểm tích cực, tiêu
cực hay trung lập về đặc trưng f [5].
-Từ quan đi
ểm (opinion word): Quan điểm trên một đặc trưng bất kỳ là hướng
nhìn, thái độ của khách hàng đối với mỗi đặc trưng [5]. Thái độ đó có thể theo hướng tích
cực, tiêu cực hay trung lập. Từ thể hiện được quan điểm của khách hàng được gọi là từ
quan điểm.
Ví dụ:
Câu = “Nội dung phim hay”.
Quan điểm của người dùng trên đặc trưng “nội dung” (phim) là một quan điểm
h
ướng tích cực, vì sử dụng từ quan điểm “hay”.
-Người đánh giá (opinion holder):
Là người hay tổ chức cụ thể đưa ra lời đánh giá. Với các đánh giá về sản phẩm trên
diễn đàn, blogs: người đánh giá chính là các tác giả của đánh giá hay bài viết [5].
6


Hình 2: Ví dụ minh họa các khái niệm Đặc trưng, Từ quan điểm, Đoạn đánh giá và
Đặc trưng trong 1 nhận xét của khách hàng trên forum

b. Mô hình hóa bài toán
Bing Liu [5] định nghĩa một mô hình của một đối tượng và một tập các quan điểm
về đối tượng. Một đối tượng được thể hiện với một tập xác định của đặc trưng, F =

{f
1
,f
2
,…,f
n
}. Mỗi đặc trưng f
i
trong F có thể được diễn tả bởi một tập các từ hoặc cụm từ
W
i
là các đặc trưng đồng nghĩa. Mỗi người đánh giá j bình luận trên một tập con các
đặc tính S
j
thuộc F. Với mỗi f
k
thuộc S
j
, người đánh giá j diễn đạt quan điểm về đặc trưng
bằng một từ hoặc cụm từ trong W
k
với một thái độ tích cực (positive) hay tiêu cực
(negative).
Mô hình này đòi hỏi ba tình huống bài toán trong thực tế. Giả sử có một tập các
văn bản đánh giá D là đầu vào, ba tình huống bài toán được phát biểu như sau:
Tình huống 1: Cả F và W đều không biết. Bài toán cần thực hiện ba nhiệm vụ:
- Nhiệm vụ 1: Xác định và trích chọn các đặc trưng được đề cập tới trong D.
- Nhiệm vụ 2: Xác
định hướng quan điểm trên các đặc trưng.
- Nhiệm vụ 3: Nhóm các từ đồng nghĩa của các đặc trưng, vì những người khác

nhau có thể sử dụng các từ hoặc cụm từ khác nhau để diễn đạt cùng một đặc trưng. Đây
chính là bài toán gom nhóm đặc trưng đồng nghĩa mà khóa luận hướng tới giải quyết.
Nhiệm vụ này sẽ được chúng tôi trình bày trong mục 1.2.
7

Tình huống 2: F đã biết, nhưng W lại không. Tất cả ba nhiệm vụ của bài toán 1
cần được thực hiện, nhưng nhiệm vụ 3 trở thành bài toán ghép các đặc trưng phát hiện
được với tập đặc trưng F đã cho.
Tình huống 3: W và F cùng đã biết. Thực hiện nhiệm vụ 2 ở trên, tức là xác định
xem quan điểm trên thuộc tính là thái độ tích cực hay tiêu cực, hay trung lập sau khi tất cả
các câu ch
ứa chúng được trích chọn.
Đầu ra của một tập văn bản D là một tập các cặp, mỗi cặp được kí hiệu bởi (f, SO),
trong đó f là một đặc trưng và SO là hướng ngữ nghĩa hay hướng quan điểm được diễn
đạt trong D trên đặc trưng f. Cuối cùng, từ kết quả này, đưa ra một bản tổng hợp các quan
điểm về một đối tượng dựa trên các đặc trưng.

Hình 3: Ví dụ về bản tổng hợp quan điểm về điện thoại N72 [21]
1.2. Bài toán gom nhóm đặc trưng đồng nghĩa trong khai phá quan điểm tiếng
Việt dựa trên đặc trưng sản phẩm
1.2.1. Bài toán gom nhóm đặc trưng đồng nghĩa
Trong các đánh giá của người dùng trên mạng thường chứa các yếu tố không
chuẩn [22]. Nói riêng, trong các văn bản đánh giá sản phẩm, khách hàng thường sử dụng
những từ hoặc cụm từ rất khác nhau để nhắc đến cùng một đặc trưng sản phẩm.
Ví dụ: Trong hình 4, với miền sản phẩm điện thoại Nokia E63, chúng tôi khảo sát
trên website bán hàng trực tuyến
thì khách hàng sử dụng
8

từ “tính năng” và “chức năng” cùng nhắc đến đặc trưng “tính năng”, nên chúng được coi

là các từ đặc trưng đồng nghĩa.

Hình 4: Ví dụ về đặc trưng đồng nghĩa
Do đó, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ đồng nghĩa
cần được nhóm vào cùng một nhóm đặc trưng. Theo Bing Liu [5] việc xác định và gom
nhóm các
đặc trưng đồng nghĩa là rất cần thiết cho các ứng dụng thực tế.
Từ mô hình hóa bài toán, có thể thấy bài toán gom nhóm đặc trưng đồng nghĩa
chính là một trong ba nhiệm vụ của tình huống bài toán 1 trong khai phá quan điểm cần
phải giải quyết.
Zhongwu Zhai và cộng sự [27] nêu ra hai khái niệm trong bài toán gom nhóm đặc
trưng đồng nghĩa là “thể hiện đặc trưng” và “nhóm đặc trưng”. Nhóm đặc trưng là tên của
một đặ
c trưng của sản phẩm mà người dùng muốn nói đến, trong khi thể hiện đặc trưng là
một từ hoặc cụm từ xuất hiện thực sự trong các đánh giá sản phẩm để chỉ đặc trưng đó.
Những khái niệm này được sử dụng trong phương pháp đề xuất của chúng tôi.
Ví dụ:
Một nhóm đặc trưng tên là “Hình thức”, có thể có nhiều thể hiện đặc tr
ưng như:
“Thiết kế”, “Kiểu cách”, “Mẫu mã”, hoặc thậm chí có thể là “Hình thức”.
Mục tiêu của bài toán là xác định được các đặc trưng đồng nghĩa và đưa chúng vào
cùng một nhóm đặc trưng. Bài toán gom nhóm đặc trưng đồng nghĩa trong các đánh giá
liên quan nhiều đến bài toán xác định từ đồng nghĩa [27]. Đây là một thách thức trong xử
lý ngôn ngữ tự nhiên.
9

1.2.2. Một số nghiên cứu liên quan trên thế giới
Bài toán gom nhóm đặc trưng đồng nghĩa đã và đang nhận được nhiều sự quan tâm
trên thế giới. Có khá nhiều công trình đã nghiên cứu nhằm tìm ra các phương án tối ưu để
giải quyết bài toán, chẳng hạn [7, 11, 27].

Theo Bing Liu [5], một trong số các phương pháp nhằm giải quyết bài toán này là
sử dụng từ điển Wordnet và các từ điển đồng nghĩa khác. Một một số phương pháp hướng
sử dụng từ
đồng nghĩa song kết hợp một số cải tiến đã được đề xuất.
Carenini và cộng sự, 2005 [8] đề xuất một phương pháp tinh vi dựa trên các số liệu
tương tự như một số yêu cầu phân lớp các đặc trưng được đưa ra. Hệ thống này kết hợp
đặc trưng phát hiện mỗi một nút đặc trưng trong phân lớp này. Các số liệu tương tự được
xác định dựa trên các chuỗi tương tự, từ đồng nghĩa và khoảng cách đo khác bằng cách sử
dụng WordNet.
Zhongwu Zhai và cộng sự, 2010 [27] nêu ra ba hạn chế khi dùng từ điển đồng
nghĩa trong gom nhóm từ đặc trưng.
Thứ nhất, có nhiều từ không phải là đồng nghĩa trong từ điển nhưng lại có thể là
đồng nghĩa trong một miền ứng dụng nào đó. Ví dụ, hai từ “design”
và “appearance”
không là từ đồng nghĩa nếu xét trong từ điển nhưng được coi là hai từ đồng nghĩa trong
miền “mobile”.
Thứ hai, từ đồng nghĩa có tính phụ thuộc miền ứng dụng. Ví dụ, hai từ “movie” và
“picture” là đồng nghĩa trong miền “movie” nhưng trong miền “video” thì hai từ này lại
chỉ đến hai đặc trưng hoàn toàn khác nhau.
Thứ ba, việc xác định các từ đồng nghĩ
a có thể phụ thuộc vào yêu cầu mức độ trừu
tượng hóa của miền ứng dụng. Ví dụ, trong miền “car” thì “internal design” và “external
design” là thuộc hai nhóm đặc trưng khác nhau theo mức chi tiết nào đó song lại được coi
là thuộc cùng một nhóm đặc trưng theo một mức trừu tượng cao hơn.
Dựa theo hướng tiếp cận không giám sát, Guo và cộng sự, 2009 [12] đề xuất một
kỹ thuật việc kết hợ
p ngữ nghĩa ẩn đa mức để góm nhóm các thể hiện đặc trưng. Kỹ thuật
này chạy LDA hai lần. Kỹ thuật này tránh được việc phụ thuộc vào từ điển đồng nghĩa.
Tuy nhiên phương pháp này còn phụ thuộc vào miền và ngôn ngữ.
10


Gần đây, Zhongwu Zhai và cộng sự, 2010 [27] đề xuất một phương pháp nhóm
đặc trưng đồng nghĩa dựa trên hướng tiếp cận học bán giám sát, đồng thời kết hợp ràng
buộc mềm để áp dụng cho bài toán này nhằm khắc phục những hạn chế còn gặp phải khi
sử dụng từ điển đồng nghĩa. Phương pháp học bán giám sát được sử dụng là Naïve-
Bayesian Expectation-Maximization, bộ phân lớp Bayesian đượ
c chạy lặp lại trên dữ liệu
đã gán nhãn và dữ liệu chưa gán nhãn cho đến khi các xác suất cho dữ liệu chưa gán nhãn
hội tụ. Việc gán nhãn dữ liệu được tạo bằng tay. Để có kết quả tốt hơn, các tác giả đã tạo
ra 2 ràng buộc mềm nhằm làm giàu tập dữ liệu đã gán nhãn. Hai ràng buộc mềm này là:
(1) – Những thể hiện đặc trưng có chung một số từ nào đó thì thuộ
c về cùng một nhóm;
(2) – Những thể hiện đặc trưng đồng nghĩa trong từ điển đồng nghĩa thì thuộc về cùng
một nhóm.
Việc tạo ra những ràng buộc mềm có hai ưu điểm:
Một là, hai ràng buộc này tạo ra các mẫu nhãn mềm (soft-labeled examples) và
chúng được đưa vào tập huấn luyện nhằm làm giàu tập huấn luyện đó.
Hai là, trong trường hợp ràng buộc mềm gán sai nhãn do những hạn ch
ế của bộ từ
điển đồng nghĩa mang lại thì bộ phân lớp bán giám sát vẫn được phép thay đổi nhãn.
Các tác giả tiến hành thực nghiệm trên các đánh giá từ 5 miền khác nhau, kết quả
cho thấy phương pháp gom nhóm đặc trưng sử dụng học bán giám sát là khá hiệu quả.
Thực nghiệm trên 5 bộ dữ liệu, độ đo purity thuộc khoảng 0.66-0.70 và độ đo accuracy
thuộc khoảng 0.67-0.71.
1.2.3. Giải pháp hiện thời
Hiện nay, tại Việt Nam, chưa có một công trình nghiên cứu nào đi sâu giải quyết
bài toán gom nhóm đặc trưng sản phẩm trong các đánh giá tiếng Việt.
Trong [21], chúng tôi đề xuất một mô hình khai phá quan điểm dựa trên đặc trưng
đối với các đánh giá sản phẩm điện thoại bằng tiếng Việt. Khó khăn lớn nhất của chúng
tôi khi giải quyết bài toán này trong miền dữ liệu tiếng Việt là tại Việt Nam, ch

ưa có bộ từ
điển đồng nghĩa kiểu Wordnet; trong khi các công trình nghiên cứu nêu trên (mục 1.2.2)
đều sử dụng bộ từ điển đồng nghĩa. Ngoài ra, trong miền dữ liệu đánh giá tiếng Việt của
khách hàng về sản phẩm, chất lượng cũng như số lượng của các đánh giá là khá thấp.
11

Trong công trình nói trên [21], chúng tôi sử dụng một giải pháp rất đơn giản để
nhóm các đặc trưng “đồng nghĩa” – đó là sử dụng một bộ từ điển đặc trưng đồng nghĩa
xây dựng bằng tay. Từ điển này chứa các đặc trưng đồng nghĩa trên miền sản phẩm “điện
thoại”. Khi trong câu đánh giá xuất hiện một thể hiện đặc tr
ưng có trong từ điển thì tên
thể hiện đặc trưng sẽ được suy ra tên nhóm đặc trưng.
Tuy nhiên, ngoài những hạn chế đã nêu ở mục 1.2.2 khi sử dụng từ điển đồng
nghĩa, giải pháp này còn gặp một số điểm hạn chế. Thứ nhất, việc nhóm các thể hiện đặc
trưng vào nhóm đặc trưng phù hợp là một công việc tốn rất nhiề
u thời gian, vì người dùng
thường sử dụng rất nhiều những từ ngữ khác nhau để thể hiện cùng một đặc trưng, có
những nhóm đặc trưng có thể có đến hàng chục thể hiện đặc trưng. Thứ hai, trong trường
hợp xuất hiện những thể hiện đặc trưng mới trong đánh giá của người dùng, và đặc trưng
này không có trong từ điển thì mô hình vẫn chưa phát hi
ện được nhóm đặc trưng của nó.
Bởi lẽ, việc xác định đặc trưng đồng nghĩa phụ thuộc hoàn toàn vào bộ từ điển. Thứ ba,
việc xây dựng từ điển đồng nghĩa trong [21] chỉ áp dụng được trong miền sản phẩm điện
thoại, khi chuyển sang miền dữ liệu khác thì phải xây dựng một bộ từ điển khác.
Khóa luậ
n này đề xuất một giải pháp gom nhóm đặc trưng đồng nghĩa cũng dựa
trên phân lớp bán giám sát. Tuy nhiên, so với [26], mô hình của chúng tôi có các điểm
khác biệt: Thứ nhất, chúng tôi không tạo một tập huấn luyện bằng tay để tạo ra một bộ
phân lớp như [26], mà thay vào đó, tập huấn luyện này được tạo một cách tự động nhờ áp
dụng thuật toán phân cụm HAC. Thứ hai, chúng tôi không sử dụng t

ừ điển đồng nghĩa,
mà thay vào đó là một từ điển Việt-Việt cùng các đánh giá của khách hàng để tạo tập
huấn luyện. Thứ ba, phương pháp phân lớp bán giám sát mà chúng tôi sử dụng là SVM-
kNN, trong khi phương pháp được sử dụng trong [26] là EM.
Tóm tắt chương một
Trong chương này, khóa luận giới thiệu khái quát về bài toán gom nhóm đặc trưng
đồng nghĩa trong khai phá quan điểm khách hàng theo đặc trưng. Khóa luận cũng trình
bày một số hướng giải quyết của bài toán trên thế giới cũng như giải pháp hiện thời của
chúng tôi.
Từ những phân tích về khó khăn khi giải quyết bài toán trên miền tiếng Việt cùng
với các điểm hạn chế về giải pháp hiện thời cũng nh
ư hạn chế về việc sử dụng từ điển
12

đồng nghĩa, chúng tôi đề xuất một giải pháp gom nhóm đặc trưng “đồng nghĩa” sử dụng
phương pháp phân lớp bán giám sát SVM-kNN kết hợp phân cụm HAC.
Chương tiếp theo giới thiệu phương pháp phân lớp bán giám sát SVM-kNN – là
một phương pháp phân lớp bán giám sát cho kết quả cao do Kunlun Li và cộng sự đề xuất
năm 2010.


13

Chương 2. Phân lớp bán giám sát SVM-kNN
2.1. Một số nội dung cơ bản về phân lớp bán giám sát
2.1.1.Khái niệm
a. Học bán giám sát
Học bán giám sát là một mô hình học máy liên quan đến việc tận dụng các dữ liệu
chưa gán nhãn để xây dựng các bộ phân lớp và các bộ hồi qui tốt hơn (A. B. Goldberg,
2010, [4]). Học bán giám sát là việc học trên cả dữ liệu đã và chưa được gán nhãn. Từ

một số luợng lớn các dữ liệu chưa được gán nhãn, và một luợng nhỏ dữ liệu đã được gán
nhãn ban đầu (thuờng gọi là seed set) để xây d
ựng một bộ phân lớp thậm chí là tốt hơn.
Trong quá trình học như thế, phương pháp sẽ tận dụng được những thông tin phong phú
của dữ liệu chưa gán nhãn (unlabeled data), mà chỉ yêu cầu một số luợng nhỏ các dữ liệu
đã gán nhãn (labeled data ) [25, 26, 1]. Như tổng hợp của X.J. Zhu, 2008 [25], học bán
giám sát nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu về học máy.
Theo X.J. Zhu, 2008 [25], X. Zhu và A. B. Goldberg, 2009 [26], h
ọc bán giám sát
có thể được xem là:
• Học giám sát (tất cả các dữ liệu đều đã được gán nhãn) cộng thêm dữ liệu
chưa gán nhãn.
• Học không giám sát (tất cả các dữ liệu đều chưa được gán nhãn) cộng thêm
dữ liệu gãn nhãn.
Trên thực tế, hầu hết các chiến lược học bán giám sát dựa trên việc mở rộng học
giám sát hoặc học không giám sát đều chứa thêm thông tin của mô hình học khác [4].
Nhiệ
m vụ chính của học bán giám sát chính là mở rộng tập các dữ liệu gán nhãn
ban đầu [25, 26, 1]. Phương pháp học này được cung cấp một số thông tin giám sát,
nhưng chỉ trên một số ví dụ mà không nhất thiết phải trên tất cả dữ liệu.
Việc học bán giám sát sẽ là hữu ích khi có nhiều dữ liệu không gán nhãn hơn là dữ
liệu gãn nhãn. Trong thực tế, tồn tại nhiều dữ liệu không gán nhãn hơn là dữ liệu gán
nhãn; bở
i vì dữ liệu không gãn nhãn có thể dễ dàng được thu thập với chi phí thấp, nhưng
công việc gãn nhãn cho các dữ liệu lại tốn rất nhiều thời gian, công sức và tiền bạc [4, 7,
14

25, 26]. Chính vì khả năng tận dụng cả dữ liệu đã gán nhãn để đạt được kết quả cao hơn
học giám sát nên học bán giám sát mang giá trị thực tiễn cao [5].
b. Phân lớp bán giám sát

Phân lớp bán giám sát đang là một lĩnh vực nhận được nhiều sự quan tâm trong cả
lý thuyết và thực tiễn [25]. Phân lớp bán giám sát là một dạng đặc biệt trong bài toán phân
lớp [26]. Nó sử dụng cả dữ liệu chưa gán nhãn, và dữ liệu đã gán nhãn – điều này chính là
một sự mở rộng so với bài toán phân lớp giám sát.
Giả sử tập dữ liệu huấn luyện bao gồm l ví dụ đã gán nhãn
1
{(x ,y )}
l
iii=
, trong đó y
i

là nhãn tương ứng với vị dụ x
i
; và u ví dụ chưa gán nhãn
1
{x }
lu
j
jl
+
=
+
. Trong phân lớp bán
giám sát, số lượng dữ liệu chưa gán nhãn là lớn hơn nhiều so với dữ liệu đã gán nhãn, tức
là u >> l. Mục tiêu của phân lớp bán giám sát là huấn luyện một bộ phân lớp f từ l và u;
trong khi đó, phân lớp giám sát lại tạo ra một bộ phân lớp chỉ từ những dữ liệu đã gãn
nhãn. Trong quá trình học, việc phân lớp bán giám sát sẽ tận dụng được những thông tin
phong phú của dữ liệu chưa gãn nhãn, mà chỉ yêu cầu một số lượng rất nhỏ các dữ liệu đã
gãn nhãn.

2.1.2. Các phương pháp phân lớp bán giám sát điển hình
Các thuật toán bán giám sát đã và đang được phát triển một cách nhanh chóng
trong những năm gần đây. Hiện nay, có rất nhiều phương pháp học bán giám sát như:
self-learning và self-labeling – là hai trong số những phương pháp phân lớp bán giám sát
sớm nhất, chúng vẫn được sử dụng rộng rãi trong lĩnh vực xử lý ngôn ngữ tự nhiên; hoặc
phương pháp SSSVM (SVM bán giám sát) với ý tưởng tìm một biên quyết định trong các
vùng mật độ thấp; hay phương pháp dựa trên đồ thị - phương pháp này xây d
ựng một đồ
thị có trọng số trên những ví dụ đã gán nhãn và ví dụ chưa gán nhãn và giả thiết rằng giữa
hai ví dụ có một kết nối mạnh thì có khuynh hướng có cùng nhãn và giải quyết bài toán
tối ưu hóa; một phương pháp phân lớp bán giám sát khác là sử dụng mô hình sinh, hỗn
hợp phân bố Gaussian trong thuật toán EM (K. Li và cộng sự, 2010 [167).
Vì vậy, trước khi quyết định lựa chọn phương pháp học cho một bài toán cụ thể
cầ
n phải xem xét các giả thiết của mô hình. Theo [25], nên sử dụng phương pháp học mà
giả thiết của nó phù hợp với cấu trúc của bài toán. Việc lựa chọn này có thể là khó khăn
trong thực tế, tuy nhiên có thể thử các gợi ý sau: Nếu các lớp tạo ra dữ liệu có tính phân

×