Tải bản đầy đủ (.doc) (78 trang)

Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (821.8 KB, 78 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ THỊ BÍCH HẢO

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG
TRONG KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2016




ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ THỊ BÍCH HẢO

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG
TRONG KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG

Chuyên ngành: Khoa học máy
tính
Mã số: 60 48 01
01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS NGUYỄN VIỆT ANH



THÁI NGUYÊN – 2016




i

LỜI CẢM ƠN
Trước hết tôi xin bày tỏ lòng biết ơn sâu sắc và gửi lời cảm ơn đặc biệt
nhất tới Thầy TS. Nguyễn Việt Anh, người đã định hướng đề tài, cung cấp cho
tôi những kiến thức, những tài liệu và tận tình hướng dẫn chỉ bảo tôi trong suốt
quá trình thực hiện đề tài luận văn cao học này, từ những ý tưởng trong đề
cương nghiên cứu, phương pháp nghiên cứu, phương pháp giải quyết vấn đề
cho đến những lần kiểm tra cuối cùng để hoàn thành luận văn này.
Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Nhà trường,
Phòng Đào tạo sau đại học, Đại học Công nghệ thông tin và truyền thông Thái
Nguyên đã tạo điều kiện tốt nhất giúp tôi trong suốt quá trình học tập.
Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè những người đã
luôn động viên khuyến khích tôi trong suốt quá trình học tập cũng như thực
hiện đề tài luận văn của mình.

Thái Nguyên, ngày 6 tháng 4 năm 2016
Học
viên

Lê Thị Bích Hảo





ii

LỜI CAM ĐOAN
Tôi xin cam đoan nội dung trình bày trong luận văn này là do tôi tự
nghiên cứu tìm hiểu dựa trên các tài liệu và tôi trình bày theo ý hiểu của bản
thân dưới sự hướng dẫn trực tiếp của Thầy TS. Nguyễn Việt Anh. Các nội dung
nghiên cứu, tìm hiểu và kết quả thực nghiệm là hoàn toàn trung thực.
Luận văn này của tôi chưa từng được ai công bố trong bất cứ công trình
nào. Trong quá trình thực hiện luận văn này tôi đã tham khảo đến các
tài liệu của
một số tác giả, tôi đã ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả và tôi
đã liệt
kê trong mục “DANH MỤC TÀI LIỆU THAM KHẢO” ở cuối luận văn.

Học
viên

Lê Thị Bích Hảo




iii




iii


MỤC LỤC
Trang
Trang bìa phụ
Lời

cảm

ơn

...............................................................................................................i

Lời

cam
đoan...........................................................................................................ii
Mục

lục

.................................................................................................................
Danh

mục

các

bảng,

hình


vẽ,

........................................................................iv

iii

đồ

thị

MỞ

ĐẦU

........................................................................................................
........ 1
Chương
1:
TỔNG
QUAN
................................... 4

VỀ

KHAI

PHÁ

QUAN


ĐIỂM

1.1 Khai phá quan điểm
....................................................................................... 4
1.1.1 Giới thiệu chung ......................................................................................
4
1.1.2 Những thách thức trong khai phá quan điểm với dữ liệu đánh giá
............ 5
1.1.3 Các định nghĩa trong khai phá quan điểm
................................................ 6
1.1.4 Các bài toán trong khai phá quan điểm
.................................................... 9
1.2 Khai phá quan điểm dựa trên đặc trưng ........................................................
11
1.2.1 Mô hình khai thác ý kiến dựa trên thuộc tính .........................................
12
1.2.2 Trích xuất khía cạnh ..............................................................................
15
1.2.3 Dự đoán cực ..........................................................................................
16
1.2.4 Nhóm các khía cạnh ..............................................................................
17
1.2.5 Phân giải đồng tham chiếu (Coreference resolution) ..............................
18
1.2.6 Đánh giá ................................................................................................
18
Chương 2: MỘT SỐ PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN
Số hóa bởi Trung tâm Học liệu – ĐHTN




iii

ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM ........... 21
2.1. Phương pháp trích chọn đặc trưng dựa trên tập phổ biến .............................
21
2.2 Phương pháp trích chọn đặc trưng dựa trên lan truyền kép ..........................
26
2.3 Mô hình giải quyết bài toán khai phá quan điểm dựa vào đặc trưng cho tiếng
Việt ... 34
Chương 3: ỨNG DỤNG VÀO HỆ THỐNG TRÍCH CHỌN ĐẶC TRƯNG CHO
ĐIỆN THOẠI DI ĐỘNG .......................................................
37
3.1 Mô tả bài toán và ý tưởng giải quyết ............................................................
37




iv
3.2 Xây dựng mô hình hệ thống
......................................................................... 37
3.2.1 Xây dựng cơ sở dữ liệu đặc tả sản phẩm
............................................... 40
3.2.2 Sinh tập ứng viên đặc trưng
................................................................... 41
3.3.3 Nhóm gộp các đặc trưng
........................................................................ 43
3.3 Thực nghiệm và đánh giá
............................................................................. 45

3.3.1 Môi trường và các công cụ sử dụng
....................................................... 46
3.3.2 Bước tiền xử lý dữ liệu: .........................................................................
47
3.3.4 Trích chọn các tính năng dựa theo thuật toán lan truyền kép
.................. 51
3.3.5 Gộp nhóm tính năng
.............................................................................. 53
3.3.6 Đánh giá chung cho toàn hệ thống
......................................................... 54
KẾT LUẬN
.........................................................................................................
. 56
TÀI LIỆU THAM KHẢO
................................................................................... 57


iv


iv

DANH MỤC CÁC BẢNG
Trang
Bảng 3.1 Các nhãn từ loại và giải
thích.................................................................. 40
Bảng 3.2 Tổng hợp những tính năng được quan tâm nhất
...................................... 54

DANH MỤC CÁC HÌNH VẼ ĐỒ THỊ

Hình 1.1 Ví dụ biểu diễn cây đối tượng
................................................................... 8
Hình 1.2 Quan hệ giữa các nhiệm vụ
..................................................................... 10
Hình 2.1 Mô hình trích chọn đặc trưng của Hu và Liu
........................................... 22
Hình 2.2 Các loại mối quan hệ phụ thuộc ngữ pháp giữa A và B
........................... 27
Hình 2.3 Mô hình khai phá quan điểm dựa trên tính năng của Ha [6]
................... 35
Hình 3.1 Mô hình giải quyết bài
toán..................................................................... 39


1
MỞ ĐẦU
Trên thế giới nói chung và ở Việt Nam nói riêng, thương mại điện tử đã
trở nên phổ biến và ngày càng phát triển. Một phần quan trọng trong thương
mại điện tử là bán hàng trực tuyến. Số lượng người mua hàng trực tuyến gia
tăng, số lượng đánh giá, nhận xét của người dùng về các sản phẩm cũng ngày
càng nhiều. Một sản phẩm thông dụng có thể có hàng trăm, hàng nghìn đánh
giá. Cùng với các trang web bán hàng trực tuyến là các trang web đánh
giá

sản

phẩm

như


epinions.com,

dpreview.com,

vnreview.vn,

trustedreviews.com, tinhte.vn, .... Các trang web này là nơi người tiêu dùng
viết các đánh giá của mình về một sản phẩm nào đó. Các đánh giá được đăng
trên một trang web loại này cần tuân theo một số quy định do các trang web
đó đưa ra và sẽ được chấm điểm bởi đông đảo người dùng của trang web căn
cứ vào độ tin cậy, hợp lý và hữu dụng mà các đánh giá này mang lại. Chính bởi
vậy, các bài đánh giá từ các trang web loại này được coi là nguồn tổng hợp lớn
các đánh giá sản phẩm tin cậy từ khách hàng. Đây là nguồn thông tin quan
trọng, cung cấp cho người mua hàng cái nhìn toàn diện hơn về một sản phẩm
mà họ định mua. Còn đối với nhà sản xuất, đánh giá của khách hàng là cơ sở
để tiến hành cải tiến, hoàn thiện sản phẩm của mình. Tuy nhiên, một vấn đề
đặt ra là số lượng các ý kiến đánh giá rất lớn. Điều này gây khó khăn
cho cả người mua hàng và nhà sản xuất. Người mua hàng sẽ gặp khó khăn
trong việc tổng hợp ý kiến của những người tiêu dùng trước để đưa ra quyết
định mua hay không mua một sản phẩm. Còn nhà sản xuất thì khó theo
dõi, nắm bắt được tất cả phản hồi của người tiêu dùng về sản phẩm của
mình. Thực tế trên làm nảy sinh yêu cầu tổng hợp tất cả nhận xét của
khách hàng về các đặc trưng của sản phẩm trên một trang web đánh giá sản
phẩm.
Theo cuôc khao sat hơn 2000 ngươi My trương thanh cho th ấy 81%
ngươi dùng internet (chiếm ty lệ 60% ngươi My ) đa thưc hiên viêc tim hiêu vê
môt san phâm thông qua internet. Có tư 73% đến 87% sô ngươi noi răng cac
nhân xet vê san phâm co sư anh hương quan trong đên viêc lưa chon mua san
phâm cua ho


. Như vậy, quan điểm của người khác giúp chúng ta có thêm

thông tin khi quyết định một


2
vấn đề, nó ảnh hưởng rất lớn đến hành vi của chúng ta. Tại Việt Nam theo báo
cáo thương mại điện tử của Bộ công thương công bố năm 2014 [1] loại mặt
hàng được mua trực tuyến là đồ công nghệ điện tử chiếm tới 61%, yếu tố được
quan tâm khi mua sắm là 81% người ra rằng uy tín của người bán hàng 64%
theo thương hiệu của sản phẩm; thống kê năm 2015 của Google [2] về người
dùng internet có xu hướng theo lời khuyên trực tuyến 50% để mua đồ.
Việc giúp người có ý định mua có thể tham khảo tốt hơn ý kiến người
dùng, hay giúp nhà cung cấp sản phẩm biết được cộng đồng đang quan tâm
đến sản phẩm của mình trên những khía cạnh nào, chính là động lực để học
viên nghiên cứu đề tài.
Đối với bài toán trên cũng đã có rất nhiều các công trình nghiên cứu và
ứng dụng trên thế giới trong hơn một thập ky qua và đã đưa ra nhiều kết quả
đáng chú ý được mô tả tổng hợp bởi một số nhà nghiên cứu uy tín trong
ngành như Bing Liu [3] hay Moghaddam [4]… và đó là trên thế giới, trong
nước đề tài này cũng đang nhận được nhiều sự chú ý quan tâm của các nhà
nghiên cứu trong những năm gần đây, nổi bật có các nhóm tác giả Bảo Sơn
[5] và nhóm của Hà Thụy [6], [7] đã đưa ra một số kết quả là mô hình áp
dụng đối với một số bộ dữ liệu tiếng Việt và bộ từ điển miền Tiếng Việt…
Luận văn định hướng tìm hiểu các phương pháp trích chọn đặc trưng
trong khai phá quan điểm để biểu diễn đối tượng đ ượ c quan tâm, trên cơ sở
đó đề xuất phương pháp và thử nghiệm ứng dụng hệ thống trong bài toán
trích chọn đặc trưng sản phẩm cụ thể là điện thoại di động, từ những dữ liệu
thu thập được trên website diễn dàn đánh giá sản phẩm. Với ý nghĩa thực tế có
thể ứng dụng trong thị trường trong nước, học viên xin được đề xuất nghiên

cứu và đưa ra mô hình ứng dụng của mình. Mô hình bao gồm các bước từ thu
thập dữ liệu, tiền xử lý dữ liệu, đến ứng dụng các thuật toán mô hình lan
truyền kép để trích chọn ra các đặc trưng, sử dụng phân cụm để gộp nhóm các
đặc trưng. Cuối cùng là đưa ra những đánh giá đối với riêng hiệu quả thuật
toán, bộ dữ liệu, kết quả đạt được và đánh giá về tính khả thi ứng dụng mô
hình.


3
Cấu trúc của luận văn sẽ chia thành 4 phần chính:
Phần I. Mô tả tổng quan về bài toán khai phá quan điểm, trong đó nêu rõ
những vấn đề nổi bật trong bài toán này tiếp tới là đi sâu hơn vào bài toán
khai phá quan điểm dựa trên đặc trưng, những bài toán con cần giải quyết và
phương pháp đánh giá. Những vấn đề nêu trên đều có giới thiệu các nghiên
cứu trong và ngoài nước liên quan.
Phần II. Mô tả cụ thể chi tiết các phương pháp giải quyết bài toán trích
trọn đặc trưng nổi bật trên thế giới, phân tích và đưa ra quyết định ứng dụng
vào mô hình giải quyết bài toán của mình.
Phần III. Phát biểu bài toán và đưa ra mô hình ứng dụng đối với bài toán
trích chọn đặc trưng cho miền dữ liệu tiếng Việt về sản phẩm điện thoại di
động. Tiếp theo là đưa ra kết quả thực nghiệm và những phân tích chủ quan
của học viên về kết quả đạt được của mô hình.
Phần IV. Kết luận tổng kết quá trình thực hiện luận văn, những khó
khăn, thách thức, những kết quả đạt được và định hướng hướng nghiên
cứu áp dụng tiếp theo.


4
Chương 1
TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM

1.1 Khai phá quan điểm
1.1.1 Giới thiệu chung
Khai phá quan điểm là lĩnh vực nghiên cứu mà cố gắng để làm cho hệ
thống tự động xác định quan điểm của con người từ văn bản được viết bằng
ngôn ngữ tự nhiên. Khai phá quan điểm nghiên cứu về ý kiến, tình cảm, quan
niệm chủ quan, đánh giá, thái độ, thẩm định, cảm xúc… được thể hiện trong
văn bản. Những điều đó được thể hiện qua các nhận xét, blog, các cuộc thảo
luận, tin tức, bình luận, phản hồi… hay các tài liệu khác. Khai phá quan điểm
dựa trên ngôn ngữ tính toán, truy vấn thông tin, khai thác văn bản, xử lý
ngôn ngữ tự nhiên, học máy, thống kê và phân tích dự đoán.
Đây là lĩnh vực khai phá văn bản, liên quan đến việc áp dụng các giải
pháp của xử lý ngôn ngữ tự nhiên và của học máy để trích xuất và xác định
quan điểm được thể hiện trong văn bản. Khai phá quan điểm dựa trên đặc
trưng là một trong ba bài toán cơ bản trong khai phá quan điểm, bao gồm:
bài toán phân lớp quan điểm, bài toán khai phá và tổng hợp quan điểm dựa
trên đặc trưng và bài toán khai phá quan hệ so sánh. Bài toán khai phá và
tổng hợp quan điểm dựa trên đặc trưng nhằm mục tiêu tạo ra một bản tổng
hợp quan điểm dựa trên các đặc trưng của sản phẩm được người dùng đề cập
trong văn bản và từ đó xác định các ý kiến đánh giá được đưa ra.
Đối tượng dữ liệu được quan tâm hiện nay [8] phân bố ở trên các mạng
xã hội, các dự án cộng tác, các blog, các cộng đồng,… đều là các bài đánh giá
nêu quan điểm trực tuyến. Đặc điểm của những bài đánh giá trực tuyến
thường là đánh giá cho một sản phẩm hay một dịch vụ cụ thể, có dạng văn
bản, có thể có đánh giá theo tiêu chí thang điểm hay là những cụm câu ngắn
tổng kết tính năng ưu nhược và thường được viết với ngôn ngữ tự nhiên đa
dạng. Ngoài ra các nguồn đề thu thập ý kiến có thể là từ những phản hồi của
khách hàng qua thư điện tử mail, cuộc gọi yêu cầu hỗ trợ đến


5

trung tâm dịch vụ; từ tin tực báo cáo, từ những diễn đàn thảo luận,
facebook, tweets… đều có kiểu không tập trung và vụn vặt; đặc biệt là thuần
văn bản.
Những đánh giá kiểu này sẽ giúp ích rất nhiều khách hàng cũng như nhà
sản xuất. Khách hàng thì có thể giúp họ ra quyết định khi mua sản phẩm hoặc
dịch vụ. Với các nhà sản xuất đây là nguồn phản hồi để đánh giá hiệu quả, mà
theo truyền thống những nhà sản xuất phải thường dành nhiều tiền cho việc
thu thập ý kiến, khảo sát,…
Tất nhiên rằng ý kiến của một người không đủ để quyết định hành động
trừ ngoại lệ người đó được biết đến như một chuyên gia và có những lời
khuyên bổ ích được đánh giá cao, thì việc tổng hợp ý kiến từ rất nhiều người
mới có tính thuyết phục cao hơn, khai phá quan điểm chính là để phát hiện
những mẫu dạng những những ý kiến đó.
Vấn đề là có quá nhiều các bài đánh giá cần phải xem xét, nhiều khía
cạnh được quan tâm, hơn nữa rằng người dùng viết ý kiến của mình theo
phong cách riêng thường không có cấu trúc và đúng ngữ pháp, cũng có quá
nhiều bài gây nhiễu chất lượng thấp, spam,…
Như vậy, một nhiệm vụ quan trọng để giải quyết bài toán loại này là xác
định các đặc trưng đối tượng mà người dùng nhận xét, đánh giá. Đây chính là
nội dung trọng tâm mà luận văn tìm hiểu giải quyết.
1.1.2 Những thách thức trong khai phá quan điểm với dữ liệu
đánh giá
Đặc điểm của một bài đánh giá trực tuyến thường là gồm các thực thể,
người nêu quan điểm và thời gian đưa ra quan điểm đó; những bài đánh giá
này có thể gặp được ở các blog, các diễn dàn forum,… mà đều không rõ cụ thể
về thực thể hay khía cạnh nào, thường được nêu ra không theo chủ đề hay
cấu trúc nào, ngoài ra còn có thể so sánh với nhiều loại khác, thậm chí cả
những thông tin không hề liên quan.
Có thể kể đến những thách thức trong quá trình khai phá quan điểm dựa
trên khía cạnh bao gồm:



6
Một khía cạnh được thể hiện bằng nhiều từ khác nhau. Với ví dụ rằng
“ản h chụp từ con này đẹp hơn hình của con samsung Galaxy” cùng nói về một
tính năng ảnh chụp nhưng có thể nói bằng những cách khác nhau.
Những từ quan điểm thể hiện mực độ đánh giá giống nhau. Ví dụ như
“cái này thường thôi, dùng tạm khi cần”
Gây khó khăn rất lớn trong quá trình thu thập dữ liệu đó là nhiễu, những
thông tin dư thừa không liên quan có thể lẫn vào, thậm chí chiếm phần lớn
nội dung, do người dùng khá tự do và không có luật gì rằng buộc.
Việc xếp hạng hay các khía cạnh được thể hiện không rõ ràng. Ngôn
ngữ người dùng đã nhập nhằng và đôi khi họ chỉ nêu lên những ý kiến trung
lập không thể hiện rõ thái độ tích cực hay tiêu cực, ví dụ như trong câu “thiết
kế của em này to” không rõ người dùng cảm thấy tốt hay không.
Có sự so sánh các quan điểm. Hẳn nhiên việc so sánh là thường diễn
ra và cần phân biệt khía cạnh đang đề cập đến là nói về sản phẩm nào… ví
dụ như câu “về chụp ảnh thì Samsung thua xa iPhone, cơ mà giá thì ngon hơn
nhiều”
1.1.3 Các định nghĩa trong khai phá quan điểm
Sau đây sẽ là hệ thống một số khái niệm trong lĩnh vực khai phá quan
điểm này, được định nghĩa bởi B.Liu [9].
“Một quan điểm là một phát biểu, cách nhìn, thái độ hoặc định giá chủ
quan về một thực thể hay một khía cạnh của thực thể nào đó”.
“Một ý kiến có thể được phân loại thành kiểu tiêu cực, tích cực hay trung
lập. Có thể gọi là hướng quan điểm hay cực của quan điểm”.
Từ quan điểm: “Từ thể hiện được quan điểm của người đánh giá được
gọi là từ quan điểm”.
Quan điểm hiện và quan điểm ẩn: “Một quan điểm hiện về một đặc
trưng f là một câu chủ quan mà trực tiếp biểu đạt một quan điểm tích cực

hoặc tiêu cực. Một quan điểm ẩn về một đặc trưng f là một câu khách quan
mà ám chỉ một quan điểm tích cực hay tiêu cực”.


7
Ví dụ:
Câu = “Điện thoại Blackberry có thiết kế rất nam tính”.
Quan điểm của người dùng trên đặc trưng “nội dung” (điện thoại Blackberry)
là một quan điểm hướng tích cực, vì sử dụng từ quan điểm “hay”.
Đoạn đánh giá về một đặc trưng: Đoạn văn bản đánh giá về một đặc
trưng f của đối tượng O trong s là một tập các câu liên tiếp trong s diễn tả
quan điểm tích cực, tiêu cực hay trung lập về đặc trưng f.
Người đánh giá: Là người hay tổ chức cụ thể đưa ra lời đánh giá. Với các
đánh giá về sản phẩm trên diễn đàn hay blog, người đánh giá chính là tác giả
của đánh giá hay bài viết.
Đối tượng và đặc trưng của đối tượng
Nhìn chung, các quan điểm có thể biểu đạt đánh giá về bất cứ điều gì,
chẳng hạn, một sản phẩm, một cá nhân, một tổ chức, một sự kiện, một chủ
đề…Chúng ta sử dụng thuật ngữ tổng quát đối tượng để chỉ các thực thể được
đánh giá đó. Đối tượng có tập các thành phần và tập các thuộc tính.
Một đối tượng có thể được phân rã căn cứ vào mối quan hệ thành
phần “part-of”, mỗi thành phần có thể có các thành phần con….Chẳng hạn,
một sản phẩm (ô tô, điện thoại di động, máy ảnh kĩ thuật số…) có thể có
các thành phần khác nhau, một sự kiện có thể có các sự kiện con, một chủ đề
có thể có các chủ đề con,… Một đối tượng O là một thực thể (một sản phẩm,
một người, một sự kiện…),
có liên hệ tới 1 cặp, O: (T, A), với T là một cấu trúc phân cấp của các thành phần.
A
là tập các thuộc tính của đối tượng O. Mỗi thành phần thuộc đối tượng O lại có
tập các thành phần và tập các thuộc tính của nó.

Để làm rõ hai khái niệm thành phần và thuộc tính trong định nghĩa đối
tượng ở trên, có một ví dụ đơn giản như sau: Xét đối tượng là điện thoại Nokia
N72. Đối tượng này có một tập các thành phần, như: pin, màn hình và một tập
các thuộc tính như chất lượng âm thanh, kích cỡ, cảm ứng. Thành phần pin
cũng có một tập các thuộc tính như: chất lượng pin, kích cỡ pin.


8
Một đối tượng O được biểu diễn như một cây. Gốc chính là đối tượng
O. Mỗi nốt không là gốc là một thành phần hoặc thành phần con của O. Mỗi
nhánh liên
kết thể hiện mối quan hệ “part-of”. Mỗi nốt cũng liên hệ với một tập các thuộc
tính.

Nokia N72

Pin

Màn hình


9
Chất lượng

Kích cỡ

Cảm ứng

Hình 1.1 Ví dụ biểu diễn cây đối tượng
Một sản phẩm máy ảnh có tập các thành phần như pin, màn hình…và

tập các thuộc tính như chất lượng pin, kích cỡ pin, cảm ứng. Thành phần pin
cũng có tập thuộc tính của nó như chất lượng pin, kích cỡ pin, trọng lượng pin.
Quan điểm có thể được thể hiện trên đối tượng (nút gốc), chẳng hạn
như: “Tôi không thích điện thoại này”, hoặc trên một thuộc tính của đối
tượng, như “Chất lượng ảnh của điện thoại này kém”, trên một thành phần của
đối tượng như “Camera của điện thoại này kém” hoặc trên thuộc tính của một
thành phần, chẳng hạn như “Tuổi thọ pin của điện thoại này ngắn”. Như vậy
thành phần và thuộc tính chính là đặc trưng quan điểm (hay đặc trưng) của
đối tượng. Để đơn giản từ “đặc trưng” được sử dụng để thể hiện cả thành phần
và thuộc tính của đối tượng.
Đặc trưng có hai loại là đặc trưng ẩn và đặc trưng hiện.
Nếu đặc trưng f xuất hiện tường minh trong tài liệu biểu đạt quan điểm
đánh giá r thì f được gọi là một đặc trưng hiện trong r.
Nếu f không xuất hiện tường minh trong r nhưng được ngầm nói đến thì
f được gọi là một đặc trưng ẩn trong r.


Ví dụ
Đặc trưng “tuổi thọ pin” trong câu “Tuổi thọ pin của điện thoại này
rất ngắn.” là một đặc trưng hiện.
Đặc trưng “kích thước” trong câu “Điện thoại này quá nhỏ.” là một đặc
trưng ẩn. Không rõ người dùng cảm thấy phù hợp hay không hài lòng.
Định nghĩa một cách toán học một quan điểm
Quan điểm ( ,

,

,

,


) là một bộ gồm 5 thành phần với

: là một thực thể mục tiêu
: là một khía cạnh của một thực thể
: là người giữ quan điểm i
: là thời gian quan điểm được thể hiện
: là hướng quan điểm của người
thể

về tính năng

của thực

tại thời gian
Định nghĩa không chỉ áp dụng cho đối tượng là sản phẩm, mà còn có

thể là các dịch vụ, công ty, …tuy nhiên đôi khi việc thu thập năm thành phần
có thể khó khăn, dẫn đến có thể gây hạn chế tính chính xác của quan điểm nếu
thiếu chúng.
1.1.4 Các bài toán trong khai phá quan điểm
Mục đích phải khám phá đầy đủ tất các các thành phần của một quan
điểm, chuyển đổi các dạng văn bản không có cấu trúc thành có cấu trúc, cũng
phục vụ cho việc phân tích và đánh giá chất lượng. Và tiếp tới sẽ nêu qua
những dạng bài toán có trong lĩnh vực khai phá quan điểm này.
Trước hết lại nói cấu trúc của một đánh giá là bao gồm các câu, mỗi
câu chứa các cụm từ, trong đánh giá quan điểm có cấp bậc là từ cấp văn bản,
cấp câu và cuối cùng là cấp cụm từ.
Đầu tiên khai phá quan điểm ở cấp văn bản thường là phân loại ra các
chủ đề

(Subjectivity Classification) xác định các văn bản thể hiện quan điểm hay
không;


phân loại ý kiến, xác định cực của ý kiến là tích cực hay tiêu cực; dự đoán
những quan điểm hữu ích (Opinion helpfulness estimate), bài toán ước lượng
những đánh giá hữu ích; phát hiện những quan điểm không ý nghĩa spam
(Opinion Spam Detection).
Với cấp khai phá ở mức câu, việc khai phá tập trung vào tổng kết các
quan điểm (opinion summarization) [10] là trích xuất ra những câu có ý nghĩa
chính cho mỗi sản phẩm hay mỗi khía cạnh; tiếp theo là khai phá qua các
quan điểm so sánh (OM in Comparative sentences) bao gồm xác định ra
những câu so sánh và trích xuất là ý định so sánh.
Ở cấp thấp nhất là khai phá quan điểm từ cấp cụm từ nhằm khai phá
khía cạnh xác định các tính năng và xếp hạng từ những đánh giá. Bài toán
lớn gồm rất
nhiều bài toán con và có những quan hệ theo như bảng
sau:


Subjectivity
Classification
(Phân loại chủ
đề)

Sentiment Analysic
(Phân tích quan điểm)

Opinion Search and
Retrieval

(Truy hồi và tìm
kiếm)

Opinion Question
Answering
(Trả lời câu hỏi về quan
điểm)

Opinion Spam
Dectection
(Phát hiện quan điểm không ý
nghĩa)

Opinion Helpfulness
Est.
(Ước lượng quan điểm hữu
ích)

Opinion
summarization
(Tổng kết quan
điểm)

Aspect – based Opinion
Mining
(KPQĐ dựa trên khía
cạnh)

OM in Comparative
sentences

(KPQĐ trong câu so
sánh)

Hình 1.2 Quan hệ giữa các nhiệm vụ


Một trong những vấn đề cần xem xét thêm là những từ vựng chỉ quan
điểm, đối với ngôn ngữ tiếng Anh đã được rất nhiều nhà nghiên cứu xây dựng
1
bộ từ điển cho loại từ vựng này có thể kế đến như bộ là MPQA , SentiWordNet
2

,… với mỗi từ có xác suất phân bố qua độ tích cực, tiêu cực và mục tiêu; bộ

từ điển của Bing
Liu thì bao gồm danh sách các từ tiêu cực và tích cực, bộ cảm xúc,... trong đó
có thể kể đến gần đây YanghiuRao [11] và cộng sự có đóng góp xây dựng bộ
từ điển từ cảm xúc đối với miền tin tức trực tuyến.
Với bài toán phân tích ý kiến có một số hạn chế là tri thức của quan hệ
phân cấp của các thuộc tính sản phẩm không được tận dụng tối đa, các đánh
giá hoặc vài đề cập đến những thuộc tính được gắn kết phức tạp với nhau.
Những tổng hợp về bài toán này có thể tìm hiểu thêm ở [3] của tác giả B. Liu,
ngoài ra có một số công trình nghiên cứu có đề cập đến giải quyết những vấn
đề này nổi bật đó là việc gán nhãn các thuộc tính của sản phẩm bằng cách
học theo cấp dựa vào cây thực thể từ quan điểm (Sentiment ontology tree)
[12], hay là sử dụng phương pháp phân tích đánh giá khía cạnh ẩn dựa trên
hồi quy [13]; đối với dữ liệu tiếng Việt cũng có nhóm nghiên cứu của Kieu và
cộng sự [5].
Phần tiếp tới sẽ mô tả một bài toán quan trọng là khai phá quan điểm
dựa trên đặc trưng (Aspect-based opinion mining).

1.2 Khai phá quan điểm dựa trên đặc trưng
Trong bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng, vấn
đề quan trọng cần giải quyết đầu tiên là trích chọn các đặc trưng biểu diễn đối
tượng được đề cập đến trong các bài viết về sản phẩm, hay có thể như trong
các bài đánh giá, nhận xét. Trong phần này luận văn sẽ trình bày một số khái
niệm liên quan đến đặc trưng trong bài toán khai phá quan điểm dựa trên đặc
trưng và mô hình hóa cơ bản của bài toán này, sau đó là mô tả những bài toán
con cũng với tình hình nghiên
cứu những năm gần đây.

1 mpqa.cs.pitt.edu/
2 sentiwordnet.isti.cnr.it


1.2.1 Mô hình khai thác ý kiến dựa trên thuộc tính
Một tài liệu biểu đạt quan điểm đánh giá tích cực về một đối tượng nào
đó không có nghĩa rằng tác giả có quan điểm tích cực về mọi khía cạnh của
sản phẩm. Cũng như vậy, một tài liệu biểu đạt quan điểm tiêu cực không có
nghĩa tác giả có quan điểm tiêu cực về mọi khía cạnh của đối tượng đó. Để
nắm được những khía cạnh chi tiết như vậy, cần tiến đến mức đặc trưng. Như
vậy, bài toán khai phá quan điểm dựa trên đặc trưng có hai nhiệm vụ như sau:
- Phát hiện và lấy ra các đặc trưng của sản phẩm được đề cập. Chẳng
hạn câu “Tuổi thọ pin của điện thoại này quá ngắn”, bình luận trên đặc trưng
“tuổi thọ pin” của sản phẩm “điện thoại này”.
- Xác định quan điểm về các đặc trưng là tích cực, tiêu cực hay trung
lập. Trong câu trên, quan điểm về đặc trưng “tuổi thọ pin” là tiêu cực.
Do đó bài toán khai phá quan điểm dựa trên đặc trưng thực hiện tại mức
đặc trưng. Chẳng hạn, trong một đánh giá của một sản phẩm, bài toán này
nhằm phát hiện các đặc trưng của sản phẩm mà được bình luận bởi người tiêu
dùng và xác định bình luận về đặc trưng đó là tích cực hay tiêu cực. Một tổng

hợp có cấu trúc sẽ được tạo ra từ kết quả khai phá này.
Mô tả một cách hình thức như sau:
Một đối tượng được biểu diễn với một tập hữu hạn các đặc trưng, F =
{f1, f2,
.. fn}. Mỗi đặc trưng fi trong F có thể được biểu diễn bởi một tập hữu hạn
các từ hoặc cụm từ đồng nghĩa Wi. Tức là, có một tập các từ đồng nghĩa
tương ứng W =
{W1, W2, …, Wn} cho n đặc trưng. Vì mỗi đặc trưng fi trong F có một tên (kí
hiệu bởi fi), nên fi ∈ Wi. Mỗi tác giả hoặc người đánh giá j bình luận trên
một tập con các đặc trưng Sj ⊆ F. Với mỗi đặc trưng fk ∈ Sj mà người đánh
giá j bình luận, một từ hoặc cụm từ Wk sẽ được chọn để mô tả đặc trưng, và
sau đó biểu đạt một quan điểm tích cực hay tiêu cực của người đánh giá j.
Đầu vào: Tập D các tài liệu d có quan điểm đánh giá.


Đầu ra: Một tập các cặp, mỗi cặp kí hiệu bởi ( f, SO), với f là một
đặc trưng và SO là hướng quan điểm (tích cực hay tiêu cực) được biểu đạt
trong d trên đặc trưng f.
Chú ý rằng mô hình này không xem xét độ mạnh của mỗi quan điểm,
nghĩa là, không xem xét quan điểm là tiêu cực (tích cực) mạnh hay tiêu cực
(tích cực) yếu, nhưng độ mạnh của mỗi quan điểm có thể được thêm vào.
Có nhiều cách để sử dụng kết quả từ mô hình này. Cách đơn giản là tạo
ra tổng hợp dựa trên đặc trưng của các quan điểm trên đối tượng.
Như vậy, bài toán khai phá quan điểm dựa trên đặc trưng có một số tình
huống sau:
Tình huống 1: Không biết F và W.
Với tình huống này, ta cần thực hiện ba nhiệm vụ sau:
+ Nhiệm vụ 1: Xác định và trích chọn các đặc trưng đối tượng được
bình luận trong mỗi tài liệu d ∈ D
+ Nhiệm vụ 2: Nhóm các từ đồng nghĩa của đặc trưng, vì những người

khác nhau có thể sử dụng các từ hoặc cụm từ khác nhau để biểu đạt cùng một
đặc trưng.
+ Nhiệm vụ 3: Xác định hướng quan điểm trên các đặc trưng là tích cực,
tiêu cực hay trung lập
Tình huống 2: Biết F nhưng không biết W.
Tình huống này tương tự như tình huống 1 nhưng nhiệm vụ 2 chuyển
thành vấn đề đối chiếu các đặc trưng phát hiện được với tập đặc trưng F đã
biết.
Tình huống 3: Biết W và F.
Với tình huống này chúng ta chỉ cần xác định hướng quan điểm trên
đặc trưng sau khi tất cả các câu chứa quan điểm về đặc trưng được trích chọn.
Luận văn tập trung giải quyết nhiệm vụ 1 và 2 trong hai tình huống đầu
tiên. Đó chính là nội dung của bài toán trích chọn đặc trưng.
Đầu vào: Các nhận xét, đánh giá của người dùng về một sản phẩm cụ
thể trên một trang web đánh giá.


×