Tải bản đầy đủ (.pdf) (67 trang)

Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (695.89 KB, 67 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

LÊ THỊ BÍCH HẢO

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP
TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ
QUAN ĐIỂM VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2016


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

LÊ THỊ BÍCH HẢO

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP
TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ
QUAN ĐIỂM VÀ ỨNG DỤNG
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS NGUYỄN VIỆT ANH

THÁI NGUYÊN – 2016



i

LỜI CẢM ƠN
Trước hết tơi xin bày tỏ lịng biết ơn sâu sắc và gửi lời cảm ơn đặc biệt nhất
tới Thầy TS. Nguyễn Việt Anh, người đã định hướng đề tài, cung cấp cho tôi những
kiến thức, những tài liệu và tận tình hướng dẫn chỉ bảo tơi trong suốt quá trình thực
hiện đề tài luận văn cao học này, từ những ý tưởng trong đề cương nghiên cứu,
phương pháp nghiên cứu, phương pháp giải quyết vấn đề cho đến những lần kiểm
tra cuối cùng để hoàn thành luận văn này.
Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Nhà trường, Phòng
Đào tạo sau đại học, Đại học Công nghệ thông tin và truyền thông Thái Nguyên đã
tạo điều kiện tốt nhất giúp tôi trong suốt q trình học tập.
Cuối cùng tơi xin gửi lời cảm ơn đến gia đình, bạn bè những người đã ln
động viên khuyến khích tơi trong suốt q trình học tập cũng như thực hiện đề tài
luận văn của mình.

Thái Nguyên, ngày 6 tháng 4 năm 2016
Học viên

Lê Thị Bích Hảo


ii

LỜI CAM ĐOAN
Tơi xin cam đoan nội dung trình bày trong luận văn này là do tơi tự nghiên
cứu tìm hiểu dựa trên các tài liệu và tơi trình bày theo ý hiểu của bản thân dưới sự
hướng dẫn trực tiếp của Thầy TS. Nguyễn Việt Anh. Các nội dung nghiên cứu, tìm
hiểu và kết quả thực nghiệm là hồn tồn trung thực.

Luận văn này của tơi chưa từng được ai cơng bố trong bất cứ cơng trình nào.
Trong q trình thực hiện luận văn này tơi đã tham khảo đến các tài liệu của
một số tác giả, tôi đã ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả và tôi đã liệt
kê trong mục “DANH MỤC TÀI LIỆU THAM KHẢO” ở cuối luận văn.

Học viên

Lê Thị Bích Hảo


iii
MỤC LỤC
Trang
Trang bìa phụ
Lời cảm ơn ...............................................................................................................i
Lời cam đoan.......................................................................................................... ii
Mục lục ................................................................................................................. iii
Danh mục các bảng, hình vẽ, đồ thị ........................................................................iv
MỞ ĐẦU ................................................................................................................ 1
Chương 1: TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM ................................... 4
1.1 Khai phá quan điểm ....................................................................................... 4
1.1.1 Giới thiệu chung ...................................................................................... 4
1.1.2 Những thách thức trong khai phá quan điểm với dữ liệu đánh giá ............ 5
1.1.3 Các định nghĩa trong khai phá quan điểm ................................................ 6
1.1.4 Các bài toán trong khai phá quan điểm .................................................... 9
1.2 Khai phá quan điểm dựa trên đặc trưng ........................................................ 11
1.2.1 Mơ hình khai thác ý kiến dựa trên thuộc tính ......................................... 12
1.2.2 Trích xuất khía cạnh .............................................................................. 15
1.2.3 Dự đốn cực .......................................................................................... 16
1.2.4 Nhóm các khía cạnh .............................................................................. 17

1.2.5 Phân giải đồng tham chiếu (Coreference resolution) .............................. 18
1.2.6 Đánh giá ................................................................................................ 18
Chương 2: MỘT SỐ PHƯƠNG PHÁP GIẢI QUYẾT BÀI TỐN TRÍCH
CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM ........... 21
2.1. Phương pháp trích chọn đặc trưng dựa trên tập phổ biến ............................. 21
2.2 Phương pháp trích chọn đặc trưng dựa trên lan truyền kép .......................... 26
2.3 Mơ hình giải quyết bài toán khai phá quan điểm dựa vào đặc trưng cho tiếng Việt ... 34
Chương 3: ỨNG DỤNG VÀO HỆ THỐNG TRÍCH CHỌN ĐẶC TRƯNG
CHO ĐIỆN THOẠI DI ĐỘNG ....................................................... 37
3.1 Mơ tả bài tốn và ý tưởng giải quyết ............................................................ 37


iv
3.2 Xây dựng mơ hình hệ thống ......................................................................... 37
3.2.1 Xây dựng cơ sở dữ liệu đặc tả sản phẩm ............................................... 40
3.2.2 Sinh tập ứng viên đặc trưng ................................................................... 41
3.3.3 Nhóm gộp các đặc trưng ........................................................................ 43
3.3 Thực nghiệm và đánh giá ............................................................................. 45
3.3.1 Môi trường và các công cụ sử dụng ....................................................... 46
3.3.2 Bước tiền xử lý dữ liệu: ......................................................................... 47
3.3.4 Trích chọn các tính năng dựa theo thuật tốn lan truyền kép .................. 51
3.3.5 Gộp nhóm tính năng .............................................................................. 53
3.3.6 Đánh giá chung cho toàn hệ thống ......................................................... 54
KẾT LUẬN .......................................................................................................... 56
TÀI LIỆU THAM KHẢO ................................................................................... 57


iv
DANH MỤC CÁC BẢNG
Trang

Bảng 3.1 Các nhãn từ loại và giải thích.................................................................. 40
Bảng 3.2 Tổng hợp những tính năng được quan tâm nhất ...................................... 54

DANH MỤC CÁC HÌNH VẼ ĐỒ THỊ
Hình 1.1 Ví dụ biểu diễn cây đối tượng ................................................................... 8
Hình 1.2 Quan hệ giữa các nhiệm vụ ..................................................................... 10
Hình 2.1 Mơ hình trích chọn đặc trưng của Hu và Liu ........................................... 22
Hình 2.2 Các loại mối quan hệ phụ thuộc ngữ pháp giữa A và B ........................... 27
Hình 2.3 Mơ hình khai phá quan điểm dựa trên tính năng của Ha [6] ................... 35
Hình 3.1 Mơ hình giải quyết bài toán..................................................................... 39


1
MỞ ĐẦU
Trên thế giới nói chung và ở Việt Nam nói riêng, thương mại điện tử đã trở
nên phổ biến và ngày càng phát triển. Một phần quan trọng trong thương mại điện
tử là bán hàng trực tuyến. Số lượng người mua hàng trực tuyến gia tăng, số lượng
đánh giá, nhận xét của người dùng về các sản phẩm cũng ngày càng nhiều. Một sản
phẩm thơng dụng có thể có hàng trăm, hàng nghìn đánh giá. Cùng với các trang web
bán hàng trực tuyến là các trang web đánh giá sản phẩm như epinions.com,
dpreview.com, vnreview.vn, trustedreviews.com, tinhte.vn, .... Các trang web này là
nơi người tiêu dùng viết các đánh giá của mình về một sản phẩm nào đó. Các đánh
giá được đăng trên một trang web loại này cần tuân theo một số quy định do các
trang web đó đưa ra và sẽ được chấm điểm bởi đông đảo người dùng của trang web
căn cứ vào độ tin cậy, hợp lý và hữu dụng mà các đánh giá này mang lại. Chính bởi
vậy, các bài đánh giá từ các trang web loại này được coi là nguồn tổng hợp lớn các
đánh giá sản phẩm tin cậy từ khách hàng. Đây là nguồn thông tin quan trọng, cung
cấp cho người mua hàng cái nhìn tồn diện hơn về một sản phẩm mà họ định mua.
Còn đối với nhà sản xuất, đánh giá của khách hàng là cơ sở để tiến hành cải tiến,
hồn thiện sản phẩm của mình. Tuy nhiên, một vấn đề đặt ra là số lượng các ý

kiến đánh giá rất lớn. Điều này gây khó khăn cho cả người mua hàng và nhà
sản xuất. Người mua hàng sẽ gặp khó khăn trong việc tổng hợp ý kiến của những
người tiêu dùng trước để đưa ra quyết định mua hay khơng mua một sản phẩm.
Cịn nhà sản xuất thì khó theo dõi, nắm bắt được tất cả phản hồi của người tiêu
dùng về sản phẩm của mình. Thực tế trên làm nảy sinh yêu cầu tổng hợp tất cả
nhận xét của khách hàng về các đặc trưng của sản phẩm trên một trang web đánh
giá sản phẩm.
Theo cuộc khảo sát hơn 2000 người Mỹ trưởng thành cho thấy 81% người
dùng internet (chiếm tỷ lệ 60% người Mỹ) đã thực hiện việc tìm hiểu về một sản
phẩm thơng qua internet. Có từ 73% đến 87% số người nói rằng các nhận xét về sản
phẩm có sự ảnh hưởng quan trọng đến việc lựa chọn mua sản phẩm của họ. Như
vậy, quan điểm của người khác giúp chúng ta có thêm thông tin khi quyết định một


2
vấn đề, nó ảnh hưởng rất lớn đến hành vi của chúng ta. Tại Việt Nam theo báo cáo
thương mại điện tử của Bộ công thương công bố năm 2014 [1] loại mặt hàng được
mua trực tuyến là đồ công nghệ điện tử chiếm tới 61%, yếu tố được quan tâm khi
mua sắm là 81% người ra rằng uy tín của người bán hàng 64% theo thương hiệu của
sản phẩm; thống kê năm 2015 của Google [2] về người dùng internet có xu hướng
theo lời khuyên trực tuyến 50% để mua đồ.
Việc giúp người có ý định mua có thể tham khảo tốt hơn ý kiến người dùng,
hay giúp nhà cung cấp sản phẩm biết được cộng đồng đang quan tâm đến sản phẩm
của mình trên những khía cạnh nào, chính là động lực để học viên nghiên cứu đề tài.
Đối với bài tốn trên cũng đã có rất nhiều các cơng trình nghiên cứu và ứng
dụng trên thế giới trong hơn một thập kỷ qua và đã đưa ra nhiều kết quả đáng chú ý
được mô tả tổng hợp bởi một số nhà nghiên cứu uy tín trong ngành như Bing Liu
[3] hay Moghaddam [4]… và đó là trên thế giới, trong nước đề tài này cũng đang
nhận được nhiều sự chú ý quan tâm của các nhà nghiên cứu trong những năm gần
đây, nổi bật có các nhóm tác giả Bảo Sơn [5] và nhóm của Hà Thụy [6], [7] đã đưa

ra một số kết quả là mô hình áp dụng đối với một số bộ dữ liệu tiếng Việt và bộ từ
điển miền Tiếng Việt…
Luận văn định hướng tìm hiểu các phương pháp trích chọn đặc trưng trong
khai phá quan điểm để biểu diễn đối tượng được quan tâm, trên cơ sở đó đề xuất
phương pháp và thử nghiệm ứng dụng hệ thống trong bài tốn trích chọn đặc trưng
sản phẩm cụ thể là điện thoại di động, từ những dữ liệu thu thập được trên website
diễn dàn đánh giá sản phẩm. Với ý nghĩa thực tế có thể ứng dụng trong thị trường
trong nước, học viên xin được đề xuất nghiên cứu và đưa ra mô hình ứng dụng của
mình. Mơ hình bao gồm các bước từ thu thập dữ liệu, tiền xử lý dữ liệu, đến ứng
dụng các thuật tốn mơ hình lan truyền kép để trích chọn ra các đặc trưng, sử dụng
phân cụm để gộp nhóm các đặc trưng. Cuối cùng là đưa ra những đánh giá đối với
riêng hiệu quả thuật toán, bộ dữ liệu, kết quả đạt được và đánh giá về tính khả thi ứng
dụng mơ hình.


3
Cấu trúc của luận văn sẽ chia thành 4 phần chính:
Phần I. Mơ tả tổng quan về bài tốn khai phá quan điểm, trong đó nêu rõ
những vấn đề nổi bật trong bài toán này tiếp tới là đi sâu hơn vào bài toán khai phá
quan điểm dựa trên đặc trưng, những bài toán con cần giải quyết và phương pháp
đánh giá. Những vấn đề nêu trên đều có giới thiệu các nghiên cứu trong và ngoài
nước liên quan.
Phần II. Mô tả cụ thể chi tiết các phương pháp giải quyết bài tốn trích trọn
đặc trưng nổi bật trên thế giới, phân tích và đưa ra quyết định ứng dụng vào mơ hình
giải quyết bài tốn của mình.
Phần III. Phát biểu bài tốn và đưa ra mơ hình ứng dụng đối với bài tốn trích
chọn đặc trưng cho miền dữ liệu tiếng Việt về sản phẩm điện thoại di động. Tiếp theo
là đưa ra kết quả thực nghiệm và những phân tích chủ quan của học viên về kết quả
đạt được của mơ hình.
Phần IV. Kết luận tổng kết q trình thực hiện luận văn, những khó khăn,

thách thức, những kết quả đạt được và định hướng hướng nghiên cứu áp dụng
tiếp theo.


4
Chương 1
TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM
1.1 Khai phá quan điểm
1.1.1 Giới thiệu chung
Khai phá quan điểm là lĩnh vực nghiên cứu mà cố gắng để làm cho hệ thống
tự động xác định quan điểm của con người từ văn bản được viết bằng ngôn ngữ tự
nhiên. Khai phá quan điểm nghiên cứu về ý kiến, tình cảm, quan niệm chủ quan,
đánh giá, thái độ, thẩm định, cảm xúc… được thể hiện trong văn bản. Những điều
đó được thể hiện qua các nhận xét, blog, các cuộc thảo luận, tin tức, bình luận, phản
hồi… hay các tài liệu khác. Khai phá quan điểm dựa trên ngơn ngữ tính tốn, truy
vấn thông tin, khai thác văn bản, xử lý ngôn ngữ tự nhiên, học máy, thống kê và
phân tích dự đoán.
Đây là lĩnh vực khai phá văn bản, liên quan đến việc áp dụng các giải pháp
của xử lý ngôn ngữ tự nhiên và của học máy để trích xuất và xác định quan điểm
được thể hiện trong văn bản. Khai phá quan điểm dựa trên đặc trưng là một trong ba
bài toán cơ bản trong khai phá quan điểm, bao gồm: bài toán phân lớp quan điểm,
bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng và bài toán khai phá
quan hệ so sánh. Bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng nhằm
mục tiêu tạo ra một bản tổng hợp quan điểm dựa trên các đặc trưng của sản phẩm
được người dùng đề cập trong văn bản và từ đó xác định các ý kiến đánh giá được
đưa ra.
Đối tượng dữ liệu được quan tâm hiện nay [8] phân bố ở trên các mạng xã hội,
các dự án cộng tác, các blog, các cộng đồng,… đều là các bài đánh giá nêu quan điểm
trực tuyến. Đặc điểm của những bài đánh giá trực tuyến thường là đánh giá cho một
sản phẩm hay một dịch vụ cụ thể, có dạng văn bản, có thể có đánh giá theo tiêu chí

thang điểm hay là những cụm câu ngắn tổng kết tính năng ưu nhược và thường được
viết với ngôn ngữ tự nhiên đa dạng. Ngoài ra các nguồn đề thu thập ý kiến có thể là từ
những phản hồi của khách hàng qua thư điện tử mail, cuộc gọi yêu cầu hỗ trợ đến


5
trung tâm dịch vụ; từ tin tực báo cáo, từ những diễn đàn thảo luận, facebook,
tweets… đều có kiểu khơng tập trung và vụn vặt; đặc biệt là thuần văn bản.
Những đánh giá kiểu này sẽ giúp ích rất nhiều khách hàng cũng như nhà sản
xuất. Khách hàng thì có thể giúp họ ra quyết định khi mua sản phẩm hoặc dịch vụ.
Với các nhà sản xuất đây là nguồn phản hồi để đánh giá hiệu quả, mà theo truyền
thống những nhà sản xuất phải thường dành nhiều tiền cho việc thu thập ý kiến,
khảo sát,…
Tất nhiên rằng ý kiến của một người không đủ để quyết định hành động trừ
ngoại lệ người đó được biết đến như một chuyên gia và có những lời khun bổ ích
được đánh giá cao, thì việc tổng hợp ý kiến từ rất nhiều người mới có tính thuyết
phục cao hơn, khai phá quan điểm chính là để phát hiện những mẫu dạng những
những ý kiến đó.
Vấn đề là có quá nhiều các bài đánh giá cần phải xem xét, nhiều khía cạnh
được quan tâm, hơn nữa rằng người dùng viết ý kiến của mình theo phong cách
riêng thường khơng có cấu trúc và đúng ngữ pháp, cũng có quá nhiều bài gây nhiễu
chất lượng thấp, spam,…
Như vậy, một nhiệm vụ quan trọng để giải quyết bài toán loại này là xác định
các đặc trưng đối tượng mà người dùng nhận xét, đánh giá. Đây chính là nội dung
trọng tâm mà luận văn tìm hiểu giải quyết.
1.1.2 Những thách thức trong khai phá quan điểm với dữ liệu đánh giá
Đặc điểm của một bài đánh giá trực tuyến thường là gồm các thực thể, người
nêu quan điểm và thời gian đưa ra quan điểm đó; những bài đánh giá này có thể gặp
được ở các blog, các diễn dàn forum,… mà đều không rõ cụ thể về thực thể hay khía
cạnh nào, thường được nêu ra không theo chủ đề hay cấu trúc nào, ngồi ra cịn có

thể so sánh với nhiều loại khác, thậm chí cả những thơng tin khơng hề liên quan.
Có thể kể đến những thách thức trong quá trình khai phá quan điểm dựa trên
khía cạnh bao gồm:


6
Một khía cạnh được thể hiện bằng nhiều từ khác nhau. Với ví dụ rằng “ảnh
chụp từ con này đẹp hơn hình của con samsung Galaxy” cùng nói về một tính năng
ảnh chụp nhưng có thể nói bằng những cách khác nhau.
Những từ quan điểm thể hiện mực độ đánh giá giống nhau. Ví dụ như “cái
này thường thơi, dùng tạm khi cần”
Gây khó khăn rất lớn trong q trình thu thập dữ liệu đó là nhiễu, những
thơng tin dư thừa khơng liên quan có thể lẫn vào, thậm chí chiếm phần lớn nội
dung, do người dùng khá tự do và khơng có luật gì rằng buộc.
Việc xếp hạng hay các khía cạnh được thể hiện khơng rõ ràng. Ngơn ngữ
người dùng đã nhập nhằng và đôi khi họ chỉ nêu lên những ý kiến trung lập không
thể hiện rõ thái độ tích cực hay tiêu cực, ví dụ như trong câu “thiết kế của em này
to” không rõ người dùng cảm thấy tốt hay khơng.
Có sự so sánh các quan điểm. Hẳn nhiên việc so sánh là thường diễn ra và
cần phân biệt khía cạnh đang đề cập đến là nói về sản phẩm nào… ví dụ như câu
“về chụp ảnh thì Samsung thua xa iPhone, cơ mà giá thì ngon hơn nhiều”
1.1.3 Các định nghĩa trong khai phá quan điểm
Sau đây sẽ là hệ thống một số khái niệm trong lĩnh vực khai phá quan điểm
này, được định nghĩa bởi B.Liu [9].
“Một quan điểm là một phát biểu, cách nhìn, thái độ hoặc định giá chủ quan
về một thực thể hay một khía cạnh của thực thể nào đó”.
“Một ý kiến có thể được phân loại thành kiểu tiêu cực, tích cực hay trung lập.
Có thể gọi là hướng quan điểm hay cực của quan điểm”.
Từ quan điểm: “Từ thể hiện được quan điểm của người đánh giá được gọi là
từ quan điểm”.

Quan điểm hiện và quan điểm ẩn: “Một quan điểm hiện về một đặc trưng f là
một câu chủ quan mà trực tiếp biểu đạt một quan điểm tích cực hoặc tiêu cực. Một
quan điểm ẩn về một đặc trưng f là một câu khách quan mà ám chỉ một quan điểm
tích cực hay tiêu cực”.


7
Ví dụ:
Câu = “Điện thoại Blackberry có thiết kế rất nam tính”.
Quan điểm của người dùng trên đặc trưng “nội dung” (điện thoại Blackberry)
là một quan điểm hướng tích cực, vì sử dụng từ quan điểm “hay”.
Đoạn đánh giá về một đặc trưng: Đoạn văn bản đánh giá về một đặc trưng f
của đối tượng O trong s là một tập các câu liên tiếp trong s diễn tả quan điểm tích
cực, tiêu cực hay trung lập về đặc trưng f.
Người đánh giá: Là người hay tổ chức cụ thể đưa ra lời đánh giá. Với các
đánh giá về sản phẩm trên diễn đàn hay blog, người đánh giá chính là tác giả của
đánh giá hay bài viết.
Đối tượng và đặc trưng của đối tượng
Nhìn chung, các quan điểm có thể biểu đạt đánh giá về bất cứ điều gì, chẳng
hạn, một sản phẩm, một cá nhân, một tổ chức, một sự kiện, một chủ đề…Chúng ta
sử dụng thuật ngữ tổng quát đối tượng để chỉ các thực thể được đánh giá đó. Đối
tượng có tập các thành phần và tập các thuộc tính.
Một đối tượng có thể được phân rã căn cứ vào mối quan hệ thành phần
“part-of”, mỗi thành phần có thể có các thành phần con….Chẳng hạn, một sản phẩm
(ô tô, điện thoại di động, máy ảnh kĩ thuật số…) có thể có các thành phần khác
nhau, một sự kiện có thể có các sự kiện con, một chủ đề có thể có các chủ đề con,…
Một đối tượng O là một thực thể (một sản phẩm, một người, một sự kiện…),
có liên hệ tới 1 cặp, O: (T, A), với T là một cấu trúc phân cấp của các thành phần. A
là tập các thuộc tính của đối tượng O. Mỗi thành phần thuộc đối tượng O lại có tập
các thành phần và tập các thuộc tính của nó.

Để làm rõ hai khái niệm thành phần và thuộc tính trong định nghĩa đối tượng
ở trên, có một ví dụ đơn giản như sau: Xét đối tượng là điện thoại Nokia N72. Đối
tượng này có một tập các thành phần, như: pin, màn hình và một tập các thuộc tính
như chất lượng âm thanh, kích cỡ, cảm ứng. Thành phần pin cũng có một tập các
thuộc tính như: chất lượng pin, kích cỡ pin.


8
Một đối tượng O được biểu diễn như một cây. Gốc chính là đối tượng O.
Mỗi nốt khơng là gốc là một thành phần hoặc thành phần con của O. Mỗi nhánh liên
kết thể hiện mối quan hệ “part-of”. Mỗi nốt cũng liên hệ với một tập các thuộc tính.

Nokia N72
Pin

Chất lượng

Màn hình

Kích cỡ

Cảm ứng

Hình 1.1 Ví dụ biểu diễn cây đối tượng
Một sản phẩm máy ảnh có tập các thành phần như pin, màn hình…và tập các
thuộc tính như chất lượng pin, kích cỡ pin, cảm ứng. Thành phần pin cũng có tập
thuộc tính của nó như chất lượng pin, kích cỡ pin, trọng lượng pin.
Quan điểm có thể được thể hiện trên đối tượng (nút gốc), chẳng hạn như:
“Tơi khơng thích điện thoại này”, hoặc trên một thuộc tính của đối tượng, như
“Chất lượng ảnh của điện thoại này kém”, trên một thành phần của đối tượng như

“Camera của điện thoại này kém” hoặc trên thuộc tính của một thành phần, chẳng
hạn như “Tuổi thọ pin của điện thoại này ngắn”. Như vậy thành phần và thuộc tính
chính là đặc trưng quan điểm (hay đặc trưng) của đối tượng. Để đơn giản từ “đặc
trưng” được sử dụng để thể hiện cả thành phần và thuộc tính của đối tượng.
Đặc trưng có hai loại là đặc trưng ẩn và đặc trưng hiện.
Nếu đặc trưng f xuất hiện tường minh trong tài liệu biểu đạt quan điểm đánh
giá r thì f được gọi là một đặc trưng hiện trong r.
Nếu f không xuất hiện tường minh trong r nhưng được ngầm nói đến thì f
được gọi là một đặc trưng ẩn trong r.


9
Ví dụ
Đặc trưng “tuổi thọ pin” trong câu “Tuổi thọ pin của điện thoại này rất
ngắn.” là một đặc trưng hiện.
Đặc trưng “kích thước” trong câu “Điện thoại này quá nhỏ.” là một đặc trưng
ẩn. Không rõ người dùng cảm thấy phù hợp hay khơng hài lịng.
Định nghĩa một cách toán học một quan điểm
Quan điểm ( ,

,

,

,

) là một bộ gồm 5 thành phần với

: là một thực thể mục tiêu
: là một khía cạnh của một thực thể

: là người giữ quan điểm i
: là thời gian quan điểm được thể hiện
: là hướng quan điểm của người

về tính năng

của thực thể

tại thời gian
Định nghĩa khơng chỉ áp dụng cho đối tượng là sản phẩm, mà cịn có thể là
các dịch vụ, công ty, …tuy nhiên đôi khi việc thu thập năm thành phần có thể khó
khăn, dẫn đến có thể gây hạn chế tính chính xác của quan điểm nếu thiếu chúng.
1.1.4 Các bài toán trong khai phá quan điểm
Mục đích phải khám phá đầy đủ tất các các thành phần của một quan điểm,
chuyển đổi các dạng văn bản khơng có cấu trúc thành có cấu trúc, cũng phục vụ cho
việc phân tích và đánh giá chất lượng. Và tiếp tới sẽ nêu qua những dạng bài tốn
có trong lĩnh vực khai phá quan điểm này.
Trước hết lại nói cấu trúc của một đánh giá là bao gồm các câu, mỗi câu
chứa các cụm từ, trong đánh giá quan điểm có cấp bậc là từ cấp văn bản, cấp câu và
cuối cùng là cấp cụm từ.
Đầu tiên khai phá quan điểm ở cấp văn bản thường là phân loại ra các chủ đề
(Subjectivity Classification) xác định các văn bản thể hiện quan điểm hay không;


10
phân loại ý kiến, xác định cực của ý kiến là tích cực hay tiêu cực; dự đốn những
quan điểm hữu ích (Opinion helpfulness estimate), bài tốn ước lượng những đánh
giá hữu ích; phát hiện những quan điểm khơng ý nghĩa spam (Opinion Spam
Detection).
Với cấp khai phá ở mức câu, việc khai phá tập trung vào tổng kết các quan

điểm (opinion summarization) [10] là trích xuất ra những câu có ý nghĩa chính cho
mỗi sản phẩm hay mỗi khía cạnh; tiếp theo là khai phá qua các quan điểm so sánh
(OM in Comparative sentences) bao gồm xác định ra những câu so sánh và trích
xuất là ý định so sánh.
Ở cấp thấp nhất là khai phá quan điểm từ cấp cụm từ nhằm khai phá khía
cạnh xác định các tính năng và xếp hạng từ những đánh giá. Bài toán lớn gồm rất
nhiều bài tốn con và có những quan hệ theo như bảng sau:

Subjectivity Classification
(Phân loại chủ đề)

Sentiment Analysic
(Phân tích quan điểm)

Opinion Search and Retrieval
(Truy hồi và tìm kiếm)

Opinion Question Answering
(Trả lời câu hỏi về quan điểm)

Opinion summarization
(Tổng kết quan điểm)

Opinion Spam Dectection
(Phát hiện quan điểm không ý nghĩa)

Aspect – based Opinion Mining
(KPQĐ dựa trên khía cạnh)

Opinion Helpfulness Est.

(Ước lượng quan điểm hữu ích)

OM in Comparative sentences
(KPQĐ trong câu so sánh)

Hình 1.2 Quan hệ giữa các nhiệm vụ


11
Một trong những vấn đề cần xem xét thêm là những từ vựng chỉ quan điểm,
đối với ngôn ngữ tiếng Anh đã được rất nhiều nhà nghiên cứu xây dựng bộ từ điển
cho loại từ vựng này có thể kế đến như bộ là MPQA1, SentiWordNet 2,… với mỗi
từ có xác suất phân bố qua độ tích cực, tiêu cực và mục tiêu; bộ từ điển của Bing
Liu thì bao gồm danh sách các từ tiêu cực và tích cực, bộ cảm xúc,... trong đó có thể
kể đến gần đây YanghiuRao [11] và cộng sự có đóng góp xây dựng bộ từ điển từ
cảm xúc đối với miền tin tức trực tuyến.
Với bài tốn phân tích ý kiến có một số hạn chế là tri thức của quan hệ phân
cấp của các thuộc tính sản phẩm khơng được tận dụng tối đa, các đánh giá hoặc vài
đề cập đến những thuộc tính được gắn kết phức tạp với nhau. Những tổng hợp về
bài tốn này có thể tìm hiểu thêm ở [3] của tác giả B. Liu, ngồi ra có một số cơng
trình nghiên cứu có đề cập đến giải quyết những vấn đề này nổi bật đó là việc gán
nhãn các thuộc tính của sản phẩm bằng cách học theo cấp dựa vào cây thực thể từ
quan điểm (Sentiment ontology tree) [12], hay là sử dụng phương pháp phân tích
đánh giá khía cạnh ẩn dựa trên hồi quy [13]; đối với dữ liệu tiếng Việt cũng có
nhóm nghiên cứu của Kieu và cộng sự [5].
Phần tiếp tới sẽ mô tả một bài toán quan trọng là khai phá quan điểm dựa
trên đặc trưng (Aspect-based opinion mining).
1.2 Khai phá quan điểm dựa trên đặc trưng
Trong bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng, vấn đề
quan trọng cần giải quyết đầu tiên là trích chọn các đặc trưng biểu diễn đối tượng

được đề cập đến trong các bài viết về sản phẩm, hay có thể như trong các bài đánh
giá, nhận xét. Trong phần này luận văn sẽ trình bày một số khái niệm liên quan đến
đặc trưng trong bài toán khai phá quan điểm dựa trên đặc trưng và mơ hình hóa cơ
bản của bài tốn này, sau đó là mơ tả những bài tốn con cũng với tình hình nghiên
cứu những năm gần đây.

1
2

mpqa.cs.pitt.edu/
sentiwordnet.isti.cnr.it


12
1.2.1 Mơ hình khai thác ý kiến dựa trên thuộc tính
Một tài liệu biểu đạt quan điểm đánh giá tích cực về một đối tượng nào đó
khơng có nghĩa rằng tác giả có quan điểm tích cực về mọi khía cạnh của sản phẩm.
Cũng như vậy, một tài liệu biểu đạt quan điểm tiêu cực khơng có nghĩa tác giả có
quan điểm tiêu cực về mọi khía cạnh của đối tượng đó. Để nắm được những khía
cạnh chi tiết như vậy, cần tiến đến mức đặc trưng. Như vậy, bài tốn khai phá quan
điểm dựa trên đặc trưng có hai nhiệm vụ như sau:
- Phát hiện và lấy ra các đặc trưng của sản phẩm được đề cập. Chẳng hạn câu
“Tuổi thọ pin của điện thoại này quá ngắn”, bình luận trên đặc trưng “tuổi thọ pin”
của sản phẩm “điện thoại này”.
- Xác định quan điểm về các đặc trưng là tích cực, tiêu cực hay trung lập.
Trong câu trên, quan điểm về đặc trưng “tuổi thọ pin” là tiêu cực.
Do đó bài tốn khai phá quan điểm dựa trên đặc trưng thực hiện tại mức đặc
trưng. Chẳng hạn, trong một đánh giá của một sản phẩm, bài toán này nhằm phát
hiện các đặc trưng của sản phẩm mà được bình luận bởi người tiêu dùng và xác định
bình luận về đặc trưng đó là tích cực hay tiêu cực. Một tổng hợp có cấu trúc sẽ được

tạo ra từ kết quả khai phá này.
Mơ tả một cách hình thức như sau:
Một đối tượng được biểu diễn với một tập hữu hạn các đặc trưng, F = {f1, f2,
.. fn}. Mỗi đặc trưng fi trong F có thể được biểu diễn bởi một tập hữu hạn các từ
hoặc cụm từ đồng nghĩa Wi. Tức là, có một tập các từ đồng nghĩa tương ứng W =
{W1, W2, …, Wn} cho n đặc trưng. Vì mỗi đặc trưng fi trong F có một tên (kí hiệu bởi
fi), nên fi ∈ Wi. Mỗi tác giả hoặc người đánh giá j bình luận trên một tập con các
đặc trưng Sj ⊆ F. Với mỗi đặc trưng fk ∈ Sj mà người đánh giá j bình luận, một từ
hoặc cụm từ Wk sẽ được chọn để mơ tả đặc trưng, và sau đó biểu đạt một quan điểm
tích cực hay tiêu cực của người đánh giá j.
Đầu vào: Tập D các tài liệu d có quan điểm đánh giá.


13
Đầu ra: Một tập các cặp, mỗi cặp kí hiệu bởi (f, SO), với f là một đặc
trưng và SO là hướng quan điểm (tích cực hay tiêu cực) được biểu đạt trong d
trên đặc trưng f.
Chú ý rằng mô hình này khơng xem xét độ mạnh của mỗi quan điểm, nghĩa
là, không xem xét quan điểm là tiêu cực (tích cực) mạnh hay tiêu cực (tích cực) yếu,
nhưng độ mạnh của mỗi quan điểm có thể được thêm vào.
Có nhiều cách để sử dụng kết quả từ mơ hình này. Cách đơn giản là tạo ra
tổng hợp dựa trên đặc trưng của các quan điểm trên đối tượng.
Như vậy, bài toán khai phá quan điểm dựa trên đặc trưng có một số tình
huống sau:
Tình huống 1: Khơng biết F và W.
Với tình huống này, ta cần thực hiện ba nhiệm vụ sau:
+ Nhiệm vụ 1: Xác định và trích chọn các đặc trưng đối tượng được bình
luận trong mỗi tài liệu d ∈ D
+ Nhiệm vụ 2: Nhóm các từ đồng nghĩa của đặc trưng, vì những người khác
nhau có thể sử dụng các từ hoặc cụm từ khác nhau để biểu đạt cùng một đặc trưng.

+ Nhiệm vụ 3: Xác định hướng quan điểm trên các đặc trưng là tích cực, tiêu
cực hay trung lập
Tình huống 2: Biết F nhưng khơng biết W.
Tình huống này tương tự như tình huống 1 nhưng nhiệm vụ 2 chuyển thành
vấn đề đối chiếu các đặc trưng phát hiện được với tập đặc trưng F đã biết.
Tình huống 3: Biết W và F.
Với tình huống này chúng ta chỉ cần xác định hướng quan điểm trên đặc
trưng sau khi tất cả các câu chứa quan điểm về đặc trưng được trích chọn.
Luận văn tập trung giải quyết nhiệm vụ 1 và 2 trong hai tình huống đầu tiên.
Đó chính là nội dung của bài tốn trích chọn đặc trưng.
Đầu vào: Các nhận xét, đánh giá của người dùng về một sản phẩm cụ thể
trên một trang web đánh giá.



×