Tải bản đầy đủ (.pdf) (66 trang)

(Luận văn thạc sĩ) Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (473.9 KB, 66 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

LÊ THỊ BÍCH HẢO

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP
TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ
QUAN ĐIỂM VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN




ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

LÊ THỊ BÍCH HẢO

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP
TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ
QUAN ĐIỂM VÀ ỨNG DỤNG
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Ngƣời hƣớng dẫn khoa học: TS NGUYỄN VIỆT ANH


THÁI NGUYÊN – 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN




i

LỜI CẢM ƠN
Trước hết tơi xin bày tỏ lịng biết ơn sâu sắc và gửi lời cảm ơn đặc biệt nhất
tới Thầy TS. Nguyễn Việt Anh, người đã định hướng đề tài, cung cấp cho tôi những
kiến thức, những tài liệu và tận tình hướng dẫn chỉ bảo tơi trong suốt quá trình thực
hiện đề tài luận văn cao học này, từ những ý tưởng trong đề cương nghiên cứu,
phương pháp nghiên cứu, phương pháp giải quyết vấn đề cho đến những lần kiểm
tra cuối cùng để hoàn thành luận văn này.
Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Nhà trường, Phòng
Đào tạo sau đại học, Đại học Công nghệ thông tin và truyền thông Thái Nguyên đã
tạo điều kiện tốt nhất giúp tôi trong suốt q trình học tập.
Cuối cùng tơi xin gửi lời cảm ơn đến gia đình, bạn bè những người đã ln
động viên khuyến khích tơi trong suốt q trình học tập cũng như thực hiện đề tài
luận văn của mình.

Thái Nguyên, ngày 6 tháng 4 năm 2016
Học viên

Lê Thị Bích Hảo

Số hóa bởi Trung tâm Học liệu – ĐHTN





ii

LỜI CAM ĐOAN
Tơi xin cam đoan nội dung trình bày trong luận văn này là do tơi tự nghiên
cứu tìm hiểu dựa trên các tài liệu và tơi trình bày theo ý hiểu của bản thân dưới sự
hướng dẫn trực tiếp của Thầy TS. Nguyễn Việt Anh. Các nội dung nghiên cứu, tìm
hiểu và kết quả thực nghiệm là hồn tồn trung thực.
Luận văn này của tơi chưa từng được ai cơng bố trong bất cứ cơng trình nào.
Trong q trình thực hiện luận văn này tơi đã tham khảo đến các tài liệu của
một số tác giả, tôi đã ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả và tôi đã liệt
kê trong mục “DANH MỤC TÀI LIỆU THAM KHẢO” ở cuối luận văn.

Học viên

Lê Thị Bích Hảo

Số hóa bởi Trung tâm Học liệu – ĐHTN




iii
MỤC LỤC
Trang
Trang bìa phụ
Lời cảm ơn ............................................................................................................... i
Lời cam đoan...........................................................................................................ii
Mục lục ................................................................................................................. iii

Danh mục các bảng, hình vẽ, đồ thị ........................................................................ iv
MỞ ĐẦU ................................................................................................................ 1
Chƣơng 1: TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM ................................... 4
1.1 Khai phá quan điểm ....................................................................................... 4
1.1.1 Giới thiệu chung ...................................................................................... 4
1.1.2 Những thách thức trong khai phá quan điểm với dữ liệu đánh giá ............ 5
1.1.3 Các định nghĩa trong khai phá quan điểm ................................................ 6
1.1.4 Các bài toán trong khai phá quan điểm .................................................... 9
1.2 Khai phá quan điểm dựa trên đặc trưng ........................................................ 11
1.2.1 Mơ hình khai thác ý kiến dựa trên thuộc tính ......................................... 12
1.2.2 Trích xuất khía cạnh .............................................................................. 15
1.2.3 Dự đốn cực .......................................................................................... 16
1.2.4 Nhóm các khía cạnh .............................................................................. 17
1.2.5 Phân giải đồng tham chiếu (Coreference resolution) .............................. 18
1.2.6 Đánh giá ................................................................................................ 18
Chƣơng 2: MỘT SỐ PHƢƠNG PHÁP GIẢI QUYẾT BÀI TỐN TRÍCH
CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM ........... 21
2.1. Phương pháp trích chọn đặc trưng dựa trên tập phổ biến ............................. 21
2.2 Phương pháp trích chọn đặc trưng dựa trên lan truyền kép .......................... 26
2.3 Mơ hình giải quyết bài toán khai phá quan điểm dựa vào đặc trưng cho tiếng Việt ... 34
Chƣơng 3: ỨNG DỤNG VÀO HỆ THỐNG TRÍCH CHỌN ĐẶC TRƢNG
CHO ĐIỆN THOẠI DI ĐỘNG ....................................................... 37
3.1 Mơ tả bài tốn và ý tưởng giải quyết ............................................................ 37

Số hóa bởi Trung tâm Học liệu – ĐHTN




iv

3.2 Xây dựng mơ hình hệ thống ......................................................................... 37
3.2.1 Xây dựng cơ sở dữ liệu đặc tả sản phẩm ............................................... 40
3.2.2 Sinh tập ứng viên đặc trưng ................................................................... 41
3.3.3 Nhóm gộp các đặc trưng ........................................................................ 43
3.3 Thực nghiệm và đánh giá ............................................................................. 45
3.3.1 Môi trường và các công cụ sử dụng ....................................................... 46
3.3.2 Bước tiền xử lý dữ liệu: ......................................................................... 47
3.3.4 Trích chọn các tính năng dựa theo thuật tốn lan truyền kép .................. 51
3.3.5 Gộp nhóm tính năng .............................................................................. 53
3.3.6 Đánh giá chung cho toàn hệ thống ......................................................... 54
KẾT LUẬN .......................................................................................................... 56
TÀI LIỆU THAM KHẢO ................................................................................... 57

Số hóa bởi Trung tâm Học liệu – ĐHTN




iv
DANH MỤC CÁC BẢNG
Trang
Bảng 3.1 Các nhãn từ loại và giải thích.................................................................. 40
Bảng 3.2 Tổng hợp những tính năng được quan tâm nhất ...................................... 54

DANH MỤC CÁC HÌNH VẼ ĐỒ THỊ
Hình 1.1 Ví dụ biểu diễn cây đối tượng ................................................................... 8
Hình 1.2 Quan hệ giữa các nhiệm vụ ..................................................................... 10
Hình 2.1 Mơ hình trích chọn đặc trưng của Hu và Liu ........................................... 22
Hình 2.2 Các loại mối quan hệ phụ thuộc ngữ pháp giữa A và B ........................... 27
Hình 2.3 Mơ hình khai phá quan điểm dựa trên tính năng của Ha [6] ................... 35

Hình 3.1 Mơ hình giải quyết bài tốn..................................................................... 39

Số hóa bởi Trung tâm Học liệu – ĐHTN




1
MỞ ĐẦU
Trên thế giới nói chung và ở Việt Nam nói riêng, thương mại điện tử đã trở
nên phổ biến và ngày càng phát triển. Một phần quan trọng trong thương mại điện
tử là bán hàng trực tuyến. Số lượng người mua hàng trực tuyến gia tăng, số lượng
đánh giá, nhận xét của người dùng về các sản phẩm cũng ngày càng nhiều. Một sản
phẩm thơng dụng có thể có hàng trăm, hàng nghìn đánh giá. Cùng với các trang web
bán hàng trực tuyến là các trang web đánh giá sản phẩm như epinions.com,
dpreview.com, vnreview.vn, trustedreviews.com, tinhte.vn, .... Các trang web này là
nơi người tiêu dùng viết các đánh giá của mình về một sản phẩm nào đó. Các đánh
giá được đăng trên một trang web loại này cần tuân theo một số quy định do các
trang web đó đưa ra và sẽ được chấm điểm bởi đông đảo người dùng của trang web
căn cứ vào độ tin cậy, hợp lý và hữu dụng mà các đánh giá này mang lại. Chính bởi
vậy, các bài đánh giá từ các trang web loại này được coi là nguồn tổng hợp lớn các
đánh giá sản phẩm tin cậy từ khách hàng. Đây là nguồn thông tin quan trọng, cung
cấp cho người mua hàng cái nhìn tồn diện hơn về một sản phẩm mà họ định mua.
Còn đối với nhà sản xuất, đánh giá của khách hàng là cơ sở để tiến hành cải tiến,
hồn thiện sản phẩm của mình. Tuy nhiên, một vấn đề đặt ra là số lượng các ý
kiến đánh giá rất lớn. Điều này gây khó khăn cho cả người mua hàng và nhà
sản xuất. Người mua hàng sẽ gặp khó khăn trong việc tổng hợp ý kiến của những
người tiêu dùng trước để đưa ra quyết định mua hay khơng mua một sản phẩm.
Cịn nhà sản xuất thì khó theo dõi, nắm bắt được tất cả phản hồi của người tiêu
dùng về sản phẩm của mình. Thực tế trên làm nảy sinh yêu cầu tổng hợp tất cả

nhận xét của khách hàng về các đặc trưng của sản phẩm trên một trang web đánh
giá sản phẩm.
Theo cuô ̣c khảo sát hơn 2000 người Mỹ trưởng thành cho th ấy 81% người
dùng internet (chiếm tỷ lệ 60% người Mỹ ) đã thực hiê ̣n viê ̣c tim
̀ hiể u về mơ ̣t sản
phẩ m thơng qua internet. Có từ 73% đến 87% số người nói rằ ng các nhâ ̣n xét về sản
phẩ m có sự ảnh hưởng quan tro ̣ng đế n viê ̣c lựa cho ̣n mua sản phẩ m của ho ̣

. Như

vậy, quan điểm của người khác giúp chúng ta có thêm thơng tin khi quyết định một
Số hóa bởi Trung tâm Học liệu – ĐHTN




2
vấn đề, nó ảnh hưởng rất lớn đến hành vi của chúng ta. Tại Việt Nam theo báo cáo
thương mại điện tử của Bộ công thương công bố năm 2014 [1] loại mặt hàng được
mua trực tuyến là đồ công nghệ điện tử chiếm tới 61%, yếu tố được quan tâm khi
mua sắm là 81% người ra rằng uy tín của người bán hàng 64% theo thương hiệu của
sản phẩm; thống kê năm 2015 của Google [2] về người dùng internet có xu hướng
theo lời khuyên trực tuyến 50% để mua đồ.
Việc giúp người có ý định mua có thể tham khảo tốt hơn ý kiến người dùng,
hay giúp nhà cung cấp sản phẩm biết được cộng đồng đang quan tâm đến sản phẩm
của mình trên những khía cạnh nào, chính là động lực để học viên nghiên cứu đề tài.
Đối với bài tốn trên cũng đã có rất nhiều các cơng trình nghiên cứu và ứng
dụng trên thế giới trong hơn một thập kỷ qua và đã đưa ra nhiều kết quả đáng chú ý
được mô tả tổng hợp bởi một số nhà nghiên cứu uy tín trong ngành như Bing Liu
[3] hay Moghaddam [4]… và đó là trên thế giới, trong nước đề tài này cũng đang

nhận được nhiều sự chú ý quan tâm của các nhà nghiên cứu trong những năm gần
đây, nổi bật có các nhóm tác giả Bảo Sơn [5] và nhóm của Hà Thụy [6], [7] đã đưa
ra một số kết quả là mô hình áp dụng đối với một số bộ dữ liệu tiếng Việt và bộ từ
điển miền Tiếng Việt…
Luận văn định hướng tìm hiểu các phương pháp trích chọn đặc trưng trong
khai phá quan điểm để biểu diễn đối tượng được quan tâm, trên cơ sở đó đề xuất
phương pháp và thử nghiệm ứng dụng hệ thống trong bài tốn trích chọn đặc trưng
sản phẩm cụ thể là điện thoại di động, từ những dữ liệu thu thập được trên website
diễn dàn đánh giá sản phẩm. Với ý nghĩa thực tế có thể ứng dụng trong thị trường
trong nước, học viên xin được đề xuất nghiên cứu và đưa ra mô hình ứng dụng của
mình. Mơ hình bao gồm các bước từ thu thập dữ liệu, tiền xử lý dữ liệu, đến ứng
dụng các thuật tốn mơ hình lan truyền kép để trích chọn ra các đặc trưng, sử dụng
phân cụm để gộp nhóm các đặc trưng. Cuối cùng là đưa ra những đánh giá đối với
riêng hiệu quả thuật toán, bộ dữ liệu, kết quả đạt được và đánh giá về tính khả thi ứng
dụng mơ hình.

Số hóa bởi Trung tâm Học liệu – ĐHTN




3
Cấu trúc của luận văn sẽ chia thành 4 phần chính:
Phần I. Mơ tả tổng quan về bài tốn khai phá quan điểm, trong đó nêu rõ
những vấn đề nổi bật trong bài toán này tiếp tới là đi sâu hơn vào bài toán khai phá
quan điểm dựa trên đặc trưng, những bài toán con cần giải quyết và phương pháp
đánh giá. Những vấn đề nêu trên đều có giới thiệu các nghiên cứu trong và ngoài
nước liên quan.
Phần II. Mô tả cụ thể chi tiết các phương pháp giải quyết bài tốn trích trọn
đặc trưng nổi bật trên thế giới, phân tích và đưa ra quyết định ứng dụng vào mơ hình

giải quyết bài tốn của mình.
Phần III. Phát biểu bài tốn và đưa ra mơ hình ứng dụng đối với bài tốn trích
chọn đặc trưng cho miền dữ liệu tiếng Việt về sản phẩm điện thoại di động. Tiếp theo
là đưa ra kết quả thực nghiệm và những phân tích chủ quan của học viên về kết quả
đạt được của mơ hình.
Phần IV. Kết luận tổng kết q trình thực hiện luận văn, những khó khăn,
thách thức, những kết quả đạt được và định hướng hướng nghiên cứu áp dụng
tiếp theo.

Số hóa bởi Trung tâm Học liệu – ĐHTN




4
Chƣơng 1
TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM
1.1 Khai phá quan điểm
1.1.1 Giới thiệu chung
Khai phá quan điểm là lĩnh vực nghiên cứu mà cố gắng để làm cho hệ thống
tự động xác định quan điểm của con người từ văn bản được viết bằng ngôn ngữ tự
nhiên. Khai phá quan điểm nghiên cứu về ý kiến, tình cảm, quan niệm chủ quan,
đánh giá, thái độ, thẩm định, cảm xúc… được thể hiện trong văn bản. Những điều
đó được thể hiện qua các nhận xét, blog, các cuộc thảo luận, tin tức, bình luận, phản
hồi… hay các tài liệu khác. Khai phá quan điểm dựa trên ngơn ngữ tính tốn, truy
vấn thông tin, khai thác văn bản, xử lý ngôn ngữ tự nhiên, học máy, thống kê và
phân tích dự đoán.
Đây là lĩnh vực khai phá văn bản, liên quan đến việc áp dụng các giải pháp
của xử lý ngôn ngữ tự nhiên và của học máy để trích xuất và xác định quan điểm
được thể hiện trong văn bản. Khai phá quan điểm dựa trên đặc trưng là một trong ba

bài toán cơ bản trong khai phá quan điểm, bao gồm: bài toán phân lớp quan điểm,
bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng và bài toán khai phá
quan hệ so sánh. Bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng nhằm
mục tiêu tạo ra một bản tổng hợp quan điểm dựa trên các đặc trưng của sản phẩm
được người dùng đề cập trong văn bản và từ đó xác định các ý kiến đánh giá được
đưa ra.
Đối tượng dữ liệu được quan tâm hiện nay [8] phân bố ở trên các mạng xã hội,
các dự án cộng tác, các blog, các cộng đồng,… đều là các bài đánh giá nêu quan điểm
trực tuyến. Đặc điểm của những bài đánh giá trực tuyến thường là đánh giá cho một
sản phẩm hay một dịch vụ cụ thể, có dạng văn bản, có thể có đánh giá theo tiêu chí
thang điểm hay là những cụm câu ngắn tổng kết tính năng ưu nhược và thường được
viết với ngôn ngữ tự nhiên đa dạng. Ngoài ra các nguồn đề thu thập ý kiến có thể là từ
những phản hồi của khách hàng qua thư điện tử mail, cuộc gọi yêu cầu hỗ trợ đến

Số hóa bởi Trung tâm Học liệu – ĐHTN




5
trung tâm dịch vụ; từ tin tực báo cáo, từ những diễn đàn thảo luận, facebook,
tweets… đều có kiểu khơng tập trung và vụn vặt; đặc biệt là thuần văn bản.
Những đánh giá kiểu này sẽ giúp ích rất nhiều khách hàng cũng như nhà sản
xuất. Khách hàng thì có thể giúp họ ra quyết định khi mua sản phẩm hoặc dịch vụ.
Với các nhà sản xuất đây là nguồn phản hồi để đánh giá hiệu quả, mà theo truyền
thống những nhà sản xuất phải thường dành nhiều tiền cho việc thu thập ý kiến,
khảo sát,…
Tất nhiên rằng ý kiến của một người không đủ để quyết định hành động trừ
ngoại lệ người đó được biết đến như một chuyên gia và có những lời khun bổ ích
được đánh giá cao, thì việc tổng hợp ý kiến từ rất nhiều người mới có tính thuyết

phục cao hơn, khai phá quan điểm chính là để phát hiện những mẫu dạng những
những ý kiến đó.
Vấn đề là có quá nhiều các bài đánh giá cần phải xem xét, nhiều khía cạnh
được quan tâm, hơn nữa rằng người dùng viết ý kiến của mình theo phong cách
riêng thường khơng có cấu trúc và đúng ngữ pháp, cũng có quá nhiều bài gây nhiễu
chất lượng thấp, spam,…
Như vậy, một nhiệm vụ quan trọng để giải quyết bài toán loại này là xác định
các đặc trưng đối tượng mà người dùng nhận xét, đánh giá. Đây chính là nội dung
trọng tâm mà luận văn tìm hiểu giải quyết.
1.1.2 Những thách thức trong khai phá quan điểm với dữ liệu đánh giá
Đặc điểm của một bài đánh giá trực tuyến thường là gồm các thực thể, người
nêu quan điểm và thời gian đưa ra quan điểm đó; những bài đánh giá này có thể gặp
được ở các blog, các diễn dàn forum,… mà đều không rõ cụ thể về thực thể hay khía
cạnh nào, thường được nêu ra không theo chủ đề hay cấu trúc nào, ngồi ra cịn có
thể so sánh với nhiều loại khác, thậm chí cả những thơng tin khơng hề liên quan.
Có thể kể đến những thách thức trong quá trình khai phá quan điểm dựa trên
khía cạnh bao gồm:

Số hóa bởi Trung tâm Học liệu – ĐHTN




6
Một khía cạnh được thể hiện bằng nhiều từ khác nhau. Với ví dụ rằng “ảnh
chụp từ con này đẹp hơn hình của con samsung Galaxy” cùng nói về một tính năng
ảnh chụp nhưng có thể nói bằng những cách khác nhau.
Những từ quan điểm thể hiện mực độ đánh giá giống nhau. Ví dụ như “cái
này thường thơi, dùng tạm khi cần”
Gây khó khăn rất lớn trong q trình thu thập dữ liệu đó là nhiễu, những

thơng tin dư thừa khơng liên quan có thể lẫn vào, thậm chí chiếm phần lớn nội
dung, do người dùng khá tự do và khơng có luật gì rằng buộc.
Việc xếp hạng hay các khía cạnh được thể hiện khơng rõ ràng. Ngơn ngữ
người dùng đã nhập nhằng và đôi khi họ chỉ nêu lên những ý kiến trung lập không
thể hiện rõ thái độ tích cực hay tiêu cực, ví dụ như trong câu “thiết kế của em này
to” không rõ người dùng cảm thấy tốt hay khơng.
Có sự so sánh các quan điểm. Hẳn nhiên việc so sánh là thường diễn ra và
cần phân biệt khía cạnh đang đề cập đến là nói về sản phẩm nào… ví dụ như câu
“về chụp ảnh thì Samsung thua xa iPhone, cơ mà giá thì ngon hơn nhiều”
1.1.3 Các định nghĩa trong khai phá quan điểm
Sau đây sẽ là hệ thống một số khái niệm trong lĩnh vực khai phá quan điểm
này, được định nghĩa bởi B.Liu [9].
“Một quan điểm là một phát biểu, cách nhìn, thái độ hoặc định giá chủ quan
về một thực thể hay một khía cạnh của thực thể nào đó”.
“Một ý kiến có thể được phân loại thành kiểu tiêu cực, tích cực hay trung lập.
Có thể gọi là hướng quan điểm hay cực của quan điểm”.
Từ quan điểm: “Từ thể hiện được quan điểm của người đánh giá được gọi là
từ quan điểm”.
Quan điểm hiện và quan điểm ẩn: “Một quan điểm hiện về một đặc trưng f là
một câu chủ quan mà trực tiếp biểu đạt một quan điểm tích cực hoặc tiêu cực. Một
quan điểm ẩn về một đặc trưng f là một câu khách quan mà ám chỉ một quan điểm
tích cực hay tiêu cực”.

Số hóa bởi Trung tâm Học liệu – ĐHTN




7
Ví dụ:

Câu = “Điện thoại Blackberry có thiết kế rất nam tính”.
Quan điểm của người dùng trên đặc trưng “nội dung” (điện thoại Blackberry)
là một quan điểm hướng tích cực, vì sử dụng từ quan điểm “hay”.
Đoạn đánh giá về một đặc trưng: Đoạn văn bản đánh giá về một đặc trưng f
của đối tượng O trong s là một tập các câu liên tiếp trong s diễn tả quan điểm tích
cực, tiêu cực hay trung lập về đặc trưng f.
Người đánh giá: Là người hay tổ chức cụ thể đưa ra lời đánh giá. Với các
đánh giá về sản phẩm trên diễn đàn hay blog, người đánh giá chính là tác giả của
đánh giá hay bài viết.
Đối tượng và đặc trưng của đối tượng
Nhìn chung, các quan điểm có thể biểu đạt đánh giá về bất cứ điều gì, chẳng
hạn, một sản phẩm, một cá nhân, một tổ chức, một sự kiện, một chủ đề…Chúng ta
sử dụng thuật ngữ tổng quát đối tượng để chỉ các thực thể được đánh giá đó. Đối
tượng có tập các thành phần và tập các thuộc tính.
Một đối tượng có thể được phân rã căn cứ vào mối quan hệ thành phần
“part-of”, mỗi thành phần có thể có các thành phần con….Chẳng hạn, một sản phẩm
(ô tô, điện thoại di động, máy ảnh kĩ thuật số…) có thể có các thành phần khác
nhau, một sự kiện có thể có các sự kiện con, một chủ đề có thể có các chủ đề con,…
Một đối tượng O là một thực thể (một sản phẩm, một người, một sự kiện…),
có liên hệ tới 1 cặp, O: (T, A), với T là một cấu trúc phân cấp của các thành phần. A
là tập các thuộc tính của đối tượng O. Mỗi thành phần thuộc đối tượng O lại có tập
các thành phần và tập các thuộc tính của nó.
Để làm rõ hai khái niệm thành phần và thuộc tính trong định nghĩa đối tượng
ở trên, có một ví dụ đơn giản như sau: Xét đối tượng là điện thoại Nokia N72. Đối
tượng này có một tập các thành phần, như: pin, màn hình và một tập các thuộc tính
như chất lượng âm thanh, kích cỡ, cảm ứng. Thành phần pin cũng có một tập các
thuộc tính như: chất lượng pin, kích cỡ pin.

Số hóa bởi Trung tâm Học liệu – ĐHTN





8
Một đối tượng O được biểu diễn như một cây. Gốc chính là đối tượng O.
Mỗi nốt khơng là gốc là một thành phần hoặc thành phần con của O. Mỗi nhánh liên
kết thể hiện mối quan hệ “part-of”. Mỗi nốt cũng liên hệ với một tập các thuộc tính.

Nokia N72
Pin

Chất lượng
pin

Màn hình

Cảm ứng

Kích cỡ
pin

Hình 1.1 Ví dụ biểu diễn cây đối tƣợng
Một sản phẩm máy ảnh có tập các thành phần như pin, màn hình…và tập các
thuộc tính như chất lượng pin, kích cỡ pin, cảm ứng. Thành phần pin cũng có tập
thuộc tính của nó như chất lượng pin, kích cỡ pin, trọng lượng pin.
Quan điểm có thể được thể hiện trên đối tượng (nút gốc), chẳng hạn như:
“Tơi khơng thích điện thoại này”, hoặc trên một thuộc tính của đối tượng, như
“Chất lượng ảnh của điện thoại này kém”, trên một thành phần của đối tượng như
“Camera của điện thoại này kém” hoặc trên thuộc tính của một thành phần, chẳng
hạn như “Tuổi thọ pin của điện thoại này ngắn”. Như vậy thành phần và thuộc tính

chính là đặc trưng quan điểm (hay đặc trưng) của đối tượng. Để đơn giản từ “đặc
trưng” được sử dụng để thể hiện cả thành phần và thuộc tính của đối tượng.
Đặc trưng có hai loại là đặc trưng ẩn và đặc trưng hiện.
Nếu đặc trưng f xuất hiện tường minh trong tài liệu biểu đạt quan điểm đánh
giá r thì f được gọi là một đặc trưng hiện trong r.
Nếu f không xuất hiện tường minh trong r nhưng được ngầm nói đến thì f
được gọi là một đặc trưng ẩn trong r.

Số hóa bởi Trung tâm Học liệu – ĐHTN




9
Ví dụ
Đặc trưng “tuổi thọ pin” trong câu “Tuổi thọ pin của điện thoại này rất
ngắn.” là một đặc trưng hiện.
Đặc trưng “kích thước” trong câu “Điện thoại này quá nhỏ.” là một đặc trưng
ẩn. Không rõ người dùng cảm thấy phù hợp hay khơng hài lịng.
Định nghĩa một cách toán học một quan điểm
Quan điểm ( ,

,

,

,

) là một bộ gồm 5 thành phần với


: là một thực thể mục tiêu
: là một khía cạnh của một thực thể
: là người giữ quan điểm i
: là thời gian quan điểm được thể hiện
: là hướng quan điểm của người

về tính năng

của thực thể

tại thời gian
Định nghĩa khơng chỉ áp dụng cho đối tượng là sản phẩm, mà cịn có thể là
các dịch vụ, công ty, …tuy nhiên đôi khi việc thu thập năm thành phần có thể khó
khăn, dẫn đến có thể gây hạn chế tính chính xác của quan điểm nếu thiếu chúng.
1.1.4 Các bài toán trong khai phá quan điểm
Mục đích phải khám phá đầy đủ tất các các thành phần của một quan điểm,
chuyển đổi các dạng văn bản khơng có cấu trúc thành có cấu trúc, cũng phục vụ cho
việc phân tích và đánh giá chất lượng. Và tiếp tới sẽ nêu qua những dạng bài tốn
có trong lĩnh vực khai phá quan điểm này.
Trước hết lại nói cấu trúc của một đánh giá là bao gồm các câu, mỗi câu
chứa các cụm từ, trong đánh giá quan điểm có cấp bậc là từ cấp văn bản, cấp câu và
cuối cùng là cấp cụm từ.
Đầu tiên khai phá quan điểm ở cấp văn bản thường là phân loại ra các chủ đề
(Subjectivity Classification) xác định các văn bản thể hiện quan điểm hay khơng;

Số hóa bởi Trung tâm Học liệu – ĐHTN





10
phân loại ý kiến, xác định cực của ý kiến là tích cực hay tiêu cực; dự đốn những
quan điểm hữu ích (Opinion helpfulness estimate), bài tốn ước lượng những đánh
giá hữu ích; phát hiện những quan điểm khơng ý nghĩa spam (Opinion Spam
Detection).
Với cấp khai phá ở mức câu, việc khai phá tập trung vào tổng kết các quan
điểm (opinion summarization) [10] là trích xuất ra những câu có ý nghĩa chính cho
mỗi sản phẩm hay mỗi khía cạnh; tiếp theo là khai phá qua các quan điểm so sánh
(OM in Comparative sentences) bao gồm xác định ra những câu so sánh và trích
xuất là ý định so sánh.
Ở cấp thấp nhất là khai phá quan điểm từ cấp cụm từ nhằm khai phá khía
cạnh xác định các tính năng và xếp hạng từ những đánh giá. Bài toán lớn gồm rất
nhiều bài tốn con và có những quan hệ theo như bảng sau:

Subjectivity Classification
(Phân loại chủ đề)

Sentiment Analysic
(Phân tích quan điểm)

Opinion Search and Retrieval
(Truy hồi và tìm kiếm)

Opinion Question Answering
(Trả lời câu hỏi về quan điểm)

Opinion summarization
(Tổng kết quan điểm)

Opinion Spam Dectection

(Phát hiện quan điểm không ý nghĩa)

Aspect – based Opinion Mining
(KPQĐ dựa trên khía cạnh)

Opinion Helpfulness Est.
(Ước lượng quan điểm hữu ích)

OM in Comparative sentences
(KPQĐ trong câu so sánh)

Hình 1.2 Quan hệ giữa các nhiệm vụ

Số hóa bởi Trung tâm Học liệu – ĐHTN




11
Một trong những vấn đề cần xem xét thêm là những từ vựng chỉ quan điểm,
đối với ngôn ngữ tiếng Anh đã được rất nhiều nhà nghiên cứu xây dựng bộ từ điển
cho loại từ vựng này có thể kế đến như bộ là MPQA1, SentiWordNet 2,… với mỗi
từ có xác suất phân bố qua độ tích cực, tiêu cực và mục tiêu; bộ từ điển của Bing
Liu thì bao gồm danh sách các từ tiêu cực và tích cực, bộ cảm xúc,... trong đó có thể
kể đến gần đây YanghiuRao [11] và cộng sự có đóng góp xây dựng bộ từ điển từ
cảm xúc đối với miền tin tức trực tuyến.
Với bài tốn phân tích ý kiến có một số hạn chế là tri thức của quan hệ phân
cấp của các thuộc tính sản phẩm khơng được tận dụng tối đa, các đánh giá hoặc vài
đề cập đến những thuộc tính được gắn kết phức tạp với nhau. Những tổng hợp về
bài tốn này có thể tìm hiểu thêm ở [3] của tác giả B. Liu, ngồi ra có một số cơng

trình nghiên cứu có đề cập đến giải quyết những vấn đề này nổi bật đó là việc gán
nhãn các thuộc tính của sản phẩm bằng cách học theo cấp dựa vào cây thực thể từ
quan điểm (Sentiment ontology tree) [12], hay là sử dụng phương pháp phân tích
đánh giá khía cạnh ẩn dựa trên hồi quy [13]; đối với dữ liệu tiếng Việt cũng có
nhóm nghiên cứu của Kieu và cộng sự [5].
Phần tiếp tới sẽ mô tả một bài toán quan trọng là khai phá quan điểm dựa
trên đặc trưng (Aspect-based opinion mining).
1.2 Khai phá quan điểm dựa trên đặc trƣng
Trong bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng, vấn đề
quan trọng cần giải quyết đầu tiên là trích chọn các đặc trưng biểu diễn đối tượng
được đề cập đến trong các bài viết về sản phẩm, hay có thể như trong các bài đánh
giá, nhận xét. Trong phần này luận văn sẽ trình bày một số khái niệm liên quan đến
đặc trưng trong bài toán khai phá quan điểm dựa trên đặc trưng và mơ hình hóa cơ
bản của bài tốn này, sau đó là mơ tả những bài tốn con cũng với tình hình nghiên
cứu những năm gần đây.

1
2

mpqa.cs.pitt.edu/
sentiwordnet.isti.cnr.it

Số hóa bởi Trung tâm Học liệu – ĐHTN




12
1.2.1 Mơ hình khai thác ý kiến dựa trên thuộc tính
Một tài liệu biểu đạt quan điểm đánh giá tích cực về một đối tượng nào đó

khơng có nghĩa rằng tác giả có quan điểm tích cực về mọi khía cạnh của sản phẩm.
Cũng như vậy, một tài liệu biểu đạt quan điểm tiêu cực khơng có nghĩa tác giả có
quan điểm tiêu cực về mọi khía cạnh của đối tượng đó. Để nắm được những khía
cạnh chi tiết như vậy, cần tiến đến mức đặc trưng. Như vậy, bài tốn khai phá quan
điểm dựa trên đặc trưng có hai nhiệm vụ như sau:
- Phát hiện và lấy ra các đặc trưng của sản phẩm được đề cập. Chẳng hạn câu
“Tuổi thọ pin của điện thoại này quá ngắn”, bình luận trên đặc trưng “tuổi thọ pin”
của sản phẩm “điện thoại này”.
- Xác định quan điểm về các đặc trưng là tích cực, tiêu cực hay trung lập.
Trong câu trên, quan điểm về đặc trưng “tuổi thọ pin” là tiêu cực.
Do đó bài tốn khai phá quan điểm dựa trên đặc trưng thực hiện tại mức đặc
trưng. Chẳng hạn, trong một đánh giá của một sản phẩm, bài toán này nhằm phát
hiện các đặc trưng của sản phẩm mà được bình luận bởi người tiêu dùng và xác định
bình luận về đặc trưng đó là tích cực hay tiêu cực. Một tổng hợp có cấu trúc sẽ được
tạo ra từ kết quả khai phá này.
Mơ tả một cách hình thức như sau:
Một đối tượng được biểu diễn với một tập hữu hạn các đặc trưng, F = {f1, f2,
.. fn}. Mỗi đặc trưng fi trong F có thể được biểu diễn bởi một tập hữu hạn các từ
hoặc cụm từ đồng nghĩa Wi. Tức là, có một tập các từ đồng nghĩa tương ứng W =
{W1, W2, …, Wn} cho n đặc trưng. Vì mỗi đặc trưng fi trong F có một tên (kí hiệu bởi
fi), nên fi ∈ Wi. Mỗi tác giả hoặc người đánh giá j bình luận trên một tập con các
đặc trưng Sj ⊆ F. Với mỗi đặc trưng fk ∈ Sj mà người đánh giá j bình luận, một từ
hoặc cụm từ Wk sẽ được chọn để mơ tả đặc trưng, và sau đó biểu đạt một quan điểm
tích cực hay tiêu cực của người đánh giá j.
Đầu vào: Tập D các tài liệu d có quan điểm đánh giá.

Số hóa bởi Trung tâm Học liệu – ĐHTN





13
Đầu ra: Một tập các cặp, mỗi cặp kí hiệu bởi (f, SO), với f là một đặc
trưng và SO là hướng quan điểm (tích cực hay tiêu cực) được biểu đạt trong d
trên đặc trưng f.
Chú ý rằng mô hình này khơng xem xét độ mạnh của mỗi quan điểm, nghĩa
là, không xem xét quan điểm là tiêu cực (tích cực) mạnh hay tiêu cực (tích cực) yếu,
nhưng độ mạnh của mỗi quan điểm có thể được thêm vào.
Có nhiều cách để sử dụng kết quả từ mơ hình này. Cách đơn giản là tạo ra
tổng hợp dựa trên đặc trưng của các quan điểm trên đối tượng.
Như vậy, bài toán khai phá quan điểm dựa trên đặc trưng có một số tình
huống sau:
Tình huống 1: Khơng biết F và W.
Với tình huống này, ta cần thực hiện ba nhiệm vụ sau:
+ Nhiệm vụ 1: Xác định và trích chọn các đặc trưng đối tượng được bình
luận trong mỗi tài liệu d ∈ D
+ Nhiệm vụ 2: Nhóm các từ đồng nghĩa của đặc trưng, vì những người khác
nhau có thể sử dụng các từ hoặc cụm từ khác nhau để biểu đạt cùng một đặc trưng.
+ Nhiệm vụ 3: Xác định hướng quan điểm trên các đặc trưng là tích cực, tiêu
cực hay trung lập
Tình huống 2: Biết F nhưng khơng biết W.
Tình huống này tương tự như tình huống 1 nhưng nhiệm vụ 2 chuyển thành
vấn đề đối chiếu các đặc trưng phát hiện được với tập đặc trưng F đã biết.
Tình huống 3: Biết W và F.
Với tình huống này chúng ta chỉ cần xác định hướng quan điểm trên đặc
trưng sau khi tất cả các câu chứa quan điểm về đặc trưng được trích chọn.
Luận văn tập trung giải quyết nhiệm vụ 1 và 2 trong hai tình huống đầu tiên.
Đó chính là nội dung của bài tốn trích chọn đặc trưng.
Đầu vào: Các nhận xét, đánh giá của người dùng về một sản phẩm cụ thể
trên một trang web đánh giá.

Số hóa bởi Trung tâm Học liệu – ĐHTN




14
Đầu ra: Một danh sách các đặc trưng của sản phẩm được người dùng đề cập
trong bài đánh giá.
Sau đây luận văn điểm qua những cơng trình nghiên cứu tiêu biểu được công
bố trong thời gian vừa qua :
Việc tổng hợp dựa trên tính năng cũng được Hu và cộng sự [4] có đề cập
phương pháp là tìm kiếm những cụm danh từ được nhắc nhiều, sau đó lọc chúng bỏ
bớt sự dư thừa, trích xuất các tính từ ra như những từ quan điểm, tiếp tới là xác định
cực sử dụng các tính từ được coi là hạt giống biết rõ trước các cực, cuối cùng là xác
định những khía cạnh khơng phổ biến qua những từ quan điểm được trích xuất.
Phương pháp này sẽ được nêu rõ ở phần phương pháp tiếp theo.
Năm 2011 tác giả Fan [14] có đưa ra mơ hình học khơng giám sát áp dụng
cho bộ dữ liệu đánh giá nhận xét sản phẩm. Những cơng việc chính tác giả giải
quyết cũng bao gồm: xác định các đặc trưng, xác định các quan điểm và phân cực
chúng, cuối cùng là tổng hợp kết quả với độ chính xác tăng dần với bộ dữ liệu được
mở rộng.
Trong nước cũng có một số các tác giả cơng bố các cơng trình nghiên cứu
trên tập dữ liệu tiếng Việt như là T.Vũ và cộng sự [7] bằng việc sử dụng các luật
ngữ pháp Việt Nam cùng với các từ đặc trưng đồng nghĩa sẽ được gộp nhóm với
nhau thành chung một đặc trưng để thêm vào bộ từ điển đặc trưng. Tác giả và nhóm
cộng sự cũng đã có cơng trình nghiên cứu cải tiến [6] bằng sử dụng phương pháp
phân cụm HAC (Hierarchical clustering) và phân lớp bán giám sát SVM-kNN
(Support Vector Machine – Discriminative Nearest Neighbor classification). Hướng
quan điểm của khách hàng và tổng hợp các tính năng được xác định có sử dụng
VietSentiWordNet.

Gần đây tác giả Hồng Nam và cộng sự [15] có cơng bố kết quả nghiên cứu
đưa ra được bộ từ điển từ quan điểm tiếng Việt.
Ngoài ra, để giải quyết bài tốn trích chọn đặc trưng trong khai phá quan
điểm cịn có một số nghiên cứu khác dựa trên các phương pháp thống kê như
phương pháp dựa trên mơ hình mạng Markov ẩn, phương pháp dựa trên mơ hình
Số hóa bởi Trung tâm Học liệu – ĐHTN




15
cực đại hóa Entropy [16], phương pháp dựa trên các trường ngẫu nhiên có điều
kiện [17], phương pháp dựa trên phân tích chủ đề [18].
Tiếp theo luận văn mơ tả một số bài toán con trong khai phá quan điểm dựa
vào đặc trưng
1.2.2 Trích xuất khía cạnh
Hay cịn được hiểu là trích xuất đặc trưng hay tính năng, có hướng giải quyết
là dựa vào quan hệ hay tần xuất; hướng khác là dựa theo mơ hình.
Đối với phương pháp sử dụng tần xuất là áp dụng rằng buộc lọc ra cụm danh
từ có tần xuất cao để xác định khía cạnh của sản phẩm. Đó là vì những khía cạnh
được thể hiện bởi danh từ, tính từ, động từ hoặc trạng từ, theo nghiên cứu của Liu
[9] có tới 60 -70% các khía cạnh là những danh từ cụ thể. Cũng do người đánh giá
thường dùng 1 vài cụm từ để thể hiện một khía cạnh, và nhắc đến nhiều lần, có thể
bỏ qua những khía cạnh mà khơng được đề cập nhiều, vì nhìn chung người dùng
khơng quan tâm.
Guang Qiu và các cộng sự [19], [20] đề xuất phương pháp lan truyền kép
dựa trên phát hiện một số mẫu quan hệ cú pháp giữa từ quan điểm và đặc trưng, kết
hợp lặp lan truyền để mở rộng tập từ quan điểm và đặc trưng tìm được. Phương
pháp này sử dụng một bộ phân tích cú pháp phụ thuộc để mô tả các mẫu quan hệ
làm cơ sở cho việc trích chọn. Tuy nhiên theo phương pháp này phù hợp với bộ dữ

liệu văn bản có độ lớn trung bình, ngược lại với loại văn bản cỡ nhỏ và lớn thì cho
ra độ chính xác và độ hồi tưởng thấp. Trong những cải tiến tiếp theo của tác giả và
nhóm cộng sự cũng đã khắc phục nhược điểm trên bằng việc sử dụng kinh nghiệm
và thêm vào những mẫu „một phần – tồn thể‟ và mẫu „khơng‟.
Popescu và Etzinoni [10] cũng dựa trên ý tưởng tương tự Hu và Liu, tuy
nhiên có đưa ra giải pháp cải thiện phương pháp, loại đi những cụm từ phổ biến
nhiều khả năng không là đặc trưng. Thuật tốn của họ địi hỏi cần biết trước lớp đối
tượng sản phẩm, từ đó xác định một danh từ hay cụm danh từ có phải là đặc trưng
của sản phẩm đó hay khơng trên cơ sở tính độ đo PMI (Pointwise Mutual

Số hóa bởi Trung tâm Học liệu – ĐHTN




16
Information) giữa danh từ hay cụm danh từ đó với các mẫu bộ phận - tồn thể có
dạng như “of xx”, “xx has”, “xx comes with”…, trong đó xx là từ hay cụm từ chỉ
lớp đối tượng sản phẩm. Tuy nhiên, phương pháp này cần truy vấn Web tìm các
mẫu bộ phận - tồn thể để tính độ đo PMI nên chi phí thời gian là đáng kể, hơn nữa
phải dựa trên một hệ thống trích chọn thơng tin độc lập miền trên nền Web là
KnowItAll.
Hướng tiếp cận này thể hiện được ưu điểm là đơn giản, có hiệu quả, tuy
nhiên vẫn chưa khai phá được và bỏ lỡ những khía cạnh khơng phổ biến, đơi khi lại
ra q nhiều khía cạnh khơng ý nghĩa. Cộng thêm với mỗi miền khác nhau, bộ cơ sở
dữ liệu khác nhau lại cần sửa đổi các tham số khác nhau.
Phương pháp thứ hai là dựa trên quan hệ chính là để khám phá ra những khía
cạnh và quan điểm mới từ quan hệ giữa khía cạnh-quan điểm. Là vì những ý kiến
thường dễ tìm và biết đến theo Liu [11], mỗi ý kiến thể hiện một quan điểm cho một
mục tiêu, do đó có thể sử dụng quan hệ giữa chúng. Phương pháp này có thể kể đến

một số cơng trình nghiên cứu sau: Công bố của Baccianella và cộng sự [12] nêu về
việc xếp hạng dựa trên nhiều khía cạnh, định nghĩa trước các mẫu từ loại POS (Partof-speed), tiếp là phân cực dựa trên việc thẩm tra, và cuối cùng là lọc. Một công bố
khác dựa theo nhân cây (tree kernel) do Jiang và cộng sự [13] có nội dung là sử
dụng những nhân cây để tăng rằng buộc giúp khớp chính xác hơn, khám phá ra
những cấu trúc con trong cấu trúc cú pháp.
1.2.3 Dự đoán cực
Sau khi xác định được các từ quan điểm sẽ cần xác định được hướng ngữ
nghĩa của chúng là tích cực, tiêu cực hay trung lập từ đó xác định hướng quan điểm
trong cả câu, hay cả đoạn quan điểm.
Các phương pháp thường được dùng là học có giám sát [12] thường có hạn
chế là cần bộ dữ liệu huấn luyện và phụ thuộc vào miền đang xét; hay các phương
pháp dựa vào từ điển từ vựng [9] có những sản phẩm được cơng bố là GI, MPQA,

Số hóa bởi Trung tâm Học liệu – ĐHTN




17
SentiWordNet… có điểm mạnh là phương pháp khơng giám sát và hiệu quả tốt với
nhiều miền.
1.2.4 Nhóm các khía cạnh
Trong bài toán khai phá quan điểm dựa trên đặc trưng, một vấn đề quan
trọng là tạo ra một bản tổng hợp quan điểm dựa trên từng đặc trưng. Tuy nhiên,
người dùng có thể biểu đạt một đặc trưng bằng nhiều từ hoặc cụm từ khác nhau, ví
dụ, “picture” “image” là hai từ cùng biểu đạt một đặc trưng. Do vậy, để tạo ra một
bản tổng hợp có ý nghĩa, những từ và cụm từ đồng nghĩa trong miền sản phẩm cần
được gộp lại trong cùng một nhóm. Đã có nhiều phương pháp được đề xuất để giải
quyết bài toán gom nhóm các đặc trưng đồng nghĩa [8]. Yếu tố chính trong các
thuật tốn học giải quyết bài tốn gộp nhóm đặc trưng đồng nghĩa là độ đo tương tự.

Có hai tiếp cận chính về độ đo tương tự được sử dụng trong các giải pháp đưa ra,
bao gồm: tiếp cận độ đo tương tự dựa trên từ điển đồng nghĩa hay mạng ngữ nghĩa
và tiếp cận độ đo tương tự dựa trên thuộc tính phân phối các từ trong tập dữ liệu.
Đối với tiếp cận độ đo tương tự dựa trên từ điển (dictionary-based similarity,
lexical similarity), vấn đề chính là đồng nghĩa trong từ điển là đồng nghĩa độc lập
miền, trong khi đó u cầu của bài tốn là nhóm gộp các đặc trưng đồng nghĩa trên
miền đặc trưng sản phẩm. Do vậy dẫn đến một số tồn tại sau: Thứ nhất, đồng nghĩa
trong từ điển nhưng không đồng nghĩa trong miền ứng dụng, ví dụ, “picture” và
“movie” là đồng nghĩa trong từ điển WordNet nhưng không đồng nghĩa trong miền
ứng dụng máy ảnh. Thứ hai, đồng nghĩa trong miền ứng dụng nhưng không đồng
nghĩa trong từ điển WordNet, chẳng hạn “design” và “appearance” đồng nghĩa
trong miền ứng dụng máy ảnh nhưng không đồng nghĩa trong WordNet.
Đối với tiếp cận độ đo tương tự dựa trên thuộc tính phân phối các từ trong
tập dữ liệu (corpus-based similarity, distributional similarity), tiếp cận này dựa trên
giả thuyết các từ với nghĩa tương tự nhau thường xuất hiện trong các ngữ cảnh
tương tự. Ngữ cảnh của một từ được xác định là các từ xung quanh từ đó. Các độ đo
tương tự như Cosine, Jaccard, Dice,… có thể được sử dụng trong tiếp cận này.

Số hóa bởi Trung tâm Học liệu – ĐHTN




18
Gộp nhóm sử dụng tự điển (Group Feature using VietWord- Net - GFV):
Chúng tôi dựa vào từ điển VietWordnet để xác định các từ đồng nghĩa. Những từ
mơ tả tính năng mà đồng nghĩa thì được phân loại vào một nhóm và coi đó là một
tính năng cho sản phẩm.
Gộp nhóm tính năng sử dụng danh từ và tính tử (Group Feature using Noun
and Adjective in sentence - GFN): dựa vào tần số kết hợp giữa các tính từ và danh

từ trong câu. Phần lớn, khi mô tả về một tính năng của sản phẩm thì người tiêu dùng
thường dùng một số từ quan điểm nhất định. Ví dụ khi mơ tả về tính năng pin,
người tiêu dùng thường dùng các từ quan điểm như bền, tốt, lâu. Khi hai hoặc nhiều
danh từ đều được nhận xét bằng các từ quan điểm giống nhau trên 80% thì đưa các
danh từ chỉ tính năng lại thành một nhóm.
Một số phương pháp khác được cơng bố là nhóm các đặc trưng vào chung
một group sử dụng phương pháp phân cụm [21] do Zhai và cộng sự công bố năm
2011, đây là một phương pháp không giám sát sử dụng các mẫu tương đồng. Ngồi
ra cũng cùng năm Zhai cơng bố phương pháp học bán giám sát với những rằng buộc
mềm (soft-constraints) [22], [23].
1.2.5 Phân giải đồng tham chiếu (Coreference resolution)
Trong những bài đánh giá sản phẩm, đối tượng được đánh giá thường được
biết rõ, tuy nhiên với quan điểm được thể hiện trong những bài đăng thảo luận (post
và blog) không hẳn như thế. Ví dụ trong một post „Tơi vừa tậu một em BlackBerry
D5C2, em này có ảnh cực nét‟ hai câu hỏi được đặt ra 1) đối tượng nào đang được
đánh giá tốt, BlackBerry D5C2 hay ảnh? 2) „em này‟ có nghĩa là gì? Dù là có thể
hiểu ở ngữ cảnh này là đang khen ngợi BlackBerry D5C2, nhưng để tự động xác
định được thì là thách thức tương đối lớn. Vấn đề này đang được nghiên cứu nhiều
trong lĩnh vực NLP (Nature Language Processing)
1.2.6 Phương pháp đánh giá
Công việc đánh giá có thể có ba mức, thứ nhất mức thực nghiệm thuật toán,
tiếp tới là mức khảo sát, rộng hơn nữa là mức ứng dụng thực tế. Với điều kiện thực

Số hóa bởi Trung tâm Học liệu – ĐHTN




×