Tải bản đầy đủ (.pdf) (68 trang)

Xác định và phân tích quan điểm của người dùng (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.57 MB, 68 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG

---------------------------------------

ĐẶNG QUANG HUY

XÁC ĐỊNH VÀ PHÂN TÍCH QUAN ĐIỂM CỦA
NGƢỜI DÙNG

LUẬN VĂN THẠC SĨ KỸ THUẬT
T eo ịn

ƣ n ứn dụn

HÀ NỘI - 2018


HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

ĐẶNG QUANG HUY

XÁC ĐỊNH VÀ PHÂN TÍCH QUAN ĐIỂM CỦA
NGƢỜI DÙNG
CHUYÊN NGÀNH:

KHOA HỌC MÁY TÍNH

MÃ SỐ: 848.01.01 (Khoa học máy tính)

LUẬN VĂN THẠC SĨ KỸ THUẬT


NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS.TS: TỪ MINH PHƢƠNG

HÀ NỘI - 2018


LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai
công bố trong bất kỳ công trình nào khác.
Tác giả luận văn

Đặng Quang Huy


MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

i

DANH SÁCH BẢNG

ii

DANH SÁCH HÌNH VẼ

iv

MỞ ĐẦU


1

CHƢƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH QUAN ĐIỂM NGƢỜI DÙNG

4

1.1 Bài toán xác định quan điểm ngƣời dùng

4

1.2 Một số ứng dụng tích hợp phần đánh giá ngƣời dùng

7

1.3 Xác định các đặc trƣng đang đƣợc nhắc tới

11

1.4 Xác định quan điểm ngƣời dùng

13

1.5 Tổng kết chƣơng

15

CHƢƠNG 2: XÁC ĐỊNH ĐẶC TRƢNG CỦA SẢN PHẨM

16


2.1 Tổng quan về kiến trúc của hệ thống xác định quan điểm ngƣời dùng

16

2.2 Xác định đặc trƣng của sản phầm

20

2.2.1 Trích chọn các danh từ trong từng câu đánh giá

20

2.2.2 Xác đ nh các đặc tr ng th

23

ng gặp c a s n ph m

2.2.3 Xác đ nh các đặc tr ng hi m
2.3 Tổng kết chƣơng

28
29

CHƢƠNG 3: XÁC ĐỊNH QUAN ĐIỂM CỦA NGƢỜI DÙNG ĐỐI TỪNG ĐẶC
TRƢNG SẢN PHẨM

31

3.1 Trích xuất các từ đánh giá từ đặc trƣng sản phẩm


31

3.2 Xác định hƣớng ngữ nghĩa của các từ đánh giá trong câu

32

3.2.1 Ph ơng pháp xây dựng từ điển từ bằng WordNet

33

3.2.2 Xác đ nh h ớng ngữ nghĩa c a các từ đánh giá

39

3.3 Dự báo hƣớng ngữ nghĩa của các câu đánh giá

40

3.4 Tổng hợp quan điểm ngƣời dùng về sản phẩm

44

3.5 Tổng kết chƣơng

47


CHƢƠNG 4: THỰC NGHIỆM VÀ KẾT QUẢ


48

4.1 Dữ liệu thử nghiệm

48

4.2 Đánh giá độ chính xác thông qua thực nghiệm

50

4.3 Tổng kết chƣơng

54

KẾT LUẬN

56

DANH MỤC CÁC TÀI LIỆU THAM KHẢO

57


i

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Từ viết tắt

Địn n


ĩa

CBA

Thuật toán CBA-RG

FBS

Bài toán tổng hợp các đặc trƣng cơ bản (Feature-Based
Summarization)

NLP

Xử lý ngôn ngữ tự nhiên (Natural Language Processing)

IDE

Môi trƣờng phát triển tích hợp (Integrated Development
Environmen)


ii

DANH SÁCH BẢNG
Số iệu bản

Tên bản

Bảng 1.1


Ví dụ về các đánh giá thô của ngƣời dùng

Bảng 1.2

Bản tổng hợp đánh giá ngƣời dùng sau khi phân loại

Bảng 1.3

Dữ liệu đánh giá của ngƣời dùng cho điện thoại

Bảng 1.4

Đánh giá của ngƣời dùng cho điện thoại

Bảng 1.5

Kết quả sau khi xác định quan điểm của câu đánh giá

Bảng 2.1

Tách từ và gán nhãn từ loại cho mỗi câu đánh giá

Bảng 2.2

Những câu đánh giá sau khi xác định quan điểm

Bảng 2.3

Tổng hợp các câu đánh giá


Bảng 2.4

Kết quả sau khi thực hiện gán nhãn với câu đánh giá

Bảng 2.5

Treebank tiếng việt với các danh từ

Bảng 2.6

Tối ƣu thuật toán Apriori

Bảng 2.7

Thuật toán xác định đặc trƣng hiếm

Bảng 3.1

Thuật toán xác định tính từ đánh giá

Bảng 3.2

Kiểm tra thủ tục kết thúc thuật toán thu thập từ WordNet

Bảng 3.3

Thuật toán xác định quan điểm cho từng câu đánh giá


iii


Bảng 3.4

Thuật toán xác định quan điểm cho từng từ đánh giá

Bảng 3.5

Bản tổng hợp đánh giá quan điểm ngƣời dùng

Bảng 4.1

Bảng mô tả dữ liệu đánh giá

Bảng 4.2

Bảng công thức tính độ chính xác và độ bao phủ

Bảng 4.3

So sánh kết quả thực nghiệm với đánh giá dựa trên tri thức
con ngƣời

Bảng 4.4

So sánh kết quả thực nghiệm với đánh giá dựa trên tri thức
con ngƣời


iv


DANH SÁCH HÌNH VẼ
Số iệu ìn vẽ

Tên ìn vẽ

Hình 1.1

Kiến trúc hệ thống xác định quan điểm ngƣời dùng

Hình 2.1

Treebank cho tiếng việt

Hình 3.1

Mô tả về WordNet

Hình 3.2

Cấu trúc từ điển WordNet tiếng việt

Hình 3.3

Danh sách tính từ đánh giá tích cực

Hình 3.4

Danh sách tính từ đánh giá tiêu cực

Hình 3.5


Danh sách từ phủ định

Hình 4.1

Danh sách các đánh giá ngƣời dùng cho sản phẩm iphone 6s


1

MỞ ĐẦU
Các trang bán hàng trực tuyến hiện nay thƣờng yêu cầu khách hàng
đánh giá về những sản phẩm mà họ đã mua. Đối với các dịch vụ trực tuyến
nói chung và các trang thƣơng mại điện tử nói riêng, những bài đánh giá của
ngƣời dùng đóng một vai trò hết sức quan trọng đối với những khách hàng
tiềm năng đang có nhu cầu lựa chọn và mua sản phẩm đó. Đồng thời, những
đánh giá đó cũng cung cấp cho nhà sản xuất những thông tin phản hồi từ
khách hàng, để từ đó họ dễ dàng tiếp cận với thị hiếu ngƣời dùng hơn. Hầu
hết những đánh giá đó đều xuất hiện dƣới dạng văn bản, và mỗi một bài nhận
xét đều đánh giá đến một hoặc nhiều khía cạnh của sản phẩm. Ví dụ: “Chiếc
máy ảnh này chụp vào ban đêm rất tối nhƣng kiểu dáng nhìn rất đẹp”. Mà
đối với những sản phẩm phổ biến thì số lƣợng bài đánh giá sẽ ngày càng
nhiều, do đó đối với các khách hàng tiềm năng mà nói thì khó có thể nắm bắt
đƣợc hết nội dung mà những bài đánh đang diễn đạt. Vậy nên cần thiết phải
có một phƣơng pháp và một hệ thống tự động phân tích tổng hợp quan điểm
ngƣời dùng. Có thể nói đây là một bài toán phổ biến đƣợc cộng đồng nghiên
cứu đặc biệt quan tâm đến vì tính thực tiễn cao của nó trong cuộc sống.
Cụ thể em tập trung vào bài toán cụ thể nhƣ sau, với một tập dữ liệu
văn bản đánh giá ngƣời dùng cho một sản phẩm cho trƣớc, và kết quả cần đạt
đƣợc là một bản tóm tắt thông tin của sản phẩm dựa trên các đặc trƣng và

đánh giá của ngƣời dùng. Có thể nhận thấy cụ thể ta phải giải quyết hai vấn
đề: (1) xác định đƣợc các đặc trƣng nào của sản phẩm đƣợc ngƣời dùng đề
cập đến thông qua các bài đánh giá, (2) xác định đƣợc hƣớng đánh giá của
ngƣời dùng đối với đặc trƣng đƣợc đề cập đó. Cuối cùng tạo ra một bản tổng
hợp tóm tắt và phân loại dựa trên các đặc trƣng của sản phẩm, và với mỗi


2

đặc trƣng, đƣa ra số lƣợng các bài đánh giá xem đánh giá đó đang đánh giá
tích cực hay tiêu cực đến đặc trƣng đó của sản phẩm.
Trong luận văn này em sẽ tập trung các hƣớng tiếp cận dựa trên các
bài toán cơ bản để giải quyết cho bài toán tổng hợp những đặc trƣng của sản
phầm, từ đó phân tích và áp dụng các thuật toán thích hợp cho việc khai phá
dữ liệu và phân tích quan điểm ngƣời dùng. Sau cuối là tổng hợp cuối cùng
về thông tin của sản phẩm. Dựa trên sự tổng hợp, ngƣời dùng có thể xem
đƣợc những đánh giá trên tất cả đặc trƣng nào đó mà họ quan tâm. Công việc
này, trƣớc đây, đã đƣợc cộng đồng nghiên cứu và thực nghiệm thành công
trên dữ liệu tiếng anh, kết quả đã cho có độ chính xác tƣơng đối cao. Nhƣng
đối với một ngôn ngữ đơn âm tiết và đa dạng về nghĩa nhƣ tiếng việt thì đây
là bài toán khá mới mẻ. Với luận văn này, em sẽ phân tích chi tiết vào từng
câu đánh giá để giải quyết bài toán xác định quan điểm ngƣời dùng trên một
sản phẩm một cách có hệ thống dựa trên cơ sở lý thuyết vững chắc, đáp ứng
mục tiêu đã đặt ra.
Nội dung của luận văn đƣợc bố cục thành 4 chƣơng nhƣ sau:
Chƣơng 1 sẽ trình bày tổng quan về bài toán xác định quan điểm
ngƣời dùng theo từng đặc trƣng của sản phẩm. Đồng thời mô tả về các bài
toán FBS cơ bản xung quanh để có đƣợc cái nhìn bao quát về bài toán xác
định quan điểm ngƣời dùng. Phƣơng pháp đƣợc đề cập trong luận văn tuy có
sự khác về mục đích và cách thức giải quyết vấn đề nhƣng hoàn toàn liên

quan đến các bài toán cơ bản trong khai phá dữ liệu.
Chƣơng 2 trình bày phƣơng pháp trích xuất những đặc trƣng của sản
phẩm thông qua từng câu đánh giá. Trong chƣơng này sẽ đề xuất k thuật
phổ biến nhƣ tách từ, gán nhãn từ loại cho việc xác định những danh từ, cụm
danh từ trong những câu đánh giá. Từ những từ đƣợc xác định, chƣơng này
cũng đề cập một số phƣơng pháp để chắt lọc và trích xuất ra các đặc trƣng


3

của sản phẩm, đồng thời loại b những đặc trƣng vô nghĩa, không liên quan,
không phải đặc tính của sản phẩm.
Chƣơng 3 trình bày phƣơng pháp xác định quan điểm ngƣời dùng đối
với từng đặc trƣng. Ngoài ra, việc xác định các tính từ đánh giá hiệu quả cho
từng đặc trƣng cũng đƣợc đề cập đến. Sau đó sẽ dự báo đƣợc hƣớng ngữ
nghĩa câu đánh giá. Cuối cùng, tổng hợp lại thông tin của sản phầm thông
qua từng câu đánh giá của ngƣời dùng.
Chƣơng 4 trình bày thực nghiệm đánh giá hiệu quả phƣơng pháp trình
bày trong các chƣơng trƣớc. Cuối cùng đƣa ra ƣu điểm và những hạn chế đối
đối với phƣơng pháp và các công việc sẽ thực hiện trong tƣơng lai.


4

CHƢƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH QUAN ĐIỂM
NGƢỜI DÙNG
Hiện nay trên các trang dịch vụ trực tuyến nói chung, việc tích hợp và
hiển thị các đánh giá ngƣời dùng đã đƣợc nhiều shop và các ứng dụng chú ý
đến bởi tầm quan trọng của nó. Tuy nhiên những đánh giá đó chỉ đang xuất
hiện ở dạng thô, chƣa kể đến việc quá tải thông tin khi số lƣợng đánh giá

tăng lên một cách chóng mặt. Điều đó đang gây khó khăn cho ngƣời dùng
khi muốn theo dõi những đánh giá hữu ích cho một sản phẩm họ đang có nhu
cầu. Luận văn này sẽ tập trung vào việc đƣa ra những thông tin hữu ích về
sản phẩm bao gồm những đặc trƣng, những đánh giá của ngƣời ngƣời đối với
sản phẩm, đó là cái mà những khách hàng tiềm năng quan tâm đến. Do đó,
phƣơng pháp xác định quan điểm ngƣời dùng dựa trên những bài đánh giá sẽ
giúp cho ngƣời dùng giảm công sức b ra để tìm kiếm những thông tin thực
sự hữu ích cho mình.

1.1 Bài toán xác ịn quan iểm n ƣời dùn
Trong khuôn khổ luận văn này em sẽ trình bày về bài toán xác định
quan điểm ngƣời dùng, các vấn đề cần giải quyết và những bài toán cơ bản
liên quan. Bài toán đặt ra là, với đầu vào là một bộ tập các bài đánh giá của
ngƣời dùng cho một sản phẩm nào đó, chẳng hạn trên các trang thƣơng mại
điện tử, hệ thống sẽ phân tích các đánh giá để cho ra một bản tổng hợp, bao
gồm thông tin về các đặc trƣng của sản phẩm đƣợc nhắc trong các đánh giá
cùng với quan điểm của ngƣời dùng đối với từng đặc trƣng. Ở đây, từng đặc
trƣng của sản phẩm sẽ hiển thị số lƣợng và chi tiết các câu đánh giá cho đặc
trƣng đó đƣợc phân loại theo hƣớng tích cực, tiêu cực, trung tính. Các đánh
giá của ngƣời dùng đƣợc viết dƣới dạng ngôn ngữ tự nhiên, không có hạn
chế về cấu trúc. Ví dụ, với đầu vào là một bộ dữ liệu đánh giá cho sản phẩm
iphone 6s nhƣ sau:


5

Bản 1.1: Ví dụ về các án

iá t ô của n ƣời dùn


- Imessage và facetime cực tiện, e hay thu âm hát hò mà cái mic c a nó thu
hay lắm, b o mật hai lớp rất b o mật.
- Touch ID th hệ 2 đọc cực kỳ nhanh. Nâng cấp về ram nữa, nói chung cái
gì cũng nhanh.
- < Các bài đánh giá >
...
Sau khi thực hiện quá trình xử lý, bản tổng hợp cuối cùng có thể đƣợc mô tả
nhƣ sau:
Bản 1.2: Bản tổn

ợp án

iá n ƣời dùn sau k i p ân loại

Đánh giá về Iphone 6s

=====================
đặc trƣng: Hình ảnh
Tích cực: 231
_ Hình ảnh so với Iphone 6 là khá nét
< Các đánh giá tích cực >
Tiêu cực: 74
_ Chụp ban đêm ảnh mờ và đục
< Các đánh giá tiêu cực >
Trung tính: 12
_ Chất lƣợng hình ảnh đƣợc cải thiện, nhƣng màu chƣa đƣợc sắc nét
lắm
< Các đánh giá trung tính >
=====================



6

đặc trƣng: Pin
Tích cực: 231
_ Pin đã đƣợc cải thiện rõ rệt
< Các đánh giá tích cực >
Tiêu cực: 74
_ Pin sạc cả tiếng chƣa đầy, nản
< Các đánh giá tiêu cực >
Trung tính: 12
_ Pin ngon hơn iphone 6s nhƣng nhìn chung không có gì nổi bật
< Các đánh giá trung tính >

Nhƣ mô tả ở trên thì hình nh và pin là hai đặc trƣng trong nhiều đặc
trƣng cơ bản của iphone 6s, với đặc trƣng pin thì 231 là là số câu có đánh giá
tích cực, 74 là đánh giá tiêu cực và 12 là đánh giá trung tính ( trong luận văn
khi nhắc đến câu trung tính em định nghĩa đó là câu xuất hiện số lƣợng đánh
giá tích cực và tiêu cực bằng nhau ). Với cách biểu diễn nhƣ vậy khách hàng
tiềm năng có thể dễ dàng nắm bắt đƣợc thông tin về sản phầm, liệu rằng sản
phẩm có đáng mua hay không?
Để thực hiện đƣợc việc xác định quan điểm với từng đặc trƣng, cần
giải quyết hai bài toán con sau:
1. Cần xác định đƣợc đặc trƣng nào đang đƣợc đề cập đến trong
những bài đánh giá.
2. Cần xác định hƣớng đánh giá của ngƣời dùng đối với đặc trƣng
đƣợc đề cập đến.
Vậy nên, để giải quyết bài toán lớn, em đã chia bài toán thành các bài
toán nh hơn bao gồm: (1) trích chọn các đặc trƣng dựa trên những bài đánh
giá ngƣời dùng, (2) xác định quan điểm ngƣời dùng với mỗi bài đánh giá có



7

chứa đặc trƣng đƣợc nhắc đến trong câu, (3) cuối cùng đƣa ra bản tổng hợp
cuối cùng về thông tin sản phẩm đã trích chọn đƣợc và biểu diễn thông qua
việc nhóm các câu đánh giá sau khi phân loại.

1.2 Một số ứn dụn tíc

ợp p ần án

iá n ƣời dùn

Hiện nay có rất nhiều những ứng dụng có tích hợp phần đánh giá của
ngƣời dùng, nhất là đối với những ứng dụng mang tính thƣơng mại và dịch
vụ, ví dụ nhƣ nhƣ các trang đặt phòng khách sạn, phần đánh giá đƣợc sắp
xếp và hiển thị bên cạnh thông tin phòng, ngƣời dùng hoàn toàn có thể xem
đƣợc các bài đánh giá đối với mỗi loại phòng họ quan tâm. Bởi vì đối với
thói quen của nhiều ngƣời, họ thƣờng quan tâm đến những đánh giá, cảm
nhận của ngƣời dùng trƣớc khi đƣa ra quyết định cuối cùng của mình, liệu có
nên đặt phòng đó không. Với ứng dụng đặt phòng Mytour, các bài đánh giá
đƣợc hiển thị nhƣ sau:


8

Hìn 1.1: Ứn dụn Mytour ặt p òn k ác sạn

Trong đó, mỗi một phòng đều đƣợc sắp xếp để hiển thị số lƣợng đánh

giá của ngƣời dùng. Ứng dụng hiển thị và cho phép ngƣời dùng có thể xem
các đánh giá từ ngƣời dùng. Để xem chi tiết từng đánh giá thì ngƣời xem chỉ
việc nhấp chọn vào các đƣờng dẫn. Khi xem chi tiết các đánh giá, giao diện
sẽ hiển thị toàn bộ nội dung đánh giá của ngƣời dùng nhƣ mô tả dƣới đây.
Hìn 1.2: Đán

iá của n ƣời dùn về p òn k ác sạn

Ngoài ra, trên một số kênh bán hàng trực tuyến và giới thiệu sản phẩm
nhƣ thegioididong.com hay fptshop.com.vn, ngoài các thông tin chính về sản
phẩm, phần thông tin về các đánh giá ngƣời dùng cũng đƣợc hiển thị bên


9

dƣới mỗi sản phẩm để thuận tiện cho việc những khách hàng mới có thể xem
và đánh giá hơn. Nhƣ trong mô tả bên dƣới thì hầu hết khi giới thiệu về sản
phẩm, thông tin về số lƣợng các bài đánh giá luôn đƣợc hiển thị bên cạnh
tiêu đề để ngƣời dùng có thể dễ nhận thấy nhất. Và hầu hết những bài đánh
giá này đƣợc các shop chủ động liên hệ và thu nhận từ những đánh giá thực
của ngƣời dùng mỗi khi họ nhận đƣợc sản phẩm thông qua đặt hàng online
hoặc mua tại shop. Đối với những trang bán hàng trực tuyến nhƣ vậy, việc
khuyến khích ngƣời dùng đánh giá phản hồi nhƣ vậy là một công việc cần
thiết và quan trọng. Đối với trang thegioididong.com sau khi ngƣời dùng
nhận đƣợc sản phẩm, thay vì để ngƣời dùng chủ động đánh giá, thì các shop
chủ động liên hệ để ngƣời dùng đánh giá phản hồi cho sản phẩm, vì những
đánh giá đó là những đánh giá chủ quan của ngƣời dùng đối với sản phẩm,
do đó có ảnh hƣởng lớn đến những quyết định của những khách hàng tiềm
năng đang có nhu cầu mua sản phẩm sau này.



10

Hìn 1.3: Hiển t ị số lƣợn

án

iá c o sản p ẩm Ip one 7

Plus

Ngoài những đánh giá từ ngƣời dùng, đối với một số trang bán hàng
trực tuyến khác cũng khuyến khích những ngƣời am hiểu về sản phẩm và
đánh giá trực tiếp không nhất thiết phải mua sản phẩm, điều này cũng phần
nào dẫn đến việc số lƣợng các đánh giá cũng tăng lên. Hơn thế nữa, việc
thực hiện trao đổi trực tiếp giữa các ngƣời dùng với nhau cũng là những tính
năng mới nhằm để kích cầu số lƣợng các bài đánh giá.


11

Hìn 1.4: Đán

iá của n ƣời dùn c o sản p ẩm Iphone 7

Plus

1.3 Xác ịn các ặc trƣn

an


ƣợc n ắc t i

Đối với bài toán xác định quan điểm ngƣời dùng, việc xác định các
đặc trƣng sản phẩm dựa trên những bài đánh giá từ ngƣời dùng là quan trọng
vì đặc trƣng của sản phẩm là cái mà ngƣời dùng trực tiếp đánh giá và bộc lộ
quan điểm. Với đầu vào là các dữ liệu đánh giá từ ngƣời dùng của một sản
phẩm và kết quả mong muốn thu đƣợc là một bộ các đặc trƣng sản phẩm.


12

Ví dụ với dữ liệu đánh giá cho sản phẩm điện thoại nhƣ sau:
Bản 1.3: Dữ liệu án

iá của n ƣời dùn c o iện t oại

Nhìn qua thì có vẻ pin hơi y u, mà ram nâng cấp lên 2gb, sợ một ngày ph i
sạc tận 2 lần mất.
Thân máy có vẻ chắc chắn hơn 6, ram và camera c i ti n lên nhiều. Nh ng
pin thì vẫn y u quá.
A đẹp thì a dùng iPhone màu gì ch đẹp. Màu Rose Gold bên ngoài nó sang
trọng và hợp với giới trẻ chứ ch có gì là nữ tính h t.
...
Sau khi thực hiện xử lý dữ liệu, kết quả nhận đƣợc là tập hợp các đặc
trƣng đƣợc nhắc tới trong các bài đánh giá nhƣ sau:
" pin, ram, camera, màu, thân máy "
Đây là một bài toán cơ bản đã đƣợc cộng đồng NLP nghiên cứu và
thực hiện với độ chính xác tƣơng đối cao. Theo nghiên cứu của
Morinage[15], họ tập trung vào việc so sánh các đánh giá trên các sản phẩm

khác nhau trong cùng một thể loại, mục đích là để chọn ra sản phẩm uy tín
hơn. Tuy nhiên khác với bài luận văn của em ở điểm: (1) Bài nghiên cứu của
họ không nhắm tới việc tạo ra bản tổng hợp thông tin của sản phẩm thông
đánh giá ngƣời dùng. (2) Công việc của họ không khai thác những tính năng
của sản phầm dựa trên đánh giá của ngƣời dùng. Nhƣng luận văn của em
đang mong muốn tìm tất cả các tính năng của sản phẩm trong một tập hợp
các đánh giá của khách hàng bất kể chúng nổi bật hay không. Hầu hết các
công trình hiện có đang xử lý tập trung trên một tài liệu. Một số nhà nghiên
cứu cũng đã nghiên cứu tóm tắt nhiều tài liệu nhằm tím kiếm thông tin tƣơng
tự nhau. Mục đích chính của họ là tóm tắt những điểm tƣơng đồng và khác
biệt trong nội dung thông tin giữa các tài liệu này [18]. Đối với bài toán này
em sẽ thực hiện dựa trên thuật toán trích chọn các đặc trƣng [2] đã đƣợc


13

nghiên cứu áp dụng và cải tiến. Phƣơng pháp có phần đơn giản nhƣng kết
quả thu đƣợc có độ chính xác tƣơng đối cao (khoảng 84%), nhƣ trong nghiên
cứu của Bing Liu [17].

1.4 Xác ịn quan iểm n ƣời dùng
Tiếp theo đó, với mỗi đặc trƣng cần xác định chiều hƣớng đánh giá về
sản phẩm đối với mỗi câu đánh giá (có thể là tích cực hoặc tiêu cực). Có thể
coi đây là bài toán phân tích quan điểm ngƣời dùng cơ bản. Với từng câu
đánh giá, hoàn toàn có thể xác định đƣợc quan điểm của ngƣời dùng đối với
từng đặc trƣng đƣợc nhắc tới.
Bản 1.4: Đán

iá của n ƣời dùn c o iện t oại


Bluetooth thì cực kỳ tồi, 1 số thi t b không cho phép connect hoặc connect
nh ng kém ổn đ nh.

Bản 1.5: Kết quả sau k i xác ịn quan iểm của câu án



negative
Bluetooth thì cực kỳ tồi, 1 số thi t b không cho phép connect hoặc connect
nh ng kém ổn định.
Qua một số phƣơng pháp xác định, câu trên đang thể hiện hƣớng đánh
tiêu cực với đặc trƣng bluetooth. Việc đánh giá đƣợc xác định thông qua các
tính từ đi kèm theo các đặc trƣng. Vậy để đánh giá đặc trƣng đó đang đƣợc
đánh giá tích cực hay tiêu cực trong câu, thì cần tìm và xác định hƣớng đánh
giá của các tính từ xuất hiện trong câu đồng thời cần xây dựng bộ từ điển cho
việc xác định ngữ nghĩa của các tính từ đánh giá đó.


14

Das và Chen [5] sử dụng một bộ từ điển đƣợc làm thủ công kết hợp
với một số phƣơng pháp chấm điểm để phân loại các thông tin chứng khoán
trên các bản tin cho nhà đầu tƣ. Tong [25] tạo ra các tiến trình quan điểm.
Tiến trình đó theo dõi các cuộc thảo luận trực tuyến về phim ảnh và hiển thị
một cốt truyện về số lƣợng những thông điệp đánh giá tích cực và tiêu cực
theo thời gian. Thông điệp đƣợc phân loại bằng cách tìm kiếm các cụm từ cụ
thể cho biết quan điểm của tác giả đối với bộ phim (ví dụ: "hành động tuyệt
vời", "hình ảnh tuyệt vời",...). Mỗi cụm từ phải đƣợc thêm vào từ điển và gán
nhãn theo cách thủ công để thể hiện quan điểm tích cực hoặc tiêu cực.
Nhƣng những từ điển đó thì phụ thuộc vào tên miền (ví dụ: phim ảnh) và bắt

buộc phải đƣợc xây dựng lại cho mỗi tên miền mới. Nhƣng trong khuôn khổ
luận văn, em sử dụng phƣơng pháp đơn giản hơn là chỉ tạo ra một danh sách
nh các tính từ giống nhau gắn với các nhãn tích cực hoặc tiêu cực, giống
với phƣơng pháp của Bing Liu[17], và dữ liệu em thực hiện trên tiếng việt.
Và phƣơng pháp em sử dụng cho việc xác định ngữ nghĩa các bài đánh giá là
xây dựng bộ từ điển WordNet[19] thay vì việc sử dụng các kho ngữ liệu sẵn
có. Sử dụng WordNet có thể dễ dàng xác định đƣợc hƣớng ngữ nghĩa của
các từ đánh giá, để rồi từ đó xác định đƣợc hƣớng nghĩa của câu. Trong [25],
việc xác định hƣớng ngữ nghĩa của câu cũng sử dụng bộ từ điển đƣợc gán
nhãn một cách thủ công. Mỗi cụm từ phải đƣợc thêm vào từ điển và gán
nhãn theo cách thủ công để thể hiện quan điểm tích cực hoặc tiêu cực.
Nhƣng trong bài luận văn, em chỉ tạo ra một danh sách nh các tính từ giống
nhau gắn với các nhãn tích cực hoặc tiêu cực. Phƣơng pháp này tuy đơn giản
nhƣng lại phù hợp với mục đích của bài toán xác định quan điểm ngƣời
dùng, vì chỉ cần xác định câu đánh giá đó đang đánh tích cực, tiêu cực hay
trung tính đối với mỗi đặc trƣng sản phẩm.


15

1.5 Tổn kết c ƣơn
Trong chƣơng 1, em đã giới thiệu qua về bài toán xác định quan
điểm ngƣời dùng với dữ liệu đầu vào với các bài toán cơ bản cho việc xử lý,
tóm tắt thông tin sản phẩm thông qua các đặc trƣng sản phẩm và hƣớng đánh
giá của ngƣời dùng về một sản phẩm bất kì. Để giải quyết bài toán lớn, cần
thiết phải chia nh bài toán thành các bài toán nh hơn, và với mỗi bài toán
cơ bản thƣờng có nhiều phƣơng pháp, thuật toán khác nhau để giải quyết vấn
đề. Tại mỗi bƣớc em đã chọn ra những phƣơng pháp thích hợp nhất để giải
quyết bài toán. Cuối cùng, em đƣa ra một hệ thống tổng quát nhất cho bài
toán xác định quan điểm ngƣời dùng, bao gồm các bƣớc nh hơn và chi tiết

theo trình tự xác định. Nội dung chi tiết của từng bƣớc em sẽ mô tả chi tiết
trong các chƣơng tiếp theo.


16

CHƢƠNG 2: XÁC ĐỊNH ĐẶC TRƢNG CỦA SẢN
PHẨM
Trong khuôn khổ chƣơng này, em sẽ trình bày từng bƣớc chi tiết để
giải quyết bài toán xác định các đặc trƣng của sản phẩm. Đây là một phƣơng
pháp đã đƣợc mô tả ở [17], nhƣng trong luận văn em sẽ trình bày lại để phù
hợp với bài toán của mình. Để xác định đƣợc các đặc trƣng của sản phẩm,
trong chƣơng này em sẽ trình bày một số phƣơng pháp trích chọn, phân tích
ngữ nghĩa đối với từng câu đánh giá. Do sự phức tạp trong việc xử lý ngôn
ngữ và điểm hạn chế trong các phƣơng pháp trích chọn đặc trƣng, nên trong
luận văn em có trình bày một số phƣơng pháp xén tỉa để loại bớt đi những từ
vô nghĩa và những đặc trƣng dƣ thừa. Cuối cùng em sẽ mô tả sự khác nhau
và cách thức chi tiết đối với phƣơng pháp trích chọn ra những đặc trƣng
thƣờng gặp và những đặc trƣng hiếm của sản phẩm.

2.1 Tổn quan về kiến trúc của ệ t ốn xác ịn quan iểm n ƣời
dùng
Hệ thống thực hiện tổng hợp theo ba bƣớc chính: (1) trích chọn các
đặc trƣng của sản phẩm thu đƣợc từ đánh giá của ngƣời dùng; (2) xác định
các câu đánh giá trong mỗi lần, xem xét và quyết định mỗi câu có ý kiến là
tích cực, tiêu cực hay là trung tính; (3) cuối cùng là tổng hợp và tóm tắt lại
thông tin về sản phẩm.



×