Tải bản đầy đủ (.pdf) (20 trang)

Xác định và phân tích quan điểm của người dùng (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (366.31 KB, 20 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

ĐẶNG QUANG HUY

XÁC ĐỊNH VÀ PHÂN TÍCH QUAN ĐIỂM CỦA NGƢỜI DÙNG

CHUYÊN NGÀNH :

MÃ SỐ:

KHOA HỌC MÁY TÍNH

60.48.01.01 (Khoa học máy tính)

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

HÀ NỘI - 2018



1

MỞ ĐẦU
Các trang bán hàng trực tuyến hiện nay thường yêu cầu khách hàng đánh
giá về những sản phẩm mà họ đã mua. Đối với các dịch vụ trực tuyến nói
chung và các trang thương mại điện tử nói riêng, những bài đánh giá của người
dùng đóng một vai trò hết sức quan trọng đối với những khách hàng tiềm năng
đang có nhu cầu lựa chọn và mua sản phẩm đó. Mà đối với những sản phẩm
phổ biến thì số lượng bài đánh giá sẽ ngày càng nhiều, do đó đối với các khách
hàng tiềm năng mà nói thì khó có thể nắm bắt được hết nội dung mà những bài


đánh đang diễn đạt. Vậy nên cần thiết phải có một phương pháp và một hệ
thống tự động phân tích tổng hợp quan điểm người dùng.
Có thể nhận thấy cụ thể ta phải giải quyết hai vấn đề: (1) xác định được
các đặc trưng nào của sản phẩm được người dùng đề cập đến thông qua các bài
đánh giá, (2) xác định được hướng đánh giá của người dùng đối với đặc trưng
được đề cập đó. Cuối cùng tạo ra một bản tổng hợp tóm tắt và phân loại dựa
trên các đặc trưng của sản phẩm, và với mỗi đặc trưng, đưa ra số lượng các bài
đánh giá xem đánh giá đó đang đánh giá tích cực hay tiêu cực đến đặc trưng đó
của sản phẩm.
Trong luận văn này em sẽ tập trung các hướng tiếp cận dựa trên các bài
toán cơ bản để giải quyết cho bài toán tổng hợp những đặc trưng của sản phầm,
từ đó phân tích và áp dụng các thuật toán thích hợp cho việc khai phá dữ liệu
và phân tích quan điểm người dùng. Sau cuối là tổng hợp cuối cùng về thông
tin của sản phẩm.
Nội dung của luận văn được bố cục thành 4 chương như sau:
Chương 1 sẽ trình bày tổng quan về bài toán xác định quan điểm người
dùng theo từng đặc trưng của sản phẩm. Đồng thời mô tả về các bài toán FBS


2

cơ bản xung quanh để có được cái nhìn bao quát về bài toán xác định quan
điểm người dùng. Phương pháp được đề cập trong luận văn tuy có sự khác về
mục đích và cách thức giải quyết vấn đề nhưng hoàn toàn liên quan đến các bài
toán cơ bản trong khai phá dữ liệu.
Chương 2 trình bày phương pháp trích xuất những đặc trưng của sản
phẩm thông qua từng câu đánh giá. Trong chương này sẽ đề xuất k thuật phổ
biến như tách từ, gán nhãn từ loại cho việc xác định những danh từ, cụm danh
từ trong những câu đánh giá. Từ những từ được xác định, chương này c ng đề
cập một số phương pháp để chắt lọc và trích xuất ra các đặc trưng của sản

phẩm, đồng thời loại b những đặc trưng vô ngh a, không liên quan, không
phải đặc tính của sản phẩm.
Chương 3 trình bày phương pháp xác định quan điểm người dùng đối
với từng đặc trưng. Ngoài ra, việc xác định các tính từ đánh giá hiệu quả cho
từng đặc trưng c ng được đề cập đến. Sau đó sẽ dự báo được hướng ngữ ngh a
câu đánh giá. Cuối cùng, tổng hợp lại thông tin của sản phầm thông qua từng
câu đánh giá của người dùng.
Chương 4 trình bày thực nghiệm đánh giá hiệu quả phương pháp trình
bày trong các chương trước. Cuối cùng đưa ra ưu điểm và những hạn chế đối
đối với phương pháp và các công việc sẽ thực hiện trong tương lai.


3

CHƢƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH QUAN ĐIỂM
NGƢỜI DÙNG
Luận văn này sẽ tập trung vào việc đưa ra những thông tin hữu ích về
sản phẩm bao gồm những đặc trưng, những đánh giá của người người đối với
sản phẩm, đó là cái mà những khách hàng tiềm năng quan tâm đến. Do đó,
phương pháp xác định quan điểm người dùng dựa trên những bài đánh giá sẽ
giúp cho người dùng giảm công sức b ra để tìm kiếm những thông tin thực sự
hữu ích cho mình.
1.1 Bài toán xác định quan điểm ngƣời dùng
Bài toán đặt ra là, với đầu vào là một bộ tập các bài đánh giá của người
dùng cho một sản phẩm nào đó, chẳng hạn trên các trang thương mại điện tử,
hệ thống sẽ phân tích các đánh giá để cho ra một bản tổng hợp, bao gồm thông
tin về các đặc trưng của sản phẩm được nhắc trong các đánh giá cùng với quan
điểm của người dùng đối với từng đặc trưng. Ở đây, từng đặc trưng của sản
phẩm sẽ hiển thị số lượng và chi tiết các câu đánh giá cho đặc trưng đó được
phân loại theo hướng tích cực, tiêu cực, trung tính. Các đánh giá của người

dùng được viết dưới dạng ngôn ngữ tự nhiên, không có hạn chế về cấu trúc.
Để thực hiện được việc xác định quan điểm với từng đặc trưng, cần giải
quyết hai bài toán con sau:
1. Cần xác định được đặc trưng nào đang được đề cập đến trong
những bài đánh giá.
2. Cần xác định hướng đánh giá của người dùng đối với đặc trưng
được đề cập đến.
Vậy nên, để giải quyết bài toán lớn, em đã chia bài toán thành các bài
toán nh hơn bao gồm: (1) trích chọn các đặc trưng dựa trên những bài đánh


4

giá người dùng, (2) xác định quan điểm người dùng với mỗi bài đánh giá có
chứa đặc trưng được nhắc đến trong câu, (3) cuối cùng đưa ra bản tổng hợp
cuối cùng về thông tin sản phẩm đã trích chọn được và biểu diễn thông qua
việc nhóm các câu đánh giá sau khi phân loại.
1.2 Một số ứng dụng tích hợp phần đánh giá ngƣời dùng
Hiện nay có rất nhiều những ứng dụng có tích hợp phần đánh giá của
người dùng, nhất là đối với những ứng dụng mang tính thương mại và dịch vụ,
ví dụ như như các trang đặt phòng khách sạn, phần đánh giá được sắp xếp và
hiển thị bên cạnh thông tin phòng, người dùng hoàn toàn có thể xem được các
bài đánh giá đối với mỗi loại phòng họ quan tâm.
1.3 Xác định các đặc trƣng đang đƣợc nhắc tới
Đối với bài toán xác định quan điểm người dùng, việc xác định các đặc
trưng sản phẩm dựa trên những bài đánh giá từ người dùng là quan trọng vì đặc
trưng của sản phẩm là cái mà người dùng trực tiếp đánh giá và bộc lộ quan
điểm.
Luận văn của em đang thực hiện tìm tất cả các tính năng của sản phẩm
trong một tập hợp các đánh giá của khách hàng bất kể chúng nổi bật hay

không. Một số nhà nghiên cứu c ng đã nghiên cứu tóm tắt nhiều tài liệu nhằm
tím kiếm thông tin tương tự nhau. Đối với bài toán này em sẽ thực hiện dựa
trên thuật toán trích chọn các đặc trưng [2] đã được nghiên cứu áp dụng và cải
tiến. Phương pháp có phần đơn giản nhưng kết quả thu được có độ chính xác
tương đối cao (khoảng 84%), như trong nghiên cứu của Bing Liu [17].
1.4 Xác định quan điểm ngƣời dùng
Tiếp theo đó, với mỗi đặc trưng cần xác định chiều hướng đánh giá về
sản phẩm đối với mỗi câu đánh giá (có thể là tích cực hoặc tiêu cực). Có thể
coi đây là bài toán phân tích quan điểm người dùng cơ bản. Với từng câu đánh


5

giá, hoàn toàn có thể xác định được quan điểm của người dùng đối với từng
đặc trưng được nhắc tới.
Trong khuôn khổ luận văn, em sử dụng phương pháp đơn giản hơn là chỉ
tạo ra một danh sách nh các tính từ giống nhau gắn với các nhãn tích cực hoặc
tiêu cực, giống với phương pháp của Bing Liu[17], và dữ liệu em thực hiện
trên tiếng việt. Và phương pháp em sử dụng cho việc xác định ngữ ngh a các
bài đánh giá là xây dựng bộ từ điển WordNet[19] thay vì việc sử dụng các kho
ngữ liệu sẵn có. Trong bài luận văn, em tạo ra một danh sách nh các tính từ
giống nhau gắn với các nhãn tích cực hoặc tiêu cực. Phương pháp này tuy đơn
giản nhưng lại phù hợp với mục đích của bài toán xác định quan điểm người
dùng, vì chỉ cần xác định câu đánh giá đó đang đánh tích cực, tiêu cực hay
trung tính đối với mỗi đặc trưng sản phẩm.
1.5 Tổng kết chƣơng
Trong chương 1, em đã giới thiệu qua về bài toán xác định quan điểm
người dùng với dữ liệu đầu vào với các bài toán cơ bản cho việc xử lý, tóm tắt
thông tin sản phẩm thông qua các đặc trưng sản phẩm và hướng đánh giá của
người dùng về một sản phẩm bất kì. Tại mỗi bước em đã chọn ra những

phương pháp thích hợp nhất để giải quyết bài toán. Cuối cùng, em đưa ra một
hệ thống tổng quát nhất cho bài toán xác định quan điểm người dùng, bao gồm
các bước nh hơn và chi tiết theo trình tự xác định. Nội dung chi tiết của từng
bước em sẽ mô tả chi tiết trong các chương tiếp theo.


6

CHƢƠNG 2: XÁC ĐỊNH ĐẶC TRƢNG CỦA SẢN PHẨM
Để xác định được các đặc trưng của sản phẩm, trong chương này em sẽ
trình bày một số phương pháp trích chọn, phân tích ngữ ngh a đối với từng câu
đánh giá. Do sự phức tạp trong việc xử lý ngôn ngữ và điểm hạn chế trong các
phương pháp trích chọn đặc trưng, nên trong luận văn em có trình bày một số
phương pháp xén tỉa để loại bớt đi những từ vô ngh a và những đặc trưng dư
thừa.
2.1 Tổng quan về kiến trúc của hệ thống xác định quan điểm ngƣời dùng
Hệ thống thực hiện tổng hợp theo ba bước chính: (1) trích chọn các đặc
trưng của sản phẩm thu được từ đánh giá của người dùng; (2) xác định các câu
đánh giá trong mỗi lần, xem xét và quyết định mỗi câu có ý kiến là tích cực,
tiêu cực hay là trung tính; (3) cuối cùng là tổng hợp và tóm tắt lại thông tin về
sản phẩm.


7

2.2 Xác định đặc trƣng của s n phẩm
2.2.1 Trích chọn các danh từ trong từng câu đánh giá
Đối với bài toán xác định quan điểm người dùng thì việc xác định được
các thuộc phổ biến là bước quan trọng nhất. Hầu hết các đặc trưng sản phẩm
xuất hiện trong câu với chức năng là danh từ hoặc cụm danh từ. Nên bước đầu

tiên ta cần phải xác định được các danh từ được nhắc đến trong từng câu đánh
giá.
2.2.2 ác đ nh các đ c tr ng th

ng g p c a sản phẩm

Đối với các đặc trưng của sản phẩm, có thể phân thành hai loại là: (1)
đặc trưng thường gặp và (2) đặc trưng hiếm gặp.
Có thể hiểu đặc trưng thường gặp là những đặc trưng mà được nhiều
người dùng quan tâm đến đánh giá nhiều hơn những đặc trưng khác, vì đó là
những đặc trưng có thể đặc trưng riêng cho sản phẩm, đặc trưng đó nên có ảnh
hưởng lớn đến quyết định của các khách hàng tiềm năng, liệu rằng có nên mua
sản phẩm hay không?
Các đặc trưng hiếm gặp là những đặc trưng ít được người dùng đề cập
tới trong các bài đánh giá. Những đặc trưng này ít được người dùng quan tâm
nên thường ít ánh hướng đến quyết định của người dùng.
Tiếp theo cần định ngh a ra về các kiểu đặc trưng xuất hiện trong các bài
đánh giá. Thường thường, trong các câu đánh giá, các đặc trưng sẽ xuất hiện ở
hai dạng: tường minh và không tường minh. Ttrong phạm vi luận văn, em sẽ
không xét đến những đặc trưng không tường minh.
Việc tìm ra các đặc trưng sản phẩm, đồng ngh a với việc ta đang tìm một
bộ các danh từ xuất hiện cùng nhau trong mỗi bài đánh giá. Trong luận văn này
em sử dụng thuật toán Apriori[2].


8

2.2.3 ác đ nh các đ c tr ng hi m
Ngược lại hoàn toàn với các đặc trưng thường gặp, các đặc trưng không
đặc trưng hiếm là những đặc trưng ít được nhắc đến trong bài đánh giá của

người dùng, hay nói cách khác đó là những đặc trưng ít được người dùng chú ý
đến, nhưng mà đối với một số ít người tiêu dùng vẫn đặt đó làm tiêu chí cho
việc lựa chọn.
2.3 Tổng kết chƣơng
Với bài toán xác định quan điểm người dùng, việc xác định rõ các đặc
trưng của sản phầm là quan trọng. Trong luận văn em có nêu lên hai phương
pháp cho việc xác định các đặc trưng thường hoặc và hiếm gặp của sản phẩm.
Đặc trưng thường gặp được khai thác trên các thuật toán khai trích chọn đặc
trưng, có độ tối ưu cao và các phương pháp xén tỉa hiệu quả.


9

CHƢƠNG 3: XÁC ĐỊNH QUAN ĐIỂM CỦA NGƢỜI DÙNG
ĐỐI TỪNG ĐẶC TRƢNG SẢN PHẨM
Đối với bài toán xác định quan điểm người dùng, việc xác định được
hướng đánh giá của người dùng đối với từng đặc trưng được nhắc đến trong
các bài đánh giá là quan trọng nhất. Có thể thấy rõ, vai trò các tính từ trong câu
thường nhằm mục đích bổ trợ cho các danh từ, hay chi tiết hơn các tính từ xuất
hiện trong câu có thực hiện việc xác định quan điểm người dùng cho các đặc
trưng được đề cập đến trong các bài đánh giá.
3.1 Trích xuất các từ đánh giá từ đặc trƣng s n phẩm
Trước hết ta có định ngh a, một bài đánh giá thường chứa một hoặc
nhiều câu đánh giá, một câu đánh giá là câu chứa một hoặc nhiều đặc trưng
sản phẩm. Và với mỗi đặc trưng sản phầm thường có một hoặc nhiều các tính
từ đánh giá. Mặc dù việc thực hiện trích chọn các đặc trưng và xác định quan
điểm người dung trên toàn bộ bài đánh giá, nhưng việc phân loại thì xác định
trên từng câu đánh giá. Vậy để xác định được hướng đánh giá thì ta cần xác
định được các tính từ đánh giá trong câu, hướng đánh giá sẽ là tích cực nếu
câu có chứa nhiều từ đánh giá tích cực, câu đánh giá là tiêu cực nếu câu có

chứa nhiều đánh giá tiêu cực. Nhưng đối với mỗi đặc trưng sản phẩm, em có
quy ước thêm một khái niệm là tính từ đánh giá hiệu quả, đó là những từ đánh
giá trực tiếp và gần với đặc trưng nhất.
Trong các câu đánh giá thường thì các tính từ đánh giá được chọn trong
câu thông thường chỉ cần chọn ra các tính từ (danh từ và động từ không được
xét đến trong luận văn này) xuất hiện trong. Nhưng được trích chọn được tính
từ đánh giá hiệu quả, em sẽ chọn tính từ gần nhất với mỗi đặc trưng.
3.2 Xác định hƣớng ngữ nghĩa của các từ đánh giá trong câu
Ở phần trước em đã xác định được các tính từ đánh giá cho từng đặc
trưng sản phẩm trong câu, và đối với bài toán xác định quan điểm, phần xác


10

định xem tính từ đánh giá đó đang mang hướng tích cực hay tiêu cực cho đặc
trưng đó là quan trọng. Có thể hiểu rằng, nếu từ đó mang sắc thái th a mãn, hài
lòng hay khen ngợi về đặc trưng đó thì tính từ được xác định là tính từ đánh
giá tích cực. Ngược lại, nếu tính từ đó thể hiện sự không hài lòng, chê bai thì
tính từ đó gọi là tính từ đánh giá tiêu cực.
3.2.1 Ph ơng pháp xây dựng từ điển từ bằng WordNet
Như đã giới thiệu ở các phần trước, để xác định hướng của các từ đánh
giá em sẽ sử dụng WordNet[19] cho việc xây dựng nên bộ từ điển dùng để xác
định ngữ ngh a các tính từ. Từ WordNet em sẽ thu thập nên hai bộ từ điển đánh
giá bao gồm bộ các tính từ đánh giá tích cực và tiêu cực. Em quy ước rằng nếu
các từ đánh giá được trích chọn trong các câu đánh giá ở bước trước nếu xuất
hiện trong danh sách những từ tích cực thì từ đó mang ý ngh a tích cực, nếu từ
đó xuất hiện trong danh từ tiêu cực thì sẽ mang hướng tiêu cực, cuối cùng nếu
từ đó không xuất hiện trong hai danh sách trên thì sẽ là từ mang ý ngh a trung
tính.
3.2.2 ác đ nh h ớng ngữ nghĩa c a các từ đánh giá

Sau khi xây dựng được bộ từ điển cho việc đánh giá đánh giá, ta hoàn
toàn có thể xác định được hướng ngữ ngh a của toàn bộ các tính từ xuất hiện
trong câu. Thông thường việc xác định hướng đánh giá của các tính từ thông
thường sẽ là duyệt tất cả các câu và với mỗi câu chứa các đặc trưng sản phẩm,
ta kiểm tra nếu từ đó xuất hiện trong những bộ từ điển được xây dựng từ bước
trước sẽ mang hướng đánh giá của bộ từ điển đó.
3.3 Dự báo hƣớng ngữ nghĩa của các câu đánh giá
Sau khi đánh giá được hướng ngữ ngh a của các tính từ xuất hiện trong
câu, bước tiếp theo của bài toán là đánh giá về hướng ngữ ngh a của toàn bộ
câu. Có thể nhận thấy rằng, hướng ngữ ngh a của câu phụ thuộc hoàn toàn số
lượng và hướng ngh a của từng từ đánh giá xuất hiện trong câu đó. Hay nói


11

cách khác, nếu như trong câu đánh giá mà số từ đánh giá tích cực nhiều hơn thì
câu đó được xác định là tích cực, nếu câu đó nhiều từ đánh giá tiêu cực thì câu
đó mang hướng tiêu cực, câu trung tính sẽ được xác định nếu như từ tích cực
và tiêu cực có số lượng bằng nhau.
3.4 Tổng hợp quan điểm ngƣời dùng về s n phẩm
Có thể nhận thấy rằng, bản tóm tắt cuối cùng hoàn toàn là việc tạo nên
một cấu trúc rõ ràng để thể hiện thông tin sản phẩm. Đôi khi trong thực tế khi
thực hiện bản tóm tắt, hoàn toàn có thể thể hiện các câu đánh giá trong bản tóm
tắt như những đường dẫn để người đọc có thể dễ dàng chuyển tới những câu
đánh giá đó đến những bài đánh giá gốc. Vì trong khuôn khổ luận văn đối với
những bài đánh giá dài, người dùng đôi khi đưa ra những ý kiến khác nhau
nhưng số câu đánh giá về sản phẩm thì ít, nên trong bản tổng hợp cuối cùng,
em chỉ đưa ra những câu đánh giá mà trong đó xuất hiện những đặc trưng của
sản phẩm. Việc tùy biến với bản tổng hợp cuối cùng phụ thuộc vào mong
muốn của người dùng để có thể tuỳ chỉnh thay đổi phù hợp.

3.5 Tổng kết chƣơng
Ở chương này, em đã thực hiện xác định hướng đánh giá cho các câu
chứa đặc trưng của sản phầm, mặc dù phương pháp thực hiện đánh không quá
cầu kì, nhưng công đoạn thu thập được dữ liệu đánh giá cho seed_list và các từ
phủ định thì cần tinh chỉnh một cách k lưỡng do độ phức tạp của ngôn ngữ,
vậy nên việc xác định hướng ngữ ngh a của các từ đánh giá của đặc trưng sản
phẩm trong bài toán này hoàn toàn phụ thuộc vào các bộ dữ liệu từ điển thu
thập từ WordNet. Vì vậy nên công đoạn thu thập từ và việc tiền xử lý c ng trở
nên quan trọng không kém.


12

CHƢƠNG 4: THỰC NGHIỆM VÀ KẾT QUẢ
Trong chương này em sẽ trình bày chi tiết các bước thực hiện kiểm
nghiệm thuật toán thông qua việc thu thập dữ liệu từ các trang diễn đàn lớn về
công nghệ cho sản phẩm. Phương pháp đánh giá độ chính xác khi xác định
quan điểm người dùng được thực hiện bởi việc so sánh kết quả thuật toán với
tri thức của con người. Ngoài ra để đánh giá tính thực tiễn của bài toán còn ảnh
hưởng bới nhiều yếu tố khác như hiệu suất hay số lượng dữ liệu có thể xử lý,
nhưng em sẽ không đề cập chi tiết trong luận văn này. Cuối cùng, thông qua
việc so sánh có thể thấy được các điểm còn hạn chế của phương pháp và các
định hướng khắc phục trong tương lai.
4.1 Dữ liệu thử nghiệm
Để kiểm nghiệm thuật toán, em thu thập dữ liệu từ các trang diễn đàn
lớn về công nghệ cho các sản phẩm.Việc thực hiện kiểm nghiểm em sẽ thực
hiện theo các bước như sau:
1. Thu thập các bài đánh giá ở dạng văn bản ở dạng thô trên các trang
diễn đàn, các trang bán hang trực tuyến.
2. Xây dựng chương trình để thực hiện hiện việc trích chọn và phân

loại các đánh giá
3. Thực hiện việc trích chọn và phân loại dựa trên tri thức của con
người
4. Thực hiện việc tính toán độ chính xác và độ bao phủ dựa trên kết
quả thực nghiệm giữa việc phần loại bằng hệ thống và phân loại
bằng tay,
5. So sánh và kết luận


13

4.2 Đánh giá độ chính xác thông qua thực nghiệm
Để đánh giá, em thực hiện việc đọc tất cả các bài đánh giá. Với mỗi
câu trong bài đánh giá, nếu câu đó bày t ý kiến người dùng, tất cả các đặc
trưng mà được người dùng đánh giá sẽ được đánh dấu lại. Bất kể câu đó đang
đánh giá tích cực hay tiêu cực sẽ đều có thể được xác định. Nếu người dùng
không đưa ra ý kiến, thì câu đó không được đánh dấu lại vì ta chỉ quan tâm đến
những câu được đánh giá từ người dùng.
Thông qua việc áp dụng thuật toán, dựa vào bài đánh giá cuối cùng, em
sẽ kiểm nghiệm độ chính xác thông qua tri thức con người, từ đó có thể đánh
giá được tính thực tiễn của thuật toán trong thực tế.
Các bước thực hiện chi tiết em thực hiện như sau:
- Bước đầu tiên là thực hiện thuật toán, với đầu vào là bộ dữ liệu về ba sản
phẩm được thu thập, thông qua chương trình để tạo ra bản tóm tắt, xác định
quan điểm người dùng đối với sản phẩm. Trong bản tóm tắt, sẽ mô tả đầy đủ
các đặc trưng, số lượng và chi tiết các câu đánh giá tích cực, tiêu cực và câu
trung tính.
- Bước thứ hai là thực hiện đọc các bài đánh giá và phân loại thông qua cảm
nhận, tri thức của con người để tính toán số lượng câu đánh giá, số lượng các
đặc trưng. Ở bước này việc đánh giá sẽ được đánh giá bởi ba người rồi lấy

trung bình kết quả.
- Bước thứ ba là việc so sánh kết quả giữa hai bản tổng hợp sau đó lập bảng để
đánh giá độ chính xác (precision) và độ bao phủ (recall) của thuật toán với tất
cả các giá trị: đặc trưng thường gặp, đặc trưng hiếm, số câu được trích chọn, số
câu đánh giá chính xác, và tại mỗi bước đều ghi lại kết quả.


14

4.3 Tổng kết chƣơng
Có thể thấy rằng, hướng ứng dụng của đề tài rất hứa hẹn, đặc biệt là
việc phân tích hướng ngữ ngh a của câu. Nhưng có thể thấy rằng trong phương
pháp này vẫn còn nhiều giới hạn như: (1) Chúng ta không thể phân tích câu mà
trong đó xuất hiện đại từ [17]. (2) Khi đánh giá về một đặc trưng sản phẩm ta
mới chỉ sử dụng duy nhất tính từ, nhưng trên thực tế hoàn toàn có thể dùng
động từ để đánh giá đặc trưng sản phẩm. (3) Có thể nhận thấy, cùng một câu
đánh giá tích cực hay tiêu cực, những sẽ có những câu đánh giá một cách mạnh
mẽ về sản phẩm, nhưng sẽ có những câu đánh giá một cách nhẹ nhàng. Có thể
thấy rằng sắc thái biểu cảm trong hai câu có sự khác nhau, nên để đánh giá
chính xác một sản phẩm, ta có thể đánh trọng số để phân loại những câu như
vậy. (4) Tuy không quá quan trọng nhưng đặc trưng hiếm c ng là một điểm
đáng chú ý trong bài toán xác định quan điểm, phương pháp thực hiện vẫn quá
đơn giản, chưa có các phương pháp xén tỉa đặc biệt để lược b bớt các từ
không liên quan. (5) Ngôn ngữ thường có sự phát triển không ngừng, đôi khi
những từ ngữ được thêm vào, nên thư viện tách từ và gán nhãn từ loại đôi khi
không thể gán nhãn chính xác nếu như không được cập nhật thường xuyên,
điều đó gây ảnh hưởng đến phân tích cú pháp câu. (6) Mặc dù em có trình bày
về phương pháp xác định quan điểm đối với các câu đánh giá khách quan từ
người dung, nhưng hầu như đối với các câu có cấu trúc ngữ pháp hay ngữ
ngh a phức tạp thì tỷ lệ đánh giá chính xác sẽ không cao, vì vậy cần thiết phải

thực hiện việc xác định quan điểm người dung đối với các đánh giá khách quan
theo em vẫn là một bài toán khó. (7) Với bất kì ngôn ngữ nào thì việc phân tích
văn nói hoặc từ viết tắt, từ đồng ngh a đều rất khó khăn, chưa kể rằng tiếng việt
là một ngôn ngữ khó, và cộng đồng phát triển c ng không nhiều, nên việc xử
lý ngôn ngữ c ng hoàn toàn bị hạn chế nhiều.


15

KẾT LUẬN
Trong bài luận văn này đang sử dụng các công nghệ khai phá dữ liệu
và xử lý ngôn ngữ tự nhiên trong việc trích xuất và tổng hợp các ý kiến đánh
giá của khách hàng. Mục tiêu được đề ra của nghiên cứu này là tổng hợp các
đặc trưng chung cơ bản của sản phẩm, mà nguồn dữ liệu đó được tổng hợp
thông qua các bài đánh giá của khách hàng cho một sản phẩm trên trang bán
hàng trực tuyến mà họ quan tâm. Việc tổng hợp đánh giá người dùng không
chỉ hữu ích với người mua hàng mà còn cho cả người bán sản phẩm.
Tuy đã giải quyết được bài toán tống hợp đánh giá người dùng trên
một lượng lớn dữ liệu, nhưng vẫn còn một số hạn chế do sự phức tạp trong vấn
đề xử lý ngôn ngữ tự nhiên như các danh từ không tường minh, ý kiến và quan
điểm được thể hiện bằng các trạng từ, động từ và danh từ. Công việc trong
tương lai chúng ta cần cải thiện và tinh chỉnh các k thuật để giải quyết các vấn
đề trên.


16

DANH MỤC CÁC TÀI LIỆU THAM KHẢO
[1] Agrawal, R. & Srikant, R. 1994. Fast algorithm for mining association
rules. VLDB’94, 1994

[2] Agrawal, R. & Srikant, R. 1994. Fast algorithm for mining association
rules. VLDB’94, 1994.
[3]

Church,

K.W.

and

Hanks,

P.

1990.

Word

Association

Norms, Mutual Information and Lexicography
[4] Dave, K., Lawrence, S., and Pennock, D., 2003. Mining the Peanut Gallery:
Opinion Extraction and Semantic Classification of Product Reviews. WWW’03.
[5] Das, S. and Chen, M., 2001. Yahoo! for Amazon: Extracting market
sentiment from stock message boards. APFA’01.
[6] Daille, B. 1996. Study and Implementation of Combined Techniques for
Automatic Extraction of Terminology. The Balancing Act: Combining
Symbolic and Statistical Approaches to Language. MIT Press, Cambridge
[7] Fellbaum, C. 1998. WordNet: an Electronic Lexical Database, MIT Press.
[8] Goldstein, J., Kantrowitz, M., Mittal, V., and Carbonell, J. 1999.

Summarizing Text Documents: Sentence Selection and Evaluation Metrics.
SIGIR'99.
[9] Hu, M., and Liu, B. 2004. Mining Opinion Features in Customer Reviews.
To appear in AAAI’04, 2004.
[10] Hatzivassiloglou, V. and Wiebe, 2000. J. Effects of Adjective Orientation
and Gradability on Sentence Subjectivity. COLING’00.
[11] Jacquemin, C., and Bourigault, D. 2001. Term extraction and automatic
indexing. In R. Mitkov, editor, Handbook of Computational Linguistics.
Oxford University Press.


17

[12] Justeson, J. S., and Katz, S.M. 1995. Technical Terminology: some
linguistic properties and an algorithm for identification in text. Natural
Language Engineering 1(1):9-27.
[13] . Le-Hong, P., T M H. Nguyen, M. Rossignol, and A. Roussanaly. An
empirical study of maximum entropy approach for part-of-speech tagging of
Vietnamese texts. Actes du Traitement Automatique des Langues Naturelles
(TALN-2010)
[14] Liu, B., Hsu, W., Ma, Y. 1998. Integrating Classification
and Association Rule Mining. KDD’98, 1998.
[15] Morinaga, S., Ya Yamanishi, K., Tateishi, K, and Fukushima, T. 2002.
Mining Product Reputations on the Web. KDD’02.
[16] Manning, C. and Schütze, H. 1999. Foundations of Statistical Natural
Language Processing, MIT Press. Cambridge, MA: May 1999.
[17] Minqing Hu and Bing Liu. Mining and Summarizing Customer Reviews,
Department of Computer Science University of Illinois at Chicago
[18] Mani, I., and Bloedorn, E., 1997. Multi-document Summarization by
Graph Search and Matching. AAAI’97.

[19] Miller, G., Beckwith, R, Fellbaum, C., Gross, D., and Miller, K. 1990.
Introduction to WordNet: An on-line lexical database. International Journal of
Lexicography (special issue), 3(4):235-312
[20] Pang, B., Lee, L., and Vaithyanathan, S., 2002. Thumbs up? Sentiment
Classification Using Machine Learning Techniques. In Proc. of EMNLP 2002
[21] Salton, G. Singhal, A. Buckley, C. and Mitra, M. 1996. Automatic Text
Decomposition using Text Segments and Text Themes. ACM Conference on
Hypertext.
[22] Turney, P. 2002. Thumbs Up or Thumbs Down? Semantic Orientation
Applied to Unsupervised Classification of Reviews. ACL’02.


18

[23] Tait, J. 1983. Automatic Summarizing of English Texts. Ph.D.
Dissertation, University of Cambridge.
[24] Tetreault, J. 1999. Analysis of Syntax-Based Pronoun Resolution Methods.
ACL’99.
[25] Tong, R., 2001. An Operational System for Detecting and Tracking
Opinions in on-line discussion. SIGIR 2001 Workshop on Operational Text
Classification.
[26] Yiwu Xie, Yutong Li, Chunli Wang, Mingyu Lu The Optimization and
Improvement of the Apriori Algorithm



×