Tải bản đầy đủ (.pdf) (51 trang)

Nghiên cứu phương pháp trích chọn đặc trưng trong bài toán khai phá quan điểm và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.06 MB, 51 trang )

4
MỤC LỤC
Trang phụ bìa 2
Lời cam đoan 3
MỤC LỤC 4
Danh mục các bảng 6
Danh mục các hình vẽ, đồ thị 7
MỞ ĐẦU 8
Chƣơng 1. GIỚI THIỆU 9
1.1. Khai phá quan điểm 9
1.2. Trích chọn đặc trƣng và khai phá quan điểm dựa trên đặc trƣng 10
1.2.1. Một số khái niệm cơ bản 11
1.2.2. Trích chọn đặc trƣng và khai phá quan điểm dựa trên đặc trƣng 13
Tóm tắt chƣơng 1 15
Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN
TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 16
2.1. Một số nghiên cứu về trích chọn đặc trƣng trong khai phá quan điểm 16
2.2. Phƣơng pháp trích chọn đặc trƣng dựa trên tập phổ biến 17
2.3. Phƣơng pháp trích chọn đặc trƣng dựa trên lan truyền kép 20
2.4. Vấn đề gộp nhóm đặc trƣng 25
2.5. Nhận xét 26
Tóm tắt chƣơng 2 27
Chƣơng 3. BÀI TOÁN TRÍCH CHỌN ĐẶC TRƢNG MÁY ẢNH SỐ TRONG
KHAI PHÁ QUAN ĐIỂM 28
3.1. Mô tả bài toán và ý tƣởng giải quyết 28
3.2. Xây dựng mô hình hệ thống 28
3.2.1. Pha 1 - Xây dựng cơ sở dữ liệu đặc tả sản phẩm 29
3.2.2. Pha 2 - Sinh tập ứng viên đặc trƣng 31
5
3.2.3. Pha 3 - Xếp hạng, nhóm gộp 35
3.2.3.1. Xếp hạng đặc trƣng 36


3.2.3.2. Nhóm gộp đặc trƣng 36
Tóm tắt chƣơng 3 39
Chƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 40
4.1. Môi trƣờng và các công cụ sử dụng thực nghiệm 40
4.2. Xây dựng tập dữ liệu 41
4.2.1. Xây dựng tập dữ liệu đánh giá 42
4.2.2. Xây dựng tập dữ liệu đặc tả 42
4.3. Thực nghiệm và đánh giá 42
4.3.1. Trích chọn đặc trƣng 42
4.3.2. Xếp hạng đặc trƣng 46
4.3.3. Nhóm gộp đặc trƣng 47
4.3.3.1. Đánh giá độ chính xác 48
4.3.3.1. Đánh giá độ giảm dƣ thừa 48
Tóm tắt chƣơng 4 49
KẾT LUẬN 50
Kết quả đạt đƣợc của luận văn 50
Định hƣớng tƣơng lai 50
Tài liệu tham khảo 51

6
Danh mục các bảng
Bảng 4.1. Cấu hình hệ thống thử nghiệm 40
Bảng 4.2. Công cụ phần mềm sử dụng 40
Bảng 4.3: Dữ liệu 8 loại máy ảnh thực nghiệm 43
Bảng 4.4: Kết quả thực nghiệm độ chính xác các phương pháp Hu, DP, nDP . 44
Bảng 4.5: Kết quả thực nghiệm độ hồi tưởng các phương pháp Hu, DP, nDP . 44
Bảng 4.6: Kết quả thực nghiệm độ đo F1 các phương pháp Hu, DP, nDP 45
Bảng 4.7: Kết quả thực nghiệm độ chính xác xếp hạng 50% ứng viên đặc trưng
đầu tiên (so với không xếp hạng) 46
Bảng 4.8: Kết quả thực nghiệm độ hồi tưởng và độ đo F1 xếp hạng 50% ứng

viên đặc trưng đầu tiên (so với không xếp hạng) 46
Bảng 4.9: Kết quả độ chính xác, độ giảm dư thừa của nhóm gộp đặc trưng 49


7
Danh mục các hình vẽ, đồ thị
Hình 1.1: Một ứng dụng của khai phá tổng hợp quan điểm dựa trên đặc trưng . 9
Hình 1.2: Các bước cơ bản trong tổng hợp quan điểm dựa trên đặc trưng 10
Hình 1.3: Ví dụ biểu diễn cây đối tượng 11
Hình 1.4: Ví dụ minh họa một số khái niệm cơ bản trong khai phá quan điểm từ
một bài đánh giá trên trang web 13
Hình 1.5: Ví dụ về tổng hợp quan điểm dựa trên đặc trưng 14
Hình 2.1: Mô hình trích chọn đặc trưng của Hu và Liu 17
Hình 2.3: Cây phân tích cú pháp câu “The camera has good screen” 21
Hình 2.2: Các loại mối quan hệ phụ thuộc ngữ pháp giữa A và B 21
Hình 3.1: Mô hình hệ thống trích chọn đặc trưng 29
Hinh 3.2: Pha 1. Xây dựng cơ sở dữ liệu đặc tả sản phẩm 29
Hình 3.3 : Mô tả cấu trúc các đặc trưng của một loại máy ảnh 31
Hinh 3.4 : Pha 2. Sinh tập ứng viên đặc trưng 32
Hình 3.5: Mô tả file xml xử lý ngôn ngữ tự nhiên cho file văn bản đánh giá 33
Hình 3.6: Pha 3. Xếp hạng, đối sánh 35
Hình 4.1: Cấu trúc cài đặt chương trình 41
Hình 4.2: Mô tả một phần cây phân cấp đặc trưng máy ảnh 47

8
MỞ ĐẦU
Với sự phát triển của Internet và các hệ thống bán hàng trực tuyến, thông
tin đặc tả và các đánh giá nhận xét của ngƣời dùng về các sản phẩm ngày càng
phong phú. Tuy nhiên số lƣợng thông tin này trên Internet là vô cùng lớn, gây
khó khăn cho ngƣời mua hàng trong việc phân tích tổng hợp các ý kiến của

những ngƣời dùng trƣớc để đƣa ra quyết định mua hay không mua một sản
phẩm. Do vậy, một bài toán đặt ra là cần tổng hợp nguồn đánh giá sản phẩm
phong phú này, cùng với nó là bài toán con trích chọn đặc trƣng biểu diễn đối
tƣợng đƣợc ngƣời dùng đề cập đến trong các đánh giá. Đây chính là bài toán mà
luận văn tập trung giải quyết.
Luận văn định hƣớng tìm hiểu các phƣơng pháp trích chọn đặc trƣng biểu
diễn đối tƣợng ta quan tâm, trên cơ sở đó đề xuất phƣơng pháp phù hợp và thử
nghiệm hệ thống trong bài toán trích chọn đặc trƣng sản phẩm máy ảnh.
Cấu trúc luận văn gồm 4 chƣơng
Chương 1: Đặt vấn đề và giới thiệu tổng quan bài toán khai phá quan
điểm nói chung cũng nhƣ một số khái niệm liên quan trong khai phá quan điểm
dựa trên đặc trƣng, từ đó phát biểu bài toán trích chọn đặc trƣng trong ngữ cảnh
khai phá quan điểm về đặc trƣng sản phẩm.
Chương 2: Trình bày một số giải pháp và mô hình hệ thống trích chọn đặc
trƣng biểu diễn đối tƣợng làm cơ sở cho việc khai phá và tóm tắt quan điểm
đƣợc thể hiện trong văn bản. Trên cơ sở tìm hiểu, luận văn sẽ đề xuất một
phƣơng pháp tiếp cận để giải quyết bài toán trích chọn đặc trƣng trong khai phá
quan điểm.
Chương 3: Ứng dụng phƣơng pháp đề xuất vào hệ thống trích chọn đặc
trƣng biểu diễn đối tƣợng máy ảnh.
Chương 4: Kết quả thực nghiệm trích chọn đặc trƣng trên mô hình hệ
thống đề xuất.
Phần kết luận: Tóm lƣợc những nội dung chính đạt đƣợc của luận văn
đồng thời cũng chỉ ra những điểm cần khắc phục và đƣa ra những định hƣớng
nghiên cứu trong tƣơng lai.
9
Chƣơng 1. GIỚI THIỆU
1.1. Khai phá quan điểm

Hình 1.1: Một ứng dụng của khai phá tổng hợp quan điểm dựa trên đặc trưng

Trên thế giới nói chung và ở Việt Nam nói riêng, thƣơng mại điện tử đã
trở nên phổ biến và ngày càng phát triển. Một phần quan trọng trong thƣơng mại
điện tử là bán hàng trực tuyến. Số lƣợng ngƣời mua hàng trực tuyến gia tăng, số
lƣợng đánh giá, nhận xét của ngƣời dùng về các sản phẩm cũng ngày càng
nhiều. Một sản phẩm thông dụng có thể có hàng trăm, hàng nghìn đánh giá.
Cùng với các trang web bán hàng trực tuyến là các trang web đánh giá sản phẩm
nhƣ epinions.com, dpreview.com, Các trang web này là nơi ngƣời tiêu dùng
viết các đánh giá của mình về một sản phẩm nào đó. Các đánh giá đƣợc đăng
trên một trang web loại này cần tuân theo một số quy định do các trang web đó
đƣa ra và sẽ đƣợc chấm điểm bởi đông đảo ngƣời dùng của trang web căn cứ
vào độ tin cậy, hợp lý và hữu dụng mà các đánh giá này mang lại. Chính bởi
vậy, các bài đánh giá từ các trang web loại này đƣợc coi là nguồn tổng hợp lớn
các đánh giá sản phẩm “tin cậy” từ khách hàng. Đây là nguồn thông tin quan
trọng, cung cấp cho ngƣời mua hàng cái nhìn toàn diện hơn về một sản phẩm mà
họ định mua. Còn đối với nhà sản xuất, đánh giá của khách hàng là cơ sở để tiến
hành cải tiến, hoàn thiện sản phẩm của mình. Tuy nhiên, một vấn đề đặt ra là số
lƣợng các ý kiến đánh giá rất lớn. Điều này gây khó khăn cho cả ngƣời mua
hàng và nhà sản xuất. Ngƣời mua hàng sẽ gặp khó khăn trong việc tổng hợp ý
kiến của những ngƣời tiêu dùng trƣớc để đƣa ra quyết định mua hay không mua
một sản phẩm. Còn nhà sản xuất thì khó theo dõi, nắm bắt đƣợc tất cả phản hồi
của ngƣời tiêu dùng về sản phẩm của mình. Thực tế trên làm nảy sinh yêu cầu
tổng hợp tất cả nhận xét của khách hàng về các đặc trƣng của sản phẩm trên một
trang web đánh giá sản phẩm. Giải quyết một yêu cầu thực tế nhƣ trên chính là
10
nhiệm vụ của bài toán khai phá quan điểm, cụ thể hơn là của bài toán khai phá
và tổng hợp quan điểm dựa trên đặc trƣng.
Khai phá quan điểm thuộc vào lĩnh vực khai phá văn bản, liên quan đến
việc áp dụng các giải pháp của xử lý ngôn ngữ tự nhiên và của học máy để trích
xuất và xác định quan điểm đƣợc thể hiện trong văn bản. Khai phá quan điểm
dựa trên đặc trƣng là một trong ba bài toán cơ bản trong khai phá quan điểm,

bao gồm: bài toán phân lớp quan điểm, bài toán khai phá và tổng hợp quan điểm
dựa trên đặc trƣng và bài toán khai phá quan hệ so sánh. Bài toán khai phá và
tổng hợp quan điểm dựa trên đặc trƣng nhằm mục tiêu tạo ra một bản tổng hợp
quan điểm dựa trên các đặc trƣng của sản phẩm đƣợc ngƣời dùng đề cập trong
văn bản và từ đó xác định các ý kiến đánh giá đƣợc đƣa ra. Về cơ bản, việc tổng
hợp quan điểm dựa trên đặc trƣng đƣợc thực hiện nhƣ sau:









Hình 1.2: Các bước cơ bản trong tổng hợp quan điểm dựa trên đặc trưng
Nhƣ vậy, một nhiệm vụ quan trọng để giải quyết bài toán loại này là xác
định các đặc trƣng đối tƣợng mà ngƣời dùng nhận xét, đánh giá. Đây chính là
nội dung trọng tâm mà luận văn tìm hiểu giải quyết.
1.2. Trích chọn đặc trƣng và khai phá quan điểm dựa trên đặc trƣng
Trong bài toán khai phá và tổng hợp quan điểm dựa trên đặc trƣng, vấn đề
quan trọng cần giải quyết đầu tiên là trích chọn các đặc trƣng biểu diễn đối
tƣợng đƣợc đề cập đến trong các đánh giá. Trong phần này luận văn sẽ trình bày
một số khái niệm liên quan đến đặc trƣng trong bài toán khai phá quan điểm dựa
trên đặc trƣng và mô hình hóa cơ bản của bài toán này.
Xác định các đặc trƣng của đối tƣợng
Xác định và phân loại các ý kiến về
đặc trƣng đối tƣợng
Tạo ra bản tổng hợp ý kiến theo đặc
trƣng đối tƣợng

11
1.2.1. Một số khái niệm cơ bản
Đối tượng (Object) và đặc trưng của đối tượng
Nhìn chung, các quan điểm có thể biểu đạt đánh giá về bất cứ điều gì,
chẳng hạn, một sản phẩm, một cá nhân, một tổ chức, một sự kiện, một chủ
đề…Chúng ta sử dụng thuật ngữ tổng quát đối tƣợng để chỉ các thực thể đƣợc
đánh giá đó. Đối tƣợng có tập các thành phần (components) và tập các thuộc
tính (attributes). Một đối tƣợng có thể đƣợc phân rã căn cứ vào mối quan hệ
thành phần “part-of”, mỗi thành phần có thể có các thành phần con….Chẳng
hạn, một sản phẩm (ô tô, máy ảnh kĩ thuật số…) có thể có các thành phần khác
nhau, một sự kiện có thể có các sự kiện con, một chủ đề có thể có các chủ đề
con,…
Một đối tƣợng O là một thực thể (một sản phẩm, một ngƣời, một sự
kiện…), có liên hệ tới 1 cặp, O: (T, A), với T là một cấu trúc phân cấp của các
thành phần. A là tập các thuộc tính của đối tƣợng O. Mỗi thành phần thuộc đối
tƣợng O lại có tập các thành phần và tập các thuộc tính của nó.
Một đối tƣợng O đƣợc biểu diễn nhƣ một cây. Gốc chính là đối tƣợng O.
Mỗi nốt không là gốc là một thành phần hoặc thành phần con của O. Mỗi nhánh
liên kết thể hiện mối quan hệ “part-of”. Mỗi nốt cũng liên hệ với một tập các
thuộc tính.
Ví dụ






Hình 1.3: Ví dụ biểu diễn cây đối tượng
Một sản phẩm máy ảnh có tập các thành phần nhƣ ống kính (lens), pin
(battery), ống ngắm (view-finder)…và tập các thuộc tính nhƣ chất lƣợng ảnh

(picture quality), kích thƣớc (size), trọng lƣợng (weight),…. Thành phần pin
cũng có tập thuộc tính của nó nhƣ tuổi thọ pin (battery life), kích cỡ pin (battery
size), trọng lƣợng pin (battery weigh),…
Canon PowerShot S100
battery

lens

view finder

battery life

battery size

12
Quan điểm có thể đƣợc thể hiện trên đối tƣợng (nốt gốc), chẳng hạn nhƣ:
“Tôi không thích máy ảnh này” (“I do not like this camera”), hoặc trên một
thuộc tính của đối tƣợng, nhƣ “Chất lƣợng ảnh của máy ảnh này kém” (“The
picture quality of this camera is poor”), trên một thành phần của đối tƣợng nhƣ
“Ống kính của máy ảnh này kém” (“The lens of this camera is bad”) hoặc trên
thuộc tính của một thành phần, chẳng hạn nhƣ “Tuổi thọ pin của máy ảnh này
ngắn” (“The battery life of this camera is too short”). Nhƣ vậy thành phần và
thuộc tính chính là đặc trƣng quan điểm (hay đặc trƣng) của đối tƣợng. Để đơn
giản từ “đặc trƣng” đƣợc sử dụng để thể hiện cả thành phần và thuộc tính của
đối tƣợng.
Đặc trƣng có hai loại là đặc trƣng ẩn và đặc trƣng hiện. Nếu đặc trƣng f
xuất hiện tƣờng minh trong tài liệu biểu đạt quan điểm đánh giá r thì f đƣợc gọi
là một đặc trƣng hiện trong r. Nếu f không xuất hiện tƣờng minh trong r nhƣng
đƣợc ngầm nói đến thì f đƣợc gọi là một đặc trƣng ẩn trong r.
Ví dụ

Đặc trƣng “tuổi thọ pin” (battery life) trong câu “Tuổi thọ pin của máy
ảnh này rất ngắn.” (“The battery life of this camera is too short”) là một đặc
trƣng hiện.
Đặc trƣng “kích thƣớc” (size) trong câu “Máy ảnh này quá nhỏ.” (“This
camera is too small”) là một đặc trƣng ẩn.
Quan điểm
- Từ quan điểm: Từ thể hiện đƣợc quan điểm của ngƣời đánh giá đƣợc gọi
là từ quan điểm.
- Quan điểm hiện và quan điểm ẩn: Một quan điểm hiện về một đặc trƣng
f là một câu chủ quan mà trực tiếp biểu đạt một quan điểm tích cực hoặc tiêu
cực. Một quan điểm ẩn về một đặc trƣng f là một câu khách quan mà ám chỉ một
quan điểm tích cực hay tiêu cực.
- Đoạn đánh giá về một đặc trƣng: Đoạn văn bản đánh giá về một đặc
trƣng f của đối tƣợng O trong s là một tập các câu liên tiếp trong s diễn tả quan
điểm tích cực, tiêu cực hay trung lập về đặc trƣng f.
- Ngƣời đánh giá: Là ngƣời hay tổ chức cụ thể đƣa ra lời đánh giá. Với
các đánh giá về sản phẩm trên diễn đàn hay blog, ngƣời đánh giá chính là tác giả
của đánh giá hay bài viết.
13

Hình 1.4: Ví dụ minh họa một số khái niệm cơ bản trong khai phá quan điểm từ
một bài đánh giá trên trang web
1.2.2. Trích chọn đặc trưng và khai phá quan điểm dựa trên đặc trưng
Một tài liệu biểu đạt quan điểm đánh giá tích cực về một đối tƣợng nào đó
không có nghĩa rằng tác giả có quan điểm tích cực về mọi khía cạnh của sản
phẩm. Cũng nhƣ vậy, một tài liệu biểu đạt quan điểm tiêu cực không có nghĩa
tác giả có quan điểm tiêu cực về mọi khía cạnh của đối tƣợng đó. Để nắm đƣợc
những khía cạnh chi tiết nhƣ vậy, cần tiến đến mức đặc trƣng. Nhƣ vậy, bài toán
khai phá quan điểm dựa trên đặc trƣng có hai nhiệm vụ nhƣ sau:
- Phát hiện và lấy ra các đặc trƣng của sản phẩm đƣợc đề cập. Chẳng hạn

câu “Tuổi thọ pin của máy ảnh này quá ngắn” (“The battery life of this camera is
too short”), bình luận trên đặc trƣng “tuổi thọ pin” (battery life) của sản phẩm
“máy ảnh này” (this camera).
- Xác định quan điểm về các đặc trƣng là tích cực, tiêu cực hay trung lập.
Trong câu trên, quan điểm về đặc trƣng “tuổi thọ pin” là tiêu cực.
Nhƣ vậy, bài toán khai phá quan điểm dựa trên đặc trƣng thực hiện tại
mức đặc trƣng. Chẳng hạn, trong một đánh giá của một sản phẩm, bài toán này
nhằm phát hiện các đặc trƣng của sản phẩm mà đƣợc bình luận bởi ngƣời tiêu
dùng và xác định bình luận về đặc trƣng đó là tích cực hay tiêu cực. Một tổng
hợp có cấu trúc sẽ đƣợc tạo ra từ kết quả khai phá này.
Một đối tƣợng đƣợc biểu diễn với một tập hữu hạn các đặc trƣng, F = {f
1
,
f
2
, f
n
}. Mỗi đặc trƣng f
i
trong F có thể đƣợc biểu diễn bởi một tập hữu hạn các
từ hoặc cụm từ đồng nghĩa W
i
. Tức là, có một tập các từ đồng nghĩa tƣơng ứng
W = {W
1
, W
2
, …, W
n
} cho n đặc trƣng. Vì mỗi đặc trƣng f

i
trong F có một tên
(kí hiệu bởi f
i
), nên f
i
 W
i
. Mỗi tác giả hoặc ngƣời đánh giá j bình luận trên một
tập con các đặc trƣng S
j
 F. Với mỗi đặc trƣng f
k
 S
j
mà ngƣời đánh giá j bình
14
luận, một từ hoặc cụm từ W
k
sẽ đƣợc chọn để mô tả đặc trƣng, và sau đó biểu đạt
một quan điểm tích cực hay tiêu cực của ngƣời đánh giá j.
Đầu vào: Tập D các tài liệu d có quan điểm đánh giá.
Đầu ra: Một tập các cặp, mỗi cặp kí hiệu bởi (f, SO), với f là một đặc
trƣng và SO là hƣớng quan điểm (tích cực hay tiêu cực) đƣợc biểu đạt trong d
trên đặc trƣng f.
Chú ý rằng mô hình này không xem xét độ mạnh của mỗi quan điểm,
nghĩa là, không xem xét quan điểm là tiêu cực (tích cực) mạnh hay tiêu cực (tích
cực) yếu, nhƣng độ mạnh của mỗi quan điểm có thể đƣợc thêm vào.
Có nhiều cách để sử dụng kết quả từ mô hình này. Cách đơn giản là tạo ra
tổng hợp dựa trên đặc trƣng của các quan điểm trên đối tƣợng.








Hình 1.5: Ví dụ về tổng hợp quan điểm dựa trên đặc trưng
Nhƣ vậy, bài toán khai phá quan điểm dựa trên đặc trƣng có một số tình
huống sau:
Tình huống 1: Không biết F và W.
Với tình huống này, ta cần thực hiện ba nhiệm vụ:
- Xác định và trích chọn các đặc trƣng đối tƣợng đƣợc bình luận trong
mỗi tài liệu d  D
- Nhóm các từ đồng nghĩa của đặc trƣng, vì những ngƣời khác nhau có thể
sử dụng các từ hoặc cụm từ khác nhau để biểu đạt cùng một đặc trƣng.
- Xác định hƣớng quan điểm trên các đặc trƣng là tích cực, tiêu cực hay
trung lập
Tình huống 2: Biết F nhưng không biết W.
Canon PowerShot S100
Feature: picture quality
Positive: 123 <individual review sentences>
Negative: 6 <individual review sentences>
Feature: size
Positive: 82 <individual review sentences>
Negative: 10 <individual review sentences>
….

15
Tình huống này tƣơng tự nhƣ tình huống 1 nhƣng nhiệm vụ 2 chuyển thành vấn

đề đối chiếu các đặc trƣng phát hiện đƣợc với tập đặc trƣng F đã biết.
Tình huống 3: Biết W và F.
Với tình huống này chúng ta chỉ cần xác định hƣớng quan điểm trên đặc
trƣng sau khi tất cả các câu chứa quan điểm về đặc trƣng đƣợc trích chọn.
Luận văn tập trung giải quyết nhiệm vụ 1 và 2 trong hai tình huống đầu
tiên. Đó chính là nội dung của bài toán trích chọn đặc trƣng.
Đầu vào: Các nhận xét, đánh giá của ngƣời dùng về một sản phẩm cụ thể
trên một trang web đánh giá. Ví dụ: sản phẩm máy ảnh kỹ thuật số Canon
PowerShot S100 trên website epinions.com.
Đầu ra: Một danh sách các đặc trƣng của sản phẩm đƣợc ngƣời dùng đề
cập trong bài đánh giá.
Tóm tắt chƣơng 1
Trong chƣơng này, luận văn giới thiệu tổng quan bài toán khai phá quan
điểm nói chung cũng nhƣ một số khái niệm liên quan trong khai phá quan điểm
dựa trên đặc trƣng, từ đó phát biểu bài toán trích chọn đặc trƣng trong ngữ cảnh
khai phá quan điểm về đặc trƣng sản phẩm. Chƣơng tiếp theo luận văn trình bày
một số giải pháp trích chọn đặc trƣng biểu diễn đối tƣợng làm cơ sở cho việc
khai phá và tóm tắt quan điểm đƣợc thể hiện trong văn bản.
16
Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP GIẢI QUYẾT BÀI TOÁN TRÍCH
CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM
2.1. Một số nghiên cứu về trích chọn đặc trƣng trong khai phá quan điểm
Những nghiên cứu gần đây về trích chọn đăc trƣng trong khai phá quan
điểm chủ yếu đƣợc thực hiện từ các đánh giá sản phẩm trong các trang web bán
hàng trực tuyến hoặc các trang web chuyên về đánh giá sản phẩm nhƣ
epinions.com, dpreview.com,…Phần này sẽ tổng quan một số hƣớng nghiên cứu
gần đây giải quyết nhiệm vụ trích chọn đặc trƣng trong bài toán khai phá và tổng
hợp quan điểm dựa trên đặc trƣng.
Hu và Liu [12] đề xuất một kỹ thuật học không giám sát dựa trên khai phá
tập mục phổ biến để trích chọn các đặc trƣng sản phẩm. Ý tƣởng chính của kỹ

thuật này là ngƣời dùng thƣờng sử dụng các từ giống nhau cho một đặc trƣng
khi bình luận về sản phẩm, do đó các tập mục phổ biến là danh từ và cụm danh
từ trong các đánh giá có nhiều khả năng là các đặc trƣng sản phẩm.
Popescu và Etzinoni [19] cũng dựa trên ý tƣởng tƣơng tự Hu và Liu [12],
tuy nhiên có đƣa ra giải pháp cải thiện phƣơng pháp, loại đi những cụm từ phổ
biến nhiều khả năng không là đặc trƣng. Thuật toán của họ đòi hỏi cần biết trƣớc
lớp đối tƣợng sản phẩm, từ đó xác định một danh từ hay cụm danh từ có phải là
đặc trƣng của sản phẩm đó hay không trên cơ sở tính độ đo PMI (Pointwise
Mutual Information) giữa danh từ hay cụm danh từ đó với các mẫu bộ phận -
toàn thể có dạng nhƣ “of xx”, “xx has”, “xx comes with”,…, trong đó xx là từ
hay cụm từ chỉ lớp đối tƣợng sản phẩm. Tuy nhiên, phƣơng pháp này cần truy
vấn Web tìm các mẫu bộ phận - toàn thể để tính độ đo PMI nên chi phí thời gian
là đáng kể, hơn nữa phải dựa trên một hệ thống trích chọn thông tin độc lập
miền trên nền Web là KnowItAll.
Guang Qiu và các cộng sự [20] đề xuất phƣơng pháp lan truyền kép dựa
trên phát hiện một số mẫu quan hệ cú pháp giữa từ quan điểm và đặc trƣng, kết
hợp lặp lan truyền để mở rộng tập từ quan điểm và đặc trƣng tìm đƣợc. Phƣơng
pháp này sử dụng một bộ phân tích cú pháp phụ thuộc để mô tả các mẫu quan hệ
làm cơ sở cho việc trích chọn.
Ngoài ra, để giải quyết bài toán trích chọn đặc trƣng trong khai phá quan
điểm còn có một số nghiên cứu khác dựa trên các phƣơng pháp thống kê nhƣ
phƣơng pháp dựa trên mô hình mạng Markov ẩn [8], phƣơng pháp dựa trên mô
hình cực đại hóa Entropy [23], phƣơng pháp dựa trên các trƣờng ngẫu nhiên có
điều kiện [15], phƣơng pháp dựa trên phân tích chủ đề [17].
17
2.2. Phƣơng pháp trích chọn đặc trƣng dựa trên tập phổ biến
Đây là phƣơng pháp do Hu và Liu đề xuất trong [12]. Ý tƣởng cơ bản của
phƣơng pháp này là sử dụng một phƣơng pháp học không giám sát để tìm ra các
đặc trƣng hiện là danh từ hoặc cụm danh từ. Phƣơng pháp này đòi hỏi một số
lƣợng lớn các bình luận và đƣợc mô tả nhƣ trong hình dƣới đây:













Hình 2.1: Mô hình trích chọn đặc trưng của Hu và Liu
Đầu vào của hệ thống trích chọn đặc trƣng theo mô hình của Hu và Liu là
tập dữ liệu các đánh giá về sản phẩm. Tập dữ liệu này sau bƣớc tiền xử lý (tách
câu, tách từ, gán nhãn từ loại) đƣợc đƣa vào module trích chọn các đặc trƣng
phổ biến, kết quả thu đƣợc là một tập các đặc trƣng đƣợc nhiều ngƣời đánh giá
(phổ biến ở đây có nghĩa là xuất hiện trong tập dữ liệu đánh giá nhiều hơn một
ngƣỡng phổ biến đƣợc xác định qua thực nghiệm). Dựa vào kết quả trên, trích
chọn ra các từ thể hiện ý kiến và cuối cùng là xác định các đặc trƣng không phổ
biến (có số lần xuất hiện thấp). Mô hình gồm có các bƣớc cơ bản sau:
Tiền xử lý
Tập đặc trƣng
phổ biến
Tập đặc trƣng
không phổ biến
Tập dữ liệu
đánh giá
Trích chọn từ quan điểm
Tập từ

quan điểm
Trích chọn đặc trƣng không phổ biến
Tiền xử lý
Trích chọn ứng viên đặc trƣng phổ biến
Tỉa ứng viên đặc trƣng

18
Xuất phát từ nhận xét các đặc trƣng sản phẩm thƣờng là danh từ hoặc cụm
danh từ, bƣớc tiền xử lý này nhằm mục đích xác định các danh từ, cụm danh từ
trong tập dữ liệu dánh giá. Các tác giả sử dụng một công cụ xử lý ngôn ngữ tự
nhiên NLPProcessor để tách câu, tách từ và gán nhãn từ vựng trong từng câu.
Mỗi câu đƣợc lƣu vào một cơ sở dữ liệu đánh giá cùng với thông tin từ
vựng của mỗi từ trong câu đó. Một file giao tác đƣợc tạo ra để chuẩn bị cho
bƣớc sinh các đặc trƣng phổ biến dựa trên thuật toán khai phá tập mục phổ biến.
Trong file này, mỗi dòng tƣơng ứng các danh từ và cụm danh từ trong một câu.
Một số bƣớc tiền xử lý khác cũng cần đƣợc thực hiện, bao gồm loại từ dừng,
chuyển về từ gốc.
Trích chọn ứng viên đặc trưng phổ biến
Ở bƣớc này, các tác giả tập trung trích chọn các đặc trƣng đƣợc nhiều
ngƣời dùng đề cập tới trong các đánh giá dựa trên khai phá tập mục phổ biến
trong thuật toán Apriori. Đầu vào là file giao tác gồm các danh từ và cụm danh
từ đƣợc tạo ra ở bƣớc tiền xử lý, đầu ra là các tập mục phổ biến, tức các danh từ
hay cụm danh từ xuất hiện phổ biến trong file giao tác. Ý tƣởng sử dụng khai
phá tập mục phổ biến ở đây dựa trên nhận xét nhƣ sau: ngƣời dùng thƣờng sử
dụng các từ giống nhau cho một đặc trƣng khi bình luận về sản phẩm, do đó, các
tập mục phổ biến là danh từ và cụm danh từ trong các đánh giá có nhiều khả
năng chính là các đặc trƣng sản phẩm ta cần trích chọn.
Thuật toán Apriori bao gồm bai bƣớc. Bƣớc đầu, thuật toán tìm tất cả các
tập mục phổ biến từ tập các giao tác lƣu trong một file mà thỏa mãn một độ phổ
biến tối thiểu đƣợc xác định qua thực nghiệm. Bƣớc hai, thuật toán sinh ra các

luật từ các tập mục phổ biến tìm đƣợc ở bƣớc trƣớc. Tuy nhiên, với mục đích
tìm ra các đặc trƣng phổ biến của sản phẩm, mô hình của Hu và Liu chỉ áp dụng
bƣớc đầu tiên tìm các tập mục phổ biến với độ dài không quá ba từ xuất phát từ
nhận xét: một đặc trƣng sản phẩm thƣờng chứa không quá ba từ. Các tập mục
phổ biến tìm đƣợc với độ dài không quá ba từ chính là các ứng viên đặc trƣng.
Tỉa ứng viên đặc trưng
Các ứng viên đặc trƣng thu đƣợc sẽ tiếp tục đƣợc xử lý cắt tỉa để loại bớt
các ứng viên không chính xác và dƣ thừa. Trong mô hình đề xuất, Hu và Liu
giới thiệu hai loại cắt tỉa sau:
Cắt tỉa đảm bảo tính chặt chẽ
19
Bƣớc cắt tỉa này kiểm tra các thuộc tính có nhiều hơn hai từ trở lên để loại
bỏ những cụm từ vô nghĩa. Khi thực hiện khai phá tập mục phổ biến, thuật toán
chỉ quan tâm tới số lần xuất hiện của các từ, tức là độ hỗ trợ của từ, chứ không
quan tâm tới vị trí xuất hiện của từ trong câu. Do đó trong các tập mục phổ biến
tìm đƣợc có khả năng chứa các cụm từ vô nghĩa. Để loại bỏ đƣợc các kết quả vô
nghĩa, các tác giả đƣa ra khái niệm "cụm từ chặt chẽ" nhƣ sau:
+ Giả sử
f
là một cụm từ phổ biến gồm
n
từ tạo ra từ thuật toán khai phá
tập mục phổ biến,
f =
{
w
1
, w
2


n
}. Nếu tồn tại một câu s chứa toàn bộ
w
1
, w
2
,

n
và khoảng cách giữa
w
i
và w
i
+1

trong
s
không quá ba thì
f
đƣợc coi là
"chặt" đối với
s
.
+ Nếu
f
xuất hiện trong
m
câu thuộc tập dữ liệu đánh giá, và
f

là "chặt"
đối với ít nhất hai trong
m
câu trên thì
f
là một cụm từ chặt chẽ.
Cắt tỉa dư thừa
Bƣớc cắt tỉa này nhằm loại bỏ các đặc trƣng dƣ thừa. Ví dụ, sau khai phá
tập mục phổ biến, hệ thống thu đƣợc hai ứng viên đặc trƣng là “life” và “battery
life”, khi đó “life” là ứng viên đặc trƣng dƣ thừa và cần loại bỏ. Tuy nhiên, với
trƣờng hợp “optical zoom” và “zoom” thì chƣa thể khẳng định “zoom” là đặc
trƣng dƣ thừa. Chính vì vậy, các tác giả đƣa ra một phƣơng pháp để xác định
đặc trƣng dƣ thừa dựa trên độ hỗ trợ hoàn toàn, ký hiệu
p-support
. Độ đo
p-
support
đƣợc định nghĩa nhƣ sau:
p-support
của một đặc trƣng
f
đƣợc tính
bằng phần trăm số câu chứa đặc trƣng
f
mà không chứa đặc trƣng

, trong đó
f

chuỗi con của

f
’. Ví dụ, trong tập dữ liệu đánh giá, đặc trƣng “zoom” có độ hỗ
trợ là 5%, “optical zoom” có độ hỗ trợ là 2% thì
p-support
của “zoom” sẽ là
3%. Nếu một đặc trƣng
f
có giá trị
p-support
nhỏ hơn ngƣỡng
p-support
cực
tiểu qua thực nghiệm và tồn tại một đặc trƣng

sao cho
f
là chuỗi con của

thì
f

là đặc trƣng dƣ thừa và bị loại bỏ.
Trích chọn các từ quan điểm
Việc trích chọn các từ quan điểm trong các đánh giá đƣợc các tác giả tiến
hành nhƣ sau: mỗi câu trong cơ sở dữ liệu đánh giá mà chứa đặc trƣng phổ biến
thì trích chọn ra tính từ ở gần đặc trƣng đó nhất làm từ quan điểm.
Trích chọn các đặc trưng không phổ biến
20
Các từ quan điểm đi cùng các đặc trƣng phổ biến có thể đƣợc sử dụng để
tìm kiếm các đặc trƣng không phổ biến. Chẳng hạn, “picture” là một đặc trƣng

phổ biến. Trong câu “The pictures are absolutely amazing”, “amazing” là một từ
quan điểm tích cực, “software” có thể đƣợc trích rút làm đặc trƣng từ câu “The
software is amazing”. Xuất phát từ nhận xét trên, các tác giả trích chọn các đặc
trƣng không phổ biến nhƣ sau: với tập các đánh giá sản phẩm, tập các đặc trƣng
phổ biến và tập các từ quan điểm tìm đƣợc ở bƣớc trên, thực hiện duyệt tất cả
các câu trong tập đánh giá, nếu câu nào không chứa các đặc trƣng phổ biến,
nhƣng có các từ quan điểm thì thực hiện trích chọn danh từ, cụm danh từ gần từ
đó nhất và đƣa vào tập các đặc trƣng không phổ biến.
2.3. Phƣơng pháp trích chọn đặc trƣng dựa trên lan truyền kép
Đây là phƣơng pháp do Guang Qiu và các cộng sự đề xuất trong [20]. Ý
tƣởng phƣơng pháp này dựa trên phát hiện một số mẫu quan hệ cú pháp phụ
thuộc giữa từ quan điểm và đặc trƣng. Các mẫu quan hệ này đƣợc xác định
thông qua một bộ phân tích cú pháp phụ thuộc. Khi xác định đƣợc các mẫu quan
hệ và một trong hai thành phần (đặc trƣng hoặc từ quan điểm), hệ thống sẽ trích
chọn đƣợc thành phần còn lại. Quá trình trích chọn này đƣợc lặp cho đến khi
không tìm ra đƣợc đặc trƣng hoặc từ quan điểm nào mới. Phƣơng pháp này đƣợc
gọi là lan truyền kép vì thông tin giữa từ quan điểm và đặc trƣng đƣợc lan truyền
sau mỗi bƣớc lặp, từ đó mở rộng tập từ quan điểm và tập đặc trƣng tìm đƣợc. Vì
có thể chỉ cần một tập nhỏ từ quan điểm ban đầu (tập hạt giống từ quan điểm) để
bắt đầu tiến trình lan truyền nên phƣơng pháp này còn đƣợc xem nhƣ một
phƣơng pháp học bán giám sát.
Mối quan hệ giữa đặc trưng và từ quan điểm
Việc xác định mối quan hệ giữa đặc trƣng và từ quan điểm chính là điểm
mấu chốt trong thuật toán trích chọn dựa trên lan truyền kép. Ký hiệu OF-Rel
chỉ mối quan hệ giữa từ quan điểm và đặc trƣng, OO-Rel chỉ mối quan hệ giữa
các từ quan điểm và FF-Rel chỉ mối quan hệ giữa các đặc trƣng.
Để xác định mối quan hệ giữa đặc trƣng và từ quan điểm, các tác giả sử
dụng một bộ phân tích cú pháp phụ thuộc (dependency parser).
Cú pháp phụ thuộc
Cú pháp phụ thuộc (dependency grammar) mô tả mối quan hệ giữa các từ

trong một câu. Sau khi đƣợc phân tích bởi một bộ phân tích cú pháp phụ thuộc,
các từ trong câu đƣợc liên kết với nhau theo một quan hệ nào đó. Chẳng hạn
21
trong câu, “The camera has good screen”, “good” là một từ quan điểm và
“screen” là một đặc trƣng của máy ảnh mà ta cần tìm. Sau khi phân tích, ta có từ
“good” phụ thuộc từ “screen” trong mối quan hệ “mod”, nghĩa là “good” là bổ
ngữ của “screen”.




Hình 2.3: Cây phân tích cú pháp câu “The camera has good screen”
Có hai loại quan hệ phụ thuộc giữa hai từ: Quan hệ phụ thuộc trực tiếp và
quan hệ phụ thuộc gián tiếp.
Quan hệ phụ thuộc trực tiếp chỉ ra một từ phụ thuộc vào một từ khác mà
không qua một hoặc một số từ trung gian (chẳng hạn nhƣ B phụ thuộc trực tiếp
A trong ví dụ (a)), hoặc cả hai từ cùng phụ thuộc trực tiếp vào một từ thứ ba
(chẳng hạn nhƣ A và B cùng phụ thuộc trực tiếp vào D nhƣ ví dụ (b)).
Quan hệ phụ thuộc gián tiếp chỉ ra một từ phụ thuộc vào một từ khác
thông qua một hoặc một số từ trung gian (chẳng hạn nhƣ B phụ thuộc A thông
qua từ trung gian D nhƣ trong ví dụ (c)), hoặc cả hai từ cùng phụ thuộc gián tiếp
vào một từ thứ ba thông qua một hoặc một số từ trung gian (chẳng hạn nhƣ A và
B cùng phụ thuộc gián tiếp vào D thông qua các từ trung gian I
1
và I
2
tƣơng ứng
nhƣ trong ví dụ (d)).

Hình 2.2: Các loại mối quan hệ phụ thuộc ngữ pháp giữa A và B

Trong [20], các tác giả sử dụng công cụ Stanford POS để gán nhãn từ loại
và Minipar để phân tích cú pháp phụ thuộc. Một số mối quan hệ phụ thuộc đƣợc
The
camera
good
has
det
mod
screen
obj
subj
22
Minipar trích chọn và sử dụng trong thuật toán lan truyền kép bao gồm: mối
quan hệ giữa đặc trƣng và từ quan điểm {mod, pnmod, subj, s, obj, obj2, desc},
mối quan hệ giữa các đặc trƣng {conj}, mối quan hệ giữa các từ quan điểm
{conj}.
Luật lan truyền
Trong thuật toán lan truyền các tác giả đề xuất bốn bƣớc lan truyền con:
(1) trích chọn đặc trƣng sử dụng từ quan điểm và mối quan hệ OF-Rel, (2) trích
chọn đặc trƣng sử dụng đặc trƣng và mối quan hệ FF-Rel, (3) trích chọn từ quan
điểm sử dụng đặc trƣng và mối quan hệ OF-Rel, (4) trích chọn từ quan điểm sử
dụng từ quan điểm và mối quan hệ OO-Rel.
Dƣới đây là bốn loại luật tƣơng ứng với bốn bƣớc lan truyền con trên. Ý
nghĩa các ký hiệu nhƣ sau:
t
(
o
)
:
đặc trƣng (từ quan điểm) trích chọn đƣợc từ các luật

{
T
}({
O
})
:
tập đặc trƣng (tập từ quan điểm) đã biết
POS
(
T
)
, POS
(
O
)
:
thông tin gán nhãn từ loại của đặc trƣng, từ quan điểm
T
Dep
, O
Dep
:
quan hệ phụ thuộc của đặc trƣng, từ quan điểm
{
NN
}
,
{
JJ
}

:
tập các từ loại của đặc trƣng, từ quan điểm
{
MR
}
:
tập các mối quan hệ phụ thuộc giữa đặc trƣng và từ quan điểm OF-Rel,
bao gồm {mod, pnmod, subj, s, obj, obj2, desc}
{
CONJ
}
:
tập mối quan hệ phụ thuộc giữa các đặc trƣng FF-Rel hay từ quan điểm
OO-Rel, bao gồm{conj}
: sự phụ thuộc, ví dụ 

 nghĩa là  phụ thuộc  thông qua quan
hệ cú pháp 


==: bằng hoặc tƣơng đƣơng
(1) Trích chọn đặc trưng t sử dụng từ quan điểm O và mối quan hệ OF-Rel
R11



, 




, 





, 









= 
Ví dụ: “The camera has a good screen” (good  mod  screen). Trong câu này,
“good” là từ quan điểm O đã biết, “good” phụ thuộc “screen” theo mối quan hệ
23
OF-Rel là “mod”. Vì vậy với “good” là từ quan điểm biết trƣớc, suy ra đƣợc
“screen” là một đặc trƣng.
R12



 

, 




, 





, 





, 









= 
Ví dụ: “The picture turned out quite nicely” (nicely  pnmod  turned  subj
 picture). Trong câu này, “nicely” là từ quan điểm đã biết, “nicely” phụ thuộc
vào “turned” theo mối quan hệ “pnmod” và “picture” phụ thuộc vào “turned”
theo mối quan hệ “subj”. Vì vậy, với “nicely” là từ quan điểm biết trƣớc, suy ra
đƣợc “picture” là một đặc trƣng

(2) Trích chọn từ quan điểm o sử dụng đặc trưng T và mối quan hệ OF-Rel
R21



, 



, 





, 










= 
Ví dụ: “The camera has a good screen”. Tƣơng tự nhƣ ví dụ minh họa luật R11,
nhƣng ở đây “screen” là đặc trƣng T biết trƣớc, mối quan hệ OF-Rel ở đây là
“mod” và “good” là từ quan điểm đƣợc suy ra.

R22



 

, 



, 





, 





,  





= 
Ví dụ: “The picture turned out quite nicely”. Tƣơng tự nhƣ ví dụ minh họa luật

R12, nhƣng ở đây “picture” là đặc trƣng T biết trƣớc, mối quan hệ OF-Rel ở đây
là “pnmod” và “subj”, và “nicely” là từ quan điểm đƣợc suy ra.
(3) Trích chọn đặc trưng t sử dụng đặc trưng T và mối quan hệ FF-Rel
R31

















, 









, 









, 













= 






Ví dụ:”The camera gives the tremendous flexibility in shutter speed and
aperture priority” (priority  conj  speed). Trong câu này, “shutter speed” là
đặc trƣng T biết trƣớc, mối quan hệ FF-Rel ở đây là “conj”, và “aperture
priority” là đặc trƣng đƣợc trích chọn.
24
R32





 

 

, 





, 

== 

, 











= 


Ví dụ: “Canon G3 has a great len” (G3  subj  has  obj  len). Trong câu
này, “Canon G3” là đặc trƣng T
i
biết trƣớc, “G3” phụ thuộc “has” theo mối quan
hệ “subj” và “len” phụ thuộc vào “has” theo mối quan hệ “obj”. Vì vậy “len” là
đặc trƣng T
j
đƣợc trích chọn
(4) Trích chọn từ quan điểm o sử dụng từ quan điểm O và mối quan hệ OO-Rel
R41


















, 








, 









, 














= 
()

Ví dụ: “The camera is amazing and great” (amazing  conj  great). Trong câu
này, “great” là từ quan điểm đã biết, “great” phụ thuộc “amazing” theo mối quan
hệ “conj”. Vì vậy với “great” là từ quan điểm biết trƣớc, suy ra đƣợc “amazing”
cũng là một từ quan điểm.
R42





 

 

, 






, 

== 

, 










= 


Ví dụ: “If you want to buy a nice , durable camera, you can choose G3” (nice 
mod  camera  mod  durable). Trong câu này, “nice” là từ quan điểm biết
trƣớc, “nice” phụ thuộc “camera” theo mối quan hệ “mod” và “durable” cũng
phụ thuộc “camera” theo mối quan hệ “mod”. Vì vậy, với “nice” là từ quan điểm
biết trƣớc, suy ra đƣợc “durable” cũng là một từ quan điểm.
Thuật toán lan truyền
Input: Opinion Word Dictionary {O}, Review Data R for camera A
Output: All Possible Features {F}. The Expanded Opinion Lexicon {O-Expanded}
Function:
1. {O-Expanded}= {O};

2. {F
i
} = ; {O
i
} = ;
3. for each parsed sentence s in R
4. if (Extracted features not in {F})
5. Extract features {F
i
} using R11 and R12 based on opinion words in {O-Expanded}
6. endif
7. if (Extracted opinion words not in {O-Expanded})
8. Extract opinion words {O
i
} using R41 and R42 based on opinion words in {O -Expanded}
25
9. endif
10. endfor
11. set {F} = {F} + {F
i
}, {O-Expanded} = {O-Expanded} + {O
i
}
12. for each parsed sentence s in R
13. if (Extracted features not in {F})
14. 
i
}
15. endif
16. if (Extracted opinion words not in {O-Expanded})

17. Extract opinion words  
i
}
18. endif
19. endfor
20. set {F
i
} = {F
i
} + {F’}, {O
i
} = {O
i
} + {O’}
-Expanded} = {O-
22. repeat 2 till size({F
i
} )= 0, size({O
i
} )= 0
Trong thuật toán lan truyền, đầu vào là tập từ quan điểm O và tập dữ liệu
đánh giá R của sản phẩm. Các bƣớc xử lý trong thuật toán đƣợc trình bày chi tiết
ở trên. Việc lặp lan truyền dừng lại khi không tìm đƣợc đặc trƣng và từ quan
điểm mới. Sau đây, ta phân tích một ví dụ để làm rõ các bƣớc trong thuật toán.
Xét đoạn văn bản đánh giá gồm bốn câu sau:
“Canon G3 gives great picture. The picture is amazing. You may have to
get storage to store high quality pictures and recorded movies. And the software
is amazing.”
Giả sử đầu vào thuật toán của chúng ta chỉ có một từ quan điểm là
“great”. Trong bƣớc lặp đầu tiên, thực hiện đoạn lệnh từ dòng 4 đến dòng 6 sẽ

trích chọn đƣợc “picture” là một đặc trƣng dựa trên luật R11. Sử dụng
“picture” là đặc trƣng vừa đƣợc trích chọn, thực hiện đoạn lệnh từ dòng 16 đến
18 dựa trên luật R22 ta trích chọn đƣợc “amazing” là một từ quan điểm, thực
hiện đoạn lệnh từ 13 đến 15 dựa trên luật R31 ta trích chọn đƣợc “movies” là
một đặc trƣng. Trong bƣớc lặp thứ hai, với từ quan điểm “amazing” đã đƣợc
trích chọn, thực hiện đoạn lệnh từ 4 đến 6 dựa trên R12, ta tiếp tục trích chọn
đƣợc “software” là đặc trƣng. Quá trình lặp lan truyền dừng lại vì không có đặc
trƣng và từ quan điểm nào đƣợc trích chọn thêm. Nhƣ vậy, thông qua lan truyền
kép từ một hạt giống từ quan điểm ban đầu, ba đặc trƣng và một từ quan điểm
mới trong bản đánh giá đã đƣợc trích chọn.
2.4. Vấn đề gộp nhóm đặc trƣng
Trong bài toán khai phá quan điểm dựa trên đặc trƣng, một vấn đề quan
trọng là tạo ra một bản tổng hợp quan điểm dựa trên từng đặc trƣng. Tuy nhiên,
26
ngƣời dùng có thể biểu đạt một đặc trƣng bằng nhiều từ hoặc cụm từ khác nhau,
ví dụ, “picture” “image” là hai từ cùng biểu đạt một đặc trƣng. Do vậy, để tạo ra
một bản tổng hợp có ý nghĩa, những từ và cụm từ đồng nghĩa trong miền sản
phẩm cần đƣợc gộp lại trong cùng một nhóm. Đã có nhiều phƣơng pháp đƣợc đề
xuất để giải quyết bài toán gom nhóm các đặc trƣng đồng nghĩa [21, 28, 29].
Yếu tố chính trong các thuật toán học giải quyết bài toán gộp nhóm đặc trƣng
đồng nghĩa là độ đo tƣơng tự. Có hai tiếp cận chính về độ đo tƣơng tự đƣợc sử
dụng trong các giải pháp đƣa ra, bao gồm: tiếp cận độ đo tƣơng tự dựa trên từ
điển đồng nghĩa hay mạng ngữ nghĩa và tiếp cận độ đo tƣơng tự dựa trên thuộc
tính phân phối các từ trong tập dữ liệu.
Đối với tiếp cận độ đo tƣơng tự dựa trên từ điển (dictionary-based
similarity, lexical similarity), vấn đề chính là đồng nghĩa trong từ điển là đồng
nghĩa độc lập miền, trong khi đó yêu cầu của bài toán là nhóm gộp các đặc trƣng
đồng nghĩa trên miền đặc trƣng sản phẩm. Do vậy dẫn đến một số tồn tại sau:
Thứ nhất, đồng nghĩa trong từ điển nhƣng không đồng nghĩa trong miền ứng
dụng, ví dụ, “picture” và “movie” là đồng nghĩa trong từ điển WordNet nhƣng

không đồng nghĩa trong miền ứng dụng máy ảnh. Thứ hai, đồng nghĩa trong
miền ứng dụng nhƣng không đồng nghĩa trong từ điển WordNet, chẳng hạn
“design” và “appearance” đồng nghĩa trong miền ứng dụng máy ảnh nhƣng
không đồng nghĩa trong WordNet.
Đối với tiếp cận độ đo tƣơng tự dựa trên thuộc tính phân phối các từ trong
tập dữ liệu (corpus-based similarity, distributional similarity), tiếp cận này dựa
trên giả thuyết các từ với nghĩa tƣơng tự nhau thƣờng xuất hiện trong các ngữ
cảnh tƣơng tự. Ngữ cảnh của một từ đƣợc xác định là các từ xung quanh từ đó.
Các độ đo tƣơng tự nhƣ Cosine, Jaccard, Dice,… có thể đƣợc sử dụng trong tiếp
cận này.
2.5. Nhận xét
Phƣơng pháp trích chọn đặc trƣng dựa trên tập phổ biến của Hu và Liu đề
xuất đòi hỏi số lƣợng lớn các đánh giá. Tuy nhiên trong quá trình trích chọn vẫn
còn sinh ra nhiều nhiễu, chẳng hạn nhƣ nhiễu là các danh từ hay cụm danh từ
phổ biến trong tập đánh giá nhƣng đồng thời cũng phổ biến trong ngôn ngữ tổng
quát. Xuất phát từ nhận xét đó, Scaffidi và các cộng sự [22] đã đề xuất một mô
hình trích chọn trong đó có so sánh giữa độ phổ biến của các ứng viên trong tập
đánh giá với độ phổ biến trong ngôn ngữ tiếng Anh tổng quát. Nếu ứng viên nào
27
là phổ biến trong tập đánh giá nhƣng không phổ biến trong ngôn ngữ tiếng Anh
tổng quát thì nhiều khả năng ứng viên đó là đặc trƣng chính xác. Tuy nhiên, tính
hiệu quả của phƣơng pháp này đã đƣợc chỉ ra là không cao vì không có tiêu chí
rõ ràng trong sự so sánh độ phổ biến và thông tin thống kê có thể không đủ tin
cậy khi tập dữ liệu nhỏ. Ngoài ra, trong phƣơng pháp của Hu và Liu, kỹ thuật
trích chọn từ quan điểm và đặc trƣng không phổ biến còn đơn giản.
Đối với phƣơng pháp trích chọn dựa trên lan truyền kép của Guang Qiu
và cộng sự, tính hiệu quả của phƣơng pháp phụ thuộc nhiều vào việc chọn tập
hạt giống từ quan điểm ban đầu. Trong [20], tập hạt giống từ quan điểm này
đƣợc chọn một cách ngẫu nhiên từ một tập các từ quan điểm có sẵn. Chính bởi
vậy, trong trƣờng hợp, nếu trong tập tài liệu đánh giá có ít hoặc thậm chí không

có từ nào thuộc tập hạt giống từ quan điểm đầu vào thì việc trích chọn sẽ là
không hiệu quả. Ngoài ra, quá trình lan truyền dựa trên các luật vẫn còn sinh ra
khá nhiều nhiễu khi kích thƣớc tập dữ liệu đánh giá lớn, đòi hỏi cần có một
phƣơng pháp loại bỏ nhiễu nâng cao độ chính xác.
Trên cơ sở tìm hiểu một số nghiên cứu gần đây, luận văn giải quyết bài
toán trích chọn đặc trƣng trong khai phá quan điểm theo hƣớng tiếp cận của
phƣơng pháp lan truyền kép Guang Qiu và cộng sự đề xuất. Tuy nhiên, từ những
nhận xét trên đây, luận văn đề xuất cải tiến cho thuật toán lan truyền kép của
Guang Qiu nhƣ sau: Thay vì học bán giám sát với tập hạt giống ban đầu là tập từ
quan điểm, tác giả đề xuất học bán giám sát với tập hạt giống ban đầu là tập đặc
trƣng. Tập đặc trƣng này đƣợc trích chọn tự động từ tập đánh giá dựa trên một
cơ sở dữ liệu các đặc trƣng của sản phẩm. Nhằm loại bỏ các ứng viên không
chính xác, hệ thống có thêm bƣớc xếp hạng ứng viên đƣợc sinh ra. Ngoài ra, để
tạo ra một bản tổng hợp có ý nghĩa trong pha sau, hệ thống sẽ nhóm gộp các đặc
trƣng trích chọn đƣợc mà đồng nghĩa trong miền sản phẩm theo hƣớng tiếp cận
gộp nhóm của Carenini và các cộng sự [5].
Tóm tắt chƣơng 2
Trong chƣơng 2, luận văn đã nêu đƣợc những nghiên cứu gần đây có liên
quan tới bài toán khai phá và tổng hợp quan điểm dựa trên đặc trƣng và trình
bày chi tiết hai phƣơng pháp trích chọn đặc trƣng dựa trên tập phổ biến và trích
chọn đặc trƣng dựa trên lan truyền kép. Trên cơ sở đánh giá hai phƣơng pháp
này, tác giả đƣa ra mô hình đề xuất trong chƣơng 3.
28
Chƣơng 3. BÀI TOÁN TRÍCH CHỌN ĐẶC TRƢNG MÁY ẢNH TRONG
KHAI PHÁ QUAN ĐIỂM
3.1. Mô tả bài toán và ý tƣởng giải quyết
Mục tiêu của bài toán trích chọn đặc trƣng máy ảnh trong khai phá quan
điểm là xác định các đặc trƣng của đối tƣợng máy ảnh đƣợc đề cập đến trong tập
đánh giá.
Đầu vào:

- Tên đối tƣợng máy ảnh kỹ thuật số. Ví dụ: Canon PowerShot S100
- Tập các đánh giá của ngƣời dùng về đối tƣợng máy ảnh tƣơng ứng. Ví
dụ: Tập các đánh giá sản phẩm máy ảnh kỹ thuật số Canon PowerShot S100 trên
website .
Đầu ra:
Một danh sách các đặc trƣng của sản phẩm đƣợc ngƣời dùng đề cập trong
tập đánh giá.
Để giải quyết bài toán trên, luận văn dựa trên ý tƣởng của Guang Qui cùng các
cộng sự trong [20], Carenini cùng các cộng sự trong [5].
Cụ thể, mô hình giải quyết bài toán nhƣ sau:
- Dựa trên ý tƣởng lan truyền kép [20] sinh ra các ứng viên đặc trƣng.
- Chọn lọc ra các ứng viên tiềm năng từ tập ứng viên đặc trƣng này dựa
trên xếp hạng đặc trƣng.
- Đối sánh và nhóm gộp các ứng viên đặc trƣng tiềm năng dựa trên ý
tƣởng của Carenini [5].
3.2. Xây dựng mô hình hệ thống
Xuất phát từ mô hình giải quyết bài toán nhƣ trên, tác giả đề xuất xây
dựng mô hình trích chọn đặc trƣng trong bài toán khai phá quan điểm dựa trên
đặc trƣng gồm có ba pha chính:
- Pha 1: Xây dựng cơ sở dữ liệu đặc tả sản phẩm
- Pha 2: Sinh tập ứng viên đặc trƣng
- Pha 3: Xếp hạng, nhóm gộp các đặc trƣng
Dƣới đây là minh họa mô hình hệ thống trích chọn đƣợc xây dựng.

×