Tải bản đầy đủ (.ppt) (14 trang)

Bài giảng Khai phá quan điểm và khai phá phương tiện xã hội: Chương 5 - PGS.TS. Hà Quang Thụy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (190.86 KB, 14 trang )

BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM
VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘI
CHƯƠNG 5. XÂY DỰNG KHO NGỮ LIỆU QUAN ĐIỂM
VÀ TỔNG HỢP QUAN ĐIỂM

PGS. TS. HÀ QUANG THỤY
HÀ NỘI 09-2013
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI

1


Nội dung
Giới thiệu tiếp cận kho ngữ liệu
2.
Tiếp cận dựa trên từ điển
3.
Tiếp cận dựa trên ngữ liệu
Sự kiện mong muốn và không mong muốn
5.
Giới thiệu tổng hợp quan điểm
6.
Tổng hợp quan điểm theo khía cạnh
Cải tiến tổng hợp quan điểm theo khía cạnh
8.
Tổng hợp tương phản
9.
Tổng hợp truyền thống
1.


4.

7.

2


1. Tiếp cận từ vựng quan điểm


Đặt vấn đề


Từ quan điểm: từ đánh giá, từ phân cực, từ mang quan điểm.







Từ quan điểm đơn, cụm từ quan điểm, thành ngữ: Từ vựng
quan điểm
Vai trị từ quan điểm







Từ quan điểm tích cực: trạng thái, chất lượng mong muốn
Từ QĐ tiêu cực: trạng thái, chất lượng không mong muốn

Phương pháp dựa trên từ vựng: Phân lớp quan điểm, phân lớp
quan điểm câu và khai phá quan điểm mức khía cạnh
Phương pháp học máy: Cần các từ loại, có phân biệt từ quan
điểm

Phân loại và xây dựng






Kiểu từ quan điểm tiếng Anh: cơ sở và so sánh
So sánh: so sánh và cực trị. Tốt hơn, tồi hơn, tốt nhất, tồi
nhất… so sánh nhiều thực thể
Xây dựng : thủ công, dựa trên từ vựng, dựa trên kho ngữ liệu
Thủ công: kiếm tra cuối cùng, kết hợp các tiếp cận tự động
3


2. Tiếp cận dựa trên từ điển


Đặt vấn đề




Hầu hết các từ điển liệt kê các từ đồng nghĩa/trái nghĩa
Phương pháp chung





Sử dụng một vài từ hạt giống (seed) “mồi”
Loang (Boostraping) dựa trên cấu trúc đồng nghĩa/trái nghĩa của
một từ điển

Nội dung


Phương pháp chung










(1) Thu thập bằng tay một tập nhỏ hạt giống các từ quan điểm (tích
cực, tiêu cực)
(2) Sử dụng từ điển loang theo cấu trúc đồng nghĩa, trái nghĩa thêm
vào danh sách hạt giống
(3) Lặp cho tới khi khơng tìm thấy từ mới

(4) Kiểm tra thủ cơng làm sạch danh sách
(5) Đưa độ đo cho mỗi từ quan điểm phát hiện được

Rất nhiều tiếp cận phức tạp hơn được đề xuất:



Xác định định hướng quan điểm bằng khoảng cách trong Wordnet
Tập hạt giống: tích cực, tiêu cực &trung lập. Trung lập chặn loang.
Trọng số +1, -1, điều chỉnh trong quá trình loang
4


3. Tiếp cận dựa theo ngữ liệu miền


Giới thiệu chung








Cũng sử dụng tập dữ liệu hạt giống
Ngữ liệu miền thay cho từ điển
Ngữ liệu miền: tập các văn bản về miền ứng dụng
Gắn với miền ứng dụng
Từ vựng có tính “cục bộ”


Phương pháp







Tương tự như dựa trên từ điển
Hạt giống: tích cực, tiêu cực
Cấu trúc đồng nghĩa, trái nghĩa  đoạn câu là danh sách các
từ có chứa từ hạt giống
Độ giàu có của ngữ liệu
Rất nhiều phương pháp được đề xuất: hoạt động công phu
hơn.

5


Phương pháp dựa theo ngữ liệu miền

6


4. Sự kiện [không] mong muốn


Giới thiệu



Nhắc lại quy tắc quan điểm

21.

P ::= sự_kiện_mong_muốn

22. N ::= sự_kiện_không_mong_muốn
“Sau hai tuần hai người nằm trên đệm, một ngọn núi xuất hiện ở giữa”
"Trong vịng một tháng, một thung lũng đã hình thành ở giữa nệm."


Zhang, Lei and Bing Liu (2011). Identifying noun product
features that imply opinions. HLT’2011 (ACL-2011): 571-580



Quan sát




Bản thân khía cạnh thơng thường “Âm thanh”, “Màn hình”, “Giá
cả”… khơng là tích cực/tiêu cực”. Cần chỉ dẫn tích cực/tiêu cực:
"chất lượng âm thanh tốt“, "chất lượng âm thanh xấu“.
Sự kiện (không) mong muốn chỉ theo một hướng tích cực (tiêu
cực). Ví dụ, "Trong vịng một tháng, một thung lũng hình thành ở
giữa nệm“ có biến dạng "Trong vịng một tháng, một thung lũng
xấu hình thành ở giữa nệm“ song khơng thể biến dạng "Trong
vịng một tháng, một thung lũng tốt hình thành ở giữa nệm“

7


Hai bước q trình


Bước 1: Đốn nhận ứng viên




xác định bối cảnh quan điểm xung quanh mỗi danh từ khía cạnh. Một
khía cạnh xuất hiện trong bối cảnh quan điểm tiêu cực (tích cực)
thường xuyên hơn so với bối cảnh quan điểm tích cực (tiêu cực) 
cực của nó là tiêu cực (tích cực). Tạo một danh sách khía cạnh ứng
viên quan điểm tích cực và một danh sách khía cạnh ứng viên quan
điểm tiêu cực

Bước 2: Tỉa










“một danh từ khía cạnh được thay trực tiếp bởi cả từ quan điểm tích

cực và tiêu cực, nó khó trở thành một từ khía cạnh quan điểm”. Hai
quan hệ phụ thuộc trực tiếp.
Kiểu 1: OO-mô tảF: O phụ thuộc F thông qua O-mơ tả: “Chiêc TV
này có chất lượng ảnh tốt”.
Kiểu 2: OO-mô tảHF-mô tảF: O và F phụ thuộc vào H thơng
qua O-mơ tả và F-mơ tả. "lị xo của nệm là xấu“.
O: từ quan điểm, O-Dep/ F-Dep: mối quan hệ phụ thuộc. F: từ khía
cạnh. H: bất kỳ từ nào.
Với VD1: “chất lượng ảnh” ~ đốn nhận “tốt”. VD2: “lị xo” ~ “xấu” (H:
“là”).

8


5. Giới thiệu tổng hợp quan điểm


Tổng hợp quan điểm









Tính chất chủ qua  không nên chỉ từ một người, cần quan
điểm từ nhiều người  tổng hợp quan điểm
Bộ 5 quan điểm (ei, aij, sijkl, hk, tl) và tổng hợp theo các bộ 5.

Tổng hợp quan điểm theo khía cạnh (đặc trưng)
Microsoft Bing và Google Product Search
Tổng hợp theo cấu trúc hay theo bản tóm tắt

Tổng hợp quan điểm: tóm tắt đa văn bản








Tóm tăt đa văn bản đặc biệt
 tóm tắt văn bản truyền thống
Tóm tắt đơn văn bản truyền thống: chọn, chọn-tỉa-ghép
Tóm tắt đa văn bản truyền thống: tìm khác biệt và bỏ trùng lặp
Tổng hợp quan điểm ~ định nghĩa khái niệm
Có cấu trúc
Có định lượng
9


6. Tổng hợp quan điểm theo khía cạnh


Đặc trưng







Có hai đặc trưng chính:


“Bản chất của của quan điểm” là các mục tiêu quan điểm (thực
thể và các khía cạnh) và quan điểm về các khía cạnh



“Định lượng” : cung cấp số lượng hay % số ý kiến đánh giá tích
cực/tiêu cực. Định lượng là rất quan trọng

Có tính cấu trúc

Ví dụ tổng hợp quan điểm


Thống kê



Xem trang sau

10


Tổng hợp quan điểm



Ví dụ
Máy ảnh số 1:
Khía cạnh: CHUNG
Tích cực:
105
<câu quan điểm cá nhân>
Phủ định:
12
<câu quan điểm cá nhân>
Khía cạnh: Chất lượng hình ảnh
Tích cực:
95
<câu quan điểm cá nhân>
Phủ định:
10
<câu quan điểm cá nhân>
Khía cạnh: Tuổi thọ pin
Tích cực:
50
<câu quan điểm cá nhân>
Phủ định:
9
<câu quan điểm cá nhân>

11


7. Cải tiến tổng hợp QĐ theo khía cạnh



Đặt vấn đề



Tồn tại nhiều cải tiến và tinh chính
Kết hợp với tóm tắt đa văn bản: chọn câu và sinh câu

Carenini, Giuseppe, Raymond Ng, and Adam Pauls. Multi-document
summarization of evaluative text. EACL-2006
12


8. Tóm tắt tương phản


Tóm tắt tương phản









Cặp các ý kiến quan điểm tương pháo nhau.
"chất lượng âm thanh của iPhone là thực sự tốt”
" chất lượng âm thanh của iPhone của tôi là tệ hại. “
Paul, Michael J., ChengXiang Zhai, and Roxana Girju (2010).

Summarizing Contrastive Viewpoints in Opinionated Text. EMNLP-2010.
Cặp hai câu quan điểm (x, y) được gọi là một cặp câu tương phản nếu x
câu và y cùng nói về khía cạnh, nhưng định hướng quan điểm đối ngược
nhau.
K câu được lựa chọn đại diện cho tích cực và tiêu cực.

13


9. Tổng hợp truyền thống


Tóm tắt truyền thống


Trích xuất câu để làm một văn bản ngắn



Wang, Dong and Yang Liu (2011). A pilot study of opinion summarization
in conversations. ACL-2011
Tính hạng câu










sim (s, D): độ đo tương tự lời nói DA với mọi lời nói của chính người D
REL (s, topic):
sentiment (s): quan điểm trong lời nói s
length(s): độ dài của lời nói s:

14



×