Tải bản đầy đủ (.pdf) (51 trang)

Xây dựng hệ tóm tắt ý kiến về các sản phẩm từ nhiều người dùng cho văn bản tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 51 trang )



1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ









TRẦN THỊ HẢI YẾN








XÂY DỰNG HỆ TÓM TẮT Ý KIẾN VỀ CÁC SẢN PHẨM
TỪ NHIỀU NGƯỜI DÙNG CHO VĂN BẢN TIẾNG VIỆT










LUẬN VĂN THẠC SĨ














Hà Nội – 2011



2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ








TRẦN THỊ HẢI YẾN







XÂY DỰNG HỆ TÓM TẮT Ý KIẾN VỀ CÁC SẢN PHẨM
TỪ NHIỀU NGƯỜI DÙNG CHO VĂN BẢN TIẾNG VIỆT






LUẬN VĂN THẠC SĨ


Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05


Người hướng dẫn khoa học: TS. Nguyễn Lê Minh















Hà Nội - 2011


4
MỤC LỤC
LỜI CAM ĐOAN 1
MỤC LỤC 4
DANH MỤC HÌNH VẼ 6
KÝ TỰ VIẾT TẮT 7
LỜI CẢM ƠN 8
MỞ ĐẦU 9
Chƣơng 1- GIỚI THIỆU BÀI TOÁN TÓM TẮT VĂN BẢN 11
1.1. Định nghĩa tóm tắt văn bản 11
1.2. Quy trình tóm tắt tự động văn bản. 12
1.3. Một số ứng dụng của tóm tắt văn bản 12
1.4. Sự phân loại các phƣơng pháp tóm tắt. 13
1.5. Tóm tắt đa văn bản 15
1.5.1. Giới thiệu 15

1.5.2. Tiêu chuẩn về chất lƣợng của tóm tắt đa văn bản 15
1.5.3. Các yêu cầu của tóm tắt đa văn bản: 16
1.6. Bài toán tóm tắt ý kiến đánh giá về sản phẩm từ nhiều ngƣời dùng. 17
Chƣơng 2 - KIẾN THỨC CƠ SỞ 20
2.1. Khai thác ý kiến 20
2.1.1. Định nghĩa 20
2.1.2. Bối cảnh lịch sử 20
2.1.3. Các cơ sở khoa học 21
2.2. Khai phá luật kết hợp (Assocition Rules) 27
2.2.1. Giới thiệu 27
2.2.2. Các bƣớc để tìm ra luật kết hợp 29
2.3. Phƣơng pháp tính độ tƣơng đồng câu sử dụng độ đo Cosine. 30
2.4. Kỹ thuật tối đa biên liên quan – MMR 30
Chƣơng 3 - SỬ DỤNG KỸ THUẬT TÓM TẮT ĐA VĂN BẢN CHO BÀI
TOÁN TÓM TẮT Ý KIẾN ĐÁNH GIÁ VỀ SẢN PHẨM TỪ NHIỀU NGƢỜI
DÙNG. 32
3.1. Xử lý các đánh giá trực tuyến của khách hàng 32
3.2. Tóm tắt văn bản tự động 34
3.3. Tóm tắt dựa trên cấu trúc chủ đề 35
3.3.1. Quá trình tiền xử lý dữ liệu (Pre-processing) 36
3.3.2. Xác định chủ đề (Topic Identification). 36
3.3.3. Trích chọn các câu ứng cử viên (Candidate sentence extraction) 39
3.3.4. Bƣớc xử lý cuối cùng và trình bày bản tóm tắt 39


5
Chƣơng 4 - THỬ NGHIỆM VÀ ĐÁNH GIÁ 41
4.1. Môi trƣờng thử nghiệm 41
4.2. Dữ liệu thử nghiệm 41
4.3. Quá trình thử nghiệm 44

4.4. Kết quả thử nghiệm 45
4.4.1. Kết quả xác định danh sách các mục từ chính: 45
4.4.2. Bản tóm tắt cuối cùng 46
4.5. Đánh giá thử nghiệm 46
KẾT LUẬN 50
TÀI LIỆU THAM KHẢO 51


6
DANH MỤC HÌNH VẼ
Hình 1: Một ví dụ về tóm tắt ý kiến dựa trên thuộc tính 24
Hình 2: Tóm tắt các ý kiến dựa vào thuộc tính của máy ảnh kỹ thuật số 24
Hình 3: So sánh các ý kiến đánh giá về 2 máy ảnh kỹ thuật số. 24
Hình 4: Xếp hạng các chủ đề dựa vào tập các đánh giá về điện thoại Nokia 38
Hình 5: Bản tóm tắt cuối cùng 40
Hình 6: Kết quả thử nghiệm xác định danh sách các mục từ chính 45
Hình 7: Kết quả thử nghiệm của bản tóm tắt 46
Hình 8: Bản tóm tắt được tạo ra bằng phương pháp tóm tắt dựa vào phân cụm
trên tập các đánh giá về điện thoại Nokia. 47


7
KÝ TỰ VIẾT TẮT
CRF
Conditional Random Field
FS
Frequent Word Sequences
HMM
Hidden Markov Model
IR

Information retrieval
MMR
Maximal Marginal Relevance
NLP
Natural Language Processing
PDA
Personal Digital Assistant
SMS
Short Message Services
TF
Term frequency
TID
Transaction Identifier
WAP
Wireless Application Protocol


9
MỞ ĐẦU
Với việc phát triển nhanh chóng của thương mại điện tử, ngày càng có
nhiều các sản phẩm được rao bán trên mạng và cũng ngày càng nhiều người mua
sản phẩm trực tuyến. Để tăng cường sự hài lòng của khách hàng và kinh nghiệm
mua sắm, một thực tế phổ biến cho các nhà kinh doanh trực tuyến là cho phép
khách hàng của họ có thể đánh giá hoặc phát biểu ý kiến về các sản phẩm mà họ
đã mua. Với việc ngày càng nhiều người dùng sử dụng mua bán trực tuyến thì số
lượng người đánh giá về sản phẩm ngày càng tăng lên. Kết quả là, số lượng ý
kiến mà một sản phẩm nhận được tăng lên nhanh chóng. Hơn nữa, rất nhiều ý
kiến đánh giá là dài nhưng chỉ có một vài câu có nội dung về đánh giá sản phẩm.
Điều này thực sự khó khăn cho một khách hàng tiềm năng có thể đọc chúng để
thực hiện một quyết định đúng đắn về việc có nên mua sản phẩm hay không.

Nếu anh/cô ấy chỉ đọc một vài ý kiến thì có thể nhận được một cái nhìn không
đúng đắn về sản phẩm. Số lượng lớn các ý kiến cũng gây ra khó khăn cho các
nhà sản xuất để theo dõi ý kiến khách hàng đối với các sản phẩm của họ. Đối
với một nhà sản xuất, đó là những khó khăn truyền thống vì rất nhiều các trang
web kinh doanh có thể bán cùng một sản phẩm và các nhà sản xuất có thể (hầu
như) sản xuất rất nhiều loại sản phẩm.
Bằng cách dựa vào những lợi thế của công nghệ thông tin, các công ty sản
xuất có thể thu thập thông tin khách hàng trong một quy mô lớn để cung cấp
chiến lược cũng như hỗ trợ kỹ thuật cho sản phẩm của họ phục vụ cho việc thiết
kế, phát triển sản phẩm và tiếp thị bán hàng. Khảo sát thống kê là một phương
pháp tiếp cận chung được áp dụng rộng rãi để thu thập thông tin của khách hàng
và hành vi của khách hàng. Tuy nhiên, các nghiên cứu trước đây sử dụng thông
tin của khách hàng chủ yếu tập trung vào tính toán và phân tích dữ liệu cho mục
đích giới thiệu sản phẩm, cá nhân hoá, và phân tích các nhân tố làm tăng cường
lòng trung thành của khách hàng. Tuy nhiên, dữ liệu văn bản chiếm một phần
đáng kể của thông tin khách hàng đã phần nào bị bỏ qua. Trong khi đó, tính toán
và phân tích dữ liệu được cấu trúc và tổ chức tốt với các ứng dụng cơ sở dữ liệu,
điều này làm cho họ xử lý tương đối dễ dàng. Một vài kỹ thuật được thành lập
để phân tích và quản lý những dữ liệu này. Ví dụ: phân tích xử lý trực tuyến
(OLAP) và khai thác dữ liệu. Ngược lại, dữ liệu văn bản viết bằng ngôn ngữ tự
nhiên lại thường được lưu trữ dưới dạng văn bản không có cấu trúc hoặc bán cấu
trúc. Xử lý dữ liệu văn bản yêu cầu không thể thiếu kiến thức từ các lĩnh vực
khác nhau như: cơ sở dữ liệu, truy vấn thông tin, học máy và xử lý ngôn ngữ tự
nhiên. Vì vậy, tồn tại một mức độ khó khăn hơn trong xử lý thông tin văn bản.


10
Tương tự như các dữ liệu số, dữ liệu văn bản cung cấp thông tin phong phú
trong việc thúc đẩy sự thu thập thông tin về kinh doanh cũng như thông tin về sự
cạnh tranh, đặc biệt là với sự phát triển bùng nổ của trang web dựa trên các ứng

dụng kinh doanh
Hiện nay, nhu cầu về kỹ thuật tiên tiến đã tăng lên rất nhiều để giảm thời
gian cần thiết để có được các thông tin và tri thức hữu ích từ tập hợp dữ liệu lớn
văn bản như email, bản ghi nhớ, các trang web và thậm chí cả tin nhắn. Khách
hàng là những người được mời hoặc tự phát tham gia đánh giá bằng văn bản để
chia sẻ kinh nghiệm của họ, ý kiến và khuyến nghị đối với các sản phẩm khác
nhau. Một số người tiêu dùng hành động một cách chuyên nghiệp bằng những
phương pháp khác nhau để so sánh các sản phẩm tương tự từ sự khác nhau về
thương hiệu và đưa ra ý kiến ủng hộ hoặc phản đối. Những đánh giá sản phẩm là
rất cần thiết đối với việc thiết kế và sản xuất sản phẩm của nhà sản xuất, nhà sản
xuất có thể hiểu rõ hơn những điều khách hàng quan tâm và cải tiến sản phẩm
cho phù hợp. Tuy nhiên, việc xử lý thông tin quan trọng như vậy không phải là
một nhiệm vụ nhỏ. Số lượng đánh giá một cách trực tiếp của khách hàng có thể
phát triển rất nhanh chóng và nó là tốn thời gian để thực sự đọc qua tất cả chúng
bằng “tay”. Làm thế nào để đối phó với các số lượng lớn khách hàng đánh giá và
lựa chọn thông tin hữu ích từ họ đã trở thành một nhiệm vụ quan trọng nhưng
đầy thách thức.
Với thực tế ở trên, luận văn tiến hành nghiên cứu, giải quyết và đề xuất
phương pháp tập hợp mối quan tâm của khách hàng từ việc đánh giá sản phẩm
trực tuyến bằng cách sử dụng tóm tắt văn bản tự động. Cơ sở của đề tài là các
kết quả nghiên cứu đã được công bố trên thế giới về bài toán tóm tắt văn bản tự
động. Luận văn cũng tiến hành thử nghiệm tóm tắt trên một tập các đánh giá về
một sản phẩm cụ thể.
Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương:
- Chương 1: “Giới thiệu bài toán tóm tắt văn bản” tóm tắt một số các ứng dụng
của tóm tắt văn bản, phát biểu bài toán tóm tắt ý kiến về sản phẩm từ nhiều
người dùng.
- Chương 2: “Kiến thức cơ sở” trình bày một số thuật toán, phương pháp sử
dụng trong quá trình tóm tắt.
- Chương 3: “Sử dụng kỹ thuật tóm tắt đa văn bản cho bài toán tóm tắt” sẽ đi sâu

vào phương pháp tóm tắt cụ thể để giải quyết bài toán chính của luận văn.
- Chương 4: “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm của
luận văn và các kết quả đạt được trong quá trình thử nghiệm. Đồng thời cũng
đưa ra các phân tích và đánh giá về kết quả đạt được.


11
Chƣơng 1- GIỚI THIỆU BÀI TOÁN TÓM TẮT VĂN BẢN
1.1. Định nghĩa tóm tắt văn bản
Tóm tắt được định nghĩa là một văn bản được tạo ra từ một hoặc nhiều
văn bản mà văn bản này chứa đựng các thông tin quan trọng trong văn bản gốc
đồng thời ngắn gọn hơn văn bản gốc. Như vậy, tóm tắt văn bản là một quá trình
chắt lọc hầu hết các thông tin quan trọng từ một hay nhiều văn bản nguồn để tạo
ra một bản tóm tắt ngắn gọn, cô đọng cho những người dùng hay nhiệm vụ cụ
thể.
Khi việc tóm tắt được thực hiện bằng khả năng của một máy tính, nghĩa là
tự động, thì gọi là tóm tắt văn bản tự động.
Như vậy, tóm tắt văn bản tự động là quá trình mà một máy tính tạo ra một
phiên bản ngắn hơn của văn bản so văn bản gốc (hoặc một tập hợp các văn bản)
nhưng vẫn còn giữ hầu hết các thông tin quan trọng của văn bản gốc. Quá trình
này có thể được xem như quá trình nén và có thể sẽ bị mất thông tin. Như vậy,
một hệ thống tóm tắt văn bản phải xác định các phần quan trọng và giữ chúng
lại. Nhưng cái gì là quan trọng lại dựa trên nhu cầu của người sử dụng hoặc mục
đích của bản tóm tắt.
Tóm tắt văn bản = quá trình làm giảm độ dài hoặc giảm độ phức tạp về
nội dung của văn bản gốc, mà không làm mất ý chính.
Mặc dù trong thực tế, tóm tắt văn bản hướng truyền thống là tập trung vào
văn bản đầu vào. Đầu vào của quá trình tóm tắt có thể bao gồm các thông tin đa
phương tiện như hình ảnh, âm thanh hay video cũng như những thông tin trực
tuyến hay những siêu văn bản. Hơn nữa, chúng ta có thể nói việc tóm tắt chỉ trên

một văn bản hoặc nhiều văn bản. Trong trường hợp việc tóm tắt được thực hiện
trên nhiều văn bản thì quá trình tóm tắt được gọi là tóm tắt đa văn bản (Multi-
document Summarization (MDS)) và các văn bản nguồn có thể là một ngôn ngữ
hay nhiều ngôn ngữ khác nhau.
Đầu ra của hệ thống tóm tắt có thể là một đoạn trích hoặc một bản tóm tắt.
Chúng ta có thể phân biệt giữa các bản tóm tắt tổng quát và các bản tóm tắt mà
người dùng tập trung vào.
Tóm lại: Bài toán tóm tắt văn bản bao gồm
Đầu vào:
- Văn bản gốc
- Tỷ lệ nén hoặc độ dài bản tóm tắt (tỷ lệ nén=độ dài bản tóm tắt/độ dài văn
bản gốc)
Đầu ra:


12
Văn bản đã tóm tắt
Chất lượng của bản tóm tắt thường là khác nhau do các độ đo là:
- Tính dễ hiểu
- Tính chặt chẽ
- Tính mạch lạc
- Tính rõ ràng, dễ đọc
1.2. Quy trình tóm tắt tự động văn bản.
Theo truyền thống, việc tóm tắt đã được phân thành ba giai đoạn chính.
Theo phương pháp tiếp cận của Sparck Jones, đó là:
- Thể hiện lại văn bản từ văn bản ban đầu.
- Chuyển đổi văn bản đã biểu diễn thành một biểu diễn tóm tắt.
- Cuối cùng là sinh ra một bản tóm tắt văn bản từ biểu diễn tóm tắt
Một quá trình tổng hợp tự động có thể được chia thành ba bước:
- Bước tiền xử lý: một đại diện có cấu trúc của văn bản ban đầu thu được.

- Bước xử lý: một thuật toán phải chuyển đổi cấu trúc văn bản vào một cấu trúc
bản tóm tắt.
- Bước cuối cùng thu được một bản tóm tắt từ cấu trúc bản tóm tắt ở trên.
Để việc tóm tắt được hiệu quả thì đòi hỏi phải phân tích rõ ràng và chi tiết
các nhân tố bối cảnh. Sparck Jones đã phân chia ra thành 3 nhân tố chính: các
nhân tố đầu vào, các nhân tố mục đích và nhân tố đầu ra.
- Các nhân tố đầu vào. Các đặc trưng quan trọng của văn bản đã được tóm tắt
xác định cách mà một bản tóm tắt có thể đạt được. Các đặc trưng này có thể là:
hình thức văn bản (ví dụ như cấu trúc văn bản); loại chủ đề (bình thường,
chuyên ngành hoặc hạn chế) hay số đơn vị đầu vào (một hoặc nhiều tài liệu).
- Các nhân tố mục đích: Đây thường là những nhân tố quan trọng nhất. Chúng
có thể là ba loại: tình hình đề cập đến bối cảnh trong bản tóm tắt được sử dụng,
người đọc bản tóm tắt và mục đích sử dụng (tóm tắt để làm việc gì?).
- Các nhân tố đầu ra: nội dung, định dạng và phong cách.
1.3. Một số ứng dụng của tóm tắt văn bản
- Trong hội thảo: Độc giả được mời tới hội nghị để thảo luận. Nếu có một
bản tóm tắt về nội dung cuộc thảo luận thì sẽ giúp họ tiết kiệm được thời
gian hơn.
- Tóm tắt văn bản cũng có thể hữu ích cho việc hiển thị văn bản trên thiết bị
cầm tay như PDA.


13
- Tóm tắt tin tức tới định dạng SMS hay WAP cho điện thoại di động hay
PDA.
- Cho phép máy tính “giả” (synthetical) đọc các bản tóm tắt.
- Tiến hành tìm kiếm bằng các ngôn ngữ nước ngoài và nhận về được một
bản dịch tóm tắt tự động.
- Trong các máy tìm kiếm (search engine): tóm tắt các thông tin trong danh
sách kết quả bởi các máy tìm kiếm. Đưa ra các mô tả ngắn gọn về các kết

quả tìm kiếm được(như máy tìm kiếm Google).
- Tóm tắt hội nghị: tìm hiểu những gì đã trình bày tại hội nghị.
- Các thiết bị cầm tay: tạo ra một bản tóm tắt ngắn gọn của một cuốn sách
theo kích thước của màn hình.
- Hỗ trợ cho người tàn tật: tóm lược văn bản và đọc nó cho người mù.
1.4. Sự phân loại các phƣơng pháp tóm tắt.
* Nếu so sánh các hình thức của bản tóm tắt thì có 2 phương pháp tóm tắt:
- Trích chọn (Extracts): đây là những bản tóm tắt hoàn chỉnh bao
gồm các trình tự từ đã được sao chép từ các tài liệu gốc giống với chuỗi
các từ có thể được sử dụng các cụm từ, các câu hoặc các đoạn văn.
Phương pháp này bị mâu thuẫn, thiếu sự cân bằng, và thiếu sự gắn kết.
Các câu có thể được trích xuất ra khỏi bối cảnh, liên quan đến sự trùng lặp
có thể bị phá vỡ.
- Trừu tượng (Abstracts): là những bản tóm tắt chứa các trình tự từ
không có trong văn bản ban đầu. Cho đến bây giờ nó là một nhiệm vụ quá
khó cho máy tính để giải quyết nó thành công.
Một bản tóm tắt có thể chứa các từ không xuất hiện trong bản gốc.
Phương pháp tóm tắt Abstract vẫn còn khá yếu, vì vậy hầu hết các nghiên
cứu đã tập trung vào các phương pháp trích chọn.
* Nếu dựa vào mức độ của quá trình tóm tắt lại có thể chia ra:
- Hướng tiếp cận mức độ nông (Surface-level ): trong hướng tiếp
cận này, thông tin được trình bày theo quan điểm: nói sơ qua về các đặc
tính và kết hợp chúng với nhau. Các đặc tính đó ví dụ như: thống kê
những từ ngữ nổi bật, những vị trí nổi bật, những từ ngữ gợi ý những cụm
từ, tên miền cụ thể hoặc những từ ngữ truy vấn của người dùng. Kết quả
là ta có 1 dạng đoạn trích.
- Hướng tiếp cận mức độ sâu (Deep-level ): hướng tiếp cận này có
thể tạo ra các trích lục hoặc tóm tắt. Các trường hợp sau này sử dụng tổng
hợp liên quan đến thế hệ ngôn ngữ tự nhiên. Chúng cần một số phân tích



14
ngữ nghĩa, ví dụ như có thể sử dụng các phương pháp tiếp cận thực thể và
xây dựng một đại diện của các thực thể văn bản (đơn vị văn bản) và các
mối quan hệ giữa chúng để xác định các phần nổi bật. Chúng cũng có thể
sử dụng phương pháp luận và mô hình cấu trúc văn bản, ví dụ như: đánh
dấu siêu văn bản hoặc cấu trúc tu từ.
* Nếu dựa vào mục đích tóm tắt thì có thể phân loại thành:
- Các bản tóm tắt chỉ báo (Indicative summaries) đưa ra những
thông tin viết tắt về các chủ đề chính của một tài liệu. Các tóm tắt này
phải giữ các đoạn quan trọng nhất và thường được sử dụng như là một
phần kết thúc của các hệ thống IR, được trả lại bởi hệ thống tìm kiếm thay
cho một tài liệu đầy đủ. Mục đích của các bản tóm tắt này là để giúp
người dùng quyết định xem tài liệu ban đầu có đáng để đọc hay không.
Độ dài của bản tóm tắt này có phạm vi bằng từ 5 đến 10% của các văn
bản hoàn chỉnh.
- Các bản tóm tắt cung cấp nhiều thông tin (Informative summaries)
cung cấp một bản thay thế cho tài liệu đầy đủ, giữ lại những chi tiết quan
trọng, đồng thời giảm khối lượng thông tin. Thông tin tóm tắt thường là
20-30% thông tin của văn bản gốc.
- Các tóm tắt theo kiểu bình luận hay đánh giá (Critical or
Evaluative summaries) nắm bắt những quan điểm của tác giả bản tóm tắt
về một chủ đề nhất định. Mục điểm báo, tạp chí là ví dụ điển hình, nhưng
các mục này là một đoạn rất nhỏ ngoài phạm vi của các hệ thống tóm tắt
tự động ngày nay.
* Nếu dựa vào người đọc thì có thể phân loại tóm tắt thành:
- Tóm tắt chung: khi các kết quả được hướng tới một cộng đồng
người đọc lớn, tất cả các chủ đề chính là quan trọng như nhau.
- Tóm tắt dựa trên câu hỏi: khi kết quả được dựa trên một câu hỏi ví
dụ như "Những nguyên nhân nào dẫn đến lạm phát cao? "

- Tóm tắt tập trung người dùng hoặc tập trung chủ đề: phù hợp với
sự quan tâm của một số người dùng đặc biệt hoặc chỉ nhấn mạnh những
chủ đề đặc biệt.
* Nếu dựa vào số lượng các văn bản có giá trị trong cơ sở dữ liệu văn bản thì có
thể phân loại tóm tắt thành:
- Tóm tắt đơn văn bản: việc tóm tắt được thực hiện trên một văn bản.
- Tóm tắt đa văn bản: việc tóm tắt được thực hiện từ nhiều văn bản
* Ngoài ra còn một số cách để phân loại các loại tóm tắt:
- Tóm tắt đơn ngôn ngữ với đa ngôn ngữ.


15
- Tóm tắt bài báo khoa học, báo cáo hoặc tin tức
- Tóm tắt chung hoặc tóm tắt có liên quan truy vấn.

1.5. Tóm tắt đa văn bản
1.5.1. Giới thiệu
Tóm tắt đa văn bản cũng là một quy trình tự động nhằm mục đích khai
thác thông tin từ nhiều bài viết có cùng một chủ đề. Kết quả nhận được là bản
tóm tắt cho người dùng cá nhân, vì vậy, với những người dùng chuyên nghiệp
họ nhanh chóng làm quen được với những thông tin chứa trong một nhóm lớn
các tài liệu. Bằng cách như vậy, hệ thống tóm tắt đa văn bản thực hiện việc tập
hợp những tin tức ở bước tiếp theo khi mà thông tin ngày nay đang trong tình
trạng quá tải.
Tóm tắt đa văn bản tạo ra các báo cáo thông tin chính xác và toàn diện.
Nhiều ý kiến khác nhau được đặt lại với nhau và được phác thảo ra, tất cả các
chủ đề được mô tả từ nhiều quan điểm trong một tài liệu duy nhất. Trong khi
mục tiêu của một bản tóm tắt ngắn gọn là để đơn giản hóa việc tìm kiếm thông
tin và giảm thời gian bằng cách tập trung vào hầu hết các tài liệu nguồn có liên
quan. Một cách toàn diện, bản thân tóm tắt đa văn bản đã bao gồm các thông tin

cần thiết, do đó hạn chế sự cần thiết phải truy nhập vào các tập tin ban đầu khi
có yêu cầu về sàng lọc thông tin. Tóm tắt tự động đưa ra các thông tin đã được
trích xuất từ nhiều nguồn thuật toán khác nhau mà không có bất kỳ sự biên tập
hoặc sự can thiệp chủ quan của con người, do đó làm cho nó hoàn toàn không
thiên vị.
Nhiệm vụ tóm tắt đa văn bản đã trở thành phức tạp hơn nhiều hơn so với
nhiệm vụ tóm tắt một văn bản duy nhất. Khó khăn này xuất phát từ việc đa dạng
chuyên đề không thể tránh khỏi trong một tập hợp lớn các tài liệu.
Ý tưởng về hệ thống tóm tắt đa văn bản không chỉ đơn giản là rút ngắn
các văn bản nguồn nhưng trình bày thông tin tổ chức xung quanh các khía cạnh
quan trọng để trình bày những quan điểm đa dạng về chủ đề này. Khi đạt được
chất lượng như vậy, một bản tóm tắt đa văn bản tự động được hiểu là giống như
một cái nhìn tổng quan về một chủ đề đã đưa ra.
1.5.2. Tiêu chuẩn về chất lƣợng của tóm tắt đa văn bản
- Cấu trúc rõ ràng: bao gồm một đề cương về nội dung chính mà từ đó dễ
dàng chuyển đến được các phần nội dung của văn bản đầy đủ.
- Văn bản trong các phần được chia thành các đoạn có ý nghĩa.


16
- Từng bước một có thể chuyển đổi từ nhiều khía cạnh tổng quát đến các
khía cạnh chuyên đề cụ thể hơn.
- Có khả năng đọc tốt (good readability)
1.5.3. Các yêu cầu của tóm tắt đa văn bản:
Có hai loại tình huống trong đó tóm tắt đa văn bản sẽ hữu ích:
- Người sử dụng là phải đối mặt với một tập các tài liệu tương tự nhau và họ
muốn đánh giá một cách tổng quan các thông tin trong tập hợp đó.
- Có một tập hợp các tài liệu về các chủ đề có liên quan với nhau được trích xuất
từ nhiều tập hợp khác nhau là kết quả của một truy vấn hoặc một cụm chủ đề đã
được liên kết.

Trong trường hợp đầu tiên, nếu tập hợp là đủ lớn, nó chỉ có ý nghĩa tới cụm đầu
tiên và phân loại tài liệu. Sau đó, thử hoặc tóm tắt mỗi cụm mà mỗi cụm này có
liên kết chặt chẽ với nhau.
Trong trường hợp thứ hai, có thể xây dựng một bản tóm tắt tổng hợp văn bản có
chứa các điểm chính của chủ đề, được tăng cường bằng thông tin cơ bản không
dự phòng và / hoặc truy vấn có liên quan.
Người sử dụng tìm kiếm thông tin theo các nhu cầu và mục tiêu khác nhau. Khi
một nhóm ba người tạo ra một bản tóm tắt đa văn bản của 10 bài báo về các thử
nghiệm của Microsoft trong một ngày nhất định, một người tóm tắt tập trung
vào các chi tiết được trình bày ở cuộc họp, một người tóm tắt tập trung vào tất
cả các ý kiến của các sự kiện trong ngày, và người thứ ba xem mức độ của các
mục tiêu và kết quả của cuộc thử nghiệm. Như vậy, một ý tưởng tóm tắt đa văn
bản sẽ có thể giải quyết các mức độ chi tiết khác nhau và là khó khăn để hiểu
ngôn ngữ tự nhiên. Một giao diện cho hệ thống tổng hợp nhu cầu để có thể cho
phép người dùng nhập thông tin tìm kiếm mục tiêu, thông qua một truy vấn, một
nền tảng hồ sơ cá nhân quan tâm và / hoặc một cơ chế thông tin phản hồi có liên
quan.
Dưới đây là một danh sách các yêu cầu đối với tóm tắt đa văn bản:
- Phân nhóm: có khả năng phân nhóm để các tài liệu và các đoạn tương tự với
nhau tìm ra được các thông tin liên quan với nhau.
- Khả năng gộp: có khả năng tìm kiếm và trích xuất các điểm chính trên nhiều
văn bản.
- Tránh sự dư thừa: có khả năng làm cho việc dư thừa là tối thiểu giữa các đoạn
trong bản tóm tắt.
- Tiêu chuẩn gắn kết trong bản tóm tắt: khả năng phối hợp các đoạn văn bản
theo cách có lợi cho người đọc. Yêu cầu này có thể bao gồm:


17
+ Trật tự văn bản: Tất cả các đoạn văn bản của tài liệu được xếp hạng

từ cao nhất rồi đến tất cả các đoạn tài liệu tiếp theo xếp hạng thứ 2, v.v
+ Xếp hạng thứ tự: những thông tin đưa ra đầu tiên hầu hết là các
thông tin có ích vì vậy người đọc có thể có được tối đa các nội dung thông
tin ngay cả khi họ dừng lại không đọc bản tóm tắt.
+ Sự gắn kết chủ đề : Nhóm các đoạn văn với nhau bằng cách phân
nhóm chủ đề sử dụng các tiêu chuẩn tương tự giữa các đoạn và trình bày
thông tin bằng cách xếp hạng các nhóm trọng tâm.
+ Thứ tự thời gian: Các đoạn văn bản được xếp thứ tự theo thời gian
dựa trên sự xuất hiện của các sự kiện.
- Sự gắn kết: Các bản tóm tắt được tạo ra có thể đọc được và có liên quan đến
người sử dụng.
- Ngữ cảnh: Bao gồm các ngữ cảnh có khả năng vì vậy người đọc có thể hiểu
được bản tóm tắt.
- Xác định các mâu thuẫn nguồn gốc: Các bài viết thông thường có lỗi (chẳng
hạn như: thay vì viết là tỷ thì lại viết là triệu, vv), tóm tắt đa văn bản phải có khả
năng nhận biết và báo cáo các mâu thuẫn nguồn gốc.
- Cập nhật bản tóm tắt: Một bản tóm tắt đa văn bản mới phải đưa được vào
trong nó bản tóm tắt trước đó. Trong trường hợp này, rất cần hệ thống để theo
dõi và phân loại các sự kiện.
- Một giao diện người dùng có hiệu quả:
+ Attributability: Người dùng muốn có thể truy cập dễ dàng vào một
đoạn văn bản nguồn. Điều này có thể được tóm tắt trên 1 tài liệu.
+ Mối liên hệ: Người dùng muốn xem xét mối liên hệ giữa các đoạn
văn bản nguồn với các đoạn văn bản được hiển thị mà để từ đó có thể nêu
bật sự mâu thuẫn trong văn bản nguồn.
+ Lựa chọn nguồn văn bản: Người dùng muốn có thể lựa chọn hoặc
loại bỏ các thông tin khác khau. Ví dụ, người dùng có thể muốn loại bỏ
các thông tin từ một số báo cáo tin tức nước ngoài thiếu tin cậy.
+ Bối cảnh: Người dùng muốn có thể “phóng to” trong phạm vi xung
quanh các đoạn văn được lựa chọn.

+ Redirection: Người dùng sẽ có thể làm nổi bật một phần nào đó
của tóm tắt tổng hợp và đưa ra một lệnh tới hệ thống đã chỉ ra.
1.6. Bài toán tóm tắt ý kiến đánh giá về sản phẩm từ nhiều ngƣời
dùng.


18
Hiện nay, có 2 hình thức lấy ý kiến của khách hàng về sản phẩm rất phổ
biến trên các trang web thương mại:
- Nhà sản xuất đưa ra một mẫu đánh giá trước cho người dùng, người dùng
chỉ có thể đánh giá theo các phương án đã có sẵn.
Ví dụ: Bạn thấy giao diện của điện thoại Nokia hiện tại mà bạn đang dùng có
tiện lợi hay không?
a. Có tiện lợi
b. Không tiện lợi
c. Không có ý kiến gì
Khách hàng nếu muốn đánh giá chỉ có thể chọn 1 trong 3 phương án đã
cho trước như vậy. Nếu có nhiều khách hàng cùng đánh giá, thì phía nhà sản
xuất sản phẩm có thể đưa ra được bản tóm tắt cuối cùng bao gồm: số người
(phần trăm người) chọn phương án a (tích cực), số người (phần trăm người)
chọn phương án b (tiêu cực), số người (phần trăm người) chọn phương án c
(trung lập).
Bản tóm tắt như ở trên thường được thực hiện khi nhà sản xuất đã tung
một sản phẩm mới ra thị trường và nhà sản xuất cần thăm dò ý kiến của
khách hàng về sản phẩm mới của họ. Tuy nhiên, nếu nhà sản xuất muốn phát
triển sản phẩm thì rất khó để phát hiện các khách hàng đang cần gì ở sản
phẩm của mình.
- Nhà sản xuất đưa ra một câu hỏi về sản phẩm và khách hàng có thể tự đưa
ra, tự viết các ý kiến đánh giá liên quan đến sản phẩm đó.
Ví dụ: Bạn hãy đánh giá điện thoại Nokia hiện tại mà bạn đang dùng?

Khách hàng có thể đánh giá như sau:
- Tôi thấy điện thoại Nokia này có chất lượng pin rất tốt.
- Giá cả của chiếc điện thoại Nokia này rất hợp lý.

Phía nhà sản xuất tập hợp các ý kiến đã đánh giá của khách hàng theo
cách: những khía cạnh nào của sản phẩm được đánh giá nhiều nhất sẽ được
xếp ở trên và cứ lần lượt như vậy.
Với bản tóm tắt này thì nhà sản xuất hoàn toàn có thể biết được khách
hàng đang hài lòng về khía cạnh (mặt) nào của sản phẩm (nhiều khách hàng
đánh giá) và cần phát triển về khía cạnh (mặt) nào của sản phẩm trong thế hệ
sản phẩm tiếp theo.
Trong bản luận văn này tập trung và cách đánh giá thứ 2.
Như vậy, có thể phát biểu một cách ngắn gọn bài toán tóm tắt ý kiến về
sản phẩm từ nhiều người dùng như sau:


19
Input: Cho trước một tập hợp các văn bản đánh giá (là tập hợp nhiều ý kiến đánh
giá về 1 sản phẩm cụ thể từ nhiều khách hàng, mỗi khách hàng cho 1 hay nhiều
ý kiến về 1 sản phẩm cụ thể cho trước)
Output: Sinh ra 1 bản tóm tắt, trong đó các khía cạnh của sản phẩm được đánh
giá được sắp theo thứ tự từ đánh giá nhiều nhất đến ít nhất. Đồng thời đưa ra
được những ý kiến tương ứng với các khía cạnh của sản phẩm đã được đánh giá.




20
Chƣơng 2 - KIẾN THỨC CƠ SỞ
2.1. Khai thác ý kiến

2.1.1. Định nghĩa
Cho 1 tập các văn bản đánh giá D có chứa các ý kiến (các quan điểm) về
một đối tượng. Khai thác ý kiến nhằm mục đích trích xuất các thuộc tính và các
thành phần của đối tượng đã được đánh giá trong mỗi văn bản d D và xác định
các ý kiến bình luận là tích cực, tiêu cực hay trung lập.
2.1.2. Bối cảnh lịch sử
Văn bản thông tin trên thế giới có thể được phân loại thành hai loại chính:
sự kiện và ý kiến. Văn bản sự kiện là các báo cáo khách quan về các thực thể và
các sự kiện trên thế giới. Văn bản ý kiến là các báo cáo chủ quan phản ánh quan
điểm hay nhận thức của người dân về các thực thể và các sự kiện. Phần lớn các
nghiên cứu trước đây về xử lý thông tin văn bản hầu như chỉ tập trung vào khai
thác và thu nhận các thông tin thực tế, ví dụ: truy vấn thông tin, tìm kiếm Web,
khai thác văn bản, xử lý ngôn ngữ tự nhiên. Tuy nhiên, các ý kiến là rất quan
trọng để đưa ra quyết định. Điều này không chỉ đúng cho các cá nhân mà cũng
đúng đối với tổ chức.
Trước khi có Web, khi một cá nhân cần phải đưa ra quyết định, anh ta/cô
ta thường hỏi ý kiến từ bạn bè và gia đình. Khi một tổ chức cần lấy ý kiến của
công chúng về sản phẩm và dịch vụ của mình, tổ chức đó thường tiến hành khảo
sát và tập trung vào các nhóm. Với Web, đặc biệt là với sự bùng nổ nhanh chóng
của người sử dụng tạo ra nội dung trên Web, thế giới đã được thay đổi. Mỗi
người có thể đưa các ý kiến về sản phẩm lên các trang web kinh doanh và thể
hiện quan điểm trên hầu hết các lĩnh vực trong các diễn đàn Internet, các nhóm
thảo luận và blog. Giờ đây, khi muốn mua một sản phẩm, người ta không cần
thiết phải hỏi ý kiến bạn bè và gia đình bởi vì có rất nhiều ý kiến của người dùng
đã từng sử dụng sản phẩm được cung cấp ở trên trang web. Đối với một công ty,
có thể không cần phải tiến hành việc khảo sát mà tổ chức tập trung thành các
nhóm hoặc tận dụng tư vấn bên ngoài để tìm ra ý kiến của người tiêu dùng hay
quan điểm về các sản phẩm của công ty hay các sản phẩm của các đối thủ cạnh
tranh.
Tuy nhiên, việc tìm ra được nguồn ý kiến và giám sát chúng trên Web vẫn có

thể là một nhiệm vụ khó khăn bởi vì có một số lượng lớn các nguồn khác nhau
tồn tại trên web và từng nguồn lại chứa một khối lượng thông tin khổng lồ.
Trong nhiều trường hợp, ý kiến được ẩn trong các bài viết được đưa lên diễn đàn


21
và blog. Nó gây ra khó khăn cho người đọc để tìm kiếm các nguồn có liên quan,
trích xuất câu thích hợp, đọc chúng, tổng hợp và tổ chức chúng thành các hình
thức thích hợp. Như vậy, một hệ thống tóm tắt và khai thác ý kiến tự động là cần
thiết. Khai thác ý kiến còn được gọi là phân tích quan điểm được phát triển từ
nhu cầu này. Trong phần tiếp theo, xin đưa ra một số nội dung:
- Mô hình trừu tượng của khai thác ý kiến
- Phân loại quan điểm
- Tóm tắt và khai thác ý kiến dựa vào các thuộc tính
- Khai thác ý kiến từ những câu so sánh
2.1.3. Các cơ sở khoa học
Mô hình khai thác ý kiến
Nhìn chung, các ý kiến có thể được thể hiện trên bất cứ điều gì, ví dụ như
một sản phẩm, một dịch vụ, một chủ đề, một cá nhân, một tổ chức hoặc một sự
kiện. Thuật ngữ đối tượng được sử dụng để biểu diễn cho các thực thể ở trên.
Một đối tượng có một tập các thành phần (hoặc các bộ phận) và một tập các
thuộc tính (feature). Mỗi thành phần lại có thể có một tập các thành phần con và
một tập các thuộc tính con. Và như vậy, một đối tượng có thể được phân cấp
theo thứ tự dựa trên một phần của mối quan hệ.
Định nghĩa đối tượng: Một đối tượng O là một thực thể (có thể là một sản
phẩm, một chủ đề, một người, một sự kiện hoặc một tổ chức).
Đó là cặp O: (T, A)
trong đó:
- T là một hệ thống phân cấp hoặc phân loại của các thành phần (hoặc các bộ
phận) và các thành phần con của O.

- A là một tập hợp các thuộc tính của O. Mỗi thành phần lại có các tập thành
phần con và tập các thuộc tính con.
Một đối tượng có thể được biểu diễn dưới dạng 1 cây trong đó: gốc là đối
tượng. Mỗi nút không phải nút gốc là một thành phần hoặc thành phần con của
đối tượng. Mỗi liên kết biểu diễn một mối quan hệ. Mỗi nút được liên kết với
một tập các thuộc tính. Một ý kiến có thể được thể hiện trên bất kỳ nút nào và
bất kỳ thuộc tính nào của nút.
Tuy nhiên, đối với một người dùng bình thường, có lẽ là quá phức tạp để
sử dụng một đại diện phân cấp (cây). Để đơn giản hóa thì không sử dụng cấu
trúc cây phân cấp. Từ “thuộc tính” (feature) được sử dụng để đại diện cho cả các
thành phần và các thuộc tính. Sử dụng các thuộc tính cho các đối tượng (đặc biệt
là sản phẩm) là khá phổ biến trong thực tế. Lưu ý rằng trong định nghĩa này, đối
tượng chính là một tính năng, đó là nút gốc của cây.


22
Lấy một văn bản đánh giá d, có thể là đánh giá sản phẩm, mà một diễn đàn hoặc
blog đánh giá về một đối tượng đặc biệt O. Trong trường hợp tổng quát, d bao
gồm một chuỗi các câu d = <s1, s2, , sm >.
Định nghĩa thuộc tính rõ ràng và thuộc tính ẩn: Nếu thuộc tính f xuất hiện
trong tài liệu đánh giá d thì thuộc tính f được gọi là thuộc tính rõ ràng trong d.
Ví dụ: “Tuổi thọ của pin của máy ảnh này là rất ngắn”. (Thuộc tính rõ ràng:
tuổi thọ của pin)
“Máy ảnh này quá to” (Thuộc tính ẩn: kích thước)
Định nghĩa ý kiến thông qua một thuộc tính: thông qua ý kiến về một thuộc
tính f của đối tượng O được đánh giá trong d là một nhóm các câu liên tiếp trong
d thể hiện một quan điểm tích cực hay tiêu cực về f.
Điều này có nghĩa là có thể là một chuỗi các câu (ít nhất là một) cùng thể hiện
một ý kiến về một đối tượng hoặc một tính năng của đối tượng. Nó cũng có thể
là một câu thể hiện ý kiến về nhiều thuộc tính.

Ví dụ: “chất lượng hình ảnh của máy ảnh này là tốt, nhưng tuổi thọ pin thì
ngắn”.
Định nghĩa Ý kiến rõ ràng và ý kiến ẩn):
- Ý kiến rõ ràng: thường là một câu chủ quan.
Ví dụ: "Chất lượng hình ảnh của máy ảnh này là tuyệt vời."
- Ý kiến ẩn: một câu khách quan.
Ví dụ: "Tai nghe đã bị hỏng hai ngày nay"
Định nghĩa người đánh giá: Người đánh giá cụ thể là một người hoặc một tổ
chức đưa ra ý kiến đánh giá đó.
Trong trường hợp các ý kiến về sản phẩm được đăng tải trên diễn đàn và blog,
người đánh giá thường là các tác giả của các bài viết. Những người đánh giá
thường rất quan trọng trong các bài báo vì họ thường tuyên bố một cách rõ ràng
về cá nhân hay tổ chức đưa ra ý kiến đó. Ví dụ, người đánh giá ở trong câu
“John bày tỏ sự bất đồng về hiệp ước” chính là "John".
Định nghĩa (định hướng ngữ nghĩa của một ý kiến): Định hướng ngữ nghĩa
của một ý kiến về một tính năng f là ý kiến tích cực, tiêu cực hoặc trung lập.
Với mô hình cho một đối tượng và một tập các ý kiến dựa vào thuộc tính của đối
tượng ta có thể định nghĩa mô hình khai thác ý kiến dựa trên thuộc tính.
Mô hình khai thác ý kiến dựa trên thuộc tính:
Cho một đối tượng O và một tập hữu hạn các thuộc tính F = {f1, f2, ,
fn}, trong đó bao gồm các đối tượng chính nó. Mỗi thuộc tính fi F có thể được
biểu diễn với một tập hợp hữu hạn các từ hay các cụm từ Wi là từ đồng nghĩa.
Đó là một tập hợp các từ đồng nghĩa tương ứng với bộ W ={W1, W2, , Wn}


23
cho n thuộc tính. Trong một văn bản đánh giá d đánh giá đối tượng O, một
người đánh giá j bình luận về một tập con các thuộc tính Sj F. Với mỗi thuộc
tính fk Sj mà người đánh giá j bình luận, anh/chị hãy chọn một từ hoặc cụm từ
từ tập Wk để mô tả thuộc tính này, và sau đó biểu diễn một ý kiến là tích cực,

tiêu cực hoặc trung lập trên fk. Nhiệm vụ khai thác ý kiến là tìm ra tất cả những
thông tin đã bị ẩn từ văn bản d đã cho.
Đầu ra của quá trình khai thác ý kiến: Cho một văn bản đánh giá d, kết quả khai
thác là một tập hợp gồm 4 thành phần (H, O, f, SO), trong đó H là người đánh
giá, O là các đối tượng, f là một thuộc tính của đối tượng và SO là định hướng
ngữ nghĩa của các ý kiến đã được biểu diễn trên thuộc tính f trong một câu của
d. Ý kiến trung lập bị bỏ qua ở trong đầu ra vì chúng thường không có ích.
Cho một tập hợp các văn bản đánh giá D có chứa các ý kiến về một đối tượng,
mô hình này giới thiệu ba bài toán chính trong thực tế như sau:
- Bài toán 1: F và W là chưa biết.
Như vậy, trong khai thác ý kiến, ta cần phải thực hiện ba nhiệm vụ:
+ Nhiệm vụ 1: Xác định và trích chọn các thuộc tính của đối tượng đã được
nhận xét trong mỗi văn bản đánh giá d D.
+ Nhiệm vụ 2: Xác định các ý kiến là tích cực, tiêu cực hoặc trung lập.
+ Nhiệm vụ 3: Nhóm các từ đồng nghĩa của các thuộc tính, như những người
khác nhau có thể sử dụng các từ hoặc cụm từ khác nhau để đánh giá về cùng một
thuộc tính.
- Bài toán 2: Cho biết F nhưng W là không biết.
Nhiệm vụ 3 trở thành bài toán kết hợp các thuộc tính đã được phát hiện với tập
thuộc tính F đã cho.
- Bài toán 3: Cho biết W (sau đó F cũng được biết ).
Chỉ cần thực hiện nhiệm vụ 2.
Ví dụ :
Một công ty điện thoại di động muốn khai thác ý kiến đánh giá của khách hàng
về một vài mô hình điện thoại của công ty. Như vậy, không cần phải thực hiện
nhiệm vụ 1 và 3.
Đầu ra: kết quả cuối cùng là một tập các cặp. Mỗi cặp được ký hiệu là (f, SO),
trong đó f là một thuộc tính và SO là định hướng ngữ nghĩa.
Tóm tắt ý kiến: Có nhiều cách được sử dụng để khai thác các kết quả. Một cách
đơn giản là tạo một bản tóm tắt dựa trên thuộc tính của đối tượng của các ý kiến.




24

Hình 1: Một ví dụ về tóm tắt ý kiến dựa trên thuộc tính
Hình 1 ở trên là tóm tắt các ý kiến trong một tập các đánh giá về một sản
phẩm cụ thể: máy ảnh kỹ thuật số, digital_camera_1. Trong hình trên,
"CAMERA" chính là đại diện cho máy ảnh (nút gốc của hệ thống phân cấp đối
tượng). Có 125 ý kiến bày tỏ là tích cực và 7 ý kiến bày tỏ là tiêu cực về
CAMERA. “Picture quality” và "size" là hai thuộc tính của sản phẩm. 123 ý
kiến bày tỏ là tích cực về “Picture quality”, và chỉ có 6 ý kiến bày tỏ là tiêu cực
về các thuộc tính này. Các điểm cho các câu cụ thể và/hoặc toàn bộ đánh giá
cung cấp cho các ý kiến tích cực hay tiêu cực về thuộc tính. Với tóm tắt như
vậy, người sử dụng có thể dễ dàng nhìn thấy khách hàng hiện tại cảm nhận thế
nào về máy ảnh kỹ thuật số. Nếu anh ta/cô ta quan tâm đến một thuộc tính cụ
thể, anh/cô ta có thể đi sâu vào các liên kết để xem lý do tại sao các khách hàng
hiện tại thích hoặc/và không thích nó.

Hình 2: Tóm tắt các ý kiến dựa vào thuộc tính của máy ảnh kỹ thuật số

Hình 3: So sánh các ý kiến đánh giá về 2 máy ảnh kỹ thuật số.


25
Bản tóm tắt trong hình 1 có thể được dễ dàng hình dung hơn bằng cách sử
dụng một biểu đồ hình cột (Hình 2). Trong hình, mỗi cột ở phía trên trục X cho
biết số ý kiến tích cực về một thuộc tính (được liệt kê ở trên), và phần phía dưới
trục X cho biết số ý kiến tiêu cực về các thuộc tính đó. Ví dụ, người ta có thể chỉ
ra tỷ lệ phần trăm của các ý kiến tích cực (hay tiêu cực) trên mỗi thuộc tính.

Hình 3 là hình ảnh so sánh trực quan của ý kiến người tiêu dùng về hai máy ảnh
kỹ thuật số. Rất rõ ràng để người dùng thấy được sự khác biệt giữa các thuộc
tính của mỗi máy ảnh.
Phân loại quan điểm
Phân loại quan điểm đã được nghiên cứu rộng rãi trong lĩnh vực xử lý
ngôn ngữ tự nhiên (NLP). Nó được định nghĩa như sau: Cho một tập các văn
bản đánh giá D, xác định xem mỗi văn bản d D thể hiện một ý kiến tích cực
hoặc tiêu cực (hoặc quan điểm) trên một đối tượng. Ví dụ, cho một tập hợp các
đánh giá về một bộ phim, hệ thống sẽ phân loại chúng thành những đánh giá tích
cực và những đánh giá tiêu cực. Rõ ràng, đây là vấn đề phân loại học tập. Nó là
tương tự nhưng cũng khác với lớp các phân loại văn bản dựa trên cấu trúc chủ
đề, các lớp này đã phân loại văn bản vào các lớp chủ đề đã được định nghĩa
trước, ví dụ như: chính trị, khoa học, thể thao Trong phân loại dựa trên cấu
trúc chủ đề, các từ liên quan đến chủ đề là rất quan trọng. Tuy nhiên, trong phân
loại quan điểm thì các từ liên quan đến chủ đề lại không quan trọng. Thay vào
đó, các từ ý kiến biểu thị cho ý kiến tích cực hay tiêu cực lại là quan trọng, ví dụ
như: tuyệt vời, quá tuyệt vời, khủng khiếp, xấu, tồi tệ nhất v.v. Hầu hết các kỹ
thuật hiện nay áp dụng một số hình thức của công nghệ học máy để phân loại.
Các thuật toán cũng được thiết kế để phân loại quan điểm, khai thác các từ và
cụm từ ý kiến và cùng với một số chức năng.
Phân loại này được cho là ở mức tài liệu vì nó cho rằng mỗi tài liệu là một đơn
vị thông tin cơ bản. Phân loại quan điểm do đó có các giả định sau đây: Mỗi tài
liệu đánh giá (ví dụ: một đánh giá) tập trung vào một đối tượng duy nhất O và
bao gồm các ý kiến của một người giữ ý kiến duy nhất. Từ mô hình khai thác ý
kiến của một đối tượng O ở trên, chính nó cũng là một thuộc tính (nút gốc của
hệ thống phân cấp đối tượng), tình cảm quan điểm cơ bản xác định định hướng
ngữ nghĩa có ý kiến đã bày tỏ trên O trong mỗi tài liệu đánh giá mà đáp ứng các
giả thiết ở trên.
Ngoài việc phân loại quan điểm ở cấp tài liệu, các nhà nghiên cứu cũng đã
nghiên cứu phân loại ở mức độ câu, tức là, phân loại từng câu như một câu chủ

quan hoặc khách quan và/hoặc thể hiện một ý kiến tích cực hay tiêu cực. Cũng
giống như việc phân loại tài liệu, phân loại quan điểm ở cấp câu không xem xét


26
các thuộc tính của đối tượng đã được nhận xét trong một câu. Các câu ghép cũng
là một vấn đề. Một câu như vậy thường thể hiện nhiều hơn một ý kiến, ví dụ
như: chất lượng hình ảnh của máy ảnh này là tuyệt vời và do đó tuổi thọ pin
được lâu nhưng ống kính thì quá nhỏ".
Khai thác ý kiến dựa vào thuộc tính
Phân loại văn bản đánh giá ở mức tài liệu hoặc mức câu không nói rõ
người đưa ra ý kiến thích hay không thích cái gì. Một tài liệu tích cực trên một
đối tượng không có nghĩa rằng người đưa ra ý kiến có ý kiến tích cực trên tất cả
các khía cạnh hoặc các thuộc tính của đối tượng. Tương tự như vậy, một tài liệu
tiêu cực không có nghĩa rằng người giữ ý kiến không thích mọi thứ của đối
tượng. Trong một tài liệu đánh giá (ví dụ: đánh giá một sản phẩm), người giữ ý
kiến thường viết cả hai khía cạnh tích cực và tiêu cực của đối tượng, mặc dù
quan điểm chung về đối tượng có thể là tích cực hay tiêu cực. Để có được các
khía cạnh chi tiết như vậy, việc tiến đến mức độ thuộc tính là rất cần thiết. Dựa
trên mô hình đã được đưa ra trước đây, có ba nhiệm vụ khai thác chính là:
1. Xác định các thuộc tính của đối tượng: Ví dụ, trong câu "chất lượng hình ảnh
của máy ảnh này là tuyệt vời” thì thuộc tính của đối tượng là "chất lượng hình
ảnh". Phương pháp khai phá sử dụng mô hình không giám sát được sử dụng. Kỹ
thuật này về cơ bản là tìm kiếm các danh từ và cụm danh từ thường xuyên như
các thuộc tính, mà thường là thuộc tính đích thực. Rõ ràng, rất nhiều kỹ thuật
khai thác thông tin cũng được áp dụng, ví dụ như: các lĩnh vực có điều kiện
ngẫu nhiên (CRF), mô hình Markov ẩn (HMM), và nhiều lĩnh vực khác.
2. Định hướng ý kiến: Nhiệm vụ này xác định các ý kiến về các thuộc tính của 1
đối tượng là tích cực, tiêu cực hay trung lập. Trong câu trên, các ý kiến về "chất
lượng hình ảnh" là tích cực. Với bước này, có thể thực hiện theo nhiều cách tiếp

cận khác nhau. Cách tiếp cận dựa trên từ vựng đã được thực hiện khá tốt. Cách
tiếp cận dựa trên từ vựng cơ bản sử dụng các từ và cụm từ ý kiến trong mỗi câu
để định hướng cho ý kiến về một thuộc tính. Các phương pháp học có giám sát
khác nhau là các phương pháp tiếp cận có thể là tốt hơn.
3. Nhóm các từ đồng nghĩa: Các thuộc tính của cùng một đối tượng có thể được
thể hiện bằng các từ hoặc cụm từ khác nhau. Ở nhiệm vụ này sẽ tiến hành nhóm
những từ đồng nghĩa lại với nhau.
Khai thác các câu so sánh.
Việc trực tiếp thể hiện ý kiến tích cực hay tiêu cực trên một đối tượng
hoặc các thuộc tính của nó chỉ là một hình thức đánh giá. So sánh các đối tượng
với một số đối tượng tương tự khác là tương tự như vậy. Sự so sánh có khác
nhau từ ý kiến trực tiếp. Ví dụ, một câu đánh giá tiêu biểu là "chất lượng hình


27
ảnh của máy ảnh x là rất tốt". Một câu so sánh tiêu biểu là "chất lượng hình ảnh
của máy ảnh x là tốt hơn so với máy ảnh y". Nói chung, một câu so sánh thể
hiện mối quan hệ dựa trên sự giống nhau và khác nhau của nhiều đối tượng.
Khai thác câu so sánh về cơ bản bao gồm việc nhận biết những thuộc tính nào và
những đối tượng nào đã được so sánh
2.2. Khai phá luật kết hợp (Assocition Rules)
2.2.1. Giới thiệu
Với việc sử dụng máy quét, các siêu thị lớn và các cửa hàng đã thu thập
được một số lượng lớn các hồ sơ giao dịch của khách hàng trong cơ sở dữ liệu
của họ. Mỗi bản ghi là một danh sách tất cả các mặt hàng đã mua của một khách
hàng trên một giao dịch mua duy nhất. Người quản lý sẽ quan tâm đến việc có
một số các mặt hàng luôn được mua cùng với nhau.
Một doanh nghiệp có thể sử dụng kiến thức về các mô hình mua bán để cải thiện
vị trí của các mặt hàng này trong các cửa hàng hoặc bố trí các trang thư đặt hàng
và các trang web.

Nhu cầu này đã dẫn đến sự phát triển của các kỹ thuật mà tự động tìm
kiếm sự kết hợp giữa các mặt hàng đã được lưu trữ trong cơ sở dữ liệu. Luật kết
hợp là một trong những kỹ thuật phổ biến nhất của khai thác dữ liệu cho các mô
hình khám phá địa phương trong các hệ thống học không giám sát.
Một giỏ hàng đề cập đến một tập hợp các mặt hàng được mua bởi một khách
hàng trong một lần giao dịch duy nhất. Ở đây, ta không quan tâm đến số lượng
các mặt hàng của một loại được mua trong một giao dịch mà chỉ quan tâm đến
các loại mặt hàng khác nhau nào đã được mua cùng nhau.
Mục đích là để tìm ra tập các mặt hàng (itemsets) mà xuất hiện cùng nhau trong
nhiều giao dịch. Nói cách khác là, muốn khám phá những sự kết hợp quan trọng
giữa các mặt hàng mà sự hiện diện của một số mặt hàng trong một giao dịch sẽ
bao hàm sự hiện diện của một số mặt hàng khác trong cùng một giao dịch. Các
luật kết hợp cung cấp thông tin dưới hình thức các câu lệnh if-then. Các quy tắc
này được tính toán từ các dữ liệu, và không giống như các quy tắc if-then của
logic, các luật kết hợp là xác suất trong tự nhiên. Trong liên kết phân tích tiền đề
(if là một phần của các câu lệnh If-then) và kết quả (phần then) thì tập các mặt
hàng là rời nhau (không có bất kỳ một mặt hàng nào là chung). Ngoài các tiền
đề và kết quả, một luật kết hợp có hai con số quan trọng biểu diễn mức độ có ích
và không chắc chắn về nguyên tắc. Hai con số này phải được xác định trước bởi
các chuyên gia đã biết rõ về doanh nghiệp.

×