Tải bản đầy đủ (.pdf) (43 trang)

Luận văn thạc sĩ trích chọn và xếp hạng đặc trưng sản phẩm trong phân tích quan điểm 01

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (490.96 KB, 43 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ BÍCH NHẬT

TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƯNG SẢN PHẨM
TRONG PHÂN TÍCH QUAN ĐIỂM

LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN

Hà Nội, năm 2015

z


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ BÍCH NHẬT

TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƯNG SẢN PHẨM
TRONG PHÂN TÍCH QUAN ĐIỂM

Chun ngành: Khoa học máy tính
Mã số:60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: PGS. TS. Lê Anh Cường

XÁC NHẬN CỦA CTHĐ


XÁC NHẬN CỦA GVHD

PGS. TS. Phạm Bảo Sơn

PGS. TS. Lê Anh Cường

Hà Nội, năm 2015

z


1
LỜI CAM ĐOAN
Tôi xin cam đoan:
(i) Luận văn này là sản phẩm nghiên cứu của tôi,
(ii) Số liệu trong luận văn được điều tra trung thực,
(iii) Tôi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên

Nguyễn Thị Bích Nhật

z


2
LỜI CẢM ƠN
Tơi xin bày tỏ lịng biết ơn sâu sắc đến thầy hướng dẫn của tơi, Phó giáo sư Tiến sĩ Lê Anh Cường. Thầy đã cho tôi cơ hội quý giá để theo đuổi nghiên cứu trong
lĩnh vực mình u thích. Trong suốt q trình thực hiện luận văn, thầy đã hướng dẫn
tận tình cho tơi, đồng thời thầy đã cung cấp những kiến thức, tài liệu cần thiết để tơi có
thể hồn thành luận văn của mình. Đó là một vinh dự cho tơi khi nhận được bằng Thạc

sỹ này.
Tôi cũng xin chân thành cảm ơn các thầy cô giáo trong Khoa Công nghệ Thông
tin, Đại học Công nghệ - Đại học Quốc gia Hà Nội đã truyền đạt cho tôi những kiến
thức và kinh nghiệm vô cùng q báu trong q trình học tập và nghiên cứu.
Tôi muốn cảm ơn các bạn cùng lớp và các đồng nghiệp đã cho tơi những lời
động viên, những góp ý và sự hỗ trợ chuyên môn vô cùng quý báu.
Cuối cùng, tơi xin cảm ơn gia đình, bạn bè, những người đã luôn bên cạnh động
viên và ủng hộ tôi.

z


3
MỤC LỤC
DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH VẼ ...................................................................... 4
CÁC KÍ HIỆU VÀ CỤM TỪ VIẾT TẮT .............................................................................. 5
TĨM TẮT ............................................................................................................................. 6
CHƯƠNG 1: GIỚI THIỆU .................................................................................................... 8

1.1. Các khái niệm cơ bản về khai phá quan điểm.................................................... 8
1.3. Bài tốn trích chọn thuộc tính ......................................................................... 12
1.4. Mục tiêu của luận văn ..................................................................................... 13
CHƯƠNG 2: TRÍCH CHỌN THUỘC TÍNH ....................................................................... 15

2.1. Mơ hình chung cho bài tốn phân tích quan điểm ........................................... 15
2.2. Dữ liệu............................................................................................................ 15
2.3. Phương pháp trích chọn thuộc tính................................................................. 16
2.3.1. Phương pháp lan truyền kép .................................................................... 16
2.3.2. Phương pháp trích chọn dựa vào quan hệ bộ phận - tồn bộ, mẫu “No”…20
2.4. Trích chọn đặc trưng trong văn bản đánh giá bằng Tiếng Việt ........................ 21

CHƯƠNG 3: THUẬT TỐN HITS SẮP XẾP THUỘC TÍNH ............................................ 25

3.1. Đồ thị hai phía và thuật tốn HITS.................................................................. 25
3.2. Phân loại thuộc tính ........................................................................................ 27
3.3. Sắp xếp thuộc tính .......................................................................................... 28
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................................. 30

4.1. Môi trường thực nghiệm ................................................................................. 30
4.2. Xây dựng tập dữ liệu ...................................................................................... 30
4.3. Các bước thực hiện ......................................................................................... 31
4.4. Kết quả thực nghiệm ...................................................................................... 31
KẾT LUẬN ......................................................................................................................... 34
PHỤ LỤC ............................................................................................................................ 35
DANH MỤC TÀI LIỆU THAM KHẢO .............................................................................. 40

z


4
DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH VẼ
Hình 1. Mơ hình chung cho bài tốn phân tích quan điểm ………………………..17
Hình 2.Quan hệ trực tiếp và quan hệ gián tiếp …………………………………….19
Hình 3. Các luật để trích từ quan điểm và thuộc tính ……………………………...20
Hình 4. Thuật tốn lan truyền kép …………………………………………………22
Hình 5. Mối quan hệ giữa chỉ số thuộc tính và thuộc tính …………………………39
Hình 6. Thuật tốn HITS ………………………..………………………………….31
Hình 7. Các bước thực nghiệm ………………………..……………………………33
Bảng 1. Danh sách xếp hạng 10 thuộc tính ………………………..……………… 34
Bảng 2. Bộ 10 thuộc tính ………………………..………………………..……… 35
Bảng 3. Bộ 20 thuộc tính ………………………..………………………..……… 35

Bảng 4. Bộ 30 thuộc tính………………………..………………………..……… 35

z


5
CÁC KÍ HIỆU VÀ CỤM TỪ VIẾT TẮT

STT

Từ viết tắt

1

HMM

Mơ hình Markov ẩn ( hidden Markov model)

2

NER

Nhận dạng tên thực thể (Named Entity Recognition)

3

POS

Gán nhãn từ (Part – of – speech)


4

CRF

Mơ hình trường ngẫu nhiên có điều kiện
(Conditional random field)

5

DR

Quan hệ trực tiếp (Direct Relation)

IR

Quan hệ gián tiếp (Indirect Relation)

7

DP

Lan truyền kép (Double Propagation)

8

HITS

6

Ý nghĩa


Tìm kiếm dựa vào siêu liên kết (hyperlink-induced
topic search)

z


6
TĨM TẮT
Với sự phát triển nhanh chóng và phong phú của Web, nhiều hình thức kết nối, chia
sẻ, trao đổi thơng tin xuất hiện trên các diễn đàn, nhóm thảo luận và những trang mạng
xã hội như blog, facebook … Web đã thay đổi đáng kể cách thức người dùng bày tỏ
quan điểm trên internet. Chúng ta có thể dễ dàng bắt gặp những ý kiến, cảm nghĩ, nhận
xét, đánh giá của người dùng về một sản phẩm mà họ đã sử dụng. Tất cả được gọi
chung là nội dung do người dùng tạo ra. Xu hướng này đã tạo ra một lượng khổng lồ
những nguồn thơng tin hữu ích có thể đo lường được và có nhiều ứng dụng trong thực
tế. Ví dụ một người muốn mua sản phẩm, họ khơng bị giới hạn bởi các góp ý của bạn
bè và gia đình mình vì có rất nhiều đánh giá về sản phẩm trên các trang web. Còn đối
với các công ty, họ không nhất thiết phải tốn nhiều chi phí để mở các cuộc thăm dị
khảo sát hoặc thuê tư vấn bên ngoài để thu thập ý kiến khách hàng bởi vì các dữ liệu
do người dùng tạo ra có thể cung cấp cho họ đầy đủ những thông tin này.
Trong nhiều năm trở lại đây, lĩnh vực khai phá thông tin và tri thức đã phát triển
một bài toán nghiên cứu mới là khai phá và phân tích quan điểm. Bài tốn này có ý
nghĩa rất quan trọng trong thương mại điện tử, trong kinh tế, chính trị, xã hội hóa.
Bài tốn khai phá quan điểm đang được các nhà khoa học nghiên cứu với các chủ
đề khác nhau. Mối quan tâm nhiều nhất tập trung vào chủ đề tìm và lọc ra bài viết giả
(spam) nhằm làm hỏng danh tiếng sản phẩm, dịch vụ…hoặc với mục đích quảng cáo
để bán sản phẩm, dịch vụ. Sau đó, những bài viết này sẽ được phân loại ra câu chủ
quan, câu khách quan nhằm tìm ra ý kiến của người dùng về sản phẩm là tích cực hay
tiêu cực, thích hay khơng thích. Ngồi ra, khai phá quan điểm cịn giải quyết các bài

tốn xác định tên, xác định thuộc tính, xác định câu đánh giá quan trọng…
Sản phẩm rất phong phú, đa dạng. Ứng với mỗi sản phẩm lại có những tính năng và
thuộc tính khác nhau và chúng luôn được thay đổi theo hướng ngày càng hiện đại và
đa dạng hơn. Việc xác định thuộc tính theo các phương pháp truyền thống ngày càng
trở nên khó khăn hơn. Vì vậy việc nghiên cứu và phát triển một hệ thống tự động phát
hiện ra thuộc tính sản phẩm trong mơi trường internet là rất cần thiết.
Trích chọn đặc trưng sản phẩm là bài toán rất quan trọng trong khai phá và phân
tích quan điểm. Một câu nhận xét có rất nhiều đặc trưng, trong giới hạn của luận văn
này chỉ tập trung vào việc trích chọn ra thuộc tính của sản phẩm và xếp hạng theo mức
độ quan trọng của các thuộc tính.

z


7
Chúng ta xét ví dụ sau :
“I bought a Sony camera yesterday, and its picture quality is great”.
Hệ thống phân tích quan điểm tự động sẽ xác định được quan điểm của thuộc tính
chất lượng hình ảnh. Ở đây, Sony camera là thực thể cịn picture quality là thuộc tính
của thực thể Sony camera.
Trong luận văn này, tôi đi sâu vào nghiên cứu bài tốn trích chọn và sắp xếp thuộc
tính các của sản phẩm. Điều này có ý nghĩa rất quan trọng với dữ liệu mới hoặc không
xác định trước miền. Bằng việc nghiên cứu, phân tích các phương pháp đã được áp
dụng trước đó, tơi lựa chọn trích chọn thuộc tính bằng phương pháp lan truyền kép,
quan hệ toàn bộ - bộ phận, mẫu “No” và sử dụng thuật tốn HITS để xếp hạng thuộc
tính sau khi đã được trích chọn.

z



8
CHƯƠNG 1: GIỚI THIỆU
1.1. Các khái niệm cơ bản về khai phá quan điểm
Quan điểm về sản phẩm, dịch vụ, một cá nhân, một tổ chức, sự kiện, chủ đề được
thể hiện bởi con người hoặc tổ chức. Thuật ngữ thực thể để chỉ đối tượng mục tiêu cần
đánh giá. Một thực thể bao gồm tập các thành phần và tập các thuộc tính. Mỗi thành
phần lại có các thành phần con và các thuộc tính của nó. Do đó, BingLiu [5] đã định
nghĩa thực thể như sau:
Thực thể (entity): Một thực thể là một sản phẩm, dịch vụ, người, sự kiện, tổ chức
hoặc là một chủ đề. Nó được mô tả bằng cặp e: (T, W), với T là một hệ phân cấp của
các thành phần, thành phần con v.v…. và W là một tập các thuộc tính của e.
Một thương hiệu nổi tiếng của điện thoại di động được coi là một thực thể ví dụ
như Iphone. Nó bao gồm các thành phần: màn hình, pin, vỏ … và một tập các thuộc
tính như chất lượng âm thanh, kích thước, trọng lượng…Thành phần pin cũng có các
thuộc tính của riêng nó: tuổi thọ pin, kích thước pin…
Dựa trên khái niệm này thì thực thể có thể được thể hiện dưới dạng cây phân cấp.
Trong đó, gốc là thực thể, mỗi nút không phải là gốc là thành phần hoặc các thành
phần con. Mỗi liên kết là một phần của mối quan hệ. Mỗi nút được liên kết với một tập
hợp các thuộc tính. Một ý kiến có thể được thể hiện trên bất kỳ nút và các thuộc tính
của nút.
Ví dụ về việc đưa ra ý kiến trên điện thoại di động như: “Tơi khơng thích Iphone”
hoặc trên bất kỳ một trong những thuộc tính của nó “Chất lượng âm thanh của Iphone
thật tệ hại”. Chất lượng âm thanh là thuộc tính của loa, loa là thuộc tính của điện
thoại, thể ở đây là của thực thể Iphone. “Khơng thích” và “tệ hại” là quan điểm của
người dùng. Tương tự như vậy, người ta có thể đưa ra ý kiến trên bất kỳ các thành
phần của thực thể hoặc bất kỳ thuộc tính nào của thành phần.
Trong thực tế, việc sử dụng cây là rất hữu dụng nhằm đơn giản hóa định nghĩa bởi
hai lý do. Thứ nhất, việc học trong xử lý ngôn ngữ tự nhiên các văn bản một cách chi
tiết như mô tả là rất khó. Thứ hai, người sử dụng thường sẽ thấy quá phức tạp để sử
dụng phân cấp. Do đó, để đơn giản hóa và san bằng cây chỉ cịn hai cấp bằng việc sử

dụng các thuộc tính (aspect) để biểu thị cả hai (thành phần và thuộc tính). Cây lúc này
có nút gốc là thực thể chính nó, các nút ở mức hai là những thuộc tính khác nhau của
thực thể.
Thuộc tính (aspect): Các thuộc tính của một thực thể e là các thành phần và các
thuộc tính của e. Một thể hiện thuộc tính là một từ hoặc một cụm từ xuất hiện trong

z


9
văn bản chỉ ra một thuộc tính.
Ví dụ: Trong lĩnh vực điện thoại di động, một thuộc tính có thể được đặt tên là chất
lượng âm thanh. Có rất nhiều thể hiện có thể chỉ ra được thuộc tính như: âm thanh,
tiếng nói, chất lượng âm thanh…
Thuộc tính thường là danh từ và cụm danh từ, cũng có thể là động từ, tính từ, trạng
từ. Ví dụ “Âm thanh của điện thoại này là rõ ràng”, “âm thanh” ở đây là một thuộc
tính với vai trị là danh từ trong câu. “Lớn” trong câu “Điện thoại này quá lớn” là
thuộc tính tiềm ẩn ngụ ý kích thước thuộc tính.
Nhiều thể hiện thuộc tính ẩn là tính từ và trạng từ, mà cũng bao hàm một số thuộc
tính cụ thể, ví dụ như đắt tiền (giá), đáng tin cậy (độ tin cậy). Thể hiện của thuộc tính
ẩn khơng chỉ là tính từ và trạng từ mà có thể phức tạp, ví dụ như "Điện thoại này sẽ
không dễ dàng phù hợp trong túi". Ở đây, "phù hợp trong túi" cho biết kích thước hoặc
hình dạng của thuộc tính. Trong luận văn này, chúng ta tập trung chủ yếu vào thể hiện
thuộc tính rõ ràng, vì hầu hết các thuộc tính trong các tài liệu quan điểm được thể hiện
một cách rõ ràng.
Cũng như thuộc tính, một thực thể cũng có tên và thể hiện chỉ ra thực thể. Ví dụ,
thương hiệu Motorola (tên tổ chức) có thể được thể hiện bằng nhiều cách như "Moto",
"Mot" và "Motorola"
Thể hiện của thực thể (entity expression): một thể hiện của thực thể là một từ
hoặc cụm từ xuất hiện trong văn bản chỉ ra một thực thể.

Người đưa ra ý kiến (opinion holder): là người hoặc tổ chức bày tỏ ý kiến.
Để đánh giá sản phẩm và các blog, chủ sở hữu quan điểm thường là tác giả của các
bài đăng.
Quan điểm có hai loại chính: quan điểm thơng thường và quan điểm so sánh. Quan
điểm thông thường được gọi đơn giản là quan điểm trong các tài liệu nghiên cứu. Một
quan điểm so sánh thể hiện một mối quan hệ là giống hay khác nhau giữa hai hay
nhiều thực thể, mà thường được thể hiện bằng cách sử dụng hình thức so sánh của tính
từ hoặc trạng từ. Ở đây, ta cũng chỉ tập trung vào quan điểm không thường xuyên.
Về cơ bản, một quan điểm là một cái nhìn tích cực hay tiêu cực, thái độ, cảm xúc
hay đánh giá về một thực thể hay một thuộc tính của thực thể từ một người có quan
điểm. Tích cực, tiêu cực và trung lập được gọi là định hướng quan điểm. Tên khác cho
định hướng quan điểm là định hướng tình cảm, định hướng ngữ nghĩa, hoặc phân cực.
Trong thực tế, trung lập thường được hiểu là khơng có ý kiến. Ta có khái niệm về quan
điểm (Liu 2010) :

z


10
Quan điểm (Opinion) : Một quan điểm được biểu diễn là một bộ năm thành phần:
(ej, ajk , soijkl, hi , tl)
Trong đó:
ej: là thực thể mục tiêu
ajk : là một khía cạnh của thực thể
soijkl : Giá trị của quan điểm của người hi trên khía cạnh ajk của thực thể ej . so có thể ở
là khẳng định, phủ định, trung lập hoặc nhiều xếp hạng chi tiết hơn
hi : Người đưa ra quan điểm
tl : Thời gian của quan điểm
(ej, ajk) còn được gọi là mục tiêu quan điểm, quan điểm mà khơng có mục tiêu thì
khơng có nhiều giá trị sử dụng.

Sau đây, ta sẽ định nghĩa mơ hình thực thể, mơ hình tài liệu chứa quan điểm và
mục đích khai thác quan điểm được gọi chung là khai thác quan điểm dựa trên thuộc
tính.
Mơ hình thực thể (model of entity): Một thực thể ei được thể hiện chính nó hoặc
bao gồm một tập hữu hạn các thuộc tínhAi= {ai1, ai2,…, ain}. Chính những thực thể có
thể có thể được thể hiện bởi một tập các thể hiện thực thể OEi = {oei1, oei2,…, oeis}.
Mỗi thuộc tính aij  Ai của thực thể có thể được thể hiện bởi một trong các tập hữu hạn
các thể hiện của thuộc tínhAEij = {aeij1, aeij2,…, aeijm}.
Mơ hình tài liệu chứa quan điểm (Model of opinionated document): Một tài liệu
chứa quan điểm d bao gồm quan điểm trên một tập các thực thể {e1, e2,…, er} từ
những người có quan điểm {h1, h2, …, hp}. Quan điểm trên mỗi thực thể ei là thể hiện
trên chính thực thể và tập con Aid thuộc tính của nó.
Mục tiêu của khai phá quan điểm: Với tập các tài liệu chứa quan điểm D, khám phá
ra tất cả các quan điểm (ei, aij, ooijkl, hk, tl) trong D.
1. 2. Những bài toán trong khai phá quan điểm
Khai phá quan điểm hay còn gọi là phân tích quan điểm có các bài tốn lớn sau [5]:
-

Tìm và lọc dữ liệu chứa quan điểm rồi phân tích

-

Xác định tri thức trong dữ liệu quan điểm

z


11
-


Phân tích thuộc tính của sản phẩm

-

Những bài tốn khác

 Tìm và lọc dữ liệu chứa quan điểm rồi phân tích
Đây là bài tốn được nghiên cứu nhiều nhất bởi các nhà khoa học. Trong đó Bing
Liu[15] đưa ra hai bài tốn con là: (1) Tìm và lọc tài liệu chứa quan điểm (filter spam),
(2) Phân loại câu, mệnh đề của câu là chủ quan hay khách quan.
Bài toán thứ nhất là bài toán phát hiện và loại bỏ bài viết giả (thư rác). Những bài
viết đánh giá được coi là khơng có thật, cố gắng gây hiểu lầm cho người đọc hoặc cho
hệ thống tự động bằng cách cho ý kiến tích cực khơng xứng đáng với đối tượng để
thúc đấy đối tượng (quảng cáo sản phẩm), ý kiến tiêu cực để làm hỏng danh tiếng của
đối tượng. Phát hiện thư rác như vậy là rất quan trọng trong khai phá quan điểm.
Bài toán xác định câu chủ quan, khách quan nghĩa là xác định xem một câu có thể
hiện ý kiến hay không (thường gọi là câu chủ quan). Mặc dù câu đó là ý kiến tích cực,
tiêu cực hay trung lập thì cũng dễ dàng cho việc phân tích, tổng hợp đánh giá.
 Xác định tri thức trong dữ liệu quan điểm
Với bài toán phân lớp văn bản đánh giá nghĩa là khi đưa một bài viết hoặc một câu
đánh giá về sản phẩm, hệ thống xác định xem nhận xét về sản phẩm đó là tốt hay xấu,
thích hay khơng thích. Phân lớp này thường là phân lớp ở mức câu và mức tài liệu
(nghĩa là thể hiện quan điểm trong toàn bộ bài viết). Ta xét ví dụ sau:
Sony is same as Nokia (1). Sony camera is good (2). Display is bad (3).
Ở đây, câu (1) mang nghĩa trung lập. Câu (2) mang nghĩa tích cực (khen) sản phẩm.
Câu (3) mang nghĩa tiêu cực.
 Phân tích thuộc tính của sản phẩm
Bài tốn đi sâu vào giải ba bài tốn con: Phân loại thuộc tính là tích cực hay tiêu
cực (pos/neg), xếp hạng thuộc tính (rating), xác định trọng số (độ quan trọng của thuộc
tính).

Phân loại thuộc tính là tìm hiểu các thuộc tính của đối tượng mà người dùng đánh
giá là tích cực hay tiêu tực, thích hay khơng thích. Quan điểm này thường được thể
hiện ở mức câu. Ta xét ví dụ:
“Tuổi thọ của pin này là quá ngắn”

z


12
Người dùng nhận xét về thuộc tính là “pin” và ý kiến là tiêu cực
Bài tốn xếp hạng thuộc tính là bài toán được Bing Liu và các cộng sự đưa ra [4].
Nhiệm vụ của bài toán là xác định thuộc tính của sản phẩm mà được đánh giá bởi
khách hàng sau đó xếp hạng thuộc tính theo tần số xuất hiện của chúng.
Bài toán xác định trọng số thuộc tính là bài tốn xác định các thuộc tính của sản
phẩm sau đó tính trọng số rồi xếp hạng chúng. Bài tốn này có ý nghĩa quan trọng đối
với dữ liệu mới mà không quan tâm tri thức trong văn bản đánh giá.
 Những bài tốn khác
Ngồi các bài tốn trên, khai phá quan điểm còn giải quyết các bài toán: Xác định
Tên trong văn bản (Name detection), xác định thuộc tính (aspect determination), xác
định bình luận quan trọng (so sánh)….
1.3. Bài tốn trích chọn thuộc tính
Bài tốn trích chọn thuộc tính trong khai phá quan điểm là xác định thuộc tính
trong các bài viết của nhiều khách hàng về sản phẩm, dịch vụ, tổ chức… Trong bài
viết đó, những từ là thuộc tính sẽ được trích chọn. Phương pháp dùng để trích chọn
những thuộc tính được Bing Liu [5] nêu ra là coi những danh từ, cụm danh từ thường
xuyên xuất hiện trong các đánh giá là thuộc tính của sản phẩm. Tuy nhiên phương
pháp này khơng trích chọn được thuộc tính mang nghĩa ngầm định.
Một hướng tiếp cận khác để trích chọn thuộc tính là sử dụng phương pháp thông tin
tương hỗ trên từng thời điểm (Pointwise Mutual Information – PMI). Hướng tiếp cận
này xác định danh từ hoặc cụm danh từ là thuộc tính theo trọng số PMI, nghĩa là giá trị

PMI thấp nó có thể khơng là thuộc tính của sản phẩm, giá trị PMI cao danh từ, cụm
danh từ đó là thuộc tính của sản phẩm. Nhược điểm của phương pháp này là mất nhiều
thời gian cho việc tính tốn trọng số PMI cho tất cả danh từ, cụm danh từ.
Một phương pháp nữa được đề xuất bởi Scaffidi [2] là sử dụng mơ hình ngơn ngữ
để trích chọn thuộc tính của sản phẩm. Ý tưởng của phương pháp này là tính tổng số
lần xuất hiện của thuộc tính sản phẩm trong văn bản đánh giá. Nhược điểm của
phương pháp này là chỉ áp dụng với dữ liệu nhỏ, kết quả đạt được không cao.
Năm 2010, G. Qiu, B. Liu [8] đề xuất phương pháp “lan truyền kép” (double
propagation) để trích chọn thuộc tính. Hướng tiếp cận này sử dụng mối quan hệ giữa
thuộc tính sản phẩm và từ chứa quan điểm. Trước đó, thuộc tính có thể được xác định
bằng cách sử dụng từ quan điểm. Từ chứa quan điểm và thuộc tính mới sau khi trích
chọn được sử dụng để trích chọn từ chứa quan điểm và thuộc tính chưa có. Q trình
này sẽ dừng lại khi khơng cịn từ quan điểm, thuộc tính nào được trích chọn thêm nữa.

z


13
1.4. Mục tiêu của luận văn
Mục tiêu của luận văn là nghiên cứu các bài toán trong lĩnh vực khai phá quan
điểm có liên quan đến trích chọn thuộc tính đặc trưng của sản phẩm. Thuộc tính quan
trọng hay gọi là thuộc tính tốt là rất quan trọng nhất là với dữ liệu mới, dữ liệu không
giới hạn miền.
Với bộ dữ liệu về điện thoại, ta có thể chỉ ra thuộc tính quan trọng ví dụ như:
camera, pin, màn hình,màu sắc, kích cỡ, giá cả …. Tuy nhiên, sản phẩm rất phong
phú, đa dạng. Ứng với mỗi sản phẩm lại có những tính năng và thuộc tính khác nhau
và chúng luôn được thay đổi theo hướng ngày càng hiện đại và đa dạng hơn. Việc xác
định thuộc tính theo các phương pháp truyền thống ngày càng trở nên khó khăn hơn.
Vì vậy, việc nghiên cứu và phát triển một hệ thống tự động phát hiện ra thuộc tính sản
phẩm trong mơi trường internet là rất cần thiết.

Hiện tại, có nhiều phương pháp để trích chọn thuộc tính của sản phẩm, dịch vụ hay
tổ chức như: “lan truyền kép”, PMI, xác định tần số xuất hiện…Trong luận văn này,
tôi đi sâu vào nghiên cứu và thực nghiệm phương pháp trích chọn thuộc tính sử dụng
thuật tốn “lan truyền kép”, mẫu tồn bộ - bộ phận, mẫu “No”. Sau đó, tơi sử dụng
thuật tốn HITS để sắp xếp thuộc tính theo mức độ quan trọng để loại bỏ thuộc tính
khơng cần thiết.
Mục tiêu của luận văn này là:


Khảo sát các phương pháp trích chọn thuộc tính sản phẩm



Áp dụng phương pháp trích chọn thuộc tính sản phẩm: lan truyền kép,
tồn bộ - bộ phận, mẫu “No”



Áp dụng thuật toán HITS sắp xếp thuộc tính sản phẩm theo mức độ
quan trọng



Loại bỏ thuộc tính khơng quan trọng

Trong luận văn này, tơi tập trung vào việc trích chọn các thuộc tính của sản phẩm,
cụ thể là điện thoại di động và xe ô tô để cho kết quả tốt hơn. Dữ liệu được thu thập là
nội dung bình luận của người tiêu dùng về sản phẩm trên các trang web, diễn đàn,
blog, mạng xã hội, các trang đánh giá uy tín. Sau đó, tơi nghiên cứu và thực nghiệm
phương pháp trích chọn và xếp hạng thuộc tính sản phẩm. Với dữ liệu đầu vào là

những bài viết đánh giá của khách hàng về sản phẩm. Các bước thực hiện gồm:
1. Trích chọn thuộc tính sản phẩm từ tập văn bản đánh giá Tiếng Anh bằng
phương pháp lan truyền kép, mẫu toàn bộ - bộ phận, mẫu No

z


14
2. Trích chọn thuộc tính sản phẩm từ văn bản đánh giá Tiếng Việt bằng phương
pháp lan truyền kép, mẫu toàn bộ - bộ phận, mẫu No
3. Sử dụng phương pháp HITS để xếp hạng theo mức độ quan trọng của các thuộc
tính
Phạm vi nghiên cứu và ứng dụng của các vấn đề trong lĩnh vực khai phá quan điểm
là rất rộng lớn. Giới hạn của luận văn này chỉ tập trung vào việc trích chọn ra thuộc
tính của sản phẩm và xếp hạng theo mức độ quan trọng của các thuộc tính. Cụ thể là
nghiên cứu các mơ hình khai phá dữ liệu dựa trên thuộc tính được trình bày ở chương
2. Tiếp theo, chương 3 đề cập đến các phương pháp trích chọn và sắp xếp các thuộc
tính. Chương 4 là kết quả thực nghiệm và kết luận.

z


15
CHƯƠNG 2: TRÍCH CHỌN THUỘC TÍNH
2.1. Mơ hình chung cho bài tốn phân tích quan điểm

Hình 1. Mơ hình chung cho bài tốn phân tích quan điểm [15]
Khi người dùng chia sẻ quan điểm trên internet, dữ liệu ngày càng lớn và bị phân
tán nhiều nơi. Hình 1 thể hiện nhiệm vụ đối với bài toán khai phá quan điểm là tìm
trên Internet và lưu lại dưới dạng văn bản (Crawling). Sau đó những văn bản đó sẽ

được phân loại và xác định có phải là văn bản chứa quan điểm được chọn lọc để loại
bỏ văn bản không phải là thật (Detecting opinioned text). Tiếp theo là bước phân tích
quan điểm tùy theo mục đích của người nghiên cứu có thể gồm các chủ đề: Phân tích
tri thức của bài viết, câu (chủ quan/ khách quan, tích cực/tiêu cực/trung lập), trích chọn
và xếp hạng thuộc tính …..
2.2. Dữ liệu
Thuộc tính của sản phẩm chủ yếu được lấy từ đánh giá trực tuyến. Có hai loại đánh
giá trên Web:
Loại 1: Đánh giá ưu điểm, khuyến điểm và chi tiết: Các nhà phê bình được u cầu mơ
tả ngắn gọn một số ưu điểm, khuyết điểm, cũng như viết một bài đánh giá chi tiết.
Loại 2: Định dạng tự do: Các nhà phê bình có thể viết một cách tự do mà khơng phải
tách ưu, khuyết điểm riêng.
Vậy để trích chọn các thuộc tính từ ưu và nhược điểm trong các bài viết thuộc loại
một. Những đánh giá dạng này thường ngắn gọn hoặc các câu được phân đoạn. Mỗi
đoạn câu thường chứa một thuộc tính, các phân đoạn câu thường được phân cách nhau
bởi dấu chấm, dấu phầy, dấu chấm phẩy, gạch ngang, và, nhưng … Quan sát này giúp
chúng ta có thể khai thác để thực hiện trích chọn chính xác hơn. Vì vậy việc trích chọn
tài liệu thuộc định dạng này là khá đơn giản và chúng ta chỉ xét đến tài liệu thuộc loại
hai. Tài liệu thuộc loại hai thường là tài liệu hoàn chỉnh.

z


16
2.3. Phương pháp trích chọn thuộc tính
2.3.1. Phương pháp lan truyền kép
Phương pháp lan truyền kép được đưa ra bởi G. Qiu, B. Liu [8] là phương pháp
trích chọn theo luật khá tự nhiên. Ví dụ một câu có chứa quan điểm:
“Canon G3 takes great picture”
Tính từ “great” được phân tích phụ thuộc trực tiếp vào danh từ “pictures”. Nếu ta

biết “great” là từ quan điểm và được trích theo luật “một danh từ mà từ quan điểm phụ
thuộc trực tiếp vào thì có thể được trích chọn”. Vì vậy, ta có thể trích chọn “pictures”
là một thuộc tính. Tương tự, nếu “pictures” là thuộc tính, chúng ta có thể trích chọn
“great” là từ quan điểm sử dụng luật tương tự. Dựa vào quan sát đó, ý tưởng phương
pháp lan truyền kép được thực hiện trích chọn từ quan điểm và thuộc tính dựa vào từ
quan điểm ban đầu.
Từ quan điểm có thể được tìm thấy dựa vào thuộc tính mà nó bổ nghĩa và các thuộc
tính cũng có thể trích chọn từ những từ quan điểm đó. Những từ quan điểm, thuộc tính
ban đầu được trích chọn sẽ bổ sung vào tập hạt giống để thực hiện tiếp việc trích chọn
những từ quan điểm và thuộc tính khác. Quá trình lan truyền thực hiện cho đến khi
khơng tìm được từ nào thì dừng lại. Phương pháp lan truyền này dựa vào hai yếu tố là
từ quan điểm và thuộc tính nên người ta gọi là lan truyền kép. Trích chọn từ quan điểm
và thuộc tính thực hiện bởi việc sử dụng luật dựa trên mối quan hệ khác nhau giữa
chúng, hoặc quan hệ giữa chính những từ quan điểm, thuộc tính đó. Mối quan hệ này
được thể hiện trên cây phân tích phụ thuộc (Tesniere 1959).
Dựa vào mơ tả trên, việc đầu tiên Bing Liu và các cộng sự thực hiện là trích chọn
từ quan điểm. Bốn nhiệm vụ được thực hiện trong suốt q trình lan truyền: trích chọn
từ quan điểm sử dụng từ quan điểm, trích chọn thuộc tính dựa vào từ quan điểm, trích
chọn từ quan điểm sử dụng thuộc tính, trích chọn thuộc tính sử dụng thuộc tính. Trong
đó có ba mối quan hệ sử dụng thực hiện để trích chọn: Quan hệ giữa từ quan điểm và
từ quan điểm với nhiệm vụ 1, từ quan điểm và thuộc tính với nhiệm vụ 2 và 3, thuộc
tính và thuộc tính với nhiệm vụ 4. Mối quan hệ đó được thể hiện trên cây phân tích cú
pháp phụ thuộc để phân tích câu.
Sau khi phân tích cú pháp, từ trong câu được kết nối với nhau bởi quan hệ. Trong
quan hệ phụ thuộc ngữ pháp, mối quan hệ giữa từ A và B được mô tả như A phụ thuộc
vào B hoặc ngược lại. Ví dụ trong câu đơn giản “I love Iphone”. Cả “I” và “Iphone”
đều phụ thuộc vào động từ “love” với quan hệ chủ ngữ và tân ngữ. Ngồi ra ta cịn có
quan hệ phức tạp hơn ví dụ A phụ thuộc vào C, C phụ thuộc vào B trong câu “The
newly released iPod is amazing”, “newly” phụ thuộc vào “released”, “released” lại phụ


z


17
thuộc vào “iPod” và “iPod” phụ thuộc vào “is”. Vì vậy người ta tổng quát hóa và đưa
ra hai loại quan hệ giữa hai từ: Quan hệ trực tiếp, quan hệ gián tiếp.
Quan hệ trực tiếp (Direct relations - DR): Thể hiện cho quan hệ phụ thuộc của
một từ vào từ khác một cách trực tiếp hoặc cả hai đều phụ thuộc trực tiếp vào từ thứ
ba, thể hiện trong (a) và (b) của hình 1. Trong (a), B phụ thuộc trực tiếp vào A và
trong (b) cả hai đều trực tiếp phụ thuộc vào H.
Quan hệ gián tiếp (Indirect relation - IR):Thểhiện cho việc một từphụ thuộc vào
từ khác thông qua những từ khác hay cả hai phụ thuộc vào một từ thứ ba gián tiếp. Ví
dụ, trong (c) của hình 2, B phụ thuộc vào A thơng qua H1; trong (d) hình 2, A phụ
thuộc vào H thơng qua H1 trong khi B phụ thuộc vào H thông qua H2. Đối với một số
tình huống phức tạp, có thể có nhiều hơn một H1 hoặc H2. DR có thể là trường hợp
đặc biệt khơng có H1, H2 trong phụ thuộc.
H

B
A

B

a)

A

b)
B
H

H1
H1

B

c)

H1

d)
A

B

Hình 2. Quan hệ giữa trực tiếp và quan hệ gián tiếp [8]
DDS và IDD chỉ mô tả các cấu trúc liên kết của các phụ thuộc. Trong luận văn này,
ta sử dụng bộ gán nhãn từ loại POS TGGING để phân tích câu. Từ quan điểm ở đây là
tính từ và thuộc tính là danh từ hoặc cụm danh từ. Theo Hu và Bing Liu [5], các từ
được gán nhãn như sau: JJ cho tính từ, JJR cho các tính từ so sánh, JJS cho so sánh
nhất tính từ, với danh từ đơn được gán nhã là NN, cụm danh từ được gán nhãn là NNS.
Quan hệ phụ thuộc là quan hệ giữa từ quan điểm và thuộc tính bao gồm mod, pnmod,
subk,s obj, obj2, desc và quan hệ giữa chính quan điểm hoặc thuộc tính với nhau bởi
quan hệ kết hợp conj.
Sau đây là chi tiết của phương pháp lan truyền kép thực hiện bốn nhiệm vụ ở trên.
Cột 1 là tên quan hệ được đánh thứ tự. R1i để trích các từ quan điểm (s) sử dụng các từ
quan điểm words (Si), R2i để trích các từ quan điểm (s) sử dụng các thuộc tính (F), R3i
để trích các thuộc tính (f) sử dụng các từ quan điểm (S) và R4i để trích các thuộc tính

z



18
(f) sử dụng các thuộc tính đã được trích (Fi). Cột 2 là các mối quan hệ được quan sát
giữa hai từ, cột 3 thể hiện sự ràng buộc của mối quan hệ, cột 4 là kết quả. Mũi tên thể
hiện sự phụ thuộc. Ví dụ, SS-Dep F có nghĩa S phụ thuộc vào F thông qua một
mối quan hệ S-Dep.
Quan sát

Ràng buộc

R11

Si(j)Si(j)-DepSj(i)

Si(j){S}, Si(j) -Dep{CONJ},
POS(Si(j)) {JJ}

s = Si(j)

R12

SS-DepHF-DepF

s = Sj

R21

S S-DepF

R22


S S-Dep H F-Dep F

R31

S S-DepF

R32

SS-DepH F-Dep F

R41

Fi(j)Fi(j)-DepFj(i)

R42

FiFi-Dep H Fj-Dep
Fj

Si {S}, Si-Dep==Sj-Dep,
POS(Sj) {JJ}
F {F}, S-Dep {MR},
POS(S) {JJ}
F{F}, S/F-Dep{MR},
POS(S) {JJ}
S{S}, S-Dep{MR},
POS(F) {NN}
S{S}, S/F-Dep{MR},
POS(F) {NN}

Fj(i){F}, Fi(j)Dep{CONJ},
POS(Fi(j)) {NN}
Fi{F}, Fi-Dep==Fj-Dep,
POS(Fj) {NN}

s=S
s=S
f=F
f=F
f=Fi(j)
f=Fj

Hình 3. Các luật để trích từ quan điểm và thuộc tính [8].
Trong bảng, s nghĩa là từ quan điểm còn f là thuộc tính được trích. {S}(or {F}) và
S(or F)-Dep là các từ quan điểm hoặc thuộc tính đã biết đã biết và mối quan hệ phụ
thuộc của S(or F) theo thứ tự tương ứng. H có nghĩa là một từ bất kỳ. POS(S(or F)) là
thông tin từ loại của S(or F). {JJ} và {NN} là tập các nhãn từ loại của các từ quan
điểm và thuộc tính tiềm năng tương ứng (JJ: là nhãn từ loại tính từ và NN: là nhãn từ
loại danh từ). Ở đây, tác giả xem xét các từ quan điểm là các tính từ cịn thuộc tính là
danh từ hoặc cụm danh từ. Khi đó, {JJ} ban gồm JJ, JJR (các tính từ dạng so sánh hơn)
và JJS (các từ dạng so sánh hơn nhất). {NN} bao gồm NN và NNS, là viết tắt cho danh
từ số ít và danh từ số nhiều. Tuy nhiên, có các trường hợp mà các đánh giá sử dụng các
đại từ để tham chiếu đến các thuộc tính đã được đề cập trước đó. Do đó, các tác giả
cũng xem xét các đại từ như là các thuộc tính. Trong đó, họ sử dụng “it” và “they”.
{MR} bao gồm các mối quan hệ phụ thuộc mô tả các mối quan hệ giữa các từ quan
điểm và các thuộc tính, như mod có nghĩa là một từ bổ nghĩa cho một từ khác. Các
mối quan hệ phụ thuộc khác (MRs) bao gồm: subj, obj, pnmod, etc. {CONJ} là mối
quan hệ của liên từ và chỉ bao gồm liên từ.

z




×