ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ BÍCH NHẬT
TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƯNG SẢN PHẨM
TRONG PHÂN TÍCH QUAN ĐIỂM
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội, năm 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ BÍCH NHẬT
TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƯNG SẢN PHẨM
TRONG PHÂN TÍCH QUAN ĐIỂM
Chuyên ngành: Khoa học máy tính
Mã số:60480101
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: PGS. TS. Lê Anh Cường
XÁC NHẬN CỦA CTHĐ
XÁC NHẬN CỦA GVHD
PGS. TS. Phạm Bảo Sơn
PGS. TS. Lê Anh Cường
Hà Nội, năm 2015
1
LỜI CAM ĐOAN
Tôi xin cam đoan:
(i) Luận văn này là sản phẩm nghiên cứu của tôi,
(ii) Số liệu trong luận văn được điều tra trung thực,
(iii) Tôi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên
Nguyễn Thị Bích Nhật
2
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn của tôi, Phó giáo sư Tiến sĩ Lê Anh Cường. Thầy đã cho tôi cơ hội quý giá để theo đuổi nghiên cứu trong
lĩnh vực mình yêu thích. Trong suốt quá trình thực hiện luận văn, thầy đã hướng dẫn
tận tình cho tôi, đồng thời thầy đã cung cấp những kiến thức, tài liệu cần thiết để tôi có
thể hoàn thành luận văn của mình. Đó là một vinh dự cho tôi khi nhận được bằng Thạc
sỹ này.
Tôi cũng xin chân thành cảm ơn các thầy cô giáo trong Khoa Công nghệ Thông
tin, Đại học Công nghệ - Đại học Quốc gia Hà Nội đã truyền đạt cho tôi những kiến
thức và kinh nghiệm vô cùng quí báu trong quá trình học tập và nghiên cứu.
Tôi muốn cảm ơn các bạn cùng lớp và các đồng nghiệp đã cho tôi những lời
động viên, những góp ý và sự hỗ trợ chuyên môn vô cùng quý báu.
Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, những người đã luôn bên cạnh động
viên và ủng hộ tôi.
3
MỤC LỤC
DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH VẼ ...................................................................... 4
CÁC KÍ HIỆU VÀ CỤM TỪ VIẾT TẮT .............................................................................. 5
TÓM TẮT ............................................................................................................................. 6
CHƯƠNG 1: GIỚI THIỆU .................................................................................................... 8
1.1. Các khái niệm cơ bản về khai phá quan điểm.................................................... 8
1.3. Bài toán trích chọn thuộc tính ......................................................................... 12
1.4. Mục tiêu của luận văn ..................................................................................... 13
CHƯƠNG 2: TRÍCH CHỌN THUỘC TÍNH ....................................................................... 15
2.1. Mô hình chung cho bài toán phân tích quan điểm ........................................... 15
2.2. Dữ liệu............................................................................................................ 15
2.3. Phương pháp trích chọn thuộc tính................................................................. 16
2.3.1. Phương pháp lan truyền kép .................................................................... 16
2.3.2. Phương pháp trích chọn dựa vào quan hệ bộ phận - toàn bộ, mẫu “No”…20
2.4. Trích chọn đặc trưng trong văn bản đánh giá bằng Tiếng Việt ........................ 21
CHƯƠNG 3: THUẬT TOÁN HITS SẮP XẾP THUỘC TÍNH ............................................ 25
3.1. Đồ thị hai phía và thuật toán HITS.................................................................. 25
3.2. Phân loại thuộc tính ........................................................................................ 27
3.3. Sắp xếp thuộc tính .......................................................................................... 28
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................................. 30
4.1. Môi trường thực nghiệm ................................................................................. 30
4.2. Xây dựng tập dữ liệu ...................................................................................... 30
4.3. Các bước thực hiện ......................................................................................... 31
4.4. Kết quả thực nghiệm ...................................................................................... 31
KẾT LUẬN ......................................................................................................................... 34
PHỤ LỤC ............................................................................................................................ 35
DANH MỤC TÀI LIỆU THAM KHẢO .............................................................................. 40
4
DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH VẼ
Hình 1. Mô hình chung cho bài toán phân tích quan điểm ………………………..17
Hình 2.Quan hệ trực tiếp và quan hệ gián tiếp …………………………………….19
Hình 3. Các luật để trích từ quan điểm và thuộc tính ……………………………...20
Hình 4. Thuật toán lan truyền kép …………………………………………………22
Hình 5. Mối quan hệ giữa chỉ số thuộc tính và thuộc tính …………………………39
Hình 6. Thuật toán HITS ………………………..………………………………….31
Hình 7. Các bước thực nghiệm ………………………..……………………………33
Bảng 1. Danh sách xếp hạng 10 thuộc tính ………………………..……………… 34
Bảng 2. Bộ 10 thuộc tính ………………………..………………………..……… 35
Bảng 3. Bộ 20 thuộc tính ………………………..………………………..……… 35
Bảng 4. Bộ 30 thuộc tính………………………..………………………..……… 35
5
CÁC KÍ HIỆU VÀ CỤM TỪ VIẾT TẮT
STT
Từ viết tắt
1
HMM
Mô hình Markov ẩn ( hidden Markov model)
2
NER
Nhận dạng tên thực thể (Named Entity Recognition)
3
POS
Gán nhãn từ (Part – of – speech)
4
CRF
Mô hình trường ngẫu nhiên có điều kiện
(Conditional random field)
5
DR
Quan hệ trực tiếp (Direct Relation)
IR
Quan hệ gián tiếp (Indirect Relation)
7
DP
Lan truyền kép (Double Propagation)
8
HITS
6
Ý nghĩa
Tìm kiếm dựa vào siêu liên kết (hyperlink-induced
topic search)
6
TÓM TẮT
Với sự phát triển nhanh chóng và phong phú của Web, nhiều hình thức kết nối, chia
sẻ, trao đổi thông tin xuất hiện trên các diễn đàn, nhóm thảo luận và những trang mạng
xã hội như blog, facebook … Web đã thay đổi đáng kể cách thức người dùng bày tỏ
quan điểm trên internet. Chúng ta có thể dễ dàng bắt gặp những ý kiến, cảm nghĩ, nhận
xét, đánh giá của người dùng về một sản phẩm mà họ đã sử dụng. Tất cả được gọi
chung là nội dung do người dùng tạo ra. Xu hướng này đã tạo ra một lượng khổng lồ
những nguồn thông tin hữu ích có thể đo lường được và có nhiều ứng dụng trong thực
tế. Ví dụ một người muốn mua sản phẩm, họ không bị giới hạn bởi các góp ý của bạn
bè và gia đình mình vì có rất nhiều đánh giá về sản phẩm trên các trang web. Còn đối
với các công ty, họ không nhất thiết phải tốn nhiều chi phí để mở các cuộc thăm dò
khảo sát hoặc thuê tư vấn bên ngoài để thu thập ý kiến khách hàng bởi vì các dữ liệu
do người dùng tạo ra có thể cung cấp cho họ đầy đủ những thông tin này.
Trong nhiều năm trở lại đây, lĩnh vực khai phá thông tin và tri thức đã phát triển
một bài toán nghiên cứu mới là khai phá và phân tích quan điểm. Bài toán này có ý
nghĩa rất quan trọng trong thương mại điện tử, trong kinh tế, chính trị, xã hội hóa.
Bài toán khai phá quan điểm đang được các nhà khoa học nghiên cứu với các chủ
đề khác nhau. Mối quan tâm nhiều nhất tập trung vào chủ đề tìm và lọc ra bài viết giả
(spam) nhằm làm hỏng danh tiếng sản phẩm, dịch vụ…hoặc với mục đích quảng cáo
để bán sản phẩm, dịch vụ. Sau đó, những bài viết này sẽ được phân loại ra câu chủ
quan, câu khách quan nhằm tìm ra ý kiến của người dùng về sản phẩm là tích cực hay
tiêu cực, thích hay không thích. Ngoài ra, khai phá quan điểm còn giải quyết các bài
toán xác định tên, xác định thuộc tính, xác định câu đánh giá quan trọng…
Sản phẩm rất phong phú, đa dạng. Ứng với mỗi sản phẩm lại có những tính năng và
thuộc tính khác nhau và chúng luôn được thay đổi theo hướng ngày càng hiện đại và
đa dạng hơn. Việc xác định thuộc tính theo các phương pháp truyền thống ngày càng
trở nên khó khăn hơn. Vì vậy việc nghiên cứu và phát triển một hệ thống tự động phát
hiện ra thuộc tính sản phẩm trong môi trường internet là rất cần thiết.
Trích chọn đặc trưng sản phẩm là bài toán rất quan trọng trong khai phá và phân
tích quan điểm. Một câu nhận xét có rất nhiều đặc trưng, trong giới hạn của luận văn
này chỉ tập trung vào việc trích chọn ra thuộc tính của sản phẩm và xếp hạng theo mức
độ quan trọng của các thuộc tính.
7
Chúng ta xét ví dụ sau :
“I bought a Sony camera yesterday, and its picture quality is great”.
Hệ thống phân tích quan điểm tự động sẽ xác định được quan điểm của thuộc tính
chất lượng hình ảnh. Ở đây, Sony camera là thực thể còn picture quality là thuộc tính
của thực thể Sony camera.
Trong luận văn này, tôi đi sâu vào nghiên cứu bài toán trích chọn và sắp xếp thuộc
tính các của sản phẩm. Điều này có ý nghĩa rất quan trọng với dữ liệu mới hoặc không
xác định trước miền. Bằng việc nghiên cứu, phân tích các phương pháp đã được áp
dụng trước đó, tôi lựa chọn trích chọn thuộc tính bằng phương pháp lan truyền kép,
quan hệ toàn bộ - bộ phận, mẫu “No” và sử dụng thuật toán HITS để xếp hạng thuộc
tính sau khi đã được trích chọn.
8
CHƯƠNG 1: GIỚI THIỆU
1.1. Các khái niệm cơ bản về khai phá quan điểm
Quan điểm về sản phẩm, dịch vụ, một cá nhân, một tổ chức, sự kiện, chủ đề được
thể hiện bởi con người hoặc tổ chức. Thuật ngữ thực thể để chỉ đối tượng mục tiêu cần
đánh giá. Một thực thể bao gồm tập các thành phần và tập các thuộc tính. Mỗi thành
phần lại có các thành phần con và các thuộc tính của nó. Do đó, BingLiu [5] đã định
nghĩa thực thể như sau:
Thực thể (entity): Một thực thể là một sản phẩm, dịch vụ, người, sự kiện, tổ chức
hoặc là một chủ đề. Nó được mô tả bằng cặp e: (T, W), với T là một hệ phân cấp của
các thành phần, thành phần con v.v…. và W là một tập các thuộc tính của e.
Một thương hiệu nổi tiếng của điện thoại di động được coi là một thực thể ví dụ
như Iphone. Nó bao gồm các thành phần: màn hình, pin, vỏ … và một tập các thuộc
tính như chất lượng âm thanh, kích thước, trọng lượng…Thành phần pin cũng có các
thuộc tính của riêng nó: tuổi thọ pin, kích thước pin…
Dựa trên khái niệm này thì thực thể có thể được thể hiện dưới dạng cây phân cấp.
Trong đó, gốc là thực thể, mỗi nút không phải là gốc là thành phần hoặc các thành
phần con. Mỗi liên kết là một phần của mối quan hệ. Mỗi nút được liên kết với một tập
hợp các thuộc tính. Một ý kiến có thể được thể hiện trên bất kỳ nút và các thuộc tính
của nút.
Ví dụ về việc đưa ra ý kiến trên điện thoại di động như: “Tôi không thích Iphone”
hoặc trên bất kỳ một trong những thuộc tính của nó “Chất lượng âm thanh của Iphone
thật tệ hại”. Chất lượng âm thanh là thuộc tính của loa, loa là thuộc tính của điện
thoại, thể ở đây là của thực thể Iphone. “Không thích” và “tệ hại” là quan điểm của
người dùng. Tương tự như vậy, người ta có thể đưa ra ý kiến trên bất kỳ các thành
phần của thực thể hoặc bất kỳ thuộc tính nào của thành phần.
Trong thực tế, việc sử dụng cây là rất hữu dụng nhằm đơn giản hóa định nghĩa bởi
hai lý do. Thứ nhất, việc học trong xử lý ngôn ngữ tự nhiên các văn bản một cách chi
tiết như mô tả là rất khó. Thứ hai, người sử dụng thường sẽ thấy quá phức tạp để sử
dụng phân cấp. Do đó, để đơn giản hóa và san bằng cây chỉ còn hai cấp bằng việc sử
dụng các thuộc tính (aspect) để biểu thị cả hai (thành phần và thuộc tính). Cây lúc này
có nút gốc là thực thể chính nó, các nút ở mức hai là những thuộc tính khác nhau của
thực thể.
Thuộc tính (aspect): Các thuộc tính của một thực thể e là các thành phần và các
thuộc tính của e. Một thể hiện thuộc tính là một từ hoặc một cụm từ xuất hiện trong
9
văn bản chỉ ra một thuộc tính.
Ví dụ: Trong lĩnh vực điện thoại di động, một thuộc tính có thể được đặt tên là chất
lượng âm thanh. Có rất nhiều thể hiện có thể chỉ ra được thuộc tính như: âm thanh,
tiếng nói, chất lượng âm thanh…
Thuộc tính thường là danh từ và cụm danh từ, cũng có thể là động từ, tính từ, trạng
từ. Ví dụ “Âm thanh của điện thoại này là rõ ràng”, “âm thanh” ở đây là một thuộc
tính với vai trò là danh từ trong câu. “Lớn” trong câu “Điện thoại này quá lớn” là
thuộc tính tiềm ẩn ngụ ý kích thước thuộc tính.
Nhiều thể hiện thuộc tính ẩn là tính từ và trạng từ, mà cũng bao hàm một số thuộc
tính cụ thể, ví dụ như đắt tiền (giá), đáng tin cậy (độ tin cậy). Thể hiện của thuộc tính
ẩn không chỉ là tính từ và trạng từ mà có thể phức tạp, ví dụ như "Điện thoại này sẽ
không dễ dàng phù hợp trong túi". Ở đây, "phù hợp trong túi" cho biết kích thước hoặc
hình dạng của thuộc tính. Trong luận văn này, chúng ta tập trung chủ yếu vào thể hiện
thuộc tính rõ ràng, vì hầu hết các thuộc tính trong các tài liệu quan điểm được thể hiện
một cách rõ ràng.
Cũng như thuộc tính, một thực thể cũng có tên và thể hiện chỉ ra thực thể. Ví dụ,
thương hiệu Motorola (tên tổ chức) có thể được thể hiện bằng nhiều cách như "Moto",
"Mot" và "Motorola"
Thể hiện của thực thể (entity expression): một thể hiện của thực thể là một từ
hoặc cụm từ xuất hiện trong văn bản chỉ ra một thực thể.
Người đưa ra ý kiến (opinion holder): là người hoặc tổ chức bày tỏ ý kiến.
Để đánh giá sản phẩm và các blog, chủ sở hữu quan điểm thường là tác giả của các
bài đăng.
Quan điểm có hai loại chính: quan điểm thông thường và quan điểm so sánh. Quan
điểm thông thường được gọi đơn giản là quan điểm trong các tài liệu nghiên cứu. Một
quan điểm so sánh thể hiện một mối quan hệ là giống hay khác nhau giữa hai hay
nhiều thực thể, mà thường được thể hiện bằng cách sử dụng hình thức so sánh của tính
từ hoặc trạng từ. Ở đây, ta cũng chỉ tập trung vào quan điểm không thường xuyên.
Về cơ bản, một quan điểm là một cái nhìn tích cực hay tiêu cực, thái độ, cảm xúc
hay đánh giá về một thực thể hay một thuộc tính của thực thể từ một người có quan
điểm. Tích cực, tiêu cực và trung lập được gọi là định hướng quan điểm. Tên khác cho
định hướng quan điểm là định hướng tình cảm, định hướng ngữ nghĩa, hoặc phân cực.
Trong thực tế, trung lập thường được hiểu là không có ý kiến. Ta có khái niệm về quan
điểm (Liu 2010) :
10
Quan điểm (Opinion) : Một quan điểm được biểu diễn là một bộ năm thành phần:
(ej, ajk , soijkl, hi , tl)
Trong đó:
ej: là thực thể mục tiêu
ajk : là một khía cạnh của thực thể
soijkl : Giá trị của quan điểm của người hi trên khía cạnh ajk của thực thể ej . so có thể ở
là khẳng định, phủ định, trung lập hoặc nhiều xếp hạng chi tiết hơn
hi : Người đưa ra quan điểm
tl : Thời gian của quan điểm
(ej, ajk) còn được gọi là mục tiêu quan điểm, quan điểm mà không có mục tiêu thì
không có nhiều giá trị sử dụng.
Sau đây, ta sẽ định nghĩa mô hình thực thể, mô hình tài liệu chứa quan điểm và
mục đích khai thác quan điểm được gọi chung là khai thác quan điểm dựa trên thuộc
tính.
Mô hình thực thể (model of entity): Một thực thể ei được thể hiện chính nó hoặc
bao gồm một tập hữu hạn các thuộc tínhAi= {ai1, ai2,…, ain}. Chính những thực thể có
thể có thể được thể hiện bởi một tập các thể hiện thực thể OEi = {oei1, oei2,…, oeis}.
Mỗi thuộc tính aij Ai của thực thể có thể được thể hiện bởi một trong các tập hữu hạn
các thể hiện của thuộc tínhAEij = {aeij1, aeij2,…, aeijm}.
Mô hình tài liệu chứa quan điểm (Model of opinionated document): Một tài liệu
chứa quan điểm d bao gồm quan điểm trên một tập các thực thể {e1, e2,…, er} từ
những người có quan điểm {h1, h2, …, hp}. Quan điểm trên mỗi thực thể ei là thể hiện
trên chính thực thể và tập con Aid thuộc tính của nó.
Mục tiêu của khai phá quan điểm: Với tập các tài liệu chứa quan điểm D, khám phá
ra tất cả các quan điểm (ei, aij, ooijkl, hk, tl) trong D.
1. 2. Những bài toán trong khai phá quan điểm
Khai phá quan điểm hay còn gọi là phân tích quan điểm có các bài toán lớn sau [5]:
-
Tìm và lọc dữ liệu chứa quan điểm rồi phân tích
-
Xác định tri thức trong dữ liệu quan điểm
11
-
Phân tích thuộc tính của sản phẩm
-
Những bài toán khác
Tìm và lọc dữ liệu chứa quan điểm rồi phân tích
Đây là bài toán được nghiên cứu nhiều nhất bởi các nhà khoa học. Trong đó Bing
Liu[15] đưa ra hai bài toán con là: (1) Tìm và lọc tài liệu chứa quan điểm (filter spam),
(2) Phân loại câu, mệnh đề của câu là chủ quan hay khách quan.
Bài toán thứ nhất là bài toán phát hiện và loại bỏ bài viết giả (thư rác). Những bài
viết đánh giá được coi là không có thật, cố gắng gây hiểu lầm cho người đọc hoặc cho
hệ thống tự động bằng cách cho ý kiến tích cực không xứng đáng với đối tượng để
thúc đấy đối tượng (quảng cáo sản phẩm), ý kiến tiêu cực để làm hỏng danh tiếng của
đối tượng. Phát hiện thư rác như vậy là rất quan trọng trong khai phá quan điểm.
Bài toán xác định câu chủ quan, khách quan nghĩa là xác định xem một câu có thể
hiện ý kiến hay không (thường gọi là câu chủ quan). Mặc dù câu đó là ý kiến tích cực,
tiêu cực hay trung lập thì cũng dễ dàng cho việc phân tích, tổng hợp đánh giá.
Xác định tri thức trong dữ liệu quan điểm
Với bài toán phân lớp văn bản đánh giá nghĩa là khi đưa một bài viết hoặc một câu
đánh giá về sản phẩm, hệ thống xác định xem nhận xét về sản phẩm đó là tốt hay xấu,
thích hay không thích. Phân lớp này thường là phân lớp ở mức câu và mức tài liệu
(nghĩa là thể hiện quan điểm trong toàn bộ bài viết). Ta xét ví dụ sau:
Sony is same as Nokia (1). Sony camera is good (2). Display is bad (3).
Ở đây, câu (1) mang nghĩa trung lập. Câu (2) mang nghĩa tích cực (khen) sản phẩm.
Câu (3) mang nghĩa tiêu cực.
Phân tích thuộc tính của sản phẩm
Bài toán đi sâu vào giải ba bài toán con: Phân loại thuộc tính là tích cực hay tiêu
cực (pos/neg), xếp hạng thuộc tính (rating), xác định trọng số (độ quan trọng của thuộc
tính).
Phân loại thuộc tính là tìm hiểu các thuộc tính của đối tượng mà người dùng đánh
giá là tích cực hay tiêu tực, thích hay không thích. Quan điểm này thường được thể
hiện ở mức câu. Ta xét ví dụ:
“Tuổi thọ của pin này là quá ngắn”
12
Người dùng nhận xét về thuộc tính là “pin” và ý kiến là tiêu cực
Bài toán xếp hạng thuộc tính là bài toán được Bing Liu và các cộng sự đưa ra [4].
Nhiệm vụ của bài toán là xác định thuộc tính của sản phẩm mà được đánh giá bởi
khách hàng sau đó xếp hạng thuộc tính theo tần số xuất hiện của chúng.
Bài toán xác định trọng số thuộc tính là bài toán xác định các thuộc tính của sản
phẩm sau đó tính trọng số rồi xếp hạng chúng. Bài toán này có ý nghĩa quan trọng đối
với dữ liệu mới mà không quan tâm tri thức trong văn bản đánh giá.
Những bài toán khác
Ngoài các bài toán trên, khai phá quan điểm còn giải quyết các bài toán: Xác định
Tên trong văn bản (Name detection), xác định thuộc tính (aspect determination), xác
định bình luận quan trọng (so sánh)….
1.3. Bài toán trích chọn thuộc tính
Bài toán trích chọn thuộc tính trong khai phá quan điểm là xác định thuộc tính
trong các bài viết của nhiều khách hàng về sản phẩm, dịch vụ, tổ chức… Trong bài
viết đó, những từ là thuộc tính sẽ được trích chọn. Phương pháp dùng để trích chọn
những thuộc tính được Bing Liu [5] nêu ra là coi những danh từ, cụm danh từ thường
xuyên xuất hiện trong các đánh giá là thuộc tính của sản phẩm. Tuy nhiên phương
pháp này không trích chọn được thuộc tính mang nghĩa ngầm định.
Một hướng tiếp cận khác để trích chọn thuộc tính là sử dụng phương pháp thông tin
tương hỗ trên từng thời điểm (Pointwise Mutual Information – PMI). Hướng tiếp cận
này xác định danh từ hoặc cụm danh từ là thuộc tính theo trọng số PMI, nghĩa là giá trị
PMI thấp nó có thể không là thuộc tính của sản phẩm, giá trị PMI cao danh từ, cụm
danh từ đó là thuộc tính của sản phẩm. Nhược điểm của phương pháp này là mất nhiều
thời gian cho việc tính toán trọng số PMI cho tất cả danh từ, cụm danh từ.
Một phương pháp nữa được đề xuất bởi Scaffidi [2] là sử dụng mô hình ngôn ngữ
để trích chọn thuộc tính của sản phẩm. Ý tưởng của phương pháp này là tính tổng số
lần xuất hiện của thuộc tính sản phẩm trong văn bản đánh giá. Nhược điểm của
phương pháp này là chỉ áp dụng với dữ liệu nhỏ, kết quả đạt được không cao.
Năm 2010, G. Qiu, B. Liu [8] đề xuất phương pháp “lan truyền kép” (double
propagation) để trích chọn thuộc tính. Hướng tiếp cận này sử dụng mối quan hệ giữa
thuộc tính sản phẩm và từ chứa quan điểm. Trước đó, thuộc tính có thể được xác định
bằng cách sử dụng từ quan điểm. Từ chứa quan điểm và thuộc tính mới sau khi trích
chọn được sử dụng để trích chọn từ chứa quan điểm và thuộc tính chưa có. Quá trình
này sẽ dừng lại khi không còn từ quan điểm, thuộc tính nào được trích chọn thêm nữa.
13
1.4. Mục tiêu của luận văn
Mục tiêu của luận văn là nghiên cứu các bài toán trong lĩnh vực khai phá quan
điểm có liên quan đến trích chọn thuộc tính đặc trưng của sản phẩm. Thuộc tính quan
trọng hay gọi là thuộc tính tốt là rất quan trọng nhất là với dữ liệu mới, dữ liệu không
giới hạn miền.
Với bộ dữ liệu về điện thoại, ta có thể chỉ ra thuộc tính quan trọng ví dụ như:
camera, pin, màn hình,màu sắc, kích cỡ, giá cả …. Tuy nhiên, sản phẩm rất phong
phú, đa dạng. Ứng với mỗi sản phẩm lại có những tính năng và thuộc tính khác nhau
và chúng luôn được thay đổi theo hướng ngày càng hiện đại và đa dạng hơn. Việc xác
định thuộc tính theo các phương pháp truyền thống ngày càng trở nên khó khăn hơn.
Vì vậy, việc nghiên cứu và phát triển một hệ thống tự động phát hiện ra thuộc tính sản
phẩm trong môi trường internet là rất cần thiết.
Hiện tại, có nhiều phương pháp để trích chọn thuộc tính của sản phẩm, dịch vụ hay
tổ chức như: “lan truyền kép”, PMI, xác định tần số xuất hiện…Trong luận văn này,
tôi đi sâu vào nghiên cứu và thực nghiệm phương pháp trích chọn thuộc tính sử dụng
thuật toán “lan truyền kép”, mẫu toàn bộ - bộ phận, mẫu “No”. Sau đó, tôi sử dụng
thuật toán HITS để sắp xếp thuộc tính theo mức độ quan trọng để loại bỏ thuộc tính
không cần thiết.
Mục tiêu của luận văn này là:
Khảo sát các phương pháp trích chọn thuộc tính sản phẩm
Áp dụng phương pháp trích chọn thuộc tính sản phẩm: lan truyền kép,
toàn bộ - bộ phận, mẫu “No”
Áp dụng thuật toán HITS sắp xếp thuộc tính sản phẩm theo mức độ
quan trọng
Loại bỏ thuộc tính không quan trọng
Trong luận văn này, tôi tập trung vào việc trích chọn các thuộc tính của sản phẩm,
cụ thể là điện thoại di động và xe ô tô để cho kết quả tốt hơn. Dữ liệu được thu thập là
nội dung bình luận của người tiêu dùng về sản phẩm trên các trang web, diễn đàn,
blog, mạng xã hội, các trang đánh giá uy tín. Sau đó, tôi nghiên cứu và thực nghiệm
phương pháp trích chọn và xếp hạng thuộc tính sản phẩm. Với dữ liệu đầu vào là
những bài viết đánh giá của khách hàng về sản phẩm. Các bước thực hiện gồm:
1. Trích chọn thuộc tính sản phẩm từ tập văn bản đánh giá Tiếng Anh bằng
phương pháp lan truyền kép, mẫu toàn bộ - bộ phận, mẫu No
14
2. Trích chọn thuộc tính sản phẩm từ văn bản đánh giá Tiếng Việt bằng phương
pháp lan truyền kép, mẫu toàn bộ - bộ phận, mẫu No
3. Sử dụng phương pháp HITS để xếp hạng theo mức độ quan trọng của các thuộc
tính
Phạm vi nghiên cứu và ứng dụng của các vấn đề trong lĩnh vực khai phá quan điểm
là rất rộng lớn. Giới hạn của luận văn này chỉ tập trung vào việc trích chọn ra thuộc
tính của sản phẩm và xếp hạng theo mức độ quan trọng của các thuộc tính. Cụ thể là
nghiên cứu các mô hình khai phá dữ liệu dựa trên thuộc tính được trình bày ở chương
2. Tiếp theo, chương 3 đề cập đến các phương pháp trích chọn và sắp xếp các thuộc
tính. Chương 4 là kết quả thực nghiệm và kết luận.
15
CHƯƠNG 2: TRÍCH CHỌN THUỘC TÍNH
2.1. Mô hình chung cho bài toán phân tích quan điểm
Hình 1. Mô hình chung cho bài toán phân tích quan điểm [15]
Khi người dùng chia sẻ quan điểm trên internet, dữ liệu ngày càng lớn và bị phân
tán nhiều nơi. Hình 1 thể hiện nhiệm vụ đối với bài toán khai phá quan điểm là tìm
trên Internet và lưu lại dưới dạng văn bản (Crawling). Sau đó những văn bản đó sẽ
được phân loại và xác định có phải là văn bản chứa quan điểm được chọn lọc để loại
bỏ văn bản không phải là thật (Detecting opinioned text). Tiếp theo là bước phân tích
quan điểm tùy theo mục đích của người nghiên cứu có thể gồm các chủ đề: Phân tích
tri thức của bài viết, câu (chủ quan/ khách quan, tích cực/tiêu cực/trung lập), trích chọn
và xếp hạng thuộc tính …..
2.2. Dữ liệu
Thuộc tính của sản phẩm chủ yếu được lấy từ đánh giá trực tuyến. Có hai loại đánh
giá trên Web:
Loại 1: Đánh giá ưu điểm, khuyến điểm và chi tiết: Các nhà phê bình được yêu cầu mô
tả ngắn gọn một số ưu điểm, khuyết điểm, cũng như viết một bài đánh giá chi tiết.
Loại 2: Định dạng tự do: Các nhà phê bình có thể viết một cách tự do mà không phải
tách ưu, khuyết điểm riêng.
Vậy để trích chọn các thuộc tính từ ưu và nhược điểm trong các bài viết thuộc loại
một. Những đánh giá dạng này thường ngắn gọn hoặc các câu được phân đoạn. Mỗi
đoạn câu thường chứa một thuộc tính, các phân đoạn câu thường được phân cách nhau
bởi dấu chấm, dấu phầy, dấu chấm phẩy, gạch ngang, và, nhưng … Quan sát này giúp
chúng ta có thể khai thác để thực hiện trích chọn chính xác hơn. Vì vậy việc trích chọn
tài liệu thuộc định dạng này là khá đơn giản và chúng ta chỉ xét đến tài liệu thuộc loại
hai. Tài liệu thuộc loại hai thường là tài liệu hoàn chỉnh.
16
2.3. Phương pháp trích chọn thuộc tính
2.3.1. Phương pháp lan truyền kép
Phương pháp lan truyền kép được đưa ra bởi G. Qiu, B. Liu [8] là phương pháp
trích chọn theo luật khá tự nhiên. Ví dụ một câu có chứa quan điểm:
“Canon G3 takes great picture”
Tính từ “great” được phân tích phụ thuộc trực tiếp vào danh từ “pictures”. Nếu ta
biết “great” là từ quan điểm và được trích theo luật “một danh từ mà từ quan điểm phụ
thuộc trực tiếp vào thì có thể được trích chọn”. Vì vậy, ta có thể trích chọn “pictures”
là một thuộc tính. Tương tự, nếu “pictures” là thuộc tính, chúng ta có thể trích chọn
“great” là từ quan điểm sử dụng luật tương tự. Dựa vào quan sát đó, ý tưởng phương
pháp lan truyền kép được thực hiện trích chọn từ quan điểm và thuộc tính dựa vào từ
quan điểm ban đầu.
Từ quan điểm có thể được tìm thấy dựa vào thuộc tính mà nó bổ nghĩa và các thuộc
tính cũng có thể trích chọn từ những từ quan điểm đó. Những từ quan điểm, thuộc tính
ban đầu được trích chọn sẽ bổ sung vào tập hạt giống để thực hiện tiếp việc trích chọn
những từ quan điểm và thuộc tính khác. Quá trình lan truyền thực hiện cho đến khi
không tìm được từ nào thì dừng lại. Phương pháp lan truyền này dựa vào hai yếu tố là
từ quan điểm và thuộc tính nên người ta gọi là lan truyền kép. Trích chọn từ quan điểm
và thuộc tính thực hiện bởi việc sử dụng luật dựa trên mối quan hệ khác nhau giữa
chúng, hoặc quan hệ giữa chính những từ quan điểm, thuộc tính đó. Mối quan hệ này
được thể hiện trên cây phân tích phụ thuộc (Tesniere 1959).
Dựa vào mô tả trên, việc đầu tiên Bing Liu và các cộng sự thực hiện là trích chọn
từ quan điểm. Bốn nhiệm vụ được thực hiện trong suốt quá trình lan truyền: trích chọn
từ quan điểm sử dụng từ quan điểm, trích chọn thuộc tính dựa vào từ quan điểm, trích
chọn từ quan điểm sử dụng thuộc tính, trích chọn thuộc tính sử dụng thuộc tính. Trong
đó có ba mối quan hệ sử dụng thực hiện để trích chọn: Quan hệ giữa từ quan điểm và
từ quan điểm với nhiệm vụ 1, từ quan điểm và thuộc tính với nhiệm vụ 2 và 3, thuộc
tính và thuộc tính với nhiệm vụ 4. Mối quan hệ đó được thể hiện trên cây phân tích cú
pháp phụ thuộc để phân tích câu.
Sau khi phân tích cú pháp, từ trong câu được kết nối với nhau bởi quan hệ. Trong
quan hệ phụ thuộc ngữ pháp, mối quan hệ giữa từ A và B được mô tả như A phụ thuộc
vào B hoặc ngược lại. Ví dụ trong câu đơn giản “I love Iphone”. Cả “I” và “Iphone”
đều phụ thuộc vào động từ “love” với quan hệ chủ ngữ và tân ngữ. Ngoài ra ta còn có
quan hệ phức tạp hơn ví dụ A phụ thuộc vào C, C phụ thuộc vào B trong câu “The
newly released iPod is amazing”, “newly” phụ thuộc vào “released”, “released” lại phụ
17
thuộc vào “iPod” và “iPod” phụ thuộc vào “is”. Vì vậy người ta tổng quát hóa và đưa
ra hai loại quan hệ giữa hai từ: Quan hệ trực tiếp, quan hệ gián tiếp.
Quan hệ trực tiếp (Direct relations - DR): Thể hiện cho quan hệ phụ thuộc của
một từ vào từ khác một cách trực tiếp hoặc cả hai đều phụ thuộc trực tiếp vào từ thứ
ba, thể hiện trong (a) và (b) của hình 1. Trong (a), B phụ thuộc trực tiếp vào A và
trong (b) cả hai đều trực tiếp phụ thuộc vào H.
Quan hệ gián tiếp (Indirect relation - IR):Thểhiện cho việc một từphụ thuộc vào
từ khác thông qua những từ khác hay cả hai phụ thuộc vào một từ thứ ba gián tiếp. Ví
dụ, trong (c) của hình 2, B phụ thuộc vào A thông qua H1; trong (d) hình 2, A phụ
thuộc vào H thông qua H1 trong khi B phụ thuộc vào H thông qua H2. Đối với một số
tình huống phức tạp, có thể có nhiều hơn một H1 hoặc H2. DR có thể là trường hợp
đặc biệt không có H1, H2 trong phụ thuộc.
H
B
A
B
a)
A
b)
B
H
H1
H1
B
c)
H1
d)
A
B
Hình 2. Quan hệ giữa trực tiếp và quan hệ gián tiếp [8]
DDS và IDD chỉ mô tả các cấu trúc liên kết của các phụ thuộc. Trong luận văn này,
ta sử dụng bộ gán nhãn từ loại POS TGGING để phân tích câu. Từ quan điểm ở đây là
tính từ và thuộc tính là danh từ hoặc cụm danh từ. Theo Hu và Bing Liu [5], các từ
được gán nhãn như sau: JJ cho tính từ, JJR cho các tính từ so sánh, JJS cho so sánh
nhất tính từ, với danh từ đơn được gán nhã là NN, cụm danh từ được gán nhãn là NNS.
Quan hệ phụ thuộc là quan hệ giữa từ quan điểm và thuộc tính bao gồm mod, pnmod,
subk,s obj, obj2, desc và quan hệ giữa chính quan điểm hoặc thuộc tính với nhau bởi
quan hệ kết hợp conj.
Sau đây là chi tiết của phương pháp lan truyền kép thực hiện bốn nhiệm vụ ở trên.
Cột 1 là tên quan hệ được đánh thứ tự. R1i để trích các từ quan điểm (s) sử dụng các từ
quan điểm words (Si), R2i để trích các từ quan điểm (s) sử dụng các thuộc tính (F), R3i
để trích các thuộc tính (f) sử dụng các từ quan điểm (S) và R4i để trích các thuộc tính
18
(f) sử dụng các thuộc tính đã được trích (Fi). Cột 2 là các mối quan hệ được quan sát
giữa hai từ, cột 3 thể hiện sự ràng buộc của mối quan hệ, cột 4 là kết quả. Mũi tên thể
hiện sự phụ thuộc. Ví dụ, SS-Dep F có nghĩa S phụ thuộc vào F thông qua một
mối quan hệ S-Dep.
Quan sát
Ràng buộc
R11
Si(j)Si(j)-DepSj(i)
Si(j){S}, Si(j) -Dep{CONJ},
POS(Si(j)) {JJ}
s = Si(j)
R12
SS-DepHF-DepF
s = Sj
R21
S S-DepF
R22
S S-Dep H F-Dep F
R31
S S-DepF
R32
SS-DepH F-Dep F
R41
Fi(j)Fi(j)-DepFj(i)
R42
FiFi-Dep H Fj-Dep
Fj
Si {S}, Si-Dep==Sj-Dep,
POS(Sj) {JJ}
F {F}, S-Dep {MR},
POS(S) {JJ}
F{F}, S/F-Dep{MR},
POS(S) {JJ}
S{S}, S-Dep{MR},
POS(F) {NN}
S{S}, S/F-Dep{MR},
POS(F) {NN}
Fj(i){F}, Fi(j)Dep{CONJ},
POS(Fi(j)) {NN}
Fi{F}, Fi-Dep==Fj-Dep,
POS(Fj) {NN}
s=S
s=S
f=F
f=F
f=Fi(j)
f=Fj
Hình 3. Các luật để trích từ quan điểm và thuộc tính [8].
Trong bảng, s nghĩa là từ quan điểm còn f là thuộc tính được trích. {S}(or {F}) và
S(or F)-Dep là các từ quan điểm hoặc thuộc tính đã biết đã biết và mối quan hệ phụ
thuộc của S(or F) theo thứ tự tương ứng. H có nghĩa là một từ bất kỳ. POS(S(or F)) là
thông tin từ loại của S(or F). {JJ} và {NN} là tập các nhãn từ loại của các từ quan
điểm và thuộc tính tiềm năng tương ứng (JJ: là nhãn từ loại tính từ và NN: là nhãn từ
loại danh từ). Ở đây, tác giả xem xét các từ quan điểm là các tính từ còn thuộc tính là
danh từ hoặc cụm danh từ. Khi đó, {JJ} ban gồm JJ, JJR (các tính từ dạng so sánh hơn)
và JJS (các từ dạng so sánh hơn nhất). {NN} bao gồm NN và NNS, là viết tắt cho danh
từ số ít và danh từ số nhiều. Tuy nhiên, có các trường hợp mà các đánh giá sử dụng các
đại từ để tham chiếu đến các thuộc tính đã được đề cập trước đó. Do đó, các tác giả
cũng xem xét các đại từ như là các thuộc tính. Trong đó, họ sử dụng “it” và “they”.
{MR} bao gồm các mối quan hệ phụ thuộc mô tả các mối quan hệ giữa các từ quan
điểm và các thuộc tính, như mod có nghĩa là một từ bổ nghĩa cho một từ khác. Các
mối quan hệ phụ thuộc khác (MRs) bao gồm: subj, obj, pnmod, etc. {CONJ} là mối
quan hệ của liên từ và chỉ bao gồm liên từ.
19
Dưới đây mô tả chi tiết thuật toán lan truyền kép. Trong thuật toán, từ quan điểm O
và dữ liệu đánh giá R về sản phẩm được cung cấp là đầu vào. Các bước thực hiện theo
thứ tự dưới đây, nó dừng khi không có từ quan điểm hoặc thuộc tính nào được thêm
vào. Chúng ta sẽ mô tả thuật toán bằng ví dụ sau. Giả sử chúng ta có bốn câu trong
đánh giá:
Canon G3 takes great pictures. The picture is amazing. You may have to get more
storage to store high quality pictures and recorded movies. The software is amazing.
Giả sử ta có từ đầu vào là “great”, từ dòng 4 đến dòng 6 trong thuật toán chúng ta
có thể trích chọn được thuộc tính“picture” dựa vào R11. Từ thuộc tính này, ta xác định
thêm được “amazing” là một từ quan điểm sử dụng thuật toán từ dòng 16 đến 18 dựa
vào R22 và “movies” cũng là một thuộc tính sử dụng dòng từ 13 đến 15 dựa vào R31.
Dựa vaof từ quan điểm “amazing”, “software” được trích chọn như là thuộc tính bởi
việc sử dụng từ dòng 4 đến 6 theo luật R12. Qua đó chúng ta có thể thấy, ba thuộc tính
và những từ quan điểm được trích chọn trong đánh giá mà chỉ sử dụng một từ quan
điểm.
Input: Opinion Word Dictionary {O}, Review Data R
Output: All Possible Features {F} , The Expanded Opinion Lexicon {O-Expanded}
Function:
1. {O-Expanded}={O}
2. {Fi}= Ø, {Oi}= Ø
3. for each parsed sentence in R
4. if (Extracted features not in { F})
5. Extract features {Fi using R11 and R12 based on opinion words in {O-Expanded}
6. endif
7. if (Extracted opinion words not in {O - Expanded})
8 Extract new opinion words {O’ using R21 and R22 based on opinion words in {OExpanded}
9. endif
10. endfor
11. Set F=F+Fi,{O - Expanded}={O - Expanded}+Oi
12. for each parsed sentence in R
13. if(Extracted features not in { F})
14. Extract features {F’} using R31, and R32 based on features in {Fi}
15. endif
16. if (Extracted opinion words not in {O-Expanded})
17. Extract opinion words {O'} using R21 and R22 based on features in {Fi}
18. endif
19. end for
20. Set {Fi}={ Fi} +{F'}, {Oi} ={Oi}+{O’}
21. Set {F}={ F} +{F'}, {O-Expanded} ={O-Expanded}+{O’}
22. Repeat 2 till size({F1})=O, size({Oi} )=0
Hình 4. Thuật toán lan truyền kép[8]
20
2.3.2. Phương pháp trích chọn dựa vào quan hệ bộ phận - toàn bộ, mẫu “No”
Trong trích chọn thuộc tính, phương pháp sử dụng quan hệ toàn bộ - bộ phận và
mẫu “No” [1] là phương pháp cho kết quả tốt.
Trước hết ta xét quan hệ toàn bộ - bộ phận. Đây là quan hệ thể hiện một danh từ
hoặc cụm danh từ là bộ phận hoặc có bộ phận là danh từ hoặc cụm danh từ còn lại. Ví
dụ “car hood”. Chúng ta biết “car” thuộc vào lớp đã được định nghĩa trước thì “hood”
chính là thuộc tính cần được trích chọn. Việc trích chọn ở đây chủ yếu vào các luật
trong câu, có những câu thể hiện cấu trúc rõ ràng, dễ dàng áp dụng các luật, có những
câu có cấu trúc không rõ ràng nên việc xác định thuộc tính có thể không chính xác. Ví
dụ với câu có cấu trúc rõ ràng mà việc xác định thuộc tính gặp trường hợp sai “valley
on the mattress” và “toy on the mattress”. Trong câu thứ nhất, chúng ta có thể dễ dàng
xác định thuộc tính của “mattress” là “valley” nhưng trong câu thứ hai thì “toy” không
phải thuộc tính của “mattress”.
Ví dụ với câu có cấu trúc không rõ ràng
“The camera consists of lens, body and power cord. The bed was made of wood”
Câu thứ nhất ta vẫn có thể dễ dàng xác định thuộc tính của “camera” là “lens”,
“body” và “cord” nhưng câu thứ hai thì “bed” không phải là thuộc tính của “wood”.
Tuy nhiên, các thuộc tính sau khi trích chọn sẽ được sắp xếp mức độ quan trọng, các
thuộc tính không quan trọng hoặc sau sẽ có chỉ số thấp và bị loại. Đối với phương
pháp toàn bộ - bộ phận, người ta tách ra làm hai mẫu nhỏ hơn: cụm từ và câu.
Thứ nhất, ta xét với cụm từ. Các cụm từ trong câu chứa thuộc tính sẽ thuộc một
trong các loại mẫu sau
- NP + Prep + CP: Np là danh từ hoặc cụm danh từ chứa đựng từ bộ phận và CP có
chứa từ toàn bộ. Chúng được nối bởi giới từ Prep. Ví dụ, "battery of the camera", NP battery là danh từ bộ phận và CP –camera là danh từ toàn bộ. Các giới từ thường dùng
để kết nối giữa NP và CP là "of", "in" và "on".
- CP + with + NP: CP là từ toàn bộ, NP là cụm danh từ hoặc danh từ. Chúng được nối
với nhau bằng từ "with". Ở đây NP là có khả năng là một thuộc tính. Ví dụ, trong câu
"mattress with a cover","cover" là một thuộc tính của mattress.
- NP CP hay CP NP: NP là danh từ hoặc cụm danh từ, cụm từ CP là từ toàn bộ.
Chúng được đặt liền nhau tạo thành một cụm từ. Ví dụ cụm "mattress pad" thì "Pad"
là một thuộc tính của "mattress".
-
21
Thứ hai, ta xét với cấu trúc câu. Trong câu sẽ rộng hơn trong cụm từ vì chúng còn
bao gồm bộ phận khác quan trọng là động từ. Một số động từ cũng thể hiện quan hệ bộ
phận – toàn bộ như: "has", "have" "include""contain" "consist", “comprise”…
CP Verb NP: CP là từ toàn bộ, NP là cụm danh từ có chứa các từ bộ phận và động từ
là một số các động từ đặc biệt. Ví dụ câu, "the phone has a big screen" thì"screen" là
một thuộc tính của "phone".
Bên cạnh từ quan điểm và mối quan hệ bộ phận – toàn bộ, mẫu “No” cũng là một
mẫu quan trọng cho thấy các thuộc tính trong một kho ngữ liệu. Ở đây “No” thể hiện
cho từ “no”. Dạng cơ bản của mẫu “No” là từ theo sau bởi danh từ hoặc cụm danh từ.
Mẫu này thường gặp trên các diễn đàn, người dùng thường thể hiện quan điểm trên các
thuộc tính bởi mẫu đơn giản này. Ví dụ, trong dữ liệu về đệm, mọi người thường nói
rằng “no noise” và “no indentation”.Ở đây “noise” và “indentation” là các thuộc tính
của mattress. Qua thực nghiệm người ta thấy rằng mẫu này thường trích được thuộc
tính có độ chính xác cao. Cũng không ngoại lệ, mẫu này cũng có những trường hợp
đặc biệt, các danh từ hay cụm danh từ đi kèm không phải là thuộc tính mà chúng ta
cần trích chọn như “no problem”, “no offtense”.
2.4. Trích chọn đặc trưng trong văn bản đánh giá bằng Tiếng Việt
Chúng ta xem xét thuộc tính sản phẩm là danh từ hoặc cụm danh từ, từ chứa quan
điểm không chỉ là tính từ mà còn là động từ vì ngoài tính từ thì động từ trong Tiếng
Việt đôi khi cũng bày tỏ ý kiến. Ví dụ, đối với câu “ Tôi thích màu sắc điện thoại này”,
“ màu sắc” – cụm danh từ là một thuộc tính sản phẩm và “thích” – động từ là một từ
quan điểm.
Do đó, chúng ta kết hợp các quy tắc cú pháp Tiếng Việt với các phương pháp trích
chọn thuộc tính sản phẩm được nêu ở trên để có được các thuộc tính Tiếng Việt. Trong
cụm danh từ Tiếng có cấu trúc cơ bản như sau: <Từ đằng trước>
tâm><Từ phía sau>. Chúng ta định nghĩa như sau:
Từ đằng trước là từ phân loại ví dụ như con, cái, chiếc, quả … hoặc lượng từ
như mỗi, các ….
Từ phía sau là đại từ như này, đó….
Một cụm danh từ có thể bao gồm từ phía trước hoặc từ phía sau. Tuy nhiên, nó
phải có danh từ trung tâm
Chúng ta sẽ dử dụng cấu trúc này để trích cụm danh từ sau khi dữ liệu đã được gán
nhãn bởi VietTager.
22
Trích thuộc tính sản phẩm
Thuộc tính sản phẩm rõ ràng được thể hiện ngay trong câu trong đánh giá của
khách hàng. Ví dụ “Màn hình cảm ứng của chiếc Iphone 4 này rất tuyệt”. “Màn hình
cảm ứng” là một thuộc tính sản phẩm. Việc trích chọn thuộc tính sản phẩm rõ ràng dựa
vào ba luật là part-whole relation, “No” patterns và double propagation.
Part-whole relation: Thuộc tính sản phẩm là một phần của đối tượng, có thể là tên
sản phẩm hoặc được thể hiện theo các từ “máy” (điện thoại di động), “em” ( điện
thoại) …vì vậy, chúng ta có thể sử dụng các quy tắc để trích xuất các thuộc tính sản
phẩm như sau:
N/NP + prep + O. N/Np được định nghĩa như là thuộc tính sản phẩm. Ví
dụ, chúng ta thêm “từ” trong danh sách giới từ vào giữa như sau: “Màn hình
<N> từ
điện thoại <O>” -> “màn hình” là thuộc tính
O + với + N/NP. N/NP là thuộc tính. Ví dụ, “Samsung Galaxy Tab<O> với
những tính năng<NP>hấp dẫn”. “Những tính năng” là NP → “tính năng” là
thuộc tính được trích chọn.
(N/NP + O) hoặc (O + N/NP). N/Np là thuộc tính. Ví dụ, màn hình <N>
Nokia E63 <O>, Nokia E63<O> màn hình<N> -> màn hình là từ quan điểm
O + V + N/NP. N/Np là từ thuộc tính. Ví dụ, Iphone <0> có những tiện tích
<NP> -> tiện ích là từ thuộc tính
Mẫu “No”. Các cụm từ mà có cấu trúc Không/không có/thiếu/… + N/NP.
N/Np là từ thuộc tính. Ví dụ “không có GPRS <N>”, “không Java game<N>”
GPRS và Java đều là từ thuộc tính. Tuy nhiên chúng ta cũng cần chú ý đến các cụm
như “không vấn đề gì”. Trong trường hợp này, “vấn đề” không được xem là từ
thuộc tính. Vậy chúng ta sẽ xây dựng một danh sách đen để đưa những từ như vậy
vào
Lan truyền kép
Cũng như việc sử dụng phương pháp này bằng tiếng anh, với Tiếng Việt, ta cũng sử
dụng từ quan điểm để trích chọn từ thuộc tính. Phương pháp này dựa trên mối quan hệ
giữa từ quan điểm và từ thuộc tính. Trong Tiếng Việt, có một quan hệ {MR} giữa
thuộc tính sản phẩm và từ quan điểm. Quan hệ này bao gồm ba loại:
Determine: Xác định vị trí của bổ ngữ cho danh từ trong câu
Add: Xác định vị trí của bổ ngữ và bổ ngữ trạng từ cho động từ trong câu
23
Sub – pre: Xác định vị trí cả chủ ngữ và vị ngữ trong câu
A → {MR} → N/NP. Ví dụ, “đầy đủ tính năng” trong đó “ đầy đủ <A>”
{determine}”tính năng <N>”. Thuộc tính là “tính năng”.
V ← {MR} ← N/NP. Ví dụ “Tôi rất thích chiếc camera này”, “thích<V>
{add}”chiếc camera này<NP>, thuộc tính là “camera”.
N/NP → {MR}1 → V ← {MR}2 ← A. Ví dụ, “Màn hình hiển thị rõ nét”. “Màn
hình<N>”{sub-pre}hiển thị<V>{add} “rõ nét<A>”. Thuộc tính là “màn
hình”.
N/NP → {MR} → A. Ví dụ, “Màn hình này tốt”, “màn hình<N>”{subpre}”tốt<A>”. Thuộc tính là “màn hình”
- Sử dụng thuộc tính đã trích chọn để trích chọn thuộc tính mới
N/NP1 → {conj} → N/NP2. N1/CN trong NP1 hoặc N2/CN trong NP2 là thuộc
tính sản phẩm đã được trích chọn trước đó. {Conj} có thể là từ nối, dấu chấm phẩy,
…. Ví dụ như câu “camera, màn hình và bàn phím đếu rất tuyệt”, với “camera” là
thuộc tính đã được trích chọn trước đó. Hai thuộc tính mới được trích chọn là “màn
hình” và “bàn phím”
2.5. Ưu điểm và nhược điểm của các phương pháp
Phương pháp đầu tiên, chúng ta xem xét là phương pháp “Lan truyền kép” (Double
propagation). Trong phương pháp này, giả sử rằng thuộc tính là danh từ, cụm danh từ
và từ quan điểm là tính từ. Nó lan truyền thuộc tính của sản phẩm và từ quan điểm
cùng một lúc. Lợi thế lớn nhất là không cần bổ sung từ vựng ngoại trừ một số từ vựng
chứa quan điểm ban đầu. Dó đó, đây được coi là phương pháp độc lập và không có
giám sát, tránh việc tốn thời gian ghi nhãn dữ liệu như các phương pháp học có giám
sát. Phương pháp này hoạt động tốt với dữ liệu có kích thước trung bình. Đối với dữ
liệu lớn, phương pháp này có thể dẫn tới trích nhiều cụm danh từ, danh từ mà không
phải là thuộc tính sản phẩm. Độ chính xác của phương pháp này sẽ giảm dần vì trong
quá trình truyền, tính từ mà không phải là từ chứa quan điểm sẽ được trích chọn như là
từ quan điểm ví dụ như “entire” và “current”. Những tính từ này không là từ quan
điểm nhưng chúng có thể bổ nghĩa cho nhiều danh từ, cụm danh từ, do đó dẫn tới việc
trích chọn những thuộc tính không đúng. Ngoài ra, một vài thuộc tính quan trọng
không được các từ chứa quan điểm bổ nghĩa cũng không được trích chọn. Ví dụ về
đánh giá điện thoại “Đây là camera của điện thoại”. Camera là thuộc tính nhưng từ
camera không có từ quan điểm đi kèm, nhất là với bộ dữ liệu nhỏ. Vì vậy, lan truyền
kép không sử dụng trong những trường hợp như vậy.