Tải bản đầy đủ (.pdf) (77 trang)

Phát hiện văn bản chủ quan trong khai phá quan điểm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.98 MB, 77 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----*-----

NGUYỄN NGỌC TRƯỜNG

PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG
KHAI PHÁ QUAN ĐIỂM

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----*-----

NGUYỄN NGỌC TRƯỜNG

PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG
KHAI PHÁ QUAN ĐIỂM
Ngành: Công Nghệ Thông Tin
Chuyên ngành: Kỹ Thuật Phần Mềm
Mã số: 60.48.10
LUẬN VĂN THẠC SĨ
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ ANH CƯỜNG

Hà Nội - 2015




NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
………………………………………………………………………….


LỜI CÁM ƠN
Để hoàn thành luận văn “Phát hiện văn bản chủ quan trong khai phá quan
điểm” này, tôi đã nhận được sự hướng dẫn và giúp đỡ nhiệt tình của các Thầy Cô, các
Anh Chị và các Bạn.
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành đến Ban lãnh đạo cùng quý
Thầy Cô trong khoa Công nghệ thông tin - Trường Đại Học Công Nghệ, Đại Học
Quốc Gia Hà Nội đã tận tình dạy dỗ, truyền đạt kiến thức, kinh nghiệm quý báu và tạo

điều kiện thuận lợi cho tôi trong suốt thời gian học tập tại trường và thực hiện đề tài.
Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo hướng dẫn, PGS TS.
Lê Anh Cường, người đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực
hiện đề tài.
Tôi cũng xin gửi lời cảm ơn tới nghiên cứu sinh Nguyễn Thị Xuân Hương và
các Anh Chị, các Bạn sinh viên trong nhóm nghiên cứu đã hỗ trợ tôi rất nhiều trong
quá trình thực hiện luận văn này. Tôi xin gửi lời cảm ơn tới các Bạn trong khóa K19
đã ủng hộ và khích lệ tôi trong suốt thời gian học tập tại trường.
Tôi xin trân trọng gửi đến Gia đình, Bạn bè và Người thân những tình cảm tốt
đẹp nhất đã giúp đỡ động viên tôi trong suốt quá trình học tập cũng như thực hiện và
hoàn thành luận văn.
Mặc dù tôi đã cố gắng để hoàn thành luận văn một cách tốt nhất nhưng có thể
sẽ không tránh khỏi thiếu sót. Kính mong nhận được sự cảm thông và chỉ bảo của quý
Thầy Cô, các Anh Chị và các Bạn.

Hà Nội, ngày 01/11/2015
Học viên

Nguyễn Ngọc Trường


TÓM TẮT NỘI DUNG
Trong những năm gần đây, nghiên cứu về khai phá quản điểm đã nhận được sự
quan tâm rộng rãi của các nhà nghiên cứu, các công ty hàng đầu về lĩnh vực công nghệ
thông tin như: Yahoo, Google, Microsoft, IBM…, các hội nghị lớn về trích chọn thông
tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL,..) và đã đạt được những kết quả hữu
ích và mang lại lợi ích to lớn về cả mặt khoa học lẫn công nghiệp. Tuy nhiên, đối với
ngôn ngữ Tiếng Việt, các nghiên cứu về vấn đề này còn khá khiêm tốn và có rất nhiều
các bài toán đặt ra cần được tiếp tục nghiên cứu và phát triển.
Luận văn “Phát hiện văn bản chủ quan trong khai phá quan điểm” tập trung

vào khảo sát các phương pháp đã được áp dụng cho các ngôn ngữ khác trên thế giới,
đặc biệt tập trung nghiên cứu để áp dụng cho ngôn ngữ tiếng Việt. Trên cơ sở áp dụng
các nghiên cứu đó và các công cụ xử lý ngôn ngữ tiếng Việt, luận văn tiến hành thực
nghiệm việc phân lớp văn bản chủ quan - khách quan cho các bình luận từ các trang
bằng tiếng Việt. Chúng tôi đã sử dụng một số đặc trưng để phân loại văn bản chủ quan
như bag of word, trích chọn các động từ và tính từ và áp dụng các phương pháp học
máy thống kê cho bài toán này. Các kết quả ban đầu đạt được khá khả quan.
Nội dung luận văn được trình bày trong 4 chương như sau:
Chương 1 – Giới thiệu chung về khai phá quan điểm. Chương này giới thiệu
những nội dung cơ bản nhất, cung cấp một cái nhìn khái quát về khai phá quan điểm,
đồng thời cũng mô tả một số khái niệm cơ bản, cách tiếp cận, ý nghĩa và một số bài
toán điển hình đặt ra trong khai phá quan điểm.
Chương 2 – Các nghiên cứu và phương pháp giải quyết. Chương này giới
thiệu chung về một số tiếp cận phân lớp văn bản đã được đề xuất áp dụng cho bài toán
khai phá quan điểm.
Chương 3 - Bài toán phát hiện văn bản chủ quan trong khai phá quan
điểm. Chương này mô tả chi tiết bài toán phát hiện văn bản chủ quan, một số nghiên
cứu hiện tại bao gồm cả các nghiên cứu trong tiếng Việt được áp dụng để giải quyết
bài toán.
Chương 4 - Thực nghiệm phân lớp trên hai miền dữ liệu sản phẩm và giá
xăng. Chương này môt tả thực nghiệm từ việc tiến hành thu thập dữ liệu, thực hiện
tiền xử lý dữ liệu; sau đó tiến hành trích chọn một số đặc trưng và phân lớp chủ quan
theo hai phương pháp Naive Bayes, SVM. Cuối cùng, tổng hợp và đánh giá kết quả
cho từng phương pháp.


Lời cam đoan
Tôi xin cam đoan luận văn với đề tài “Phát hiện văn bản chủ quan trong khai
phá quan điểm” là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả được trình
bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ

một công trình nào khác.
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan
ở trong nước và quốc tế.
Trong các nội dung được trình bày trong luận văn, tôi đã thể hiện rõ ràng và
chính xác những gì do tôi đóng góp.
Luận văn này được hoàn thành trong thời gian tôi làm Học viên tại Khoa Công
Nghệ Thông tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội.

Học viên

Nguyễn Ngọc Trường


MỤC LỤC
Chương 1: Giới thiệu chung về khai phá quan điểm ............................................................ 6
1.1. Tổng quan................................................................................................................... 6
1. .

kiện

act v quan điểm (Opinions) .................................................................. 9

1.3. Định nghĩa quan điểm ................................................................................................ 9
1.4. Một ố b i toán điển hình trong phân tích quan điểm.............................................. 11
1.5. Vai trò v các ứng dụng ........................................................................................... 15
1.6. Những khó khăn v thách thức trong khai phá quan điểm tiếng Việt ..................... 18
Chương : Bài toán phân lớp v phân tích quan điểm ....................................................... 20
.1. Các b i toán phân lớp ............................................................................................... 20
2.2. Phân lớp quan điểm .................................................................................................. 21
.3. Quá trình phân lớp ................................................................................................... 21

.4. Khái quát một ố phương pháp phân lớp văn bản ................................................... 22
.4.1. Phân lớp d a trên luật ........................................................................................ 22
.4. . Phân lớp

dụng các phương pháp học máy có giám át ................................. 23

.4.3. Phân lớp

dụng học máy không giám sát ....................................................... 34

.4.4. Phân lớp

dụng học máy bán giám át ........................................................... 35

2.5. Kết luận chung ......................................................................................................... 36
Chương 3: Phát hiện văn bản chủ quan trong khai phá quan điểm .................................... 37
3.1. Phân biệt chủ quan v khách quan ........................................................................... 37
3.1.1. Thông tin chủ quan ............................................................................................ 37
3.1.2. Thông tin khách quan ........................................................................................ 37
3. . B i toán «Xây d ng bộ phân lớp để phân lớp các văn bản v o một trong hai lớp chủ
quan hoặc khách quan» ................................................................................................... 39
3. .1. Phát biểu b i toán .............................................................................................. 39
3. . . Mô tả b i toán .................................................................................................... 39
3.3. Trích chọn đặc trưng ................................................................................................ 39
3.3.1. Đặc trưng v cách biểu diễn .............................................................................. 39
3.3. . Vấn đề trích chọn đặc trưng .............................................................................. 46
3.3.3. Phương pháp trích chọn đặc trưng .................................................................... 47
3.4. Áp dụng một ố phương pháp phân lớp ................................................................... 53
Chương 4: Th c nghiệm phân lớp cho hai miền dữ liệu .................................................... 54
4.1. Môi trường th c nghiệm .......................................................................................... 54

4.1.1. Phần cứng .......................................................................................................... 54
1


4.1. . Phần mềm v các công cụ ................................................................................. 54
4. . Quá trình th c nghiệm ............................................................................................. 55
4. .1. Dữ liệu ử dụng cho th c nghiệm ..................................................................... 55
4. . . Th c hiện gán nhãn dữ liệu ............................................................................... 57
4. .3. Trích chọn đặc trưng trong hệ thống của chúng tôi .......................................... 58
4. .4. Bộ phân lớp Naive Baye .................................................................................. 60
4. .5. Bộ phân lớp VM .............................................................................................. 63
4.3. Đánh giá kết quả ...................................................................................................... 66
4.3.1. Phương pháp đánh giá ....................................................................................... 66
4.3. . Nhận xét............................................................................................................. 67
Kết Luận ............................................................................................................................. 68
T i liệu tham khảo .............................................................................................................. 70

2


Danh sách hình vẽ
ình 1.1: Tốc độ tăng trưởng tên miền Tiếng Việt .............................................................. 7
ình 1. : Độ tuổi người ử dụng Internet o với tổng dân ố ở Việt Nam .......................... 8
ình 1.3: Tổng hợp quan điểm về một chiếc điện thoại .................................................... 14
ình 1.4: Tổng hợp các kiến o ánh giữa hai chiếc điện thoại với nhau ....................... 14
ình 1.5: Khai phá quan điểm người dùng ........................................................................ 16
ình 1.6: Trang web entiment140 với từ khóa tìm kiếm l iphone 6 .............................. 17
ình 1.7: Kết quả phân lớp quan điểm của entiment140 .................................................. 18
ình .1: Ví dụ về bộ phân lớp nhị phân VM .................................................................. 20
ình . : Ví dụ mô hình phân lớp ử dụng học máy có giám át ...................................... 22

ình .3: Ví dụ về cây quyết định ...................................................................................... 25
ình .4: Mô hình phân lớp ử dụng bộ phân lớp Naive Baye ........................................ 26
ình .5: iêu phẳng với lề c c đại cho một VM phân tách dữ liệu thuộc hai lớp ......... 32
ình .6: phân lớp VM ử dụng một ố các h m nhân .................................................... 34
ình 3.1: Mô hình biểu diễn chủ quan v khách quan ....................................................... 37
ình 3. : Mô hình không gian vector của Chri tian . Perone .......................................... 41
ình 3.3: Biểu diễn văn bản dưới dạng vector ................................................................... 42
ình 3.4: Biểu diễn văn bản dưới dạng vector term frequency.......................................... 42
ình 3.5: Tạo dữ liệu huấn luyện ử dụng bộ phân lớp d a trên luật ................................ 48
ình 4.1: Minh họa chương trình thu thập các bình luận trên báo điện tử ........................ 56
ình 4. : Minh họa chương trình thu thập các bình luận trên trên mạng xã hội ............... 56
ình 4.3: Giao diện giới thiệu chương trình thu thập các bình luận .................................. 57
ình 4.4: Minh họa xây d ng từ điển đặc trưng ................................................................ 59
ình 4.5: Giao diện form học từ dữ liệu huấn luyện Training ........................................ 61
ình 4.6: Giao diện form th c hiện phân lớp NB Cla ify ........................................... 62
ình 4.7: Giao diện form giới thiệu chương trình About ................................................ 62
ình 4.8: Minh họa biểu diễn dữ liệu huấn luyện .............................................................. 63
ình 4.9: Minh họa mảng các vector huấn luyện ............................................................... 63
ình 4.10: Giao diện form th c hiện phân lớp VM Cla ify ........................................ 64
ình 4.11: Giao diện form chuyển đổi văn bản text ang vector ....................................... 65
ình 4.1 : Giao diện giới thiệu chương trình phân lớp ử dụng VM .............................. 65

3


Danh sách bảng
Bảng .1: Các mẫu cú pháp v ví dụ trong tiếng Anh ........................................................ 24
Bảng . : Dữ liệu huấn luyện ử dụng cho cây quyết định ................................................ 25
Bảng .3: Phương pháp học bán giám át elf-training ..................................................... 35
Bảng .4: Phương pháp học bán giám át Co-training ....................................................... 36

Bảng 3.1: o ánh thông tin chủ quan v khách quan ........................................................ 38
Bảng 3. : Trích chọn mẫu loại một .................................................................................... 51
Bảng 3.3: Một ố mẫu trong tập tốt nhất của các mẫu v trích chọn cụm từ kiểu 1 .......... 51
Bảng 3.4: Trích chọn mẫu loại hai...................................................................................... 52
Bảng 3.5: Một ố mẫu trong tập tốt nhất của các mẫu v trích chọn cụm từ kiểu .......... 52
Bảng 4.1: Cấu hình phần cứng hệ thống thử nghiệm ......................................................... 54
Bảng 4. : Danh ách một ố phần mềm v công cụ th c nghiệm ...................................... 54
Bảng 4.3: ố lượng mẫu bình luận dùng trong th c nghiệm .............................................. 55
Bảng 4.4: Minh họa quá trình gán nhãn dữ liệu ................................................................. 58
Bảng 4.5: Kết quả th c nghiệm với bộ phân lớp Naïve Baye ........................................... 61
Bảng 4.6: Kết quả th c nghiệm với bộ phân lớp VM ...................................................... 64
Bảng 4.7: Kết quả tổng hợp ................................................................................................ 67

Danh mục từ viết tắt
Ký hiệu viết tắt

Viết đầy đủ

Ý nghĩa

SVM

support vector machine

Máy hỗ trợ vector

MEM

maximum entropy model


Mô hình entropy c c đại

POS

Part of Speech

Nhãn từ loại

NLP

Natural Language Processing

Xử l ngôn ngữ t nhiên

IR

Information Retrieval

KDD

Knowledge Discovery in
Databases

Phát hiện tri thức trong cơ ở dữ
liệu

HMM

Hidden Markov Model


Mô hình Markov ẩn

TSVM

Transductive Support Vector
Machine

Máy hỗ trợ vector truyền dẫn

SGT

Spectral Graph Transductive

Đồ thị quang phổ truyền dẫn

TF*IDF

Term Frequency–Inverse
Document Frequency

Phương pháp tính trọng ố nghịch
đảo văn bản

LibSVMsharp

A Library for Support Vector
Machines LibSVM

Thư viện chạy VM


ệ thu thập thông tin

4


Một số thuật ngữ được sử dụng
Tên thuật ngữ

Mô tả

Positive, negative, Tích c c, tiêu c c hoặc trung tính
or neutral
Objective
sentence

Câu khách quan

Subjective
sentence

Câu chủ quan

Cộng đồng mạng

Ý kiến, quan điểm của mọi người trên Internet về một vấn đề xã
hội.

kiện xã hội

Những vấn đề quan trọng của đất nước m nhiều người quan tâm

theo dõi hoặc có ảnh hưởng đến nhiều người, nhiều tầng lớp trong
xã hội. VD: “tranh chấp biển đông”, “lấy phiếu tín nhiệm”, “đăng
k xe chính chủ”, “tăng giá điện”, “điều chỉnh chính ách inh từ
1- con”…

5


Chương 1: Giới thiệu chung về khai phá quan điểm
1.1. Tổng quan
Internet đã v đang phát triển với tốc độ chóng mặt không chỉ ở kích thước m còn
ở các loại hình dịch vụ v nội dung được cung cấp. Người dùng cá nhân đang tham gia
tích c c hơn v tạo ra ố lượng lớn các dữ liệu mới. Những nội dung Web mới được tạo ra
bao gồm các đánh giá của khách h ng, các blog cá nhân b y tỏ kiến về các ản phẩm &
dịch vụ,… - được gọi chung l dữ liệu phản hồi của người dùng trên Web. Những nội
dung được phản hồi từ các khách h ng không những bùng nổ về dung lượng m còn đa
dạng về nội dung như các nhận xét, bình luận về ản phẩm, dịch vụ, văn hóa, chính trị, xã
hội, thể thao, nghệ thuật,… Việc khai thác hiệu quả các thông tin n y ẽ mang lại giá trị
hữu ích cho các Doanh nghiệp để đưa ra chiến lược xây d ng kế hoạch tiếp thị v phát
triển ản phẩm, cho các nh hoạch định chính ách, xã hội xác định những xu hướng phát
triển v những vấn đề đang được quan tâm để đưa ra những chương trình h nh động phù
hợp.
Sự phát triển Internet ở Việt Nam
Internet ở Việt Nam được hình th nh v phát triển từ năm 1997. Từ đó đến nay,
Việt Nam luôn được đánh giá l một trong những quốc gia có ố người ử dụng internet
tăng nhanh nhất hằng năm. Theo Báo cáo t i nguyên internet Việt Nam 014, trong 17
năm phát triển của internet Việt Nam, t i nguyên internet - tham ố định danh phục vụ cho
hoạt động internet tên miền.vn, địa chỉ IP, ố hiệu mạng đã tăng trưởng mạnh mẽ, tạo
điều kiện thuận lợi cho
phát triển của internet Việt Nam. Tính đến cuối năm 014: ố

lượng tên miền “.vn” duy trì th c tế trên mạng l 91.103 tên. Đạt tỷ lệ tăng trưởng 13%,
đứng đầu ở Đông Nam Á v đứng thứ 7 tại Châu Á. Tên miền ".vn" giữ được tốc độ tăng
trưởng tốt ngay cả những giai đoạn khó khăn của nền kinh tế trong nước v thế giới.
ố lượng tên miền Tiếng Việt l 1.015.701 tên. Tỷ lệ tăng trưởng l 6.73% v l
quốc gia dẫn đầu Thế Giới về tốc độ tăng trưởng [42].

6


nh 1.1: Tốc độ tăng trưởng tên miền Tiếng Việt

Những năm gần đây, việc đăng k ử dụng t i nguyên internet ở Việt Nam gia tăng
một cách đáng kể, đặc biệt l các tổ chức có mạng lưới kết nối đa hướng ử dụng ố hiệu
mạng A N v vùng địa chỉ độc lập. Điều n y thể hiện
phát triển đa dạng trong mạng
lưới hạ tầng thông tin, trong đó người ử dụng không ho n to n lệ thuộc v o mạng của các
nh cung cấp, các loại hình dịch vụ kết nối tốc độ cao có mức độ tăng trưởng nhanh
chóng. Dịch vụ truy cập internet qua hạ tầng di động 3G phát triển vượt bậc nhờ
tiện
lợi trong ử dụng v
phổ biến của các thiết bị di động. Tốc độ, kết nối internet trong
nước v quốc tế ng y c ng nhanh, phục vụ đắc l c cho việc phát triển về ố lượng người
ử dụng v dịch vụ.
Từ năm 010 đến nay, Việt Nam đã liên tục đứng trong top 0 quốc gia có ố
người dùng Internet lớn nhất thế giới với tỷ lệ hơn 30% dân ố. Việt Nam có ố lượng
người dùng Internet nhiều thứ 8 trong khu v c Châu Á v đứng vị trí thứ 3 ở khu v c
Đông Nam Á au Indone ia v Philippines) [43]. Mặt khác, người ử dụng Internet nằm
trong độ tuổi khá trẻ, tỉ lệ nam giới là cao hơn và hơn 40% người dùng l nhân viên văn
phòng. Theo báo cáo của NetCitzen Việt Nam, độ tuổi trung bình ử dụng Internet tại
Việt Nam l 9, thấp hơn độ tuổi trung bình của dân ố l 36.


7


nh 1.2: Độ tuổi người sử dụng Internet so với tổng dân số ở Việt Nam

Theo trình độ học vấn v nghề nghiệp, khoảng 54% ố người ử dụng Internet có
trình độ Cao đẳng, đại học trở lên. Nhìn chung, 70% người ử dụng Internet l bộ phận trí
thức, nhân viên văn phòng, còn lại l công nhân, nội trợ, tiểu thương buôn bán nhỏ, chủ
cửa h ng…[44]
Internet phát triển đã góp phần tạo lập cộng đồng, thúc đẩy hoạt động của các tổ
chức xã hội, nâng cao năng l c ản xuất v thương mại, tạo ra nhiều của cải vật chất trong
xã hội v nâng cao đời ống người dân. Internet còn l ân chơi bổ ích, một kênh giải trí
hấp dẫn với nhiều ứng dụng phục vụ người dùng.
Sự phát triển lớn mạnh Internet ở Việt Nam cùng với sự phát triển của các trang
mạng xã hội, blog, websites, các ứng dụng (văn bản, blog, bình luận, âm thanh, hình
ảnh,...) ngày càng nhiều, do đó một lượng lớn các thông tin, các quan điểm, ý kiến bình
luận được đưa lên internet tạo thành kho dữ liệu khổng lồ. Việc thu thập và xử lý các
thông tin này sẽ đem lại nhiều hiệu quả to lớn về kinh tế - xã hội, đồng thời thúc đẩy việc
phát triển các phương pháp nghiên cứu về xử lý dữ liệu, xử lý ngôn ngữ nói chung và xử
lý ngôn ngữ Tiếng Việt nói riêng.
Khai thác tìm kiếm t i nguyên trên Internet nói chung hay khai thác thông tin từ
mạng xã hội để phục vụ các mục tiêu ản xuất, kinh doanh, quảng bá ản phẩm, các mục
tiêu về chính trị, xã hội đã v đang thu hút được quan tâm của các nh nghiên cứu. Tuy
nhiên, đa dạng về cách thể hiện cũng như nội dung từ các nguồn thông tin mạng xã hội
luôn là bài toán khó khi tổ chức thu thập, phân tích, tổng hợp thông tin một cách chính
xác, hiệu quả nhất. Trên thế giới, đã có rất nhiểu công bố của các nh nghiên cứu cho
phân tích và khai phá quan điểm v các ứng dụng th c tiễn. Có nhiều cách tiếp cận khác
nhau để giải quyết cho vấn đề n y, tuy nhiên việc áp dụng cũng phụ thuộc v o từng nét
văn hóa, đặc trưng ngôn ngữ của mỗi quốc gia.

Đối với ngôn ngữ tiếng Việt, các nghiên cứu mới chỉ tập trung ở một ố lĩnh v c về
khai thác quan điểm cho một ố ản phẩm, dịch vụ v mới dừng lại ở những b i toán vấn

8


đề n y chưa nhiều v còn hạn chế. Đây cũng l l do để chúng tôi chọn đề t i … cho
miền dữ liệu tiếng Việt.

1.2.

kiện

acts v quan điểm (Opinions)

Dữ liệu văn bản (text) hay thông tin dạng văn bản có thể chia thành

loại ch nh:

kiện: l những biểu hiện khách quan về các th c thể như các ản phẩm, dịch vụ,
các vấn đề,.. và các thuộc tính của chúng.
Ví dụ: Thông tin au về điện thoại l khách quan: “Chiếc điện thoại n y có m u
hồng tím”
Quan điểm: l những biểu hiện chủ quan mô tả nhận xét, đánh giá, thẩm định, thái
độ, v cảm xúc của con người đối với các th c thể như các ản phẩm, dịch vụ, các tổ
chức,các cá nhân, các vấn đề,
kiện, chủ đề, v các thuộc tính của chúng, thể hiện dưới
dạng tích c c, tiêu c c hay trung lập.
VD: Một nhận xét về âm thanh của điện thoại: “Âm thanh của chiếc điện thoại n y
rất tuyệt”


1.3. Định nghĩa quan điểm
Quan điểm là sự thể hiện tình cảm hoặc ngụ ý một cách t ch cực (positive) hoặc
tiêu cực (negative) hoặc trung lập (neutral) của con người về một sự vật, sự việc, hiện
tượng,… nào đó.
Theo Bing liu [20], một quan điểm l một bộ gồm hai th nh phần chính: một đối
tượng g v một tình cảm s trên đối tượng đó.
Bộ (g, s)
Trong đó, g có thể l một th c thể (entity) hay một đặc trưng a pect của th c thể
có thể hiện quan điểm trên đó; và s l thể hiện quan điểm mang giá trị tích c c, tiêu c c,
hoặc trung tính, hoặc một giá trị thể hiện mức độ của quan điểm ví dụ., 1 đến 5 ao . Tích
c c, tiêu c c, hay trung lập được gọi l các định hướng quan điểm entimemnt
orientation hay các mức độ phân c c quan điểm entimemnt polarities) [20].
Định nghĩa th c thể (entity): Một th c thể e có thể l một ản phẩm, dịch vụ, chủ
đề, vấn đề, một người, một tổ chức, hoặc một kiện..., được mô tả bằng một cặp sau:
e: (T, W)
Trong đó, T l một hệ thống phân cấp của các th nh phần, các th nh phần con, v
W l một tập hợp các thuộc tính của e. Mỗi th nh phần hoặc mỗi th nh phần con cũng có
tập các thuộc tính của riêng nó.
Ví dụ: Một model đặc trưng của camera l một th c thể, như Canon G1 . Nó có
một tập các thuộc tính như: chất lượng ảnh, kích thước v trọng lượng, v một tập các
th nh phần như: len , viewfinder, v thời lượng pin. Thời lượng pin cũng có một tập các
thuộc tính như: tuổi thọ của pin v trọng lượng pin.

9


Một th c thể được thể hiện bởi hệ thống phân cấp với các mức khác nhau để thể
hiện mối quan hệ giữa chúng. Biểu diễn n y quá phức tạp cho các ứng dụng vì việc xử l
ngôn ngữ t nhiên để nhận dạng các th nh phần v các thuộc tính tại các mức khác nhau

l rất khó khăn, trong khi đó nó không cần thiết trong phần lớn các ứng dụng. Do đó, để
đơn giản, chúng ta biểu diễn th nh hai mức v ử dụng thuật ngữ các đặc trưng a pect
để thể hiện cả các th nh phần v các thuộc tính. Khi đó hệ thống phân cấp có nút gốc l
th c thể v các nút l l các đặc trưng khác nhau của th c thể. Trong các t i liệu nghiên
cứu, các th c thể đôi khi được gọi l các đối tượng object v các đặc trưng được gọi l
các đặc tính feature [20].
Định nghĩa quan điểm
Quan điểm được định nghĩa một cách đầy đủ l bộ 5 giống như dưới đây:
Quan điểm := <ei, aij, sijkl, hk, tl>
 ei: tên của một thực thể,
 aij: một kh a cạnh của thực thể ei
 sijkl: quan điểm trên kh a cạnh aij của thực thể ei (t nh phân cực của tình
cảm: t ch cực, tiêu cực, hoặc trung t nh, hoặc thể hiện với mức độ của sức
mạnh / cường độ)
 hk: là người đưa ra quan điểm
 tl : thời gian khi quan điểm được hk bày tỏ
Một quan điểm đưa ra trên th c thể chính, các đặc trưng của nó thường được ử
dụng để thể hiện quan điểm trên đó. Vì thế, ei và aij cùng đại diện cho các đối tượng được
thể hiện quan điểm [20].
Trên web, mọi người thường đưa ra kiến của họ về ản phẩm hoặc dịch vụ m họ
đã ử dụng. Việc khai thác các kiến, nhận xét, bình luận của người dùng về các ản
phẩm, dịch vụ, các vấn đề chính trị, xã hội, các chủ đề, ... một cách hiệu quả đem lại nhiều
lợi ích lớn cho các cá nhân, tổ chức, doanh nghiệp. Do đó các phương pháp t động hoặc
bán t động thu thập, phân loại v đo lường thông tin đã đang ng y c ng phát triển. Các
nhiệm vụ liên quan đến việc phân tích dữ liệu bên trên thường được gọi chung l khai phá
quan điểm.
Khai phá quan điểm bao gồm nhiều bước và nhiều kỹ thuật khác nhau được áp
dụng cho các bước khác nhau. Khai phá quan điểm là lĩnh vực nghiên cứu phân t ch ý
kiến, quan điểm, đánh giá, thẩm định, thái độ và cảm xúc của mọi người đối với các thực
thể như sản phẩm, dịch vụ, tổ chức, cá nhân, vấn đề, sự kiện, chủ đề và các kh a cạnh của

nó.
Ngoài ra, khai phá quan điểm còn có nhiều tên gọi v nhiệm vụ khác nhau như:
khai phá quan điểm, trích chọn quan điểm, phân tích tình cảm, phân tích chủ quan, phân
tích tác động, phân tích cảm xúc, khai phá đánh giá của người dùng… Trên th c tế, thuật
10


ngữ khai phá quan điểm v phân tích tình cảm thường được ử dụng phổ biến hơn, còn
trong nghiên cứu thì phân tích tình cảm hay khai phá quan điểm được ử dụng như nhau
[ 0]. Thuật ngữ phân tích tình cảm xuất hiện đầu tiên trong t i liệu Na ukawa and Yi,
003 , còn khai phá quan điểm xuất hiện đầu tiên trong t i liệu Dave, Lawrence and
Pennock, 003 . Tuy nhiên, những nghiên cứu về quan điểm v
kiến xuất hiện ớm hơn
trong các t i liệu Da and Chen, 2001; Morinaga et al, 2002; Pang, Lee and
Vaithyanathan, 2002; Tong, 2001; Turney, 2002; Wiebe, 2000) [20].

1.4. Một số b i toán điển h nh trong phân tích quan điểm
Đối tượng của Phân tích quan điểm
Cho một văn bản quan điểm d, xác định tất cả các bộ quan điểm gồm 5 th nh phần
(ei, aij, sijkl, hk, tl) trong d.
Các nhiệm vụ chính để giải quyết bài toán này xuất phát từ 5 th nh phần trong đó
gồm:
- Nhiệm vụ 1: Tr ch chọn và phân loại thực thể. Bài toán này có thể xem như tương
tự với bài toán nhận dạng và phân loại thực thể.
- Nhiệm vụ : Tr ch chọn và phân loại đặc trưng
- Nhiệm vụ 3: Tr ch chọn và phân loại người đưa quan điểm
- Nhiệm vụ 4: Tr ch chọn và chuẩn hóa thời gian
- Nhiệm vụ 5: Phân lớp quan điểm ở mức kh a cạnh
- Nhiệm vụ 6: Sinh bộ quan điểm gồm 5 thành phần (ei, aij, sijkl, hk, tl)
Phân lớp quan điểm có thể được xem l mở rộng phù hợp nhất của học chủ đề

Pang v Lee, 008 . Nhiệm vụ phân lớp quan điểm mức t i liệu l xác định xem nó thể
hiện l tích c c, tiêu c c hoặc trung lập. Phần lớn đối tượng dữ liệu được nghiên cứu cho
vấn đề n y l các nhận xét tr c tuyến trên Web.
Ví dụ: với một đánh giá ản phẩm, hệ thống xác định xem nhận xét về ản phẩm ấy
l tốt hay xấu.
Phát biểu b i toán:
Cho một văn bản d chứa quan điểm đánh giá về một thực thể, xác định tình cảm
của người đưa quan điểm về thực thể. Tức là xác định sijkl trong bộ (ei, aij, sijkl, hk, tl) trong
đó e, h, t được giả định là biết hoặc không biết.
Có hai công thức d a trên loại của giá trị cần xác định. Nếu nó l các giá trị phân
loại như: tích c c, tiêu c c, v trung lập thì đây l b i toán phân lớp. Nếu nó l các giá
trị ố hoặc điểm với một dãy đưa ra thì đây l b i toán hồi quy.
Giả thuyết: Phân lớp quan điểm hay hổi quy giả thuyết rằng t i liệu quan điểm d ví
dụ l một nhận xét về ản phẩm thể hiện các quan điểm trên một th c thể đơn v bao gồm
các quan điểm từ một người đánh giá h.
11


Câu chủ quan v phân lớp quan điểm
Nhiệm vụ của phân lớp quan điểm ở mức câu l phân loại thể hiện quan điểm của
mỗi câu. Trên th c tế, không có
khác biệt cơ bản giữa phân loại mức câu v mức t i
liệu, bởi vì câu chính l một t i liệu ngắn.
Phát biểu b i toán:
Cho một câu x, xác định có hay không x thể hiện quan điểm là t ch cực, tiêu cực
hay trung lập hoặc không chứa quan điểm.
Ví dụ: cho một nhận xét “Chương trình n y chạy quá chậm!”
=> Người dùng nhận xét về “chương trình n y” v

kiến đưa ra l tiêu c c.


Trong trường hợp n y, định nghĩa một bộ năm th nh phần e, a, , h, t không được
ử dụng ở đây vì phân loại mức câu l một bước trung gian cho các bước phân tích tiếp
theo. Trong phần lớn các ứng dụng, chúng ta cần biết các mục tiêu quan điểm, từ đó cho
thấy một câu thể hiện l quan điểm tích c c, tiêu c c hay trung lập nhưng không biết các
th c thể/ đặc trưng của quan điểm đó l gì. Tuy nhiên, phân lớp mức câu vẫn rất hữu ích
trong một ố trường hợp, nếu chúng ta biết các th c thể v các đặc trưng của th c thể
được đề cập trong một câu, bước n y có thể giúp xác định có hay không quan điểm về các
th c thể v các đặc trưng l tích c c, tiêu c c hay trung lập.
Nhiệm vụ đầu tiên hay còn gọi l bước thứ nhất trong phân lớp quan điểm mức
câu l phân lớp khách quan ubjectivity cla ification , với nhiệm vụ l xác định một câu
chứa thông tin quan điểm hay l thông tin khách quan.
Nhiệm vụ thứ hai hay còn gọi l bước thứ hai l phân lớp quan điểm entiment
cla ification nhằm phân loại các câu chứa quan điểm v o các lớp tích c c, tiêu c c hay
trung lập.
Phân tích quan điểm d a trên đ c trưng Aspect-based Sentiment Analysis)
Phân tích quan điểm mức câu v mức t i liệu thường không hiệu quả với các ứng
dụng bởi vì chúng không xác định được quan điểm cho mỗi mục tiêu. Thậm chí, nếu giả
thuyết đặt ra l mỗi t i liệu đánh giá cho một th c thể, một t i liệu quan điểm tích c c hay
tiêu c c về một th c thể không có nghĩa l chúng tích c c hay tiêu c c cho tất cả các đặc
trưng của th c thể. Để phân tích một cách ho n chỉnh, chúng ta cần khai thác các đặc
trưng v xác định đặc trưng n o có quan điểm l tích c c, tiêu c c, hay trung lập cho mỗi
đặc trưng đó.
B i toán n y được chia th nh nhiệm vụ chính:
1. Tr ch các đặc trưng: nhiệm vụ này tr ch các đặc trưng được đánh giá.
Ví dụ, trong câu: “Chất lượng âm thanh của chiếc điện thoại n y tuyệt thật”
Đặc trưng “chất lượng âm thanh” của th c thể “chiếc điện thoại n y” được đánh
giá l “tuyệt thật”

12



. phân lớp quan điểm đặc trưng: nhiệm vụ này xác định quan điểm trong các đặc
trưng khác nhau là t ch cực, tiêu cực hay trung lập.
Ở ví dụ trên thì đặc trưng “chất lượng âm thanh” được đánh l l tích c c.
Phân tích các quan điểm so sánh
Ngo i việc tr c tiếp b y tỏ quan điểm tích c c hay tiêu c c về một th c thể, đối
tượng v các khía cạnh của nó, người ta cũng có thể b y tỏ quan điểm bằng cách o ánh
các th c thể, đối tượng v các khía cạnh của nó với nhau. Theo Jindal v Liu quan điểm
như vậy được gọi l quan điểm so sánh [20].
Các quan điểm o ánh được biểu diễn khác với các quan điểm thông thường, ở cả
về ngữ nghĩa, nghĩa v hình thức cú pháp.
Ví dụ về câu biểu diễn quan điểm thông thường l “chất lượng hình ảnh của chiếc
điện thoại này thật là tuyệt vời”.
Ví dụ về câu biểu diễn quan điểm o ánh l “chất lượng hình ảnh của chiếc điện
thoại iphone 6 tốt hơn so với iphone 5”. Câu này không nói chất lượng hình ảnh của chiếc
điện thoại n o l đẹp hay xấu m chỉ đơn giản l o ánh chúng với nhau. Do khác biệt
trong cách biểu diễn quan điểm thông thường v quan điểm o ánh dẫn đến muốn phân
tích thì cần những kỹ thuật khác nhau.
Trên th c tế, không phải tất cả các câu o ánh đều chứa quan điểm. Xem ví dụ au
đây: “Chiếc điện thoại iphone 6 rộng hơn 1 inch so với chiếc điện thoại iphone 5s”. Câu
n y không biểu diễn quan điểm.
Nghiên cứu trong văn bản tiếng Anh, thực tế có hai kiểu so sánh là: quan điểm so
sánh và quan điểm so sánh hơn nhất. Tuy nhiên, chúng được nghiên cứu cùng với nhau v
gọi chung l các quan điểm o ánh vì các phương pháp xử l bằng tay v ngữ nghĩa của
chúng l tương t nhau.
Tổng hợp ý kiến quan điểm
Trong phần lớn các ứng dụng phân tích quan điểm, việc cần thiết l nghiên cứu các
quan điểm từ nhiều người dùng xem yếu tố t nhiên khách quan của các quan điểm vì nếu
chỉ tìm kiếm quan điểm từ một người dùng l không đủ. Do đó hình thức tổng hợp quan

điểm l cần thiết.
Phần lớn các nghiên cứu tổng hợp quan điểm đều d a trên cấu trúc của quan điểm,
l một bộ gồm 5 th nh phần được tạo ra từ b i toán phân tích quan điểm d a trên đặc
trưng. Tiếp cận n y được gọi l tổng hợp quan điểm d a trên đặc trưng a pect-based
summary). Khung l m việc n y cũng được phát triển v ứng dụng rộng rãi trong công
nghiệp. Ví dụ như các hệ thống phân tích quan điểm của Micro oft Bing v Google
Product earch cũng ử dụng dạng tổng hợp n y. Kết quả của tổng hợp quan điểm có thể
được biểu diễn theo hình thức cấu trúc hoặc t i liệu văn bản ngắn. [ 0]
Ví dụ: Tổng hợp các kiến trên một đối tượng điện thoại được thể hiện d a trên
các đặc trưng của đối tượng giống như dưới đây:
13


nh 1.3: Tổng hợp quan điểm về một chiếc điện thoại

Tổng hợp các
điện thoại dưới đây:

kiến o ánh giữa hai đối tượng với nhau, minh họa l hai chiếc

nh 1.4: Tổng hợp các ý kiến so sánh giữa hai chiếc điện thoại với nhau

Với tổng hợp quan điểm, người dùng dễ d ng xác định được kiến của những
người dùng hiện tại. Các nh ản xuất có được cái nhìn tổng quát giải thích tại ao người
dùng thích hay không thích ản phẩm của mình, thích ở những điểm gì hoặc không thích ở
những điểm gì…
Phát hiện quan điểm rác
Các quan điểm được khai thác từ các trang mạng xã hội đã hỗ trợ ng y c ng nhiều
cho các cá nhân v tổ chức ử dụng trong việc đưa ra các quyết định mua ản phẩm, l a
chọn bầu cử hay cho ản xuất v quảng bá ản phẩm,… Các quan điểm tích c c thường

mang lại lợi nhuận v chỗ đứng cho các doanh nghiệp v cá nhân. Tuy nhiên một ố hệ
thống lại đưa lên những nhận xét quan điểm giả mạo nhằm thúc đẩy hoặc hạ uy tín của
một ố ản phẩm, dịch vụ, tổ chức, cá nhân v thậm chí l các kiến không tiết lộ thật
14


định của họ, hoặc cá nhân hoặc tổ chức m họ bí mật l m việc cho. Những người n y
được gọi l người đưa quan điểm rác (spammer) v hoạt động của họ gọi l pam (Jindal
và Liu, 2008; Jindal và Liu, 2007).
Ý kiến rác về các vấn đề xã hội v chính trị có thể rất đáng ợ do họ có thể l m giả
các kiến v huy động quần chúng v o việc đi ngược lại pháp l , thuần phong mỹ tục hay
đạo đức. Ng y nay, những kiến trên phương tiện truyền thông xã hội l ng y c ng được
ử dụng nhiều trong th c tế, pam kiến ngày càng tràn lan và càng tinh vi. Đó l một
thách thức lớn bài toán này. Tuy nhiên, việc pam phải được phát hiện để đảm bảo rằng
các các kiến trên các phương tiện truyền thông tiếp tục l một nguồn đáng tin cậy cho
dư luận xã hội, chứ không phải l các kiến giả, dối trá, v lừa đảo.
Phát hiện nội dung rác nói chung đã được nghiên cứu trong nhiều lĩnh v c. Web và
email là hai loại được nghiên cứu rộng rãi nhất của spam. Có hai loại chính của Web rác
là: liên kết rác v nội dung pam Ca tillo v Davi on, 010; Liu, 2006 và 2011).
Liên kết rác l rác trên các iêu liên kết, m hầu như không tồn tại trong phần đánh
giá. Mặc dầu liên kết quảng cáo được phổ biến trong các hình thức khác của phương tiện
truyền thông xã hội. Nội dung rác còn thêm phổ biến nhưng không liên quan từ trong
các trang web mục tiêu để đánh lừa công cụ tìm kiếm, để l m cho nó có liên quan đến
nhiều truy vấn tìm kiếm, nhưng điều n y khó xảy ra trong các b i đăng kiến.
Email rác đề cập đến các quảng cáo không mong muốn, m cũng rất hiếm trong các
kiến trên mạng.

1.5. Vai trò và các ứng dụng
Quan điểm là trung tâm của hầu hết các hoạt động của con người bởi vì nó là nhân
tố ch nh ảnh hưởng đến hành vi của con người. Bất cứ khi nào chúng ta cần phải đưa ra

quyết định chúng ta sẽ cần tham khảo ý kiến của những người khác.
Trong th c tế, các doanh nghiệp v tổ chức luôn muốn biết kiến của người tiêu
dùng về các ản phẩm v dịch vụ của họ. Bản thân mỗi cá nhân cũng muốn biết kiến của
những người ử dụng một ản phẩm n o đó trước khi mua nó, hoặc kiến của những
người khác về các ứng cử viên chính trị trước khi quyết định bỏ phiếu [20].

15


nh 1.5: Khai phá quan điểm người dùng

Việc khai thác những thông tin trên Internet hay mạng xã hội đã trở nên giúp ích
rất nhiều cho những người l m công tác quản l . Nh quản l xã hội có thể tìm hiểu quan
điểm của dân chúng đối với một ố
kiện xã hội. Từ đó, nh quản l có thể điều chỉnh
chiến lược v chính ách một cách hợp l v hiệu quả hơn.
Các hệ thống máy tìm kiếm hiện tại như Google, Yahoo, Bing… cho phép người
dùng đánh v o từ khoá v hiển thị các t i liệu liên quan đến từ khoá n y. Khi ử dụng
những hệ thống như vậy cho mục tiêu tìm kiếm quan điểm đặc biệt l với ngôn ngữ Tiếng
Việt, người dùng ẽ phải t lọc lấy các thông tin chứa quan điểm, t đọc v phân tích đánh
giá quan điểm n o l hữu ích, l tích c c hay tiêu c c. ơn thế nữa, quan điểm ẽ chứa ở
nhiều web ite khác nhau, nhiều vị trí khác nhau. Vì vậy, người dùng ẽ khó có một cái
nhìn to n diện, vì không thể thống kê đầy đủ, v tổng hợp lại.
Trên thế giới đã có nhiều các nghiên cứu về khai phá quan điểm nói chung v khai
phá quan điểm cho ản phẩm nói riêng, chẳng hạn như hệ thống như entiment140 [46].
Với đầu v o l tên ản phẩm hoặc thương hiệu, hệ thống ẽ đưa ra tổng hợp các bình luận
(tweets) của người dùng Twitter về ản phẩm hoặc thương hiệu n y, đồng thời đưa ra tỷ lệ
tích c c/tiêu c c của các quan điểm về đối tượng đó. iện tại, hệ thống n y mới chỉ áp
dụng cho ngôn ngữ tiếng Anh v tiếng Tây Ban Nha.


16


nh 1.6: Trang web entiment140 với từ khóa t m kiếm l iphone 6

Kết quả m hệ thống này tổng hợp được thể hiện như bên dưới đây. Trong đó, m u
xanh thể hiện bình luận tweet l tích c c po itive còn m u đỏ thể hiện bình luận
tweet l tiêu c c negative .

17


nh 1.7: Kết quả phân lớp quan điểm của sentiment140

iện nay, các hệ thống t động thu thập v phân tích quan điểm của cộng đồng
mạng cho tiếng Việt còn ơ khai v chưa được ứng dụng rộng rãi.
Chính vì những l do trên, việc nguyên cứu các vấn đề của xử l ngôn ngữ t nhiên
tiếng Việt v các phương pháp học máy, trên cơ ở đó xây d ng hệ thống t động thu thập
v phân tích quan điểm nhằm đánh giá, thống kê mức độ quan tâm, ủng hộ của cộng đồng
đối với các ản phẩm, cá nhân, tổ chức,
kiện kinh tế, xã hội… l một việc l m rất có
nghĩa.

1.6. Những khó khăn v thách thức trong khai phá quan điểm tiếng Việt
Phần lớn các nghiên cứu hiện nay về khai phá quan điểm v phân tích tình cảm đều
d a trên đối tượng ngôn ngữ l tiếng Anh. Các nghiên cứu về tiếng Việt hiện nay còn rất
hạn chế. Một ố nghiên cứu mới chỉ tập trung v o phân tích quan điểm ở mức câu, mức t i
liệu v kết quả còn hạn chế. Một trong những vấn đề tác động đến kết quả đó l một ố
bài toán cơ bản ử dụng cho tiếng Việt như: tách từ, phân tích cú pháp, phân tích ngữ
nghĩa, các công cụ entiwordnet v Wordnet của tiếng Việt đang trong giai đoan phát

triển, độ chính xác chưa cao nên ít nhiều ảnh hưởng tới kết quả của các nghiên cứu khai
phá quan điểm trên ngôn ngữ Tiếng Việt.
Việc xây d ng bộ ngữ liệu chung cho b i toán phân tích quan điểm để dùng cho
các nghiên cứu chưa đa dạng v chưa được quan tâm đúng mức. Các nhóm nghiên cứu
mới chỉ tập trung v o một ố lĩnh v c như một ố ản phẩm v dịch vụ v chưa có tính
thống nhất để dùng chung cho nghiên cứu.
Ngo i ra, những khó khăn m chúng ta có thể bắt gặp trong quá trình khai phá quan
điểm trên ngôn ngữ tiếng Việt cũng như bất kỳ ngôn ngữ n o khác như:
- Ngôn ngữ t nhiên l ngôn ngữ phi cấu trúc khó để máy hiểu được.
- Việc khai phá quan điểm d a trên các thảo luận, bình luận v nhật k , thường có
nhiều th c thể, nhiều o ánh, nhiều nhiễu, ít từ, có nhiều từ lóng, thiếu dấu câu, sai chính
tả…gây khó khăn trong bước xử lí dữ liệu.
- Việc nhận biết các quan điểm l vấn đề có thể đơn giản hơn việc trích chọn các
th c thể v đặc trưng của th c thể.
- Việc xác định quan điểm l trung lập hay không chứa quan điểm l rất khó khăn,
hầu hết các nghiên cứu đều bỏ qua điều n y.
- Phân loại quan điểm bị ảnh hưởng rất nhiều bởi miền của dữ liệu huấn luyện: Một
phân lớp quan điểm ử dụng dữ liệu từ một miền đã huấn luyện thường hoạt động kém
hiệu quả trong các miền ứng dụng khác. Các từ v thậm chí cả cấu trúc ngôn ngữ được ử
dụng trong các lĩnh v c khác nhau để thể hiện kiến quan điểm có thể rất khác nhau.
Cùng một từ nhưng trong một lĩnh v c có thể mang nghĩa khẳng định nhưng lại mang
nghĩa phủ định trong lĩnh v c khác. Chất lượng bình luận có thể thay đổi từ đối tượng đến
đối tượng v từ cộng đồng đến cộng đồng. Điều n y có nghĩa l nó phụ thuộc rất nhiều
18


vào nguồn nơi bình luận: forum #youtube #dantri) Các bình luận có thể bị kiểm
oát/kiểm duyệt theo chính ách của mỗi nguồn.
Tổng kết chương
Chương n y luận văn trình b y tổng quát khai phá quan điểm. Một ố khái niệm,

các b i toán chính v ứng dụng của khai phá quan điểm trong th c tế nhằm cung cấp cái
nhìn tổng quan cho b i toán n y. Ở chương tiếp theo, khóa luận ẽ trình b y nội dung b i
toán phân lớp quan điểm, một lớp b i toán chính trong khai phá quan điểm.

19


×