BỘGIÁODỤCVÀĐÀOTẠO
TRƢỜNGĐẠIHỌCQUYNHƠN
VÕLÊ MINH
XÂY DỰNG MƠ HÌNH PHÂN TÍCH CẢM XÚCNGƢỜI
DÙNGĐÁNHGIÁSẢNPHẨM
BẰNGPHƢƠNGPHÁPPHÂNTÍCHTỪVỰNG
KẾTHỢPVỚIHỌCMÁY
Chunngành:Khoahọc máy tính
Mãsố:8480101
Ngƣờihƣớngdẫn:TS.HồVănLâm
LỜICAMĐOAN
Tôi xin cam đoan đề tài “ Xây dựng mô hình phân tích cảm xúc người
dùngđánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với
họcmáy” là cơng trình nghiên cứu của riêng tơi. Các kết quả khảo sát, nghiên cứu
trongLuậnvănlàtrungthựcvàchƣatừngđƣợccơngbốtrongbấtkỳcơngtrìnhnàokhác.
BìnhĐịnh, ngày08t h á n g 11năm 2021
Tácgiả
LỜICẢMƠN
Để hồn thành luận văn này, tơi xin chân thành xin gửi những lời
cảmơn chân thành nhất đến quý thầy cơ của trƣờng Đại học Quy Nhơn, bạn
bètrongvàngồitrƣờng,…đãchỉbảo,quantâm,giúpđỡtậntìnhtrongsuốtqtrình thực
hiệnđềtài.Nhờđótơiđãcóthêmnhiềukinhnghiệmđểxửlýnhữngkhó khăn gặp phải và hồn thành
tốt đềtài này.
Tơixi n gửi đế n l ời cá m ơnsâu s ắc nhất đ ế n Tiếns ĩ H ồ V ă n Lâmđãtrự
c tiếp hƣớng dẫn, định hƣớng chuyên môn, quan tâm giúp đỡ tận tình vàtạo mọi điềukiệnthuậnlợi
trongq trình thựchiện luậnvăn.
Trongthờigianlàmluậnvăn,tơiđãcónhữngtrảinghiệmbổích.Tơiđã
đƣợchọctập,tìmhiểunhiềukiếnthứcmớimẻ.Hơnhết,tơiđƣợctiếpcậnvới những thành tựu nghiên cứu
liên quan đến đề tài cả trong và ngồi nƣớc.Đồng thời, đƣợc sự hƣớng dẫn
tận tình và cách làm việc chuyên nghiệp củangƣời hƣớng dẫn – TS. Hồ Văn
Lâm, tơi đã tích lũy đƣợc nhiều kinh nghiệmchobản thân, phục vụcho công
việc và nhữngđềtài nghiên cứu saunày.
Mặc dù tơi đã cố gắng và nỗ lực để hồn thành tốt luận văn của
mình,nhƣngkhótránhkhỏisaisót,rấtmongnhậnđƣợcsựgópývàchỉbảocủaqThầy,C
ơđểđềtài đƣợctốthơn.
Lời cuối cùng, tơi muốn nói cảm ơn tất cả mọi ngƣời, những ngƣời
đãgiúpchotơi cóđƣợc ngày hơmnay.
Bình Định, ngày08 tháng11 năm2021
Sinhviên thực hiện
VõLê Minh
MỤCLỤC
LỜICAMĐOAN
LỜICẢMƠN
DANH MỤC CÁC CHỮ VIẾT
TẮTDANHMỤC CÁCBẢNG
DANH MỤC CÁC
HÌNHTĨMTẮT
MỞĐẦU............................................................................................................1
Chƣơng1.TỔNGQUANVỀ ĐỀTÀI.........................................................................3
1.1. Tổngquan đềtài.......................................................................................3
1.1.1. Phátbiểu bài tốn.............................................................................3
1.1.2. Mụctiêu của đềtài............................................................................4
1.1.3. Mơhình tổng quan...........................................................................9
1.2. Tổngquantìnhhìnhnghiêncứutrongnƣớcvàtrênthếgiới...........................10
1.2.1. Trongnƣớc....................................................................................10
1.2.2. Nƣớcngồi....................................................................................11
1.3. Bốcụcluận văn.......................................................................................13
Chƣơng2.CƠSỞLÝ THUYẾT...............................................................................14
2.1. Bộtừ điển cảmxúc SO-CAL tiếng Anh..................................................14
2.2. Phƣơngphápphânloạichủ quan.............................................................18
2.2.1. Câu có từ hàmchứa cảmxúc...........................................................18
2.2.2. Cáctrƣờnghợpngoại lệ..................................................................18
2.3. Phƣơngphápphânloại cảmxúc...............................................................20
2.3.1. Giátrị cảmxúc của câu phụ thuộc vào từhàmchứacảmxúc..............20
2.3.2. Giátrịcảmxúccủacâuphụthuộcvàotừtăngcƣờng.............................21
2.3.3. Giátrị cảmxúc của câu phụ thuộc vào từ phủ định..........................22
2.3.4. Giá trị cảmxúc của câu phụ thuộc vào từ khiếmkhuyết..................22
MỤCLỤC
2.3.5. Giátrịcảmxúccủacâucóxuhƣớngtíchcực........................................23
2.4. PhƣơngphápphânlớpSupportVectorMachine(SVM)............................23
2.4.1. Ýtƣởng..........................................................................................24
2.4.2. Cơsởlý thuyết................................................................................26
Chƣơng3.XÂYDỰNGHỆ THỐNGTHỬNGHIỆM................................................29
3.1. Giớithiệu...............................................................................................29
3.2. Bộtừ điển cảmxúc SO-CAL tiếng Việt..................................................30
3.3. Thuthập dữ liệu.....................................................................................35
3.4. Tiềnxửlýdữliệuvà rúttríchđặctrƣng.......................................................39
3.5. Bộdữ liệu huấn luyện............................................................................41
3.5.1. Gánnhãn câu bằng tay...................................................................41
3.5.2. Môtảbộ dữ liệu huấn luyện............................................................43
3.6. Phƣơngphápphânloạichủquan................................................................44
3.7. Phƣơngphápphânloạicảmxúc.................................................................47
3.8. Giaodiện hệthốngthực nghiệm..............................................................55
Chƣơng4.KẾTQUẢTHỬNGHIỆM.........................................................................58
4.1. Bộdữ liệu thử nghiệm...........................................................................58
4.2. Kếtquảđánhgiáphƣơngphápphânloạichủquan........................................59
4.3. Kếtquảđánhgiáphƣơngphápphânloạicảmxúc.........................................59
4.4. Kếtquảphântíchbìnhluậncủakháchthamquantạitrungtâmkhám
phákhoa học..................................................................................................59
Chƣơng5.KẾTLUẬNVÀHƢỚNGPHÁTTRIỂN.....................................................61
5.1. Kếtquảđạtđƣợc......................................................................................61
5.2. Hƣớngpháttriển.....................................................................................61
DANH MỤC TÀI LIỆU THAM
KHẢOPHỤLỤC
QUYẾTĐỊNHGIAOĐỀTÀILUẬNVĂNTHẠCSĨ(BẢNSAO)
DANHMỤCCÁCCHỮVIẾTTẮT
AAC (Adverb-Adjective
Combinations)API(ApplicationProgrammin
gInterface)
cURL (Client for Uniform Resource
Locator)HTTP(The HypertextTransfer
Protocol)
ID
(Identification)TS(
Tiến sĩ)
SO(SemanticOrientation)
SO-CAL (the Semantic Orientation
CALculator)SRM(StructuralRisk Minimization)
SVM (Support Vector
Machines)STT(Số thứ tự)
url lib (Uniform Resource Locator
Library)VC(Vapnik-Chervonenkis)
Wifi(WirelessFidelity)
DANHMỤCBẢNG
Bảng2-1Mộtsốtừtăngcƣờng.............................................................................15
Bảng2-2BảngsosánhhiệusuấtcủacácbộtừđiểnkhácnhauvớitừđiểnSO-CAL.17
Bảng3-1 Mộtsố từtrong bộ từđiểndanhtừ.........................................................33
Bảng3-2 Mộtsố từtrong bộ từđiểnđộngtừ........................................................33
Bảng3-3 Một sốtừ trong bộtừ điểntínhtừ.........................................................34
Bảng3-4 Mộtsố từtrong bộ từđiểntrạngtừ........................................................34
Bảng3-5Mộtsốtừtrongbộtừđiểntừtăngcƣờng....................................................34
Bảng3-6Kếtquảphânloạichủ quanbằngtay.......................................................44
Bảng3-7Kết quảphân loạicảmxúcbằng tay......................................................44
Bảng4-1 Kếtquảbộ dữliệu thửnghiệm..............................................................59
Bảng4-2Kếtquảđánhgiáđộchínhxácphƣơngphápphânloạichủquan...................59
Bảng4-3Kếtquảđánhgiáđộchínhxácphƣơngphápphânloạicảmxúc....................59
DANHMỤCHÌNHVẼ
Hình1 1 M ơ h ì n h t ổ n g q u a n h ệ t h ố n g p h â n t í c h c ả m x úc d ự a v à o b ì n h
luậntrên mạngxã hội..........................................................................9
Hình3-1 Mơ hình hệthống thực nghiệm..........................................................29
Hình3-2 Mơ hình Graph API...........................................................................35
Hình3-3Vídụvềdữliệuthơchƣaxửlý..................................................................37
Hình3-4NhữngbìnhluậncủatrangVnExpress.nettrênmạngxãhộiFacebook.....38
Hình35Nộidungcácbìnhluậnđƣợclấyvềt h ơ n g q u a t h ƣ v i ệ n Fac
ebookGraph API.............................................................................38
Hình3-6 Vídụ dữliệu dạng mã UNICODETH.................................................39
Hình3-7Ví dụdữ liệusau khichuyển mã...........................................................39
Hình3-8 Giao diệnđánh giá độchính xác của dữliệu thử nghiệm.....................55
Hình3 9Giaodiệnphânloạicảmxúc,đánhgiá mứcđộquantâmcủ
a ngƣờidùng.....................................................................................56
Hình3-10 Giaodiện thu thậpdữ liệu.................................................................56
Hình3-11Giaodiệnmànhìnhbắt đầu..................................................................57
Hình3-12 Giaodiện hiển thịtừ điển..................................................................57
TĨMTẮT
Mạng internet là một cơng cụ giúpm ọ i n g ƣ ờ i c ó t h ể k ế t
n ố i v ớ i n h a u dễ dàng hơn thông qua những những chia sẻ, thơng điệp,
bình
luận
hay
ý
kiếncánhânvềtấtcảsựvật,sựviệcdiễnrahằngngày.Từđó,mọingƣờisẽcócáinhìn tổng
quan,
những
thơng
tin
cần
thiết
hỗ
trợ
việc
đánh
giá
và
đƣa
ra
quyếtđịnhđối v ớ i m ọ i v ấ n đềdi ễn r at r o ng cuộcsống.Đi ềunày k h ơ n g chỉđ ú
n g trênphƣơngdiệncánhânmàcịnđƣợccáctổchứcsửdụngrộngrãi.
Việc thu thập, tổng hợp và phân tích những bình luận trên nếu làm
theophƣơngphápthủcơngsẽtốnrấtnhiềuthờigiancũngnhƣchiphíđểthựchiện. Nếu có một hệ thống
tự động xử lý, phân loại chúng dựa trên cảm xúccủangƣờidùngsẽgiúp
tiếtkiệmvềnhiều mặt.
Đã có nhiềiáo, cơng trình nghiên cứu có liên quan đến đề tài
nàynhƣnghầuhếtchúngđƣợcsửdụngchotiếngAnh.Hầuhếtcáccơngtrìnhnàyđều thu
đƣợcnhiềukếtquảkhảquan.Tuynhiên,bàibáovàcơngtrìnhnghiêncứutƣơngtựbằngtiếngViệtcịnrấthạnchế.Hiệnnay,
vớisựpháttriểnmạnh mẽ của truyền thơng mạng xã hội và nhu cầu thu thập ý kiến
về
các
sựvật,sựviệcdiễnraxungquanhchúngta,hƣớngnghiêncứunàydầnđƣợcchúýnhiều
hơnởViệt Nam.
Trong khoá luận này, tôi nghiên cứu các lý thuyết, giải thuật giúp
phânloại cảm xúc và tìm hiểu những đặc tính cơả n c ủ a v ă n p h ạ m
t i ế n g V i ệ t . T ừ đó xây dựng mơ hình phân tích cảm xúc tiếng Việt và
áp dụng trực tiếp trêncác bình luận của mạng xã hội. Ngồi ra tơi cịn sử
dụng một số kỹ thuật xử lýngơnngữ tựnhiên hỗ trợcho việc phântích dữ
liệuhiệu quảvànhanh chóng.
Cuốicùng,tơitổnghợpkếtquảđãđạtđƣợcvàđƣaranhữngđánhgiávềmơhìnhphân
tích
cảm
xúc
tiếng
Việt
dựa
vào
bình
dùng.Sauđó,đềrahƣớngpháttriểncủađềtàitrongtƣơnglai.
luận
của
ngƣời
1
MỞĐẦU
Với sự phát triển mạnh mẽ của mạng Internet cộng với sự bùng
nổthơng tin trên tồn cầu,m ạ n g
xã
hội
đã
đƣợc
sử
dụng
r ộ n g r ã i v à d ầ n t r ở thànhmộtphầnkhông thể thiếu trong cuộcsống
conngƣờiđặc biệt làgiới trẻ
- những ngƣời luôn quan tâm và cập nhật tin tức thƣờng xuyên. Những
tintức, bình luận, đánh giá về nhiều lĩnh vực đƣợc chia sẻ nhanh chóng từ lúc
sựviệcđangdiễnravàngay lậptứcđƣợclantruyềnđếnmọinơi.
Phân loại tâm lý, cảm xúc và khai thác ý kiến, đánh giá sản phẩm sẽ
hỗtrợ cho việc nghiên cứu, phân tích cảm xúc, đánh giá thái độ của ngƣời
dùngđối với những sản phẩm, chủ đề đƣợc chia sẻ. Đây là một trong những
lĩnhvực đƣợc nghiên cứu rộng rãi trong khai thác dữ liệu Big Data, đồng thời
có ýnghĩaquantrọngtrongngànhkhoahọcxửlýngơnngữtựnhiên.Trongthựctế, mức độ ảnh hƣởng của
nó ngày càng đƣợc coi trọng và tỷ lệ thuận với sựbùngnổ thông tintrênmạng
Internet.
Chẳng hạn nhƣ khi muốn mua một sản phẩm nào đó, chúng ta
muốnbiết nó tốt hay không? Những lời quảng cáo hoa mỹ của nhà sản xuất
chƣa đủthuyếtphục,chúngtamuốnnghenhữnglờiđánhgiáchânthựctừnhữngngƣời đã sử dụng hoặc
có hiểu biết về sản phẩm đó. Hay đối với các tổ chức,những con số khơ khan
về
doanh
thu
sản
phẩm
khơng
đủ
để
họ
hài
lịng.
Họmuốnbiếtnhữ ng đánh giácủakháchhàngvàngƣời dùng vềsảnphẩmc
ủahọ. Những khía cạnh tốt sẽ đƣợc duy trì, phát huy và những mặt xấu,
khơngtốtsẽđƣợchọcảithiệnđểdầnhồnthiệnchấtlƣợngsảnphẩmvềmọimặt.
Từ lý do này, tơi lựa chọn đề tài:“Xây dựngm ơ h ì n h p h â n t í c h
c ả m xúc ngƣời dùng đánh giá sản phẩm bằng phƣơng pháp phân tích từ
vựng kếthợp với máy học” nhằm phát triển một phƣơng pháp nghiên cứu
phân
tíchcảmxúctrênngơnngữtiếngViệtdựatrênđặctrƣngnguồndữ liệutừbì
nh
luận, đánh giá sản phẩm của ngƣời dùng ở Việt Nam. Và xây dựng
mộtchƣơng trình thử nghiệm nhằm đánh giá độ đúng đắn của phƣơng
phápêntrên, đồng thời có thể tự động đánh giá những cảm xúc của ngƣời
dùngđốivớinhữngsản phẩmđƣợcchiasẻ.
Đối tu ợng nghiên cứu của tơi là nhữngình luận tiếng Việt của ngu
ờidùng đánh giá sản phẩm. Phạm vi của đề tài là xây dựng mơ hình phân
tíchcảmxúcdựavàobìnhluận,đánhgiásảnphẩmđuợcthuthạptừngƣờidùng.
Q trình thực hiẹ n đề tài cịn nhiều hạn chế và thiếu
sót.Tơim o n g nhạ n đu ợc sự đóng góp
cácạ n . T ô i x i n cảmơn.
kiến chân thành từ Thầy, Cô và
Chƣơng1.TỔNGQUANVỀĐỀTÀI
1.1. TỔNGQUANĐỀTÀI
1.1.1. Phátbiểubàitoán
Kể từ năm 2000, cùng với sự lớn mạnh của truyền thông xã hội
trênmạng Internet nhƣ diễn đàn, blog và đặc biệt là mạng xã hội
(Facebook,Google plus, Twitter, Instagram,…), phân tích cảm xúc
(Sentiment Analysis)đã phát triển nhanh chóng và trở thành lĩnh vực nghiên
cứu sôi động nhấttrong chuyên ngành xử lý ngôn ngữ tự nhiên. Mạng xã hội
ngày càng có tầmảnhhƣởngkhơngchỉvớidoanhnghiệp màcịnvớitồnxãhội.
Ý kiến là trung tâm của hầu hết các hoạt động và có ảnh hƣởng lớn
đếnhành vi của con ngƣời. Thông thƣờng khi cần phải đƣa ra quyết định,
chúngtathƣờngthamkhảoýkiếncủangƣờikhác.Đốivớicánhân,họthƣờngthamkhảo
ngƣờithân,bạnbèhaymọingƣờixungquanh.Mặckhácđốivớicáctổchức,họ thamkhảo ý kiếncủa các
hội đồng, củanhân viên,khách hàng,…
Chẳng hạn, có một cơ gái trẻ đang đọc các tin tức trên bảng tin của
mộtmạng xã hội nào đó. Bất chợt cô ấy thấy một chiếc điện thoại mới đƣợc
giớithiệu kèm theo nhiều tính năng hiện đại với mức giá cực kỳ hấp dẫn.
Nhƣngngaylậptức,cơấyliềnđặtcâuhỏi:“Chiếcđiệnthoạinày cótốtnhƣnhữnggìnhà
sảnxuấtquảngcáokhơng?”.Cơấyphảivấtvảđọcthủcơngtừngbìnhluận chia sẻ của ngƣời dùng. Sau
đó tổng hợp lại và đƣa ra đánh giá cuốicùng. Cơng việc vơ cùng đơn giản với
năm hay mƣời bình luận. Nhƣng nếusố lƣợng bình luận lên đến năm mƣơi,
một trăm hay vài trăm thì cơng việcnày trở nên phức tạp hơn nhiều. Liệu
rằng cơ gái trẻ có nhớ và tổng hợp hếtnhữngbình luậnđómộtcách chính xác
trongthời gianngắn hay khơng?
Một ví dụ khác: Mỗi năm một công ty kinh doanh hàng hóa bỏ ra
mộtlƣợnglớnthờigian,cơngsứcvàtiềnbạcđểkhảosátxuhƣớngthịtrƣờnghay
nói cách khác là họ tìm hiểu xem thị hiếu của ngƣời dùng hiện tại là gì?
Việckhai thác các hoạt động của ngƣời dùng trên mạng xã hội hay cụ thể hơn
làcác bình luận,đánh giá củahọsẽgiúp cho cơngty thực hiện việck h ả o
s á t mộtcáchdễdàngcũngnhƣtiếtkiệmđƣợcnhiềuchiphí.
1.1.2. Mụctiêu của đềtài
Mục tiêu của đề tài là phát hiện những cảm xúc của ngƣời dùng
thơngqua việc phân tích những bình luận, đánh giá của họ đối với thông tin
đƣợcđăng tải hay chia sẻ về các dịch vụ, sản phẩm tại Trung tâm Khám phá
khoahọc. Để thực hiện đƣợc mục tiêu này, tôi đã chia thành mục tiêu thành 3
mụctiêuthành phần. Đólà:
- Lấydữliệucácbìnhluậnđánhgiásảnphẩmcủangƣờidùng
- Xây dựng bộ từđiển cảmxúc.
- Phântích,đánhgiácảmxúccủangƣờidùngvềsảnphẩm.
a) Thu thập thơng tin, dữ liệu từ các bình luận, đánh giá về sản phẩm
củangườidùng
Chúng ta có thể nhận thấy khối lƣợng dữ liệu trên các trang mạng
xãhội là vô cùng lớn. Tuy nhiên, khơng phải tất cả thơng tin đó đều có ích
vàtheo dạng chuẩn của ngơn ngữ tiếng Việt. Do đó, bài tốn đặt ra ba vấn đề
cầngiảiquyết, đó là:
- Lấydữliệulớntừcácbìnhluận,đánhgiácủangƣờidùng.
- Chuẩnhóadữliệuchophùhợpvớiphƣơngpháp.
- Phântíchcảmxúcdựavàonguồndữliệuđƣợcchuẩnhóatrên.
b) Xâydựngbộtừđiểncảmxúc
Hiện nay, có hai phƣơng pháp tiếp cận chính để giải quyết vấn đề
tríchxuất cảm xúc tự động. Cách đầu tiên dựa vào các từ vựng thơng qua việc
tínhtốn giá trị ngữ nghĩa (semantic orientation) của các từ hay cụm từ trong
tàiliệu.Cáchtiếpcậnthứhaisửdụngmộtphƣơngphápthốngkêhoặcmáyhọc
đểgiảiquyếtvấnđề.[5]
Sau nhiều thời gian nghiên cứu, tôi quyết định sử dụng phƣơng
phápdựa vào từ vựng thơng qua việc tính tốn giá trị ngữ nghĩa của các từ
hay cụmtừtrongtàiliệu.Bƣớcđầutiênđểtínhtốnđƣợccácgiátrịngữnghĩacầndựatrên
mộttậphợpcáctừvàgiátrịngữnghĩacủachúnghaycịngọilàtừđiểncảmxúc.
Theo khảo sát cá nhân, hiện tại chƣa có một bộ từ điển cảm xúc
chotiếng Việt nào đƣợc cơng bố chính thức. Việc xây dựng một bộ từ điển
cầnđầut ƣ n h i ề u t h ờ i g i a n , k i n h p h í v à n h ấ t l à c ầ n c ó s ự h ợ p t á c c ủ a
n h ữ n g chungiavềngơnngữhọc.Vìvậy,tơiđãsửdụngbộtừđiểncảmxúctiếngAnh có tên từ điển
SO-CAL [19] (Dictionaries for the Semantic OrientationCALculator) của
nhóm tác giả Maite Taboada [4] và dịch bộ từ điển này sangtiếng Việt. Từ
điển
cảm
xúc
SO-CAL
có
khoảng
6600
từ
chia
thành
năm
từđiểnn h ỏ g ồ m có: t ừ đ i ể n d a n h t ừ , t ừ đ i ể n đ ộ n g t ừ , t ừ đ i ể n t í n h t ừ , t ừ đ i
ể n độngtừvàtừđiểntừtăngcƣờng(intensifier).Mỗitừđiểnbaogồmmộtdanhsáchcác từ cảmxúc và các
giá trị SO kèmtheo.
c) Phântích,đánhgiácảmxúc
Sau khi xây dựng xong từ điển cảm xúc, mục tiêu cuối cùng sẽ là
phântích đánh giá cảm xúc dựa vào những bình luận đƣợc thu thập trên mạng
xãhội.Đểphântíchcảmxúccóhaivấnđềcầngiảiquyếtlàphânloạicâucócảmxúchaykhơ
ngcócảmxúcvàphânloạicâucócảmxúctíchcựchaytiêucực.
Theo Bing Luu [5], phân tích cảm xúc hiện đƣợc tập trung nghiên
cứuchủyếu ở3 mứcđộ:
- Phântíchcảmxúc mức vănbản(document level):
Mục tiêu ở mức độ này là phân loại xem quan điểm tổng thể của
vănbản diễn tả một cảm xúc tiêu cực haytích cực. Phân tích cảm xúcm ứ c
v ă n bảngiảđịnhrằng mỗivăn bảnthểhiệnquan điểmvề một thựcthểduy nhất.
Có nhiều phƣơng pháp đã và đang đƣợc nghiên cứu ở mức này
nhƣphƣơng pháp học máy có giám sát, phƣơng pháp học máy không giám
sát(Support Vector Machine, Maximum Entropy, K-Nearest Neighbors,
NạveBayes,Centroid Classification), v.v...
- Phântích cảmxúcmức câu (sentencelevel):
Ở mức độ này sẽ tập trung vào các câu và xác định xem chúng bày
tỏmộtq u a n đ i ể m t í c h c ự c , t i ê u c ự c h a y t r u n g t í n h . T h e o W i e
b e , B r u c e v à O'Hara[6],khiphânloạichủquanmộtcâuđƣợcchialàmhailoạilàcâuchủquan (câu có
cảm xúc) và câu khách quan (câu khơng có cảm xúc). Câu
kháchquanthểhiệnmộtsốthơngtinthựctếcịncâuchủquanthƣờngmangđếngócnhìnhay
ýkiếncánhân.Trongthựctế,câuchủquancóthểdiễntanhiềuloạithơng tin nhƣkiến, đánh giá, cảm
xúc, niềm tin, suy đoán, phán đoán, cáobuộc,… Để đánh giá trạng thái cảm
xúc của câu chủ quan, ngƣời ta chia nóthành hai loại là câu có cảm xúc tích
cực
(nhƣ
vui,
thích,
u,
hƣng
phấn,
tựtin)vàcâucócảmxúctiêucực(nhƣchán,ghét,hận,tứcgiận,sợhãi).
- Phân tích cảm xúc mức thực thể và khía cạnh của thực thể
(Entityand Aspect level):
Cả hai mức độ văn bản và câu đều khơng phát hiện đƣợc chính
xácnhữngquanđiểmcủangƣờiviết.Mứcthựcthểvàkhíacạnhcủathựcthểthựchiện
phântíchsâuvàchitiếthơn.Thayvìnhìnvàocấutrúcngơnngữ(nhƣvăn bản, đoạn văn, câu văn, mệnh
đề hay cụm từ), mức này tập trung trực tiếpvào ý kiến, quan điểm của ngƣời viết. Nó dựa
trêntƣởng rằng một ý kiến,quan điểm bao gồm một cảm xúc (tích cực hoặc
tiêu cực) và một mục tiêu cụthể. Mục tiêu này giúp chúng ta phân tích cảm
xúc tốt hơn. Trong nhiều ứngdụng, mục tiêu của quan điểm, ý kiến đƣợc mô
tả dựa vào các thực thể và cáckhíacạnhcủachúng.Nhƣvậy,mụctiêucủamứcphântíchnàylàxác
địnhcảmxúc vềcácthực thểvà/hoặc các khía cạnh củacác thực thểđó.
Ví dụ:“Thời lượng pin và chất lượng cuộc gọi của Iphone rất
tốtnhưngkhả năng bắt sóng Wificủa nó kém.”
Ví dụ trên đƣa rakiến về ba khía cạnh là thời lƣợng pin, chất
lƣợngcuộcgọivàkhảnăngbắtsóngWificủathựcthểIphone.Khíacạnhthờilƣợngpinvà
chấtlƣợngcuộcgọinhậnđƣợccảmxúctíchcựccịnkhíacạnhbắtsóng Wifi nhận đƣợc cảm xúc tiêu
cực. Căn cứ vào các thông tin đƣợc thuthập từ mức độ này, một bản tổng hợp
ý kiến, quan điểm về các thực thể vàkhía cạnh của thực thể sẽ đƣợc xây dựng
phục
vụ
cho
việc
biến
văn
bản
phicấutrúct hànhdữ liệucócấut rúc. Saunày,cót hể dùngcác dữl i ệu nàyđ
ể tiếnhànhcácphân tíchđịnhtính địnhlƣợng.
Nếu mức văn bản và mức câu đã là những thử thách khó thì mức
thựcthể và khía cạnh thậm chí cịn khó hơn. Địi hỏi nhiều thời gian điều tra,
khảosát và tổng hợp để xây dựng đƣợc tập các thực thể và khía cạnh của
chúng.Đồng thời mức thực thể và khía cạnh đƣa ra các bài tốn địi hỏi năng
lực xửlý ngôn ngữ tự nhiên sâu và chi tiết hơn. Do thời gian và chi phí có hạn
củamột luận văn thạc sỹ, tôi quyết định chỉ dừng lại ở phân tích cảm xúc mức
câuvàsẽdànhmức thựcthểvà khía cạnhcho những nghiên cứusau này.
Cảm xúc của con ngƣời rất phức tạp. Phân tích cảm xúc mức văn
bảnchứa nhiều quan điểm về nhiều đối tƣợng thì q thơ đối với hầu hết các
ứngdụng. Phân tích cảm xúc mức câu đơn giản hơn, thƣờng chỉ chứa một
quanđiểmduynhất. Ởmức này, có hai vấn đề cần giải quyết:
• Vấn đề đầu tiên là phân loại xem câu có chứa cảm xúc hay khơng
chứacảmxúc(thƣờngđƣợcgọilàphânloạichủquan).
Khó khăn ở vấn đề này: Một câu khi đƣợc viết hay nói thƣờng sẽ có
mộtmụcđíchnóinhấtđịnh:trầnthuật(dùngđểmiêutả,kểhaygiớithiệuvềmộtsự vật, sự việc), nghi vấn
(dùng
để
hỏi),
cầu
khiến
(dùng
để
đề
nghị,
u
cầu),cảmthán(dùngđểbộclộcảmxúc),…Hồnthànhphânloạimụcđíchnóisẽ
giúpphân loại chủ quan dễdàng vàchính xác hơn.
Vídụ:
(1)
Iphonecó thiết kế tốt.
(2)
ThiếtkếcủaIphone cótốtkhơng?
(3)
NếuIphonecóthiếtkếxấuthìmọingƣờisẽkhơngmuanó.
Ở ba vídụ trên,có thể dễdàng nhận thấycâu (1)mangcảm xúc( t í c h cực)về
thiếtkếcủaIphone.Câu(2)và(3)khơngmangcảmxúc.Câu(2)đặtra câu hỏi nghi ngờ về chất lƣợng
của Iphone còn câu (3) đặt ra một giả địnhchƣachắc cóthực.
• Vấn đề thứh a i l à p h â n l o ạ i n h ữ n g c â u c h ứ a c ả m
x ú c l à t í c h c ự c h a y tiêucực(thƣờngđƣợcgọilàphânloạicảmxúc).
Nếucâuchỉcónhữngtừthơngthƣờngkhơng mangcảmxúcvànhững từmangcảm
xúctíchcựchaytiêucựcthơithìviệcphânloạicảmxúcsẽđƣợcgiải quyết dễ dàng. Nhƣng trong thực
tế, câu cịn có thêm những từ phủ định(negation), từ làm tăng mức độ ngữ
nghĩa (amplifiers), từ làm giảm mức độngữ nghĩa (downtoners), động từ
khiếm khuyết,… Làm sao đánh giá ảnhhƣởng của các từ này đến cảm xúc
trong câu đồng thời kết hợp chúng với cáctừcảmxúcđểđƣarakếtluậnchínhxácnhấtlàcâumang
cảmxúctiêucựchay tích cực. Và trong cảm xúc tiêu cực hay tích cực cũng đƣợc
chia thànhnhiều mức độ khác nhau, phƣơng pháp đánh giá mức độ tiêu cực
hay tích cựccủamộtcâulànhữngkhókhăngặpphảiởvấnđềnày.
Vídụ:
(4)
Đây làmột bộphimhay.
(5)
Đây làmộtbộ phimkhơnghay
(6)
Đây là mộtbộ phimdở tệ.
Câu(4)mangcảmxúctíchcực.Chỉcầnthêmmộttừphủđịnh“khơng”vàotrƣ
ớctừ“hay”ởcâu(4),câu(5)đãmangcảmxúctiêucực.Câu(6)mang
cảmxúc tiêu cựchơn câu (5).
1.1.3. Mơhình tổngquan
Tiền xử lý
Phân loại cảm xúc
Đầu vào
Tập
bình luận của ngƣời dùng
Tập
Đầu ra
bình luận đã phân tích cảm
Rút trích
đặc trƣng
Phân loại
chủ quan
Hình 1-1Mơ hìnhtổng quanhệthốngphân tíchcảmxúcdựavào bìnhluận
cùangƣờidùng
Mơ hình tổng quan củahệthốngphân tíchcảmxúc gồmba phần:
- Đầuvào:TậpbìnhluậntiếngViệt“thơ”củangƣờidùng.
- Hệthống phân tích cảmxúc:Gồmcó bốn hoạt động chính
Tiềnxử lý.
Rúttríchđặctrƣng.
Phânloạichủ quan.
Phân loại cảmxúc.
- Đầu ra: Tập bình luận tiếng Việt sau khi đƣợc hệ thống phân tích
cảmxúc đã đƣợc phân thành 3 loại: Khơng có cảm xúc, có cảm xúc
tích cựcvàcócảmxúc tiêu cực.
Đầu tiên dữ liệu đầu vào sẽ là tập các bình luận tiếng Việt “thơ”
trênmạngxãhội.Đánhgiácácbìnhluậnnày“thơ”bởivìtrƣớckhicóthểsửdụngđƣợc,
chúngtacầnphảigiảiquyếtnhiềuvấnđềnhƣxửlýlỗitiếngViệtcódấu, xử lý biểu tƣợng cảm xúc, xử
lý
“stop
words”,…
gọi
chung
là
tiền
lý.Saukhitiềnxửlýxongthuđƣợctậpbìnhluậnđãđƣợcchuẩnhố,hệthống
xử
bắt đầu rút trích các đặc trƣng của từng câu dựa vào từ điển cảm xúc và
cácyếutốảnhhƣởngđếncảmxúctrongcâu.Từcácđặctrƣngthuđƣợctiếnhànhphânloạichủ
quanvàphânloạicảmxúctậpbìnhluậnđểc u ố i c ù n g x u ấ t r a tập các câu bình luận
đƣợc phân thành ba loại: khơng có cảm xúc, có cảm xúctíchcực và có cảmxúc
tiêu cực.
1.2. TỔNGQ U A N T Ì N H H Ì N H N G H I Ê N C Ứ U T R O N G N Ƣ Ớ
C V À TRÊNTHẾGIỚI
1.2.1. Trongnƣớc
Theo khảo sát cá nhân, trong nƣớc hiện nay có rất ít đề tài nghiên
cứuvềchủđềđánhgiácảmxúcngƣờidùng.Dƣớiđâylàmộtsốđềtàinổibật:
- Nhóm tác giả Lê Hồng Phƣơng xây dựng công cụ “vnTokenizer”
[20]dùng để tách từ trong văn bản Tiếng Việt. Công cụ này là sự kết
hợpgiữa từ điển Tiếng Việt và giải thuật ngram cho kết quả với độ
chínhxáccao khoảng 96% đến 98%.
- Cơng cụ “vnTagger” [21] dùng để phân loại từ Tiếng Việt. Xây
dựngtrên phƣơng pháp gán nhãn từ loại tiếng Việt với độ chính xác
caokhoảng96%.
- Sentiment
classification
using
Enhanced
Contextual
Valence
Shifters[3]. Nhóm tác giả Võ Ngọc Phú và Phan Thị Tƣơitrình
bàymộtphƣơng pháp phân loại cảm xúc tiếng Việt dựa vào giá trị cảm
xúc vàngữ cảnh của văn bản. Nhóm đã xây dựng bộ từ điển cảm xúc
TiếngViệt và liệt kê các ngữ cảnh ảnh hƣởng đến giá trị cảm xúc của
các từvà câu văn trong văn bản. Trong hầu hết các ngữc ả n h ,
n h ó m t á c g i ả đều đƣa ra phƣơng pháp giải quyết cụ thể góp
phần nâng cao độ chínhxáccủa q trình tính tốn giá trịcảmxúc trong
văn bản tiếngViệt.
- Tómt ắ t ý k i ế n t r ê n c ơ s ở p h â n l o ạ i c ả m x ú c [ 1 6 ] . T á c g i ả N g u
y ễ n NgọcDuyđãxâydựngmơhìnhtómtắtcácýkiếntrêncơsởphânloại
cảm xúc từ ý kiến của bạn đọc trên các trang báo mạng và của
ngƣờidùngt r ê n c á c t r a n g m ạ n g x ã h ộ i t i ế n g V i ệ t . K h o n g ữ l i ệ u c
ủ a n h ó m gồm220ýkiếntừhaichủđềlàxãhộivàkinhdoanh,mơhìnhcủatácgiảđã đạt những kết
quảtích cực.
1.2.2. Nƣớcngồi
Bài tốn phát hiện, trích xuất và phân tích thơng tin trên mạng xã
hộiđƣợc quan tâm bởi rất nhiều nhà khoa học và nghiên cứu sinh trên toàn
thếgiới. Đề tài liên quan đến việc phân tích thơng tin, cảm xúc từ mạng xã
hội đãđƣợc nghiên cứu nhiều năm ở nhiều nƣớc với nhiều ngôn ngữ khác
nhau,trong đó phổ biến nhất vẫn là dữ liệu bằng tiếng Anh. Việc tìm hiểu,
thamkhảov à đ á n h g i á t h àn h c ô n g c ũ n g n h ƣ h ạ n c h ế c ủ a nh ữ n g n g h i ê n c
ứ u n à y trênthếgiới cung cấp cái nhìn tổng quan vềđềtài.
Dƣới đây là một số bài báo liên quan đến đề tài mà tơi đã tìm hiểu
vàthamkhảo:
a) ASentimentalEducation:SentimentAnalysisUsingSubjectiveSummarizat
ionBased on Minimum Cuts[7]
Phân tích tâm lý, tình cảm là phƣơng pháp tìm cách xác định
nhữngquan điểm nằm bên dƣới một chuỗi ký tự. Để xác định đƣợc tình cảm
này,nhómt á c g i ả đ ể x u ấ t m ộ t p h ƣ ơ n g p h á p h ọ c m á y m à á p d ụ n g c á c k ỹ t
h u ậ t phânloạivănbảnđểchỉracácphầnchủquancủatàiliệu.Phƣơngphápnàytạo thuận lợi lớn cho việc
phân tích dữ liệu sử dụng câu trong từng ngữ cảnhcụthể, xác định.
b) Large-ScaleSentimentAnalysisforNewsandBlogs [8]
Các cơ quan truyền thông: báo, công ty truyền thơng, truyền hình v.v…
thểhiệnýkiếncủahọvềnhữngsựvật,hiệntƣợngcủamìnhthơngquanhữngbàiviết.Tácgiảtrìnhbàymộthệthốnggánđiểm
cho
thấy
quan
điểm
tích
cựchaytiêucựcchotừngđốitƣợngriêngbiệttrongngữliệuvănbản.Hệthống