Tải bản đầy đủ (.pdf) (55 trang)

Chuyên đề tốt nghiệp: Ứng dụng mô hình hồi quy Logistic trong phân tích cảm xúc trên mạng xã hội Twitter

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.66 MB, 55 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

TRƯỜNG ĐẠI HỌC KINH TE QUOC DAN

KHOA TOAN KINH TE

Giảng viên hướng dẫn: TS. Nguyễn Quang Huy

<small>Họ và tên sinh viên: Định Nhật Minh</small>

<small>Mã sinh viên: 11193387 </small>

<small>-Lớp chuyên ngành: Toán Kinh tê 61</small>

<small>HÀ NỘI - 2022</small>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

LOI CAM ON

Dé hồn thành khóa luận nay, em xin tỏ lòng biết on sâu sắc đến TS. Nguyễn Quang Huy

đã tận tình hướng dẫn trong suốt quá trình viết Chuyên đề tốt nghiệp.

Em chân thành cảm ơn q thay, cơ trong khoa Tốn Kinh tế, Trường Đại Học Kinh tếQuốc dân đã tận tình truyền đạt kiến thức trong những năm em học tập. Với vốn kiếnthức được tiếp thu trong q trình học khơng chỉ là nền tảng cho q trình nghiên cứu

khóa luận mà còn là hành trang quý dé báu dé em bước vào đời một cách vững chắc và tự

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

LỜI CAM ĐOAN

Tác giả xin cam đoan Chuyên đề tốt nghiệp này là tự do bản thân thực hiện, có sự

<small>hỗ trợ từ giáo viên hướng dẫn và khơng sao chép các cơng trình nghiên cứu của người</small>

khác. Các dữ liệu thông tin thứ cấp sử dụng trong Chun đề là có nguồn gốc và được

<small>trích dẫn rõ ràng.</small>

<small>Tác giả xin chịu trách nhiệm hoàn toàn về lời cam đoan nay!</small>

<small>Sinh viênDinh Nhat Minh</small>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

DANH MỤC HÌNH ANH TH ghe tegtrenegtegtrertrertretrertrertrertrertretrertrertrertrerretrertrertreeree 4

CHUONG 1: TONG QUAN... —-...,ơ,ƠỎ 5<small>In e0 in ... 51.2. Mure ti@u Va nhi6Mm VU ou... ... 6</small>

<small>1.3. BO CUC cecccccscescssessssssssscsussusssessessucsussusssscsucsussussasssscsucsussatsasssucsussussussucsussutsatssecsussussassaeesecsussetsneease 6</small>

CHƯƠNG 2: CƠ SỞ LY LUẬN uisccscsssssssssssssssssesssssesssssessssssesenssocssnesessscssessacssessseeseesees 8

<small>2.1. _ Khái niệm phân tích cảm XÚC...-. «5 E1 9191 1012111 vn TH Hi TH Thi HH ghế 8</small>

<small>2.2. __ Tình hình nghiên cứu thé gii...----- + â++E+++EE++EESEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrrrkerkrre 8</small>

<small>2.3. Phng phỏp hc mỏyy... --- ôk1 vn TT HT TT HT TH TH HH TH HH re 10</small>

<small>2.3.1. Học có giám Sất...-- - CS s11 TH Hà HT TT HT TT HT TH TH TH Hi 102.3.2. Học khơng giám sát... --- «5 11k TH TH HT To Hà HT Tà HH TT Hàn 10</small>

<small>2.3.3. Phương pháp tiếp cận dựa trên luật cesseccssscsesssssssesssesssessssssssssssssesssscssecssesssesssssecarecsseessesses 112.3.4. Phương pháp tiếp cận dựa vào NOC MAY esessesssesssesssesssesssesssessesssesssecssesssessusssssesesssecssesssesses 112.4. Phương pháp Hồi quy Logistic (Logistic regresSiOn)...---2- sc©cx2xxecxerxeerxeerxrrrxerrerree 12</small>

<small>Z TNN.. 1.18 nh eẮ... 122.4.2. Mơ hình LOGISTIC ... SÁT TH TT TH HT Tà HH TH HT Tà Hàn kệ 122.4.3. Hàm Logistic và các ti ÏỆ...- --- + + 1n vn nh TH TH HH TH TH TH HT nh Tp 14</small>

<small>2.4.3.1. Định nghĩa ham logistic... -- (+ 11121 E1 91 519311 HH TT HH TH HT HH ngờ 14</small>

<small>2.4.3.2. Các tính chất hàm LLOgÏSfC...-- ¿5-55 2S ỆEESEEEEEE2EEE2112711271271211711 71111.211.111. cre. 15</small>

<small>2.4.3.3. Hồi quy Logistic được sử dụng nhiều trong bài toán phân lớp...-.----¿- ¿5c ©cs++zscc+s 162.4.3.4. Đường ranh giới của HOi quy Logistic là một siêu phẳng ...--- 22-552 ©cscccseczscrrs 16</small>

<small>2.4.3.5. Hồi quy Logistic khơng u cầu giả thiết có thé phân tách tuyến tinh ...--- 162.4.3.6. Ngưỡng quyết định có thé thay đổi...--- ¿-5¿25£©2S£2SE‡EEESEkESEECEEEEEEEEEEEEEEEkrrkrrrkrrrerree 17</small>

CHƯƠNG 3: UNG DUNG PHAN TÍCH QUAN DIEM VỚI BỘ DU LIEU TIN

<small>NHẮN TWITTER ...s-- 5< s< se vsseEvseeEvseersseersseersssersssersserrssersssersssersssesssee 18</small>

<small>3.1. Hệ thống phân tích quan điểm...---2-++++©++++E++vEEE+2EEESEEEEEEEtEEEErEEkrerkkrrrkkerrksrrrrrrrree 18</small>

<small>3.2. Tông quan về bộ dữ liệu tin nhắn T'Wi€T... -- ¿2c ©+<+SE£2EE£SEE2EEEE13E7122712211211711711211. 21121. cr1. 193.3. Tiền xử lý dữ liệu và gán nhãn...--- 2-22 +s£++E+SEE£EEEEEEE2EEE2E121171571127171171111171. 11111. cre. 21</small>

<small>3.3.1. True quan hoa ditt 0... 22</small>

<small>3.3.2. Tid xt LY 00018 .7... 27</small>

CHUONG 4: THUC NGHIEM VA ĐÁNH GIÁ

<small>4.1. Xây dựng mô hình... .-- --- ó6 41211 1 TT TH Tu TH HH Tp</small>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<small>4.2. Phương pháp đánh giá mơ hình</small>

<small>4.3. Kết quả thực nghiệm...</small>

CHUONG 5: KET LUẬN... "—.... _ "—--... ".ÔỎ 40

<small>5.1. Kết QUA at AUOC T1... ằ.e...5.2. Han chế va định hướng trong tương lai</small>

TÀI LIEU THAM KHẢO...-- 2s se ssevsssessseessersserssersserssersserssersssessse 4

<small>PHU LUC cesccssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssss 42</small>

<small>Code xay dung m6 hinh T88... ... 42</small>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<small>Hình 3.</small>

<small>Hình 3.</small>

<small>Hình 3.Hình 3.</small>

<small>Hình 3.</small>

<small>Hình 3.</small>

<small>Hình 3.Hình 3.</small>

<small>Hình 3.</small>

<small>Hình 3.Hình 3.Hình 3.</small>

<small>Hình 3.</small>

<small>Hình 3.Hình 3.</small>

<small>Hình 3.</small>

DANH MỤC HÌNH ANH

1: Quy trình phân tích quan điểm...--- 2-2 2 + x+Ex££++£x££x++xezxe+rezrerrxerxee 182 Tệp dữ liệu tin nhắn Twitter sử dụng dé huấn luyỆn...-ccc<c<eckesees 203 Tệp dit liệu tin nhắn Twitter thâm định...--- 55c ©5z25+2z+2z+zzzrxerxered 21

<small>4: Trực quan hóa tệp dữ liệu TrainnIng...- -.-- «+ xxx ngư 22</small>

5: Trực quan hóa tệp dữ liệu kiểm định...-- c6 xe tckeEEkeEerkekerkexerkererree 22

6 :Những từ ngữ thường xuyên xuất hiện ở mục Positive...-..---‹:--‹- 23

7 :Những từ ngữ thường xuyên xuất hiện ở mục Negative...---‹---: 24

8: Những từ ngữ thường xuyên xuất hiện ở mục IrreleVant...-.---‹- + 25

9: Những từ ngữ thường xuyên xuất hiện ở mục Neutral...-..---.:--- 26

10: Mức độ quan tâm & cảm xúc phân loại theo các chủ đề ...--.--- 27

<small>11: Tệp dữ liệu trainning sau khi được thêm cỘI...- --- 5 ++<£+<++sc+sxsx2 28</small>

<small>12: Tệp dữ liệu validation sau khi được thêm cỘt...- <5 +-<<++<++<cx+see 2813: Tệp dữ liệu trainning sau khi đã xử lý...- -.- 5s kS*sssiieirskg 29</small>

14: Số lượng từ sau khi được Xử lý ...--¿- ¿¿+e++k+Ek+EkeExerkerkerkerkerrerrrrree 30

<small>15: Câu bình luận sau khi được tách từ ...-- --.--- 55+ +33 kksssseeseeee 30</small>

16: Minh họa một số từ dừng từ thư viện NLTK...----:¿-+5cs++-5++¿ 31

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

CHƯƠNG 1: TONG QUAN

Phân tích cam xúc là một lĩnh vực được các nhà nghiên cứu va các nhà phát triển

trong lĩnh vực Internet dành nhiều sự quan tâm trong thập niên vừa qua. Mục tiêu hướngđến của phân tích quan điểm là xây dựng các hệ thống tự động xác định các quan điểm,

tinh cảm, đánh giá, thái độ và cảm xúc của con người cho các thực thể hoặc các thuộc

tính của chúng được thể hiện trong các văn bản bằng ngôn ngữ tự nhiên.

<small>11. Giới thiệu</small>

Các thực thé mà phân tích quan điểm quan tâm rat rộng. Nó có thé là các thơng tinvề thị trường, các sản phẩm hoặc dich vụ, các sự kiện nồi bật, những thơng tin về kinh tế

- chính trị. Các thực thể này thường được thể hiện qua các cuộc thảo luận, tin tức, bình

luận, phản hồi đánh giá. Dé hệ thống có thé tự động thực hiện các nhiệm vụ đề ra, phân

tích quan điểm dựa trên ngơn ngữ tính tốn, khai thác văn bản, truy vấn thông tin, xử lý

ngôn ngữ tự nhiên, thông kê, phân tích dự đốn và học máy.

Phân tích quan điểm thường sử dụng kết hợp giữa các giải pháp xử lý ngôn ngữ tựnhiên và phương pháp trong học máy đề phân lớp, trích xuất và xác định quan điểm được

thể hiện trong văn bản hoặc tài liệu.

Trong những năm gan đây với sự phát triên mạnh mẽ của công nghệ và đặt biệthơn là các mạng xã hội, không những cung cấp cho người dùng việc trao đổi và chia sẻcác thơng tin với nhau mà cịn giúp quảng bá sản pham hay các sự kiện của công ty, tôchức đến với mọi người. Việc mạng xã hội phát triển đem theo các hệ quả rất lớn kèmtheo. Hiện nay có khá nhiều các mạng xã hội như Twitter, Facebook, ... lên tới hàng tỷ

lượt sử dụng. Ngày nay, thay vì sử dụng cách thu thập đánh giá, phát phiếu thăm dò cũngnhư hỏi trực tiếp, trưng cầu ý kiến qua các trang web, các cá nhân hay tô chức đã phân

<small>tích tự động lượng dữ liệu đánh giá lớn từ các trang mạng xã hội, các diễn đàn, các trang</small>

đánh giá sản phẩm nhằm tận dụng nguồn thông tin hữu ích giúp tiết kiệm phan nào chi

<small>phí</small>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Hành vi sử dụng mang xã hội của người dùng hiện tại khơng chi nằm ở mức giải

trí, kết nối mọi người với nhau mà còn với rất nhiều nhu cầu cá nhân như mua bán, quảng

cáo v.v... Với sự phát triển về công nghệ như hiện nay, các doanh nghiệp đã có các chiếndịch Marketing cũng như quảng bá doanh nghiệp trên các nền tảng mạng xã hội. Các nền

<small>tảng mạng xã hội hiện nay cũng chính là một thị trường cực lớn mà các doanh nghiệp,</small>

nhà sản xuất hướng đến nên việc nắm bắt được cảm xúc khách hàng khi trải nghiệm sảnphẩm, khi quảng bá thương hiệu là một điều vô cùng cấp thiết mà doanh nghiệp nào cũng

<small>muôn hướng tới.</small>

Với sự phát triển của mạng xã hội như hiện nay, các mạng xã hội có hàng tỷ lượt

sử dụng, vấn đề đặt ra là làm thế nào biết được một chủ đề hoặc một sự kiện có bao nhiêu

đánh giá tiêu cực hay tích cực, trong khi số lượng đánh giá rất lớn, vượt qua khả năng củacon người. Chính vì vậy bài tốn phân tích quan điểm được đặt ra dé giải quyết van đề

trên. Hiện nay, có nhiều kỹ thuật cho bài tốn nhưng hiệu quả nhất là sử dụng kỹ thuật

<small>học máy.</small>

Vi ly do đó, luận văn này trình bày các giải thuật dựa trên lý thuyết máy học và

mơ hình Logistic Regression dé đưa ra các mơ hình nhằm phân tích cảm xúc cho các dữ

<small>liệu tin nhăn trên nên tảng mạng xã hội Twitter</small>

<small>1.2. Muc tiêu và nhiệm vu</small>

Luận văn định hướng tìm hiểu phương pháp phân tích cảm xúc, trên cơ sở đó đề xuất

<small>phương pháp và thử nghiệm các kỹ thuật học máy trong bài tốn phân tích cảm xúc, cụ</small>

thể là các tin nhắn bình luận trên nền tảng mạng xã hội Twitter, từ bộ dữ liệu thu thập, em

xin được dé xuất nghiên cứu và đưa ra mơ hình ứng dụng. Mơ hình bao gồm các bước từ

thu thập dữ liệu, tiền xử lý dữ liệu, vectơ hóa dữ liệu đến lựa chọn mơ hình học máy và

huấn luyện. Cuối cùng là đưa ra những đánh giá hiệu quả của thuật toán, bộ dữ liệu, kết

quả đạt được và đánh giá về tính khả thi ứng dụng mơ hình.

143. Bố cục

<small>Luận văn được bơ trí thành bơn chương có nội dung như sau:</small>

<small>6</small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Chương 1: Giới thiệu tổng quan về bài toán phân tích cảm xúc thơng qua tin

<small>nhăn, bình luận trên mạng xã hội Twitter. Mục tiêu và nhiệm vụ cua bai chuyên dé</small>

<small>Chương 2: Đưa ra các nghiên cứu trước đây liên quan tới việc phân lớp cảm xúc</small>

và đưa ra các lý thuyết về học máy, thuật toán Logistic Regression, các phương pháp biến

đổi dữ liệu và các phương pháp đánh giá mơ hình.

Chương 3: Ứng dụng phân tích quan điểm với bộ dữ liệu

Chương 4: Thực nghiệm và đánh giá. Xây dựng cài đặt mơ hình, huấn luyện mơhình tiến hành thử nghiệm, đánh giá mơ hình.

Kết luận: Tổng kết quá trình thực hiện luận văn, những kết quả đạt được và địnhhướng phát triển bài toán trong tương lai.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

CHƯƠNG 2: CƠ SỞ LÝ LUẬN

<small>2.1. Khai niệm phân tích cảm xúc</small>

Trong những năm gần dây, phân tích cảm xúc (SA) được cộng đồng nghiên cứuthuộc lĩnh vực NLP được đông đảo cộng đồng trong lẫn ngồi nước rất quan tâm. Đây là

<small>q trình xác định và phân loại văn bản thành các cảm xúc khác nhau, ví dụ cảm xúc tích</small>

cực, tiêu cực hoặc trung tính, hoặc cảm xúc chăng hạn như vui, bn, tức giận hoặc ghêtom dé xác định thái độ của con người đối với chủ thê hoặc thực thể cụ thé. Phân tích

<small>cảm xúc cũng là một trong những cơng tác quan trọng trong lĩnh vực NLP. Nó khơng chỉ</small>

có ý nghĩa quan trọng trong học thuật, nghiên cứu mà còn có ý nghĩa cực kì thiết yếutrong các ngành cơng nghiệp — dịch vụ, cụ thê là việc nhận biết hành vi và thái độ của

khách hàng về sản phẩm và dịch vụ mà họ sử dụng. Với ngành công nghiệp - dịch vụ nóichung, SA được sử dụng như một cơng cụ mạnh mẽ để tự động hóa quy trình phân tíchvà đánh giá ý kiến của người dùng. Đối với các lĩnh vực kinh doanh hiện nay nói riêng,các ý kiến người dùng đó thường được thu thập từ các trang mạng xã hội, hoặc các trangthu thập nhận xét của khách hàng về chất lượng cũng như mức độ hài lịng. Hiện nay, bàitốn phân tích cảm xúc có ba cấp độ chính đó là cấp độ câu văn (sentence-level), văn bản

(document-level), và khía cạnh (aspect-level). Ở cấp độ câu văn, mục tiêu của bài toán là

<small>phân loại một câu văn thành các lớp tiêu cực (negative), tích cực (positive), hoặc trung</small>

tính (neutral). Cấp độ văn bản được dùng dé xác định mức độ cảm xúc của một đoạn văn(gồm hai hay nhiều câu văn) là tiêu cực, tích cực, hay trung tính. Và cấp độ khía cạnh

được dùng để xác định mức độ cảm xúc cho mỗi khía cạnh của thực thé đề cập trong mộtvăn bản. Trong phạm vi của khóa luận, giới hạn nghiên cứu nhóm sẽ chỉ năm ở mỗi khía

cạnh cấp độ câu văn.

2.2. _ Tình hình nghiên cứu thế giới

Từ những năm 2000 cho đến nay, phân tích ý kiến cũng như phân tích ý kiến theokhía cạnh đã và đang thu hút được các nhà nghiên cứu quan tâm, phát triển và đưa

vào ứng dụng thực tế. Khái niệm phân tích cảm xúc (sentiment analysis) xuất hiện lầnđầu tiên trong cơng trình của Nasukawa và Yi. Khái niệm phân tích ý kiến (opinion

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

mining) xuất hiện lần đầu tiên trong cơng trình của Dave, Lawrence and Pennock.Tuy nhiên, nghiên cứu được xem là đầu tiên đặt nền móng cho phân tích ý kiến là

nghiên cứu của Pang và các cộng sự. Ké từ đó các nghiên cứu trong bài toán này ngàycàng được quan tâm và phát triển. Cơng trình đã tiến hành nghiên cứu về phân tích ý

kiến từ các phản hồi của người dùng đối với miền dữ liệu điện ảnh (movie domain)

với hai phân lớp được quan tâm đến trong nghiên cứu là tích cực và tiêu cực. Ba

<small>phương pháp máy học (Naive bayes, maximum entropy classification và support</small>

vector machine) được sử dung dé giải quyết van dé phân loại các ý kiến trong nghiêncứu này. Năm 2010, Thet và các cộng sự tiễn hành thực hiện nghiên cứu không chỉ

quan tâm đến việc phân tích ý kiến mà cịn phân tích chỉ tiết các định hướng cảm xúcvà sức mạnh của cảm xúc của đánh giá đối với các khía cạnh khác nhau trong miền

dữ liệu điện ảnh. Phương pháp được dé xuất là sử dụng điểm số cảm xúc của bộSentiWordNet dé tiến hành tính tốn cảm xúc cho các khía cạnh khác nhau. Cơngtrình của Kim Schouten và Flavius Frasincar giới thiệu tổng quan về bài tốn phântích ý kiến trên khía cạnh. Trong cơng trình này, tác giả đưa ra các bài tốn con củabài tốn phân tích ý kiến theo khía cạnh, cách phương pháp đánh giá và khảo sát cácmơ hình và kết quả thử nghiệm được đề xuất đưa vào nghiên cứu trước đó đối với các

bài toán con khác nhau. Haque va cộng sự đã sử dụng các bai đánh giá sản phẩm của

Amazon trong ba lĩnh vực: điện thoại di động và phụ kiện, âm nhạc và thiết bị điện

<small>tử. Họ đã phân loại cảm xúc thông qua Linear SVM, Multinomial Na "1ve Bayes,</small>

Stochastic Gradient Descent, Random Forest, Hồi quy logistic và Cây quyết định.

Singla và cộng sự đã thực hiện phân tích tình cảm các đánh giá về điện thoại di độngtrên Amazon, họ đã phân loại văn bản thành các phân cực bao gồm tích cực và tiêucực, và cảm xúc tức giận, mong đợi, sợ hãi, vui vẻ, buồn bã, ghê tom, ngạc nhiên và

tin tưởng. Việc phân loại được thực hiện thơng qua Logistic Regression với đến độ

chính xác là 84,85%. Và, kết quả mang lại, thương hiệu Samsung nhận được nhiều

phản hồi tích cực nhất từ khách hàng. Những kết quả này rất hữu ích cho các nhà sản

<small>xt vì họ có thê làm việc trên các phản hơi đê cải thiện chât lượng sản phâm.</small>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<small>2.3. Phuong pháp hoc máy</small>

Học máy là một lĩnh vực nhỏ của khai phá dữ liệu sử dụng các phương pháp thống kê,

mơ hình tốn và sức mạnh tính tốn của máy tinh dé giả lập phương pháp học của conngười bang dữ liệu. Lượng dữ liệu càng lớn, độ chính xác cua mơ hình khai pha dữ liệu

càng cao. Trong lịch sử của lồi người, chúng ta ln ln học từ lỗi sai của mình hoặc

tìm cách dé làm tốt hơn một van đề nhất định. Các chương trình máy tính thơng thườnghầu hết chỉ sử dụng logic và khơng thể sử dụng kết quả đầu ra để củng cố cho quá trình

thực thi các câu lệnh, vậy nên các chương trình máy tính đó chỉ có thé trả lại một hoặc

một vài thơng tin có định từ một dữ liệu đầu vào. Đến năm 1952, Samuel là nhà khoa hocđầu tiên phát minh ra một chương trình có thé tự chơi cờ ca-rơ và có thé học được nhữngnước cờ đề cho những lần sau có thể chơi tốt hơn (Claude Sammut, 2017, pp. 1123 -

1124). Các phương pháp học máy có thê chia nhỏ hơn thành học có giám sát và học

<small>không giám sát, tuỳ thuộc vào yêu câu bài tốn và dữ liệu dau vào.2.3.1. Học có giám sát</small>

Học có giám sát (supervised learning) là quy trình học máy sử dung cả dữ liệu đầu

vào (các biến độc lập) và dữ liệu của biến phụ thuộc hay cịn gọi là nhãn của dữ liệu

trong q trình học dé xây dựng nên mơ hình có thể đưa ra được đầu ra là biến phụ thuộc

(Claude Sammut, 2017, pp. 1213-1214). Đối với các bài tốn hoc có giám sát, dữ liệu đầuvào của bài toán là tập m là mẫu dữ liệu vector x gới ¡ = 1,...,m và nhãn tương ứngđược đánh chính xác qua quan sát thực tế y. Mục đích chính của phương pháp này là

sử dụng dữ liệu đầu vào nói trên dé xây dựng một mơ hình ƒ(x;Ø) = 67@. Bởi vì

vectors Ø được tính tốn trực tiếp từ tap x nên tồn bộ các vector đầu vào đều có ảnh

hưởng it nhiều đến mơ hình. Vậy nên, việc trích chọn ra được các đặc trưng, biến tốt đểcó thê tăng khả năng chính xác của mơ hình được xây dựng nên.

<small>2.3.2. Học khơng giám sát</small>

Học khơng giám sát (unsupervised learning) là q trình sử dụng đữ liệu đầu vào

<small>dé tìm ra được câu trúc của dữ liệu, từ đó gợi ý ra được các quy luật, phân nhóm cho các</small>

<small>10</small>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<small>dữ liệu hiện tại và sau này (Claude Sammut, 2017, p. 1304). Việc học khơng giám sát là</small>

tìm ra một i din â cho mụ hỡnh đ(x). T ú ta có thể tối ưu được © dé các vectors đạidiện @ = ®(z;®) được tối ưu hơn là dữ liệu đầu vào x.

2.3.3. Phương pháp tiếp cận dựa trên luật

Các hệ thống này tự động thực hiện phân tích quan điểm dựa trên một tập hợp cácluật được tạo thủ cơng do con người tạo ra giúp xác định tính chủ quan, quan điểm tíchcực, quan điểm tiêu cực, trung tính hoặc chủ đề của một ý kiến. Các luật này có thé bao

gồm các kỹ thuật NLP khác nhau được phát triển trong ngơn ngữ hoc tính tốn như tạomã nguồn, mã hóa, phân tích cú pháp và dựa vào danh sách từ điển và từ vựng

(LexIcons). Cơ chế hoạt động cơ bản của hệ thống 16 dựa trên luật: 1. Xác định hai danh

sách các từ phân cực, các từ tiêu cực như quá xấu, quá tệ, chat lượng quá kém, tồi qua...

và các từ tích cực như rất tốt, rất đẹp, thật tuyệt... 2. Đếm số từ tích cực và tiêu cực xuất

hiện trong một văn bản nhất định. 3. Nếu số lần xuất hiện từ tích cực nhiều hơn số lần

xuất hiện từ tiêu cực, hệ thống sẽ trả về cảm xúc tích cực và ngược lại. Nếu các con số làchăn, hệ thống sẽ trả về một cảm giác trung tính. Các hệ thống dựa trên luật rất đơn giảnvì chúng khơng tính đến cách các từ được kết hợp theo một trình tự. Tắt nhiên, các kỹ

thuật xử lý nâng cao hơn có thé được sử dụng va các luật mới được thêm vào đề hỗ trợcác cách diễn đạt và từ vựng mới. Tuy nhiên, việc thêm các luật mới có thể ảnh hưởng

đến các kết quả trước đó và tồn bộ hệ thống có thể trở nên rất phức tạp. Vì các hệ thốngdựa trên luật thường yêu cầu tinh chỉnh và bảo trì, chúng cũng sẽ cần dau tư thường

2.3.4. Phương pháp tiếp cận dựa vào học máy

Các phương pháp tiếp cận dựa vào học máy không dựa trên các luật được tạo thủ

công, mà dựa trên các kỹ thuật máy học. Một nhiệm vụ phân tích quan điểm thường được

mơ hình hóa như một bài tốn phân lớp, theo đó một bộ phân lớp được cung cấp đầu vào

là một văn bản và trả về đầu ra là một danh mục, ví dụ: tích cực, tiêu cực hoặc trung tính.

Một bộ phân lớp học máy có thê được phát triển nếu nó được xây dựng dựa trên kho ngữ

<small>11</small>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

liệu huấn luyện cĩ chứa nhãn chính xác cho mỗi đầu vào. Một số phương pháp tiếp cận

học máy là sử dụng tập dữ liệu đã biết dé đưa ra dự đốn kết quả đầu ra. Các kỹ thuật

truyền thống yêu cầu hai bộ tài liệu: bộ huấn luyện và bộ kiểm thử. Dé học các thuộc tínhkhác nhau của tài liệu, tập huấn luyện được sử dụng và đề đánh giá tập kiểm tra trình

phân lớp hiệu suất được sử dụng. Các thuật tốn học máy được sử dụng phơ biến trong

bài tốn phân tích quan điểm: Nạve Bayes, Maximum Entropy, Support Vector Machine

<small>(SVM), Logistic Regression, Deep Learning. Các thuật tốn này cĩ hiệu quả trong bài</small>

tốn phân tích quan điểm.

2.4. Phương pháp Hồi quy Logistic (Logistic regression)

1. Điều này phù hợp với bài tốn phân loại bình luận người dùng cụ thê là phân tích quan

điểm. Đầu ra của bài tốn đĩ là xác định bình luận đĩ là tích cực hay tiêu cực.

<small>2.4.2. Mơ hình Logistic</small>

Đầu tiên, ta sẽ xem xét mơ hình logistic như sau: Hãy xem xét một mơ hình cĩ haiyêu tố dự đốn, x¡ va x2, và một biến phản hồi nhị phân Y, mà chúng tơi biéu thị p = P (Y= 1). Giả định mối quan hệ tuyến tính giữa các biến dự đốn và tỷ lệ cược log của sự kiệnY = 1. Mối quan hệ tuyến tính này cĩ thé được viết dưới dạng tốn học sau (trong đĩ £ làtỷ lệ cược log, b là cơ số của logarit và B là các thơng số của mơ hình):

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Bang thao tác đại số (chia cả tử và mẫu số cho bfð*#1#:†2#2) ta thu được xácsuất Y = 1 là:

<small>bPo†1x1+2*2 1</small>

p= pBotBix14+B2x2 + 1 = 1 + p~@Borthix1+B2x2) = Sp(Bo + Bix1 + 232)

Trong đó Sb là ham sigmoid với cơ sở b. Cơng thức trên cho thay rang sau khi B;được sửa, chúng ta có thể dễ dàng tính tốn tỷ lệ cược Y = 1 cho một quan sát nhất định,

hoặc xác suất Y = 1 cho một quan sát nhất định. Trường hợp sử dụng chính của mơ hìnhlogistic là đưa ra một quan sát (x1,x2) và ước tính xác suất p mà Y = 1. Trong hầu hết cácứng dụng, cơ số b của lôgarit thường được coi là e. Tuy nhiên, trong một số trường hợp,

việc truyền đạt kết quả có thé dé dang hơn bằng cách làm việc trong cơ sở 2 hoặc cơ sở

<small>10. Chúng tôi xem xét một ví dụ với b = 10 và By = —3,¡ =1,B. =2</small>

Cụ thể, mơ hình là:

logio 1=; = ? = —3 + xX, + 2X2

Trong đó, p là xác suất của sự kiện khi Y=1.

Có thé hiểu như sau:

Bo =—3 là chặn y. Đó là tỷ lệ cược của sự kiện Y = 1, khi các yếu tổ dự đoán xi =xa= 0. Bằng cách tinh lũy thừa, chúng ta có thé thấy rằng khi x1 = xa= 0 tỷ lệ cược củatrường hợp Y = 1 là 1/ (1000 + 1) = 1/1001. Tương tự, xác suất của sự kiện Y = 1 khi x1

=x2= 0 có thê được tính là 1/ (1000 + 1) = 1/1001

Bi = 1 có nghĩa là tăng x1 lên 1 sẽ làm tăng tỷ lệ lên 1. Vì vậy, nếu x1 tăng 1, tỷ lệ

cược rằng Y = | tăng theo hệ số của 101. Lưu ý rằng xác suất của Y = | cũng đã tăng lên,

nhưng nó khơng tăng nhiều vì tỷ lệ cược đã tăng lên.

8 = 2 có nghĩa là tăng x2 lên 1 sẽ làm tăng ty lệ lên 2. Vì vậy, nếu x2 tăng 1, tỷ

lệ cược răng Y = | sẽ tăng theo hệ số của 102. Lưu ý rằng anh hưởng của x2 lên tỷ lệ

<small>13</small>

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

cược đăng nhập lớn gap đôi ảnh hưởng của x1, nhưng ảnh hưởng đến tỷ lệ cược lớn hơn10 lần. Nhưng ảnh hưởng đến xác suất của Y = 1 không lớn hơn 10 lần, nó chỉ ảnh hưởng

đến tỷ lệ cược lớn hơn 10 lần. Đề ước tính các tham số B từ dữ liệu, người ta phải thực

hiện hồi quy logistic.

<small>2.4.3. Ham Logistic và các tỉ lệ</small>

<small>2.4.3.1. Định nghĩa ham logistic</small>

Một ham Logistic chuẩn là một hàm Sigmoid, nhận bất ky dau vao thuc t va xuatra giá trị từ 0 đến 1. Đối với logit, điều này có nghĩa là với bat kỳ tỉ lệ logit đầu vào sẽ có

<small>đâu ra là xác suât. Hàm Logistic chuân được định nghĩa như sau:</small>

<small>et 1</small>

o(t) ~ et+1 1+ert

Minh họa, trường hợp t liên tục trong khoảng từ -6 đến 6 ta có

Giả sử t là một hàm tuyến tính một biến x khi đó ta có:t= pot Bi

<small>14</small>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Và khi đó, ta có thể có ham logistic tổng quát dang p(x) > (0,1) là:

<small>các diém dữ liệu Xi. Vì vậy ta có ma trận X và các tham sơ chia sẻ B .</small>

Đặt By + fạx = WTx khi đó ta sẽ có cơng thức tính xác suất cho ham logistictổng quát có dạng như sau:

- Hàm tăng trên miền xác định

- Hàm đối xứng qua diém (0, 1⁄2), không phải hàm chan cũng không phải hàm lẻ

<small>- BỊ giới hạn trên và dưới</small>

<small>- Khơng có cực trị địa phương- Tiệm cận ngang: y = 0 vay=1- Khơng có tiệm cận đứng</small>

<small>- Mượt (smooth) nên có đạo hàm mọi nơi, có thê được lợi trong việc tơi ưu ham</small>

Sigmoid. Tính chất của logistic regression

<small>15</small>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

2.4.3.3. Hồi quy Logistic được sử dụng nhiều trong bài tốn phân lóp

Hồi quy Logistic là bài toán hồi quy nhưng lại được sử dụng nhiều cho các bàitoán phân lớp. Việc xác định một điểm dữ liệu thuộc các lớp khác nhau sau khi đã xâydựng được mơ hình sẽ tùy thuộc vào xác suất của điểm dit liệu đó là:

<small>P (y = 1)1 x; w); P (y = Olx; w)</small>

Néu lớp nào có xác suất lớn hơn thì điểm dữ liệu sẽ được kết luận thuộc lớp đó.

Do tổng của hai xác suất trong công thức trên là 1, vậy ta chỉ cần xác định xác suất P (y =

<small>1) | x; w) có lớn hon 0,5 hay khơng.</small>

Ưu điểm của phương pháp Hồi quy Logistic: Học dự đốn thay vì phân 25 lớpra xác suất của lớp sẽ hợp lý hơn. Hồi quy Logistic dùng hàm phân lớp phi tuyến tính nên

thường thuộc các mơ hình cho kết quả tốt hơn.

2.4.3.4. Đường ranh giới của Hồi quy Logistic là một siêu phẳng

Như ở trên đã chỉ ra, rõ ràng khi điểm dữ liệu có đầu ra xác suất là lớn hơn 0.5 thì

regression được coi là một bộ phân lớp tuyến tính

2.4.3.5. Hồi quy Logistic khơng u câu giả thiết có thé phân tách tuyến tínhHồi quy Logistic lợi thé hơn so với PLA là giả thiết của dữ liệu đầu vào theo hailớp không cần yêu cầu phân tách tuyến tính. Tuy vậy, ranh giới tìm được vẫn ở có dạng

tuyến tính. Vì vậy, mơ hình này chỉ phù hợp với dạng mơ hình đữ liệu chỉ có một số điểmdữ liệu phá vỡ tính phân tách tuyến tính của hai lớp hay nói cách khác nó gần với phân

tách tuyến tính.

<small>16</small>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

2.4.3.6. Ngưỡng quyết định có thể thay đổi

Việc xây dựng ngưỡng phụ thuộc vào P (y = I) | x; w); vì vậy ta hồn tồn có thélựa chọn thay đổi ngưỡng phù hợp với mục đích của bài tốn. Ví dụ, nhiều trường hợp,việc đánh giá nội dung tin nhắn trên một lĩnh vực nào đó trên mạng xã hội là quan trọng.

Vậy đề tránh chỉ tiêu này có sự nhằm lẫn giữa đánh giá đúng sai thì xác suất lựa chọn

ngưỡng hồn tồn có thé thay đồi từ 0.5 thành 0.6 hoặc ngược lại đánh thành 0.4 tùy vào

<small>yêu câu của bài toán đánh giá.</small>

<small>17</small>

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

CHƯƠNG 3: UNG DUNG PHAN TÍCH QUAN DIEM VỚI BỘ DU LIEU TIN

NHAN TWITTER

3.1. Hé thong phan tich quan diém

Hiện nay đã có nhiều hệ thống phân tích quan điểm làm việc với những miền dữ

<small>liệu khác nhau nhưng đêu bao gôm các bước chính như sau:</small>

<small>Huan luyện mơ hình</small>

<small>Danh giá mơ hình</small>

<small>Trực quan hóa</small>

<small>Dashboards biểu diễn</small>

<small>kết quả Python, Google API và</small>

<small>| Tableau Desktop</small>

Đề xuất |

Hình 3. 1: Quy trình phân tích quan điểm

<small>18</small>

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

- Thu thập, phân tích, chuẩn bị dữ liệu: thành phan tự động lấy dữ liệu, cụ thélà những phản hồi, bình luận của khách hàng từ các hệ thống trực tuyến, các trang web

<small>đánh giá của người dùng hay các cộng đông mạng xã hội.</small>

<small>» Tiên xử lý dữ liệu và gan nhãn: tại bước này có nhiệm vu xử lý dữ liệu, gơm</small>

<small>các cơng việc như: chuân hóa chữ thường, tách từ, loại bỏ dâu câu, các ký tự đặc biệt. Dữ</small>

<small>liệu sẽ được làm sạch, chn hóa rơi gan nhãn làm đâu vào cho bước tiép theo.</small>

* Trích chọn đặc trưng: sử dụng kỹ thuật biéu diễn văn bản như mơ hình Bag ofword (Bow), Term Frequency — Inverse Document Frequency (TFIDF), N-Gram dé biéu

<small>diễn các văn ban dau vào thành các vector đặc trưng.</small>

- Lựa chọn mơ hình học máy (Machine Learning): xây dựng mơ hình huấn luyện

và dự đốn cho các mơ hình truyền thống. Mơ hình huấn luyện sử dụng tập dữ liệu huấn

luyện làm đầu vào và có nhiệm vụ học một mơ hình dự đốn. Mơ hình dự đốn có nhiệm

<small>vụ tính tốn đê phân lớp quan điêm cho các vector biêu diễn văn bản từ đâu vào.</small>

3.2. Tổng quan về bộ dữ liệu tin nhắn Twitter

Bài nghiên cứu sử dụng bộ dữ liệu những tin nhắn bình luận ở trên mạng xã hội

Twitter. Mỗi người khác nhau sẽ có quan điểm đánh giá khác nhau khơng theo một chuẩnquy tắc ngữ pháp nào. Bộ dữ liệu là tổng hợp các bình luận về rất nhiều chủ đề được quantâm hiện nay, bộ dữ liệu được chia làm 2 tệp dữ liệu. Tệp dữ liệu đầu tiên là tệp dữ liệu

twitter_trainning.csv với 74682 value và đã được phân chia sẵn theo bồn thé loại:

<small>19</small>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<small>1 train=pd.read_csv('D://Chuyende//twitter_training.csv', header=None)</small>

<small>2 train</small>

<small>0 2401 Borderlands Positive im getting on borderlands and i will murder yo...1 2401 Borderlands Positive ! am coming to the borders and | will kill you...</small>

<small>2 2401 Borderlands Positive im getting on borderlands and i will kill you...</small>

<small>3 2401 Borderlands Positive im coming on borderlands and i will murder you...4 2401 Borderlands Positive im getting on borderlands 2 and i will murder ...</small>

<small>T4677 9200 Nvidia Positive Just realized that the Windows partition of my...</small>

<small>T4678 8200 Nvidia Positive Just realized that my Mac window partition is...T4679 8200 Nvidia Positive Justrealized the windows partition of my Mac...74680 8200 Nvidia Positive Justrealized between the windows partition of...74681 9200 Nvidia Positive Just like the windows partition of my Mac is L..</small>

<small>74682 rows x 4 columns</small>

Hình 3. 2 Tép dữ liệu tin nhắn Twitter sử dung dé huấn luyện

- Positive: Phản hồi mang tính tích cực

- Negative: Phản hồi mang tính tiêu cực- Neutral: Phản hồi mang tính trung tính

- Irrelevant: Phản hồi không liên quan đến chủ dé

Tp dữ liệu thứ hai là tệp dữ liệu twitter_ validation.csv là tệp dữ liệu sử dụng dé thầm

<small>20</small>

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

<small>1 val=pd.read_csv('D://Chuyende//twitter_validation.csv', header=None)</small>

<small>2 val</small>

<small>0 1 2 30 3364 Facebook Irrelevant | mentioned on Facebook that! was struggling ...</small>

<small>1 352 Amazon Neutral BBC News - Amazon boss Jeff Bezos rejects clai....</small>

<small>2 8312 Microsoft Negative @Microsoft Why do | pay for WORD when it funct...</small>

<small>3 4371 CS-GO Negative CSGO matchmaking is so full of closet hacking...</small>

<small>4 4433 Google Neutral Now the President is slapping Americans in the...</small>

<small>995 4891 GrandTheftAuto(GTA) Irrelevant sy Toronto is the arts and culture capital of...</small>

<small>996 4359 CS-GO Irrelevant tHỊS IS ACTUALLY A GOOD MOVE TOT BRING MORE VI...</small>

<small>997 2652 Borderlands Positive Today sucked so it’s time to drink wine n play...</small>

<small>998 38069 Microsoft Positive Bought a fraction of Microsoft today. Small wins.</small>

<small>999 6960 johnson&johnson Neutral Johnson & Johnson to stop selling talc baby po...</small>

Hình 3. 3: Tép dữ liệu tin nhắn Twitter thẩm định3.3. Tiền xử lý dữ liệu và gán nhãn

Tiền xử lý dữ liệu và gán nhãn là một trong những bước quan trọng nhất trong

khai thác dữ liệu, đặc biệt là trong khai thác dữ liệu văn bản vì có rất nhiều sự khác biệt

<small>về nội dung văn bản trên các kênh truyên thông điện tử.</small>

<small>21</small>

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<small>3.3.1. Trực quan hóa dữ liệu</small>

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Tiếp theo, ta cần biết các từ phố biến trong từng hạng mục, dé trực quan hóa phannày một cách dé nắm bắt nhất, ta sẽ sử dụng thư viện WordCloud của Python, dưới đây làphần trực quan thực hiện trên tệp dữ liệu trainning.

w1n https + ead.

assassin s unk

io E ị nen SG well

n feel °<sub>Cal yy beaut ful</sub>Look really

XSF! kno excited naypeople

nice awesome : 5

finally. league MaKe ng, > tae

s creed

today red dead _new.thing

Hình 3. 6 :Những từ ngữ thường xuyên xuất hiện ở muc Positive

<small>23</small>

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

wes make didn t

ll goog]

need Đ “=still aay

ve bad: t1me + xbox

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

twitch rypeople pubg m

<sub>doesn t</sub>

thing ,,,, 0CCUurred sees

<small>amazingeveryone ve</small>

yutu See detallsS best

call thank italy italysee

onesta ing team

</div>

×