Tải bản đầy đủ (.pdf) (64 trang)

(Luận Văn Thạc Sĩ Công Nghệ Thông Tin) Phân Tích Quan Điểm Trong Lĩnh Vực Thức Ăn Trẻ Em Sử Dụng Kỹ Thuật Học Máy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.46 MB, 64 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

Đ¾I HâC QUàC GIA HÀ NàI

<b>TRọNG ắI HõC CễNG NGHặ </b>

<b>NGUYN TH LIấN </b>

<b>PHN TCH QUAN IM TRONG L)NH VC THC N TRắ EM Sỵ DĀNG KĀ THU¾T HâC MÁY </b>

<b>LU¾N VN TH¾C S) CƠNG NGHỈ THƠNG TIN </b>

<b>NG¯äI H¯âNG DÀN KHOA HâC: TS. NGUN VN VINH </b>

<b>Hà Nái 2021 </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>Đ¾I HõC QUịC GIA H NI </b>

TRọNG ắI HõC CễNG NGH

<b>LUắN VN THắC S) CễNG NGHặ THễNG TIN </b>

<b>NGọI HõNG DÀN KHOA HâC: TS. NGUYÄN VN VINH </b>

<b>Hà Nái 2021 </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>MĀC LĀC </b>

DANH MĀC CÁC KÝ HIàU VÀ CHĀ VIÂT TÂT ... v

DANH MĀC CÁC BÀNG BIỈU ... vi

DANH MĀC CÁC HÌNH VÀ, Đâ THà ... vii

LäI CAM ĐOAN&&... viii

1.2. Đánh nghĩa và khái niám trong phân tích quan điÇm ... 4

1.2.1. Các thành phÁn cÿa mát quan điÇm ... 4

1.2.2. Các nhiám vā cÿa phân tích quan điÇm ... 7

1.3. Nhāng thách thāc trong lĩnh văc phân tích quan điÇm... 10

1.4. Các āng dāng cÿa phân tích quan điÇm ... 12

1.5. Phân lãp quan điÇm ... 13

KÃt luÁn ch°¢ng ... 14

CH¯¡NG 2: CÁC KĀ THUÀT HâC MÁY TRONG BÀI TỐN PHÂN TÍCH QUAN ĐIỈM ... 15

2.1. Các ph°¢ng pháp tiÃp cn ca phõn tớch quan iầm... 15

2.1.1. PhÂng phỏp tiÃp cÁn dăa trên luÁt ... 15

2.1.2. Ph°¢ng pháp tiÃp cÁn dăa vào hãc máy ... 16

2.2. Ph°¢ng pháp Nạve Bayes ... 16

2.3. Ph°¢ng pháp Support Vector Machine (SVM) ... 18

2.4. Ph°¢ng pháp Hãi quy Logistic (Logistic regression) ... 21

2.4.1. Giãi thiáu ... 21

2.4.2. Mơ hình Logistic ... 21

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

2.4.3. Hàm Logistic và các tß lá ... 23

2.5. Ph°¢ng pháp tiÃp cÁn hãc sâu (Deep Learning) ... 25

2.5.1. M¿ng Neural hãi quy RNN ... 26

2.5.2. M¿ng Long Short-Term Memory ... 28

KÃt luÁn ch°¢ng ... 32

CH¯¡NG 3: ĀNG DĀNG PHÂN TÍCH QUAN ĐIỈM VâI DĀ LIàU THĀC N TR¾ EM ... 33

3.1. Há tháng phân tích quan điÇm ... 33

3.2. Đặc điÇm cÿa dā liáu thāc n tr¿ em... 34

CH¯¡NG 4: THĂC NGHIàM VÀ ĐÁNH GIÁ ... 45

4.1. Môi tr°ång thăc nghiám: ... 45

4.2. Xây dăng và lăa chãn mơ hình ... 45

4.3. Hu¿n lun mơ hình ... 48

4.4. KÃt quÁ thăc nghiám ... 48

4.5. Đánh giá thăc nghiám ... 51

KÃt luÁn ch°¢ng&&&&&&&&&&&&&&&&&&&&&.52 KÂT LUÀN&&&&&&. ... 53

Tài liáu tham khÁo&.. ... 54

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>DANH MĀC CC Kí HIặU V CH VIắT TT Vit tt ĐÁy đÿ ti¿ng anh Ý ngh*a ti¿ng viÇt </b>

tht tốn

LSTM Long Short Term Memory M¿ng bá nhã thuÁt ngā ngÃn dài

NLP Natural Language Processing Xÿ lý ngôn ngā tă nhiên

SVM Support Vector Machine Mỏy vộc-t hò tr TF-IDF Term Frequency – Inverse

Document Frequency

TÁn su¿t tài liáu nghách đÁo thuÁt ngā

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>DANH MĀC CÁC BÀNG BIÂU </b>

BÁng 3. 1: Mát sá từ dừng trong tiÃng Viát ... 36

BÁng 4. 1: KÃt quÁ hu¿n lun mơ hình vãi đá đo ACC ... 48

BÁng 4. 2: KÃt quÁ đá chính xác theo cỡ cÿa dā liáu hu¿n luyán ... 49

BÁng 4. 3: Thåi gian hu¿n luyán cÿa các tÁp dā liáu ... 50

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>DANH MĀC CÁC HÌNH VÀ, Đà THà </b>

Hình 2. 1: SVM tìm dịng tát nh¿t phân tách hai lãp ... 19

Hình 2. 2: Ví dā vÅ siêu phẳng trong SVM ... 19

Hình 2. 3: Siêu phẳng phân chia lÅ xa nh¿t ... 21

Hình 2. 4: Đã thá cÿa hàm Logistic khi t thuác (-6,6) ... 23

Hình 2. 5: M¿ng RNN có vịng lặp ... 27

Hình 2. 6: Mơ đun lặp l¿i trong RNN ... 28

Hình 2. 7: Mơ đun lặp l¿i trong mát LSTM ... 28

Hình 3. 4: Thăc hián gán nhãn dā liáu ... 38

Hình 3. 5: TÁp dā liáu thāc n tr¿ em sau khi đ°ÿc gán nhãn ... 38

Hình 3. 6: Tß lá tÁp dā liáu đã đ°ÿc gán nhãn ... 39

Hình 3. 7: Mơ hình phân lãp hãc máy trun tháng ... 42

Hình 4. 1: Táp dā liáu sau khi đ°ÿc tÁi ... 46

Hình 4. 2: Ch°¢ng trỡnh loi bò nhng nhón lón hÂn 1 v nhò h¢n 5 ... 47

Hình 4. 3: KÃt q đánh giá các mơ hình sÿ dāng đá đo ACC ... 48

Hình 4. 4: KÃt quÁ đánh giá đá lãn cÿa dā liáu vãi đá đo ACC ... 49 Hình 4. 5: Mát sá bình ln dă đốn sai nhãn khi dùng LTSM&&&&&51

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>LäI CAM ĐOAN </b>

Em xin cam đoan nái dung trình bày trong luÁn vn này là do em tă nghiên cāu tìm hiÇu d°ãi să h°ãng d¿n cÿa giÁng viên TS.NguyÅn Vn Vinh. Mãi tham khÁo các tài liáu, cơng trình nghiên cāu cÿa mát sá tác giÁ, em đã ghi rõ tên tài liáu, nguãn gác tài liáu, tên tác giÁ trong <TÀI LIàU THAM KHÀO= ç cuái luÁn vn. Mãi sao chép không hÿp lá hay gian lÁn em xin hoàn toàn cháu trách nhiám.

Ng°åi cam đoan

<b>NguyÅn Thá Liên </b>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>LäI CÀM ¡N </b>

Tr°ãc hÃt em xin gÿi låi cÁm ¢n và bày tß lịng biÃt ¢n sâu sÃc đÃn thÁy

<b>NguyÅn Vn Vinh, ng°åi đã đánh h°ãng đÅ tài, cung c¿p cho em nhāng kiÃn thāc, </b>

nhāng tài liáu và tÁn tình h°ãng d¿n chß bÁo em trong st quá trình thăc hián đÅ tài luÁn vn.

Em cũng xin chân thành cÁm ¢n các thÁy, cơ giáo cÿa khoa Công nghá thông tin – Tr°ång Đ¿i hãc Công nghá - Đ¿i hãc Quác gia Hà Nái đã d¿y bÁo, truyÅn thā kiÃn thāc, t¿o điÅu kián tát nh¿t trong suát quá trình em hãc tÁp t¿i tr°ång.

Em cũng xin chân thành cÁm ¢n b¿n bè đãng nghiáp, các b¿n hãc viên K24 đã ÿng há và khun khích tơi trong st q trình hãc tÁp t¿i tr°ång.

Cuái cùng, Em xin gÿi låi cÁm ¢n sâu sÃc nh¿t đÃn gia đình, ng°åi thân ln káp thåi đáng viên và giúp đỡ tơi v°ÿt qua nhāng khó khn trong hãc tÁp cũng nh° trong cuác sáng.

Hãc viên

<b> NguyÅn Thá Liên </b>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>Mæ ĐÀU </b>

<b>1. Lý do chãn đÁ tài </b>

Hián nay să phát triÇn nhanh chóng cÿa khoa hãc, cơng nghá đã có nhāng đóng góp quan trãng, làm thay đåi c¢ bÁn mãi mặt cÿa đåi sáng kinh tà - xã hái. Să ra đåi, phát triÇn cÿa m¿ng Internet đã t¿o nên nhāng đát phá trong kÃt nái, chia s¿ thơng tin, thúc đẩy phát triÇn kinh tÃ, giao l°u vn hóa. Bên c¿nh đó, să phát triần bựng nồ ca cỏc trang diòn n, mng xó hái, các trang web l¿y ý kiÃn ng°åi dùng chính l cu nỏi ầ mói ngồi dò dng thầ hiỏn quan điÇm cá nhân vÅ nhāng să kián nåi bÁt đáng quan tâm, nhāng thông tin kinh tÃ, nhāng trao đåi vÅ các lĩnh văc cÿa đåi sáng xã hái, thá tr°ång, sÁn phẩm và dách vā.

GÁn đây, bài tốn phân tích quan điÇm đã đ°ÿc āng dāng ráng rãi trong các lĩnh văc: du lách, khách s¿n, các dách vā tài chính cho đÃn tiêu dùng, chm sóc sc khòe. Khi xó hỏi ngy cng phỏt triần thỡ các bÁc phā huynh ngày càng quan tâm nhiÅu đÃn t°¢ng lai con em mình, trong đó māc tiêu hàng đÁu chính là bå sung thêm các ch¿t dinh d°ỡng nhằm phát triÇn chiÅu cao, trí thơng minh cho các bé.

Ngày nay, thay vì sÿ dāng cách thu thÁp đánh giá, phát phiÃu thm dị cũng nh° hßi trăc tiÃp, tr°ng cÁu ý kiÃn qua các trang web, các cá nhân hay tå chāc đã phân tích tă đáng l°ÿng dā liáu đánh giá lãn từ các trang m¿ng xã hái, các dißn đàn, các trang đánh giá sÁn phẩm nhằm tÁn dāng ngn thơng tin hāu ích giúp tiÃt kiám phÁn nào chi phí.

Các tå chāc doanh nghiáp, các cơng ty có thÇ l¿y ý kiÃn đánh giá vÅ sÁn phẩm và dách vā cÿa hã qua các bình luÁn trên các trang m¿ng. Viác thu thÁp các ý kiÃn đánh giá r¿t quan trãng cho các doanh nghiáp và tå chāc vì hã ln mong mn tìm kiÃm xem ng°åi tiêu dùng có nhÁn xét gì vÅ sÁn phẩm và dách vā cÿa hã, nhå đó hã có thÇ xây dăng các chiÃn l°ÿc bán hàng và phát triÇn sÁn phẩm. Ngồi ra ng°åi tiêu dùng cũng mong muán tham khÁo các ý kiÃn đánh giá vÅ sÁn phẩm hay dách vā mà hã quan tâm tr°ãc khi hã đ°a ra quyÃt đánh trong viác mua, bán hay sÿ dāng các sÁn phẩm hoặc dách vā đó.

V¿n đÅ đặt ra là làm thà nào biÃt đ°ÿc mát chÿ đÅ hoặc mát să kián có bao nhiêu đánh giá tiêu căc hay tích căc, trong khi sá l°ÿng đánh giá r¿t lãn, v°ÿt qua khÁ nng cÿa con ng°åi. Chính vì vÁy bài tốn phân tích quan điÇm đ°ÿc đặt ra đÇ giÁi quyÃt v¿n đÅ trên. Hián nay, có nhiÅu kā thuÁt cho bài toán nh°ng hiáu quÁ nh¿t là sÿ dāng kā tht hãc máy.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<i><b>Chính vì lý do đó hãc viên đã lăa chãn đÅ tài: <Phân tích quan điểm trong </b></i>

<i><b>lĩnh vực thức ăn trẻ em sử dụng kỹ thuật học máy=. </b></i>

<b>2. Māc tiêu và nhiÇm vā cÿa lu¿n vn </b>

LuÁn vn ỏnh hóng tỡm hiầu cỏc phÂng phỏp phõn tớch quan iầm, trờn c sỗ ú xut phÂng phỏp v thÿ nghiám các kā thuÁt hãc máy trong bài toán phân tích quan điÇm, cā thÇ là dā liáu thāc n tr¿ em, từ nhāng dā liáu thu thÁp đ°ÿc trên website, các dißn đàn đánh giá sÁn phẩm, các m¿ng xã hái, hãc viên xin đ°ÿc đÅ xu¿t nghiên cāu và đ°a ra mơ hình āng dāng. Mơ hình bao gãm các b°ãc từ thu thÁp dā liáu, tiÅn xÿ lý dā liáu, vect¢ hóa dā liáu đÃn lăa chãn mơ hình hãc máy và hu¿n lun. Ci cùng là đ°a ra nhāng đánh giá hiáu quÁ cÿa thuÁt toán, bá dā liáu, kÃt quÁ đ¿t đ°ÿc và đánh giá vÅ tính khÁ thi āng dāng mơ hình.

<b>3. Bß cāc lu¿n vn </b>

LuÁn vn đ°ÿc bá trí thành bán ch°¢ng có nái dung nh° sau:

<b>Ch°¢ng 1: Giãi thiáu tång quan vÅ bài tốn phân tích quan điÇm trong </b>

lĩnh văc thāc n tr¿ em. ChÂng ny tỡm hiầu tồng quan: ỏnh ngha, khỏi niám, các nhiám vā, thách thāc trong phân tích quan điÇm, tiÃp đó bài tốn chuẩn hóa trên tÁp dā liáu thāc n tr¿ em đ°ÿc giãi thiáu.

<b>Ch°¢ng 2: Các kā tht hãc máy trong bài tốn phân tích quan iầm. ổ </b>

chÂng ny nghiờn cu, tỡm hiầu cỏc ph°¢ng pháp hãc máy cho bài tốn phân tích quan iầm.

<b>ChÂng 3: ng dng k thut hóc mỏy đÇ phân tích quan điÇm trong lĩnh </b>

văc thāc n tr¿ em.

<b>Ch°¢ng 4: Thăc nghiám và đánh giá. Xây dăng cài đặt mơ hình, hu¿n </b>

lun mơ hình tiÃn hành thÿ nghiám, đánh giá mơ hình.

<b>K¿t lu¿n tång kÃt quá trình thăc hián luÁn vn, nhāng kÃt q đ¿t đ°ÿc và </b>

đánh h°ãng phát triÇn bài tốn trong t°¢ng lai.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>CH¯¡NG 1: TâNG QUAN VÀ BÀI TỐN PHÂN TÍCH QUAN ĐIÂM </b>

Phân tích quan điÇm là mát lĩnh văc đ°ÿc các nhà nghiên cāu và các nhà phát triÇn trong lĩnh văc Internet dành nhiÅu să quan tâm trong thÁp niên vừa qua. Māc tiêu h°ãng đÃn cÿa phân tích quan điÇm là xây dăng các há tháng tă đáng xác đánh các quan điÇm, tình cÁm, đánh giá, thái đá và cÁm xúc cÿa con ng°åi cho các thăc thÇ hoặc các thc tính cÿa chúng đ°ÿc thÇ hián trong các vn bÁn bằng ngôn ngā tă nhiên.

<b>1.1. Giãi thiÇu </b>

Các thăc thÇ mà phân tích quan điÇm quan tâm r¿t ráng. Nó có thÇ là các thơng tin vÅ thá tr°ång, các sÁn phẩm hoặc dách vā, các să kián nåi bÁt, nhāng thông tin vÅ kinh tà - chính trá. Các thăc thÇ này th°ång đ°ÿc thÇ hián qua các cc thÁo ln, tin tāc, bình ln, phÁn hãi đánh giá. ĐÇ há tháng có thÇ tă đáng thăc hián các nhiám vā đÅ ra, phân tích quan điÇm dăa trên ngơn ngā tính tốn, khai thác vn bÁn, truy v¿n thông tin, xÿ lý ngôn ngā tă nhiên, tháng kê, phân tích dă đốn và hãc máy.

Phân tích quan điÇm th°ång sÿ dāng kÃt hÿp giāa các giÁi pháp xÿ lý ngôn ngā tă nhiờn v phÂng phỏp trong hóc mỏy ầ phõn lóp, trích xu¿t và xác đánh quan điÇm đ°ÿc thÇ hián trong vn bÁn hoặc tài liáu.

Nhāng dā liáu đánh giá này thăc să hāu ích cho cÁ các nhà sÁn xu¿t, nhà ho¿ch đánh chiÃn l°ÿc cũng nh° ng°åi tiêu dùng. Đái vãi nhà sÁn xu¿t và nhà ho¿ch đánh chiÃn l°ÿc, các thơng tin hāu ích giúp hã có thÇ nÃm bÃt thơng tin, ý kiÃn cÿa khách hàng hài lòng hay th¿t vãng vÅ sÁn phẩm, dách vā cÿa hã, qua đó káp thåi điÅu chßnh, cÁi tiÃn sÁn phẩm, nâng c¿p dách vā đÇ đáp āng nhu cÁu cÿa khách hàng cũng nh° có các đái sách và quyÃt đánh phù hÿp nhằm xÿ lý các v¿n đÅ liên quan. Ngoài ra, đái vãi ng°åi sÿ dāng, hã có thêm thơng tin hāu ích giúp đánh giá vÅ các sÁn phẩm và dách vā đ°ÿc quan tâm đÇ có thÇ đ°a ra các qut đánh đúng đÃn cho mình.

Dā liáu phân lãp quan điÇm có thÇ đ°ÿc thu thÁp từ nhiÅu nguãn nh°: website, các trang m¿ng xã hái, blog, các cáng đãng. Đặc điÇm cÿa dā liáu d¿ng này th°ång là các đánh giá theo thang điÇm, c¿p đá hoặc là mát cām câu ngÃn tång kÃt tính nng cÿa sÁn phẩm hoặc dách vā cā thÇ đ°ÿc thÇ hián bằng ngơn ngā tă nhiên. Từ đó, có thÇ th¿y dā liáu đ°ÿc thu thÁp đÅu có kiÇu khơng tÁp trung, vān vặt, đa d¿ng và đặc biát là thuÁn vn bÁn.

V¿n đÅ là tÁp dā liáu đ°ÿc thu thÁp là khång lã, r¿t đa d¿ng vÅ các khía c¿nh quan tâm cÿa ng°åi sÿ dāng, h¢n nāa các ý kiÃn đ°ÿc viÃt theo ngôn ngā

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

tă nhiên th°ång khơng có c¿u trúc hay đúng ngā pháp, các bài spam khiÃn viác trích lãc thơng tin hāu ích khó khn, tán thåi gian và chi phí.

Nh° vÁy, nhiám vā quan trãng là phân lãp quan điÇm cÿa ng°åi sÿ dāng từ tÁp dā liáu đÁu vào nhằm đ°a ra kÃt quÁ mong muán. Đây chính là nái dung trãng tâm mà luÁn vn sÁ nghiên cāu tìm hiÇu và giÁi qut.

<b>1.2. Đánh ngh*a và khái niÇm trong phân tích quan điÃm </b>

Phân tích quan điÇm (Opinion Analysis – OA) hay phân tích biÇu cÁm (Sentiment Analysis –SA) là lĩnh văc nghiên cāu phân tích các quan điÇm, thái đá, biÇu cÁm, tình cÁ và cÁm xúc cÿa con ng°åi vÅ thăc thÇ và các thc tính thÇ hián trong vn bÁn nhằm māc đích phát hián quan điÇm tiêu căc hoặc tích căc. Các thăc thÇ có thÇ là các sÁn phẩm, dách vā, să kián nåi bÁt, să vÁt, să viác [4,8]

<b>1.2.1. Các thành phÁn cÿa mát quan điÃm </b>

Trong nghiên cāu, nhiÅu nhà khoa hãc đã đ°a ra c¿u trúc tång quan cÿa mát quan điÇm [3,4,9,11]. LuÁn vn sÿ dāng bài đánh giá vÅ sāa bát Dialac đÇ giãi thiáu v¿n đÅ. (Các câu trong bài đánh giá đ°ÿc đánh sá cho tián cho viác tham khÁo)

Ng°åi bình ln: Ngun Thá A Ngày:11/05/2020

<i><Tơi có mua một hộp sữa Dialac 123 cho con mình 3 tháng trước (1). Con </i>

Từ ví dā trên ta th¿y:

1. Bài đánh giá có mát sá ý kiÃn cÁ tích căc và tiêu căc vÅ sāa bát Dialac 123. Câu (2) bày tß ý kiÃn tích căc vÅ vá ngon cÿa sāa. Câu (3) bày tß ý kiÃn tích căc vÅ sāa Dialac 123. Câu (4) bày tß ý kiÃn tích căc vÅ thành phÁn cÿa sāa theo tìm hiÇu cÿa chuyên gia. Câu (5) bày tß ý kiÃn trái chiÅu vÅ giá cÿa sÁn phẩm. Từ nhāng ý kiÃn này, ta có thÇ đ°a ra nhÁn xét quan trãng sau:

Theo quan sát: Mát quan điÇm bao gãm hai thành phÁn chính: Māc tiêu g và cÁm nhÁn vÅ māc tiêu s tāc cặp <g, s>. Trong đó,

 g có thÇ là b¿t kỳ thăc thÇ hay khía c¿nh cÿa thăc thÇ mà quan điÇm

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

đã đ°ÿc thÇ hián

 s là cÁm nhÁn vÅ māc tiêu g. s có thÇ là đánh giá theo kiÇu phân căc nh°: tiêu căc, tích căc hoặc trung tính; hay đánh giá theo thang điÇm từ 1 đÃn 5 sao.

Trong ví dā trên, māc tiêu cÿa quan điÇm trong câu (2) là vá sāa Dialac 123 và māc tiêu cÿa quan điÇm câu (3) là sāa Dialac 123. Māc tiêu cũng đ°ÿc gãi là chÿ đÅ trong bài đánh giá hoặc tài liáu chāa đánh giá.

2. Trong ví dā trên, có hai ng°åi đ°a ra đánh giá là ng°åi con và Nguyßn Thá A. Hai đái t°ÿng này đ°ÿc gãi là nguãn quan điÇm hoặc ng°åi đ°a ra đánh giá [3,5]. Ng°åi đ°a ra đánh giá trong câu (2) là con cÿa tác giÁ cịn các câu (3), (4), (5) là chính tác giÁ.

3. Thåi gian đ°a ra đánh giá là ngày 11/05/2020. Thông tin này r¿t quan trãng trong thăc tà vì thơng th°ång nhà sÁn xu¿t r¿t mn biÃt các đánh giá sÁ thay đåi ra sao theo thåi gian và xu h°ãng cÿa các quan điÇm. VÁy, từ ví dā trên ta có thÇ đánh nghĩa quan điÇm trong các mơ hình māc tài liáu hay māc câu gãm 4 thành phÁn nh° sau:

<b>Đánh ngh*a 1.1: Quan điÃm (Opinion) </b>

Là mát bá gãm 4 thành phÁn: <g<small>i</small>, s<small>j</small>, h<small>k</small>, t<small>l</small>> trong đó:  g<small>i</small> là māc tiêu i cÿa biÇu cÁm hay quan điÇm

 s<small>j </small>là biÇu cÁm cÿa các ý kiÃn vÅ māc tiêu g<small>i</small>. s<small>j</small> có thÇ là mát đánh giá từ 1 đÃn 5 sao hoặc chia thành các căc cÿa v¿n đÅ nh° tiêu căc, tích căc và trung tính

 h<small>k</small> là ng°åi hoặc tå chāc giā quan điÇm

 t<small>l</small> là thåi gian khi các quan điÇm đ°ÿc thÇ hián

Trong c¿u trúc trên, cÁ 4 thành phÁn đÅu r¿t cÁn thiÃt. Ví dā, thành phÁn ng°åi giā quan điÇm r¿t quan trãng. Ý kiÃn cÿa chuyên gia dinh d°ỡng sÁ đ°ÿc đánh giá cao h¢n ý kiÃn cÿa mát ng°åi bình th°ång vÅ lĩnh văc dinh d°ỡng. Hay, nhân tá thåi gian th°ång r¿t quan trãng trong thăc tà vì ý kiÃn cÿa ngày hơm nay có thÇ khác so vãi các nm tróc õy.

Mòi mỏt quan iầm phi cú mc tiêu đánh giá cÁn xác đánh vì trong mát câu hoặc mát tài liáu có thÇ có nhiÅu māc tiêu ỏnh giỏ. Chỳng thồng c xỏc ỏnh bỗi danh t hoặc cām danh từ. Vì vÁy, điÅu chúng ta cÁn thăc hián là xác

<i>đánh từng māc tiêu cā thÇ và từng đánh giá cho māc tiêu này. Ví dā, <Cháo dinh </i>

<i>dưỡng tốt cho trẻ em nhưng cửa hàng này nấu chưa được chuẩn= ta có thÇ th¿y </i>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

có 2 māc tiêu đ°ÿc xác đánh <cháo dinh dưỡng= và <cửa hàng=. Trong đó, māc

<i>tiêu <cháo dinh dưỡng= đ°ÿc đánh giá tích căc cịn māc tiêu <cửa hàng= bá đánh </i>

giá tiêu căc. Các từ hoặc cām từ chẳng h¿n: <tốt=, <xấu=, <đẹp=, <ngon=, <dở=,

<i><hư hỏng=,& thÇ quan điÇm hoặc đánh giá cÿa chÿ thÇ vÅ māc tiêu. Nó th°ång </i>

hay có cú pháp xác đánh và vì thà có thÇ cho phép trích xu¿t cÁ māc tiêu l¿n đánh giá cÿa chúng. [4,6,13]

Tuy nhiên, có mát sá tr°ång hÿp có thÇ mát trong 4 thành phÁn bá khuyÃn thiÃu. Ví dā, trong câu <Sữa bột Dialac rất tốt cho trẻ sơ sinh= thì thành phÁn bá khuyÃt thiÃu là thåi gian t<small>l</small>. Vì vÁy, trong q trình phân tích quan điÇm cÁn l°u ý các cú pháp câu nhằm phāc vā māc đích tách và trích rút dā liáu đ°ÿc chính xác. Đánh nghĩa 1.1 tuy khá ngÃn gãn tuy nhiên không dß sÿ dāng trong thăc tÃ, đặc biát là trong lĩnh văc đánh giá trăc tuyÃn vÅ sÁn phẩm, dách vā và th°¢ng hiáu vì mơ tÁ đÁy đÿ vÅ māc tiêu có thÇ phāc t¿p và thÁm chí thÇ khơng xu¿t hián trong cùng mát câu. Ví dā, trong câu (2) māc tiêu đánh giá thăc să là <vá cÿa sāa Dialac= hay trong câu (4) māc tiêu đánh giá là <hàm l°ÿng vi ch¿t trong sāa=. Hai câu này chß đÅ cÁp đÃn mát khía c¿nh cÿa sāa Dialac chā khơng phÁi bÁn thân thăc thÇ là sāa Dialac. Trong thăc tÃ, māc tiêu th°ång có thÇ đ°ÿc phân tích và mơ tÁ theo cách có c¿u trúc vãi nhiÅu c¿p đá. ĐiÅu này t¿o điÅu kián thuÁn lÿi cho cÁ viác phân tích ý kiÃn và sau đó sÿ dāng kÃt quÁ ý kiÃn đã đ°ÿc phân tích. Ví dā, <vá cÿa sāa Dialac= có thÇ đ°ÿc phân tách thành mát thăc thÇ và mát thc tính ca thc thầ v cú thầ c biầu diòn dói d¿ng mát cặp,

<Sāa Dialac 123, vá sāa>

Chúng ta hãy sÿ dāng thuÁt ngā thăc thÇ đÇ biÇu thá đái t°ÿng māc tiêu đã đ°ÿc đánh giá. Thăc thÇ có thÇ đ°ÿc đánh nghĩa nh° [4,6].

<b>Đánh ngh*a 1.2: Thăc thà (entity) </b>

Mát thăc thÇ e là mát sÁn phẩm, dách vā, chÿ đÅ, v¿n đÅ, con ng°åi, tå chāc hoặc să kián. Nó đ°ÿc mơ tÁ vãi mát cặp, e: (T, W), trong đó T là há tháng phân c¿p cÿa các bá phÁn, bá phÁn con và W là tÁp hÿp các thuác tính cÿa e. Mßi bá phÁn hoặc bá phÁn con cũng có tÁp hÿp các thuác tính riêng.

Ví dā 1: Mát lo¿i sāa cā thÇ là mát thăc thÇ, ví dā Dialac 123. Nó có mát tÁp hÿp các thc tính, ví dā: Màu sÃc, trãng l°ÿng, công thāc và mát tÁp các bá phÁn ví dā: tem mác, vß háp, bát sāa. KiÇu dáng cũng có tÁp hÿp các thc tính riêng, ví dā: kiÇu háp gi¿y, háp sÃt, màu sÃc&

Đánh nghĩa này vÅ c¢ bÁn mơ tÁ mát thành phÁn phân c¿p cÿa thăc thÇ dăa

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

trên quan há bá phÁn. Nút gác là tên cÿa thăc thÇ, ví dā: Dialac 123 trong bài đánh giỏ ỗ trờn. Tt c cỏc nỳt khỏc l cỏc bá phÁn và các bá phÁn con, v.v ... Mßi ý kiÃn đ°ÿc thÇ hián trên b¿t kỳ nút nào và b¿t kỳ thuác tính nào.

Ví dā 2: Trong bi ỏnh giỏ vớ d ca chỳng tụi ỗ trên, câu (3) bày tß ý kiÃn tích căc vÅ ton thầ sa bỏt Dialac 123. Cõu (2) by tò ý kiÃn tích căc vÅ thuác tính vá cÿa bát sa. Rừ rng, ngồi ta cng cú thầ by tò ý kiÃn vÅ các bá phÁn hoặc thành phÁn cÿa sāa bát Dialac 123.

Thăc thÇ này vãi t° cách là mát há tháng phân c¿p cÿa b¿t kỳ sá c¿p nào cÁn có mát mái quan há lãng nhau ầ biầu diòn nú, iu ny thồng quỏ phc tp đái vãi các āng dāng. Lý do chính là vì xÿ lý ngôn ngā tă nhiên (Natural Language Processing - NLP) khơng hÅ đ¢n giÁn. Viác nhÁn biÃt các bá phÁn và thuác tính ca mỏt thc thầ ỗ cỏc mc ỏ chi tit khác nhau gặp nhiÅu khó khn. Tuy nhiên, hÁu hÃt các āng dāng cũng khơng cÁn phân tích phāc t¿p nh vy. Do ú, ta cú thầ Ân gin hoỏ há tháng phân c¿p thành hai c¿p và sÿ dāng các tht ngā đÇ biÇu thá hai thành phÁn khía c¿nh và thc tính Trong cây đ¢n giÁn hóa, nút gác v¿n là chính thăc thÇ, nh°ng các nút c¿p hai (cũng là c¿p lá) là các khía c¿nh khác nhau ca thc thầ. Khung Ân gin húa ny thồng đ°ÿc sÿ dāng trong các há tháng phân tích biÇu cÁm thăc tÃ.

L°u ý rằng trong các tài liáu nghiên cāu, các thăc thÇ cịn đ°ÿc gãi là đái t°ÿng, và các khía c¿nh cũng đ°ÿc gãi là đặc điÇm (nh° trong tính nng sÁn phẩm). Tuy nhiên, các tớnh nng ỗ õy cú thầ gõy nhm ln vói các tính nng đ°ÿc sÿ dāng trong hãc máy, trong đó mát tính nng có nghĩa là mát thc tính dā liáu. ĐÇ tránh nhÁm l¿n, các khía c¿nh đã trỗ nờn phồ bin hÂn trong nhng nm gn õy. L°u ý rằng mát sá nhà nghiên cāu cũng sÿ dāng các khía c¿nh thuÁt ngā, thuác tính và chÿ đÅ, và trong các āng dāng cā thÇ, các thăc thÇ và khía c¿nh cũng có thÇ đ°ÿc gãi bằng các tên khác dăa trên quy °ãc miÅn āng dāng.

Sau khi phân tích māc tiêu ý kiÃn, chúng ta có thÇ xác đánh l¿i mát ý kiÃn [4-6]. Từ đó, có mát đánh nghĩa quan điÇm dùng trong māc khía c¿nh:

<b>1.2.2. Các nhiÇm vā cÿa phân tích quan điÃm </b>

Vãi các đánh nghĩa māc 1.2.1, ta có thÇ đi vào các māc tiêu và nhiám vā chính cÿa phân tích quan điÇm [4,6].

<b>Māc tiêu cÿa phân tích quan điÃm: Đ°a ra mát vn bÁn đánh giá d, phân </b>

tích t¿t cÁ các bá đánh giá (e<small>i</small>, a<small>ij</small>, s<small>ijkl</small>, h<small>k</small>, t<small>l</small>) trong d.

Nhiám vā chính đ°ÿc bÃt nguãn từ bá 5 thành phÁn. ĐÁu tiên là thăc thÇ.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Māc tiêu cÿa ta cÁn thăc hián là trích xu¿t các thăc thÇ. Nhiám vā ny tÂng t nh nhn dng thc thầ c t tên (NER) trong khai thác thơng tin [4-6]. Vì vÁy, bÁn thân viác phân tích là mát v¿n đÅ. Sau khi trích xu¿t, chúng ta cũng cÁn phÁi phân lãp các thăc thÇ đ°ÿc trích xu¿t. Trong vn bÁn ngơn ngā tă nhiên, ng°åi ta th°ång viÃt cùng mát thăc thÇ theo nhāng cách khác nhau. Ví dā, Dialac 123 có thÇ đ°ÿc viÃt là Dia 123 và Dialac 123. Chúng ta cÁn nhÁn ra rằng t¿t cÁ chúng đÅu đÅ cÁp đÃn cùng mát thăc thÇ.

<b>Đánh ngh*a 2.4: Danh māc thăc thà và biÃu thāc thăc thà </b>

Mát danh māc thăc thÇ đ¿i dián cho mát thăc thÇ duy nh¿t, trong khi mát biÇu thāc thăc thÇ là mát từ thăc tà hoặc cām từ thăc tà xu¿t hián trong vn bÁn chß ra mát danh māc thăc thầ.

Mòi danh mc thc thầ (hoc Ân gin l thăc thÇ) phÁi có mát tên duy nh¿t trong mát āng dāng cā thÇ. Q trình nhóm các biÇu thāc thăc thÇ thành các lo¿i thăc thÇ đ°ÿc gãi là phân lãp thăc thÇ.

<b>Đánh ngh*a 2.5: Danh māc khía c¿nh và biÃu thāc khía c¿nh </b>

Mát danh māc khía c¿nh cÿa mát thăc thÇ đ¿i dián cho mát khía c¿nh duy nh¿t cÿa thăc thÇ, trong khi mát biÇu thāc khía c¿nh là mát từ hoặc cām từ thăc tà xu¿t hián trong vn bÁn chß ra mát loi khớa cnh.

Mòi danh mc khớa cnh (hoc Ân giÁn là khía c¿nh) cũng nên có mát tên duy nh¿t trong mát āng dāng cā thÇ. Q trình nhóm các biÇu thāc khía c¿nh thành các lo¿i khía c¿nh (khía c¿nh) đ°ÿc gãi là phân lãp khía c¿nh.

BiÇu thāc khía c¿nh th°ång là danh từ và cām danh từ nh°ng cũng có thÇ là đáng từ, cām đáng từ, tính từ và tr¿ng từ.

<b>Đánh ngh*a 2.6: BiÃu thāc khía c¿nh t°ång minh </b>

Ví dā: <mùi vá= trong < Mùi vá cÿa sāa Dialac 123 r¿t tuyát våi= là mát biÇu thāc khía c¿nh t°ång minh

<b>Đánh ngh*a 2.7: BiÃu thāc khía c¿nh khơng t°ång minh </b>

Ví dā, khía c¿ch <kích th°ãc= trong câu <háp sāa ny hÂi nhò= l mỏt khớa

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

c¿nh khơng t°ång minh. Vì đánh giá này khơng rõ ng°åi sÿ dāng đ°a ra ý kiÃn là phù hÿp hay không phù hÿp.

Thành phÁn thā ba trong đánh nghĩa 2.3 là quan điÇm. Nhiám vā này phân lãp quan điÇm trên khía c¿nh nào đó là tích căc, tiêu căc hay trung tính. Thành phÁn thā t° và thành phÁn thā nm lÁn l°ÿt là ng°åi giā ý kiÃn và thåi gian. Chúng cũng cÁn đ°ÿc trích xu¿t và phân lãp đái vãi các thăc thÇ và khía c¿nh. L°u ý rằng ng°åi có ý kiÃn (cịn đ°ÿc gãi là ngn quan điÇm [16]) có thÇ là mát cá nhân hoặc tå chāc đã bày tß mát ý kiÃn. Đái vãi đánh giá sÁn phẩm và blog, ng°åi có ý kiÃn th°ång là tác giÁ cÿa bài đng. Ng°åi nÃm giā ý kiÃn quan trãng h¢n đái vãi các bài báo vì hã th°ång nêu rõ cá nhân hoặc tå chāc đ°a ra ý kiÃn. Tuy nhiên, trong mát sá tr°ång hÿp, viác xác đánh nhāng ng°åi có quan iầm cng cú thầ quan tróng trong phÂng tiỏn trun thơng xã hái, ví dā: xác đánh ý kiÃn từ các nhà quÁng cáo hoặc nhāng ng°åi trích d¿n quÁng cáo cÿa các công ty.

Dăa trên các thÁo ln trên, chúng ta có thÇ xác đánh mơ hình thăc thÇ và mơ hình tài liáu quan điÇm [4,6].

<b>Đánh ngh*a 2.8: Mơ hình cÿa thăc thà </b>

<i>hữu hạn các khía cạnh A<small>i</small> = {a<small>i1</small>, a<small>i2</small>,…, a<small>in</small>}.; e<small>i</small> có thể được biểu diễn với bất kỳ một trong số hữu hạn các biểu thức thực thể của nó {ee<small>i1</small>, ee<small>i2</small>,…, ee<small>is</small>}. Mỗi khía </i>

<i>biểu thức khía cạnh hữu hạn của nó {ae<small>ij1</small>, ae<small>ij2</small>,…, ae<small>ijm</small>}. </i>

<b>Đánh ngh*a 2.9: Mơ hình tài liÇu quan điÃm </b>

<i>người có ý kiến {h<small>1</small>, h<small>2</small>,…, h<small>p</small>} tại một thời điểm cụ thể. </i>

Cuái cùng, đÇ đ°a ra đ°ÿc mát bá tài liáu quan điÇm D, phân tích quan điÇm bao gãm 6 nhiám vā [4] chính sau:

<b>NhiÇm vā 1 (trích xu¿t và phân lãp thăc thÃ): Trích xu¿t t¿t cÁ các biÇu </b>

thāc thăc thÇ trong D và phân lãp hoặc nhóm các biÇu thāc thăc thÇ đãng nghĩa thành các cām thc thầ (hoc danh mc). Mòi cm biầu thc thc thầ chò ra mỏt e<small>i </small>thc thầ duy nht.

<b>Nhiầm vā 2 (trích xu¿t và phân lãp khía c¿nh): Trích xu¿t t¿t cÁ các biÇu </b>

thāc khía c¿nh cÿa các thăc thÇ và phân lãp các biÇu thāc khía c¿nh này thành các

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

cām. Mßi cām biÇu thāc khía c¿nh cÿa thăc thÇ e<small>i</small> đ¿i dián cho mát khía c¿nh duy nh¿t a<small>ij</small>.

<b>NhiÇm vā 3 (trích xu¿t và phân lãp ý ki¿n): Trích xu¿t ý kiÃn cũ đÇ l¿y </b>

ý kiÃn từ vn bÁn hoặc dā liáu có c¿u trúc và phân lãp chúng. Nhiám v tÂng t vói hai nhiỏm v trờn.

<b>Nhiầm v 4 (trích xu¿t và chu¿n hóa thåi gian): Trích xu¿t các thåi điÇm </b>

mà các ý kiÃn đ°ÿc đ°a ra và chuẩn hóa các đánh d¿ng thåi gian khác nhau.

<b>NhiÇm vā 5 (phân lãp quan điÃm theo khía c¿nh): Xác đánh xem mát </b>

quan điÇm trên mát khía c¿nh a<small>ij</small> là tích căc, tiêu căc hay trung tính hoc chò ỏnh xp hng quan iầm bng sỏ cho khía c¿nh đó.

<b>NhiÇm vā 6 (t¿o nhóm ý ki¿n): Đ°a ra t¿t cÁ các nhóm ý kiÃn (e</b><small>i</small>, a<small>ij</small>, s<small>ijkl</small>, h<small>k</small>, t<small>l</small>) đ°ÿc thÇ hián trong tài liáu d dăa trên kÃt quÁ cÿa các nhiám vā trên.

<b>1.3. Nhāng thách thāc trong l*nh văc phân tích quan điÃm </b>

Bài tốn vÅ lĩnh văc phân tích quan điÇm là mát lĩnh văc thu hút nhiÅu să quan tâm cÿa các nhà nghiên cāu. Nhāng kÃt quÁ nghiên cāu trong lĩnh văc này đã và đang áp dāng trong lĩnh văc cơng nghiáp nhằm māc đích phát triÇn các dách vā cÿa mình. Tuy nhiên, bên đó, có mát sá thách thāc phÁi đái mặt. Theo Tài liáu tham khÁo [4,5,11,13,16], các kā thuÁt hián t¿i chß là s khai ầ xỏc ỏnh v trớch xut cỏc ý kiÃn và so sánh. Chÿ yÃu nhāng thách thāc này liên quan đÃn tính xác thăc cÿa dā liáu đ°ÿc trích xu¿t và các ph°¢ng pháp đ°ÿc sÿ dāng trong đó.

Trong thăc tÃ, các bình ln đánh giỏ hay quan iầm c a ra bỗi nhng ngồi khác nhau nên sÁ có phong cách viÃt khác nhau từ cách thāc sÿ dāng ngôn ngā, chā viÃt tÃt đÃn cách biÇu đ¿t quan điÇm. Mãi ng°åi đÅu khơng bày tß ý kiÃn theo cùng mát cách.

Mát thách thāc quan trãng trong bài tốn phân tích quan điÇm là quan điÇm sÁ thay đåi theo thåi gian. T¿i thåi điÇm này mát quan điÇm vÅ sÁn phẩm có thÇ là tát nh¿t nh°ng theo mát thåi gian sau nó khơng phÁi là tát nh¿t nāa, ng°åi ta sÁ có nhiÅu să lăa chãn h¢n khi các sÁn phẩm mãi tát h¢n vÅ giá cÁ và ch¿t l°ÿng. Tuy nhiên, cũng có nhāng sÁn phẩm ban đÁu đ°a ra ngoài thá tr°ång ch°a đ°ÿc tát và đánh giá cao nh°ng qua thåi gian, quá trình cÁi thián ch¿t l°ÿng cÿa sÁn phẩm hoặc dách vā đ°ÿc ng°åi tiêu dùng đánh giá cao h¢n.

Ví dā: Nm 2012 Iphone 5 đ°ÿc ng°åi tiêu dùng đánh giá là tích căc nh°ng t¿i thåi điÇm này có nhāng đánh giá tiêu căc vì có nhiÅu nhāng dịng sÁn phẩm mãi

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

đã ra đåi.

Đá m¿nh cÿa quan điÇm là mát trong nhāng thách thāc trong phân tích quan điÇm đÇ xác đánh các u tá quyÃt đánh sāc m¿nh cÿa mát ý kiÃn trong mát bái cÁnh nào đó. Bå sung thêm viác phân lãp các từ thành các māc đá xu h°ãng quan điÇm khác nhau, mát sá từ bå nghĩa có thÇ đ°ÿc dùng đÇ xác đánh đá m¿nh cÿa

<i><b>quan điÇm (<rất=, <một chút=, <hết sức=, <hơi=,...). Cām từ <rất hài lòng= và </b></i>

<i><hơi hài lòng= sÁ đ°ÿc phân lãp thành r¿t tích căc và kém tích căc nÃu <rất= và <hơi= đ°ÿc phân tích và sÿ dāng đÇ xác đánh māc đá đái lÁp. </i>

Mát thách thāc lãn trong phân tích quan điÇm là các câu đánh giá có să pha trán đã xu¿t hián khi mãi ng°åi thÇ hián đánh giá hai quan điÇm (tích căc và tiêu căc) trong cùng mát câu. Mãi ng°åi có nhiÅu ý kiÃn khác nhau trong cùng mát câu hay nhāng bình ln mang quan điÇm trung tính cũng có thÇ gây khó khn đÇ phân tích cú pháp hoặc phân tích quan điÇm. Các câu mang quan điÇm tích căc, tiêu căc hay trung tính đÅu quan trãng khi hu¿n lun các mơ hình phân tích quan điÇm. Vì dā liáu gÃn th¿ yêu cÁu các tiêu chí phÁi nh¿t quán, nên cÁn phÁi có mát đánh nghĩa tát vÅ v¿n đÅ xác đánh các vn bÁn trung tính nh° nhāng vn bÁn khách quan khơng chāa tình cÁm rõ ràng hay nhāng låi chúc, nhāng mong muán (<tôi °ãc sÁn phẩm tát h¢n; < tơi °ãc sāa này có nhiÅu ch¿t dinh d°ỡng=) là nhāng câu khó phân lo¿i.

Ngày nay, xu h°ãng ng°åi tiêu dùng sÿ dāng dách vā hoặc mua sÃm đã thay đåi so vãi các ph°¢ng thāc truyÅn tháng. Viác tham khÁo ý kiÃn, các đánh giá hay nhÁn xét ngày càng đ°ÿc nhÁn đ°ÿc să quan tâm từ ng°åi tiêu dùng cũng nh° nhà sÁn xu¿t và các chuyên gia. Vì vÁy, NhiÅu ng°åi đã lÿi dāng các yÃu tá này nhằm trāc lÿi bằng cách đ°a ra các nhÁn xét tát cho sÁn phẩm cÿa hã hoặc đ°a ra các đánh giá x¿u cho các sÁn phẩm cÿa đái thÿ. Nhāng ho¿t đáng này đ°ÿc gãi là giÁ m¿o quan điÇm hoặc lừa đÁo [6] . Vãi să phát triÇn m¿nh mÁ cÿa m¿ng xã hái, viác lan truyÅn thông tin ngày cng dò dng. Cỏc bỡnh lun cú thầ c chia s¿ mát cách nhanh chóng và hÁu nh° thiÃu să kiầm soỏt t cỏc c quan chc nng v cỏc nhà qn lý m¿ng. Từ đó, các thơng tin giÁ mo cỏc ý kin ỏnh giỏ ngy cng trỗ nờn tinh vi và khó kiÇm sốt, đây là mát thách thāc lãn đái vãi viác phát hián chúng.

Xÿ lý ngơn ngā tă nhiên trong câu quan điÇm: Các ý kiÃn mà mãi ng°åi bày tß trên các trang m¿ng xã hái th°ång viÃt theo ngôn ngā tă nhiên, các đánh giá cÿa ng°åi tiêu dùng cũng th°ång dùng các ngơn ngā vn bÁn khơng chính thāc và khơng theo quy tÃc ngā pháp, có thÇ hã viÃt tÃt hoặc dùng các biÇu t°ÿng cÁm

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

xúc. Mßi ng°åi khác nhau sÁ có cách viÃt khác nhau. Vì vÁy, v¿n đÅ xÿ lý ngơn ngā tă nhiên trong viác xÿ lý các ý kiÃn đánh giá là mát thách thāc lãn.

<b>1.4. Các āng dāng cÿa phân tích quan điÃm </b>

Quan điÇm vÅ sÁn phẩm đã luôn là mát phÁn quan trãng trong viác cung c¿p thơng tin cho q trình ra qut đánh. Tróc khi Internet trỗ nờn phồ bin nu chỳng ta muán mua mát sÁn phẩm nào chúng ta th°ång hßi ý kiÃn b¿n bè, ng°åi thân vÅ v¿n đÅ chúng ta đang quan tâm nh°ng nh° thà tham khÁo đ°ÿc r¿t ít thơng tin, th°ång khơng hiáu q nhiÅu. Ngày nay viác tiÃp cÁn vãi các đánh giá cÿa khách hàng vÅ các sÁn phẩm, dách vā mà chúng ta quan tâm đã dß dàng. Và khách hàng th°ång tìm kiÃm să tin cÁy trong nhāng låi khuyên, t° v¿n trăc tuyÃn là r¿t nhiÅu nên nhu cÁu có mát hỏ thỏng ng dng ầ hò tr ngồi tiờu dựng tìm kiÃm thơng tin là cÁn thiÃt cho cÁ khách hàng và doanh nghiáp.

Nghiên cāu thá tr°ång dành cho ng°åi mua và bán. Thơng tin quan điÇm đái vãi mát sÁn phẩm cā thÇ có vai trị r¿t quan trãng. Khi chúng ta muán mua mát sÁn phẩm nào đó, chúng ta khơng biÃt đ°ÿc lo¿i sÁn phẩm đó có phù hÿp hay khơng, cÿa hàng nào dách v khỏch hng tỏt, giỏ bỏn ỗ õu r hÂn, cht lng ỗ õu tỏt hÂn ầ a ra cỏc qut đánh chính xác vì vÁy các quan điÇm vÅ sÁn phẩm cÿa nhāng ng°åi dùng tr°ãc là mát kênh thông tin quan trãng chúng ta th°ång quan tâm tãi ý kiÃn cÿa ng°åi khác đái vãi sÁn phẩm đó, theo d¿ng nh° <Nhāng ng°åi khác đã nghĩ và đánh giá vÅ sÁn phẩm đó nh° thà nào ?=. Ví dā khi chúng ta muán mua mát háp sāa cho bé chúng ta sÁ hßi b¿n bè ng°åi thân hoặc tỡm hiầu trờn cỏc diòn n mng xó hỏi nhng bình luÁn, đánh giá cÿa ng°åi dùng tr°ãc vÅ các dòng sÁn phẩm cÿa các hãng sāa phù hÿp vãi thÇ tr¿ng tr¿ em Viát Nam...v.v=. Nh° vÁy quan điÇm cÿa ng°åi khác giúp các cá nhân có thêm thơng tin tr°ãc khi quyÃt đánh mát v¿n đÅ. Ngoài ra khi biÃt đ°ÿc thơng tin quan điÇm đái vãi mát sÁn phẩm, dách vā từ các khách hàng thì rõ ràng nó giúp mang l¿i các thơng tin hāu ích cho các công ty, tå chāc thay đåi hoặc cÁi tiÃn dịng sÁn phẩm, dách vā cÿa mình.

CÁi thián ch¿t l°ÿng cÿa sÁn phẩm, dách vā: Dăa vào quan điÇm cÿa ng°åi dùng, các nhà sÁn xu¿t có thÇ thay đåi mát sá tính nng cÿa sÁn phẩm, dách vā theo h°ãng tích căc nhằm phāc vā nhu cÁu cÿa khách hàng.

Phân tích quan điÇm cũng có vai trị quan trãng nh° mát cơng nghá hß trÿ cho các há tháng khác. Mát āng dāng tiÅm nng đó là há tháng gÿi ý giúp ta có thÇ áp dāng phân tích quan điÇm trong các há tháng khuyÃn cáo, giúp cho há tháng đ°a ra các gÿi ý vÅ các sÁn phẩm cho ng°åi dùng có khÁ nng quan tâm cao nh¿t

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

nhằm māc đích tng lÿi nhn cho doanh nghiáp. Ngồi ra hỏ thỏng cũn cú thầ xỏc ỏnh sỗ thớch ca khách hàng vÅ sÁn phẩm đÇ đ°a ra các chiÃn l°ÿc kinh doanh tát h¢n nhằm phāc vā khách hàng, tng doanh thu cho các doanh nghiáp.

Mát d¿ng āng dāng vơ cùng hāu ích đái vãi các chính trá gia đó là há tháng hß trÿ thơng minh cho chính phÿ. Chẳng h¿n nh° khi mát luÁt chuẩn bá đ°ÿc ban hành, Quác Hái r¿t muán lÃng nghe, l¿y ý kiÃn cÿa nhân dân vÅ dă thÁo luÁt đÇ xem nó có hÿp lý hay khơng, nhân dân có nhāng phÁn āng nh° thà nào . Hay đái vãi các cuác bÁu tång tháng, chÿ tách n°ãc, thÿ t°ãng thì nhāng ý kiÃn đánh giá cÿa ng°åi dân giā mát vai trò căc kỳ quan trãng đái vãi kÃt quÁ cÿa cuác bÁu cÿ.

<b>1.5. Phân lãp quan điÃm </b>

Phân tích quan điÇm cho tồn bá vn bÁn là bài tốn c¢ bÁn nh¿t trong phân tích quan điÇm giáng vãi bài tốn phân lãp vn bÁn thơng th°ång. Cho tr°ãc mát tÁp các vn bÁn đánh giá sÁn phẩm, đái vãi từng vn bÁn đÁu vào, bài tốn u cÁu tính điÇm (phân lãp) quan điÇm chung cho nó. Dăa trên điÇm quan điÇm đã đ¿t đ°ÿc, từng vn bÁn sau đó đ°ÿc gán các nhãn quan iầm hoc cỏc hng tÂng ng. Cỏc nhón cú thầ đ°ÿc gán nh° nhãn tích căc (Positive), tiêu căc (Negative) hoặc trung tính. Trong tr°ång hÿp cÁn xÃp h¿ng quan điÇm chi tiÃt cho vn bÁn thì h¿ng đ°ÿc gán cho vn bÁn là <1 sao= (có nghĩa là r¿t tiêu căc) hoặc <2 sao= (tiêu căc māc trung bình) hoặc <3 sao= (trung tính) hoặc <4 sao= (tích căc) hoặc <5 sao= (r¿t tích căc). Viác phân tích quan iầm theo loi bi toỏn ny thồng ỗ mc ti liáu và không quan tâm tãi v¿n đÅ chi tiÃt h¢n nh° ng°åi đánh giá sÁn phẩm thích hay khơng thích khía c¿nh nào cÿa sÁn phẩm.

Phân tích quan iầm ỗ mc cõu gn giỏng vói mc ti liỏu. Tuy nhiên, do câu th°ång chāa l°ÿng thơng tin ít hÂn rt nhiu ỗ mc ti liỏu. Trong mỏt sỏ tr°ång hÿp, mßi câu chß chāa mát ý kiÃn hay quan điÇm vÅ mát thăc thÇ. Các tr°ång hÿp phāc tp hÂn, mỏt cõu cú thầ cú nhiu quan iầm hay đánh giá vÅ các khía c¿nh khác nhau cÿa mát đái t°ÿng hoặc thÁm chí có thÇ có să thay đåi vÅ quan điÇm trong cùng mát câu [5,6,13]. Phân tích quan điÇm māc đá câu r¿t gÁn vãi bài toán phân lãp chÿ quan và khách quan, trong đó chúng ta cÁn phân lãp xem mát câu đã cho là chÿ quan (có quan điÇm, ý kiÃn riêng) hay khách quan (câu chß đ°a ra thơng tin). Tuy nhiên, các câu khách quan cũng có thÇ từ đó suy ra quan điÇm. Trong māc này, các câu thÇ hiỏn quan iầm n thc thầ s dò dng gỏn nhón hÂn. Phõn loi quan iầm theo khớa cnh

Phõn lóp quan iầm ỗ mc ti liỏu hay mc cõu theo các đánh h°ãng phân căc là tích căc, tiêu căc hay trung tính khơng thÇ hián hÃt ý nghĩa trong hÁu hÃt

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

các āng dāng bỗi vỡ cỏc phõn lóp ny khụng xỏc ỏnh c đánh giá hoặc māc tiêu đánh giá hoặc gán vãi các đánh giá vãi các māc tiêu. Trong tr°ång hÿp khi mát tài liáu đánh giá cho mát thăc thÇ duy nh¿t là tích căc thì khơng có nghĩa là mãi ý kiÃn đánh giá cho mãi khía c¿nh cÿa nó đÅu là tích căc. Trên thăc tÃ, chúng ta thy mỏt thc thầ cú thầ c ỏnh giỏ ỗ nhiÅu khía c¿nh khác nhau, và mßi khía c¿nh có thÇ đ°ÿc đánh giá vãi nhiÅu māc đá khác nhau. Do đó, đÇ có thÇ phân tích chi tiÃt đánh giá vÅ mát thăc thÇ, chúng ta cÁn xác đánh vãi mßi khía c¿nh cÿa nó đ°ÿc đánh giá là tích căc, tiêu căc hay trung tính. Đây chính là māc tiêu cÿa bài tốn phân tích quan điÇm theo khía c¿nh, có hai nhiám vā chính: Trích các khía c¿nh trong các thăc thÇ đ°ÿc đánh giá và phân lãp quan điÇm theo khía c¿nh là nhiám vā xác đánh các quan điÇm vÅ mát khía c¿nh đã đ°ÿc trích theo các căc: tiêu căc, trung tính hay tích căc hoặc đánh giá theo māc 1 đÃn 5 sao.

<b>Phân tích quan điÃm trong l*nh văc thāc n tr¿ em ang trỗ nờn rt quan </b>

tróng nhm mc ớch phát hián nhāng quan điÇm, tình cÁm tích căc hoặc tiêu căc trong các câu bình luÁn cÿa khách hàng. Qua đó, doanh nghiáp sÁ có nhāng chính sách cÁi tiÃp tiÃn sÁn phẩm, nâng c¿p dách vā đÇ đáp āng nhu cÁu cÿa khách hành, Khơng nhāng thÇ khách hàng có thÇ tham khÁo nhāng bình ln đÇ có thÇ đ°a ra nhāng quyÃt đánh đúng đÃn khi lăa chãn sÁn phẩm.

<b>ĐÁu vào: Cho mát câu (đo¿n vn bÁn) thuác miÅn dā liáu thāc n tr¿ em. ĐÁu ra: Dă đốn câu bình ln r¿t tích căc (5), tích căc (4), trung tính (3), </b>

tiêu căc (2) hay r¿t tiêu căc (1).

Ví dā ta có bình luÁn: <Sữa Pediasure này rất tốt cho trẻ em=. Câu bình ln này r¿t tích căc, dă đốn trÁ vÅ giá trá 5.

<b>K¿t lu¿n ch°¢ng </b>

Ch°¢ng 1 luÁn vn đã trình bày nhāng v¿n đÅ c¢ bÁn nh¿t vÅ phân tích quan điÇm cũng nh° các thành phÁn, nhiám vā, thách thāc, xu h°ãng và āng dāng cÿa phân tích quan điÇm. Từ đó, đặt ra bài tốn phân tích quan điÇm trong lĩnh văc thāc n tr¿ em, āng dāng các mơ hình hãc máy đÇ xây dăng mơ hình phân lãp quan điÇm nhằm māc tiêu t¿o ra các lãp quan điÇm theo các tiêu chí sÃp xÃp và phân lãp mà ng°åi sÿ dāng đã đÅ cÁp trong vn bÁn. Từ đó, đánh giá đ°ÿc ý kiÃn cÿa ng°åi sÿ dāng qua các lãp đã phân.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<b>CH¯¡NG 2: CÁC KĀ THU¾T HâC MÁY TRONG BÀI TỐN PHÂN TÍCH QUAN ĐIÂM </b>

Phân tích quan điÇm sÿ dāng các kā thuÁt xÿ lý ngôn ngā tă nhiên (Natural Language Processing – NLP) đÇ xác đánh xem vn bÁn có ý nghĩa là tích căc, tiêu căc hay trung tính. Phân tích quan điÇm th°ång đ°ÿc thăc hián trên vn bÁn đánh giá, nhÁn xét, bình luÁn, & nhằm giúp doanh nghiáp tă đáng phân tích phÁn hãi cÿa khách hàng đÇ thu thÁp đ°ÿc thơng tin nhÁn xét đánh giá sÁn phẩm, dách vā.

<b>2.1. Các ph°¢ng pháp ti¿p c¿n cÿa phân tích quan điÃm </b>

Các kā tht phân tích quan điÇm có thÇ chÿ u đ°ÿc chia thành cách tiÃp cÁn dăa trên từ văng (Lexicon Based Approach) và cách tiÃp cÁn hãc máy (Machine Learning Approach). Các kā thuÁt hãc máy đ°ÿc áp dāng trong lĩnh văc phân tích quan iầm cú thầ c chia thnh phÂng phỏp hóc cú giám sát, hãc không giám sát và gÁn đây là tiÃp cÁn dăa trên hãc sâu (Deep Learning Approach) là cách tiÃp cÁn hián đ¿i hÂn, cú thầ t ỏng trớch xut c trng v biầu diòn d liỏu ỗ mc nhiu thụng tin, giu ngā nghĩa. Tuy nhiên chi phí thåi gian hu¿n luyán cho các mơ hình này là r¿t lãn.

Hãc khơng giám sát khơng có đÁu ra māc tiêu rõ ràng liên quan đÃn đÁu vào và nó là hãc thơng qua quan sát. Māc đích là đÇ máy hãc mà không đ°a ra b¿t kỳ h°ãng d¿n rõ ràng nào. Cách tiÃp cÁn nåi tiÃng trong hãc tÁp không giám sỏt l phõn cm, trong ú tỡm ra iầm tÂng đãng cÿa các yÃu tá trong dā liáu hu¿n luyán. Tham sá đá t°¢ng tă cām đ°ÿc xác đánh dăa trên các chß sá nh° khoÁng cách Euclide. K-means, Hierarchical, mơ hình hßn hÿp Gaussian, BÁn đã tă tå chāc, và mơ hình Markov ẩn là mát sá tht tốn phân cām [10,14]

Hãc có giám sát là ph°¢ng pháp sÿ dāng tÁp dā liáu đã biÃt đÇ đ°a ra dă đốn kÃt q đÁu ra. Viác hãc có giám sát yêu cÁu hai bá tài liáu: bá hu¿n luyán và bá kiÇm thÿ. ĐÇ hãc các thc tính khác nhau cÿa tài liáu, tÁp hu¿n luyán đ°ÿc sÿ dāng và đÇ đánh giá tÁp kiÇm tra trình phân lãp hiáu su¿t đ°ÿc sÿ dāng.

<b>2.1.1. Ph°¢ng pháp ti¿p c¿n dăa trên lu¿t </b>

Các há tháng này tă đáng thăc hián phân tích quan điÇm dăa trên mát tÁp hÿp các luÁt đ°ÿc t¿o thÿ công do con ng°åi t¿o ra giúp xác đánh tính chÿ quan, quan điÇm tích căc, quan điÇm tiêu căc, trung tính hoặc chÿ đÅ cÿa mát ý kiÃn. Các lt này có thÇ bao gãm các kā thuÁt NLP khác nhau đ°ÿc phát triÇn trong ngơn ngā hãc tính tốn nh° t¿o mã ngn, mã hóa, phân tích cú pháp và dăa vo danh sỏch t iần v t vng (Lexicons). C chà ho¿t đáng c¢ bÁn cÿa há tháng

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

dăa trên luÁt:

1.<i> Xác đánh hai danh sách các từ phân căc, các từ tiêu căc nh° quá xấu, quá </i>

<b>2.1.2. Ph°¢ng pháp ti¿p c¿n dăa vào hãc máy </b>

Các ph°¢ng pháp tiÃp cÁn dăa vào hãc máy khơng dăa trên các luÁt đ°ÿc t¿o thÿ cơng, mà dăa trên các kā thuÁt máy hãc. Mát nhiám vā phân tích quan điÇm th°ång đ°ÿc mơ hình hĩa nh° mát bài tốn phân lãp, theo đĩ mát bá phân lãp đ°ÿc cung c¿p đÁu vào là mát vn bÁn và trÁ vÅ đÁu ra là mát danh māc, ví dā: tích căc, tiêu căc hoặc trung tính.

Mát bá phân lãp hãc máy cĩ thÇ đ°ÿc phát triÇn nÃu nĩ đ°ÿc xây dăng dăa trên kho ngā liáu hu¿n luyán cĩ chāa nhãn chính xác cho mòi u vo.

Mỏt sỏ phÂng phỏp tip cÁn hãc máy là sÿ dāng tÁp dā liáu đã biÃt đÇ đ°a ra dă đốn kÃt quÁ đÁu ra. Các kā thuÁt truyÅn tháng yêu cÁu hai bá tài liáu: bá hu¿n luyán và bá kiÇm thÿ. ĐÇ hãc các thuác tính khác nhau cÿa tài liáu, tÁp hu¿n luyán đ°ÿc sÿ dāng và đÇ đánh giá tÁp kiÇm tra trình phân lãp hiáu su¿t đ°ÿc sÿ dāng. Các thuÁt tốn hãc máy đ°ÿc sÿ dāng phå biÃn trong bài tốn phân tích quan điÇm: Nạve Bayes, Maximum Entropy, Support Vector Machine (SVM), Logistic Regression, Deep Learning. Các thuÁt tốn này cĩ hiáu quÁ trong bài tốn phân tớch quan iầm.

<b>2.2. PhÂng phỏp Nve Bayes </b>

Bá phân lãp quan điÇm Nạve Bayes [7] đ°ÿc xây dăng dăa trên lý thuyÃt Bayes vÅ xác su¿t cĩ điÅu kián đÇ phân lãp quan điÇm:

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

(2.1) Māc tiêu là tìm đ°ÿc phân lãp c sao cho P(c|d) là lãn nh¿t hay xác su¿t cÿa tài liáu d thuác lãp c là lãn nh¿t.

Ta cĩ thÇ nhÁn th¿y từ cơng thāc trên P(d) khơng đĩng vai trị gì trong viác quyÃt đánh phân lãp c  P(c|d) lãn nh¿t ⟺ P(c).P(d|c) lón nht.

ầ c thầ xp xò giỏ trá cÿa P(d|c), thuÁt tốn Nạve Bayes giÁ sÿ rằng: các vector đặc tr°ng f<small>i</small> cÿa mát tài liáu khi đã biÃt phân lãp là đác lÁp vãi nhau. Từ đĩ ta cĩ cơng thāc:

(2.2) Trong đĩ f là các vector đặc tr°ng cho tài liáu d.

Khi tiÃn hành hu¿n luyán, thuÁt tốn sÿ dāng ph°¢ng pháp x¿p xß hÿp lý căc đ¿i MLE (Maximum Likelihood Estimation) ầ xp xò P(c) v P(f<small>i</small>|c) cựng thut tn làm mán add-one (add-one smoothing). Ta cĩ:

(2.3) Trong đĩ N<small>c</small> là sá vn bÁn đ°ÿc phân lo¿i vào lãp c; N là tång sá vn bÁn trong tÁp hu¿n luyán.

(2.4) Trong đĩ Ncf<i><small>i là sá lÁn xu¿t hián cÿa vector đặc tr°ng i trong tài liáu thuác </small></i>

phân lãp c.

Đánh giá bá phân lãp sÿ dāng thuÁt tốn Naive Bayes, ta nhÁn th¿y:

<b> u im: Ân gin, dò ci t, bỏ phõn lóp ch¿y nhanh và cÁn ít bá nhã </b>

l°u trā. Khơng cn nhiu d liỏu hun luyỏn ầ xp xò c bá tham sá.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

<b> Nh°ÿc điÃm: Các đặc tr°ng đÁu vào phÁi đác lÁp, điÅu này khĩ xÁy ra </b>

trong thăc tà làm giÁm ch¿t l°ÿng cÿa mơ hình.

Trong nhiÅu bài tốn cịn phā thuác vào dā liáu đÇ lăa chãn các mơ hình Naive Bayes. Bao gãm 3 mơ hình đ°ÿc đ°a ra d°ãi đây:

<small>o</small> <b>Gaussian : Mơ hình Gaussian giÁ đánh rằng các đái t°ÿng đáa lý tuân theo </b>

phân phái chuẩn. ĐiÅu này cĩ nghĩa là nÃu các bá dă đốn nhÁn các giá trá liên tāc thay vì råi r¿c, thì mơ hình giÁ đánh rằng các giá trá này đ°ÿc l¿y m¿u từ phân phái Gaussian.

<small>o</small> <b>Multiomial : Bá phân lãp Nạve Bayes đa lãp đ°ÿc sÿ dāng khi dā liáu </b>

đ°ÿc phân phái đa lãp. Nĩ chÿ yÃu đ°ÿc sÿ dāng cho các v¿n đÅ phân lãp tài liáu, nĩ cĩ nghĩa là mát tài liáu cā thÇ thuác vÅ danh māc nào nh° tích căc, tiêu căc, r¿t tích căc, tiêu căc hoặc trung tính. Trình phân lãp sÿ dāng tÁn su¿t từ cho các yÃu tá dă đốn.

<small>o</small> <b>Bernoulli : Bá phân lãp Bernoulli ho¿t đáng t°¢ng tă nh° bá phân lãp Đa </b>

thāc, nh°ng các biÃn dă báo là các biÃn Booleans đác lÁp. Chẳng h¿n nh° nÃu mát từ cā thÇ cĩ trong tài liáu hay khơng. Mơ hình này cũng nåi tiÃng vãi các nhiám vā phân lãp tài liáu.

<b>2.3. Ph°¢ng pháp Support Vector Machine (SVM) </b>

Support Vector Machines (SVM) là ph°¢ng pháp hãc cĩ giám sát bao gãm phân tích dā liáu và phát hián m¿u, đ°ÿc sÿ dāng cho phân lãp và phân tích hãi quy. ThuÁt tốn SVM đ°ÿc Vladimir Vapnik đÅ xu¿t vo nm 1995[10].

Cỏch dò nht ầ hiầu SVM l sÿ dāng mát bài tốn phân lãp nhá phân. Hai lãp đ°ÿc hiÇn thá bằng hai màu khác nhau. SVM tìm dịng tát nh¿t phân tách hai lãp. Ta th¿y d liỏu c biầu diòn dói dng cỏc chm trờn mặt phẳng 2D. Dā liáu thuác hai lãp khác nhau đ°ÿc biÇu thá bằng màu sÃc cÿa các d¿u ch¿m xanh v chm ò.ỏi vói phõn tớch quan iầm, iu này sÁ là tích căc và tiêu căc. Mát cách đÇ hãc cách phân biát giāa hai lãp là vÁ mát đ°ång phân chia khơng gian 2D thành hai phÁn. Hun luyỏn hỏ thỏng chò Ân gin l tỡm dng. Khi đã hu¿n luyán há tháng (tāc là đã tìm th¿y đ°ång thẳng), cĩ thÇ biÃt liáu mát điÇm dā liáu mãi thuác lãp màu xanh hay màu đß bằng cỏch chò cn kiầm tra xem n nm ỗ phớa nào cÿa đ°ång thẳng.

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Hình 2. 1: SVM tìm dịng tát nh¿t phân tách hai lãp

Trong ví dā hình 2.2 trên, rõ ràng là dong L1 khơng phÁi là mát lăa chãn tát vì nó khơng tách biát hai lãp. L2 và L3 đÅu tách biát hai lãp, nh°ng trăc quan chúng ta biÃt L3 là lăa chãn tát h¢n L2 vì nó phân tỏch rừ rng hÂn hai lóp.

í tỗng chớnh ca thuÁt toán này là cho tr°ãc mát tÁp hu¿n luyán c biầu diòn trong khụng gian vector, trong ú mòi tài liáu là mát điÇm trong khơng gian n chiÅu và từ các dā liáu hu¿n luyán ban đÁu đ°ÿc gán nhãn sÁ tìm ra mát siêu phẳng phân lãp chính xác các dā liáu

Hình 2. 2: Ví dā vÅ siêu phẳng trong SVM

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Ch¿t lng ca siờu phng c quyt ỏnh bỗi khong cỏch ca iầm d liỏu gn nht ca mòi lóp n mặt phẳng. KhoÁng cách biên càng lãn thì mặt phẳng quyÃt đánh càng tát, đãng thåi viác phân lãp càng chính xác. Māc đích cÿa tht tốn là tìm đ°ÿc khoÁng cách biên lãn nh¿t đÇ t¿o ra kÃt quÁ phân lãp tát

Trong ví dā trên siêu phẳng tái °u phân chia dā liáu thành hai lãp màu xanh

<i>v mu ò. Cỏc iầm gn nht l cỏc vector hß trÿ đ°ÿc tơ đÁm. Hai bên cÿa siêu </i>

phẳng là hai lÅ chāa các vector hß trÿ – tāc là các điÇm dā liáu gÁn siêu phẳng nh¿t. SVM thăc ch¿t là bài toán tái °u, māc tiêu cÿa tht tốn này là tìm đ°ÿc mát khơng gian siêu phng khi Vect hò tr cú khong cỏch lón nht có thÇ từ ranh giãi qut đánh (tāc là tách siêu phẳng) và hai lãp nằm trên các mặt khác nhau cÿa siêu phẳng.

Xét mát tÁp dā liáu m¿u:

<i>�㖟= ( x1, y1),...,( xl,yl)}, x ∈ ℝ</i><small>n </small><i>, y </i>∈{-1,1} (2.5)

<i>Trong đó xi là mát véc t¢ đặc tr°ng hay mát điÇm (trong khơng gian n chiÅu </i>

i x <i>∈ ℝn) biòu diòn tp mu d<small>i cp (xi</small>, y<small>i) biầu diòn rằng vãi mát vector đặc tr°ng </small></i>

<i>x<small>i thì đ°ÿc gán nhãn là yi </small>t°¢ng āng trong đó y ∈{-1,1} hay nói cách khác vãi tÁp m¿u di sÁ đ°ÿc gán nhãn cho tr°ãc là yi. Ta có ph°¢ng trình mát siêu phẳng </i>

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Hình 2. 3: Siêu phẳng phân chia lÅ xa nh¿t

<b>¯u điÃm cÿa ph°¢ng pháp SVM: Thích hÿp vãi bài tốn phân tích quan </b>

điÇm, các đặc tr°ng lãn, có thÇ giao nhau hoặc phā thuác nhau. NhiÅu đặc tr°ng nh°ng ch¿y khỏ nhannh vỡ hóc trờn Vect hò tr.

<b>2.4. PhÂng phỏp Hỏi quy Logistic (Logistic regression) 2.4.1. Giói thiầu </b>

Mát thuÁt toán r¿t nåi tiÃng trong tháng kê đ°ÿc sÿ dāng đÇ dă đốn mát sá giá trá (Y) cho mát tÁp hÿp các tính nng (X).

Tht tốn Hãi quy Logistic thc hãc máy có giám sát đÇ phân lo¿i dā liáu. Mơ hình hãi quy Logistic áp dāng cho biÃn phā thuác là biÃn đánh tính hoặc đánh l°ÿng chß có hai giá trá (có hoặc khơng) hay nhá phân là 0 hoặc 1. ĐiÅu này phù hÿp vãi bài tốn phân lo¿i bình ln ng°åi dùng cā thÇ là phân tích quan điÇm. ĐÁu ra cÿa bài tốn đó là xác đánh bình ln đó là tích căc hay tiêu căc.

<b>2.4.2. Mơ hình Logistic </b>

ĐÁu tiên, ta sÁ xem xét mơ hình logistic nh° sau: Hãy xem xét mát mơ hình có hai u tá dă đoán, x<small>1</small> và x<small>2</small>, và mát biÃn phÁn hãi nhá phân Y, mà chúng tơi biÇu thá p = P (Y = 1). GiÁ đánh mái quan há tun tính giāa các biÃn dă đốn và tÿ lá c°ÿc log cÿa să kián Y = 1. Mái quan há tun tính này có thÇ đ°ÿc viÃt d°ãi d¿ng tốn hãc sau (trong đó ℓ là tÿ lá c°ÿc log, b là c¢ sá cÿa logarit và <small></small> là các thơng sá cÿa mơ hình):

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<small>01 12 2</small>log

 <sup> </sup> <sup>(2.7) </sup>Có thÇ sÿ dāng lũy thừa đÇ phāc hãi tß lá c°ÿc ta có:

<small> </small>

ý

Chúng tơi xem xét mát ví dā vãi b = 10 và các há sá <small>0</small> ý 3,<small>1</small> ý1,<i>và</i><small>2</small> ý2Cā thÇ, mơ hình là:

<small>12</small> 0

<i>x</i> ý ý có thÇ đ°ÿc tính là <i>x</i>

1/ (1000 1) 1/1001 ý

 <small>1ý1</small>có nghĩa là tng x1 lên 1 sÁ làm tng tÿ lá lên 1. Vì vÁy, nÃu x1 tng 1, tÿ lá c°ÿc rằng Y = 1 tng theo há sá cÿa 101. L°u ý rằng xác su¿t cÿa Y = 1 cũng đã tng lên, nh°ng nó khơng tng nhiÅu vì tÿ lá

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

c°ÿc đã tng lên.

 <small> ý22</small>có nghĩa là tng x2 lên 1 sÁ làm tng tÿ lá lên 2. Vì vÁy, nÃu x2 tng 1, tÿ lá c°ÿc rằng Y = 1 sÁ tng theo há sá cÿa 102. L°u ý rằng nh hỗng ca x2 lờn t lỏ cc ng nhp lón gp ụi nh hỗng ca x1, nhng nh hỗng đÃn tÿ lá c°ÿc lãn h¢n 10 lÁn. Nh°ng Ánh hỗng n xỏc sut ca Y = 1 khụng lón hÂn 10 ln, nú chò nh hỗng n t lỏ cc lón hÂn 10 ln.

ầ óc tớnh cỏc tham sá <small></small> từ dā liáu, ng°åi ta phÁi thăc hián hãi quy logistic.

<b>2.4.3. Hàm Logistic v cỏc tò lầ 2.4.3.1.ỏnh ngh*a hm logistic </b>

Mỏt hm Logistic chuẩn là mát hàm Sigmoid, nhÁn b¿t kỳ đÁu vào thăc t và xu¿t ra giá trá từ 0 đÃn 1. Đái vãi logit, điÅu này có nghĩa là vãi b¿t kỳ tß lá logit đÁu vào sÁ có đÁu ra là xác su¿t. Hàm Logistic chuẩn đ°ÿc đánh nghĩa nh° sau:

1( )

1 1

  <sup> (2.11) </sup>Minh hãa, tr°ång hÿp t liên tāc trong khoÁng từ -6 đÃn 6 ta có hình .

Hình 2. 4: Đã thá cÿa hàm Logistic khi t thuác (-6,6) GiÁ sÿ t là mát hàm tun tính mát biÃn x khi đó ta có:

</div>

×