Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.66 MB, 164 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b> NNG 2023 </b>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><b>LâI CAM ĐOAN </b>
<i>Tôi xin cam đoan đây là cơng trình nghiên cứu do tơi thực hiện, dưới sự hướng dẫn của TS. Hoàng Thị Thanh Hà và TS. Đặng Hồi Phương. Tơi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không sao chép từ bất kỳ cơng trình nghiên cứu nào khác. Mọi trích dẫn trong luận án đều đề cập đến nguồn gốc xuất xứ rõ ràng và đầy đủ. </i>
<b>Tác giÁ </b>
<b> TrÅn Uyên Trang</b>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b>1. T<small>ÍNH CÂP THI¾T CĂA LN ÁN</small> ... 1 </b>
<b>2. M<sub>C TIấU</sub>,<sub>ịI TỵNG V PHắM VI NGHIấN CU CA LUN ÁN</sub> ... 4 </b>
<b>3. C<small>ÁC ĐÓNG GÓP CĂA LUÀN ÁN</small> ... 5 </b>
<b>4. B<sub>Þ CĀC CĂA LUÀN ÁN</sub> ... 6 </b>
<b>CH¯¡NG 1- TàNG QUAN VÀ KHAI PHÁ QUAN IM V Kỵ THUT HC SU ... 9 </b>
<b>1.1. K<small>HAI PHÁ QUAN ĐIÂM</small> ... 9 </b>
<b>1.2. C<small>ÁC CÂP ĐÞ KHAI PHÁ QUAN ĐIÂM</small> ... 11 </b>
<i><b>1.2.1.Khai phá quan điểm mức tài liệu ... 12 </b></i>
<i><b>1.2.2.Khai phá quan điểm mức câu ... 12 </b></i>
<i><b>1.2.3.Khai phá quan điểm mức khía cạnh hay mức đặc trưng ... 12 </b></i>
<b>1.3. C<small>ÁC H¯àNG NGHIÊN CĄU KHAI PHÁ QUAN ĐIÂM</small> ... 13 </b>
<i><b>1.3.1.Hướng tiếp cận dựa trên ngữ liệu ... 14 </b></i>
<i><b>1.3.2.Hướng tiếp cận máy học ... 14 </b></i>
<i><b>1.3.3. Các nghiên cứu liên quan ... 16 </b></i>
<b>1.4. M<sub>ịT Sị HắN CHắ CA CC TIắP CÀN KHAI PHÁ QUAN ĐIÂM HIÞN NAY</sub> ... 24 </b>
<b>1.5. H<small>C SU V NHểM Kỵ THUT HC SU ỵC S DĀNG TRONG CÁC MƠ HÌNH KHAI PHÁ QUAN ĐIÂM ĐÀ XUÂT</small> ... 30 </b>
<i><b>1.5.1. Học sâu ... 30 </b></i>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><i><b>1.5.2. Các kỹ thuật học sâu phổ biến dùng trong xử lý ngôn ngữ tự nhiên và </b></i>
<i><b>khai phá quan điểm ... 34 </b></i>
<b>1.6. Đ<small>À XUÂT NGHIấN CU</small>:K<sub>HAI PH QUAN IM VI Kỵ THUT HC SU</sub> ... 46 </b>
<b>1.7. K<small>¾T LUÀN CH¯¡NG </small>1 ... 47 </b>
<b>CH¯¡NG 2-TRÍCH RÚT KHÍA C¾NH TRONG KHAI PHÁ QUAN ĐIÂM VàI H¯àNG TI¾P CÀN HàC SÂU ... 49 </b>
<b>2.1. T<small>RÍCH RÚT KHÍA C¾NH VàI H¯àNG TI¾P CÀN HàC SÂU</small> ... 49 </b>
<b>2.2. M<small>Ơ HÌNH TRÍCH RÚT KHÍA C¾NH VàI TI¾P CÀN HàC SÂU ĐÀ XT</small> ... 54 </b>
<i><b>2.2.1. Mơ hình tích hợp BiGRU-CRF cho trích rút khía cạnh ... 55 </b></i>
<i><b>2.2.2. Mơ hình tích hợp Bi-IndyLSTM-CRF cho trích rút khớa cnh ... 59 </b></i>
<b>2.3. K<small>ắT QU THC NGHIịM</small>... 64 </b>
<i><b>2.3.1. Tập dữ liệu và công cụ sử dụng trong thực nghiệm ... 64 </b></i>
<i><b>2.3.2. Kết quả thực nghiệm và đánh giá hiệu quả trích rút khía cạnh ... 65 </b></i>
<b>2.4. K<sub>¾T LUÀN </sub>C<sub>H¯¡NG </sub>2 ... 67 </b>
<b>CH¯¡NG 3-KHAI PHÁ QUAN ĐIÂM MĄC KHÍA C¾NH ĐA TÁC VĀ VàI H¯àNG TI¾P CÀN HàC SÂU ... 68 </b>
<b>3.1. K<small>HAI PHÁ QUAN ĐIÂM MĄC KHÍA C¾NH ĐA TÁC VĀ</small> ... 68 </b>
<b>3.2. M<sub>Ơ HÌNH KHAI PHÁ QUAN ĐIÂM MĄC KHÍA C¾NH ĐA TÁC VĀ VàI TI¾P CÀN </sub><small>HàC SÂU ĐÀ XT</small> ... 69 </b>
<i><b>3.2.1. Mơ hình CNN-BiGRU cho trích rút khía cạnh và quan điểm ... 71 </b></i>
<i><b>3.2.2. Mơ hình CNN-IOB2 cho trích rút từ mục tiêu ... 76 </b></i>
<i><b>3.2.3. Mơ hình MABSA cho trích rút và phân loại ba tác vụ tiếp theo: khía cạnh, thực th v quan im... 82 </b></i>
<b>3.3. K<small>ắT QU THC NGHIịM CÁC MƠ HÌNH</small> ... 89 </b>
<i><b>3.3.1. Tập dữ liệu và công cụ sử dụng trong thực nghiệm ... 90 </b></i>
<i><b>3.3.2. Kết quả thực nghiệm, đánh giá hiệu quả khai phá quan điểm đa tác vụ 91 </b></i> <b>3.4. K<sub>¾T LUÀN </sub>C<sub>H¯¡NG </sub>3 ... 97 </b>
<b>CH¯¡NG 4-KHAI PHÁ QUAN ĐIÂM MĄC KHÍA C¾NH ĐA TÁC VĀ, ĐA MIÀN VàI H¯àNG TI¾P CÀN HàC SÂU ... 99 </b>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><b>4.1. K<small>HAI PHÁ QUAN ĐIÂM MĄC KHÍA C¾NH ĐA MIÀN</small> ... 101 </b>
<b>4.2. M<sub>Ơ HÌNH KHAI PHÁ QUAN ĐIÂM MĄC KHÍA C¾NH ĐA TÁC VĀ ĐA MIÀN ĐÀ </sub><small>XT</small> ... 102 </b>
<i><b>4.2.1.Mơ hình khai phá quan điểm mức khía cạnh đa miền CNN-BiLSTM . 103 4.2.2.Mơ hình khai phá quan điểm mức khía cạnh đa tác vụ, đa miền CNN-BiIndyLSTM-Attention ... 110</b></i>
<b>4.3. K<small>ắT QU THC NGHIịM</small>... 115 </b>
<i><b>4.3.1. Tập dữ liệu và công cụ sử dụng trong thực nghiệm ... 116 </b></i>
<i><b>4.3.2. Kết quả thực nghiệm và đánh giá hiệu quả khai phá quan điểm đa tác vụ trên đơn miền và đa miền ... 117 </b></i>
<b>4.4. K<small>¾T LUÀN </small>C<small>H¯¡NG </small>4 ... 124 </b>
<b>K¾T LUÀN VÀ H¯àNG PHÁT TRIÂN ... 126 </b>
<b>K<small>¾T LUÀN</small> ... 126 </b>
<b>H<sub>¯àNG PHÁT TRIÂN</sub> ... 132 </b>
<b>DANH MĀC CÁC CƠNG TRÌNH KHOA HàC ĐÃ CƠNG BÞ ... 133 </b>
<b>TÀI LIÞU THAM KHÀO ... 135 </b>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><b>DANH MĀC THUÀT NGĊ VÀ T VIắT TT </b>
1 Ăn vò tuyn tớnh c chỉnh
4 Khai phá quan điểm/Phân tích
cảm xúc <sup>Opinion mining/Sentiment analysis </sup> <sup>OM/SA </sup> 5 Khai phá quan điểm māc tci
6 Khai phá quan điểm māc câu Sentence_based sentiment analysis SBSA 7 Khai phá quan điểm māc khía
c¿nh/đặc tr°ng <sup>Aspect/Feature_based sentiment </sup>analysis
ABSA 8 Khai phá quan điểm māc khía
c¿nh/đặc tr°ng đa tác vụ <sup>Multitask aspect/feature_based </sup>sentiment analysis
MABSA 9 Khai phá quan điểm māc khía
c¿nh/đặc tr°ng đa miền <sup>Multidomain aspect/feature_based </sup>sentiment analysis 10 Ma trận đồng xuất hiện Co-occurrence matrix
11 M¿ng neural hồi quy Recurrent Neural Network RNN 12 M¿ng neural hồi quyhai
chiều <sup>Bidirectional Recurrent Neural </sup>Network
hai chiều <sup>Bidirectional Gated Recurrent Unit </sup> <sup>BiGRU </sup> 19 M¿ng neural đệ quy Recursive Neural Network
20 M¿ng neural tích chập Convolutional Neural Network CNN 21 Máy vector hỗ trợ Support Vector Machine SVM
23 Phân bổ Dirichlet tiềm ẩn Latent Dirichlet Allocation LDA 24 Phân lo¿i miền Domain classification
25 Phân lo¿i quan điểm Sentiment classification 26 Phân rã đ¿o hcm Gradient decay
27 Phân tích ngữ nghĩa tiềm ẩn Latent Semantic Analysis LSA 28 Phân tích ngữ nghĩa tiềm ẩn
xác suất <sup>Probabilistic Latent Semantic </sup>Analysis
pLSA
30 Quan điểm tích cực Positive opinion 31 Quan điểm tiêu cực Negative opinion
Quan điểm trung lập
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">37 Tr°ßng ngẫu nhiên có điều
38 Triệt tiêu/bùng nổ đ¿o hcm Vanishing/exploding gradient
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><b>DANH MĀC BÀNG </b>
<b>BÁng 1.1. Các mơ hình khai phá quan điểm dựa trên h°ớng tiếp cận ngữ liệu nổi bật vc hiệu </b>
suất cÿa các mơ hình ... 26
<b>BÁng 1.2. Các mơ hình khai phá quan điểm dựa trên h°ớng tiếp cận máy hác nổi bật vc hiệu </b>
suất cÿa các mơ hình ... 27
<b>BÁng 2.1. Tập dữ liệu SemEval 2014 ... 65 BÁng 2.2. So sánh độ đo F1 trên mơ hình BiGRU-CRF và Bi-IndyLSTM-CRF với các mơ hình </b>
hiện có ... 65
<b>BÁng 3.1. Sử dụng miền Restaurant trong tập dữ liệu SemEval 2016 cho thực nghiệm ... 90 BÁng 3.2. Kết quả thực nghiệm mô hình hiện có so với các mơ hình đề xuất cÿa luận án trong </b>
Ch°¡ng 2 vc Ch°¡ng 3 trên miền Laptop cÿa tập dữ liệu SemEval 2014 ... 92
<b>BÁng 3.3. Kết quả thực nghiệm mơ hình hiện có so với các mơ hình đề xuất cÿa luận án trong </b>
Ch°¡ng 2 vc Ch°¡ng 3 trên miền Restaurant cÿa tập dữ liệu SemEval 2014 ... 92
<b>BÁng 3.4. Kết quả thực nghiệm xét trên độ đo F1 vc Accuracy cÿa các mơ hình hiện có vc mơ </b>
hình CNN-IOB2 trên miền Restaurant cÿa SemEval 2016 ... 95
<b>BÁng 3.5. Kết quả thực nghiệm mơ hình MABSA đề xuất xét trên các độ đo Precision, Recall, </b>
F1 vc Accuracy trên miền Restaurant cÿa tập SemEval 2016 ... 96
<b>BÁng 4.1. Tập dữ liệu huấn luyện gồm các đ¡n miền Restaurant, Laptop cÿa tập SemEval 2016, </b>
đa miền Laptop_Restaurant, vc đa miền Laptop_Restaurant_Hotel ... 117
<b>BÁng 4.2. Trích rút khía c¿nh xét trên độ đo Precision, Recall vc F1 cÿa hai mơ hình đề xuất so </b>
với các mơ hình hiện có trên miền Laptop vc Restaurant... 118
<b>BÁng 4.3. Kết quả thực nghiệm mơ hình CNN-BiLSTM trên đa miền Laptop_Restaurant .. 120 BÁng 4.4. Kết quả thực nghiệm mơ hình CNN-BiIndyLSTM-Attention trên đa miền </b>
Laptop_Restaurant_Hotel ... 121
<b>BÁng 4.5. Trích rút khía c¿nh xét trên độ đo Precision, Recall vc F1 cÿa hai mơ hình đề xuất so </b>
với các mơ hình hiện có trên đ¡n miền Restaurant, đa miền Laptop_Restaurant vc đa miền Laptop_Restaurant_Hotel ... 122
<b>BÁng 5.1. Bảng tổng hợp đặc điểm cÿa các mơ hình khai phá quan điểm đề xuất ... 128 </b>
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><b>DANH MĀC HÌNH </b>
<b>Hình 1.1. </b>Các cấp độ cụ thể trong khai phá quan điểm... 12
<b>Hình 1.2. </b>Mơ hình m¿ng neural đ¡n giản gồm 1 lớp ẩn ... 32
<b>Hình 1.3. </b>Mơ hình m¿ng hác sâu gồm 3 lớp ẩn ... 33
<b>Hình 1.4. </b>M¿ng neural tích chập ... 35
<b>Hình 1.5. </b>Tính tốn với MaxPooling ... 36
<b>Hình 1.6. </b>Mơ hình CNN trong xử lý văn bản ... 37
<b>Hình 1.7. </b>Mơ hình m¿ng RNN vc các tính tốn bên trong RNN ... 38
<b>Hình 1.8. </b>Cấu trúc cÿa mơ-đun trong RNN ... 40
<b>Hình 1.9. </b>Cấu trúc cÿa mơ-đun trong LSTM ... 40
<b>Hình 1.10. </b>Cấu trúc chi tiết cÿa một mơ-đun LSTM ... 41
<b>Hình 1.11. </b>Cấu trúc m¿ng BiLSTM ... 42
<b>Hình 1.12. </b>Cấu trúc c¡ bản cÿa GRU ... 43
<b>Hình 1.13. Cấu trúc m¿ng BiGRU ... 44 </b>
<b>Hình 1.14. Cấu trúc m¿ng Bidirectional IndyLSTM ... 45 </b>
<b>Hình 2.1. </b>Quy trình trích rút khía c¿nh cÿa mơ hình BiGRU-CRF ... 56
<b>Hình 2.2. </b>Cấu trúc mơ hình BiGRU-CRF cho trích rút khía c¿nh trong câu quan điểm ... 58
<b>Hình 2.3. </b>Quy trình trích rút khía c¿nh cÿa mơ hình Bi-IndyLSTM-CRF ... 61
<b>Hình 2.4. </b>Cấu trúc mơ hình Bi-IndyLSTM-CRF cho trích rút khía c¿nh trong câu quan điểm ... 63
<b>Hình 2.5. </b>Biểu đồ so sánh độ chính xác F1 cÿa hai mơ hình đề xuất với các mơ hình đ愃̀ đ°ợc đánh giá cao tr°ớc đây ... 66
<b>Hình 3.1. Quy trình trích rút, phân lo¿i khía c¿nh vc quan điểm cÿa mơ hình CNN-BiGRU . 74 Hình 3.2. Cấu trúc mơ hình CNN-BiGRU cho khai phá quan điểm māc khía c¿nh trích rút đồng </b> thßi khía c¿nh vc quan điểm ... 75
<b>Hình 3.3. Quy trình trích rút từ mục tiêu cÿa mơ hình CNN-IOB2 ... 79 </b>
<b>Hình 3.4. Cấu trúc mơ hình CNN-IOB2 cho trích rút từ mục tiêu... 82 </b>
<b>Hình 3.5. </b>Quy trình trích rút, phân lo¿i khía c¿nh, thực thể vc quan điểm cÿa mơ hình MABSA ... 86
<b>Hình 3.6. </b>Cấu trúc mơ hình khai phá quan điểm māc khía c¿nh đa tác vụ MABSA cho phân lo¿i khía c¿nh, thực thể vc quan điểm... 88
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><b>Hình 3.7. </b>So sánh độ chính xác cÿa tác vụ trích rút khía c¿nh xét trên độ đo F1 cÿa các mơ hình hiện có so với mơ hình CNN-BiGRU đề xuất ... 93
<b>Hình 3.8. </b>So sánh độ chính xác cÿa tác vụ phân lo¿i quan điểm xét trên độ đo Accuracy cÿa mơ hình hiện có so với mơ hình CNN-BiGRU đề xuất ... 94
<b>Hình 3.9. Biểu đồ so sánh độ chính xác cÿa mơ hình đề xuất với các mơ hình hiện có xét trên </b>
<b>Hình 4.2. </b>Cấu trúc mơ hình khai phá quan điểm māc khía c¿nh đa miền CNN-BiLSTM .... 107
<b>Hình 4.3. </b>Quy trình thực hiện cÿa mơ hình CNN-BiIndyLSTM-Attention ... 113
<b>Hình 4.4. </b>Cấu trúc mơ hình khai phá quan điểm māc khía c¿nh đa tác vụ đa miền ... 114
<b>Hình 4.5. Biểu đồ so sánh độ chính xác thực thi tác vụ trích rút khía c¿nh cÿa mơ hình </b>
CNN-BiLSTM đề xuất với các mơ hình hiện có trên miền Restaurant ... 115
<b>Hình 4.6. Biểu đồ so sánh độ chính xác thực thi tác vụ trích rút khía c¿nh cÿa mơ hình </b>
CNN-BiIndyLSTM-Attention đề xuất với các mơ hình hiện có trên miền Restaurant ... 120
<b>Hình 4.7. Kết quả thực thi mơ hình đa tác vụ CNN-BiIndyLSTM-Attention đề xuất với các độ </b>
đo Precision, Recall, F1 vc Accuracy trên đa miền Laptop_Restaurant_Hotel ... 122
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><b>PHÄN Mä ĐÄU1. Tính cÃp thi¿t căa luÁn án </b>
Trong kỷ nguyên bùng nổ thông tin hiện nay, với sự phát triển m¿nh mẽ và nhanh chóng cÿa các nền tảng truyền thơng x愃̀ hội, th°¡ng m¿i điện tử, ng°ßi dùng khơng chỉ chia sẻ thơng tin mc cịn có thể bcy tỏ thái độ, quan điểm cá nhân trực tiếp trên những nền tảng ncy. Cụ thể là những bình luận, đánh giá, chia sẻ kinh nghiệm cÿa cộng đồng đĀi với các sản phẩm, dßch vụ mc há đ愃̀ từng trải nghiệm; các quan điểm cÿa cộng đồng đĀi với một chính sách mới hay đĀi với một nhân vật có tầm ảnh h°áng lớn; và một sĀ vấn đề khác thông qua m¿ng x愃̀ hội, các diễn đcn, blog cá nhân&Thông tin từ các bình luận, chia sẻ, quan điểm d¿ng ncy đ愃̀ ảnh h°áng trực tiếp đến suy nghĩ, tâm t°, nguyện váng, hcnh vi cÿa ng°ßi dùng tocn cầu. L°ợng thông tin ncy đ愃̀ vc đang là một khĀi dữ liệu khổng lồ không ngừng tăng lên từng ngcy từng giß một cách khó kiểm sốt. Đặc biệt từ năm 2020 đến nay, do ảnh h°áng cÿa dßch bệnh Covid 19 cùng với những diễn biến phāc t¿p cÿa đ¿i dßch, th°¡ng m¿i điện tử đ愃̀ tăng tr°áng ngo¿n mục dựa trên lựa chán ngcy ccng nhiều cÿa ng°ßi tiêu dùng. ĐĀi với các cá nhân th°ßng xuyên mua sắm trực tuyến, việc tham khảo các bình luận, nhận xét trên m¿ng đ愃̀ ảnh h°áng rất lớn đến quyết đßnh mua hcng cÿa há. Điều ncy cho thấy các nền tảng truyền thơng x愃̀ hội, th°¡ng m¿i điện tử&chính lc n¡i trao đổi thơng tin, đ°a ra các bình luận, góp ý cũng nh° cập nhật tr¿ng thái ng°ßi dùng á khắp mái n¡i liên quan đến mái vấn đề trong x愃̀ hội hiện đ¿i. Nguồn thông tin khổng lồ ncy đ愃̀ trá thcnh một kho dữ liệu lớn để các cá nhân vc tổ chāc sử dụng quan điểm cộng đồng trong tiến trình ra quyết đßnh, ho¿ch đßnh chiến l°ợc đĀi với một sản phẩm hay dßch vụ cụ thể.
Tuy nhiên, các t°¡ng tác nh° chia sẻ, cập nhật, để l¿i bình luận liên tục đ°ợc thực hiện sẽ dẫn đến l°ợng kích ho¿t mới tăng m¿nh. Vấn đề ncy lc một tất yếu lcm phát sinh bùng nổ dữ liệu. Việc tìm kiếm vc chắt lác thơng tin cần thiết vẫn lc một tác vụ khó khăn vì sự gia tăng khơng ngừng cÿa dữ liệu. Nói một cách cụ thể, vấn đề dữ liệu lớn sẽ đi kèm v°ớng mắc, khó khăn trong việc kiểm sốt, tìm kiếm, tổng hợp, phân tích vc đánh giá quan điểm. Do đó, việc sử dụng một hệ thĀng khai phá vc tổng hợp quan điểm tự
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">động giữa lớp lớp thông tin phi cấu trúc d¿ng ncy lc rất cần thiết. Đặc biệt đĀi với các nhc ho¿ch đßnh chiến l°ợc kinh doanh, các doanh nghiệp, các tổ chāc chính trß, việc sử dụng hệ thĀng khai phá vc tổng hợp quan điểm tự động sẽ giúp há dễ dcng xác đßnh đ°ợc h°ớng quan điểm chuyên biệt đĀi với vấn đề há quan tâm.
Khai phá quan điểm hay phân tích cảm xúc [11][12][16] lc lĩnh vực nghiên cāu về trích rút vc phân lo¿i quan điểm, ý kiến, cảm xúc, thái độ, đánh giá chÿ quan cÿa ng°ßi dùng đĀi với các thực thể, cá nhân, vấn đề, sự kiện từ nội dung đ°ợc phát sinh trong văn bản. Khai phá quan điểm áp dụng cho các nền tảng truyền thông x愃̀ hội để nghiên cāu hcnh vi vc phản āng cÿa ng°ßi dùng đĀi với một sản phẩm, dßch vụ hay một chính sách cụ thể. Việc phân tích, khai thác ý kiến cÿa ng°ßi dùng có thể mang l¿i những tri thāc hữu ích hỗ trợ cho việc tìm hiểu xem cộng đồng sử dụng cảm thấy thế nco về dßch vụ, sản phẩm, chÿ đề, tổ chāc, sự kiện hay các nhân vật nổi tiếng&Trên c¡ sá ncy, các cá nhân vc tổ chāc có thể sử dụng ý kiến cÿa cộng đồng để ra quyết đßnh. Ngồi ra, khai phá quan điểm còn giúp đ¿t đ°ợc những mục đích khác nhau nh° theo dõi đ°ợc tâm tr¿ng cÿa cộng đồng liên quan đến các cuộc vận động chính trß, mua bán, giao dßch thơng minh [5], phép đo độ thoả m愃̀n cÿa khách hcng [72], phán đoán doanh sĀ cÿa một bộ phim [117].
Quan điểm [8][39][53] trong một hệ thĀng khai phá quan điểm lc nhân tĀ ảnh h°áng cĀt yếu đến hcnh vi, thái độ cÿa ng°ßi dùng. Quan điểm đóng vai trị nền tảng trong tiến trình ra quyết đßnh cÿa cả cá nhân vc tổ chāc bái vì quan điểm có sāc ảnh h°áng lớn đến dự đßnh, xu h°ớng cÿa con ng°ßi. Khai phá quan điểm cho phép cung cấp những hiểu biết hữu ích thúc đẩy các quyết đßnh, chiến l°ợc vc mục tiêu kinh doanh hiệu quả. Mục đích chính lc hỗ trợ doanh nghiệp đề ra những giải pháp kinh doanh chÿ động; hỗ trợ cá nhân trong tiến trình ra quyết đßnh sử dụng sản phẩm, dßch vụ mc há đang quan tâm. Chính vì lý do này mà nhu cầu khai thác năng lực thăm dò vc hiểu các quan điểm một cách tự động ngcy ccng đ°ợc quan tâm nghiên cāu [91].
Những nội dung liên quan trong khai phá quan điểm [13][66][71] bao gồm: (1) phân lo¿i quan điểm, (2) phân lo¿i tính chÿ quan, (3) tổng hợp quan điểm, (4) tìm kiếm vc khơi phục quan điểm, (5) phân tích các quan điểm so sánh, (6) thăm dò quan điểm spam, (7) chất l°ợng cÿa các bình luận.
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Hiện nay cĩ hai h°ớng tiếp cận để khai phá quan điểm [70][120]: h°ớng tiếp cận dựa trên từ vựng vc h°ớng tiếp cận dựa trên máy hác.
• H°ớng tiếp cận dựa trên từ vựng [54][159] sử dụng ph°¡ng pháp dựa trên từ điển hoặc dựa trên ngữ liệu để xác đßnh quan điểm. Đến thßi điểm hiện t¿i đ愃̀ cĩ nhiều những nghiên cāu sử dụng kỹ thuật thĀng kê nh° phân tích ngữ nghĩa tiềm ẩn LSA [23]; hoặc kỹ thuật ngữ nghĩa nh° đồng nghĩa vc trái nghĩa.
• H°ớng tiếp cận máy hác [17] cĩ thể thực hiện ph°¡ng pháp hác giám sát vc hác khơng giám sát để tiến hcnh phân lo¿i quan điểm. Trong hác giám sát, các bci tốn phân lo¿i cây quyết đßnh, phân lo¿i tuyến tính cụ thể lc kỹ thuật máy vector hỗ trợ SVM hoặc m¿ng neuron, phân lo¿i dựa trên luật, phân lo¿i xác suất cụ thể lc Nạve Bayes, Bayesian Network, Maximum Entropy đ°ợc sử dụng [139]. Tuy nhiên các kỹ thuật ncy th°ßng khơng hiệu quả đĀi với một sĀ vấn đề khĩ nhận biết trong cấu trúc cÿa ngơn ngữ tự nhiên. Ch¿ng h¿n nh° phÿ đßnh cÿa một cụm từ thể hiện quan điểm tích cực sẽ hocn tocn ng°ợc l¿i với quan điểm ban đầu cÿa nĩ nh°ng nếu chúng ta khơng biểu diễn đ°ợc cấu trúc cÿa câu trên tập đặc tr°ng một cách hợp lý thì sẽ khơng đ¿t đ°ợc kết quả. Xét á māc độ trừu t°ợng cao h¡n thì những ý chế nh¿o hay nghĩa bĩng trong một bình luận sẽ lc một thử thách lớn đĀi với máy tính. Các h°ớng tiếp cận máy hác truyền thĀng để khai phá quan điểm đều dựa trên những đặc tr°ng đ°ợc thiết kế, tuy nhiên rất khĩ xử lý, điều chỉnh các đặc tr°ng để trích rút thuộc tính đ°ợc đề cập. Hác sâu [25][26][44][47] lc một lĩnh vực mới trong nghiên cāu về máy hác đ°ợc phát triển từ năm 2006. Hác sâu bao gồm một lớp các kỹ thuật vc kiến trúc máy hác với khả năng sử dụng nhiều lớp tr¿ng thái xử lý thơng tin khơng tuyến tính [52][61][83]. Dựa vco những kiến trúc vc kỹ thuật ncy để xác đßnh h°ớng sử dụng phù hợp, ch¿ng h¿n: tổng hợp, phát sinh, nhận d¿ng hay phân lo¿i [143]. ¯u thế cÿa hác sâu lc khả năng tự hác tận dụng nguồn dữ liệu khổng lồ liên tục đ°ợc cập nhật từ các trang web, các diễn đcn giúp các mơ hình hác sâu ccng ngày càng trá nên thơng minh h¡n, đ¿t độ chính xác cao h¡n [145][171][172] .
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Gần đây, các giải thuật hác sâu [29][74] đ愃̀cho những kết quả khả quan trong xử lý tín hiệu nói chung vc xử lý ngơn ngữ tự nhiên nói riêng. Với tĀc độ hác nhanh dựa trên khả năng tích hợp card đồ ho¿ và độ chính xác đ¿t đ°ợc khá cao nhß vco lợi thế cÿa dữ liệu lớn sÁn có, hác sâu đang ngcy ccng đ°ợc quan tâm nghiên cāu triển khai cho các bci toán xử lý dữ liệu lớn hiện nay.
Dựa trên nhu cầu tất yếu cần có một hệ thĀng khai phá, tổng hợp quan điểm tự động hỗ trợ ng°ßi dùng vc khả năng xử lý tĀt cÿa hác sâu trên dữ liệu lớn sÁn có hiện nay, đề tci <Khai phá quan điểm với kỹ thuật hác sâu= đ°ợc thực hiện trong khuôn khổ luận án tiến sĩ chuyên ngcnh khoa hác máy tính đ愃̀ đ°ợc triển khai. Luận án mong muĀn đ°ợc đóng góp một phần vco lĩnh vực khai phá, phân tích quan điểm và nghiên cāu h°ớng tiếp cận hác sâu áp dụng cho khai phá quan điểm.
<b>2. Māc tiêu, đßi t°ÿng và ph¿m vi nghiên cąu căa luÁn án </b>
<i><b>2.1. Mục tiêu nghiên cứu </b></i>
Luận án đi sâu tìm hiểu, áp dụng lý thuyết hác sâu vco lĩnh vực khai phá quan điểm. Mục tiêu chung lc vận dụng các kỹ thuật hác sâu để đề xuất vc tinh chỉnh mơ hình khai phá quan điểm māc khía c¿nh nhằm cải tiến độ chính xác, nâng cao hiệu suất, tăng tính tiện ích cÿa mơ hình. Các mục tiêu cụ thể gồm:
- Đề xuất trích rút khía c¿nh cÿa thực thể với h°ớng tiếp cận hác sâu vc mơ hình khai phá quan điểm thực hiện tác vụ ncy dựa trên các kỹ thuật hác sâu; - Đề xuất, má rộng khả năng trích rút, phân lo¿i các tác vụ chính một cách đồng
thßi (đa tác vụ/đa nhiệm) trong một hệ thĀng khai phá quan điểm dựa trên māc khía c¿nh; vc mơ hình khai phá quan điểm māc khía c¿nh đa tác vụ thực hiện trích rút các tác vụ nói trên sử dụng h°ớng tiếp cận hác sâu;
- Đề xuất xây dựng một tập dữ liệu đa miền dùng cho thực nghiệm đ°ợc hình thcnh trên c¡ sá tích hợp các bình luận cÿa ng°ßi dùng trên các miền khác nhau; vc mơ hình khai phá quan điểm māc khía c¿nh đa tác vụ, đa miền sử dụng h°ớng tiếp cận hác sâu đ°ợc thực nghiệm trên tập dữ liệu đa miền ncy.
<i><b>2.2. Đối tượng nghiên cứu </b></i>
Luận án tập trung cụ thể vco các đĀi t°ợng nghiên cāu sau:
- Khía c¿nh, quan điểm, khai phá vc phân tích quan điểm māc khía c¿nh.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">- Các kỹ thuật hác sâu áp dụng cho xử lý ngôn ngữ tự nhiên.
- Các mơ hình trích rút khía c¿nh vc khai phá quan điểm māc khía c¿nh sử dụng kỹ thuật hác sâu.
<i><b>2.3. Phạm vi nghiên cứu </b></i>
Luận án đ°ợc giới h¿n trong ph¿m vi cụ thể sau:
- Tập trung vco vấn đề khai phá quan điểm vc những thuận lợi cũng nh° tính
<b>thực tiễn cao cÿa việc trích rút quan điểm cÿa ng°ßi dùng. </b>
- <b>Tìm hiểu các giải thuật hác sâu áp dụng cho khai phá vc phân tích quan điểm </b>
- Tập trung nghiên cāu về các m¿ng neural sâu hỗ trợ xử lý ngôn ngữ tự nhiên vc khai phá quan điểm, thế m¿nh vc khả năng tích hợp với card đồ ho¿ để giải quyết vấn đề tĀc độ xử lý trong máy hác.
<b>3. Các đóng góp căa luÁn án </b>
Luận án có những đóng góp sau:
- Xây dựng mơ hình trích rút khía c¿nh cÿa thực thể trong khai phá quan điểm dựa trên h°ớng tiếp cận hác sâu mới với cải tiến về hiệu suất cÿa mơ hình. - Xây dựng hệ thĀng khai phá quan điểm dựa trên māc khía c¿nh đa tác vụ mới
nhằm dự đốn quan điểm ng°ßi dùng. Hệ thĀng thực hiện đồng thßi các tác vụ: trích rút từ mục tiêu, trích rút khía c¿nh, phân lo¿i thực thể vc xác đßnh quan điểm thể hiện trên khía c¿nh cÿa thực thể trong các bình luận trên một miền xác đßnh.
- Xây dựng một tập dữ liệu bình luận đa miền dùng cho thực nghiệm. Tập dữ liệu ncy đ°ợc hình thcnh từ việc thực hiện trộn ngẫu nhiên các bình luận từ các miền khác nhau thcnh một tập dữ liệu hỗn hợp đa miền vc triển khai hệ thĀng khai phá quan điểm trên tập dữ liệu đa miền ncy.
- Xây dựng hệ thĀng khai phá quan điểm māc khía c¿nh đa tác vụ đa miền mới nhằm dự đoán quan điểm ng°ßi dùng. Hệ thĀng thực hiện đồng thßi các tác vụ: trích rút khía c¿nh, phân lo¿i thực thể, phân lo¿i miền vc xác đßnh quan điểm thể hiện trên khía c¿nh cÿa thực thể trong các bình luận thuộc tập dữ liệu đa miền.
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">Cụ thể, các mơ hình khai phá quan điểm mới đ°ợc nêu á trên đ愃̀ đ°ợc xây dựng dựa trên c¡ chế tích hợp các m¿ng hác sâu:
trích rút khía c¿nh trong câu bình luận.
CNN-IOB2 vc MABSA thực hiện trích rút vc phân lo¿i đa tác vụ (trích rút từ mục tiêu, khía c¿nh, phân lo¿i thực thể vc xác đßnh quan điểm trên mỗi khía c¿nh cÿa thực thể) trên tập dữ liệu đ¡n miền.
- Mơ hình khai phá quan điểm māc khía c¿nh đa tác vụ đa miền CNN-BiLSTM và CNN-BiIndyLSTM-Attention thực hiện trích rút vc phân lo¿i đa tác vụ trên tập dữ liệu đ¡n miền vc đa miền. Các mơ hình ncy khi đ°ợc thực nghiệm trên các tập dữ liệu đ¡n miền vc đa miền đều đ¿t hiệu suất cao so với các mơ hình tr°ớc đây chỉ thực nghiệm trên các tập dữ liệu đ¡n miền.
<b>4. Bß cāc căa luÁn án </b>
Trên c¡ sá mục tiêu đặt ra, các đĀi t°ợng vc ph¿m vi nghiên cāu đ°ợc giới h¿n, luận án đ°ợc tổ chāc thcnh ba phần: Phần má đầu; Phần nội dung vc kết quả nghiên cāu, thực nghiệm; Phần kết luận vc h°ớng phát triển.
• Phần má đầu giới thiệu về tính cấp thiết, mục tiêu, đĀi t°ợng, ph¿m vi vc các đóng góp cÿa luận án
• Phần nội dung vc kết quả nghiên cāu đ°ợc xây dựng thcnh bĀn ch°¡ng. Phần này trình bcy tổng quan lý thuyết về khai phá quan điểm, các cấp độ khai phá quan điểm, các kỹ thuật hác sâu phổ biến cho xử lý ngôn ngữ tự nhiên vc khai phá quan điểm, các nghiên cāu hiện nay về khai phá quan điểm cũng nh° những vấn đề còn phải tiếp tục giải quyết để nâng cao hiệu suất vc độ chính xác cÿa nó, từ đó đề xuất nội dung nghiên cāu cÿa luận án. Cụ thể các ch°¡ng đ°ợc giới thiệu khái quát bên d°ới:
Ch°¡ng 1 đi sâu tìm hiểu về lĩnh vực khai phá, phân tích quan điểm, các cấp độ khai phá quan điểm, hác sâu vc các kỹ thuật hác sâu phổ biến dùng trong xử lý ngôn ngữ tự nhiên, ph°¡ng pháp đánh giá hiệu suất cÿa một mơ hình khai phá quan điểm, các h°ớng tiếp cận khai phá quan điểm cũng nh° những nghiên cāu hiện có về lĩnh vực khai
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">phá quan điểm để từ đó xác đßnh đ°ợc ph¿m vi nghiên cāu cÿa luận án. Trên c¡ sá ncy, Ch°¡ng 1 phác thảo những đề xuất cho mơ hình khai phá quan điểm sẽ đ°ợc cụ thể hoá trong các ch°¡ng tiếp theo.
Ch°¡ng 2 tập trung vco nghiên cāu trích rút khía c¿nh trong khai phá quan điểm với mơ hình trích rút sử dụng kỹ thuật hác sâu. Mơ hình này cho phép trích rút đ°ợc các khía c¿nh liên quan thực thể đ°ợc đề cập trong các bình luận. Mơ hình trích rút khía c¿nh dựa trên các m¿ng hác sâu ncy đ°ợc so sánh với một sĀ mơ hình hiện có cũng thực hiện cùng một tác vụ trích rút trên hai miền Laptop vc Restaurant cÿa cùng một tập dữ liệu SemEval 2014. Hiệu suất cÿa mơ hình đề xuất trong ch°¡ng 2 đ°ợc đánh giá qua tính chính xác đ¿t đ°ợc thể hiện trên độ đo F1.
Ch°¡ng 3 giới thiệu các tác vụ chính trong khai phá quan điểm bên c¿nh tác vụ trích rút khía c¿nh đ愃̀ đ°ợc thực hiện trong Ch°¡ng 2. Song song với đó, Ch°¡ng 3 cũng trình bcy mơ hình khai phá quan điểm māc khía c¿nh đa tác vụ tập trung trích rút vc phân lo¿i các tác vụ chính đ愃̀ nêu sử dụng các kỹ thuật hác sâu tích hợp. Xun suĀt mơ hình đ°ợc xây dựng trong Ch°¡ng 3 thực hiện các tác vụ ncy lc các m¿ng hác sâu phổ biến đ°ợc tích hợp chồng lên nhau đi kèm với một sĀ kỹ thuật nhúng từ vc xác đßnh hình thái từ nhằm mục đích tăng māc độ hiểu ngữ cảnh, hình thái vc ngữ nghĩa cÿa từ trong câu bình luận. Mơ hình khai phá quan điểm đa tác vụ đề xuất không chỉ trích rút từng thcnh phần riêng lẻ trong nhóm các tác vụ chính đ愃̀ nêu mc tiến hcnh trích rút đồng thßi các tác vụ này. Hiệu suất cÿa mơ hình đa tác vụ đề xuất đ°ợc so sánh với các mơ hình tr°ớc đây chỉ trích rút hoặc phân lo¿i từng thcnh phần riêng lẻ đ°ợc thực nghiệm trên cùng tập dữ liệu; đ°ợc đánh giá thơng qua việc đánh giá độ chính xác đ¿t đ°ợc thể hiện lần l°ợt trên các độ đo Precision, Recall, F1 và Accuracy.
Ch°¡ng 4 trình bcy mơ hình khai phá quan điểm māc khía c¿nh đa tác vụ, đa miền thực nghiệm trên một tập dữ liệu đa miền với h°ớng tiếp cận hác sâu. Khác với tiếp cận trong Ch°¡ng 2 vc Ch°¡ng 3 chỉ thực nghiệm mơ hình trên các tập dữ liệu đ¡n miền, mơ hình khai phá quan điểm đa miền đ°ợc đề cập trong Ch°¡ng 4 thực nghiệm trên tập dữ liệu đa miền. Đề xuất ncy góp phần cung cấp một mơ hình hiệu quả vc t°¡ng thích với dữ liệu trên các bình luận thuộc nhiều miền khác nhau. Mơ hình đ°ợc xây dựng kh¿ng đßnh tính thuận tiện, tinh gán trong tr°ßng hợp chỉ cần dùng một mơ hình khai
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">phá quan điểm cho việc trích rút, phân lo¿i khía c¿nh, quan điểm&đa tác vụ trên một tập dữ liệu đa miền sử dụng h°ớng tiếp cận hác sâu mc vẫn đảm bảo độ chính xác t°¡ng đĀi cao. T°¡ng tự các ch°¡ng tr°ớc, hiệu suất cÿa mơ hình khai phá quan điểm đa tác vụ, đa miền đề xuất đ°ợc so sánh với các mơ hình tr°ớc đây, đ°ợc đánh giá cho thấy tính hiệu quả cao h¡n thơng qua độ chính xác đ¿t đ°ợc thể hiện trên các độ đo Precision, Recall, F1 và Accuracy nh° trong Ch°¡ng 3. Bên c¿nh đó, mơ hình cũng đ°ợc triển khai thực nghiệm trên cả dữ liệu đ¡n miền vc đa miền.
• Phần kết luận vc h°ớng phát triển đúc kết l¿i những đóng góp cÿa luận án vc h°ớng nghiên cāu tiếp theo để phát triển luận án.
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><b>CH¯¡NG 1- TàNG QUAN V KHAI PH QUAN IM V Kỵ THUT HC SU </b>
Ch°¡ng này tập trung nghiên cāu sự gắn kết giữa lý thuyết hác sâu với bài toán khai phá quan điểm thơng qua việc: (i) tìm hiểu, nghiên cāu lý thuyết khai phá vc phân tích quan điểm, các māc cụ thể trong khai phá quan điểm vc những nghiên cāu đ愃̀ có tr°ớc đây dựa trên các h°ớng tiếp cận khác nhau cùng với những thuận lợi vc h¿n chế cÿa các h°ớng tiếp cận ncy để có c¡ sá đßnh h°ớng nghiên cāu cho luận án; (ii) tìm hiểu các kỹ thuật hác sâu phổ biến hiện nay, từ đó xác đßnh những kỹ thuật nco có thể áp dụng cho trích rút, phân lo¿i quan điểm; (iii) xác đßnh kỹ thuật, h°ớng tiếp cận khai phá quan điểm vc ph°¡ng pháp đánh giá mơ hình khai phá quan điểm đ°ợc sử dụng trong luận án. Dựa trên c¡ sá ncy, phần cuĀi ch°¡ng trình bcy các đề xuất cho mơ hình trích rút, khai phá quan điểm sử dụng hác sâu. Các đề xuất ncy sẽ đ°ợc thực hiện vc trình bcy chi tiết trong các ch°¡ng tiếp theo cÿa luận án.
<b>1.1. Khai phá quan điÃm </b>
Quan điểm thể hiện thái độ, xúc cảm cÿa chÿ thể bcy tỏ quan điểm đĀi với một sản phẩm, dßch vụ, một nhân tĀ cụ thể có tầm ảnh h°áng lớn đĀi với cộng đồng hay một chính sách mới tác động đến quyền lợi, nghĩa vụ cÿa tocn x愃̀ hội. Quan điểm đóng vai trị nền tảng trong tiến trình ra quyết đßnh cÿa mỗi cá nhân, tổ chāc vc đ°ợc chia thcnh hai lo¿i [11][101]: (1) quan điểm chính quy vc (2) quan điểm so sánh.
(1) Quan điểm chính quy đ°ợc chia thcnh hai lo¿i: quan điểm trực tiếp_đ°ợc thể hiện trực tiếp trên thực thể hoặc khía c¿nh cÿa thực thể vc quan điểm không trực tiếp_ không thể hiện trực tiếp trên thực thể hoặc trên khía c¿nh cÿa thực thể mc dựa trên những kết quả cÿa nó trên một sĀ thực thể khác.
(2) Quan điểm so sánh biểu diễn mĀi liên quan về độ t°¡ng tự hoặc khác nhau cÿa các thực thể hoặc thể hiện quan điểm cÿa chÿ thể nắm giữ quan điểm lc thích khía c¿nh ncy h¡n hay khía c¿nh kia h¡n.
Ngồi ra, khai phá quan điểm cũng có thể phân lo¿i thành: (i) quan điểm hiện hay (ii) quan điểm ẩn, dựa trên cách quan điểm đ°ợc thể hiện trong văn bản [12].
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">i. Quan điểm hiện lc một câu chÿ quan cung cấp một quan điểm chính quy hay
<i>- s<small>ijkl</small></i>: <i>quan điểm trên khía c¿nh a<small>ij</small>cÿa thực thể e<small>i</small></i>
<i>- h<small>k</small></i> : ng°ßi nắm giữ quan điểm
<i>- t<small>l</small></i>: <i>thßi gian khi quan điểm đ°ợc biểu diễn bái h<small>k</small></i>
Bất cā khi nco cần đ°a ra một quyết đßnh, ng°ßi dùng sẽ có khuynh h°ớng tìm kiếm những quan điểm cÿa những ng°ßi đi tr°ớc, trải nghiệm tr°ớc. Ch¿ng h¿n nh° các cá nhân th°ßng tìm kiếm quan điểm từ b¿n bè, gia đình, ng°ßi quen hoặc cộng đồng m¿ng. Các tổ chāc, doanh nghiệp th°ßng tìm kiếm các quan điểm từ các cuộc khảo sát, các nhóm tập trung, các cuộc bỏ phiếu, các chuyên gia t° vấn&
Cụ thể khi có một tập tci liệu quan điểm, việc khai phá quan điểm về c¡ bản sẽ lần l°ợt thực hiện những tác vụ sau:
▪ Rút trích, phân lo¿i thực thể ▪ Rút trích, phân lo¿i khía c¿nh
▪ Rút trích, phân lo¿i chÿ thể nắm giữ quan điểm ▪ Rút trích, chuẩn hố thßi gian
▪ Phân lo¿i quan điểm trên từng khía c¿nh lc tích cực, tiêu cực hay trung lập
▪<i> Phát sinh tất cả các nhóm quan điểm năm thcnh phần (e<small>i</small>, a<small>ij</small>, s<small>ijkl</small>, h<small>k</small>, t<small>l</small></i>) có xuất hiện trong tập tci liệu dựa trên kết quả thu đ°ợc từ các cơng việc vừa thực hiện.
Ví dụ: <(1) Danang is a beautiful and friendly tourist city. (2) My brother and I used to travel here. (3) My brother loves smooth white sandy beach stretching his eyes. (4) I like shimmering bridges in the evening. (5) We tried seafood here, so delicious. (6)
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">However, my brother still complained about traffic in Danang.= (ng°ßi đăng: Mark, thßi gian: 18/6/2019)
Thực thể đ°ợc rút trích lc:
<i>e<small>i</small></i> = {<tourist=} (á Đc NÁng).
Tiếp theo lc rút trích khía c¿nh biểu diễn:
<i>a<small>ij</small></i> = {<sandy beach=, <bridges=, <seafood=, <traffic=}.
<i>Tiếp theo tìm kiếm ng°ßi nắm giữ quan điểm h<small>k</small></i> trong câu (1), (4) và (5) là {Mark} và trong câu (3), (5) và (6) là {anh trai cÿa Mark}.
<i>Sau đó xác đßnh thßi gian t<small>l</small></i> khi văn bản ncy đ°ợc đ°a lên vco ngcy 18/6/2019.
<i>Tác vụ tiếp lc phân lo¿i quan điểm s<small>ijkl</small></i>: quan điểm là tích cực trong câu (1) về thcnh phĀ du lßch Đc NÁng. Câu (3) đ°a ra một quan điểm tích cực về b愃̀i biển Đc NÁng. Câu (4) thể hiện quan điểm tích cực về các cây cầu á Đc NÁng. Câu (5) cũng đ°a ra một quan điểm tích cực về hải sản á Đc NÁng. Câu (6) thể hiện quan điểm tiêu cực về giao thông á Đc NÁng. Tác vụ cuĀi cùng lc tiến hcnh phát sinh tất cả các quan điểm d°ới d¿ng nhóm
<i>năm thcnh phần (e<small>i</small>, a<small>ij</small>, s<small>ijkl</small>, h<small>k</small>, t<small>l</small></i>). Nh° vậy tác vụ ncy cuĀi cùng sẽ sinh ra năm quan điểm lc các nhóm năm thcnh phần:
(tourist, general, positive, Mark, June-18-2019)
(tourist, sandy beach, positive, Mark’s brother, June-18-2019) (tourist, bridges, positive, Mark, June-18-2019)
(tourist, food_quality, positive, Mark and his brother, June-18-2019) (tourist, traffic, negative, Mark’s brother, June-18-2019)
Khai phá quan điểm hay phân tích cảm xúc lc lĩnh vực nghiên cāu nhằm trích rút thơng tin về quan điểm, cảm nghĩ, tính chÿ quan, sự đánh giá, thái độ, ảnh h°áng, tầm nhìn, xúc cảm&đ°ợc diễn tả trong văn bản.
<b>1.2. Các cÃp đß khai phá quan điÃm </b>
Theo Bing Liu [11][12], khai phá quan điểm có thể đ°ợc phân chia thành các cấp độ/māc khác nhau, đ°ợc thể hiện á Hình 1.1.
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">Mỗi cấp độ trong Hình 1.1 sẽ phù hợp với các tiêu chí vc yêu cầu khai phá quan điểm cụ thể trong từng bci tốn nhất đßnh.
<b>1.2.1. Khai phá quan điÃm mąc tài lißu </b>
Trong khai phá quan điểm māc tci liệu, tocn bộ văn bản đ°ợc phân lo¿i vco một
<i>trong các lớp quan điểm tích cực, tiêu cực hoặc trung lập tuỳ thuộc vco độ phân cực cÿa </i>
thông tin chÿ quan đ°ợc thể hiện trên tci liệu. Cụ thể với một tci liệu bình luận đ°ợc ng°ßi dùng cung cấp, khai phá quan điểm sẽ giúp phát hiện đ°ợc quan điểm cÿa há thể hiện trên tocn bộ nội dung bình luận.
<b>1.2.2. Khai phá quan điÃm mąc câu </b>
Nếu khai phá quan điểm māc tci liệu tập trung phân lo¿i tocn bộ văn bản vco một trong ba lớp quan điểm thì khai phá quan điểm māc câu sẽ thực hiện á ph¿m vi cụ thể vc chi tiết h¡n, đó lc tiến hcnh phân lo¿i quan điểm thể hiện trên mỗi câu bình luận trong
<i>tocn văn bản vco một trong ba lớp tích cực, tiêu cực hoặc trung lập.</i>
<b>1.2.3. Khai phá quan điÃm mąc khía c¿nh hay mąc đặc tr°ng </b>
Khai phá quan điểm māc khía c¿nh liên quan đến việc xác đßnh vc trích rút những khía c¿nh cÿa sản phẩm từ dữ liệu nguồn vc xác đßnh quan điểm bcy tỏ trên từng khía c¿nh đó.
Việc khai phá quan điểm á māc tci liệu hay māc câu không thể hiện quan điểm
<i>tích cực, tiêu cực hay trung lập cÿa ng°ßi nắm giữ quan điểm đĀi với từng khía c¿nh cụ </i>
thể cÿa thực thể đ°ợc đề cập trong câu hay tci liệu bình luận. Có thể một tci liệu lc tích cực trên một thực thể khơng có nghĩa rằng ng°ßi nắm giữ quan điểm có các quan điểm
<b>Hình 1.1. Các cấp độ cụ thể trong khai phá quan điểm </b>
<b><small>Khai phá quan điÃm </small></b>
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">tích cực trên tất cả các khía c¿nh cÿa thực thể đó. T°¡ng tự, một tci liệu lc tiêu cực khơng có nghĩa lc ng°ßi nắm giữ quan điểm khơng thích mái thā cÿa thực thể. Thực tế thì trong một tci liệu đánh giá, ng°ßi nắm giữ quan điểm th°ßng thể hiện cả những quan điểm tích cực vc tiêu cực trên mỗi khía c¿nh cÿa thực thể mặc dù ý kiến tổng quát trên thực thể đó có thể hoặc tích cực hoặc tiêu cực. Nh° vậy để đ¿t đ°ợc đến các quan điểm cụ thể trên từng khía c¿nh chi tiết cÿa thực thể thì cần khai phá quan điểm á māc khía c¿nh.
Khai phá quan điểm dựa trên c¡ cấu gồm sáu tác vụ đ°ợc minh ho¿ trong ví dụ á mục 1.1 đ°ợc gái lc khai phá quan điểm dựa trên khía c¿nh hay khai phá quan điểm māc khía c¿nh [90][91]. Một mơ hình tổng hợp vc khai phá quan điểm māc khía c¿nh sẽ đảm bảo cung cấp một công thāc hocn chỉnh, trán vẹn vc chi tiết cho vấn đề khai phá quan điểm. Mơ hình sẽ xác đßnh những mẫu thơng tin chìa khố nên đ°ợc khai phá vc mơ tả một q trình tổng hợp quan điểm có cấu trúc đ°ợc tổng hợp từ những văn bản phi cấu trúc. Cụ thể mơ hình chỉ khai phá những khía c¿nh cÿa sản phẩm, dßch vụ mà ng°ßi dùng bcy tỏ quan điểm cÿa há trên đó vc xác đßnh những quan điểm này lc tích cực hay tiêu cực.
Mỗi một cấp độ trong ba cấp độ khai phá quan điểm đ愃̀ nêu trong các mục 1.2.1, 1.2.2 vc 1.2.3 có thể hữu dụng trong các ngữ cảnh khác nhau. Việc lựa chán sử dụng cấp độ nco phụ thuộc vco yêu cầu vc mục tiêu cụ thể cÿa một tác vụ khai phá quan điểm nhất đßnh. Ví dụ nh° khai phá quan điểm māc tci liệu có thể phù hợp để phân tích nhanh quan điểm cÿa một sĀ l°ợng lớn tci liệu, trong khi khai phá quan điểm māc khía c¿nh có thể hữu ích h¡n để hiểu quan điểm đĀi với mỗi khía c¿nh hoặc đĀi t°ợng cụ thể trong tci liệu.
Luận án tập trung vco khai phá quan điểm māc khía c¿nh. Đây lc cấp độ chi tiết nhất trong ba cấp độ khai phá quan điểm nhằm giúp hệ thĀng xác đßnh đ°ợc quan điểm cụ thể cÿa ng°ßi dùng thể hiện trực tiếp trên mỗi khía c¿nh trong tci liệu bình luận đ°ợc đề cập.
<b>1.3. Các h°áng nghiên cąu khai phá quan điÃm </b>
Các hệ thĀng khai phá quan điểm hiện nay nghiên cāu khả năng phân lo¿i, tổng hợp, tìm kiếm vc khôi phục quan điểm& đều tập trung vco một sĀ tác vụ cụ thể nh° trích rút khía c¿nh cÿa thực thể mc chÿ thể bình luận thể hiện quan điểm trên đó; trích
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">rút từ hoặc cụm từ thể hiện quan điểm cÿa chÿ thể bình luận; xác đßnh h°ớng quan điểm cÿa từ hoặc cụm từ đ°ợc trích rút từ đó xác đßnh quan điểm cÿa tci liệu, cÿa câu hay cụ thể lc quan điểm trên mỗi khía c¿nh đ°ợc trích rút.
Các h°ớng tiếp cận chính cÿa đa phần các nghiên cāu tr°ớc vc gần đây trong khai phá quan điểm tập trung vco:
• H°ớng tiếp cận dựa trên ngữ liệu: chÿ yếu sử dụng nhóm các độ đo với các mơ hình khác nhau cho khai phá quan điểm.
• H°ớng tiếp cận dựa trên máy hác: sử dụng các kỹ thuật phân lo¿i để phân lo¿i văn bản, xác đßnh quan điểm dựa trên các tập dữ liệu huấn luyện vc kiểm tra.
<b>1.3.1. H°áng ti¿p cÁn dča trên ngċ lißu </b>
Ph°¡ng pháp ncy sử dụng từ điển cảm xúc gồm các từ thể hiện quan điểm, cảm xúc vc khớp chúng với dữ liệu trong tci liệu để xác đßnh h°ớng quan điểm thể hiện trên dữ liệu đó. Điểm sĀ cảm xúc sẽ đ°ợc gán cho các từ quan điểm mô tả māc độ phân lo¿i cảm xúc lc tích cực, tiêu cực hay trung lập cÿa các từ có trong từ điển. Ph°¡ng pháp ncy thuộc vco phân lo¿i không giám sát bái vì nó khơng địi hỏi những tập dữ liệu huấn luyện tr°ớc đó để phân lo¿i dữ liệu. Trong kỹ thuật không giám sát, việc phân lo¿i đ°ợc thực hiện bằng cách so sánh các đặc tr°ng cÿa một văn bản có sÁn với các từ quan điểm có giá trß quan điểm đ愃̀ đ°ợc xác đßnh tr°ớc khi sử dụng trong một kho ngữ liệu quan điểm. Ngữ liệu quan điểm chāa một danh sách các từ vc thcnh ngữ đ°ợc sử dụng để diễn đ¿t cảm xúc vc quan điểm chÿ quan cÿa con ng°ßi. Cụ thể, văn bản cần xác đßnh quan điểm sẽ đ°ợc tiến hcnh phân tích với một ngữ liệu quan điểm nguồn gồm tập hợp các từ tích cực vc tiêu cực. Nếu văn bản chāa nhiều từ thể hiện quan điểm tích cực thì nó lc tích cực, ng°ợc l¿i, nó lc tiêu cực.
<b>1.3.2. H°áng ti¿p cÁn máy hác </b>
H°ớng tiếp cận ncy sử dụng các kỹ thuật phân lo¿i để phân lo¿i văn bản, xác đßnh quan điểm dựa trên các tập huấn luyện vc tập kiểm tra. Ph°¡ng pháp máy hác áp dụng cho khai phá quan điểm chÿ yếu thuộc về phân lo¿i có giám sát. Ph°¡ng thāc hác có giám sát cũng chính lc minh ho¿ cho đßnh nghĩa cÿa máy hác c¡ bản_có khả năng tự hác dựa trên dữ liệu đ°a vco mc không cần phải đ°ợc lập trình cụ thể.
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">Dữ liệu vco đ°ợc cung cấp cho m¿ng gồm nhiều cặp dữ liệu, mỗi cặp gồm dữ liệu-nh愃̀n. Các cặp dữ liệu-nh愃̀n ncy đ°ợc gái lc dữ liệu huấn luyện. Từ tập dữ liệu huấn luyện ncy, mỗi khi có một dữ liệu mới, máy tính sẽ dự đoán đ°ợc nh愃̀n t°¡ng āng với
Với h°ớng tiếp cận máy hác, hệ thĀng luôn cần có hai tập dữ liệu: huấn luyện vc kiểm tra. Việc đầu tiên lc thu thập dữ liệu huấn luyện. B°ớc tiếp theo lc huấn luyện một bộ phân lo¿i tự động trên tập huấn luyện vừa thu thập đ°ợc để tìm hiểu các đặc điểm khác biệt cÿa tci liệu. Tập kiểm tra đ°ợc dùng để kiểm tra xem bộ phân lo¿i ho¿t động tĀt nh° thế nco. Một sĀ kỹ thuật máy hác th°ßng đ°ợc áp dụng để phân lo¿i các tci liệu bình luận nh° Naive Bayes, Maximum Entropy hay Support Vector Machine đ愃̀ đ¿t đ°ợc những thcnh công đáng kể trong phân tích quan điểm. Mỗi khi một kỹ thuật phân lo¿i giám sát đ°ợc chán, yếu tĀ quan tráng lc việc lựa chán đặc tr°ng. Trong phân lo¿i quan điểm sẽ tập trung vco một sĀ đặc tr°ng đ°ợc trình bcy bên d°ới
• Sự xuất hiện cÿa thuật ngữ vc tần sĀ xuất hiện: Những đặc tr°ng ncy bao gồm uni-gram hoặc n-gram vc tần sĀ hoặc sự hiện diện cÿa chúng. Những đặc tr°ng ncy đ愃̀ đ°ợc sử dụng rộng r愃̀i vc thcnh công trong các nghiên cāu phân lo¿i quan điểm tr°ớc đây.
• Part of speech (POS): Trong POS tagging, mỗi thuật ngữ trong câu sẽ đ°ợc gán một nh愃̀n thể hiện vai trị cÿa nó trong ngữ cảnh văn ph¿m. Ch¿ng h¿n nh° với POS tags, chúng ta có thể xác đßnh các tính từ vc tr¿ng từ th°ßng đ°ợc sử dụng nh° lc các từ bcy tỏ quan điểm.
</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">ã Ph ònh: õy cng lc mt c trng đ°ợc quan tâm vì nó có khả năng đảo ng°ợc h°ớng quan điểm đ°ợc thể hiện.
• Các từ vc cụm từ quan điểm: Đây lc những từ vc cụm từ bcy tỏ cảm xúc/quan điểm tích cực hoặc tiêu cực.
<b>1.3.3. Các nghiên cąu liên quan </b>
<b>1.3.3.1. Nghiên cąu dča trên h°áng ti¿p cÁn ngċ lißu </b>
Với h°ớng tiếp cận ngữ liệu, đ愃̀ có nhiều nghiên cāu từ tr°ớc đến nay tập trung vco h°ớng tiếp cận ncy vc b°ớc đầu đ愃̀ đ¿t đ°ợc kết quả t°¡ng đĀi khả quan. Turney và Littman [111] xác đßnh quan điểm thể hiện trên từ quan điểm bằng cách quan sát mĀi liên hệ cÿa từ với một tập các từ h¿t nhân tích cực hay tiêu cực. Takamura vc cộng sự [55] sử dụng mơ hình spin để trích rút h°ớng ngữ nghĩa cÿa từ bằng cách xây dựng một m¿ng l°ới các từ sử dụng các chú thích, đßnh nghĩa, từ điển đồng nghĩa, trái nghĩa vc những thĀng kê xác suất xuất hiện đồng thßi cÿa các từ. Kamps vc cộng sự [62] sử dụng từ điển đồng nghĩa WordNet, xác đßnh lộ trình ngắn nhất giữa một từ bất kỳ với các từ <good= vc <bad= để dự đoán quan điểm cÿa từ. Độ chính xác ph°¡ng pháp ncy đ¿t đ°ợc ch°a cao do chỉ thực hiện trên tính từ. Cũng sử dụng từ điển WordNet, ph°¡ng pháp cÿa Hu và Liu nghiên cāu trích rút khía c¿nh vc xác đßnh quan điểm [90] tập trung vco tần sĀ xuất hiện cÿa các danh từ vc cụm danh từ đ°ợc phát hiện bái một bộ POS tagger vc chỉ những danh từ hay cụm danh từ nco xuất hiện th°ßng xun thì đ°ợc xem nh° lc các khía c¿nh. Các tác giả đ愃̀ tiến hcnh dự đoán quan điểm cÿa từ quan điểm bằng cách sử dụng từ điển đồng nghĩa vc trái nghĩa WordNet. Khi ch°a biết quan điểm thể hiện trên một từ, ph°¡ng pháp ncy tìm kiếm trên WordNet danh sách các từ h¿t nhân (đ愃̀ đ°ợc gán nh愃̀n h°ớng quan điểm), kiểm tra từ cần xác đßnh quan điểm xem có đồng nghĩa hay trái nghĩa với từ h¿t nhân hay khơng, nếu có thì gán nh愃̀n từ đó trùng với nh愃̀n cÿa từ đồng nghĩa (ng°ợc l¿i lc trái nghĩa). Quá trình ncy đ°ợc thực hiện cho đến khi gán nh愃̀n tocn bộ các từ đ°ợc yêu cầu. Popescu vc Etzioni [5] cải tiến giải thuật cÿa Hu vc Liu bằng cách thăm dò một danh từ hay cụm danh từ có phải lc một khía c¿nh hay không sử dụng độ đo PMI. Scaffidi vc các cộng sự [27] dựa trên việc so sánh tần sĀ xuất hiện cÿa những danh từ vc cụm danh từ đ°ợc trích rút từ văn bản quan điểm với tỷ lệ xuất hiện
</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">cÿa chúng trên một kho tci liệu tiếng Anh phổ biến để xác đßnh các khía c¿nh. Long, Zhang và Zhu [24] trích rút các khía c¿nh cũng bằng cách sử dụng ph°¡ng pháp dựa trên tần sĀ xuất hiện cÿa từ. Há dùng khoảng cách thông tin để tìm đ°ợc một sĀ l°ợng các từ có liên quan đến khía c¿nh, từ đó chán lựa ra những bình luận nco đang thảo luận về các khía c¿nh ncy. Kobayashi, Inui vc Matsumoto [102] sử dụng một bộ phân tích phụ thuộc để nhận d¿ng những mĀi liên hệ phụ thuộc giữa khía c¿nh vc quan điểm nhằm thực hiện tác vụ trích rút khía c¿nh. T°¡ng tự, Wu vc cộng sự [173] cũng dùng một bộ phân tích phụ thuộc, cụ thể dựa trên mĀi liên hệ phụ thuộc cụm từ, cho việc trích rút những cụm danh từ vc cụm động từ có thể lc các khía c¿nh. Qiu vc cộng sự [45] đề xuất một h°ớng tiếp cận trích rút khía c¿nh sử dụng ngữ liệu phụ thuộc miền. Trong ph°¡ng pháp ncy, tận dụng mĀi liên hệ cú pháp giữa quan điểm vc khía c¿nh với một tập các từ h¿t nhân cho tr°ớc, các tác giả đ愃̀ thực hiện trích rút đồng thßi quan điểm vc khía c¿nh trong tci liệu. Hầu hết các nghiên cāu dựa trên mĀi liên hệ phụ thuộc nêu trên đều sử dụng độ đo PMI để xác đßnh māc độ phụ thuộc giữa cụm từ quan điểm với từ h¿t nhân nhằm mục đích dự đốn đ°ợc h°ớng ngữ nghĩa cÿa cụm từ.
Lu vc các cộng sự [174] nghiên cāu sử dụng h°ớng tiếp cận ngữ liệu nh°ng với ph°¡ng pháp phân tích ngữ nghĩa tiềm ẩn xác suất Probabilistic Latent Semantic Analysis (pLSA). Cụ thể kỹ thuật LSA đ°ợc sử dụng kết hợp với một mơ hình xác suất để xác đßnh khía c¿nh vc quan điểm trong văn bản. Lin vc He dùng một ph°¡ng pháp cho phép xác đßnh cả chÿ đề vc quan điểm từ tci liệu quan điểm thông qua phân bổ Dirichlet tiềm ẩn Latent Dirichlet Allocation (LDA) [20]. Tuy nhiên, khía c¿nh vc từ quan điểm đ°ợc trích rút từ mơ hình cÿa há khơng đ°ợc phân biệt rõ rcng. Brody và Elhadad [131] cũng áp dụng mô hình chÿ đề để xác đßnh khía c¿nh vc tập trung xem xét những tính từ sẽ lc từ quan điểm trong tci liệu để phát hiện vc phân lo¿i quan điểm thể hiện trên khía c¿nh đ愃̀ xác đßnh. Các tác giả trong [77]đề xuất má rộng từ vựng cho mơ hình khai phá quan điểm māc khía c¿nh với hai ph°¡ng pháp t¿o từ vựng: một sử dụng ph°¡ng pháp thĀng kê vc một sử dụng thuật giải di truyền. Các từ vựng phát sinh sẽ kết hợp với các từ vựng sÁn có trong kho ngữ liệu để giúp xác đßnh khía c¿nh trong câu bình luận.
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29"><b>1.3.3.2. Nghiên cąu dča trên h°áng ti¿p cÁn máy hác </b>
H°ớng tiếp cận máy hác trong khai phá quan điểm cũng đ愃̀ thu hút nhiều nghiên cāu gần đây, tập trung vco khả năng giải quyết hai vấn đề: biểu diễn văn bản vc trích rút khía c¿nh. Pang vc nhĩm cộng sự [17] đ愃̀ so sánh hiệu suất cÿa ba bộ phân lo¿i Nạve Bayes (NB), Maximum Entropy (ME) và Support Vector Machine (SVM) trong trích rút và phân lo¿i quan điểm á cấp độ tci liệu. Kết quả cho thấy sự xuất hiện cÿa đặc tr°ng (feature) lc yếu tĀ quan tráng vc khi tập đặc tr°ng nhỏ thì NB ho¿t động tĀt h¡n SVM. Ng°ợc l¿i, khi khơng gian đặc tr°ng tăng lên thì SVM vc ME l¿i ho¿t động tĀt h¡n NB, tuy nhiên ME cĩ thể bß ảnh h°áng bái vấn đề quá khớp. Một sĀ các ph°¡ng pháp chÿ đ¿o phù hợp với việc hác tuần tự cũng dùng các kỹ thuật máy hác nh° Hidden Markov Models (HMM) và Conditional Random Field (CRF). Jakob và Gurevych [100] áp dụng CRF cho các tác vụ trích rút đặc tr°ng nh° tokens, POS tags, vc những phụ thuộc cú pháp từ đĩ xác đßnh khía c¿nh cÿa tci liệu. Li vc cộng sự [43] cũng sử dụng cùng một h°ớng tiếp cận để trích rút cả hai khía c¿nh vc quan điểm bằng việc kết hợp hai biến thể cÿa CRF lc Skip-CRF và Tree-CRF. Zhang [88] trích rút đồng thßi cả khía c¿nh vc quan điểm liên quan trong một mơ hình CRF má rộng sử dụng kỹ thuật m¿ng neural. Một ph°¡ng pháp word embedding liên tục đ愃̀ đ°ợc sử dụng để thay thế cho những khía c¿nh rßi r¿c trên CRF vc một lớp neural đ°ợc thêm vco trong mơ hình ncy để thực hiện các tác vụ đ愃̀ nêu. Trong [155], các tác giả áp dụng một mơ hình tích hợp cÿa m¿ng neural đệ quy vc CRF để trích rút khía c¿nh vc quan điểm.
Cùng với việc sử dụng những kỹ thuật máy hác truyền thĀng trong khai phá quan điểm, các nghiên cāu gần đây đ愃̀ áp dụng các kỹ thuật hác sâu để tăng độ chính xác cÿa mơ hình. Nhiều các ph°¡ng pháp hác thơng minh đ愃̀ đ°ợc nghiên cāu vc sử dụng cụ thể trong [47][50][125]. Các tác giả đ愃̀ áp dụng m¿ng neural sâu để xây dựng các hệ thĀng biểu diễn đặc tr°ng cho phân tích quan điểm [49][56][78]. Katiyar và Cardie [6] đ愃̀ dùng một m¿ng Long Short Term Memory (LSTM) hai chiều cho việc trích rút quan điểm vc xác đßnh những mĀi liên hệ IS-FROM và IS-ABOUT giữa quan điểm với chÿ thể bcy tỏ quan điểm vc từ mục tiêu. Các tác giả trong [36] đ愃̀ sử dụng mơ hình Deep Dynamic Neural Network cho việc nhận d¿ng các cử chỉ, hcnh vi đa ph°¡ng thāc. Nghiên cāu đ愃̀ kết hợp m¿ng 3D Convolutional Neural Network (CNN) với một m¿ng niềm tin sâu
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">Deep Belief Network (DBN) để trích rút các tính năng māc cao vc hác đ°ợc các biểu diễn để hỗ trợ dự đoán vc nhận d¿ng đ°ợc chuỗi các hành vi. Irsoy và Cardie [104] đ愃̀ phát triển một āng dụng dùng m¿ng Recurrent Neural Network (RNN) sâu hai chiều để trích rút khía c¿nh với kết quả đ¿t đ°ợc v°ợt xa những āng dụng sử dụng m¿ng RNN nông truyền thĀng tr°ớc đó với cùng sĀ l°ợng tham sĀ trong các m¿ng. Các tác giả trong [110] đề xuất một lớp các mơ hình phân biệt sử dụng RNN vc word embedding. Word embedding trong mơ hình ncy đ°ợc huấn luyện từ ba nguồn khác nhau trên những lo¿i khác nhau cÿa RNN gồm Elman-type, Jordan-type, LSTM vc những biến thể cÿa chúng cho tác vụ xác đßnh từ mục tiêu. Một CNN sâu đ°ợc áp dụng trong [137] với kiến trúc gồm 7 lớp để gán cho mỗi từ trong văn bản quan điểm lc khía c¿nh hoặc khơng phải khía c¿nh vc kết hợp với một tập các mơ hình ngơn ngữ. Nghiên cāu trong [156]áp dụng mơ
Tanh-ReLU có kiểm sốt để điều khiển các đặc tr°ng quan điểm t°¡ng āng với các khía c¿nh đ°ợc trích rút. Nghiên cāu trong [58] sử dụng mơ hình CNN đ¡n giản với c¡ chế nhúng kép đ°ợc huấn luyện tr°ớc để trích rút khía c¿nh. Thao tác nhúng kép á đây đ°ợc thực hiện cả nhúng chung vc nhúng theo miền cụ thể. Các lớp CNN sau đó sẽ tận dụng c¡ chế nhúng kép ncy để lấy đ°ợc thơng tin hữu ích h¡n, phục vụ tác vụ trích rút. Mơ hình khơng sử dụng bất kỳ c¡ chế giám sát bổ sung nco nh°ng vẫn đ¿t đ°ợc hiệu suất t°¡ng đĀi cao. Kỹ thuật B-LSTM và CRF [7] đ愃̀ đ°ợc sử dụng trong mơ hình khai phá quan điểm để trích rút khía c¿nh vc tự động xây dựng một tập dữ liệu hỗ trợ tác vụ ncy. [48][126] sử dụng một mơ hình kết hợp CNN vc LSTM để trích rút vc khai phá quan điểm trong khai phá quan điểm māc khía c¿nh. T°¡ng tự, các tác giả trong [147] đ愃̀ dùng một m¿ng CNN kết hợp với một RNN hai chiều để phân lo¿i quan điểm theo khía c¿nh. Tầm quan tráng cÿa ngữ cảnh vc các từ thể hiện ngữ cảnh trong việc xác đßnh quan điểm ng°ßi dùng [1] cũng đ°ợc quan tâm trong các nghiên cāu gần đây. Cụ thể lc ngữ cảnh sẽ có những ảnh h°áng vc tác động khác nhau đến thái cực tình cảm cÿa nhiều khía c¿nh trong câu quan điểm. Chính vì vậy, trong các nghiên cāu gần đây, khi xây dựng một mơ hình khai phá quan điểm, các tác giả chú tâm vco nhiệm vụ quan tráng lc lcm thế nco để tích hợp mĀi quan hệ giữa mỗi khía c¿nh và ngữ cảnh cÿa tci liệu. Thêm vco đó, sự ra đßi cÿa c¡ chế chú ý Attention [103] trong hác sâu đ愃̀ góp phần cải thiện
</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">đáng kể hiệu quả thực thi cÿa các mô hình khai phá quan điểm hiện nay. C¡ chế Attention có thể đ°ợc dùng để đo tầm quan tráng cÿa mỗi từ trong ngữ cảnh đĀi với các từ mục tiêu d°ới d¿ng điểm tráng sĀ (weight score). Mơ hình sẽ tập trung chú ý nhiều h¡n vco những từ có tráng sĀ cao vc trích rút nhiều thông tin h¡n từ những từ liên quan đến các cụm từ mục tiêu, do đó sẽ cải thiện đ°ợc hiệu suất phân lo¿i. Attention đ愃̀ vc đang đ°ợc quan tâm, sử dụng đều khắp trong một lo¿t các nghiên cāu gần đây cho phân tích quan điểm [58][76][113][163][166] vc cũng đ愃̀ đ¿t đ°ợc một sĀ kết quả khả quan.
Hầu hết các nghiên cāu ncy đều tập trung vco việc kết hợp các đặc tr°ng khía c¿nh đ°ợc trích rút với các đặc tr°ng ngữ cảnh vc sử dụng c¡ chế Attention để tính tốn tráng sĀ đặc tr°ng nhằm mục đích lcm nổi bật thơng tin quan tráng [51][76][123]. Song vc nhóm cộng sự [164] đ愃̀ sử dụng một m¿ng m愃̀ hố thơng tin dựa trên c¡ chế Attention để xây dựng mơ hình. Nghiên cāu chÿ yếu dựa trên mĀi liên hệ giữa ngữ cảnh với các khía c¿nh cÿa tci liệu quan điểm. Trên c¡ sá đó, mơ hình sẽ xác đßnh h°ớng quan điểm đĀi với mỗi khía c¿nh cụ thể. Wang vc nhóm cộng sự [166]đề xuất dùng LSTM dựa trên sự chú ý để phân lo¿i quan điểm māc khía c¿nh. Há kết hợp các đặc điểm khía c¿nh đ°ợc trích rút vc các đặc tr°ng ngữ cảnh vc sử dụng c¡ chế Attention để tính tốn tráng sĀ cÿa đặc tr°ng nhằm lcm nổi bật thông tin quan tráng. Nhóm Fan vc cộng sự [42] cũng áp dụng c¡ chế Attention á māc chi tiết nhằm bắt đ°ợc các t°¡ng quan cấp độ từ giữa ngữ cảnh vc khía c¿nh đ°ợc đề cập trong văn bản quan điểm từ đó xác đßnh vc phân lo¿i quan điểm māc khía c¿nh. Ngoci việc tính tốn sự chú ý cÿa các từ khía c¿nh với bĀi cảnh tổng thể cÿa văn bản, các tác giả còn đề xuất một sự chú ý chi tiết. Mục đích lc để mơ tả ảnh h°áng cÿa mỗi khía c¿nh đĀi với ngữ cảnh liên quan hoặc ảnh h°áng cÿa ngữ cảnh lên khía c¿nh theo h°ớng ng°ợc l¿i.
Các tác giả trong [105] sử dụng c¡ chế đa Attention để nắm bắt đ°ợc các đặc tr°ng quan điểm cách nhau một khoảng cách xa. Kết quả lc mơ hình đa Attention ncy sẽ đ°ợc kết hợp khơng tuyến tính với m¿ng RNN giúp tăng sāc m¿nh biểu đ¿t cÿa mơ hình cho các thao tác xử lý phāc t¿p h¡n nhằm phân lo¿i chính xác quan điểm bcy tỏ trong tci liệu quan điểm. Zhu và Qian [107] đ愃̀ đề xuất sử dụng một mơ hình m¿ng bộ nhớ sâu với c¡ chế Attention nhằm bắt đ°ợc các từ ngữ cảnh quan tráng hỗ trợ cho phân tích quan điểm kết hợp với bộ nhớ phụ trội để ngầm chuyển đổi các thuật ngữ quan điểm vc
</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">khía c¿nh cho nhau vc cung cấp cho bộ nhớ chính. Sự kết hợp giữa hai bộ nhớ chính, phụ hỗ trợ cho mơ hình có thể hác các thuộc tính cÿa thuật ngữ quan điểm vc khía c¿nh một cách đồng thßi. Các tác giả trong [9] cũng sử dụng c¡ chế Attention trong mô hình kết hợp t°¡ng tác đa thuộc tính Multifeature Interactive Fusion đề xuất để kết nĀi thông tin phân cấp về ngữ cảnh vc khía c¿nh giúp mơ hình nắm bắt đ°ợc thơng tin quan tráng trong tci liệu hỗ trợ cho phân tích quan điểm. Cũng với c¡ chế Attention, nhóm các tác giả trong [35] đ愃̀ đề xuất một mơ hình m¿ng chú ý t°¡ng tác, nhập ngữ cảnh vc khía c¿nh vco m¿ng LSTM, sau đó các đặc tr°ng cÿa khía c¿nh vc ngữ cảnh đ°ợc t°¡ng tác với nhau. C¡ chế Attention đ°ợc dùng để t¿o điều kiện khai thác các đặc tr°ng ngữ cảnh có liên quan đến từ mục tiêu [178] để cải thiện độ chính xác trong mơ hình khai phá quan điểm māc khía c¿nh. CuĀi cùng, tất cả các đặc tr°ng sẽ đ°ợc liên kết với nhau để dự đoán quan điểm.
Nghiên cāu trong [18] áp dụng c¡ chế đồng chú ý co_Attention xen kẽ để tìm hiểu ngữ cảnh vc từ mục tiêu. Từ đó h°ớng mơ hình tập trung vco các từ khố chính cÿa từ mục tiêu để hác cách diễn đ¿t ngữ cảnh hiệu quả h¡n nhằm trích rút đ°ợc những đặc tr°ng quan tráng h¡n trong khai phá quan điểm māc khía c¿nh. Hazarika vc các cộng sự [31] đ愃̀ đề xuất mơ hình phân tích quan điểm IAD_ABSA với sự phụ thuộc bên trong giữa khía c¿nh vc ngữ cảnh. Mơ hình sử dụng các LSTM xếp chồng kết hợp c¡ chế Attention để bắt đ°ợc các đặc tr°ng cuĀi có tích hợp với đầu ra á b°ớc tr°ớc đó để xác đßnh quan điểm.
Trong [129][149] các tác giả sử dụng một mơ hình Attention nhiều lớp kết hợp (Multilayer dual-attention/coupled multilayer attentions) để trích rút đồng thßi khía c¿nh vc quan điểm trong câu bình luận. Cụ thể mỗi lớp sẽ gồm một cặp c¡ chế chú ý: một dùng cho trích rút khía c¿nh vc một cho trích rút quan điểm. Cặp c¡ chế ncy sẽ hác thông tin theo cách t°¡ng tác qua l¿i để truyền thông tin giữa khía c¿nh vc quan điểm. Thơng qua nhiều lớp, mơ hình có thể khai thác thêm mĀi quan hệ gián tiếp giữa các thuật ngữ để phân tích thơng tin chính xác h¡n. Mơ hình ALM_BERT đ°ợc đề cập trong [46]với ý t°áng cĀt lõi lc nhận diện đ°ợc các quan điểm cÿa các khía c¿nh khác nhau trong văn bản, xem xét thông tin t°¡ng tác theo ngữ cảnh cÿa các từ khía c¿nh vc giảm sự can thiệp cÿa các từ không liên quan giúp hình thcnh một khung phân tích quan điểm māc khía
</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">c¿nh hiệu quả. Mơ hình đ愃̀ sử dụng BERT để vector hố văn bản đầu vco nhằm thu đ°ợc các biểu diễn thông tin theo ngữ cảnh vc biểu diễn thông tin khía c¿nh. Mơ hình sử dụng bộ m愃̀ hố dựa trên c¡ chế đa Attention để tìm hiểu các đặc điểm biểu đ¿t cÿa khía c¿nh vc thơng tin t°¡ng tác với ngữ cảnh giúp mơ hình có thể phân biệt hiệu quả các câu khác nhau vc các đóng góp khác nhau t°¡ng āng với các từ khía c¿nh khác nhau.
Mơ hình AOA thiết lập một m¿ng neural với mơ hình chú ý q māc Attention-Over-Attention [14] dựa trên LSTM. Mơ hình đ愃̀ liên kết đ°ợc các từ khía c¿nh vc quan điểm trên c¡ sá mơ hình hố đ°ợc từ khía c¿nh vc ngữ cảnh cùng lúc nhằm khai thác đ°ợc các thông tin bổ trợ quan tráng trong các từ khía c¿nh vc ngữ cảnh. Cũng sử dụng c¡ chế Attention, các tác giả trong [105] đ愃̀ kết hợp với một m¿ng RNN để phân lo¿i quan điểm t°¡ng āng khía c¿nh trong tci liệu bình luận. Nghiên cāu trong [35] đề xuất một m¿ng chú ý t°¡ng tác Interactive Attention Network (IAN) để hác các chú ý trong ngữ cảnh vc từ mục tiêu một cách t°¡ng tác, đồng thßi phát sinh các đ¿i diện cho các ngữ cảnh vc từ mục tiêu t°¡ng đồng, hỗ trợ tĀt cho khả năng phân lo¿i quan điểm. Nhóm các tác giả trong [164] áp dụng một mơ hình m¿ng m愃̀ hố chú ý Attentional Encoder Network (AEN) với các bộ m愃̀ hoá dựa trên sự chú ý để mơ hình hố ngữ cảnh vc khía c¿nh giúp khai thác thơng tin ngữ nghĩa cần thiết t°¡ng āng khía c¿nh từ c¡ chế nhúng từ mc không cần quan tâm đến khoảng cách giữa các từ trong văn bản.
Chen vc cộng sự [126] trình bcy một mơ hình đồng trích xuất với việc nhúng từ đ°ợc tinh chỉnh bằng cách cung cấp các đ¿i diện vector riêng biệt cho các quan điểm đĀi lập nhau. Các tác giả đ愃̀ xây dựng một mơ hình Attention kép nhiều lớp dựa trên hác sâu để khai thác các cấu trúc phụ thuộc thể hiện mĀi liên quan giữa khía c¿nh vc quan điểm trong tci liệu giúp tăng hiệu suất cho mơ hình phân lo¿i. Nhóm nghiên cāu [158] đề xuất mơ hình phân lo¿i với sự kết hợp cÿa GRU vc c¡ chế chú ý đến các từ quan tráng trong câu để trích rút các đặc tr°ng cÿa khía c¿nh vc ngữ cảnh giúp cho việc phân tích quan điểm đ°ợc chính xác h¡n. Nhóm tác giả [64] đ愃̀ sử dụng một m¿ng LSTM vc c¡ chế chú ý vß trí, kết hợp việc chú ý đến tầm quan tráng cÿa từ ngữ cảnh với vector nhận biết vß trí đ¿i diện cho ngữ cảnh để phân lo¿i quan điểm. Các tác giả trong [128] sử dụng m¿ng Attention hai chiều nhận biết vß trí để xác đßnh quan điểm māc khía c¿nh.
</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">Nghiên cāu trong [57] xây dựng hệ thĀng bổ trợ từ các khía c¿nh trong tci liệu để chuyển đổi tác vụ khai phá quan điểm māc khía c¿nh từ một tác vụ phân lo¿i đ¡n lẻ thcnh nhiệm vụ phân lo¿i theo cặp câu hỏi_đáp dựa trên bình luận. Cụ thể, nhóm tác giả đ愃̀ chuyển đổi các đánh giá cÿa khách hcng thcnh một nguồn tci nguyên lớn có thể đ°ợc khai thác để phục vụ mục đích trả lßi các câu hỏi cÿa ng°ßi dùng. Nghiên cāu ncy sử dụng BERT để tiền huấn luyện kho tci nguyên ncy hỗ trợ cho việc khai phá vc phân tích quan điểm. Thơng qua h°ớng nghiên cāu ncy, tác vụ trích rút khía c¿nh vc phân lo¿i quan điểm đ°ợc thực hiện dễ dcng h¡n vc đ¿t kết quả t°¡ng đĀi cao. Gao vc nhóm cộng sự [176] cũng sử dụng BERT cho khai phá quan điểm māc khía c¿nh. Mơ hình cÿa há đ愃̀ đ¿t hiệu suất khá cao khi kết hợp các thông tin liên quan đến từ mục tiêu trong tci liệu bình luận.
Nhóm tác giả trong [21] đề xuất xây dựng một m¿ng tích chập đồ thß Graph Convolutional Network (GCN) trên cây phụ thuộc cÿa câu bình luận để khai thác thông tin cú pháp vc các phụ thuộc từ hỗ trợ phân lo¿i quan điểm māc khía c¿nh. Cũng sử dụng GCN, các tác giả trong [106] đ愃̀ tiến hcnh kết hợp với c¡ chế Attention hai chiều để nắm bắt đ°ợc các phụ thuộc quan điểm giữa nhiều khía c¿nh khác nhau trong câu giúp cho việc phân lo¿i quan điểm đ°ợc chính xác h¡n. M¿ng GCN sẽ đ°ợc sử dụng trên c¡ chế Attention để nắm bắt sự phụ thuộc quan điểm giữa các khía c¿nh khác nhau trong một
chập dựa trên tri thāc vc cú pháp để phân tích quan điểm á cấp độ khía c¿nh sử dụng cây phụ thuộc cú pháp vc kiến thāc chung thông qua GCN. Đặc biệt, để tăng khả năng biểu diễn câu theo khía c¿nh đ愃̀ cho, các tác giả đ愃̀ phát triển hai mơ hình GCN1 và SK-GCN2. SK-GCN1 lập mơ hình cây phụ thuộc cú pháp vc biểu đồ tri thāc thông qua GCN dựa trên cú pháp S-GCN vc dựa trên tri thāc K-GCN một cách độc lập. SK-GCN2 lập mơ hình chung cho cả hai.
Các tác giả trong [148] đ愃̀ đề xuất một mơ hình m¿ng scng lác vc nhận thāc ngữ nghĩa để phân tích quan điểm dựa trên khía c¿nh. Trong mơ hình ncy, các tác giả sử dụng cấu trúc tích chập đa kênh kép Dual Gated Multichannel convolution (DGMCC) để bắt đ°ợc các tính năng ngữ nghĩa liên quan khía c¿nh trong câu bình luận. Cấu trúc ncy đ°ợc thiết kế với nhiều khơng gian ngữ nghĩa để trích xuất các đặc điểm ngữ nghĩa cục bộ.
</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">Bên c¿nh đó, các tác giả sử dụng thêm một cổng scng lác kép Dual Refinement Gate (DRG) để tăng c°ßng sự t°¡ng tác giữa khía c¿nh vc ngữ cảnh á māc chi tiết vc tăng c°ßng bộ lác nhiễu cho mơ hình.
Các tác giả trong [113] đ愃̀ đ°a ra giả thuyết rằng việc phân lo¿i quan điểm māc khía c¿nh có thể đ°ợc cải thiện bằng cách sử dụng kiến thāc thu đ°ợc từ phân lo¿i tình cảm á cấp độ tci liệu. Cụ thể bci báo đề xuất sử dụng ph°¡ng pháp hác tiền huấn luyện vc hác đa tác vụ PRET_MULT để chuyển đổi và kết hợp tri thāc từ dữ liệu māc tci liệu hỗ trợ dự đoán h°ớng quan điểm t°¡ng āng khía c¿nh trong tci liệu.
Một cấu trúc m¿ng neural mới đ°ợc đặt tên lc m¿ng neural thay thế có cổng Gated Alternate Neural Network (GANN) đ°ợc sử dụng trong [95] cho khai phá quan điểm māc khía c¿nh. Mơ hình đ愃̀ áp dụng một mô đun đ°ợc thiết kế đặc biệt Gate Truncation RNN (GTR) dùng để hác các biểu diễn đầu mĀi quan điểm phụ thuộc vco khía c¿nh. Trong các biểu diễn ncy, khoảng cách t°¡ng đĀi giữa mỗi từ ngữ cảnh với khía c¿nh, thơng tin trình tự, vc sự phụ thuộc ngữ nghĩa trong ph¿m vi một đầu mĀi quan điểm đ°ợc m愃̀ hoá đồng thßi. Mơ hình sử dụng c¡ chế cổng để kiểm sốt luồng thơng tin nhằm mục đích thu đ°ợc các biểu diễn chính xác h¡n. Mơ hình Vocabulary Graph Convolutional Network (VGCN-BERT) trong [177] kết hợp một m¿ng tích chập đồ thß từ vựng với khả năng cÿa BERT cho phép khai thác thông tin t°¡ng quan giữa các từ lân cận vc tocn cục để xây dựng các đ¿i diện cuĀi cùng phục vụ việc phân lo¿i tci liệu. Tay vc cộng sự [165] đề xuất tích hợp thơng tin khía c¿nh vco mơ hình m¿ng neural bằng cách mơ hình hố các mĀi quan hệ giữa các từ trong câu vc khía c¿nh. Mơ hình sử dụng phép t°¡ng quan chập vc t°¡ng quan vịng trịn để mơ hình hố sự t°¡ng đồng. C¡ chế ncy giúp mơ hình có thể tập trung vco các từ có liên quan trực tiếp đến khía c¿nh trong câu quan điểm, từ đó hỗ trợ tăng hiệu suất phân lo¿i quan điểm.
<b>1.4. Mßt sß h¿n ch¿ căa các ti¿p cÁn khai phá quan điÃm hißn nay </b>
Các hệ thĀng khai phá quan điểm hiện nay đ愃̀ có những b°ớc tiến nhanh chóng đáng kể. Các nghiên cāu mới liên tục đ°ợc cập nhật. Tuy nhiên, dù đ¿t đ°ợc thcnh tựu nhất đßnh, nh°ng các kỹ thuật đ°ợc sử dụng trong các hệ thĀng khai phá quan điểm cũng còn nhiều rco cản, dẫn đến kết quả ch°a tĀi °u nh° mong đợi. Nhìn chung có thể nhận
</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">thấy cả hai h°ớng tiếp cận nêu trên đều có những h¿n chế nhất đßnh thơng qua kết quả thực nghiệm từ các nghiên cāu tr°ớc:
• ĐĀi với h°ớng tiếp cận ngữ liệu (với một sĀ nghiên cāu điển hình đ°ợc tổng hợp á Bảng 1.1):
▪ Đòi hỏi đĀi với h°ớng tiếp cận ngữ liệu lc kho ngữ liệu từ điển phải đảm bảo đÿ l°ợng từ quan điểm để có thể so khớp với các từ trong văn bản cần xác đßnh quan điểm nhằm đảm bảo hiệu suất ho¿t động cÿa hệ thĀng. Đây lc một yêu cầu cực kỳ quan tráng đĀi với h°ớng tiếp cận ncy.
▪ Bên c¿nh đó độ phân cực quan điểm cÿa các từ đôi khi phụ thuộc rất lớn vco miền vc ngữ cảnh. Ch¿ng h¿n nh° cùng một từ nh°ng trong ngữ cảnh ncy hay trên miền ncy thể hiện quan điểm tích cực nh°ng trong ngữ cảnh khác hay trên miền khác l¿i thể hiện quan điểm tiêu cực. Điều ncy cũng ảnh h°áng khơng nhỏ đến tính chính xác cÿa các mơ hình.
▪ Mặt khác, các nghiên cāu dựa trên h°ớng tiếp cận ngữ liệu sử dụng các độ đo để xác đßnh mĀi liên quan. Trên c¡ sá các mĀi liên quan ncy, hệ thĀng dự đoán đ°ợc quan điểm thể hiện trên khía c¿nh cÿa thực thể; quan điểm chung cÿa cả câu; hay quan điểm chung cÿa tocn văn bản. Cụ thể nh° độ đo t°¡ng quan PMI th°ßng đ°ợc dùng để xác đßnh māc độ phụ thuộc giữa từ hoặc cụm từ quan điểm với từ h¿t nhân trong kho ngữ liệu từ đó dự đoán h°ớng ngữ nghĩa hay h°ớng quan điểm cÿa từ hay cụm từ đó. Độ đo PMI xác đßnh māc độ t°¡ng quan giữa hai sự kiện x vc y cụ thể. Tính t°¡ng quan thể hiện á việc tăng hay giảm sự kiện x sẽ kéo theo sự tăng hay giảm cÿa sự kiện y. Nh° vậy, độ đo t°¡ng quan dùng đo độ m¿nh cÿa sự phụ thuộc tuyến tính giữa x vc y vc chỉ đ°ợc tính khi cả hai biến đ°ợc xác đßnh cụ thể. Đây cũng chính lc h¿n chế cÿa các nghiên cāu sử dụng độ đo ncy.
Trong một nghiên cāu năm 2018 <Dự đoán h°ớng ngữ nghĩa cÿa cụm từ trong
<i>khai phá quan điểm với độ đo thông tin t°¡ng hỗ= đ°ợc in trong Tạp chí Khoa học và </i>
<i>Cơng Nghệ Đại học Đà Nẵng, sĀ 3(124) (trong Danh mục các cơng trình khoa hác đ愃̀ </i>
công bĀ), chúng tôi đ愃̀ đề xuất sử dụng nhóm độ đo thơng tin t°¡ng hỗ có thể đo độ m¿nh cÿa sự phụ thuộc tuyến tính vc phi tuyến để giải quyết tác vụ ncy thay thế cho độ đo PMI. Kết quả thực nghiệm cho thấy việc sử dụng nhóm độ đo t°¡ng hỗ b°ớc đầu đ愃̀ đ¿t
</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">đ°ợc những kết quả t°¡ng đĀi khả quan so với các nghiên cāu tr°ớc đây. Tuy vậy, nhìn chung các nghiên cāu sử dụng h°ớng tiếp cận ngữ liệu dựa trên nhóm các độ đo th°ßng chỉ đ°ợc thực nghiệm trên dữ liệu t°¡ng đĀi nhỏ, dẫn đến độ chính xác đ¿t đ°ợc cÿa mơ hình vẫn ch°a thực sự thuyết phục.
<b>BÁng 1.1. Các mơ hình khai phá quan điểm dựa trên h°ớng tiếp cận ngữ liệu nổi </b>
<b>bật vc hiệu suất cÿa các mơ hình </b>
• ĐĀi với h°ớng tiếp cận máy hác:
▪ Các kỹ thuật máy hác giám sát đ愃̀ cho thấy hiệu suất tĀt h¡n h¿n so với ph°¡ng pháp dựa trên ngữ liệu không giám sát, đặc biệt đĀi với các nghiên cāu gần đây sử dụng nhóm các kỹ thuật hác sâu (một phân nhánh cÿa máy hác) (chi tiết á Bảng 1.2)
</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38"><b>BÁng 1.2. Các mơ hình khai phá quan điểm dựa trên h°ớng tiếp cận máy hác </b>
nổi bật vc hiệu suất cÿa các mơ hình
</div>