Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (13.17 MB, 69 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
PGE Geog
<small>SỬ DỤNG MƠ HÌNH SEQ2SEQ</small>
<small>HÀ NỌI, THÁNG 12/2023</small>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">LỜI CÁM ƠN
Lời đầu tiên, em xin phép được bày tỏ lòng biết ơn sâu sắc đến người thầy hướng dẫn của em: thay PGS.TS. Ngơ Xn Bách — người đã ln tận tình hướng dẫn, chỉ bảo em trong suốt quá trình học tập va làm đồ tại Học viện Cơng nghệ Bưu chính Viễn thơng. Cảm on thay vì trong suốt thời gian vừa qua đã luôn chỉ bảo, nhắc nhở và hướng dẫn em tận tình dé hồn thành đồ án này.
Em xin gửi lời cảm ơn tới toàn bộ các quý thầy cô, giảng viên tại Học viện Công nghệ Bưu chính Viễn thơng đã tận tình giảng dạy, truyền đạt những kiến thức quý báu cho em trong những năm tháng học tập tại trường. Em cũng xin được gửi lời cảm ơn sâu sắc tới
<small>`này.</small>
<small>người đã cùng đông hành, quan tâm và ủng hộ em trong st q trình học tập và nghiêncứu đơ án.</small>
Trong q trình thực hiện đồ án khơng khỏi cịn nhiều điều thiếu sót, em mong nhận được những ý kiến đóng góp của các thầy cơ và bạn bé dé có thê hồn thành tốt đồ án.
<small>Em xin chân thành cảm on!</small>
<small>Hà Nội, tháng 12 năm 2023Sinh viên thực hiện</small>
Nguyễn Thị Uyên
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Tôi xin cam đoan những khảo sát, nghiên cứu là do tôi thực hiện và tìm hiểu dưới sự hướng dẫn của thầy PGS.TS. Ngô Xuân Bách. Tắt cả bài báo, tài liệu, công cụ, mã nguồn của các tác giả khác được sử dụng ở trong đồ án đều được trích dẫn tường minh về nguồn và nhóm tác giả trong phần danh sách tài liệu tham khảo.
<small>Hà Nội, tháng 12 năm 2023Sinh viên thực hiện</small>
Nguyễn Thị Uyên
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">NHAN XÉT, ĐÁNH GIÁ VÀ CHO DIEM
(Của giảng viên hướng dẫn)
<small>Hà Nội, tháng 01 năm 2024</small>
<small>Giảng viên hướng dẫn</small>
<small>PGS.TS. Ngô Xn Bách</small>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">Bài tốn trích rút thực thể là là một trong những bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Trích rút thực thé giúp xác định và phân loại các thực thé quan trọng như tên người, tên tô chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, số lượng, ngày tháng và nhiều thông tin cụ thể khác từ văn bản. Những thực thê được trích rút ra được sẽ được sử dụng để giải quyết các bài toán phức tạp hơn như Chatbot, Question Answering, Search, v.v. Nhờ vậy mà trích rút thé trở thành một phan quan trọng giúp máy tính tiễn gần hơn đến việc hiểu được ngôn ngữ tự nhiên (Nature language
Trong phạm vi đồ án tập trung vào việc trích rút thực thể tiếng Việt sử dụng phương pháp seq2seq. Đồ án sẽ trình bày những kiến thức cơ bản liên quan đến phương pháp seq2seq dé trích rút thực thé tiếng Việt và 2 mơ hình NER-Biaffine và BARTNER chính là mơ hình được xây dựng dựa trên phương pháp seq2seq, những kiến thức liên quan đến mơ hình này sẽ được trình bày trong chương 2 của đồ án.
Bộ dit liệu tiếng Việt dé thực nghiệm cho bài tốn trích rút thực thé là bộ dữ liệu tiếng
Từ khóa: Trích rút thực thể, nhận dạng thực thé, phuong phap seq2seq, NER-Biaffine,
<small>BARTNER.</small>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">STT Tiếng Anh Tiếng Việt/ Giải thích
<small>Deep learning Hoc sau</small>
<small>NLP Natural Xu lý ngôn ngữ tự nhiên</small>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><small>Association for cho cuộc thi của VLSP vào năm 2021</small> đầu đến cuối và cung cấp một giải pháp
<small>chức năng hoan chỉnh, thường là không</small>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">Recurrent Neural | Mạng nơ-ron hồi quy
Các thuật ngữ khơng có từ viết tắt
Tiếng Anh Tiếng Việt/ Giải thích
Finetuned model | Mơ hình dựa trên pretrained model dé tiến hành huấn luyện
<small>thêm trên tập dữ liệu mới hay đơn giản là thêm hoặc đóng</small>
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><small>10</small>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">Hình 2.1 Kiến trúc LSTM (Nguồn: ResearchGafe)...-- 2-2 s+Sx+£EtzEeE2EEEzEcrxrrrred 26 Hình 2.2 Kiến trúc 1 cell state trong LSTM (Nguồn: ResearehGate)...-- 5-2 ¿ 26 Hình 2.3 Cơng qn trong LSTM (Nguồn: ResearchGate)...-- - + 2 +sss+s+xszszxzz 27 Hình 2.4 Sự kết hợp giữa input gate và hidden state và hàm tanh trong LSTM... 27 Hình 2.5 Cập nhật cell state trong LSTM (Nguồn: ResearchGate)...---252-5¿ 28 0000054000 1e)... ... 28 Hình 2.7 Kiến trúc BiLSTM (Nguồn: ResearchGate)...-2- 222 s+E2EvEs£zzEzEerszxez 29 Hình 2.8 Biểu diễn đầu vào của BERT [4]...--- - + 5 SE‡EEEEEEEEEEEEEEEEEEEEEEEEEEkrkrkrre 31 Hình 2.9 Các biến đổi gây nhiễu đầu vào...--- ¿2 t+SE2SE+ESEE£EEEEE2E2EEEEEEEEEEEEErrkee 32
<small>Hình 2.10 Hình minh họa char-cnn [ 8]... .-- - ¿c2 2c 3332213321 32£2E22EE2EEEeeckkeeeses 33</small>
Hình 2.11 Hình anh minh họa về cách hoạt động của CNN (Nguồn: ResearchGate)... 34
<small>Hình 2.12 Hình minh họa lớp tích chập...-...-- -- G6 2c 3321132113213. xke 34</small>
Hình 2.13 Minh họa việc tính tốn trên lớp Max Pooling (Nguồn: ResearchGate)... 36 Hình 2.14 Kiến trúc Biaffine [9]...---¿- + + ềEEE11111E711111111111111E1111 11x cre. 36 Hình 2.15 Chun tiếp bộ mã hóa (Encoder) và bộ giải mã (Decoder) [11]...- 38
<small>Hình 2.16 Bộ mã hóa (Encoder) và bộ giải mã (Decoder) [] Ï ]...---«+<++<<<+++ 38</small>
Hình 2.17 Hình minh hoa đầu vào dau ra của encoder [12]...--- s2 ++se+xerzrszz 40 Hình 2.18 Hình minh họa đầu vào đầu ra của decoder [ 12]...---2--2 s+s+zx+zs+s4 41 Hình 2.19 Kiến trúc mơ hình NER-Biaffine...0..cccccccscsssesssesssessesssessessecssessecssessesseaeeees 42
<small>Hình 2.20 Mơ hình char-cnn mã hóa ký tự [I3 ]...--.-- S211 * + EEsseersseeererse 44</small>
Hình 2.21 Kiến trúc của BARTNER [ 14]...-- 2-2: ©S2E2E2EEEEEEEEEEEEEEEEE221221211 2E xe, 45 Hình 2.22 Giải thuật biến đổi chuỗi thực thé tuần tự thành các thực thé spans [14]... 46 Hình 2.23 Ba cách biêu diễn thực thé của phương pháp BARTNER [14]...- 47
<small>Hình 3.1 Minh hoa tập dữ liệu được sử dụng... .-- - 5 5 +2. 3231123111211 sreree 50</small>
Hình 3.2 Hình minh họa đầu vào của BARTNER...--ccccccrtiirrrrrrrrrrrrirrrree 51 Hình 3.3 Hình minh hoa json đầu vào của NER-Biaffine...0..cccceccecescesseseesessesesseeeeseeees 51 Hình 3.4 Hình minh họa file lưu trữ dữ liệu đầu vào của NER-Biaffine... -- 51 Hình 3.5 Minh hoa thơng số mơi trường...--¿- 2 2 2+s+SE+EE£EE+EEE+E£EEEEEEEEEEEEEEErrkrkes 52
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><small>Hình 3.6 Các thư viện được phục vụ cho NER-Biaffine... ... - - cà SSs+sssseerres 53Hình 3.7 Cac thư viện được phục vụ cho BARTNER...- ..- SG 1n se, 54</small>
<small>Hình 3.8 Hình anh mơ ta confusion matrix [ Í Ĩ]...-- c5 2c 322221332 E32EEE++zeveexseesees 56Hình 3.9 Hình anh mơ ta confusion matrix khi được normalize [ L7 ]...-‹‹-- - 56</small>
Hình 3.10 Hình ảnh kết quả Fl-score trên tập test của NER-Biaffine (BiLSTM khơng sử
<small>Hình A.1 Hình ảnh khi người dùng truy cập vào trang Web... cee eeceeeseeeeeneeeeeneeeeeneees 65</small>
Hình A.2 Hình anh người dùng nhập văn bản đầu Va0...ccececccscessessessessesssessssesssseeseeeees 65 Hình A.3 Hình ảnh kết quả trả về sau khi thực hiện trích rút thực thê...-.--- 66
<small>12</small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Bảng 1.1 Kết quả mơ hình tốt nhất tính đến hiện tại trên tập dữ liệu VLSP 2021 [1]...23 Bảng 3.1 Bảng thông tin về nhãn thực thé của VLSP 2021 dành cho nhiệm vụ NER... 49 Bang 3.2 Bang thống kê của tap dit liệu VLSP 2021... ¿2-5 +S2+E+E+£££EzEzEerszxereree 50 Bang 3.3 Bang thông tin tham số thực nghiệm...--2- 2 2S +2 EE+E+E£E£EEzEzEerszEerree 55 Bảng 3.4 Bảng kết quả thực nghiệm so sánh giữa kết quả nghiên cứu tốt nhất được công
bồ và kết quả của phương pháp sử dụng trong đỗ án...-- 2-52 + 2sc2£E2E£E£EEzEzEerrxzea 59 Bang 3.5 Bang kết qua so sánh kết quả giữa việc sử dụng PhoBERT làm embedding với
<small>sử dụng cả PhoBERT và charcnn làm embedding... - -- 5c + *++++eexeexeereeeres 60</small>
Bang 3.6 Bảng kết quả thực nghiệm giữa BiLSTM và BiGRU...----25+s=s25+2 60 Bảng A.1 Các công cụ sử dụng xây dựng hệ thống...-- 2 + ©22E+££+E2+E+£EcEerxzEerree 64
<small>13</small>
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"><small>MỤC LỤC</small>
1.3.1. Mơ hình dựa trên luật va từ điển (Dictionary and Rule-based Models)... 22 1.3.2. Mơ hình học máy dựa trên thống kê (Statistical Machine Learning)... 22
<small>1.3.3. Mơ hình sử dụng các phương pháp học sâu...- ¿5c + + +22 *+++sss+ss 22</small>
<small>1.3.4. Mơ hình được sử dụng cho bộ dữ liệu NER của VLSP 2021... 221.4. Phạm vi nghiÊn CỨU...- -. G13 115111911 E910 91119 TH HH ng kp 23</small>
1.5. Đóng góp của đỗ án... 2-5. St Ss E2 E2EEE152121121121271211211211121111211 11111 E1xe 23 1.6. Kết luận chương...-- 2-25 +t‡EE9EE2E12EE21571221211217171117111110111 110111 y0 24
<small>5239723390077... ... 25</small>
2.1. Các kiến thie CƠ SỞ...-. 2.2. St S31 11 515151 515151511111515111111511 1111511111515 111 1x1 c2 25
<small>(GRU) 25</small>
2.1.2. Mạng ron sử dụng bộ nhớ ngắn hạn dài hai chiều (BILSTM) và mạng nơ-ron hồi tiếp hai chiều (BiGRU)... - 2-5 ©52+22£SE9EE9EEEEEE2E21122122121212171 2111 e0 29 2.1.3. Mơ hình ngơn ngữ BERT và các biến thể...-- 2-52 2+S2+EvEzE+EzEzxzxrrs 30 2.1.4. Mơ hình ngôn ngữ BART và các biến thể...-- 2 2 2+2z+£Eerxerxcrrzreee 32
<small>2.1.5. _ Lớp tích chập ở mức ký tu (Character level CNN)...----<ccse- 33</small>
<small>2.1.6. BIaffine...LcQ HS key 36</small>
2.1.7. Mơ hình chuỗi đến chuỗi (Seq2seq)...--- 2-52 2 x+EE£EE£Et£E2EzEerxersee 37
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15"><small>2.2. Mơ hình NER-Biaffine... ... ..--LL CC Q11 1111111195351 1 11K kg Tnhh 412.3. Mơ hình BARTNER... 2-22: 22222S221221127121127112112211271121121211 21 E1 tre 44</small>
<small>2.3.1. BART EncOder... . - - - --- 1 131122222011 1v ng 1 1 1 nu 45</small>
<small>"IV /NN:? ion... ae ... 45</small>
<small>3.1. Tập dit liệu...---©--+7k222222122127122122112112112111211211211111121212 re 48</small>
<small>3.2. Các mơ hình thực nghiỆm... .-- ¿2 3213223331832 E25EE£2EEEEEEEEEEEErrkrerreere 52</small>
3.3.2. Chỉ tiết thực nghiệm...--- 2-52 +sSESEEEEE2E2E221215212121217111 111121 1x6 54
<small>3.3.3. Damh gid 0i an€£... 55</small>
<small>Aung Char-Crt 000277... ... 59</small>
3.4.3. So sánh kết quả giữa BiGRU và BiLSTM trong mơ hình NER-Biaffine...60
<small>3.4.4, Phân tích lỗi sai... 5:25: 22222 122121221 2121121211212112121121211 11211. ce. 60</small>
3.5. Kết luận chương...--:- 2 2+SStEEE9E12E121212712112112171112111111111112 211012 re. 62
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">A.2_ Một số hình ảnh của hệ thống "
TÀI LIỆU THAM KHẢO
<small>16</small>
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">Trong những năm gần đây, trước sự phát triển không ngừng của công nghệ thông tin, nhu cầu về tìm kiếm, khai thác và xử lý thơng tin tiếng Việt ngày càng cao, các vấn đề về xử lý tiếng Việt trở lên quan trọng, được nhiều sự quan tâm từ cộng đồng nghiên cứu ở trong và ngồi nước. Trích rút thực thé là một trong những nhiệm vụ quan trọng trong việc xử lý ngôn ngữ tiếng Việt, giúp xác định và phân loại các thực thể quan trọng như tên người, tên tô chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, số lượng, ngày tháng và nhiều thông tin cụ thể khác từ văn bản. Những thực thé được trích rút ra được sẽ được sử dụng dé giải quyết các bài toán phức tạp hơn như Chatbot, Question Answering,
Search, v.v. Nhờ vậy, mà trích rút thực thể giúp máy tính tiễn gần hơn đến việc hiểu được
<small>ngôn ngữ tự nhiên (Nature language understanding).</small>
Dé giải quyết bài toán này, các nhà nghiên cứu đã đưa ra rất nhiều phương pháp dé nghiên cứu và ứng dụng. Một số phương pháp phô biến được sử dụng dé giải quyết bài tốn trích rút thực thể là mơ hình dựa trên chuỗi (sequence-based models) như CRF, LSTM, BERT và các biến thể của nó, v.v. Trong phạm vi đồ án sẽ sử dụng phương pháp
Lần lượt qua các chương, thì đồ án sẽ trình bày từ tổng quan về bài tốn trích rút thực thé tiéng Việt đến việc áp dụng phương pháp seq2seq vào trong trích rút thực thê tiếng Việt và trình bày chi tiết mơ hình trích rút thực thé tiếng Việt: NER-Biaffine và BARTNER, ở phan cuối sẽ trình bày các kết quả và nhận xét thu được sau quá trình thực nghiệm mơ hình giải quyết bài tốn trích rút thực thể
<small>17</small>
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">Đồ án được chia làm 3 chương với nội dung chính như sau:
Chương này sẽ giới thiệu tổng quan về bài tốn trích rút thực thể, những ứng dụng của bài tốn trích rút thực thể. Đồng thời, nêu nên những mơ hình được sử dụng cho trích rút thực thể trước đây.
Chương 2: Trích rút thực thể tiếng Việt sử dụng mơ hình seq2seq
Chương 2 sẽ trình bày chỉ tiết hơn về bài tốn trích rút thực thể, đi sâu vào 2 mơ hình được sử đụng dé giải quyết bài tốn trong đồ án là NER-Biaffine và BARTNER, đồng thời nêu lên những thuật tốn, mơ hình liên quan trên để làm nền tảng giải quyết bài toán băng NER-Biaffine và BARTNER.
<small>Chương 3. Thực nghiệm và đánh giá</small>
<small>18</small>
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">Trong chương 1 sẽ trình bày một cách tổng quan về bài tốn trích rút thực thé trong xử lý ngơn ngữ tự nhiên, ứng dụng của trích rút thực thể trong thực tế hiện nay và trình bày phạm vi nghiên cứu, đóng góp của dé án.
1.1. Giới thiệu bài tốn trích rút thực thể
Nhận dạng thực thể hay nhận dạng thực thể (Named Entity Recognition, được viết tat
<small>la NER) là một tac vu trong lĩnh vực xử ly ngơn ngữ tự nhiên (NLP). Vai trị chính củanhiệm vụ nay là nhận dạng các cụm từ trong văn ban và phân loại chúng vào trong các</small>
nhóm đã được định trước như tên người, tổ chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, nay thang và nhiều thông tin cụ thể khác từ văn bản. Từ kết quả của nhiệm vụ trích rút thực thé (NER) có thé xử lý cho nhiều bài toán phức tạp hơn như Chatbot, Question
<small>Answering, Search, v.v. [2]</small>
Ví dụ với một câu: “Sau đó đến tháng 9/2016 cơ được ln chun về Trường tiểu
Sị,Ø1,fi,S2,€2,t;,...,S,,€¿,t¿ (Trong đó $,:€,.f, lần lượt là vị trí bắt đầu, vị trí kết thúc và nhãn của thực thé i.
Tổng quát lại bài toán nhận dạng thực thể sẽ có đầu vào là một chuỗi và đầu ra sẽ là một chuỗi các thực thê (NE) trong câu đó.
<small>19</small>
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">Mục đích chính của bài tốn trích rút thực thể là trích rút thực thể trong câu một cách
tự động. Những thực thé này sẽ được sử dụng như là đầu vào dé xử lý các bài toán phức
<small>tạp hơn như Chatbot, Question Answering, Search, v.v như đã nêu ở trên. Hiện nay, việc</small>
Trong lĩnh vực công nghệ và truyền thông:
<small>Công ty công nghệ lớn như Google, Amazon, Facebook sử dụng trích rút thực</small>
thể trong các sản phẩm tìm kiếm, trợ lý ảo, và xử lý ngôn ngữ.
Các công ty truyền thông sử dụng trích rút thực thể để phân tích và tơ chức
<small>thông tin từ các nguôn tin tức và mạng xã hội.</small>
<small>Trong lĩnh vực tài chính và ngân hàng:</small>
<small>các báo cáo thị trường và tin tức kinh doanh.</small>
Trong lĩnh vực y tế và được phẩm:
Trong lĩnh vực y tế, trích rút thực thé được sử dung dé phân tích hồ sơ bệnh án, nghiên cứu lâm sàng và tài liệu y tế.
<small>khoa học và dữ liệu lâm sàng.</small>
<small>Trong lĩnh vực pháp luật và chính phủ:</small>
Các cơ quan chính phủ và tơ chức pháp luật sử dụng trích rút thực thé dé phân
<small>tích tài liệu pháp lý và tài liệu chính sách.</small>
<small>Trong việc ban lẻ va dich vụ khách hàng:</small>
Các công ty bán lẻ sử dụng trích rút thực thé dé phân tích đánh giá và phản hồi
<small>của khách hàng.</small>
<small>20</small>
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">e Trong dịch vụ khách hàng, trích rút thực thé giúp tự động hóa việc xử lý yêu cầu
Nhờ việc áp dụng trích rút thực thể vào trong thực tẾ, các công ty này đã cải thiện được
<small>hiệu quả quy trình làm việc, phân tích dữ liệu nhanh chóng, và giảm bớt nhân sự làmcác cơng việc nảy.</small>
Trong thực tế, trích rút thực thể được ứng dụng trong rất nhiều bai tốn như:
e Phan tích cảm xúc (Sentiment Analysis): Trích rút thực thé sẽ trích rút ra các NE
vào u cầu của bài tốn, sau đó các thực thé này sẽ được sử dụng dé phân tích, đánh giá. Từ đó có thê đưa ra nhận xét, kết luận về cảm xúc liên quan.
se Tóm tắt và phân loại tài liệu: Việc tìm, đọc và lọc các tài liệu vẫn ln rất tốn
<small>phân loại</small>
e Hệ thống gợi ý (Recommendation Systems): Hiện nay việc tim kiếm và đề xuất
e Phat hiện các giao dich bất thường từ đó phịng chống gian lận, lừa đảo: Trong lĩnh vực tài chính ngân hàng, việc trích rút các thực thể như: tên nguoi, số tài
s® Hỗ trợra quyết định và kinh doanh: Trích rút ra các thực thê để lay được các dữ
<small>liệu thị trường, báo cáo tài chính hoặc bình luận của khách hàng giúp doanh</small>
<small>21</small>
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">nghiệp hiểu rõ hơn về nhu cầu của khách hàng, thị trường và từ đó đưa ra các
e Tìm kiếm và trích xuất thơng tin: Trích rút thực thé sẽ giúp trích rút các thực thé
<small>chính trong dữ liệu lớn một cách nhanh chóng hơn việc sử dụng nhân lực, từ đó</small>
<small>được trích rút ra sử dụng trong trợ lý ảo, nhà thơng minh, robot, v.v.</small>
e Phan tích và giám sát mang xã hội: các thực thể được trích rút ra để đưa ra xu
1.3. Mơ hình trích rút thực thể đã được nghiên cứu
Sau đây là một số mơ hình trích rút thực thé đã được nghiên cứu và những ưu điểm, nhược điểm của chúng
1.3.1. Mơ hình dựa trên luật và từ điển (Dictionary and Rule-based Models)
Phương pháp này sẽ sử dụng một bộ luật và từ điển cụ thé được xác định trước dé
<small>22</small>
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">tập luật và từ điển được xây dựng cụ thể nên nó sẽ có thể có hiệu quả trong | mién cu thé như: xử ly những nhiệm vụ có ngơn ngữ va cấu trúc đữ liệu tương đối có định và có thé dự đốn (tài liệu pháp lý, tài chính, y tế, v.v), xử lý tài liệu có cấu trúc rõ ràng (bảng biểu, mẫu đơn, tài liệu quan lý, v.v), bộ dit liệu có số lượng mau rất nhỏ chưa có mơ hình deep learning có sẵn dé tiến hành fintune, v.v.
1.3.2. Mơ hình học máy dựa trên thống kê (Statistical Machine Learning)
Các phương pháp dựa trên thống kê như SVM, HMM, cây quyết định hay CRF tính tốn dựa trên cả ngữ cảnh của từ tốt hơn SVM sẽ sử dụng thống kê để tính tốn.
Vì sử dụng thống kê cho nên nó có tính khái qt tốt hơn các phương pháp trước đó nhưng vi dùng thống kê và xác suất nên nó yêu cầu về khả năng xác định và biéu diễn hay trích rút ra các đặc trưng (features) và u cầu khả năng tính tốn được mở rộng.
<small>1.3.3. Mơ hình sử dụng các phương pháp học sâu</small>
LSTM, RNN, GRU đều là những phương pháp phù hợp với dữ liệu tuần tự, giúp
Tuy nhiên vì nó tính tốn cả ngữ cảnh nên sẽ yêu cầu bộ nhớ lớn đề lưu trữ và ghi nhớ
<small>năng tính tốn lớn, chi phí cao.</small>
<small>1.3.4. Mơ hình được sử dụng cho bộ dữ liệu NER của VLSP 2021</small>
Trong những năm gan đây, việc tìm ra phương pháp để giải quyết bài tốn trích rút thực thê cho tiếng Việt để áp dụng vào trong thực tế vẫn đang diễn ra. Các mơ hình trích
“tài liệu” cho máy học. VLSP đã đưa ra bộ dữ liệu trích rút thực thê dành cho tiếng Việt là NER 2021 tạo ra cơ hội để giải quyết những nhiệm vụ liên quan đến NER. Trước đó
VSLP đã đưa ra 2 bộ dataset để sử dụng cho nhiệm vụ NER vào năm 2016 và 2018 và
<small>23</small>
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">dữ liệu VSLP 2021. Sau đây là kết quả tốt nhất của mơ hình hiện nay trên bộ dữ liệu
<small>VLSP 2021:</small>
<small>Bảng 1.1 Kết quả mơ hình tốt nhất tính đến hiện tại trên tập dữ liệu VLSP 2021 [1]</small>
<small>Model Fl-score</small>
<small>Two Stage Model for Nested Named Entity Recognition | 62.71 %</small>
Kết quả trên của nhóm tac giả Quan Chu Quoc va Vi Ngo Van đến từ trường dai học
<small>VNU thử nghiệm với bộ dữ liệu dành cho NER sử dung mơ hình 2 giai đoạn cho NER</small>
lồng nhau. Kết quả tốt nhất ở trên của nhóm tác giả đến từ VNU được thử nghiệm và
<small>1.4. Phạm vỉ nghiên cứu</small>
Bộ dữ liệu được sử dụng cho đồ án là bộ đữ liệu dành cho NER của VLSP năm 2021.
Trong thực tế, một văn bản có nhiều câu và cần trích rút thực thé trong cả văn bản thì trong đồ án chỉ khảo sát tập trung vào tập dữ liệu các câu đơn duy nhất chứ không sử dụng cả văn bản. Những dữ liệu là văn bản sẽ được tách ra thành các câu để sử dụng.
Đồ án có những đóng góp cơ bản sau:
s® - Giới thiệu bài tốn trích rút thực thé.
© Cac kiến thức, khái niệm làm nền tảng cho phương pháp giải quyết bài tốn
e Khảo sát các kiến trúc mơ hình khác nhau nhăm giải quyết bài tốn trích rút thực thể
e Thực nghiệm các kiến trúc trích rút thực thé trong câu tiếng Việt sử dụng
<small>24</small>
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25"><small>25</small>
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">Trong chương 2 sẽ trình bay cụ thé về phương pháp trích rút thực thê tiếng việt sử dụng mơ hình seq2seq. Ở phần đầu tiên thì sẽ nêu nên những kiến thức cơ sở sẽ được sử dụng cho 2 mô hình thực nghiệm của đồ án. Tiếp đó, đồ án sẽ đi vào chỉ tiết vào đầu vào đầu ra, kién trúc của từng mơ hình thực nghiệm NER-Biaffine và BARTNER.
2.1. Các kiến thức cơ sở
2.1.1. Mang nơ-ron sử dụng bộ nhớ ngắn hạn dài (LSTM) và mạng nơ-ron hồi tiếp
Vi vậy LSTM, GRU ra đời nhằm tận dụng ưu điểm của RNN là ghi nhớ được đầu vào trước đó, xem xét cả đầu vào hiện tại và đầu ra trước đó và mong muốn khắc phục nhược điểm đạo hàm bị triệt tiêu (đạo hàm bị triệt tiêu có tên tiếng anh là vanishing gradient).
<small>a) Mạng LSTM</small>
Mạng LSTM (Long Short-Term Memory): Mạng nơ-ron sử dụng bộ nhớ ngắn hạn dài
<small>được giữ lại.</small>
<small>26</small>
</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">Sau đây là kiến trúc tổng quát của LSTM:
<small>Hình 2.1 Kiến trúc LSTM (Ngn: ResearchGate)</small>
Trong đó trạng thái nhớ (cell state) là thơng tin xun suốt trong bài tốn (Cell state
<small>chính là đường kẻ ngang trong hình đưới đây)</small>
<small>Hình 2.2 Kiến trúc 1 cell state trong LSTM (Nguôn: ResearchGate)</small>
Vector nhớ C, ¡ được đưa vào trong 1 ống nhớ (memory pipe) qua một công gọi là
Cu thé hoạt động như sau: LSTM sé quyết định thông tin nao sẽ bị loại bỏ khỏi cell state. Quá trình này được quyết định bởi 1 lớp sigmoid thực hiện. Cổng quên lấy đầu vào
<small>27</small>
</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">là h,_; và x, dé có được đầu ra là một giá trị nằm trong khoảng [0,1] cho cell state C, ¡.
<small>Công thức của sĩ Id:Ø=T———ông thức của sigmoi +e")</small>
<small>ti ỡ (Wop: [ted Ey) +† hụ \</small>
<small>Hình 2.3 Cổng quên trong LSTM (Nguồn: ResearchGate)</small>
LSTM sẽ quyết định thông tin mới sẽ được lưu lại tai cell state như nào. LSTM sé sử
<small>Trang thái cũ C,_,; sẽ được cập nhật thành cell state mới C,. Trạng thai cũ C,_¡ sẽ được</small>
nhân với giá trị kết qua của cổng quên f, (forget gate) dé thực hiện quyết định lấy bao nhiêu thông tin từ cell state trước và nhờ cổng input gate sẽ quyết định lấy bao nhiêu
<small>28</small>
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29"><small>Hình 2.5 Cập nhật cell state trong LSTM (Nguôn: ResearchGate)</small>
<small>b) Mạng GRU</small>
<small>GRU (Gated Recurrent Unit) được giới thiệu bởi Kyunghyun Cho và cộng sự vào năm</small>
2014 [3]. Về cơ bản thì GRU giống với LSTM tuy nhiên GRU có ít tham số hơn LSTM F,: vector cơng đặt lại
<small>W,U,b: là ma trận và vector tham số</small>
<small>ơ: ham sigmoid</small>
<small>29</small>
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">2.1.2. Mạng ron sử dụng bộ nhớ ngắn hạn dài hai chiều (BiLSTM) va mạng nơ-ron hồi tiếp hai chiều (BiGRU)
Như đã trình bày ở phía trên thì dé dàng nhận thấy LSTM truyền thống với 1 lớp duy nhất chỉ có thể tính tốn cell state của từ hiện tại dựa trên thông tin phía trước của từ đang
Việc sử dụng BiLSTM có lợi thế so với LSTM là nó dựa trên cả thông tin theo chiều từ
<small>phải qua trái nhờ Backward LSTM đã nêu ở trên. Nhưng việc sử dụng BILSTM là có</small>
thêm 1 LSTM truyền thống để lan truyền ngược lại cho thấy rõ việc nó sẽ u cầu tính toán phức tap hơn, cần nhiều tài nguyên về bộ nhớ và tài ngun tính tốn hơn nhưng bi lại thì nó sẽ cung cấp thơng tin “đầy đủ” hơn và ngữ cảnh đặc biệt đối với nhiệm vụ trích rút thực thê cần xem xét ngữ cảnh của toàn bộ câu chứ không phải là chỉ lấy thông tin
<small>30</small>
</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">phía bên trái của từ hiện tại, thơng thường BiLSTM sẽ có hiệu suất tốt hơn LSTM. Đây là
Đối với BiGRU thì BiGRU cũng có cách hoạt động tương tự BiLSTM tuy nhiên thay vì dùng LSTM thì lớp LSTM sẽ được thay thế bằng lớp GRU.
2.1.3. Mơ hình ngơn ngữ BERT và các biến thể
<small>a) BERT (Bidirectional Encoder Representations from Transformers)</small>
Đúng như tên gọi của nó, BERT gồm nhiều lớp mã hóa Transformers 2 chiều (bidirectional transformers encoder) được lấy từ kiến trúc nguyên bản Transformers [4]
BERT là một mơ hình ngơn ngữ mạnh mẽ được huấn luyện trên một lượng lớn dữ liệu
<small>qua 2 nhiệm vụ chính là:</small>
<small>® MLM (Masked Language Model): là mơ hình học khơng giám sát (unsupervised</small>
<small>những ngữ cảnh xung quanh từ những từ không bi [MASK] và từ đó dự đốn</small>
<small>được từ bi [MASK].</small>
® NSP (Next Sentence Prediction): là mơ hình nhận đầu vào là 2 câu A và B. Hai câu này sẽ được nối với nhau và thêm mã phân loại đặc biệt [CLS] vào đầu câu
<small>theo của câu A, nhãn là IsNext. Mơ hình sẽ thực hiện dự đốn nhãn là NotNext</small>
<small>hay IsNext.</small>
Đề phục vụ cho quá trình biểu dién thì đầu vào của BERT như sau:
<small>31</small>
</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32"><small>Hình 2.8 Biểu diễn đầu vào của BERT [4]</small>
Với Token Embeddings, Segment, Embeddings, Position Embeddings mã hóa và kết hợp (concatenate) lại thành thành đầu vào hoàn chỉnh để đưa vào huấn luyện BERT. BERT sau khi đã được huấn luyện sé được tinh chỉnh cho các tác vụ NLP khác nhau, việc tinh chỉnh BERT thường cũng tương đối đơn giản, chi bằng việc thêm các một vài lớp
<small>layer, mỗi một head sẽ thực hiện một self-attention BERT được chia làm 2 phiên bản sau:</small>
e BERTBASE (L=12, H=768, A=12): Tổng tham số 110 triệu.
e BERTLARGE (L=24, H=1024, A=16): Tổng tham số 340 triệu.
<small>b) PhoBERT</small>
PhoBERT [5] ra đời như một mơ hình ngơn ngữ BERT dành cho tiếng Việt được phát triển bởi nhóm nghiên cứu AI của VinAI Research.
PhoBERT được huấn luyện trên khoảng 20GB dữ liệu bao gồm khoảng 1GB từ Wikipedia tiếng Việt và 19GB còn lại lấy từ các bài báo, tin tức băng tiếng Việt. Trước khi huấn luyện thì PhoBERT sử dụng RDRSegmenter của VnCoreNLP [6] dé tách từ cho
PhoBERT giúp mã hóa các câu tiếng Việt thành embedding, cũng giống với BERT phobert chia làm 2 loại là PhoBERT-base và PhoBERT-large. PhoBERT-base gồm 12 layer còn PhoBERT-large gồm 24 layer [5]. Trong đồ án, sử dụng PhoBERT-Base và dé trích xuất đặc trưng của layer 12.
<small>32</small>
</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">2.1.4. Mơ hình ngơn ngữ BART và các biến thé
<small>a) BART</small>
BART là một bộ mã hóa khử nhiễu tự động (denoising auto encoder) trên kiến trúc
<small>seq2seq (sequence-to-sequence).</small>
Giống như các mơ hình Transformer, BART gồm 2 phan là encoder va decoder. Encoder hoạt động giống như BERT (được nêu ở phan trước). Decoder lại giống như GPT được sử dụng dé tái tạo lại đầu vào bị nhiễu, mặc dù vậy các từ chỉ có thể sinh từ bên trái, mơ hình khơng thể học được tương tắc 2 chiều, hàm kích hoạt GeLU được sử dụng thay thế cho ReLU.
<small>Token Masking Sentence Permutation Document Rotation</small>
<small>Token Deletion Text Infilling</small>
<small>Hình 2.9 Các biến đổi gây nhiễu dau vào</small>
<small>Trong đó:</small>
Token Masking (giống BERT): lấy ngẫu nhiên các token trong mẫu và thay thế nó bằng [MASK]
Token Deletion: lấy ngẫu nhiên các token và xóa nó khỏi đầu vào
Text Infilling: Một vài đoạn văn bản ngẫu nhiên sẽ được thay thế bang [MASK] (đoạn văn ban này có thé là rỗng)
<small>Sentence Permutation: Văn bản chia thành các câu, và các câu này được xáo</small>
<small>trộn ngẫu nhiên</small>
Document Rotation: chọn một token ngẫu nhiên trong văn bản và xoay văn bản
<small>bat dau của văn ban)</small>
Với những đặc điểm nêu trên thi BART là mơ hình kết hop những ưu điểm của BERT
<small>và GPT. BART cũng có 2 phiên bản là 12 lớp (layer) (6 lớp encoder và 6 lớp decoder) và24 layer (12 layer encoder và 12 layer decoder)</small>
<small>33</small>
</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34"><small>b) BARTpho</small>
BARTpho [7] ra đời giống như mơ hình BART dành cho tiếng Việt, cả BARTpho,„„„ va
Giống với PhoBERT thì BARTpho cũng được huấn luyện trên khoảng 20GB dữ liệu bao gồm khoảng 1GB từ Wikipedia tiếng Việt và 19GB còn lại lấy từ các bài báo, tin
<small>2.1.5. Lớp tích chập ở mức ký tự (Character level CNN)</small>
Phương pháp CNN là một trong những phương pháp phổ biến được sử dụng nhiều
trong lĩnh vực xử lý ảnh dùng để trích rút đặc trưng của ảnh. Việc sử dụng CNN cho xử lý
<small>ngôn ngữ tự nhiên nghe có vẻ lạ nhưng nó đã được áp dụng bởi nhóm tác giả XiangZhang, Junbo Zhao, Yann LeCun vào năm 2016 [8]. Tuy nhiên mang Convolution Neural</small>
<small>Convolutions Max-pooling Conv. and Pool. layers Fully-connected</small>
<small>Figure |: Illustration of our model</small>
<small>Hinh 2.10 Hinh minh hoa char-cnn [8]</small>
CNN gồm 3 lớp chính là lớp tích chap (Convolutional layer), lớp pooling (Pooling layer), lớp kết nối toàn bộ (Fully-connected layer). Sau đây là một số thông tin về CNN:
<small>34</small>
</div>