Trích rút thực thể tiếng việt sử dụng mô hình SEQ2SEQ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (13.17 MB, 69 trang )

Trang 1<div class="page_container" data-page="1">

HỌC VIEN CƠNG NGHẸ BƯU CHÍNH VIỄN THONG

KHOA CƠNG NGHẸ THƠNG TIN

PGE Geog

Đề tài: TRÍCH RÚT THỰC THỂ TIẾNG VIẸT

SỬ DỤNG MƠ HÌNH SEQ2SEQ

HÀ NỌI, THÁNG 12/2023

</div>Trang 2<div class="page_container" data-page="2">

LỜI CÁM ƠN

Lời đầu tiên, em xin phép được bày tỏ lòng biết ơn sâu sắc đến người thầy hướng dẫn của em: thay PGS.TS. Ngơ Xn Bách — người đã ln tận tình hướng dẫn, chỉ bảo em trong suốt quá trình học tập va làm đồ tại Học viện Cơng nghệ Bưu chính Viễn thơng. Cảm on thay vì trong suốt thời gian vừa qua đã luôn chỉ bảo, nhắc nhở và hướng dẫn em tận tình dé hồn thành đồ án này.

Em xin gửi lời cảm ơn tới toàn bộ các quý thầy cô, giảng viên tại Học viện Công nghệ Bưu chính Viễn thơng đã tận tình giảng dạy, truyền đạt những kiến thức quý báu cho em trong những năm tháng học tập tại trường. Em cũng xin được gửi lời cảm ơn sâu sắc tới

các thầy cô trong Khoa Cơng nghệ Thơng tin 1 đã ln tận tình dạy dé, chỉ bao và tao điều kiện tốt nhất cho chúng em trong những năm tháng học tập tại Học viện. Những

kiến thức bé ích, quý giá này sẽ là hành trang đi cùng em trong những năm tháng sau

`này.

Cuối cùng, em cũng xin gửi lời cảm on tới gia đình, bạn bè, các anh chi em — những

người đã cùng đông hành, quan tâm và ủng hộ em trong st q trình học tập và nghiêncứu đơ án.

Trong q trình thực hiện đồ án khơng khỏi cịn nhiều điều thiếu sót, em mong nhận được những ý kiến đóng góp của các thầy cơ và bạn bé dé có thê hồn thành tốt đồ án.

Em xin chân thành cảm on!

Hà Nội, tháng 12 năm 2023Sinh viên thực hiện

Nguyễn Thị Uyên

</div>Trang 3<div class="page_container" data-page="3">

LỜI CAM ĐOAN

Tôi xin cam đoan những khảo sát, nghiên cứu là do tôi thực hiện và tìm hiểu dưới sự hướng dẫn của thầy PGS.TS. Ngô Xuân Bách. Tắt cả bài báo, tài liệu, công cụ, mã nguồn của các tác giả khác được sử dụng ở trong đồ án đều được trích dẫn tường minh về nguồn và nhóm tác giả trong phần danh sách tài liệu tham khảo.

Hà Nội, tháng 12 năm 2023Sinh viên thực hiện

Nguyễn Thị Uyên

</div>Trang 4<div class="page_container" data-page="4">

NHAN XÉT, ĐÁNH GIÁ VÀ CHO DIEM

(Của giảng viên hướng dẫn)

Hà Nội, tháng 01 năm 2024

Giảng viên hướng dẫn

PGS.TS. Ngô Xn Bách

</div>Trang 6<div class="page_container" data-page="6">

TĨM TAT

Bài tốn trích rút thực thể là là một trong những bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Trích rút thực thé giúp xác định và phân loại các thực thé quan trọng như tên người, tên tô chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, số lượng, ngày tháng và nhiều thông tin cụ thể khác từ văn bản. Những thực thê được trích rút ra được sẽ được sử dụng để giải quyết các bài toán phức tạp hơn như Chatbot, Question Answering, Search, v.v. Nhờ vậy mà trích rút thé trở thành một phan quan trọng giúp máy tính tiễn gần hơn đến việc hiểu được ngôn ngữ tự nhiên (Nature language

Trong phạm vi đồ án tập trung vào việc trích rút thực thể tiếng Việt sử dụng phương pháp seq2seq. Đồ án sẽ trình bày những kiến thức cơ bản liên quan đến phương pháp seq2seq dé trích rút thực thé tiếng Việt và 2 mơ hình NER-Biaffine và BARTNER chính là mơ hình được xây dựng dựa trên phương pháp seq2seq, những kiến thức liên quan đến mơ hình này sẽ được trình bày trong chương 2 của đồ án.

Bộ dit liệu tiếng Việt dé thực nghiệm cho bài tốn trích rút thực thé là bộ dữ liệu tiếng

Việt mới nhất dành cho trích rút thực thé (NER) của VLSP sử dụng cho challenge của họ

vào năm 2021. Kết quả thực nghiệm tốt nhất đạt 73,58% trên tập thử nghiệm của VLSP sử dụng mơ hình NER-Biaffine cao hơn kết quả thực nghiệm trên bộ dữ liệu được công

bố trước đó (đạt được 62,71% [1]), cao hơn khoảng 10,87%, cho thấy mơ hình đã hoạt động hiệu quả. Chỉ tiết kết về kết quả sẽ được trình bày trong chương 3 của đồ án.

Từ khóa: Trích rút thực thể, nhận dạng thực thé, phuong phap seq2seq, NER-Biaffine,

BARTNER.

</div>Trang 7<div class="page_container" data-page="7">

DANH MỤC THUẬT NGỮ

Các thuật ngữ viết tắt

STT Tiếng Anh Tiếng Việt/ Giải thích

Deep learning Hoc sau

NLP Natural Xu lý ngôn ngữ tự nhiên

</div>Trang 8<div class="page_container" data-page="8">

Association for cho cuộc thi của VLSP vào năm 2021 đầu đến cuối và cung cấp một giải pháp

chức năng hoan chỉnh, thường là không

</div>Trang 9<div class="page_container" data-page="9">

Recurrent Neural | Mạng nơ-ron hồi quy

Các thuật ngữ khơng có từ viết tắt

Tiếng Anh Tiếng Việt/ Giải thích

Finetuned model | Mơ hình dựa trên pretrained model dé tiến hành huấn luyện

thêm trên tập dữ liệu mới hay đơn giản là thêm hoặc đóng

</div>Trang 10<div class="page_container" data-page="10">

10

</div>Trang 11<div class="page_container" data-page="11">

DANH SÁCH HÌNH VE

Hình 2.1 Kiến trúc LSTM (Nguồn: ResearchGafe)...-- 2-2 s+Sx+£EtzEeE2EEEzEcrxrrrred 26 Hình 2.2 Kiến trúc 1 cell state trong LSTM (Nguồn: ResearehGate)...-- 5-2 ¿ 26 Hình 2.3 Cơng qn trong LSTM (Nguồn: ResearchGate)...-- - + 2 +sss+s+xszszxzz 27 Hình 2.4 Sự kết hợp giữa input gate và hidden state và hàm tanh trong LSTM... 27 Hình 2.5 Cập nhật cell state trong LSTM (Nguồn: ResearchGate)...---252-5¿ 28 0000054000 1e)... ... 28 Hình 2.7 Kiến trúc BiLSTM (Nguồn: ResearchGate)...-2- 222 s+E2EvEs£zzEzEerszxez 29 Hình 2.8 Biểu diễn đầu vào của BERT [4]...--- - + 5 SE‡EEEEEEEEEEEEEEEEEEEEEEEEEEkrkrkrre 31 Hình 2.9 Các biến đổi gây nhiễu đầu vào...--- ¿2 t+SE2SE+ESEE£EEEEE2E2EEEEEEEEEEEEErrkee 32

Hình 2.10 Hình minh họa char-cnn [ 8]... .-- - ¿c2 2c 3332213321 32£2E22EE2EEEeeckkeeeses 33

Hình 2.11 Hình anh minh họa về cách hoạt động của CNN (Nguồn: ResearchGate)... 34

Hình 2.12 Hình minh họa lớp tích chập...-...-- -- G6 2c 3321132113213. xke 34

Hình 2.13 Minh họa việc tính tốn trên lớp Max Pooling (Nguồn: ResearchGate)... 36 Hình 2.14 Kiến trúc Biaffine [9]...---¿- + + ềEEE11111E711111111111111E1111 11x cre. 36 Hình 2.15 Chun tiếp bộ mã hóa (Encoder) và bộ giải mã (Decoder) [11]...- 38

Hình 2.16 Bộ mã hóa (Encoder) và bộ giải mã (Decoder) [] Ï ]...---«+<++<<<+++ 38

Hình 2.17 Hình minh hoa đầu vào dau ra của encoder [12]...--- s2 ++se+xerzrszz 40 Hình 2.18 Hình minh họa đầu vào đầu ra của decoder [ 12]...---2--2 s+s+zx+zs+s4 41 Hình 2.19 Kiến trúc mơ hình NER-Biaffine...0..cccccccscsssesssesssessesssessessecssessecssessesseaeeees 42

Hình 2.20 Mơ hình char-cnn mã hóa ký tự [I3 ]...--.-- S211 * + EEsseersseeererse 44

Hình 2.21 Kiến trúc của BARTNER [ 14]...-- 2-2: ©S2E2E2EEEEEEEEEEEEEEEEE221221211 2E xe, 45 Hình 2.22 Giải thuật biến đổi chuỗi thực thé tuần tự thành các thực thé spans [14]... 46 Hình 2.23 Ba cách biêu diễn thực thé của phương pháp BARTNER [14]...- 47

Hình 3.1 Minh hoa tập dữ liệu được sử dụng... .-- - 5 5 +2. 3231123111211 sreree 50

Hình 3.2 Hình minh họa đầu vào của BARTNER...--ccccccrtiirrrrrrrrrrrrirrrree 51 Hình 3.3 Hình minh hoa json đầu vào của NER-Biaffine...0..cccceccecescesseseesessesesseeeeseeees 51 Hình 3.4 Hình minh họa file lưu trữ dữ liệu đầu vào của NER-Biaffine... -- 51 Hình 3.5 Minh hoa thơng số mơi trường...--¿- 2 2 2+s+SE+EE£EE+EEE+E£EEEEEEEEEEEEEEErrkrkes 52

</div>Trang 12<div class="page_container" data-page="12">

Hình 3.6 Các thư viện được phục vụ cho NER-Biaffine... ... - - cà SSs+sssseerres 53Hình 3.7 Cac thư viện được phục vụ cho BARTNER...- ..- SG 1n se, 54

Hình 3.8 Hình anh mơ ta confusion matrix [ Í Ĩ]...-- c5 2c 322221332 E32EEE++zeveexseesees 56Hình 3.9 Hình anh mơ ta confusion matrix khi được normalize [ L7 ]...-‹‹-- - 56

Hình 3.10 Hình ảnh kết quả Fl-score trên tập test của NER-Biaffine (BiLSTM khơng sử

Hình A.1 Hình ảnh khi người dùng truy cập vào trang Web... cee eeceeeseeeeeneeeeeneeeeeneees 65

Hình A.2 Hình anh người dùng nhập văn bản đầu Va0...ccececccscessessessessesssessssesssseeseeeees 65 Hình A.3 Hình ảnh kết quả trả về sau khi thực hiện trích rút thực thê...-.--- 66

12

</div>Trang 13<div class="page_container" data-page="13">

DANH SÁCH BANG

Bảng 1.1 Kết quả mơ hình tốt nhất tính đến hiện tại trên tập dữ liệu VLSP 2021 [1]...23 Bảng 3.1 Bảng thông tin về nhãn thực thé của VLSP 2021 dành cho nhiệm vụ NER... 49 Bang 3.2 Bang thống kê của tap dit liệu VLSP 2021... ¿2-5 +S2+E+E+£££EzEzEerszxereree 50 Bang 3.3 Bang thông tin tham số thực nghiệm...--2- 2 2S +2 EE+E+E£E£EEzEzEerszEerree 55 Bảng 3.4 Bảng kết quả thực nghiệm so sánh giữa kết quả nghiên cứu tốt nhất được công

bồ và kết quả của phương pháp sử dụng trong đỗ án...-- 2-52 + 2sc2£E2E£E£EEzEzEerrxzea 59 Bang 3.5 Bang kết qua so sánh kết quả giữa việc sử dụng PhoBERT làm embedding với

sử dụng cả PhoBERT và charcnn làm embedding... - -- 5c + *++++eexeexeereeeres 60

Bang 3.6 Bảng kết quả thực nghiệm giữa BiLSTM và BiGRU...----25+s=s25+2 60 Bảng A.1 Các công cụ sử dụng xây dựng hệ thống...-- 2 + ©22E+££+E2+E+£EcEerxzEerree 64

13

</div>Trang 14<div class="page_container" data-page="14">

MỤC LỤC

CHUONG 1. GIỚI THIEU BÀI TOÁN TRÍCH RUT THỰC THE TIENG VIỆT..18

1.1. Giới thiệu bài tốn trích rút thực thỂ...--¿- 22c 18 1.2. Một số ứng dụng của bài tốn trích rút thực thỂ... St TT rrưyt 19 1.3. Mơ hình trích rút thực thé đã được nghiÊn CỨU...- -- 5 + Sc se s+kssrseereree 21

1.3.1. Mơ hình dựa trên luật va từ điển (Dictionary and Rule-based Models)... 22 1.3.2. Mơ hình học máy dựa trên thống kê (Statistical Machine Learning)... 22

1.3.3. Mơ hình sử dụng các phương pháp học sâu...- ¿5c + + +22 *+++sss+ss 22

1.3.4. Mơ hình được sử dụng cho bộ dữ liệu NER của VLSP 2021... 221.4. Phạm vi nghiÊn CỨU...- -. G13 115111911 E910 91119 TH HH ng kp 23

1.5. Đóng góp của đỗ án... 2-5. St Ss E2 E2EEE152121121121271211211211121111211 11111 E1xe 23 1.6. Kết luận chương...-- 2-25 +t‡EE9EE2E12EE21571221211217171117111110111 110111 y0 24

CHUONG 2. TRÍCH RUT THUC THẺ TIENG VIET SU DỤNG MƠ HÌNH

5239723390077... ... 25

2.1. Các kiến thie CƠ SỞ...-. 2.2. St S31 11 515151 515151511111515111111511 1111511111515 111 1x1 c2 25

2.1.1. Mang nơ-ron sử dụng bộ nhớ ngắn hạn dài (LSTM) và mạng no-ron hồi tiếp

(GRU) 25

2.1.2. Mạng ron sử dụng bộ nhớ ngắn hạn dài hai chiều (BILSTM) và mạng nơ-ron hồi tiếp hai chiều (BiGRU)... - 2-5 ©52+22£SE9EE9EEEEEE2E21122122121212171 2111 e0 29 2.1.3. Mơ hình ngơn ngữ BERT và các biến thể...-- 2-52 2+S2+EvEzE+EzEzxzxrrs 30 2.1.4. Mơ hình ngôn ngữ BART và các biến thể...-- 2 2 2+2z+£Eerxerxcrrzreee 32

2.1.5. _ Lớp tích chập ở mức ký tu (Character level CNN)...----<ccse- 33

2.1.6. BIaffine...LcQ HS key 36

2.1.7. Mơ hình chuỗi đến chuỗi (Seq2seq)...--- 2-52 2 x+EE£EE£Et£E2EzEerxersee 37

</div>Trang 15<div class="page_container" data-page="15">

2.2. Mơ hình NER-Biaffine... ... ..--LL CC Q11 1111111195351 1 11K kg Tnhh 412.3. Mơ hình BARTNER... 2-22: 22222S221221127121127112112211271121121211 21 E1 tre 44

2.3.1. BART EncOder... . - - - --- 1 131122222011 1v ng 1 1 1 nu 45

"IV /NN:? ion... ae ... 45

2.4. Kết luận chương...--- ¿5222221 E921211211211211117111111111 1111111 re. 47

CHUONG 3. THỰC NGHIEM VÀ ĐÁNH GIÁ...-- 5-5 5< sssessesessesesse 48

3.1. Tập dit liệu...---©--+7k222222122127122122112112112111211211211111121212 re 48

3.1.1. Bộ dữ liệu ban đầu...----2¿-5++22122222122212711271 2211271211211. 1.1.1. re. 48

3.1.2. Tiền lý dữ liệu...----+-©5-22<2E12E12212212112112112112110111121211 1. re. 49

3.2. Các mơ hình thực nghiỆm... .-- ¿2 3213223331832 E25EE£2EEEEEEEEEEEErrkrerreere 52

3.3... Thiết lập thực nghiệm...-¿- 2 sSt9EE92E2E12E122127171711211211211 111111111. 52

3.3.1. Môi trường, công cụ thực nghiỆm...- c2 321112511121 11E12 E11 xrres 52

3.3.2. Chỉ tiết thực nghiệm...--- 2-52 +sSESEEEEE2E2E221215212121217111 111121 1x6 54

3.3.3. Damh gid 0i an€£... 55

3.4. Kết quả thực mghim...c.cceccccccscessessesssssessessessessesssesssssessessssesussessssessssssesneaeesees 58

3.4.1. So sánh kết quả so với kết quả tốt nhất đã được công bố...--- -- 59 3.4.2. So sánh kết quả giữa việc sử dụng thêm embedding char-cnn và không sử

Aung Char-Crt 000277... ... 59

3.4.3. So sánh kết quả giữa BiGRU và BiLSTM trong mơ hình NER-Biaffine...60

3.4.4, Phân tích lỗi sai... 5:25: 22222 122121221 2121121211212112121121211 11211. ce. 60

3.5. Kết luận chương...--:- 2 2+SStEEE9E12E121212712112112171112111111111112 211012 re. 62

</div>Trang 16<div class="page_container" data-page="16">

A.2_ Một số hình ảnh của hệ thống "

TÀI LIỆU THAM KHẢO

16

</div>Trang 17<div class="page_container" data-page="17">

LỜI NÓI ĐẦU

Trong những năm gần đây, trước sự phát triển không ngừng của công nghệ thông tin, nhu cầu về tìm kiếm, khai thác và xử lý thơng tin tiếng Việt ngày càng cao, các vấn đề về xử lý tiếng Việt trở lên quan trọng, được nhiều sự quan tâm từ cộng đồng nghiên cứu ở trong và ngồi nước. Trích rút thực thé là một trong những nhiệm vụ quan trọng trong việc xử lý ngôn ngữ tiếng Việt, giúp xác định và phân loại các thực thể quan trọng như tên người, tên tô chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, số lượng, ngày tháng và nhiều thông tin cụ thể khác từ văn bản. Những thực thé được trích rút ra được sẽ được sử dụng dé giải quyết các bài toán phức tạp hơn như Chatbot, Question Answering,

Search, v.v. Nhờ vậy, mà trích rút thực thể giúp máy tính tiễn gần hơn đến việc hiểu được

ngôn ngữ tự nhiên (Nature language understanding).

Dé giải quyết bài toán này, các nhà nghiên cứu đã đưa ra rất nhiều phương pháp dé nghiên cứu và ứng dụng. Một số phương pháp phô biến được sử dụng dé giải quyết bài tốn trích rút thực thể là mơ hình dựa trên chuỗi (sequence-based models) như CRF, LSTM, BERT và các biến thể của nó, v.v. Trong phạm vi đồ án sẽ sử dụng phương pháp

seq2seq, đây là một phương pháp học sâu xuất hiện sau khơng thường được sử dụng cho bài tốn trích rút thực thé mà thường được áp dung để giải quyết các bài tốn về dịch máy, tóm tắt văn bản, chuyền đổi giọng nói thành văn bản, tạo ra văn bản, v.v. Dé án này sử dụng phương pháp seq2seq trong nhiệm vụ trích rút thực thể với mong muốn có thể có sử dung ưu thé của phương pháp seq2seq như xử lý chuỗi dai, học các đặc điểm phức tap

và ngữ cảnh của văn bản, đầu ra tùy chỉnh vào trong trích rút thực thé tiếng Việt có thé dem lại kết quả tốt. Phần chính của đồ án là trình bày 2 mơ hình NER-Biaffine và BARTNER (đây là 2 mơ hình sử dụng phương pháp seq2seq) dé trích rút các thực thé tiếng Việt.

Lần lượt qua các chương, thì đồ án sẽ trình bày từ tổng quan về bài tốn trích rút thực thé tiéng Việt đến việc áp dụng phương pháp seq2seq vào trong trích rút thực thê tiếng Việt và trình bày chi tiết mơ hình trích rút thực thé tiếng Việt: NER-Biaffine và BARTNER, ở phan cuối sẽ trình bày các kết quả và nhận xét thu được sau quá trình thực nghiệm mơ hình giải quyết bài tốn trích rút thực thể

17

</div>Trang 18<div class="page_container" data-page="18">

Đồ án được chia làm 3 chương với nội dung chính như sau:

Chương 1: Giới thiệu về bài tốn trích rút thực thể

Chương này sẽ giới thiệu tổng quan về bài tốn trích rút thực thể, những ứng dụng của bài tốn trích rút thực thể. Đồng thời, nêu nên những mơ hình được sử dụng cho trích rút thực thể trước đây.

Chương 2: Trích rút thực thể tiếng Việt sử dụng mơ hình seq2seq

Chương 2 sẽ trình bày chỉ tiết hơn về bài tốn trích rút thực thể, đi sâu vào 2 mơ hình được sử đụng dé giải quyết bài tốn trong đồ án là NER-Biaffine và BARTNER, đồng thời nêu lên những thuật tốn, mơ hình liên quan trên để làm nền tảng giải quyết bài toán băng NER-Biaffine và BARTNER.

Chương 3. Thực nghiệm và đánh giá

Chương 3 sẽ giới thiệu về tập dữ liệu tiếng Việt VLSP 2021 sử dụng cho bài tốn trích

rút thực thê và trình bày thực nghiệm với những mơ hình đã nêu ở chương 2 trên tập dữ liệu VLSP 2021, đồng thời đưa ra các đánh giá và so sánh phương pháp, chỉ ra các lỗi sai

và hướng khắc phục.

18

</div>Trang 19<div class="page_container" data-page="19">

CHƯƠNG 1. GIỚI THIỆU BÀI TỐN TRÍCH RÚT THỰC THÊ

TIENG VIỆT

Trong chương 1 sẽ trình bày một cách tổng quan về bài tốn trích rút thực thé trong xử lý ngơn ngữ tự nhiên, ứng dụng của trích rút thực thể trong thực tế hiện nay và trình bày phạm vi nghiên cứu, đóng góp của dé án.

1.1. Giới thiệu bài tốn trích rút thực thể

Nhận dạng thực thể hay nhận dạng thực thể (Named Entity Recognition, được viết tat

la NER) là một tac vu trong lĩnh vực xử ly ngơn ngữ tự nhiên (NLP). Vai trị chính củanhiệm vụ nay là nhận dạng các cụm từ trong văn ban và phân loại chúng vào trong các

nhóm đã được định trước như tên người, tổ chức, địa điểm, thời gian, loại sản phẩm, nhãn hiệu, nay thang và nhiều thông tin cụ thể khác từ văn bản. Từ kết quả của nhiệm vụ trích rút thực thé (NER) có thé xử lý cho nhiều bài toán phức tạp hơn như Chatbot, Question

Answering, Search, v.v. [2]

Ví dụ với một câu: “Sau đó đến tháng 9/2016 cơ được ln chun về Trường tiểu

học & THCS Thị trấn Mù Cang Chải” có 3 thực thể được xác định ở đây là “tháng

9/2016” (là ngày tháng — nhãn DATE viết tat là DAT), “Trường tiểu học & THCS Thị

tran Mù Cang Chai” (là tên tổ chức — nhãn ORGANIZATION viết tắt là ORG) và “Mù Cang Chải” (là tên địa điểm — nhãn LOCATION viết tắt là LOC). Trong ví dụ trên thì các thực thể có thể lồng nhau như thực thể “Mù Cang Chải” vừa là thực thể có nhãn là

ORGANIZATION, vừa là thực thể có nhãn là LOCATION. Như vậy dé thuận tiện cho việc lưu trữ thì nhãn thực thé sẽ được lưu đưới dạng là 1 danh sách [tên thực thực thể, vị trí bắt dau, vị trí kết thúc]. Mơ hình trích rút thực thé sẽ nhận đầu vào là một câu gồm các từ XixX;...X;y và thực hiện trích rút để được 1 chuỗi các thực thé

Sị,Ø1,fi,S2,€2,t;,...,S,,€¿,t¿ (Trong đó $,:€,.f, lần lượt là vị trí bắt đầu, vị trí kết thúc và nhãn của thực thé i.

Tổng quát lại bài toán nhận dạng thực thể sẽ có đầu vào là một chuỗi và đầu ra sẽ là một chuỗi các thực thê (NE) trong câu đó.

19

</div>Trang 20<div class="page_container" data-page="20">

1.2. Một số ứng dụng của bài tốn trích rút thực thể

Mục đích chính của bài tốn trích rút thực thể là trích rút thực thể trong câu một cách

tự động. Những thực thé này sẽ được sử dụng như là đầu vào dé xử lý các bài toán phức

tạp hơn như Chatbot, Question Answering, Search, v.v như đã nêu ở trên. Hiện nay, việc

trích rút thực thể trong câu đã được áp dụng vào trong thực tế và trở thành một trong

những nhiệm vụ quan trọng cho các công ty. Sau đây là một số ứng dụng của trích rút thực

thể được ứng dụng ở thực tế trong từng lĩnh vực:

Trong lĩnh vực công nghệ và truyền thông:

Công ty công nghệ lớn như Google, Amazon, Facebook sử dụng trích rút thực

thể trong các sản phẩm tìm kiếm, trợ lý ảo, và xử lý ngôn ngữ.

Các công ty truyền thông sử dụng trích rút thực thể để phân tích và tơ chức

thông tin từ các nguôn tin tức và mạng xã hội.

Trong lĩnh vực tài chính và ngân hàng:

Ngân hang và tổ chức tài chính sử dụng trích rút thực thé dé phân tích các báo cáo tài chính, tài liệu pháp lý, và dé theo dõi giao dich dé phát hiện gian lận.

Các công ty quản lý quỹ đầu tư sử dung cơng nghệ này dé phân tích thơng tin từ

các báo cáo thị trường và tin tức kinh doanh.

Trong lĩnh vực y tế và được phẩm:

Trong lĩnh vực y tế, trích rút thực thé được sử dung dé phân tích hồ sơ bệnh án, nghiên cứu lâm sàng và tài liệu y tế.

Các công ty dược phẩm sử dụng trích rút thực thé dé phân tích các nghiên cứu

khoa học và dữ liệu lâm sàng.

Trong lĩnh vực pháp luật và chính phủ:

Các cơ quan chính phủ và tơ chức pháp luật sử dụng trích rút thực thé dé phân

tích tài liệu pháp lý và tài liệu chính sách.

Các tơ chức giám sát và thực thi pháp luật sử dụng cơng nghệ này đề theo dõi và

phân tích dữ liệu từ các nguồn thông tin khác nhau.

Trong việc ban lẻ va dich vụ khách hàng:

Các công ty bán lẻ sử dụng trích rút thực thé dé phân tích đánh giá và phản hồi

của khách hàng.

20

</div>Trang 21<div class="page_container" data-page="21">

e Trong dịch vụ khách hàng, trích rút thực thé giúp tự động hóa việc xử lý yêu cầu

và phản hồi của khách hàng.

Nhờ việc áp dụng trích rút thực thể vào trong thực tẾ, các công ty này đã cải thiện được

hiệu quả quy trình làm việc, phân tích dữ liệu nhanh chóng, và giảm bớt nhân sự làmcác cơng việc nảy.

Trong thực tế, trích rút thực thể được ứng dụng trong rất nhiều bai tốn như:

e Phan tích cảm xúc (Sentiment Analysis): Trích rút thực thé sẽ trích rút ra các NE

cụ thé (như tên người; cảm xúc: vui, bn, ghét, thích, v.v; địa điểm; v.v) tùy

vào u cầu của bài tốn, sau đó các thực thé này sẽ được sử dụng dé phân tích, đánh giá. Từ đó có thê đưa ra nhận xét, kết luận về cảm xúc liên quan.

se Tóm tắt và phân loại tài liệu: Việc tìm, đọc và lọc các tài liệu vẫn ln rất tốn

sức và thời gian cho nên việc áp dụng trí tuệ nhân tạo (AI) vào để giải quyết vấn dé này ln được quan tâm. Trích rút thực thé sẽ giúp trích rút các thực thé (NE) chính, các thực thể này sẽ được sử dụng làm đầu vào cho các bài tốn phân loại,

tóm tắt giúp nâng cao tỷ lệ chính xác hơn khi mà cho tài liệu trực tiếp vào dé

phân loại

e Hệ thống gợi ý (Recommendation Systems): Hiện nay việc tim kiếm và đề xuất

tự động như: đề xuất phim trên Netflix, bài báo, hay trên sàn thương mai trực tuyến thì việc đề xuất các sản phẩm mà người dùng có thé có nhu cầu mua đang

được áp dung hàng ngày. Trích rút thực thé sẽ được ứng dụng vào đây giúp trích

rút các thực thể liên quan từ lịch sử tìm kiếm, mua hàng, những bộ phim, cuốn sách đã xem, đã đọc v.v và đồng thời trích rút thực thé trong các tài liệu, sách,

phim, sản phẩm từ những sản phẩm hiện có dé đưa ra các đề xuất tương ứng.

e Phat hiện các giao dich bất thường từ đó phịng chống gian lận, lừa đảo: Trong lĩnh vực tài chính ngân hàng, việc trích rút các thực thể như: tên nguoi, số tài

khoản, địa điểm, số tiền giao dịch, v.v. được áp dụng để phát hiện những sự kiện

“bat thuong” nhu tron thuế, lừa đảo, v.v.

s® Hỗ trợra quyết định và kinh doanh: Trích rút ra các thực thê để lay được các dữ

liệu thị trường, báo cáo tài chính hoặc bình luận của khách hàng giúp doanh

21

</div>Trang 22<div class="page_container" data-page="22">

nghiệp hiểu rõ hơn về nhu cầu của khách hàng, thị trường và từ đó đưa ra các

quyết định kinh doanh tương ứng.

e Tìm kiếm và trích xuất thơng tin: Trích rút thực thé sẽ giúp trích rút các thực thé

chính trong dữ liệu lớn một cách nhanh chóng hơn việc sử dụng nhân lực, từ đó

đưa ra các tài liệu liên quan (đây được ứng dụng nhiều vào hệ thống gợi ý).

© Chatbots và trợ lý ảo, voicebot: Voicebot sẽ chuyên giọng nói thành văn ban,

những văn bản, đoạn chat của người dùng sẽ được sử dụng để trích rút thực thể

(Ví dụ: một chatbot tư vẫn sản phâm bán hàng, khi người dùng hỏi về “giá tiền

của sản phẩm A7 thì hệ thống sẽ thực hiện trích rút các thực thé trong đó như “giá tiền”: “money”, “A”: “product name” các thực thé như “money”, “product name” sẽ được sử dụng để nhận diện ý định (intent) và từ đó đưa ra câu trả lời tương ứng). Một ví dụ nổi bật của chatbots hiện nay là chatgpt. Các thực thể

được trích rút ra sử dụng trong trợ lý ảo, nhà thơng minh, robot, v.v.

e Phan tích và giám sát mang xã hội: các thực thể được trích rút ra để đưa ra xu

hướng hiện tại và các quan điểm, chủ đề nóng trên mạng xã hội

® Nghiên cứu y tế và dược phẩm: trích rút ra các thực thể về bệnh án, triệu chứng

và các tài liệu liên quan dé đưa ra các thông tin như bệnh lý, thuốc, liều lượng.

1.3. Mơ hình trích rút thực thể đã được nghiên cứu

Các thuật toán được sử dụng cho trích rút thực thể được phát triển dần từ thơ sơ đến

đơn giản rồi phức tạp. Thuật tốn đầu tiên xuất hiện là những thuật toán dựa trên luật (tập luật mà do kinh nghiệm con người sau q trình quan sát, phân tích, thử nghiệm dé đúc rút ra), sau đó đến những thuật tốn sử dụng mơ hình học máy cơ điển (traditional machine learning) và những thuật toán học sâu (deep learning) được vận dụng đến ngày nay v.v.

Sau đây là một số mơ hình trích rút thực thé đã được nghiên cứu và những ưu điểm, nhược điểm của chúng

1.3.1. Mơ hình dựa trên luật và từ điển (Dictionary and Rule-based Models)

Phương pháp này sẽ sử dụng một bộ luật và từ điển cụ thé được xác định trước dé

trích xuất thơng tin trong câu và ngữ cảnh tương ứng.

Vì Rule-base Models sử dụng bộ luật, từ điển được xây dựng bằng tay nên nó thường

it linh hoạt và khó mở rộng, khó bảo trì và thích ứng với miền ngơn ngữ mới. Nhưng vì là

22

</div>Trang 23<div class="page_container" data-page="23">

tập luật và từ điển được xây dựng cụ thể nên nó sẽ có thể có hiệu quả trong | mién cu thé như: xử ly những nhiệm vụ có ngơn ngữ va cấu trúc đữ liệu tương đối có định và có thé dự đốn (tài liệu pháp lý, tài chính, y tế, v.v), xử lý tài liệu có cấu trúc rõ ràng (bảng biểu, mẫu đơn, tài liệu quan lý, v.v), bộ dit liệu có số lượng mau rất nhỏ chưa có mơ hình deep learning có sẵn dé tiến hành fintune, v.v.

1.3.2. Mơ hình học máy dựa trên thống kê (Statistical Machine Learning)

Các phương pháp dựa trên thống kê như SVM, HMM, cây quyết định hay CRF tính tốn dựa trên cả ngữ cảnh của từ tốt hơn SVM sẽ sử dụng thống kê để tính tốn.

Vì sử dụng thống kê cho nên nó có tính khái qt tốt hơn các phương pháp trước đó nhưng vi dùng thống kê và xác suất nên nó yêu cầu về khả năng xác định và biéu diễn hay trích rút ra các đặc trưng (features) và u cầu khả năng tính tốn được mở rộng.

1.3.3. Mơ hình sử dụng các phương pháp học sâu

LSTM, RNN, GRU đều là những phương pháp phù hợp với dữ liệu tuần tự, giúp

“hiểu” được ngữ cảnh, các phần phụ thuộc trong đữ liệu văn bản.

Tuy nhiên vì nó tính tốn cả ngữ cảnh nên sẽ yêu cầu bộ nhớ lớn đề lưu trữ và ghi nhớ

thông tin của đầu vào từ đầu tới cuối (đối với RNN) gây mat độ dốc (vanishing gradient:

đạo hàm rất nhỏ xấp xi 0 và bị về 0) hay LSTM, BiLSTM, GRU thì cũng u cầu kha

năng tính tốn lớn, chi phí cao.

1.3.4. Mơ hình được sử dụng cho bộ dữ liệu NER của VLSP 2021

Trong những năm gan đây, việc tìm ra phương pháp để giải quyết bài tốn trích rút thực thê cho tiếng Việt để áp dụng vào trong thực tế vẫn đang diễn ra. Các mơ hình trích

rút thực thé cần bộ dit liệu NER dành cho tiếng Việt được gán nhãn thực thể trước dé làm

“tài liệu” cho máy học. VLSP đã đưa ra bộ dữ liệu trích rút thực thê dành cho tiếng Việt là NER 2021 tạo ra cơ hội để giải quyết những nhiệm vụ liên quan đến NER. Trước đó

VSLP đã đưa ra 2 bộ dataset để sử dụng cho nhiệm vụ NER vào năm 2016 và 2018 và

gần đây nhất là bộ dữ liệu dành cho NER vào năm 2021.

Trong đồ án này thì sử dụng bộ đữ liệu dành cho nhiệm vụ trích rút thực thé NER năm 2021 nên sẽ chỉ nêu nên kết quả của mơ hình tốt nhất tính đến thời điểm hiện tại cho bộ

23

</div>Trang 24<div class="page_container" data-page="24">

dữ liệu VSLP 2021. Sau đây là kết quả tốt nhất của mơ hình hiện nay trên bộ dữ liệu

VLSP 2021:

Bảng 1.1 Kết quả mơ hình tốt nhất tính đến hiện tại trên tập dữ liệu VLSP 2021 [1]

Model Fl-score

Two Stage Model for Nested Named Entity Recognition | 62.71 %

Kết quả trên của nhóm tac giả Quan Chu Quoc va Vi Ngo Van đến từ trường dai học

VNU thử nghiệm với bộ dữ liệu dành cho NER sử dung mơ hình 2 giai đoạn cho NER

lồng nhau. Kết quả tốt nhất ở trên của nhóm tác giả đến từ VNU được thử nghiệm và

cơng bố vào năm 2022.

1.4. Phạm vỉ nghiên cứu

Có nhiều phương pháp hay thuật toán được áp dụng vào để giải quyết bài tốn trích rút

thực thể (NER task) như Rule-base system, CRF, SVM, CNN, v.v được nêu ở trên nhưng ở trong phạm vi đồ án chỉ tập trung vào khảo sát, nghiên cứu bai tốn trích rút thực thé tiếng Việt sử dụng phương pháp seq2seq.

Bộ dữ liệu được sử dụng cho đồ án là bộ đữ liệu dành cho NER của VLSP năm 2021.

Trong thực tế, một văn bản có nhiều câu và cần trích rút thực thé trong cả văn bản thì trong đồ án chỉ khảo sát tập trung vào tập dữ liệu các câu đơn duy nhất chứ không sử dụng cả văn bản. Những dữ liệu là văn bản sẽ được tách ra thành các câu để sử dụng.

1.5. Đóng góp của đồ án

Đồ án có những đóng góp cơ bản sau:

s® - Giới thiệu bài tốn trích rút thực thé.

e Khảo sát các kiến trúc mơ hình khác nhau nhăm giải quyết bài tốn trích rút thực thể

e Thực nghiệm các kiến trúc trích rút thực thé trong câu tiếng Việt sử dụng

phương pháp seq2seq. Từ đó đưa ra đánh giá, nhận xét về kết quả đạt được, hướng cải tiến cho bài toán.

24

</div>Trang 25<div class="page_container" data-page="25">

1.6. Kết luận chương

Chương 1 giới thiệu về bài tốn trích rút thực thể, tiếp theo là các ứng dung của bài

toán này vào trong thực tế. Chương 1 cũng nêu nên các nghiên cứu liên quan đến bài tốn được áp dụng cho bài tốn trích rút thực thể. Chương 2 sẽ nêu nên các kiến thức cơ sở

được sử dụng trong các kiến trúc do đồ án đề xuất và đi sâu vào mô tả kiến trúc, mơ hình được sử dụng trong đồ án dé áp dụng vào giải quyết nhiệm vụ trích rút thực thé (NER).

25

</div>Trang 26<div class="page_container" data-page="26">

CHƯƠNG 2. TRÍCH RUT THỰC THE TIENG VIỆT SỬ DỤNG

MƠ HÌNH SEQ2SEQ

Trong chương 2 sẽ trình bay cụ thé về phương pháp trích rút thực thê tiếng việt sử dụng mơ hình seq2seq. Ở phần đầu tiên thì sẽ nêu nên những kiến thức cơ sở sẽ được sử dụng cho 2 mô hình thực nghiệm của đồ án. Tiếp đó, đồ án sẽ đi vào chỉ tiết vào đầu vào đầu ra, kién trúc của từng mơ hình thực nghiệm NER-Biaffine và BARTNER.

2.1. Các kiến thức cơ sở

2.1.1. Mang nơ-ron sử dụng bộ nhớ ngắn hạn dài (LSTM) và mạng nơ-ron hồi tiếp

Như đã trình bày ở phần 1 thì RNN, LSTM, GRU đều là những một mạng hoạt động tốt với đữ liệu tuần tự. Về lý thuyết, thi mạng nơ-ron hồi quy (RNN) có thé hoạt động với một chỗi có độ dài bât kì, nhưng trên thực tế trong nhiều nghiên cứu đã chỉ ra mặt hạn chế của RNN đó là sự biến mất đạo hàm (vanishing gradient), nguồn từ việc phụ thuộc dài (long-term dependency). Khi đầu vào là một chuỗi quá dài RNN không thé “nhớ” được

thơng tin tại các thời điểm cách xa tính tốn hiện tại, việc này trong tính tốn của RNN thì đạo ham (gradient) tại các thời điểm cách xa này đã trở nên q nhỏ khơng cịn chứa nhưng thơng tin hữu ích cho bước tính tốn hiện tại. Hạn chế này khiến RNN không hiệu

quả đối với các bài toán cần xử lý dữ liệu theo thời gian dài đòi hỏi trạng thái nhớ trung

gian.

Vi vậy LSTM, GRU ra đời nhằm tận dụng ưu điểm của RNN là ghi nhớ được đầu vào trước đó, xem xét cả đầu vào hiện tại và đầu ra trước đó và mong muốn khắc phục nhược điểm đạo hàm bị triệt tiêu (đạo hàm bị triệt tiêu có tên tiếng anh là vanishing gradient).

a) Mạng LSTM

Mạng LSTM (Long Short-Term Memory): Mạng nơ-ron sử dụng bộ nhớ ngắn hạn dài

là một kiến trúc được ra đời nhằm tận dụng những lợi thế mà RNN có và khắc phục những nhược điểm của nó. Khác với RNN thay vì “nhớ hết tất cả” thì LSTM có cơng qn (forget gate) nhằm “lựa chọn” những thông tin sẽ bị “quên đi” và thông tin nào sẽ

được giữ lại.

26

</div>Trang 27<div class="page_container" data-page="27">

Sau đây là kiến trúc tổng quát của LSTM:

Hình 2.1 Kiến trúc LSTM (Ngn: ResearchGate)

Trong đó trạng thái nhớ (cell state) là thơng tin xun suốt trong bài tốn (Cell state

chính là đường kẻ ngang trong hình đưới đây)

Hình 2.2 Kiến trúc 1 cell state trong LSTM (Nguôn: ResearchGate)

Vector nhớ C, ¡ được đưa vào trong 1 ống nhớ (memory pipe) qua một công gọi là

cổng quên vừa được nhắc ở phía trên (forget gate), cơng qn sẽ quyết định xem cần lay

bao nhiêu từ cell state, thực chất là một toán hạng nhân ma trận (element-wise multiplication operation). C,_; sẽ được nhân với 1 vector, nếu kết qua là gần 0 thì kết quả nhớ C, ¡ sẽ bị “quên: và ngược lại nếu kết quả là 1 thì C, ¡ sẽ được đi tiếp.

Cu thé hoạt động như sau: LSTM sé quyết định thông tin nao sẽ bị loại bỏ khỏi cell state. Quá trình này được quyết định bởi 1 lớp sigmoid thực hiện. Cổng quên lấy đầu vào

27

</div>Trang 28<div class="page_container" data-page="28">

là h,_; và x, dé có được đầu ra là một giá trị nằm trong khoảng [0,1] cho cell state C, ¡.

Công thức của sĩ Id:Ø=T———ông thức của sigmoi +e")

ti ỡ (Wop: [ted Ey) +† hụ \

Hình 2.3 Cổng quên trong LSTM (Nguồn: ResearchGate)

LSTM sẽ quyết định thông tin mới sẽ được lưu lại tai cell state như nào. LSTM sé sử

dụng hidden state h,_ ở trạng thái trước đó và đầu vào x, đi qua sigmoid dé quyết định giá

trị sẽ được cập nhật, lớp tanh tạo ra 1 vector giá tri mới C, mà có thể thêm được vào cell

Trang thái cũ C,_,; sẽ được cập nhật thành cell state mới C,. Trạng thai cũ C,_¡ sẽ được

nhân với giá trị kết qua của cổng quên f, (forget gate) dé thực hiện quyết định lấy bao nhiêu thông tin từ cell state trước và nhờ cổng input gate sẽ quyết định lấy bao nhiêu

thông tin từ input của state và hidden layer của layer trước i,xÓ,.

28

</div>Trang 29<div class="page_container" data-page="29">

if Tr Cr= fet CriticeC

Hình 2.5 Cập nhật cell state trong LSTM (Nguôn: ResearchGate)

b) Mạng GRU

GRU (Gated Recurrent Unit) được giới thiệu bởi Kyunghyun Cho và cộng sự vào năm

2014 [3]. Về cơ bản thì GRU giống với LSTM tuy nhiên GRU có ít tham số hơn LSTM F,: vector cơng đặt lại

W,U,b: là ma trận và vector tham số

ơ: ham sigmoid

29

</div>Trang 30<div class="page_container" data-page="30">

2.1.2. Mạng ron sử dụng bộ nhớ ngắn hạn dài hai chiều (BiLSTM) va mạng nơ-ron hồi tiếp hai chiều (BiGRU)

Như đã trình bày ở phía trên thì dé dàng nhận thấy LSTM truyền thống với 1 lớp duy nhất chỉ có thể tính tốn cell state của từ hiện tại dựa trên thông tin phía trước của từ đang

xét mà chưa lấy được thơng tin các từ phía sau. BiLSTM ra đời nhằm mục đích “tận dụng” cả thơng tin của từ phía sau, nó là sự kết hợp 2 mạng LSTM đơn được sử dụng đồng thời và đọc lập để mô hình hóa chuỗi đầu vào theo 2 hướng: từ trái qua phải (Forward LSTM), từ phải qua trái (Backward LSTM). Điều này cho phép BiLSTM nắm bắt thông tin từ cả 2 hướng trong chuỗi dữ liệu.

Việc sử dụng BiLSTM có lợi thế so với LSTM là nó dựa trên cả thông tin theo chiều từ

phải qua trái nhờ Backward LSTM đã nêu ở trên. Nhưng việc sử dụng BILSTM là có

thêm 1 LSTM truyền thống để lan truyền ngược lại cho thấy rõ việc nó sẽ u cầu tính toán phức tap hơn, cần nhiều tài nguyên về bộ nhớ và tài ngun tính tốn hơn nhưng bi lại thì nó sẽ cung cấp thơng tin “đầy đủ” hơn và ngữ cảnh đặc biệt đối với nhiệm vụ trích rút thực thê cần xem xét ngữ cảnh của toàn bộ câu chứ không phải là chỉ lấy thông tin

30

</div>Trang 31<div class="page_container" data-page="31">

phía bên trái của từ hiện tại, thơng thường BiLSTM sẽ có hiệu suất tốt hơn LSTM. Đây là

lý do tại sao BiLSTM được sử dung trong đồ án.

Đối với BiGRU thì BiGRU cũng có cách hoạt động tương tự BiLSTM tuy nhiên thay vì dùng LSTM thì lớp LSTM sẽ được thay thế bằng lớp GRU.

2.1.3. Mơ hình ngơn ngữ BERT và các biến thể

a) BERT (Bidirectional Encoder Representations from Transformers)

Đúng như tên gọi của nó, BERT gồm nhiều lớp mã hóa Transformers 2 chiều (bidirectional transformers encoder) được lấy từ kiến trúc nguyên bản Transformers [4]

BERT là một mơ hình ngơn ngữ mạnh mẽ được huấn luyện trên một lượng lớn dữ liệu

qua 2 nhiệm vụ chính là:

® MLM (Masked Language Model): là mơ hình học khơng giám sát (unsupervised

text) dé học bối cảnh của câu vào từ cả 2 phía trái và phải nhờ việc nhận đầu vào là các tokens câu. Dữ liệu đầu vào sẽ được chọn một số lượng nhỏ từ trong câu

(khoảng 15%) để thay thế bằng token [MASK] và đưa qua mơ hình để học

những ngữ cảnh xung quanh từ những từ không bi [MASK] và từ đó dự đốn

được từ bi [MASK].

® NSP (Next Sentence Prediction): là mơ hình nhận đầu vào là 2 câu A và B. Hai câu này sẽ được nối với nhau và thêm mã phân loại đặc biệt [CLS] vào đầu câu

đồng thời thêm mã [SEP] vào giữa 2 câu dé phân biệt được token nào thuộc câu A và token nào thuộc câu B. Khi huấn luyện thì 50% câu ngẫu nhiên từ văn bản sẽ được gan nhãn là NotNext va 50% câu sẽ là câu B sẽ được chọn là câu tiếp

theo của câu A, nhãn là IsNext. Mơ hình sẽ thực hiện dự đốn nhãn là NotNext

hay IsNext.

Đề phục vụ cho quá trình biểu dién thì đầu vào của BERT như sau:

31

</div>Trang 32<div class="page_container" data-page="32">

mới (es) re) Ls Nee Lee eNews Hoe)

Hình 2.8 Biểu diễn đầu vào của BERT [4]

Với Token Embeddings, Segment, Embeddings, Position Embeddings mã hóa và kết hợp (concatenate) lại thành thành đầu vào hoàn chỉnh để đưa vào huấn luyện BERT. BERT sau khi đã được huấn luyện sé được tinh chỉnh cho các tác vụ NLP khác nhau, việc tinh chỉnh BERT thường cũng tương đối đơn giản, chi bằng việc thêm các một vài lớp

mạng nơ-ron đơn giản phía trên BERT tùy vào các tác vụ cụ thê.

Dựa trên 3 tham số L: số lượng các block sub-layers trong transformer, H: kích thước của embedding véc tơ (hay cịn gọi là hidden size), A: Số lượng head trong multi-head

layer, mỗi một head sẽ thực hiện một self-attention BERT được chia làm 2 phiên bản sau:

e BERTBASE (L=12, H=768, A=12): Tổng tham số 110 triệu.

e BERTLARGE (L=24, H=1024, A=16): Tổng tham số 340 triệu.

b) PhoBERT

PhoBERT [5] ra đời như một mơ hình ngơn ngữ BERT dành cho tiếng Việt được phát triển bởi nhóm nghiên cứu AI của VinAI Research.

PhoBERT được huấn luyện trên khoảng 20GB dữ liệu bao gồm khoảng 1GB từ Wikipedia tiếng Việt và 19GB còn lại lấy từ các bài báo, tin tức băng tiếng Việt. Trước khi huấn luyện thì PhoBERT sử dụng RDRSegmenter của VnCoreNLP [6] dé tách từ cho

dữ liệu đầu vào trước khi qua BPE encoder.

PhoBERT giúp mã hóa các câu tiếng Việt thành embedding, cũng giống với BERT phobert chia làm 2 loại là PhoBERT-base và PhoBERT-large. PhoBERT-base gồm 12 layer còn PhoBERT-large gồm 24 layer [5]. Trong đồ án, sử dụng PhoBERT-Base và dé trích xuất đặc trưng của layer 12.

32

</div>Trang 33<div class="page_container" data-page="33">

2.1.4. Mơ hình ngơn ngữ BART và các biến thé

a) BART

BART là một bộ mã hóa khử nhiễu tự động (denoising auto encoder) trên kiến trúc

seq2seq (sequence-to-sequence).

Giống như các mơ hình Transformer, BART gồm 2 phan là encoder va decoder. Encoder hoạt động giống như BERT (được nêu ở phan trước). Decoder lại giống như GPT được sử dụng dé tái tạo lại đầu vào bị nhiễu, mặc dù vậy các từ chỉ có thể sinh từ bên trái, mơ hình khơng thể học được tương tắc 2 chiều, hàm kích hoạt GeLU được sử dụng thay thế cho ReLU.

DE.ABC. C.DE.AB

Token Masking Sentence Permutation Document Rotation

Token Deletion Text Infilling

Hình 2.9 Các biến đổi gây nhiễu dau vào

Trong đó:

Token Masking (giống BERT): lấy ngẫu nhiên các token trong mẫu và thay thế nó bằng [MASK]

Token Deletion: lấy ngẫu nhiên các token và xóa nó khỏi đầu vào

Text Infilling: Một vài đoạn văn bản ngẫu nhiên sẽ được thay thế bang [MASK] (đoạn văn ban này có thé là rỗng)

Sentence Permutation: Văn bản chia thành các câu, và các câu này được xáo

trộn ngẫu nhiên

Document Rotation: chọn một token ngẫu nhiên trong văn bản và xoay văn bản

dé cho nó bắt đầu với token (Điều này giúp cho văn ban học được đâu là điểm

bat dau của văn ban)

Với những đặc điểm nêu trên thi BART là mơ hình kết hop những ưu điểm của BERT

và GPT. BART cũng có 2 phiên bản là 12 lớp (layer) (6 lớp encoder và 6 lớp decoder) và24 layer (12 layer encoder và 12 layer decoder)

33

</div>Trang 34<div class="page_container" data-page="34">

b) BARTpho

BARTpho [7] ra đời giống như mơ hình BART dành cho tiếng Việt, cả BARTpho,„„„ va

BARTpho, „„„ đều sử dụng kiến trúc “large” với 12 lớp encoder và 12 lớp decoder.

Giống với PhoBERT thì BARTpho cũng được huấn luyện trên khoảng 20GB dữ liệu bao gồm khoảng 1GB từ Wikipedia tiếng Việt và 19GB còn lại lấy từ các bài báo, tin

tức bằng tiếng Việt.

2.1.5. Lớp tích chập ở mức ký tự (Character level CNN)

Phương pháp CNN là một trong những phương pháp phổ biến được sử dụng nhiều

trong lĩnh vực xử lý ảnh dùng để trích rút đặc trưng của ảnh. Việc sử dụng CNN cho xử lý

ngôn ngữ tự nhiên nghe có vẻ lạ nhưng nó đã được áp dụng bởi nhóm tác giả XiangZhang, Junbo Zhao, Yann LeCun vào năm 2016 [8]. Tuy nhiên mang Convolution Neural

Networks dựa trên tinh chất chia sẻ tham số và kết nối dia phương tới các vùng ảnh dé tìm ra các đặc trưng chính của dữ liệu nhằm phân loại chúng. Đối với văn bản, ta cũng hoàn toàn có thé dựa vào những ý nghĩa thé hiện qua những từ ngữ hoặc câu văn dé trích lọc đặc trưng. Rõ ràng, ý tưởng kết chia sẻ tham số và kết nối địa phương cũng rất phù hợp đối với dữ liệu văn bản, khơng chỉ riêng hình ảnh.

Việc sử dụng character embedding (embedding ở mức kí tự) góp phần mã hóa câu đa

dang hơn. Nó dựa trên các ki tự chữ cai, chữ số và dấu câu thay vì từ vựng. Sau đây là

một ví dụ cho việc sử dụng char-cnn cho bai tốn trích rút thực thé:

Convolutions Max-pooling Conv. and Pool. layers Fully-connected

Figure |: Illustration of our model

Hinh 2.10 Hinh minh hoa char-cnn [8]

CNN gồm 3 lớp chính là lớp tích chap (Convolutional layer), lớp pooling (Pooling layer), lớp kết nối toàn bộ (Fully-connected layer). Sau đây là một số thông tin về CNN:

34

</div>