Tải bản đầy đủ (.doc) (78 trang)

Nghiên cứu và phát triển hệ thống hỏi đáp tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.83 MB, 78 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN VĂN TỐT NGHIỆP
Nghiên cứu và phát triển hệ thống hỏi đáp tiếng Việt

NGUYỄN HỒNG TIẾN BÁCH


Ngành: Cơng nghệ thơng tin

Giảng viên hướng dẫn:

TS. Nguyễn Thị Thu Trang

_____________
Chữ ký GVHD

Trường:

Công nghệ thông tin và Truyền thông

HÀ NỘI, 09/2022


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Nguyễn Hoàng Tiến Bách
Đề tài luận văn: Nghiên cứu và phát triển hệ thống hỏi đáp tiếng Việt
Chuyên ngành: Công nghệ thông tin


Mã số SV: 20202149M
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác
nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày
29/10/2022 với các nội dung sau:
STT

Yêu cầu chỉnh sửa

Giải trình

Trang

1

Phần tổng quan và lý thuyết hệ thống
hỏi đáp cần làm rõ nội dung của luận
văn tránh nhầm lẫn cho người đọc

Đã bổ sung làm rõ lý thuyết
của hệ thống hỏi đáp và nội
dung của luận văn

1-2

2

Giải thích rõ về mơ hình BERT, thay
thế từ “giải pháp” thành “cải tiến kỹ
thuật”


Đã thay thế từ và bổ sung chi
tiết về mơ hình mạng BERT

21-26

3

Chỉ rõ mục tiêu, chất lượng và quy
mô của bộ dữ liệu ViQuAD-Open
được xây dựng

Đã bổ sung thông tin đánh
giá bộ dữ liệu được xây dựng

49-50

4

Chỉnh sửa tài liệu và đường dẫn tham
khảo đúng định dạng

Đã chỉnh sửa đường dẫn và
tài liệu tham khảo

1-65

Ngày tháng 11 năm 2022
Giáo viên hướng dẫn

Tác giả luận văn


CHỦ TỊCH HỘI ĐỒNG

i


LỜI CAM ĐOAN
Tôi xin cam đoan các nội dung trong luận văn với đề tài “Nghiên cứu và phát
triển hệ thống hỏi đáp tiếng Việt” là cơng trình nghiên cứu độc lập của bản thân
dưới sự hướng dẫn của TS. Nguyễn Thị Thu Trang. Các số liệu, hình ảnh, trích dẫn
có nguồn gốc rõ ràng và tuân thủ nguyên tắc. Luận văn khơng có sự sao chép từ
các cơng trình, nghiên cứu của người khác mà không ghi rõ trong mục tài liệu tham
khảo. Mọi sao chép không hợp lệ, vi phạm quy chế hay gian trá tơi xin hồn toàn
chịu trách nhiệm.

Hà Nội, ngày 29 tháng 10 năm 2022
Học Viên

Nguyễn Hoàng Tiến Bách

ii


LỜI CẢM ƠN
Lời đầu tiên em xin chân thành được gửi lời cảm ơn sâu sắc nhất tới cô TS. Nguyễn
Thị Thu Trang, cô giáo đã hướng dẫn em trong tồn bộ q trình hồn thành luận văn
thạc sĩ. Trong quá trình nghiên cứu, đã rất nhiều lần em cảm thấy bế tắc khi kết quả
không như mong đợi, cảm ơn cơ đã giúp em nhìn rộng vấn đề hơn từ đó tìm ra hướng
giải quyết. Cảm ơn cơ đã giúp em tiếp cận được với những kiến thức giúp ích rất nhiều
vào định hướng của em trong tương lai. Với em, cơ ln là một hình mẫu để em học

tập trong cả sự nghiệp lẫn cuộc sống. Em xin cảm ơn cơ đã tin tưởng để em có thể
hồn thiện được hướng nghiên cứu trong luận văn này.

Em xin cảm ơn các thầy cô của Trường Công nghệ thông tin và Truyền thông, đại
học Bách khoa Hà Nội. Cảm ơn các thầy cô đã dạy em các kiến thức bổ ích và chia
sẻ kinh nghiệm từ đó giúp em nắm vững hơn về mặt chun mơn và có các kiến
thức để phát triển bản thân trong tương lai.
Tiếp theo, xin cảm ơn đến em Nguyễn Mạnh Dũng và em Nguyễn Thị Mừng, đã
đồng hành cùng nghiên cứu với anh trong suốt gần 2 năm qua. Các em như là
những người bạn đáng tin cậy và rất tài giỏi đã giúp đỡ anh hoàn thành luận văn
thạc sĩ này. Chúc các em hoàn thành các mục tiêu sắp tới của bản thân và thành
công trong tương lai.
Và lời cảm ơn thân thiết nhất em xin dành đến bà ngoại, bố và mẹ em, con cảm ơn
cả nhà vẫn luôn khỏe mạnh và là chỗ dựa vững chắc để con có thể hoàn thành các
mục tiêu trong sự nghiệp. Cuối cùng, xin gửi lời cảm ơn nhiều cảm xúc nhất tới
người bạn suốt đời của anh, cảm ơn em đã luôn ở bên anh chia sẻ và cổ vũ để anh
có thêm động lực để vượt qua các thử thách trong cuộc sống.

iii


TÓM TẮT NỘI DUNG
Hệ thống hỏi đáp là một trong những ứng dụng quan trọng của Xử lý ngôn ngữ
tự nhiên, được sử dụng với mục đích đưa ra câu trả lời chính xác cho người dùng.
Những năm gần đây, việc sử dụng các phương pháp tiếp cận sử dụng học sâu bộ
dữ liệu lớn đã giúp hệ thống hỏi đáp trở nên linh hoạt và dễ dàng triển khai hơn.
Trong đó, một trong những hướng tiếp cận hiện đại là áp dụng các mơ hình đọc
hiểu đoạn văn bản (Machine Reading Comprehension – MRC), giúp hệ thống có
thể trả lời các câu hỏi đa dạng và phức tạp hơn. Việc áp dụng này đã đem lại những
kết quả tốt, tiệm cận hiệu năng của con người trên các bộ dữ liệu tiếng Anh. Tuy

nhiên, khi ứng dụng với những ngơn ngữ ít phổ biến như tiếng Việt, việc áp dụng
mơ hình đọc hiểu nhiều đoạn văn để xây dựng hệ thống hỏi đáp còn chưa phát triển
do sự thiếu hụt về mặt dữ liệu.
Để khắc phục các vấn đề trên, luận văn đề xuất phương pháp gồm ba phần: (i)
xây dựng mở rộng bộ dữ liệu cho bài toán đọc hiểu nhiều đoạn văn bản tiếng Việt,
(ii) đề xuất kỹ thuật cải tiến chuyển đổi dữ liệu và học tinh chỉnh để cải thiện độ
chính xác cho mơ hình đọc hiểu với tiếng Việt, (iii) cuối cùng là xây dựng hệ thống
hỏi đáp dựa trên đọc hiểu kết hợp hai đề xuất trên.
Bộ dữ liệu đọc hiểu nhiều đoạn văn bản được xây dựng nhằm mục đích huấn
luyện mơ hình tìm ra được đoạn văn chứa câu trả lời trong một cơ sở dữ liệu gồm
nhiều đoạn văn có sẵn. Việc xây dựng bộ dữ liệu bao gồm việc mở rộng số lượng
các đoạn văn ngữ cảnh cho một câu hỏi từ một đoạn văn lên thành 15 đoạn văn
ngữ cảnh trong q trình huấn luyện, và tách tồn bộ các đoạn văn trong tập đánh
giá và kiểm thử ra khỏi các câu hỏi và lưu vào một cơ sở dữ liệu chung. Kết quả
thu được số lượng đoạn văn khi huấn luyện của bộ dữ liệu mới là 4,957 đoạn văn
và số lượng đoạn văn bản được lưu trữ trong cơ sở dữ liệu khi kiểm thử đánh giá là
5,109 đoạn văn.
Với đề xuất thứ hai là một kỹ thuật cải tiến chuyển đổi dữ liệu sang tiếng Việt từ
các tập dữ liệu MRC tiếng Anh, sau đó huấn luyện tinh chỉnh để cải thiện độ chính
xác của mơ hình. Kỹ thuật đề xuất được gọi là UtlTran bao gồm ba bước: (i)
chuyển đổi các tập dữ liệu chất lượng cao của bài toán MRC tiếng Anh sang tiếng
Việt, (ii) tiền huấn luyện (pre-train) mơ hình MRC với các tập dữ liệu MRC đã
chuyển đổi, (iii) huấn luyện tinh chỉnh (finetune) mơ hình MRC với tập dữ liệu
MRC nhỏ của tiếng Việt. Kết quả thu được là bốn tập ngữ liệu khác nhau với kích
thước mỗi tập khoảng 40 nghìn cặp câu hỏi - câu trả lời dành cho tiếng Việt.
Kết quả thử nghiệm trên tập dữ liệu UIT-ViQuAD, việc sử dụng cải tiến UtlTran có
kỹ thuật giảm độ dài trung bình ngữ cảnh dựa trên vị trí câu trả lời khi thực hiện
chuyển đổi dữ liệu kết hợp cùng việc sử dụng mơ hình học sâu với kiến trúc dựa

iv



theo mơ hình đa ngơn ngữ XLM-R sẽ đem lại kết quả tốt nhất với F1=88.2% và
EM=71.8% trên tập dữ liệu UIT-ViQuAD, cao hơn 1% đến 3% khi so sánh với kết
quả của các mơ hình hiện đại khác. Kết quả này của luận văn đã được chấp nhận và
công bố tại hội nghị quốc tế IEA/AIE 2022 (International Conference on
Industrial, Engineering & Other Applications of Applied Intelligent Systems).
Đặc biệt khi xây dựng hệ thống hỏi đáp và đánh giá trên tập dữ liệu vừa được xây
dựng UIT-ViQuAD-Open, thì kỹ thuật UtlTran cũng đã cải thiện độ chính xác của
hệ thống hỏi đáp với kết quả F1 = 65.8% và EM = 50.4%, F1 cao hơn 9,04% so
với khi không sử dụng kỹ thuật UtlTran.

HỌC VIÊN
Ký và ghi rõ họ tên

Nguyễn Hoàng Tiến Bách

v


MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI..............................................................................1
1.1 Tổng quan về bài toán hỏi đáp..............................................................................1
1.2 Bài toán hỏi đáp dựa trên đọc hiểu văn bản......................................................2
1.3 Các nghiên cứu về đọc hiểu văn bản trên thế giới..........................................4
1.4 Các nghiên cứu về đọc hiểu văn bản cho tiếng Việt......................................7
1.5 Mục tiêu nghiên cứu của luận văn.......................................................................8
1.6 Bố cục luận văn.........................................................................................................8
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT.............................................................................10
2.1 Mạng nơ-ron nhân tạo...........................................................................................10

Tổng quan về mạng nơ-ron nhân tạo...................................................10
Mạng mạng nơ-ron hồi quy RNN.........................................................11
Kiến trúc bộ mã hóa – giải mã (Encoder-Decoder).........................12
2.2 Cơ chế chú ý.............................................................................................................13
Cơ chế chú ý cơ bản..................................................................................13
Cơ chế tự chú ý...........................................................................................14
Multi-Head Attention...............................................................................15
2.3 Biểu diễn của từ......................................................................................................16
Biểu diễn bằng tần suất từ TF-IDF.......................................................16
Biểu diễn từ bằng các mơ hình học máy.............................................17
2.4 Mơ hình mạng BERT [27]...................................................................................21
CHƯƠNG 3. ĐỀ XUẤT CẢI TIẾN KỸ THUẬT CHO BÀI TỐN ĐỌC
HIỂU TIẾNG VIỆT................................................................................................................23
3.1 Mơ hình cơ sở..........................................................................................................23
3.2 Đề xuất cải tiến kỹ thuật cho đọc hiểu tiếng Việt (UtlTran).....................25
Kỹ thuật chuyển đổi dữ liệu...................................................................26
Tiền xử lý dữ liệu.......................................................................................29
Huấn luyện tinh chỉnh mơ hình đọc hiểu............................................30
3.3 Thực nghiệm và đánh giá.....................................................................................32
Các tập dữ liệu sử dụng cho tiền huấn luyện.....................................32
Tập dữ liệu cho huấn luyện tinh chỉnh................................................34
Các mơ hình thực nghiệm.......................................................................34
vi


Các độ đo đánh giá....................................................................................35
Kết quả thử nghiệm và đánh giá............................................................36
CHƯƠNG 4. HỆ THỐNG HỎI ĐÁP DỰA TRÊN ĐỌC HIỂU TIẾNG
VIỆT...............................................................................................................................................40
4.1 Kiến trúc tổng quan của hệ thống hỏi đáp dựa trên đọc hiểu....................40

Mơ hình hỏi đáp dựa trên đọc hiểu nhiều văn bản...........................40
Kiến trúc hệ thống hỏi đáp đề xuất

41

4.2 Mô-đun xếp hạng đoạn văn bản.........................................................................41
4.3 Mô-đun chọn lựa văn bản....................................................................................43
Xây dựng bộ dữ liệu Tiếng Việt cho đọc hiểu nhiều văn bản .. 43
Mơ hình chọn lựa đoạn văn bản............................................................46
4.4 Mô-đun đọc hiểu văn bản.....................................................................................49
4.5 Thử nghiệm và đánh giá.......................................................................................49
Đánh giá bộ dữ liệu UIT-ViQuAD-Open...........................................50
Thử nghiệm mơ hình với bộ dữ liệu UIT-ViQuAD-Open............50
4.6 Minh họa hệ thống hỏi đáp tiếng Việt đề xuất...............................................51
CHƯƠNG 5. KẾT LUẬN................................................................................................56
5.1 Đóng góp của luận văn.........................................................................................56
Kỹ thuật cải tiến tăng cường dữ liệu cho đọc hiểu tiếng Việt .. 56
Bộ dữ liệu mở rộng UIT-ViQuAD-Open...........................................57
Hệ thống hỏi đáp dựa trên đọc hiểu tiếng Việt.................................59
5.2 Hướng phát triển tương lai...................................................................................59
TÀI LIỆU THAM KHẢO...............................................................................................61

vii


DANH MỤC HÌNH VẼ
Hình 1.1 Thống kê số lượng các bài báo về hỏi đáp tại ACL....................................2
Hình 1.2 Ví dụ về bài tốn hỏi đáp dựa trên đọc hiểu..................................................3
Hình 1.3 Một số ứng dụng của bài toán hỏi đáp dựa trên đọc hiểu [12].................4
Hình 2.1 Mơ tả nơ-ron của con người.............................................................................10

Hình 2.2 Ví dụ về mạng nơ-ron........................................................................................10
Hình 2.3 Mơ tả mạng nơ-ron hồi quy RNN..................................................................12
Hình 2.4 Kiến trúc của bộ mã hóa - giải mã.................................................................13
Hình 2.5 Mơ tả cơ chế chú ý cơ bản................................................................................13
Hình 2.6 Mơ tả khối tự chú ý (Self-attention)..............................................................14
Hình 2.7 Mơ tả lớp Multi-head attention.......................................................................16
Hình 2.8 Kiến trúc của mơ hình CBOW và Skip-gram.............................................18
Hình 2.9 Cấu trúc mơ hình ELMo...................................................................................20
Hình 2.10 Mơ hình Transformer.......................................................................................21
Hình 2.11 Mơ hình mạng BERT-base............................................................................22
Hình 3.1 Mơ tả đầu vào cho mơ hình XLM-R.............................................................24
Hình 3.2 Các bước xây dựng mơ hình cơ sở cho bài tốn MRC............................24
Hình 3.3 Kỹ thuật cải tiến UtlTran đề xuất...................................................................25
Hình 3.4 Các bước chuyển đổi dữ liệu...........................................................................26
Hình 3.5 Định dạng dữ liệu SQuAD 1.1........................................................................27
Hình 3.6 Giải pháp sử dụng hai token xác định vị trí câu trả lời sau dịch...........28
Hình 4.1 Mơ hình đề xuất cho bài tốn Hỏi đáp dựa trên MRC.............................40
Hình 4.2 Kiến trúc tổng quan của hệ thống hỏi đáp...................................................41
Hình 4.3 Ma trận TF-IDF của tập dữ liệu chung.........................................................42
Hình 4.4 Quá trình xử lý câu hỏi để xếp hạng đoạn văn bản...................................42
Hình 4.5 Cấu trúc dữ liệu cho thành phần chọn lựa đoạn văn bản.........................44
Hình 4.6 Trực quan hóa các câu được mã hóa bởi SimCSE-BERT......................45
Hình 4.7 Quá trình xây dựng dữ liệu nhiều văn bản...................................................46
Hình 4.8 Dạng bài tốn gốc đọc hiểu nhiều văn bản trong bài báo BERT-RNN
47
viii


Hình 4.9 Kiến trúc mạng BERT-RNN............................................................................47
Hình 4.10 Mơ phỏng thuật tốn BeamSearch...............................................................49

Hình 4.11 Giao diện máy tính của hệ thống thử nghiệm...........................................51
Hình 4.12 Giao diện điện thoại của hệ thống................................................................52
Hình 4.13 Giao diện hỏi đáp ngắn gọn...........................................................................53
Hình 4.14 Chức năng hiện thị tồn bộ thơng tin..........................................................54
Hình 4.15 Một vài ví dụ hỏi đáp trên hệ thống............................................................55

ix


DANH MỤC BẢNG BIỂU
Bảng 3.1 Thống kê số lượng cặp câu hỏi-đáp trong các tập dữ liệu dùng để tiền
huấn luyện MRC tiếng Việt.....................................................................................................33
Bảng 3.2 Thông số chi tiết của các bộ dữ liệu tiền huấn luyện MRC...................33
Bảng 3.3 Thống kê chi tiết tập dữ liệu UIT-ViQuAD...............................................34
Bảng 3.4 Kết quả thử nghiệm các mơ hình cơ sở khác nhau cùng với phương
pháp UtlTran.................................................................................................................................37
Bảng 3.5 Kết quả thử nghiệm các chiến lược dịch UtlTran sử dụng XLM-R trên
tập dev UIT-ViQuAD................................................................................................................38
Bảng 3.6 So sánh kỹ thuật UtlTran với các mơ hình SOTA trên tập test UITViQuAD.........................................................................................................................................39
Bảng 4.1 Thông số chi tiết của bộ dữ liệu UIT-ViQuAD Open.............................50
Bảng 4.2 So sánh bộ dữ liệu xây dựng với bộ dữ liệu HotpotQA..........................50
Bảng 4.3 Kết quả thử nghiệm trên tập test-open UIT-ViQuAD của giải pháp
UtlTran...........................................................................................................................................51

x


DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Từ viết tắt


Tiếng Anh

Ý nghĩa

BERT

Bidirectional Encoder
Representations from
Transformer

Mơ hình biểu diễn từ theo hai
chiều ứng dụng kỹ thuật
Transformer.

BiLSTM

Bidirectional Long-Short
Term Memory

Mạng nhớ dài ngắn hai chiều

BoW

Bag-of-words

Mơ hình túi từ

CNN

Convolutional Neural

Network

Mạng nơron tích chập

ELMo

Embedding from language
Models

Mơ hình ngơn ngữ nhúng

EM

Exact Match

Tham số để đo độ chính xác
tuyệt đối

LSTM

Long Short Term Memory

Mạng nhớ dài ngắn

MLM

Masked language modeling

Mô hình ngơn ngữ sử dụng từ
bị ẩn


MRC

Machine Reading
Comprehension

Bài tốn đọc hiểu văn bản

NER

Named Entity Recognition

Bài toán nhận diện thực thể

NLP

Natural Language
Processing

Xử lý ngơn ngữ tự nhiên

NSP

Next sentence prediction

Dự đốn câu tiếp theo

QA

Question Answering


Trả lời câu hỏi

RNN

Recurrent Neural Network

Mạng nơron hồi quy

SOTA

State of the art

Điểm số cao nhất hiện tại của
một bộ dữ liệu

xi


CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI
1.1 Tổng quan về bài toán hỏi đáp
Ngày nay, với sự phát triển của xã hội, khối lượng thông tin trên không gian
mạng ngày càng tăng lên một cách mạnh mẽ. Điều này dẫn đến nhu cầu lớn về các
hệ thống hỏi đáp - những hệ thống trả lời tự động câu hỏi bằng cách chọn lọc thông
tin từ các nguồn tri thức. Tuy nhiên, việc phát triển các hệ thống này gặp khơng ít
thách thức về cú pháp, ngữ nghĩa hay các vấn đề biểu diễn thơng tin cho bài tốn
hỏi đáp. Điều này đã tạo động lực cho rất nhiều các nghiên cứu nổi bật trong
những thập kỷ gần đây. Một nghiên cứu được coi là nền tảng xuất hiện sớm nhất
trong giải quyết bài tốn hỏi đáp có thể kể đến như hệ thống BASEBALL [1].
BASEBALL là một chương trình được phát triển bởi Green và cộng sự nhằm mục

đích trả lời các câu hỏi về trị chơi bóng chày được chơi ở Mỹ. Ý tưởng của
chương trình là tìm câu trả lời được lưu trữ trong thẻ với sự trợ giúp của từ điển.
Với sự tăng lên nhanh chóng về số lượng thơng tin trên khơng gian mạng, người
dùng có nhu cầu đặt các câu hỏi rất cụ thể, và muốn nhận được các câu trả lời ngắn
và chính xác. Vì vậy, đã có rất nhiều các nghiên cứu trên thế giới đã được phát
triển để đưa ra câu trả lời ngắn gọn và chính xác trong hệ thống hỏi đáp. Tùy vào
dạng dữ liệu dùng để cung cấp câu trả lời thì các hệ thống hỏi đáp cũng có các
hướng tiếp cận khác nhau. Với dữ liệu có cấu trúc như dữ liệu dạng bảng, dữ liệu
dạng RDF, các nghiên cứu phát triển hệ thống hỏi đáp dựa trên các Ontology có độ
chính xác cao [2], và dễ dàng triển khai trên một tập dữ liệu được xây dựng sẵn.
Ngược lại, với dạng dữ liệu văn bản tự do, không có cấu trúc thì vẫn là thách
thức lớn đối với các nghiên cứu hiện nay. Với sự cải thiện rõ rệt ở khả năng tính
tốn của máy tính, các hướng giải quyết bài toán hỏi đáp dựa trên bộ mã hóa-giải
mã đã được nghiên cứu sâu và chứng kiến sự tiến bộ vượt bậc, đặc biệt là sau khi
có sự tham gia của máy học và các kỹ thuật học sâu [3] [4] [5] [6] [7] [8]. Hình 1.1
cho thấy thống kê tổng số bài báo về lĩnh vực Hỏi đáp đã được đóng góp và chấp
nhận trong Hiệp hội Ngơn ngữ học tính tốn (Association for Computational
Linguistics - ACL) [9] chỉ ra sự chú trọng phát triển cho lĩnh vực hỏi đáp ngày
càng tăng lên rõ rệt.
Việc đưa ra câu trả lời ngắn gọn và chính xác dựa trên một đoạn văn bản tự do
là một thách thức đòi hỏi hệ thống phải nắm bắt được các đặc trưng cần thiết của
cả câu hỏi lẫn đặc trưng của phần văn bản tự do tương ứng với câu hỏi đó. Nhiệm
vụ này vừa chính xác là mục tiêu của bài tốn “Đọc hiểu văn bản” trong Xử lý
ngơn ngữ tự nhiên. Các nghiên cứu hiện đại đã chú trọng áp dụng thêm nhiệm vụ
máy đọc hiểu (Machine Reading Comprehension MRC) cho hệ thống hỏi đáp [10]
[11] [12]. Đây cũng là hướng tiếp cận của luận văn để xây dựng một hệ thống hỏi
1


đáp dựa trên đọc hiểu văn bản. Về mặt dữ liệu, để phục vụ cho việc giải quyết hệ

thống hỏi đáp theo hướng dựa trên đọc hiểu văn bản, rất nhiều bộ dữ liệu tiếng
Anh cũng đã được xây dựng từ các tài nguyên hữu ích thực tế để trả lời câu hỏi bao
gồm Wikipedia, Quora, Reddit, Tweeter, Stackoverflow, … [11] [13] [14] [15]
[16] [17].

Hình 1.1 Thống kê số lượng các bài báo về hỏi đáp tại ACL

1.2 Bài toán hỏi đáp dựa trên đọc hiểu văn bản
Một trong những nhiệm vụ chính trong Xử lý ngơn ngữ tự nhiên là giúp máy
tính có thể “đọc và hiểu” được ngơn ngữ. Để hoàn thành nhiệm vụ này, dựa trên ý
tưởng kiểm tra xem một người có thể hiểu đầy đủ một đoạn văn bản hay không
bằng cách yêu cầu họ trả lời các câu hỏi về đoạn văn bản đó, các nhà nghiên cứu
đã tiến hành mô phỏng lại quá trình này để xác định khả năng đọc hiểu của máy
trên nhiều khía cạnh khác nhau. Cũng tương tự như bài kiểm tra ngôn ngữ của con
người, đọc hiểu là một cách tự nhiên để đánh giá khả năng hiểu ngơn ngữ của máy
tính.
Đọc hiểu văn bản là một bài toán với đặc điểm đa dạng của đầu vào (một đoạn
văn, nhiều đoạn văn, văn bản dạng bảng, …) [12]. Với bài toán gốc, đầu vào ban
đầu sẽ gồm một đoạn văn bản và một câu hỏi liên quan tới đoạn văn đó. Tuy nhiên,
bài tốn này khó áp dụng vào thực tế, khi rất nhiều đoạn văn bản được cung cấp để
tìm ra câu trả lời cho câu hỏi. Vì vậy, trong các nghiên cứu gần đây, để ứng dụng
dễ dàng hơn vào thực tiễn, các giải pháp đã được mở rộng nghiên cứu cho bài toán
đọc hiểu cho nhiều đoạn văn (Multi-passage MRC). Để giải quyết tốt cả hai bài
toán này, các nghiên cứu thường đi theo hướng tiếp cận xây dựng mơ hình có kết
quả tốt khi đọc hiểu với một đoạn văn bản và sau đó sử dụng lại mơ hình đó kèm
thêm bước chọn lựa văn bản ở phía trước để giải quyết bài tốn với nhiều đoạn
văn. Vì vậy, luận văn sẽ đề xuất hệ thống hỏi đáp đi theo hướng giải quyết

2



bài tốn đọc hiểu với một đoạn văn, sau đó sẽ áp dụng chính kết quả đó vào trong
bài tốn đọc hiểu nhiều đoạn văn bản.
Bài toán đọc hiểu văn bản cổ điểncó đầu vào gồm câu hỏi và một đoạn văn bản
dẫn chứng, đầu ra là câu trả lời có thể có trong đoạn văn đó. Ví dụ như ở hình 1.3,
có các câu hỏi về một văn bản chủ đề là “Đại học Notre Dame” được dùng để làm
đầu vào, nhiệm vụ của máy sẽ tìm ra câu trả lời chứa trong đoạn văn bản được
cung cấp, ở trường hợp này các câu hỏi là về kiến trúc và lịch sử của ngôi trường
đại học, máy sẽ dựa trên đoạn văn bản dẫn chứng để đưa ra câu trả lời tương ứng.
Để làm được điều này, máy sẽ phải đọc hiểu hoàn toàn được nội dung của câu hỏi
cũng như đoạn văn, từ đó đưa ra câu trả lời chính xác.

Hình 1.2 Ví dụ về bài tốn hỏi đáp dựa trên đọc hiểu

Hiện này, bài tốn này có thể được áp dụng rộng rãi trong nhiều hệ thống xử lý
ngơn ngữ khác nhau như cơng cụ tìm kiếm, hệ thống đối thoại hay trợ lý ảo cá
nhân. Hình 1.3 cho ta thấy một vài ứng dụng nổi bật hiện nay được áp dụng hỏi
đáp dựa trên đọc hiểu. Khi chúng ta nhập một câu hỏi vào công cụ tìm kiếm
Google, đơi khi Google có thể trả lại trực tiếp câu trả lời đúng bằng cách đánh dấu
nó trong ngữ cảnh (nếu câu hỏi đủ đơn giản), ví dụ như “Trường đại học Bách
khoa có bao nhiêu trường?”, kết quả trả về sẽ khơng chỉ cịn là các trang được tìm
kiếm ra nữa mà cịn trực tiếp là câu trả lời chính xác kèm theo dẫn chứng. Một ví
dụ khác về hệ hỏi đáp dựa trên đọc hiểu, nếu ta mở "Trợ lý ảo Cortana" trên chính
máy tính có cài đặt Window OS, như được hiển thị ở phần góc dưới bên trái của
máy tính, chúng ta cũng có thể hỏi nó những câu hỏi như "Thái Bình Dương rộng
bao nhiêu?", Cortana sẽ trực tiếp đưa ra câu trả lời là "63,78 triệu dặm vng". Rõ
ràng là MRC có thể giúp cải thiện hiệu suất của các công cụ tìm kiếm và hệ thống
đối thoại, có thể cho phép người dùng nhanh chóng nhận được câu trả lời đúng cho
câu hỏi của họ.


3


Hình 1.3 Một số ứng dụng của bài tốn hỏi đáp dựa trên đọc hiểu [12]

1.3 Các nghiên cứu về đọc hiểu văn bản trên thế giới
Việc nghiên cứu các giải pháp giải quyết bài toán hỏi đáp dựa trên đọc hiểu đã
được bắt đầu khá sớm. Ngay từ năm 1977, Lehnert và cộng sự [8] đã xây dựng một
chương trình trả lời câu hỏi được gọi là QUALM được sử dụng bởi hai hệ thống
hiểu câu chuyện. Độ chính xác của hệ thống nằm trong khoảng từ 30% đến 40%
trên 11 tác vụ phụ khác nhau. Hầu hết các hệ thống MRC trong cùng thời kỳ là các
mơ hình thống kê hoặc dựa trên các luật.
Các nghiên cứu tiếp sau đó thiếu bộ dữ liệu MRC chất lượng cao nên đều không
thể phát triển thêm, lĩnh vực nghiên cứu này đã bị bỏ quên trong một thời gian dài.
Gần đây với sự xuất hiện của bộ dữ liệu quy mơ lớn cùng với khả năng tính tốn
cao hơn và các kỹ thuật học sâu, đã thúc đẩy toàn bộ các nghiên cứu trong Xử lý
ngơn ngữ tự nhiên nói chung cũng như các nghiên cứu về bài toán Hỏi đáp dựa
trên đọc hiểu nói riêng. Một bước ngoặt cho lĩnh vực này đến vào năm 2015 [10].
Để giải quyết những nút thắt này, Hermann và cộng sự [10] đã xác định một
phương pháp tạo tập dữ liệu mới cung cấp tập dữ liệu đọc hiểu được giám sát quy
mô lớn vào năm 2015. Họ cũng đã phát triển một lớp mạng học sâu để học cách
đọc tài liệu và trả lời các câu hỏi phức tạp với kiến thức tối thiểu. Kể từ năm 2015,
với sự xuất hiện của nhiều bộ dữ liệu được giám sát quy mô lớn và các mơ hình
mạng nơ-ron, lĩnh vực đọc hiểu của máy đã bước vào giai đoạn phát triển nhanh
chóng. Số lượng bài báo về MRC đã tăng lên với tốc độ ấn tượng.
Hiện nay, dựa trên các cách đưa ra câu trả lời cho bài tốn đọc hiểu, có hai cách
tổng quát để giải quyết bài toán: (i) Sử dụng phương pháp tổng hợp (Generative
4



MRC) và (ii) Sử dụng phương pháp trích xuất (Extractive MRC). Ở cách tiếp cận
thứ nhất, có thể xem đây là cách tiếp cận khó hơn khi đưa ra câu trả lời không cần
thiết bắt buộc phải nằm trong đoạn văn bản được cung cấp, mà được máy tự sinh ra
dựa trên các thông tin biểu diễn của chuỗi đầu vào. Điều đó giúp câu trả lời được
linh hoạt hơn và phù hợp với thực tế. Tuy nhiên do việc câu trả lời tự sinh, có tính
linh hoạt cao nên việc đánh giá độ hiệu quả của mơ hình trở nên khó khăn hơn.
Ngồi ra chi phí xây dựng bộ dữ liệu của giải pháp này cũng rất tốn kém. Gần đây,
nhờ sự phát triển dữ liệu của các công ty phần mềm lớn, các tập dữ liệu lớn phổ
biến dành cho dạng tiếp cận này có thể kể đến như NarrativeQA [18], Natural
Questions Dataset [19] dành cho Tiếng Anh hay DuReader [20] dành cho Tiếng
Trung. Các mơ hình phổ biến được sử dụng để giải quyết bài toán này là LSTM
[21], ELMo [22] và GPT-2 [23].
Với cách tiếp cận thứ hai, sử dụng phương pháp trích xuất, câu trả lời được xác
định sẽ nằm trong đoạn văn bản dẫn chứng, việc này sẽ giúp cho việc đánh giá độ
hiệu quả của mơ hình được chính xác hơn. Việc xây dựng dữ liệu cho cách tiếp cận
này cũng bớt tốn kém và dễ dàng hơn cách thứ nhất. Khi trích xuất câu trả lời từ
chính văn bản dẫn chứng cũng đáp ứng được các hệ thống hỏi đáp trong thực tế
khơng u cầu tính phức tạp cao như suy diễn và lý giải, phục vụ được đa số các
nhiệm vụ trả lời tự động hiện nay. Đây cũng là phương pháp được luận văn sử
dụng để giải quyết bài toán đọc hiểu một văn bản.
Nhờ sự cải tiến từ kiến trúc mạng nơ-ron đặc biệt là Cơ chế chú ý (Attention
mechenism) trong kiến trúc Transformer [24] đã mang đến bước đột phá cho học
sâu trong giải quyết các vấn đề của Xử lý ngơn ngữ tự nhiên nói chung và bài tốn
hỏi đáp dựa trên đọc hiểu nói riêng. Các bộ dữ liệu cho bài toán hỏi đáp dựa trên
đọc hiểu cũng được xây dựng nhiều hơn, đặc biệt là ở tiếng Anh, có thể kể đến như
DuoRC [11], MCTest [25], SQuAD1.1 [26], NewsQA [14] hay TriviaQA [17]. Đi
cùng theo đó là sự ra đời của rất nhiều các mơ hình học sâu tận dụng cơ chế chú ý
đã đạt được hiệu quả cao trên các bộ dữ liệu kể trên như: BERT [27], XLM-R [28]
hay T5 [29]. Điểm chung của các mơ hình học sâu này đều sử dụng kiến trúc bộ
mã hóa (encoder) – bộ giải mã (decoder) để xây dựng lên, tùy vào từng yêu cầu bài

toán cụ thể ta có thể sử dụng cả hai bộ như các kiến trúc T5, BART [6] hoặc chỉ sử
dụng bộ mã hóa hoặc bộ giải mã để giải quyết bài tốn (BERT, GPT-2). Sự hiệu
quả của các mơ hình học sâu cho bài toán hỏi đáp dựa trên đọc hiểu với các ngơn
ngữ có đủ tài ngun ngữ liệu đã đạt đến kết quả tốt, gần như ngang bằng với kết
quả khi ta đem so sánh với con người (>95% với tùy tập dữ liệu).
Tuy nhiên, trong thực tế, hệ thống hỏi đáp sẽ chứa rất nhiều các đoạn văn bản để
làm dẫn chứng cho các câu hỏi, việc áp dụng ngay mơ hình đọc hiểu trên tất cả các
đoạn văn để đưa ra câu trả lời sẽ làm giảm độ chính xác của mơ hình. Vì vậy,
5


các nghiên cứu trên thế giới hiện nay đã mở rộng bài tốn đọc hiểu với trường hợp
có nhiều văn bản làm dẫn chứng hay còn được gọi là Nhiều văn bản (Multipassages MRC). Các tập dữ liệu trên tiếng Anh cho bài toán này được tận dụng lại
từ những tập dữ liệu của bài toán gốc và cũng được xây dựng thêm như MSMARCO [13], HotpotQA [16], SQuAD Open [30], Natural Question Answering
[19], các nghiên cứu cho bài toán hỏi đáp dựa trên đọc hiểu với nhiều văn bản cũng
bắt đầu phổ biến hơn tuy nhiên các mơ hình vẫn chưa đem lại kết quả cao, ví dụ
như DrQA [31], REALM [32], DPR [30] với tập dữ liệu SQuAD Open chỉ khoảng
(70-80%). Đây là một bài tốn khó hơn so với bài tốn gốc, do việc phải tìm ra
đoạn văn bản dẫn chứng cụ thể, tuy nhiên lại phù hợp và dễ áp dụng hơn vào thực
tế, vì vậy việc phát triển mơ hình theo hướng này là điều cần thiết. Các nghiên cứu
hiện nay để xử lý hỏi đáp dựa trên đọc hiểu nhiều đoạn văn bản thường theo hướng
cải tiến thêm một bước chọn các văn bản dẫn chứng liên quan đến câu hỏi
(Retrieval) sau đó đưa các văn bản vào mơ hình hỏi đáp dựa trên đọc hiểu
(Reading).
Việc tách làm hai thành phần để giải quyết sẽ tận dụng được các mơ hình đạt kết
quả tốt từ bài toán đọc hiểu với một văn bản, từ đó tiếp tục tối ưu các mơ hình của
từng thành phần cho bài toán đọc hiểu nhiều văn bản, mở ra nhiều hướng nghiên
cứu giải pháp cho bài toán hơn. Hiện tại, các nghiên cứu cho riêng bài đọc hiểu
nhiều đoạn văn bản phần lớn đều tập trung tối ưu cho thành phần chọn lựa ra các
văn bản dẫn chứng liên quan [33] [31] [32] [7] [5]. Thậm chí, với bài tốn đặc thù

khi mà kích thước của bộ dữ liệu văn bản dẫn chứng rất khổng lồ hàng trăm
Gigabyte đến Terabyte dữ liệu và trải rộng trên nhiều lĩnh vực khác nhau của xã
hội, bài toán hỏi đáp dựa trên nguồn dữ liệu này sẽ được phát triển theo hướng mở
(Open-domain QA), tăng cường độ chính xác ở thành phần trích xuất ra các đoạn
văn bản liên quan nhất từ tập dẫn chứng trộn chung với nhau khổng lồ, điều này
giúp bài tốn có tính ứng dụng vào thực tế cao hơn. Tuy nhiên điểm hạn chế của
hướng đi này cũng chính từ việc dữ liệu chung đó q lớn địi hỏi chi phí tính tốn
rất cao, và các nghiên cứu cho hướng này nổi bật như DPR [30], REALM [32]
cũng chưa đạt độ chính xác cao trên các tập dữ liệu đánh giá.
Một cách tiếp cận phổ biến hơn được áp dụng cho bài toán MRC với nhiều văn
bản đó là tiếp cận chia nhỏ thành các tập dữ liệu chung vừa đủ cho một lĩnh vực cụ
thể và áp dụng các thuật toán xếp hạng văn bản dựa trên TF-IDF hoặc các mơ hình
học máy [33] để trích xuất các đoạn văn bản liên quan nhất, đặc biệt có thể kết nối
các thơng tin giữa các phần văn bản với nhau dựa trên đồ thị tri thức (Knowledge
Graph), từ đó đưa ra các kết quả chính xác hơn. Các tập dữ liệu cho cách tiếp cận
này được xây dựng và phổ biến hiện nay như HotpotQA [16], MS MARCO [13],
DuReader [20], ComplexWebQuestions [34], HybridQA [35], R4C
6


[36], 2WikiMultiHopQA [37]. Với cách tiếp cận này, chi phí tính tốn, độ chính
xác cũng được cải thiện hơn đáng kể và phù hợp để áp dụng vào thực tế.
1.4 Các nghiên cứu về đọc hiểu văn bản cho tiếng Việt
Hiện nay, việc xây dựng và đánh giá độ hiệu quả các giải pháp cho bài toán hỏi
đáp dựa trên đọc hiểu nhiều văn bản mới chỉ được thực hiện hiệu quả trên các ngôn
ngữ giàu tài nguyên như tiếng Anh hay tiếng Trung. Ngược lại, với các ngôn ngữ
nghèo tài nguyên như tiếng Việt thì các nghiên cứu vẫn cịn rất ít. Ngun nhân
chủ yếu do để đạt được hiệu quả cao, ngoài việc cải tiến về mặt kiến trúc mơ hình,
thì dữ liệu cũng là một yếu tố quan trọng để tăng sự hiệu quả của mơ hình, đây là
một hạn chế lớn với những ngơn ngữ ít tài ngun. Bằng chứng là các mơ hình

hiện tại đạt độ chính xác cao đều được huấn luyện qua với một tập ngữ liệu rất lớn,
có thể kể đến như XLM-R Large cần đến 2.5TB dữ liệu để huấn luyện, sau đó tiếp
tục được huấn luyện và đánh giá trên một tập dữ liệu đọc hiểu chất lượng cao. Điều
này giúp cho mơ hình học dễ dàng các biểu diễn từ của ngơn ngữ và sau đó tối ưu
cho bài tốn đọc hiểu.
Với các ngơn ngữ ít tài ngun dữ liệu như tiếng Việt chỉ có hai tập dữ liệu mở
là UIT-ViQuAD [38] và UIT-ViNewsQA [39] dành cho bài toán đọc hiểu với
phương pháp trích xuất và tập dữ liệu mở ViMMRC [40] dành cho bài toán đọc
hiểu với loại câu hỏi có đáp án dạng lựa chọn đáp án có sẵn. Trong đó, UITViQuAD là tập dữ liệu phổ biến hay được sử dụng nhất trong các nghiên cứu về
bài toán hỏi đáp dựa trên đọc hiểu dành cho tiếng Việt. Tập dữ liệu này được tác
giả Kiet và cộng sự thu thập từ Wikipedia Việt Nam đa dạng các lĩnh vực trong
cuộc sống, từ văn hóa, chính trị cho đến thể thao, giải trí, sau đó sử dụng phương
pháp thủ công để tạo ra bộ dữ liệu Hỏi đáp dựa trên đọc hiểu với khoảng 23.000
cặp hỏi-đáp.
Tuy nhiên, khối lượng dữ liệu này hồn tồn khơng đủ để có thể huấn luyện các
mơ hình học sâu phức tạp đạt kết quả cao. Cùng với đó, thì đặc trưng của bộ dữ
liệu là đọc hiểu một đoạn văn bản, không thể sử dụng cho nhiệm vụ đọc hiểu với
nhiều văn bản. Các mơ hình ngơn ngữ cho đa tác vụ xử lý ngôn ngữ tự nhiên
thường được sử dụng, có thể kể đến như mBERT [41], XLM-R [16], PhoBERT
[42], QANet [43], DrQA [31], ViBERT [44], vELECTRA [44] hay BARTPho
[45]. Các mơ hình mới nhất này đã đạt kết quả chính xác đến 60- 80% khi đánh giá
trên các tập dữ liệu tiếng Việt, tuy nhiên vẫn còn khoảng cách nhất định khi so
sánh với kết quả của con người (95-98% phụ thuộc vào tập dữ liệu được xét đến).
Để giải quyết các vấn đề nêu trên, trong khuôn khổ luận văn em sẽ đưa ra một
phương pháp tăng cường dữ liệu và huấn luyện tinh chỉnh cải thiện độ chính xác
cho bài tốn đọc hiểu một văn bản. Bên cạnh đó em đề xuất xây dựng một bộ dữ
7


liệu mở rộng phục vụ cho bài toán đọc hiểu nhiều văn bản. Cuối cùng là đưa ra

một hệ thống hồn chỉnh ứng dụng mơ hình đọc hiểu vào hỏi đáp tiếng Việt trong
trường hợp nhiều văn bản để phù hợp hơn với các hệ thống hỏi đáp thực tế.
1.5 Mục tiêu nghiên cứu của luận văn
Trong phạm vi nghiên cứu giải pháp để cải thiện các vấn đề đã nêu ở mục 1.4,
luận văn của em gồm các đề xuất để cải thiện hệ thống hỏi đáp tiếng Việt như sau:
(i) Đề xuất giải pháp để khắc phục tình trạng thiếu dữ liệu đọc hiểu ở tiếng Việt,
(ii) Xây dựng bộ dữ liệu mở rộng cho đọc hiểu nhiều văn bản, (iii) Đề xuất kiến
trúc hệ thống hỏi đáp ứng dụng mơ hình đọc hiểu.
Đối với đề xuất thứ nhất, giải pháp đưa ra cần đảm bảo các tiêu chí sau. Đầu
tiên giải pháp phải mang tính tổng quan, có thể áp dụng trên nhiều ngơn ngữ nguồn
và đích khác nhau và không bị phụ thuộc vào bất kỳ ngơn ngữ nào, đồng thời có
thể áp dụng trên nhiều tập dữ liệu khác nhau với cùng mục đích, khơng bị phụ
thuộc vào cấu trúc của tập dữ liệu. Thứ hai, tập dữ liệu thu thập được sau quá trình
xử lý phải có cấu trúc, định dạng theo một chuẩn và phù hợp với bài toán đọc hiểu.
Thứ ba, tập dữ liệu được tạo ra vẫn phải bảo đảm về kích thước dữ liệu phù hợp để
sử dụng với mục đích huấn luyện mơ hình. Bên cạnh đó, hiệu năng của phương
pháp cũng phải được tăng lên khi so sánh với các mơ hình cơ sở khi cùng được
đánh giá trên một tập dữ liệu nhỏ của tiếng Việt.
Đề xuất thứ hai, tập dữ liệu được xây dựng cần phải đáp ứng được cho cả quá
trình huấn luyện và kiểm thử của bài toán đọc hiểu với nhiều đoạn văn bản. Ngoài
ra, phương pháp xây dựng dữ liệu cần linh hoạt, dễ dàng mở rộng cho các tập dữ
liệu đọc hiểu gốc. Đảm bảo bộ dữ liệu được đánh giá khoa học, có thang đo định
lượng trong q trình xây dựng. Định dạng cấu trúc của bộ dữ liệu cần phải có các
trường thơng tin bổ sung cần thiết, phục vụ cho việc giải quyết các vấn đề khác nảy
sinh cho trường hợp nhiều đoạn văn bản như việc các văn bản có thể liên kết lẫn
nhau.
Với đề xuất cuối cùng nhằm đưa bài toán hỏi đáp dựa trên đọc hiểu trở nên phù
hợp với thực tế hơn. Kiến trúc hệ thống đề xuất cần đảm bảo các cấu phần xử lý
bên trong của hệ thống được dễ dàng mở rộng hoặc tối ưu từng phần trong tương
lai. Hệ thống đáp ứng được nhiệm vụ đưa ra câu trả lời rõ ràng và ngắn gọn đáp

ứng thông tin cho người dùng. Các kết quả đánh giá hệ thống một cách khoa học
để làm cơ sở nhằm thúc đẩy các nghiên cứu cho bài toán hỏi đáp ứng dụng đọc
hiểu nhiều văn bản tiếng Việt.
1.6 Bố cục luận văn

8



×