Tải bản đầy đủ (.docx) (70 trang)

Xây dựng hệ thống hỏi đáp tự động hỗ trợ công tác tư vấn dịch vụ hành chính công tại sở thông tin và truyền thông tỉnh bình dương

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.09 MB, 70 trang )

UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

NGUYỄN TRUNG TÍN

XÂY DỰNG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG HỖ TRỢ
CƠNG TÁC TƯ VẤN DỊCH VỤ HÀNH CHÍNH CƠNG TẠI SỞ
THƠNG TIN VÀ TRUYỀN THƠNG TỈNH BÌNH DƯƠNG

LUẬN VĂN THẠC SĨ
CHUN NGÀNH: HỆ THỐNG THƠNG TIN
MÃ SỐ: 8480104

BÌNH DƯƠNG - 2019

123docz


UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

NGUYỄN TRUNG TÍN

XÂY DỰNG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG HỖ TRỢ
CƠNG TÁC TƯ VẤN DỊCH VỤ HÀNH CHÍNH CƠNG TẠI SỞ
THƠNG TIN VÀ TRUYỀN THƠNG TỈNH BÌNH DƯƠNG

LUẬN VĂN THẠC SĨ
CHUN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104


NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. BÙI THANH HÙNG

BÌNH DƯƠNG - 2019
ii

123docz


LỜI CAM ĐOAN
Tơi là Nguyễn Trung Tín, học viên lớp CH17HT01, ngành Hệ thống thông tin,
trường Đại học Thủ Dầu Một. Tôi xin cam đoan luận văn “Xây dựng hệ thống hỏi
đáp tự động hỗ trợ công tác tư vấn dịch vụ hành chính cơng tại Sở Thơng tin
và Truyền thơng tỉnh Bình Dương” là do tơi nghiên cứu, tìm hiểu và phát triển
dưới sự hướng dẫn của TS. Bùi Thanh Hùng, không phải sự sao chép từ các tài liệu,
cơng trình nghiên cứu của người khác mà khơng ghi rõ trong tài liệu tham khảo. Tôi
xin chịu trách nhiệm về lời cam đoan này.
Bình Dương, ngày 11 tháng 10 năm 2019
Tác giả

Nguyễn Trung Tín

iii

123docz


LỜI CẢM ƠN
Để hồn thành luận văn này, tơi xin gửi lời cảm ơn đến tất cả Quý thầy cô
trường Đại học Thủ Dầu Một đã tận tình giảng dạy và truyền đạt cho tơi những kiến

thức hữu ích trong suốt q trình học tập tại trường. Tơi cũng xin chân thành cảm
ơn Ban Giám đốc Sở Thông tin và Truyển thơng tỉnh Bình Dương cùng Ban Giám
đốc Trung tâm Công nghệ Thông tin và Truyền thông đã giúp đỡ, cung cấp nhiều
thông tin quý báu và tạo điều kiện cho tơi trong q trình thu thập dữ liệu, cảm ơn
các anh chị em đồng nghiệp đã hỗ trợ cho tơi để tơi có thể thực hiện tốt luận văn của
mình.
Hơn hết, tơi xin chân thành cảm ơn thầy hướng dẫn TS. Bùi Thanh Hùng,
người đã tận tình truyền đạt, chỉ dạy cho tơi những kiến thức bổ ích về máy học và
học tập sâu, cảm ơn thầy đã nhiệt tình hướng dẫn, chỉ bảo cho tơi trong suốt q
trình tơi nghiên cứu, xây dựng và hồn thiện luận văn này.
Xin gửi lời cảm ơn sâu sắc tới gia đình, các anh chị em học viên lớp
CH17HT đã luôn động viên, chia sẻ kinh nghiệm, cung cấp các tài liệu hữu ích cho
tơi để tơi thực hiện tốt luận văn của mình.

iv

123docz


MỤC LỤC
LỜI CAM ĐOAN.............................................................................................iii
LỜI CẢM ƠN................................................................................................... iv
MỤC LỤC......................................................................................................... v
DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT..................................vii
DANH MỤC CÁC BẢNG......................................................................... viiviii
DANH MỤC HÌNH VẼ, ĐỒ THỊ................................................................... iix
TĨM TẮT LUẬN VĂN................................................................................... xi
CHƯƠNG 1....................................................................................................... 1
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU............................................... 1
1.1. Lí do chọn đề tài..................................................................................... 1

1.2. Mục tiêu nghiên cứu............................................................................... 2
1.3. Đối tượng, phạm vi nghiên cứu.............................................................. 2
1.4. Phương pháp nghiên cứu........................................................................ 3
1.5. Ý nghĩa khoa học và thực tiễn................................................................ 3
1.6. Bố cục luận văn....................................................................................... 3
CHƯƠNG 2....................................................................................................... 5
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN........................5
2.1. Xử lý ngôn ngữ tự nhiên......................................................................... 5
2.1.1. Bài toán xác định ý định người dùng (intent detection)...............5
2.1.2. Bài tốn trích xuất thơng tin (IE - Information extraction)...........7
2.1.3. Quản lý hội thoại........................................................................... 9
2.2. Biểu diễn từ bằng Vector - Word2vector..............................................11
2.2.1. Biểu diễn One-hot-vector........................................................... 11
2.2.2. Túi từ liên tục - CBOW.............................................................. 12
2.2.3. Skip gram.................................................................................... 15
2.3. Học sâu - Deep Learning...................................................................... 17
2.3.1. Mạng nơ ron hồi quy RNN (Recurrent Neural Network)...........19
2.3.2. Bộ nhớ dài ngắn LSTM (Long-short term memory)..................21
2.3.3. Mạng nơ ron dài ngắn song song (BiLSTM)..............................25
2.3.3.1. Giới thiệu sơ về mạng nơ ron dài ngắn 2 chiều............25
2.3.3.2. Cách dự đoán kết quả của mạng BiLSTM...................26
2.4. Hệ thống trả lời tự động Chatbot.......................................................... 26
2.4.1. Tổng quan................................................................................... 26
2.4.2. Các hướng tiếp cận..................................................................... 27
2.4.3. Tình hình nghiên cứu.................................................................. 28
2.4.3.1. Các nghiên cứu ngồi nước.......................................... 28
2.4.3.2. Tình hình nghiên cứu trong nước................................. 29
2.4.3.3. Hướng đề xuất nghiên cứu............................................ 30
CHƯƠNG 3..................................................................................................... 32
MƠ HÌNH ĐỀ XUẤT..................................................................................... 32

3.1. Tổng quan mơ hình đề xuất.................................................................. 32
3.1.1. Mơ hình huấn luyện dữ liệu tổng qt........................................ 33
3.1.2. Mơ hình dự đốn kết quả............................................................ 34
3.1.3. Mơ hình huấn luyện dữ liệu - dự đốn kết quả...........................34
v

123docz


3.2. Các đặc trưng của mơ hình đề xuất....................................................... 35
3.2.1. Từ nhúng – Word embedding..................................................... 35
3.2.2. Mơ hình học sâu BiLSTM xây dựng hệ thống hỏi đáp tự động . 36
3.2.2.1. Mơ hình huấn luyện dữ liệu với BiLSTM
36
3.2.2.2. Mơ hình dự đốn kết quả 37
3.3. Đánh giá q trình huấn luyện và dự đoán kết quả..............................38
CHƯƠNG 4..................................................................................................... 40
THỰC NGHIỆM............................................................................................. 40
4.1. Dữ liệu.................................................................................................. 40
4.1.1. Quy trình thực hiện..................................................................... 40
4.1.2. Dữ liệu thực nghiệm................................................................... 40
4.2. Xử lý dữ liệu......................................................................................... 42
4.3. Huấn luyện............................................................................................ 43
4.4. Đánh giá................................................................................................ 44
4.5. Xây dựng ứng dụng Chatbot trên nền tảng web................................... 45
CHƯƠNG 5..................................................................................................... 50
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN....................................................... 50
5.1. Kết quả đạt được................................................................................... 50
5.2. Hướng phát triển................................................................................... 50
CƠNG TRÌNH CƠNG BỐ.............................................................................. 52

TÀI LIỆU THAM KHẢO............................................................................... 53

vi

123docz


DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT
Từ viết tắt

Từ tiếng Anh

Diễn giải

AI

Artificial Intelligence

Trí tuệ nhân tạo

Bidirectional Long Short

Bộ nhớ dài ngắn song

Term Memory

song

Chatbot


Chatbot

Hệ thống trả lời tự động

FSA

Finite State Automaton

LSTM

Long Sort-Term Memory

Bộ nhớ dài ngắn

ML

Machine Learning

Học máy

BiLSTM

NLP

NLU

Natural Languague
Processing
Natural language
understanding


Máy tự động trạng thái
hữu hạn

Xử lý ngôn ngữ tự nhiên

Hiểu ngôn ngữ tự nhiên

QA

Question answering system

Hệ thống hỏi đáp

RNN

Recurrent Neural Network

Mạng nơ ron tái phát


vii

123docz


DANH MỤC CÁC BẢNG
Bảng 4.1 Bộ dữ liệu thu thập về thông tin của Sở Thông tin và Truyền thông.........41
Bảng 4.2 Dữ liệu huấn luyện.................................................................................... 41
Bảng 4.3 Kết quả trong phân loại câu hỏi................................................................ 44

Bảng 4.4 Tổng hợp khảo sát ứng dụng ICTBot........................................................ 45
Bảng 4.5 Bảng Kết quả đánh giá ứng dụng ICTBot................................................. 45

viii

123docz


DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 2.1: Tổng quan các nghiên cứu về xử lý ngơn ngữ tự nhiên..............................5
Hình 2.2: Những thành phần trong hệ phân lớp intent.............................................. 6
Hình 2.3: Gán nhãn từ theo mơ hình B-I-O trong trích xuất thơng tin......................8
Hình 2.4: Minh hoạ quản lý hội thoại theo mơ hình máy trạng thái hữu hạn FSA....9
Hình 2.5: Frame đối thoại thơng tin khách hàng (tình huống mạng chậm).............10
Hình 2.6: Biểu diễn one-hot-vector.......................................................................... 11
Hình 2.7: Mơ hình Word2vector............................................................................... 12
Hình 2.8: Mơ hình Continuous Bag of Words.......................................................... 13
Hình 2.9: Mơ hình CBOW chi tiết............................................................................ 14
Hình 2.10: Mơ hình Skip gram trong Word2vec...................................................... 15
Hình 2.11: Mơ hình mạng nơ ron 1 lớp ẩn của Word2vec.......................................16
Hình 2.12: Ma trận trọng số của lớp ẩn của mơ hình Word2vec.............................16
Hình 2.13: Lớp ẩn của mơ hình hoạt động như một bảng tra cứu........................... 17
Hình 2.14: Mối tương quan giữa từ “ants” và từ “car”..........................................17
Hình 2.15: Mơ hình Deep Learning......................................................................... 18
Hình 2.16: Q trình xử lý thơng tin trong mạng RNN............................................ 19
Hình 2.17: RNN phụ thuộc short-term..................................................................... 20
Hình 2.18: RNN phụ thuộc long-term....................................................................... 20
Hình 2.19: Bidirectional RNN.................................................................................. 21
Hình 2.20: Deep (Bidirectional) RNN...................................................................... 21
Hình 2.21: Các module lặp của mạng RNN chứa một layer.................................... 22

Hình 2.22: Các module lặp của mạng LSTM chứa bốn layer.................................. 22
Hình 2.23: Các kí hiệu sử dụng trong mạng LSTM.................................................. 22
Hình 2.24: Tế bào trạng thái LSTM giống như một băng truyền............................. 23
Hình 2.25: Cổng trạng thái LSTM............................................................................ 24
Hình 2.26: LSTM focus f........................................................................................... 24
Hình 2.27: LSTM focus i........................................................................................... 24
Hình 2.28: LSTM focus c.......................................................................................... 25

ix

123docz


Hình 2.29: Mạng Bi-RNN (có thể thế bằng BiLSTM) sau khi được “bung ra”. Ta
thấy đơn vị mạng

chính là mạng đi xi, và đơn vị mạng

chính là mạng đi

ngược........................................................................................................................ 26
Hình 2.30: Tổng quan Chatbot................................................................................. 27
Hình 3.1: Đề xuất mơ hình xây dựng chatbot........................................................... 32
Hình 3.2: Quy trình huấn luyện dữ liệu - dự đốn kết quả...................................... 35
Hình 3.3: Q trình embedding của một câu........................................................... 36
Hình 3.4: Mơ hình học sâu BiLSTM xây dựng hệ thống hỏi đáp tự động................36
Hình 3.5: Mơ hình huấn luyện dữ liệu với BiLSTM................................................. 37
Hình 3.6: Mơ hình dự đốn kết quả.......................................................................... 38
Hình 3.7: Quy trình đánh giá q trình huấn luyện và dự đốn kết quả.................39
Hình 4.1: Mơ tả về bộ dữ liệu được lưu trữ trên Excel............................................ 41

Hình 4.2: Bộ câu hỏi – training................................................................................ 42
Hình 4.3: Bộ câu trả lời – training........................................................................... 43
Hình 4.4: Giao diện Web - Chọn lựa chức năng của chương trình.........................45
Hình 4.5: Giao diện Web - Chọn lựa mục để hỏi..................................................... 46
Hình 4.6: Giao diện Web - Hỏi và trả lời tự động.................................................... 46
Hình 4.7: Giao diện phân tích dữ liệu...................................................................... 47
Hình 4.8: Giao diện phân tích tỉ lệ huấn luyện dữ liệu............................................ 47
Hình 4.9: Giao diện kết quả đánh giá mơ hình........................................................ 48
Hình 4.10: Giao diện đánh giá ứng dụng................................................................. 48
Hình 4.11: Kết quả phản hồi của người dùng.......................................................... 49

x

123docz


TÓM TẮT LUẬN VĂN
Hiện tại việc tiếp nhận, giải quyết và trả lời câu hỏi thắc mắc hoặc yêu cầu
của người dùng như (Hệ thống hỏi đáp Q&A và giải quyết thắc mắc): của khách
hàng trong hoạt động thương mại, của người dân trong thủ tục hành chính, của học
sinh - sinh viên trong hoạt động đào tạo của các trường đại học - cao đẳng ... là rất
lớn. Các hoạt động tiếp nhận câu hỏi và trả lời câu hỏi hiện nay đều là hoạt động
mang tính thủ cơng mà chưa có cơng cụ nào trợ giúp. Việc tiếp nhận và xử lý cịn
chậm, thiếu chính xác và chưa công khai minh bạch. Các câu hỏi và yêu cầu của
người dùng thì đi vào nhiều lĩnh vực và thuộc nhiều đối tượng trả lời khác nhau,
việc lựa chọn đúng đối tượng trả lời gây khó khăn và hiểu nhầm cho người dùng
dẫn đến các câu hỏi và yêu cầu thường không được trả lời thỏa đáng. Trong đề tài
này, chúng tơi sẽ nghiên cứu, xây dựng một mơ hình trả lời tự động tiếng Việt, dựa
trên phương pháp phân loại câu hỏi bằng phương pháp học sâu từ đó sinh ra câu trả
lời từ một chuỗi đầu vào tương ứng. Lợi thế của phương pháp này là đơn giản,

nhanh và hiệu quả trong phạm vi dữ liệu thu thập ít. Chúng tôi áp dụng vào xây
dựng hệ thống trả lời tự động ở Sở Thông tin và Truyền thông tỉnh Bình Dương. Mơ
hình đề xuất đã cho kết quả rất tính cực, hỗ trợ giải quyết các vấn đề cần tư vấn một
cách nhanh chóng, hiệu quả.
Đề tài luận văn dựa trên những nghiên cứu trước đây để đề xuất nghiên cứu
và phát triển một hệ thống trả lời tự động dựa trên hướng tiếp cận phân loại câu hỏi
và trích xuất thơng tin sử dụng mạng học sâu LSTM để sinh ra câu trả lời tự động từ
một chuỗi đầu vào tương ứng. Mơ hình phân loại câu hỏi theo hướng mạng bộ nhớ
dài ngắn song song được áp dụng để huấn luyện trên bộ dữ liệu chuẩn và bộ dữ liệu
tiếng Việt được thu thập, sau đó so sánh kết quả thực nghiệm trên bộ dữ liệu này.
Bộ dữ liệu thu thập sẽ phân tách thành hai bộ câu hỏi và câu trả lời tương
ứng, sau đó tiến hành tách từ để tiến hành thiết lập biểu diễn các từ dưới dạng các
vector và các bộ từ vựng để tiến hành huấn luyện và kết hợp với các phương pháp
đánh giá để cho ra mơ hình dự đoán đưa ra các câu trả lời tối ưu. Với bài toán dữ
liệu nhỏ, tiếp cận xây dựng hệ thống trả lời tự động bằng phương pháp phân loại câu
hỏi sẽ cho kết quả khả quan. Đó chính là lý do chúng tôi áp dụng phương pháp
xi

123docz


này để xây dựng hệ thống trả lời tự động. Học máy là hướng tiếp cận chính áp dụng
trong giải quyết các bài tốn của xử lý ngơn ngữ tự nhiên trong đó có bài tốn xây
dựng hệ thống trả lời tự động. Chúng tôi áp dụng phương pháp học sâu BiLSTM vì
phương pháp này đạt kết quả tốt, và cũng đánh giá so sánh với phương pháp học sâu
LSTM từ đó tìm ra giải pháp tối ưu. Luận văn cũng đề xuất xây dựng một ứng dụng
web hỗ trợ tư vấn trả lời tự động các câu hỏi của người dùng liên quan đến các dịch
vụ hành chính cơng và các văn bản thường gặp của Sở Thông tin và Truyền thơng
tỉnh Bình Dương. Ứng dụng hỏi đáp tự động được triển khai thí điểm hỗ trợ cơng
tác tư vấn, giải đáp thắc mắc các thủ tục hành chính tại Sở Thơng tin và Truyền

thơng tỉnh Bình Dương.

xii

123docz


CHƯƠNG 1
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
1.1. Lí do chọn đề tài
Trí tuệ nhân tạo (AI) và học máy (machine learning - ML) là thành phần
chính trong Cuộc cách mạng công nghiệp 4.0 đang bùng nổ và phát triển mạnh mẽ.
Xử lí ngơn ngữ tự nhiên Natural Language Processing (NLP) là một trong số những
bài toán cơ bản của Trí tuệ nhân tạo với nhiều chủ đề như: Tìm kiếm, Trả lời tự
động, Tóm tắt văn bản, Phân loại văn bản, Truy xuất thông tin, ...Chatbot (hay là
một hệ thống trả lời tự động) được biết đến là một chương trình máy tính tương tác
với người dùng bằng ngơn ngữ tự nhiên dưới một giao diện đơn giản, âm thanh
hoặc dưới dạng tin nhắn. Chatbot được ứng dụng rất rộng rãi trong nhiều lĩnh vực
như Tài chính ngân hàng, Kinh doanh – Sản xuất, Y tế, Giáo dục,... với mục đích
làm trợ lý cá nhân, chăm sóc khách hàng, đặt chỗ, mua hàng, bán hàng tự động, hỗ
trợ dạy và học, tư vấn dịch vụ công…
Hệ thống trả lời tự động (Chatbot) là một chương trình mơ phỏng cuộc trị
chuyện của một con người thơng qua văn bản hoặc tương tác bằng giọng nói với
máy. Người dùng có thể yêu cầu chatbot một câu hỏi hoặc thực hiện một lệnh và
chatbot sẽ trả lời hoặc thực hiện các hành động được yêu cầu. Mức độ chuẩn xác và
tự nhiên của câu trả lời phụ thuộc vào khả năng xử lý dữ liệu đầu vào cũng như độ
phức tạp của thuật toán lựa chọn đầu ra của hệ thống.
Chatbot được sử dụng hỗ trợ việc trả lời các yêu cầu lặp đi lặp lại. Khi cuộc
trò chuyện trở nên quá phức tạp đối với một chatbot, nó sẽ được chuyển đến một
nhân viên dịch vụ. Các trợ lý ảo đang ngày càng được sử dụng rộng rãi để xử lý các

tác vụ đơn giản, giải phóng tác nhân của con người. Điều này giúp tiết kiệm chi phí
và cho phép các công ty cung cấp một dịch vụ tư vấn khách hàng liên tục ngay cả
khi khơng có nhân viên tư vấn trực tiếp.
Với bài toán dữ liệu nhỏ, tiếp cận xây dựng hệ thống trả lời tự động bằng
phương pháp phân loại câu hỏi sẽ cho kết quả khả quan. Đó chính là lý do chúng tơi
áp dụng phương pháp này để xây dựng hệ thống trả lời tự động. Học máy là hướng
tiếp cận chính áp dụng trong giải quyết các bài tốn của xử lý ngơn ngữ tự nhiên
trong đó có bài tốn xây dựng hệ thống trả lời tự động. Chúng tôi áp dụng phương
1

123docz


pháp học sâu BiLSTM vì phương pháp này đạt kết quả tốt, và cũng đánh giá so sánh
với phương pháp học sâu LSTM từ đó tìm ra giải pháp tối ưu. Ứng dụng hỏi đáp tự
động được triển khai thí điểm hỗ trợ công tác tư vấn, giải đáp thắc mắc các thủ tục
hành chính tại Sở Thơng tin và Truyền thơng tỉnh Bình Dương.
1.2. Mục tiêu nghiên cứu
Phân loại câu hỏi là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi
đáp, có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của
các pha sau (trích chọn tài liệu, trích xuất câu trả lời, …). Vì vậy phân loại câu hỏi
có vai trị hết sức quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ
thống. Nếu phân loại câu hỏi khơng tốt thì sẽ khơng thể tìm ra được câu trả lời.
Chính vì lý do này mà chúng tôi chọn và nghiên cứu đề tài “Xây dựng hệ thống
hỏi đáp tự động hỗ trợ công tác tư vấn dịch vụ hành chính cơng tại Sở Thơng
tin và Truyền thơng tỉnh Bình Dương”.
Luận văn đặt ra mục tiêu nghiên cứu các mơ hình có thể phát sinh văn bản,
sử dụng các mạng học sâu Long Short Term Memory (Mạng nơ ron bộ nhớ dài
ngắn (LSTM)) và mạng Bidirectional LSTM (mạng nơ ron bộ nhớ dài ngắn song
song (BiLSTM)) để xử lý các phần khác nhau của câu hỏi, huấn luyện trên tập dữ

liệu câu hỏi và trả lời về các thông tin liên quan đến các thủ tục hành chính tại Sở
Thơng tin và Truyền thơng tỉnh Bình Dương. Từ đó xây dựng, cài đặt và vận hành
một mơ hình trả lời tự động với mục tiêu của đề tài là tiết kiệm được nhân lực và
thời gian trong quá trình tiếp nhận, và giải quyết các yêu cầu của người dân, doanh
nghiệp trên địa bàn tỉnh.
1.3. Đối tượng, phạm vi nghiên cứu
Nghiên cứu các Mơ hình huấn luyện dựa trên nền tảng học sâu Long Short
Term Memory để xây dựng hệ thông trả lời tự động.
Lĩnh vực nghiên cứu: xây dựng mơ hình trả lời tự động các câu hỏi của
người dân liên quan đến những thủ tục hành chính do Sở Thơng tin và Truyền thơng
tỉnh Bình Dương phục trách thơng qua một hệ thống câu hỏi và trả lời được xây
dựng từ trước. Qua cơ chế huấn luyện từ các phương pháp của DeepLearning như:
RNN, CNN, LSTM, BiLSTM sau đó tiến hành dự đốn để trả lời các câu hỏi của
người dân.
2

123docz


1.4. Phương pháp nghiên cứu
Luận văn dựa trên phương pháp nghiên cứu lý thuyết và thực nghiệm, vận
dụng các lý thuyết về xử lý ngôn ngữ tự nhiên, các nghiên cứu mới trong học máy
và lĩnh vực xử lý ngôn ngữ tự nhiên để đề xuất mơ hình thích hợp. Luận văn cũng
sử dụng phương pháp so sánh, đánh giá để phân tích đánh giá mơ hình đề xuất với
các mơ hình trước.
1.5. Ý nghĩa khoa học và thực tiễn
Ý

nghĩa khoa học của luận văn: Luận văn tập trung phân tích dữ liệu thu thập
được gồm các thơng tin liên quan đến dịch vụ công như hỏi đáp về thủ tục hành

chính do Sở Thơng tin và Truyền thơng tỉnh Bình Dương phụ trách từ đó xây dựng
ứng dụng trực quan hóa. Phân tích các yếu tố ảnh hưởng, lựa chọn các phương pháp
học sâu phù hợp với bộ dữ liệu có được để hệ thống trả lời tự động đạt được độ
chính xác cao nhất cho các câu hỏi của người dùng.

Ý

nghĩa thực tiễn: Chúng tôi đã xây dựng được ứng dụng thử nghiệm trên

nền tảng Web để trực quan hóa kết quả, từ đó người dùng có thể đặt các câu hỏi liên quan
về dịch vụ công và đánh giá ứng dụng của chúng tôi.
1.6. Bố cục luận văn



Luận văn được chia thành 5 chương với các nội dung như sau:
Chương 1 – Tổng quan về lĩnh vực nghiên cứu
Sơ lược tổng quan về vấn đề nghiên cứu trên phương diện tổng quan



nhất, nêu ra mục tiêu, phương pháp nghiên cứu và bố cục luận văn.
Chương 2 – Cơ sở lý thuyết và các nghiên cứu liên quan
Giới thiệu tổng quan về xử lí ngơn ngữ tự nhiên, về Word2Vector; giới
thiệu về mạng nơ ron nhân tạo, các mơ hình mạng nơ ron cải tiến là cơ sở của
mạng học sâu. Nghiên cứu các mơ hình phát sinh văn bản trong hệ thống đối
thoại, giới thiệu về mô hình phân loại câu hỏi và các vấn đề chung có thể gặp
phải khi xây dựng mơ hình đối thoại; Trình bày cơ bản về hệ thống trả lời tự
động, cùng với tình hình nghiên cứu trong nước và ngồi nước.




Chương 3 – Mơ hình đề xuất:

Chương 3 trình bày tổng quan về mơ hình đề xuất và đi sâu phân tích các
đặc trưng của mơ hình đề xuất.
3

123docz





Chương 4 – Thực nghiệm trình bày chi tiết cụ thể các kết quả đạt được
và phân tích, đánh giá, so sánh kết quả đạt được với các mơ hình trước.
Chương 5 – Kết luận và hướng phát triển.

4

123docz


CHƯƠNG 2
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2.1. Xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (gọi tắt NLP - Natural Language Processing) là các
kĩ thuật, phương pháp nhằm hỗ trợ cho các hệ thống máy tính hiểu và xử lý, nhận
dạng ngơn ngữ tự nhiên như tiếng Việt, tiếng Anh. Dịch máy, rút trích thơng tin,
truy hồi thơng tin, hỏi đáp tự động,… là các hướng nghiên cứu chính của xử lý ngơn

ngữ tự nhiên. Tổng quan các nghiên cứu về xử lý ngơn ngữ tự nhiên được trình bày
trong hình 2.1.

Hình 2.1: Tổng quan các nghiên cứu về xử lý ngôn ngữ tự nhiên
2.1.1. Bài toán xác định ý định người dùng (intent detection)
Thông thường, người dùng thường truy cập hệ thống trả lời tự động (chatbot)
với mong muốn hệ thống sẽ đưa ra những hành động trợ giúp mình về một vấn đề
nào đó. Ví dụ, người dùng của hệ thống chatbot hỗ trợ đặt vé máy bay có thể đưa ra
yêu cầu đặt vé của mình khi bắt đầu cuộc hội thoại. Để đưa ra hỗ trợ được chính xác,
chatbot cần xác định được ý định (intent) đó của người dùng. Việc xác định ý định
của người dùng sẽ quyết định hội thoại tiếp theo giữa người và chatbot sẽ diễn ra
như thế nào. Vì thế, nếu xác định sai ý định người dùng, chatbot sẽ đưa ra những
phản hồi khơng đúng, khơng hợp ngữ cảnh. Khi đó, người dùng có thể thấy chán
ghét và khơng quay lại sử dụng hệ thống. Bài toán xác định ý định người dùng vì thế
đóng vai trị rất quan trọng trong hệ thống chatbot.
5

123docz


Đối với miền ứng dụng đóng, chúng ta có thể giới hạn rằng số lượng ý định
của người dùng nằm trong một tập hữu hạn những intent đã được định nghĩa sẵn, có
liên quan đến những nghiệp vụ doanh nghiệp mà chatbot có thể hỗ trợ. Với giới hạn
này, bài tốn xác định ý định người dùng có thể quy về bài toán phân lớp văn bản.
Với đầu vào là một câu giao tiếp của người dùng, hệ thống phân lớp sẽ xác định
intent tương ứng với câu đó trong tập các intent đã được định nghĩa.
Để xây dựng một mơ hình phân lớp intent, chúng ta cần một tập dữ liệu huấn
luyện bao gồm các cách diễn đạt khác nhau cho mỗi intent. Ví dụ, cùng một mục
đích hỏi về thời tiết ở Hà Nội trong ngày hôm nay, người dùng có thể dùng những
cách diễn đạt sau:



Thời tiết hơm nay ở Hà Nội thế nào ad?



Hà Nội hơm nay có mưa khơng vậy?



Hà Nội hơm nay bao nhiêu độ vậy?



Cho mình hỏi, ra ngồi đường hơm nay có phải mang áo mưa khơng?
Có thể nói, bước tạo dữ liệu huấn luyện cho bài toán phân lớp intent là một
trong những công việc quan trọng nhất khi phát triển hệ thống chatbot và ảnh hưởng
lớn tới chất lượng sản phẩm của hệ thống chatbot về sau. Công việc này cũng địi
hỏi thời gian, cơng sức khá lớn khi phát triển chatbot.
Khi đã có dữ liệu huấn luyện cho bài tốn phân lớp intent, chúng ta sẽ mơ
hình bài tốn thành bài toán phân lớp văn bản. Bài toán phân lớp văn bản (text
categorization) là một bài toán kinh điển trong ngành NLP và khai phá văn bản
(Text Mining). Kiến trúc của hệ thống phân lớp intent được minh hoạ trong Hình
2.2.

Hình 2.2: Những thành phần trong hệ phân lớp intent
Hệ thống phân lớp intent có một số thành phần cơ bản:
6

123docz





Tiền xử lý dữ liệu



Trích xuất đặc trưng



Huấn luyện mơ hình



Phân lớp
Trong bước tiền xử lý dữ liệu, chúng ta sẽ thực hiện các thao tác “làm sạch”
dữ liệu như: loại bỏ các thơng tin dư thừa, chuẩn hố dữ liệu như chuyển các từ viết
sai chính tả thành đúng chính tả, chuẩn hố các từ viết tắt,… Việc tiền xử lý dữ liệu
có vai trị quan trọng trong hệ thống chatbot do đặc thù của ngơn ngữ chat, nói: viết
tắt, sai chính tả, hay dùng “teencode”.
Sau khi tiền xử lý dữ liệu và thu được dữ liệu đã được làm sạch, chúng ta sẽ
trích xuất những đặc trưng từ dữ liệu này. Trong học máy, bước này được gọi là
trích xuất đặc trưng (feature extraction hay feature engineering). Trong mơ hình học
máy truyền thống (trước khi mơ hình học sâu được áp dụng rộng rãi), bước trích
xuất đặc trưng ảnh hưởng lớn đến độ chính xác của mơ hình phân lớp. Để trích xuất
được những đặc trưng tốt, chúng ta cần phân tích dữ liệu khá tỉ mỉ và cần cả những
tri thức chuyên gia trong từng miền ứng dụng cụ thể.
Bước huấn luyện mơ hình nhận đầu vào là các đặc trưng đã được trích xuất

và áp dụng các thuật tốn học máy để học ra một mơ hình phân lớp. Các mơ hình
phân lớp có thể là các luật phân lớp (nếu sử dụng decision tree) hoặc là các vector
trọng số tương ứng với các đặc trưng được trích xuất (như trong các mơ hình
logistic regression, SVM, hay mạng Neural).
Sau khi có một mơ hình phân lớp intent, chúng ta có thể sử dụng nó để phân
lớp một câu hội thoại mới. Câu hội thoại này cũng đi qua các bước tiền xử lý và
trích xuất đặc trưng, sau đó mơ hình phân lớp sẽ xác định “điểm số” cho từng intent
trong tập các intent và đưa ra intent có điểm cao nhất.
2.1.2. Bài tốn trích xuất thơng tin (IE - Information extraction)
Bài tốn trích xuất thơng tin là một trong những bài tốn chính của xử lý
ngơn ngữ tự nhiên. Với ví dụ là các câu hội thoại của người dùng, chúng ta cần trích
xuất các thơng tin cần thiết trong đó. Các thơng tin cần trích xuất trong một câu hội
thoại thường là các thực thể thuộc về một loại nào đó. Ví dụ, khi một khách hàng
muốn đặt vé máy bay, hệ thống cần biết địa điểm xuất phát và địa điểm khách muốn

7

123docz



×