Tải bản đầy đủ (.pdf) (7 trang)

Hệ thống hỗ trợ hỏi đáp thủ tục hành chính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (566.9 KB, 7 trang )

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020
DOI: 10.15625/vap.2020.00164

HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH
Nguyễn Thanh Điền1, Phạm Thế Phi2, Phạm Công Xuyên3, Đỗ Thanh Nghị2
1

Sở Khoa học và Công nghệ thành phố Cần Thơ
Số 02, Đường Lý Thường kiệt, Tân An, Ninh Kiều, TP. Cần Thơ
2
Khoa CNTT-TT, Trường Đại học Cần Thơ
Khu 2, Đường 3/2, Xuân Khánh, Ninh Kiều, TP. Cần Thơ
3
Trường Đại học Lạc Hồng
Số 10, Huỳnh Văn Nghệ, P. Bửu Long, Tp. Biên Hòa - Tỉnh Đồng Nai
, , {ptphi,dtnghi}@cit.ctu.edu.vn
TÓM TẮT: Trong bài viết này, chúng tôi đề xuất xây dựng hệ thống hỗ trợ hỏi đáp thủ tục hành chính cho người dùng là
các tổ chức, cá nhân và doanh nghiệp (gọi tắt là đối tượng người dùng). Hệ thống tự động trả lời các câu hỏi liên quan đến thủ tục
hành chính mà đối tượng người dùng thường đặt ra mỗi khi đến cơ quan cung cấp thủ tục hành chính. Người dùng đặt câu hỏi hay
yêu cầu trực tiếp cho hệ thống dưới dạng văn bản, hệ thống tiếp nhận và thực hiện phân lớp văn bản câu hỏi, để xác định được câu
trả lời thủ tục tương ứng với yêu cầu người dùng. Chúng tôi đã thu thập và biên soạn tập dữ liệu văn bản gồm 420 câu hỏi và câu
trả lời trả lời từ 36 thủ tục hành chính thuộc lĩnh vực Báo chí, Xuất bản - In - Phát hành của đơn vị cung cấp là Sở Thông tin và
Truyền thông thành phố Cần Thơ. Tập dữ liệu văn bản câu hỏi sau thu thập được tiền xử lý, tách từ và được biểu diễn về dạng mơ
hình túi từ. Chúng tôi huấn luyện các bộ phân lớp như máy học véctơ hỗ trợ, rừng ngẫu nhiên, mạng nơron cho độ chính xác lần
lượt là 89,768 %, 97,101 % và 99,526 %. Từ kết quả thực nghiệm, chúng tôi đề xuất sử dụng bộ phân lớp văn bản mạng nơron
trong hệ thống trả lời tự động thủ tục hành chính.
Từ khóa: Hệ thống hỏi đáp tự động thủ tục hành chính, phân lớp văn bản, máy học véctơ hỗ trợ SVM, rừng ngẫu nhiên,
mạng nơron.

I. GIỚI THIỆU
Ngày nay, hệ thống hỏi đáp tự động càng trở nên phổ biến và được sử dụng trong nhiều lĩnh vực của cuộc sống


như trợ lý sức khoẻ, trợ lý giáo dục, trợ lý bảo tàng, trợ lý cá nhân, trợ lý du lịch, hỏi đáp dịch vụ công cộng. Hệ thống hỏi
đáp tự động [D. Jurafsky and J-H. Martin, 2017] được nghiên cứu tập trung vào mơ hình tương tác giữa người và máy
tính, sử dụng ngơn ngữ tự nhiên với các đoạn văn bản, các đoạn hội thoại ngắn dưới giao diện tương tác đơn giản. Phần
lớn các mơ hình hệ thống hỏi đáp tự động được tạo ra dựa trên ba hướng tiếp cận chính.
Tiếp cận dựa trên tập câu hỏi, câu trả lời đã được tạo sẵn: Đây là phương pháp được sử dụng phổ biến hiện
nay, hệ thống hỏi đáp tự động có tập các câu hỏi đầu vào được xây dựng sẵn cùng với các câu trả lời tương ứng. Các câu
hỏi giao tiếp được đặt ra từ người dùng sẽ được so khớp với tập các câu hỏi để tìm ra câu trả lời phù hợp nhất. Tiếp cận
này dễ sử dụng, đơn giản, tuy nhiên cần rất nhiều thời gian trong việc xây dựng tập dữ liệu và việc phụ thuộc vào tập dữ
liệu tạo sẵn.
Tiếp cận dựa trên corpus: Nhiều nghiên cứu gần đây tiến hành thu thập các corpus dữ liệu để tìm kiếm câu trả lời
phù hợp nhất từ yêu cầu từ người dùng. Phương pháp truy hồi thông tin được sử dụng để tìm kiếm những câu trả lời từ
danh sách các tài liệu trong Google corpus. Đây là phương pháp có thể sử dụng kết hợp giữa corpus và các bộ trích lọc
ngữ nghĩa của dữ liệu FrameNet và Verbnet để tìm kiếm câu trả lời phù hợp nhất. Các phương pháp này có ưu điểm là cho
độ chính xác cao và nhược điểm là không thể xử lý được các trường hợp mẫu chưa được quan sát, không có trong bộ luật
và tốn nhiều thời gian xử lý.
Tiếp cận tự sinh câu trả lời: Phương pháp này huấn luyện mơ hình mạng nơron để sinh các câu trả lời một cách
tự động. Đây cũng là một trong những phương pháp đạt được nhiều thành công trong thời gian gần đây và được các nhà
nghiên cứu đề xuất mô hình mạng nơron hồi tiếp (Recurrent Neural Network) để tạo ra các câu trả lời từ Blogs. Phương
pháp này tạo cảm giác cho người dùng như đang trò chuyện với con người. Tuy nhiên, những mơ hình này thì rất phức tạp
trong việc huấn luyện, có thể dễ bị mắc lỗi về ngữ pháp và đồng thời mơ hình cần một lượng lớn dữ liệu huấn luyện.
Trong bài viết này, chúng tôi đề xuất xây dựng hệ thống hỏi đáp thủ tục hành chính có thể trả lời tự động cho
người dùng các câu hỏi liên quan đến thủ tục hành chính mà đối tượng người dùng thường đặt ra mỗi khi đến cơ quan
cung cấp thủ tục hành chính. Hệ thống tiếp nhận từ người dùng câu hỏi hay yêu cầu dạng văn bản, tiến hành tiền xử lý và
biểu diễn câu hỏi theo mơ hình túi từ, thực hiện phân lớp câu hỏi, xác định câu trả lời là thủ tục hành chính tương ứng với
câu hỏi. Để xây dựng hệ thống, chúng tôi đã thu thập và biên soạn tập dữ liệu văn bản gồm 420 câu hỏi và câu trả lời trả
lời từ 36 thủ tục hành chính thuộc lĩnh vực Báo chí, Xuất bản - In - Phát hành của đơn vị cung cấp là Sở Thông tin và
Truyền thông thành phố Cần Thơ. Tập dữ liệu văn bản câu hỏi sau thu thập được tiền xử lý, tách từ và được biểu diễn về
dạng mơ hình túi từ. Chúng tơi đã huấn luyện các bộ phân lớp như máy học véctơ hỗ trợ (support vector machines - SVM
[Vapnik, 1995]), rừng ngẫu nhiên (random forests - RF [Breiman, 2001]), mạng nơron (neural networks - NN [LeCun,
1985]) cho độ chính xác lần lượt là 89,768 %, 97,101 % và 99,526 %. Kết quả thực nghiệm cho phép chúng tôi chọn bộ

phân lớp văn bản mạng nơron cho hệ thống hỏi đáp thủ tục hành chính.


Nguyễn Thanh Điền, Phạm Thế Phi, Phạm Công Xuyên, Đỗ Thanh Nghị

159

Nội dung tiếp theo của bài viết được tổ chức như sau. Phần 2 trình bày hệ thống đề xuất để trả lời tự động thủ tục
hành chính. Kết quả thực nghiệm sẽ được trình bày trong Phần 3 trước kết luận và hướng phát triển được trình bày trong
Phần 4.
II. HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH
Hình 1 mơ tả hệ thống hỗ trợ hỏi đáp thủ tục hành chính. Người dùng có thể đặt câu hỏi (Q) liên quan đến thủ tục
hành chính, thành phần hồ sơ của một thủ tục, thời gian xử lý một thủ tục, biểu mẫu của thủ tục. Câu hỏi dạng văn bản Q
được tiền xử lý (tách từ, loại bỏ từ dừng) và viết lại thành Q‟ (biểu diễn theo mơ hình túi từ). Mơ hình máy học phân loại
tự động câu hỏi Q‟ về lớp C. Hệ thống liệt kê danh sách các câu hỏi trong lớp C và tính độ tương đồng giữa Q‟ đến tất cả
các câu hỏi trong lớp C, chọn câu hỏi có độ tương đồng cao nhất truy hồi câu trả lời câu hỏi cho người dùng.
Tách từ,
loại stopword

Viết lại
câu hỏi Q

SVM
RF/NN

Các lớp
SVM/RF/NN

Danh sách
câu hỏi


Q
Cosine
Ranking

Trả lời
câu hỏi Q

Truy hồi
câu trả lời

01 câu hỏi chính
k câu hỏi liên
quan

Danh sách câu
hỏi Ranking

Hình 1. Sơ đồ hệ thống hỗ trợ hỏi đáp thủ tục hành chính

A. Thu thập tập dữ liệu và biểu diễn dữ liệu

Hình 2. Dữ liệu mẫu trong corpus và được gán nhãn

Để xây dựng hệ thống, chúng tôi tiến hành thu thập dữ liệu dạng <câu hỏi, câu trả lời> liên quan đến một thủ tục
hành chính. Tại bộ phận một cửa, chúng tôi trực tiếp khảo sát và tham khảo ý kiến từ cán bộ phụ trách cung cấp, xử lý thủ
tục hành chính thì các u cầu về thủ tục hành chính từ người dùng cần phải làm rõ lĩnh vực ngành nghề mà người dùng
yêu cầu thủ tục hành chính. Nhiều thủ tục chỉ khác nhau một vài từ nên các yêu cầu về thủ tục hành chính cần phải xác
định rõ môi trường và ngữ cảnh của mỗi u cầu về thủ tục hành chính.
Ngồi ra, để làm giàu thêm ngữ liệu, chúng tôi cũng biên soạn các cặp <câu hỏi, trả lời> từ nội dung của từng thủ

tục. Cuối cùng, chúng tôi đã thu được tập dữ liệu bao gồm 420 câu hỏi, câu trả lời từ 36 thủ tục thuộc lĩnh vực Báo chí,
Xuất bản - In - Phát hành (lớp: XIP_TT_0003 , nhãn: _0002). Hình 2 trình bày vài mẫu dữ liệu của các câu hỏi (Q), lớp
(C) và câu trả lời tương ứng (A).
Như đã chỉ ra trong nghiên cứu [Phạm et al., 2016], [Đỗ & Hồng, 2019], chúng tơi tiến hành bước tiền xử lý tập
dữ liệu văn bản như tách từ đơn và biểu diễn dữ liệu bằng mơ hình túi từ (Bag of words - BoW [Salton et al., 1975]). Một


HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH

160

câu hỏi văn bản được biểu diễn dạng véctơ (có n thành phần, chiều) mà giá trị thành phần thứ j là tần số xuất hiện từ thứ j
trong câu hỏi văn bản. Tập dữ liệu gồm 420 câu hỏi và từ điển có 512 từ vựng, thì tập dữ liệu được biểu diễn thành bảng
D kích thước 420 x 512, dòng thứ i của bảng là véctơ biểu diễn câu hỏi thứ i tương ứng.
Bước quan trọng tiếp theo là cần huấn luyện mơ hình máy học phân lớp tự động câu hỏi Q vào một trong 36 lớp,
như các nghiên cứu [S. Fabrizio, 2002], [Dumais et al., 1998], [Lewis and Gale, 1994]. Trong các giải thuật phân lớp [Wu
& Kumar, 2009], [Hastie et al., 2009] máy học véctơ hỗ trợ, rừng ngẫu nhiên và mạng nơron là các giải thuật phổ biến và
hiệu quả cho phân lớp tự động văn bản.
B. Máy học véctơ hỗ trợ
Giải thuật máy học véctơ hỗ trợ (support vector machines - SVM [Vapnik, 1995]) huấn luyện mơ hình phân lớp là
siêu phẳng tối ưu (w, b) để tách dữ liệu của các lớp ra xa nhất có thể. Giải thuật huấn luyện cùng lúc phải cực đại hóa lề
phân hoạch và cực tiểu hóa lỗi.
C. Rừng ngẫu nhiên
Giải thuật rừng ngẫu nhiên (random forests - RF [Breiman, 2001]) huấn luyện tập hợp T mô hình cây quyết định
khơng cắt nhánh (để giữ thành phần lỗi bias thấp), sử dụng tập mẫu bootstrap và chọn ngẫu nhiên một tập con n’ thuộc
tính (giảm thành phần lỗi variance). Phân lớp phần tử x dựa vào bình chọn số đơng của T mơ hình cây quyết định cơ sở.
D. Mạng nơron
Mạng nơron (Neural Networks - NN [LeCun, 1985]) là mơ hình xử lý thơng tin được mơ phỏng dựa trên hoạt động
của hệ thống thần kinh sinh học. Mạng nơron bao gồm các nơron nhân tạo nối kết với nhau và xử lý thông tin bằng cách
truyền theo các kết nối và tính giá trị mới tại các nút (cách tiếp cận connectionism đối với tính tốn). Giải thuật lan truyền

ngược (back propagation) là giải thuật được sử dụng nhiều nhất để huấn luyện mạng nơron, thực hiện cập nhật trọng số
các cung trong mạng bằng cách lan truyền gradient của hàm lỗi từ tầng đầu ra ngược trở lại các tầng ẩn, rồi đến tầng đầu
vào.
III. KẾT QUẢ THỰC NGHIỆM
A. Chương trình
Để đánh giá hiệu quả của hệ thống hỗ trợ hỏi đáp thủ tục hành chính, chúng tơi cài đặt chương trình bằng ngơn ngữ
lập trình Python. Chương trình có sử dụng gói thư viện Scikit-learn [Pedregosa et al., 2011] có các giải thuật máy học
véctơ hỗ trợ (SVM), rừng ngẫu nhiên (RF), mạng nơron (NN).
Tất cả các thí nghiệm được chạy trên máy tính với Intel(R) Xeon(R) CPU X5570 @2.93GHz (16 CPUs), RAM
10Gb và được cài đặt trên hệ điều hành Windows Server® 2008 Enterprise.
B. Điều chỉnh tham số
Tập dữ liệu được biểu diễn về dạng bảng gồm 420 dòng (câu hỏi) trong 512 cột (từ vựng) và 36 lớp (36 thủ tục
hành chính). Tập dữ liệu được xáo trộn lấy ngẫu nhiên 2/3 làm tập huấn luyện (287 câu hỏi) và 1/3 tập dữ liệu còn lại (133
câu hỏi) làm tập kiểm tra kết quả trả lời. Chúng tôi sử dụng tập dữ liệu huấn luyện để điều chỉnh tham số cho các mơ hình
phân lớp và sử dụng độ chính xác của từng mơ hình để đánh giá kết quả. Kết quả thực nghiệm là trung bình của các lần
thực nghiệm. Các giá trị của bộ tham số trong mơ hình được lựa chọn là kết quả trả về có độ chính xác cao nhất (có so
sánh thơng tin kết quả với thủ tục tương ứng). Sau đó huấn luyện lại mơ hình trên tập dữ liệu huấn luyện sử dụng bộ tham
số tối ưu tìm được. Sử dụng mơ hình đã huấn luyện để phân lớp tập dữ liệu kiểm tra.
C. Kết quả thực nghiệm
Mơ hình máy học SVM, chúng tơi đề xuất sử dụng hàm nhân phi tuyến RBF do tính tổng qt của nó, các tham số
được sử dụng trong mơ hình SVM: kernel='rbf', c, , probability=True. Mơ hình máy học SVM cần điều chỉnh 2 tham số:
tham số của hàm nhân RBF và hằng số c được sử dụng để chỉnh độ rộng lề và lỗi. Để tìm mơ hình tối ưu trong nghiên
cứu này, với tập dữ liệu đã được thu thập và tổ chức lưu trữ như trên, chúng tơi đề xuất tìm kiếm bộ 2 tham số trong các
giá trị như Bảng 1.
Bảng 1. Bảng giá trị các tham số cần điều chỉnh cho mô hình dự báo máy học véctơ hỗ trợ
TT

Tham số

1

2

Giá trị
0.25, 0.5, 0.75, 1, 1.25, 1.5, 1.75, 2, 2.25, 2.5, 2.75, 3, 3.25, 3.5, 3.75, 4

c

1, 10, 100, 1000, 10000
Tổng số bộ tham số ( , c) khác nhau

Số giá trị
16
5
80


Nguyễn Thanh Điền, Phạm Thế Phi, Phạm Công Xuyên, Đỗ Thanh Nghị

c

1

1

0.25
3.75

10

0.5

0.75
3.5

100

1
4

1000

1
3.75
4

10000

1
4

161

Bảng 2. Minh họa kết quả thực nghiệm phân lớp với mơ hình SVM
A
2
3
4

bc_tt_0022:
40.988
bc_tt_0022:

79.002
bc_tt_0022:
49.068
bc_tt_0022:
49.447
bc_tt_0022:
93.863
bc_tt_0022:
54.917
bc_tt_0022:
91.89
bc_tt_0022:
58.107
bc_tt_0022:
94.735
bc_tt_0022:
80.469
bc_tt_0022:
49.644
bc_tt_0022:
89.585

bc_tt_0022:
45.837
bc_tt_0022:
93.524
bc_tt_0022:
47.588
bc_tt_0022:
55.022

bc_tt_0022:
94.559
bc_tt_0022:
55.078
bc_tt_0022:
90.719
bc_tt_0022:
55.655
bc_tt_0022:
90.198
bc_tt_0022:
93.45
bc_tt_0022:
58.884
bc_tt_0022:
88.706

bc_tt_0022:
59.798
bc_tt_0022:
82.753
bc_tt_0022:
48.631
bc_tt_0022:
48.561
bc_tt_0022:
91.196
bc_tt_0022:
61.356
bc_tt_0022:

93.20
bc_tt_0022:
60.702
bc_tt_0022:
93.244
bc_tt_0022:
95.443
bc_tt_0022:
48.122
bc_tt_0022:
95.881

bc_tt_0022:
41.862
bc_tt_0022:
73.406
bc_tt_0022:
51.983
bc_tt_0022:
58.444
bc_tt_0022:
89.007
bc_tt_0022:
46.497
bc_tt_0022:
90.626
bc_tt_0022:
53.361
bc_tt_0022:
93.033

bc_tt_0022:
95.454
bc_tt_0022:
60.653
bc_tt_0022:
94.885

B
50

bc_tt_0022:
51.859
bc_tt_0022:
77.008
bc_tt_0022:
56.644
bc_tt_0022:
50.293
bc_tt_0022:
81.792
bc_tt_0022:
54.725
bc_tt_0022:
84.092
bc_tt_0022:
54.783
bc_tt_0022:
88.081
bc_tt_0022:
89.103

bc_tt_0022:
57.187
bc_tt_0022:
88.339

100
bc_tt_0022:
51.621
bc_tt_0022:
72.62
bc_tt_0022:
50.437
bc_tt_0022:
50.21
bc_tt_0022:
85.837
bc_tt_0022:
53.796
bc_tt_0022:
84.822
bc_tt_0022:
53.521
bc_tt_0022:
87.51
bc_tt_0022:
89.768
bc_tt_0022:
55.429
bc_tt_0022:
89.888


Ghi chú: Cột A: Bao gồm 4 lớp thuộc tính và độ chính xác tương ứng, mỗi một lớp thuộc tính là kết quả sau 1 lần chạy mơ hình thực nghiệm; Cột B:
(50). Độ chính xác trung bình sau 50 lần chạy mơ hình thực nghiệm, (100). Độ chính xác trung bình sau 100 lần chạy mơ hình thực nghiệm.

Từ các bộ tham số ở Bảng 1, giải thuật máy học SVM cần thử nghiệm tất cả 80 bộ gồm 2 tham số ( , c) khác nhau
để chọn ra mơ hình tối ưu cho lớp thuộc tính có độ chính xác là cao nhất. Chúng tôi lần lượt cho các bộ tham số qua mơ
hình máy học SVM và thu được kết quả thực nghiệm Bảng 2.
Từ kết quả thực nghiệm trong Bảng 2 cho thấy giải thuật máy học SVM đã thử tất cả 80 bộ tham số khác nhau để
chọn ra bộ tham số (c, ) sao cho độ chính xác là cao nhất. Qua 80 bộ tham số đã thực nghiệm, các mơ hình đều có lớp
thuộc tính giống nhau (bc_tt_0022) và bộ tham số có độ chính xác cao nhất được chúng tôi đề xuất là: c = 1000; = 4.
Tương tự, giải thuật rừng ngẫu nhiên xây dựng mô hình dự báo cần điều chỉnh 3 tham số: độ sâu tối đa của cây
quyết định (max_depth không giới hạn), tổng số cây cần xây dựng trong rừng (n_estimators), số thuộc tính ngẫu nhiên
(max_features bằng căn bậc 2 của số lượng thuộc tính n_features) được sử dụng để tính phân hoạch tại nút trong của cây
quyết định. Chúng tôi đề xuất tìm kiếm tổng số cây trong cần xây dựng là 5, 10, 50, 100, 150. Kết quả thử nghiệm thu
được như Bảng 3.
Bảng 3. Minh họa kết quả thực nghiệm phân lớp với mơ hình rừng ngẫu nhiên
A
n
5
10
50
100
150

1
bc_tt_0022:
71.875
xip_tt_0011:
12.658
bc_tt_0022:

100.0
xip_tt_0001:
100.0
bc_tt_0022:
95.440

50
2
bc_tt_0022:
97.024
bc_tt_0022:
100.0
bc_tt_0022:
50.0
bc_tt_0022:
50.0
bc_tt_0022:
91.704

Y
bc_tt_0022:
64.515
bc_tt_0022:
92.701
bc_tt_0022:
94.444
bc_tt_0022:
87.0
bc_tt_0022:
96.875


100
N
bc_tt_0002:
54.061
xip_tt_0001:
100.0
bc_tt_0002:
52.778
bc_tt_0002:
50.0
bc_tt_0002:
55.556

Y
bc_tt_0022:
65.407
bc_tt_0022:
93.527
bc_tt_0022:
94.928
bc_tt_0022:
79.57
bc_tt_0022:
97.101

N
bc_tt_0002:
50.345
bc_tt_0002:

95.926
bc_tt_0002:
51.667
bc_tt_0002:
56.061
bc_tt_0002:
55.172

Ghi chú: Cột A: Bao gồm 2 lớp thuộc tính với độ chính xác tương ứng, mỗi một lớp thuộc tính là kết quả sau 1 lần chạy mơ hình thực nghiệm Cột B:
(50). Độ chính xác trung bình sau 50 lần chạy mơ hình thực nghiệm, (100). Độ chính xác trung bình sau 100 lần chạy mơ hình thực nghiệm, Y là độ
chính xác và lớp thuộc tính đúng, N là độ chính xác và lớp thuộc tính khơng đúng.

Qua kết quả thực nghiệm cho thấy mơ hình rừng ngẫu nhiên cho độ chính xác cao nhất với số cây trong rừng là
n_estimators =150 cây.
Giải thuật mạng nơron xây dựng mô hình phân lớp với các tham số: solver= „lbfgs‟, anpha, một lớp ẩn với số
lượng nơron trong một lớp là k (hidden_layer_sizes(k, )), random_state, learning_rate= „constant‟. Chúng tôi đề xuất tìm
kiếm bộ 3 tham số tối ưu với các giá trị trong Bảng 4.


HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH

162

Bảng 4. Bảng giá trị các tham số cần điều chỉnh cho mơ hình mạng nơron
TT

Tham số

Giá trị


Số giá trị

1

hidden_layer_sizes(k, )

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12

12

2

alpha

1e-1

2

3

random_state

1

1

Tổng số bộ tham số (hidden_layer_sizes(k, ), alpha, random_state)

24


Để tìm bộ tham số tối ưu cho mơ hình dự báo mạng nơron, chúng tôi tiến hành lần lượt thử nghiệm các bộ tham số
từ 24 bộ tham số đã đề xuất trong Bảng 4 và kết quả thực nghiệm được trình bày như Bảng 5.
Bảng 5. Kết quả thực nghiệm phân lớp với mơ hình mạng nơron
alpha

hidden_layer
_sizes(k, )

1e-1

1

1e-1

2

1e-1

3

1e-1

4

1e-1

5

1e-1


6

1e-1

7

1e-1

8

1e-1

9

1e-1

10

1e-1

11

1e-1

12

1e-1

13


1e-1

14

1e-1

15

1e-1

16

A
1
bc_tt_0022:
41.863
bc_tt_0022:
58.515
bc_tt_0022:
98.916
bc_tt_0022:
96.589
bc_tt_0022:
87.21
bc_tt_0022:
99.754
bc_tt_0022:
98.745
bc_tt_0022:
99.688

bc_tt_0022:
99.447
bc_tt_0022:
99.729
bc_tt_0022:
99.508
bc_tt_0022:
99.711
bc_tt_0022:
99.579
bc_tt_0022:
99.817
bc_tt_0022:
99.75
bc_tt_0022:
99.763

2
lh_tt_9999:
32.756
lh_tt_9999:
64.742
bc_tt_0022:
99.291
bc_tt_0022:
97.791
bc_tt_0022:
99.526
bc_tt_0022:
98.408

bc_tt_0022:
99.311
bc_tt_0022:
99.456
bc_tt_0022:
99.56
bc_tt_0022:
99.266
bc_tt_0022:
99.655
bc_tt_0022:
99.599
bc_tt_0022:
99.63
bc_tt_0022:
99.728
bc_tt_0022:
99.72
bc_tt_0022:
99.699

B
3

bc_tt_0022:
14.363
bc_tt_0001:
22.148
bc_tt_0022:
86.517

bc_tt_0022:
99.537
bc_tt_0022:
82.345
bc_tt_0022:
99.059
bc_tt_0022:
99.096
bc_tt_0022:
99.277
bc_tt_0022:
99.513
bc_tt_0022:
99.24
bc_tt_0022:
99.596
bc_tt_0022:
99.628
bc_tt_0022:
99.806
bc_tt_0022:
99.652
bc_tt_0022:
99.672
bc_tt_0022:
99.763

4
bc_tt_0003:
32.275

bc_tt_0022:
49.445
bc_tt_0022:
99.392
bc_tt_0022:
97.549
bc_tt_0022:
99.825
bc_tt_0022:
99.596
bc_tt_0022:
99.058
bc_tt_0022:
99.766
bc_tt_0022:
99.452
bc_tt_0022:
99.508
bc_tt_0022:
99.747
bc_tt_0022:
99.636
bc_tt_0022:
99.575
bc_tt_0022:
99.824
bc_tt_0022:
99.509
bc_tt_0022:
99.687


50
bc_tt_0022:
43.552
bc_tt_0022:
66.662
bc_tt_0022:
88.854
bc_tt_0022:
96.124
bc_tt_0022:
98.126
bc_tt_0022:
99.062
bc_tt_0022:
99.27
bc_tt_0022:
99.344
bc_tt_0022:
99.425
bc_tt_0022:
99.541
bc_tt_0022:
99.591
bc_tt_0022:
99.623
bc_tt_0022:
99.653
bc_tt_0022:
99.628

bc_tt_0022:
99.668
bc_tt_0022:
99.684

100
bc_tt_0022:
34.117
bc_tt_0022:
68.293
bc_tt_0022:
86.286
bc_tt_0022:
95.729
bc_tt_0022:
97.04
bc_tt_0022:
98.854
bc_tt_0022:
99.283
bc_tt_0022:
99.443
bc_tt_0022:
99.491
bc_tt_0022:
99.526
bc_tt_0022:
99.589
bc_tt_0022:
99.615

bc_tt_0022:
99.63
bc_tt_0022:
99.623
bc_tt_0022:
99.643
bc_tt_0022:
99.635

Ghi chú: Cột A: Bao gồm 4 lớp thuộc tính với độ chính xác tương ứng, mỗi một lớp thuộc tính là kết quả sau 1 lần chạy mơ hình thực nghiệm; Cột
B: (50). Độ chính xác trung bình sau 50 lần chạy mơ hình thực nghiệm, (100). Độ chính xác trung bình sau 100 lần chạy mơ hình thực nghiệm.

Kết quả thực nghiệm Bảng 5 cho thấy, giải thuật mạng nơron đã duyệt qua tất cả các bộ tham số trong Bảng 4, độ
chính xác giữa các bộ tham số khơng có nhiều chênh lệch và có cùng lớp thuộc tính (bc_tt_0022). Với giá trị anpha = 1e1, chúng tôi tiếp tục tăng số lượng k nơron trong hidden_layer_sizes(k, ) thì độ chính xác ở từng mơ hình dự báo thay đổi
khơng đáng kể và phân lớp thuộc tính ở mỗi mơ hình dự báo đều giống nhau (Bảng 6). Nên chúng tơi đưa ra đề xuất bộ
tham số sử dụng (có thể xem là tối ưu) cho mơ hình dự báo này là: alpha=1e-1, random_state=1 và
hidden_layer_sizes(10,).
Qua kết quả thu được từ thực nghiệm trên tập dữ liệu kiểm tra, chúng tôi đã đề xuất các bộ tham số tối ưu bằng
phương pháp thử sai cho từng mơ hình máy học SVM, rừng ngẫu nhiên và mạng nơron thu được kết quả lần lượt là:
89,768 %, 97,101 % và 99,526 %. Từ kết quả thực nghiệm này, chúng tôi đề xuất sử dụng mơ hình máy học mạng nơron
để phân lớp câu hỏi cho hệ thống hỗ trợ hỏi đáp thủ tục hành chính của chúng tơi.


Nguyễn Thanh Điền, Phạm Thế Phi, Phạm Công Xuyên, Đỗ Thanh Nghị

163

Bảng 6. Kết quả thực nghiệm phân lớp trên mơ hình dự báo mạng nơron với số lượng k nơron trong lớp ẩn tăng dần.
Stt
1

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Hidden_layer_sizes
10
20
30
40
50
60
70
80
90
100
110
120
130

140
150
200

Lớp thuộc tính và độ chính xác
bc_tt_0022: 99.511
bc_tt_0022: 99.703
bc_tt_0022: 99.428
bc_tt_0022: 99.661
bc_tt_0022: 99.76
bc_tt_0022: 99.75
bc_tt_0022: 99.424
bc_tt_0022: 99.810
bc_tt_0022: 99.616
bc_tt_0022: 99.641
bc_tt_0022: 99.614
bc_tt_0022: 99.372
bc_tt_0022: 99.734
bc_tt_0022: 99.582
bc_tt_0022: 99.791
bc_tt_0022: 99.671

Thời gian (giây)
1.4140000820159912
1.6459999084472656
1.6349999904632568
1.8220000267028809
1.5099999904632568
1.7590000629425049
1.8199999332427979

1.8519999980926514
2.193000078201294
2.294999837875366
2.077000141143799
2.740999937057495
2.507000207901001
2.013000011444092
2.133000135421753
2.4559998512268066

IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Chúng tơi vừa trình bày phương pháp xây dựng hệ thống trả lời tự động cho người dùng các câu hỏi liên quan đến
thủ tục hành chính, thành phần hồ sơ của một thủ tục, thời gian xử lý một thủ tục, biểu mẫu của thủ tục. Hệ thống dựa trên
tiếp cận sử dụng corpus và máy học tự động. Chúng tôi đã thu thập và biên soạn tập dữ liệu gồm 420 câu hỏi, trả lời của
36 thủ tục hành chính thuộc lĩnh vực Báo chí, Xuất bản - In - Phát hành của đơn vị cung cấp là Sở Thông tin và Truyền
thông thành phố Cần Thơ. Tiếp theo sau là bước tách từ và biểu diễn câu hỏi theo mơ hình túi từ. Bước cuối cùng là huấn
luyện các bộ phân lớp như máy học để phân lớp tự động các câu hỏi. Kết quả thực nghiệm thu được trên tập kiểm thử của
các mơ hình máy học SVM, rừng ngẫu nhiên, mạng nơron, có độ chính xác lần lượt là 89,768 %, 97,101 % và 99,526 %.
Chúng tôi đề xuất sử dụng mơ hình mạng nơron để trả lời tự động thủ tục hành chính cho câu hỏi đặt ra từ người dùng.
Trong tương lai gần, chúng tôi bổ sung thêm các câu hỏi vào tập dữ liệu để cải thiện khả năng đáp ứng của hệ
thống. Có thể mở rộng hệ thống này cho các vấn đề tương tự trong thực tiễn.
TÀI LIỆU THAM KHẢO
S. Fabrizio. “Machine learning in automated text categorization”, ACM Computing Surveys 34: 1-47, 2002.
C.D. Manning, P. Raghavan and H. Schütze, “Introduction to Information Retrieval Introduction”, 2008.
D. Jurafsky and J-H. Martin.: “Speech and Language Processing”, Computer Science, Stanford University, 2017.
U. Fayyad, G. Piatetsky-Shapiro, và P. Smyth, “Knowledge Discovery and Data Mining: Towards a Unifying
Framework”, 1996.
[5] S. Dumais, J. Platt, D. Heckerman and M. Sahami. “Inductive learning algorithms and representations for text
categorization”, In: Proceedings of the Seventh International Conference on Information and Knowledge
Management, ACM, 1998, 148-155.

[6] Y. LeCun.: Une Procédure d‟Apprentissage pour Réseau à Seuil Asymétrique. in:Cognitiva 85: A la Frontiere de
l‟Intelligence Artificielle des Sciences de la Conaissance des Neurosciences, 1985, pp. 599-604.
[7] D-D. Lewis and W-A. Gale. “A sequential algorithm for training text classifiers”, In: Proceedings of the 17th
Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SpringerVerlag New York, 1994, 3-12.
[8] X. Wu and V. Kumar, Top 10 Algorithms in Data Mining. Chapman & Hall/CRC. 2009.
[9] T. Hastie, R. Tibshirani and J. Friedman, The elements of statistical learning: data mining, inference and prediction. 2005.
[10] L. Breiman, J. Friedman, C. J.Stone, và R. A. Olshen, Classification and Regression Trees. Chapman & Hall, New
York. 1984.
[11] J. Ross, Q. Morgan, và K. Publishers, C4.5: Programs for Machine Learning. 1993.
[12] L. Breiman, “Bagging predictors”, Machine Learning 24(2):123-140. 1996.
[13] L. Breiman, “Random forests”, Machine Learning 45(1):5-32. 2001.
[14] V. N. Vapnik, The Nature of Statistical Learning Theory. Springer-Verlag. 1995.
[15] T-N. Do, N-K. Pham, T-P. Pham, M-T. Tran-Nguyen, H-H. Nguyen, “Parallel multiclass stochastic gradient
descent algorithms for classifying million images with very-high-dimensional signatures into thousands classes”.
2014.
[1]
[2]
[3]
[4]


164

HỆ THỐNG HỖ TRỢ HỎI ĐÁP THỦ TỤC HÀNH CHÍNH

[16] C. Bousquet, 5 Ways Chatbots Could Transform Government Services. GovTech. 2017.
[17] H. Mehr, H. Ash, D. Fellow, “Artificial Intelligence for Citizen Services and Government”, Ash Center for
Democratic Governance and Innovation Harvard Kennedy School, số p.h August, 2017.
[18] Đỗ Thanh Nghị và Văn Thị Xuân Hồng, “Tìm kiếm chuyên gia với phản hồi từ người dùng và kNN-C4.4”, kNNRF-C4.4. 2003.
[19] F-J. Provost and P. Domingos, “Tree Induction for Probability-Based Ranking”, Machine Learning 52(3): 199215. 2003.

[20] Nguyễn Bình Trọng, “Hệ thống trả lời tự động tiếng Việt cho công tác tuyển sinh đại học”, Đề tài nghiên cứu khoa
học, ĐHLH. 2012.
[21] Nguyễn Thanh Tuấn, Xây dựng hệ thống hỏi đáp tự động cho câu hỏi định nghĩa trong Y khoa. 2011.
[22] Nguyễn Văn Minh Đức, Phạm Quốc Huy và Dương Văn Phước Thiện, Sumi Chatbot - Tiếng Việt. 2017.
[23] N-K. Phạm M-T. Trần-Nguyễn, T-P. Phạm, T-N. Đỗ.: “So sánh các phương pháp tách từ trong phân lớp văn bản
tiếng Việt”, Kỷ yếu hội thảo FAIR 2016, pp. 668-677.
[24] T-N. Đỗ, T. Hoàng.: “Chatbot cho sinh viên CNTT”, Kỷ yếu hội thảo FAIR 2019, pp. 85-92.

AUTOMATED ANSWERING SYSTEM FOR ADMINISTRATIVE PROCEDURES
Nguyen Thanh Dien, Pham The Phi, Pham Cong Xuyen, Do Thanh Nghi
ABSTRACT: In this paper, we propose an automated answering system for administrative procedures. The system
automatically answers questions related to procedures that users ask the agency of administrative procedures. The user asks the
textual question, the system receives and classifies the question, to determine the procedural answer corresponding to the user’s
question. We have collected and pre-processed a textual dataset of 420 questions and answers from 36 administrative procedures in
the field of Press, Publishing - Print - Publishing of the provider, Department of Information and Communications in Can Tho city.
We train classifiers such as support vector machines, random forest, and neural network to classify the dataset with accuracy of
89.768 %, 97.101 % and 99.526 % respectively. From the experimental results, we propose to use the neural network in our
automated answering system.



×