Tải bản đầy đủ (.pdf) (20 trang)

Luận văn thạc sĩ ngành Máy tính: Phân tích câu hỏi tiếng Việt trong hệ thống đón tiếp và phân loại bệnh nhân - TRƯỜNG CÁN BỘ QUẢN LÝ GIÁO DỤC THÀNH PHỐ HỒ CHÍ MINH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (539.69 KB, 20 trang )

<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>

<b>VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM </b>
<b>HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM </b>





<b>Lƣu Thị Vân </b>


<b>PHÂN TÍCH CÂU HỎI TIẾNG VIỆT </b>


<b>TRONG HỆ THỐNG ĐÓN TIẾP VÀ PHÂN LOẠI BỆNH NHÂN </b>


<b>LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH </b>


<b> </b>


</div>
<span class='text_page_counter'>(2)</span><div class='page_container' data-page=2>

<b>VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM </b>
<b>HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ VIỆT NAM </b>





<b>Lƣu Thị Vân </b>


<b>PHÂN TÍCH CÂU HỎI TIẾNG VIỆT </b>


<b>TRONG HỆ THỐNG ĐÓN TIẾP VÀ PHÂN LOẠI BỆNH NHÂN </b>


Chuyên ngành: Hệ thống thông tin
Mã số: 8 48 01 04


LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH



CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS.Nguyễn Nhƣ Sơn


<b>HÀ NỘI – 2020 </b>


</div>
<span class='text_page_counter'>(3)</span><div class='page_container' data-page=3>

<b>LỜI CAM ĐOAN </b>


Tơi là Lƣu Thị Vân, học viên khóa I, ngành Công nghệ thông tin, chuyên
ngành Hệ Thống Thông Tin. Tôi xin cam đoan luận văn “Phân tích câu hỏi
Tiếng Việt trong hệ thống đón tiếp và phân loại bệnh nhân” là do tơi nghiên cứu,
tìm hiểu và phát triển dƣới sự hƣớng dẫn của TS. Nguyễn Nhƣ Sơn. Luận văn
không phải sự sao chép từ các tài liệu, cơng trình nghiên cứu của ngƣời khác mà
không ghi rõ trong tài liệu tham khảo. Tôi xin chịu trách nhiệm về lời cam đoan
này.


Hà Nội, tháng 10 năm 2020
<b> Học viên </b>


</div>
<span class='text_page_counter'>(4)</span><div class='page_container' data-page=4>

<b>LỜI CẢM ƠN </b>


Đầu tiên tôi xin gửi lời cảm ơn tới các thầy cô Học viện Khoa học và
Công nghệ nghệ Việt nam, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã
tận tình giảng dạy và truyền đạt kiến thức cho tơi trong suốt khóa học cao học
vừa qua.Tơi cũng xin đƣợc gửi lời cảm ơn đến các thầy cô trong Bộ môn Hệ
thống thông tin cũng nhƣ Khoa công nghệ thông tin đã mang lại cho tôi những
kiến thức vô cùng quý giá và bổ ích trong q trình học tập tại trƣờng.


Đặc biệt xin chân thành cảm ơn thầy giáo, TS. Nguyễn Nhƣ Sơn, ngƣời
đã định hƣớng, giúp đỡ, trực tiếp hƣớng dẫn và tận tình chỉ bảo tơi trong suốt
q



trình nghiên cứu, xây dựng và hồn thiện luận văn này.


Tôi cũng xin đƣợc cảm ơn tới gia đình, những ngƣời thân, các đồng
nghiệp và bạn bè đã thƣờng xuyên quan tâm, động viên, chia sẻ kinh nghiệm,
cung cấp các tài liệu hữu ích trong thời gian học tập, nghiên cứu cũng nhƣ trong
suốt quá trình thực hiện luận văn tốt nghiệp.


Hà Nội, tháng 10 năm 2020
<b> Học viên </b>


</div>
<span class='text_page_counter'>(5)</span><div class='page_container' data-page=5>

<b>MỤC LỤC </b>


LỜI CAM ĐOAN ... 2


LỜI CẢM ƠN ... 3


MỤC LỤC ... 4


DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT ... 6


DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ ... 7


DANH MỤC CÁC BẢNG BIỂU ... 7


TÓM TẮT ... 8


MỞ ĐẦU ... 10


CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN ... 13



1 Tổng quan về hệ thống trả lời tự động ... 13


1.1 Hệ thống hƣớng nhiệm vụ và hƣớng hội thoại ... 14


1.2 Tình hình nghiên cứu trong và ngoài nƣớc ... 15


2 Xử lý ngôn ngữ tự nhiên và ứng dụng ... 17


2.1 Sơ lƣợc về ngôn ngữ tự nhiên ... 17


2.2 Các ứng dụng xử lý ngôn ngữ tự nhiên ... 18


2.3 Tiền xử lý văn bản ... 18


2.3.1 Chuẩn hóa và biến đổi văn bản ... 18


2.3.2 Biểu diễn văn bản dƣới dạng vector ... 19


3 Bài toán phân loại văn bản ... 19


3.1 Bài toán phân loại văn bản ... 19


3.2 <i>Một số thuật toán phân loại văn bản ... 20 </i>


<i>3.2.1 </i> <i>Thuật toán Naive Bayes ... 20 </i>


<i>3.2.2 </i> <i>Thuật toán SVM ... 23 </i>


<i>3.2.3 </i> <i>Mạng nơ-ron nhân tạo ... 31 </i>



3.3 Các phƣơng pháp đánh giá một hệ thống phân lớp ... 36


3.3.1 Đánh giá theo độ chính xác Accuracy ... 37


</div>
<span class='text_page_counter'>(6)</span><div class='page_container' data-page=6>

3.3.3 True/False Positive/Negative ... 39


3.3.4 Precision và Recall ... 40


3.3.5 F1-Score ... 42


CHƢƠNG 2: PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG TRẢ LỜI TỰ
ĐỘNG ... 44


1 Vấn đề cơ bản của một hệ thống trả lời tự động ... 44


2 Bài toán phân loại câu hỏi ... 46


2.1 Phát biểu bài toán... 46


2.2 Các phƣơng pháp phân loại câu hỏi ... 46


2.2.1 Phân loại câu hỏi dựa trên luật ... 47


2.2.2 Phƣơng pháp sử dụng mơ hình ngơn ngữ ... 48


2.2.3 Phân loại câu hỏi dựa vào học máy ... 48


2.3 Trích chọn đặc trƣng cho phân tích câu hỏi ... 51


2.3.1 Đặc trƣng về từ vựng ... 51



2.3.2 Đặc trƣng về cú pháp ... 53


2.3.3 Đặc trƣng về ngữ nghĩa ... 54


3 Sự phân loại câu hỏi Taxonomy ... 55


3.1 Khái niệm Taxonomy ... 55


3.2 Taxonomy câu hỏi ... 55


3.3 Mơ hình phân lớp đa cấp ... 59


4 Một số kết quả nghiên cứu ... 60


CHƢƠNG 3: XÂY DỰNG MƠ HÌNH VÀ ĐÁNH GIÁ THỰC NGHIỆM... 62


1 Kiến trúc ứng dụng ... 62


2 Xây dựng và cài đặt mơ hình ... 63


2.1 Tập dữ liệu thực nghiệm ... 63


2.2 Công cụ thực nghiệm ... 65


2.3 Lựa chọn đặc trƣng ... 66


3 Đánh giá kết quả thực nghiệm ... 67


KẾT LUẬN ... 69



</div>
<span class='text_page_counter'>(7)</span><div class='page_container' data-page=7>

DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT


<b>Từ viết tắt </b> <b>Từ chuẩn </b> <b>Diễn giải </b>


AI Artificial Intelligence Trí tuệ nhân tạo


ML Machine Learning Máy học, máy móc có khả năng học
tập


ANN Artificial Nerual Network Mạng nơ ron nhân tạo
NLP Natural Languague


Processing


Xử lý ngôn ngữ tự nhiên
VNTK Vietnamese NLP Toolkit


for Node


Bộ công cụ xử lý ngôn ngữ tiếng Việt
NLTK Natural Language Toolkit Bộ công cụ xử lý ngôn ngữ tự nhiên


bằng Python


Python Python Ngôn ngữ lập trình python, nền tảng
lập trình phía máy chủ


SDK Support Development Kit Bộ công cụ hỗ trợ phát triển
CPU Central Processing Unit Bộ xử lý trung tâm



GPU Graphics Processing Unit Bộ vi xử lý chuyên dụng nhận nhiệm
vụ tăng tốc, xử lý đồ họa cho bộ vi xử
lý trung tâm CPU


API Application Programming
Interface


Giao diện lập trình ứng dụng
QA Question Answering Các cặp câu hỏi đáp


Agent Agent hay Software Agent Tác tử hay Tác tử phần mềm, là một
chƣơng trình máy tính tồn tại trong
một mơi trƣờng nhất định, tự động
hành động phản ứng lại sự thay đổi
của môi trƣờng nhằm đáp ứng mục
tiêu đã đƣợc thiết kế trƣớc


Conversational
agents


Conversational agents Các tác tử đàm thoại là tác tử có khả
năng giao tiếp thông qua văn bản
hoặc lời nói


NBC Naive Bayes Classifier Bộ phân lớp Naïve Bayes
TREC Text REtrieval Conference Hội nghị về truy hồi thông tin


</div>
<span class='text_page_counter'>(8)</span><div class='page_container' data-page=8>

<b>DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ </b>



Hình 1: Mặt phân cách dữ liệu ... 24


Hình 2. Lề siêu phẳng ... 24


Hình 3. Dữ liệu phi tuyến ... 27


Hình 4. Khơng gian dữ liệu phi tuyến ... 29


Hình 5. Kiến trúc mạng nơ-ron nhân tạo ... 32


Hình 6. Q trình xử lý thơng tin của một mạng nơ-ron nhân tạo ... 33


Hình 7. Minh hoạ unnormalized confusion và normalized confusion matrix .... 39


Hình 8. Cách tính Precision và Recall ... 41


Hình 9. Các bƣớc cơ bản trong hệ thống trả lời tự động ... 44


Hình 10. Mơ hình giai đoạn huấn luyện ... 49


Hình 11. Các bƣớc thực hiện giai đoạn huấn luyện ... 50


Hình 12. Mơ hình giai đoạn phân lớp ... 51


Hình 13. Bộ phân lớp đa cấp của Li và Roth ... 60


Hình 14. Kiến trúc tổng quan của hệ thống phân loại câu hỏi ... 63


Hình 15. Tập dữ liệu huấn luyện ... 64



Hình 16. Tập dữ liệu kiểm tra ... 64


<b>DANH MỤC CÁC BẢNG BIỂU </b>
Bảng 1. Một vài so sánh các cách sắp xếp trật tự câu ... 18


Bảng 2. Dữ liệu tập mẫu tính xác suất theo phƣơng pháp Naive Bayes ... 21


Bảng 3. Biểu diễn các đặc trƣng của một câu hỏi ... 52


Bảng 4. Taxonomy câu hỏi ... 56


Bảng 5. Độ chính xác phân loại câu hỏi với các thuật tốn học máy khác nhau 61
Bảng 6. Thơng tin phần cứng thực nghiệm ... 65


</div>
<span class='text_page_counter'>(9)</span><div class='page_container' data-page=9>

<b>TÓM TẮT </b>


Sự phát triển mạnh mẽ của Công nghệ thông tin trong những năm gần
đây, đặc biệt trong bối cảnh cuộc cách mạng công nghiệp lần thứ tƣ đang tác
động tới nhiều ngành nghề, nhiều lĩnh vực, trong đó có ngành y tế, đòi hỏi các
bệnh viện và các cơ sở y tế phải không ngừng đổi mới để nâng cao chất lƣợng
dịch vụ khám chữa bệnh, nâng cao hiệu suất làm việc của bác sĩ, giảm chi phí
khám chữa bệnh, giảm thời gian chờ đợi của bệnh nhân.


Ứng dụng những cơng nghệ mới nhƣ : Trí tuệ nhân tạo (AI), Dữ liệu lớn
(Big Data), Điện toán đám mây (Cloud Computing), Kết nối vạn vật (IOT), Di
động (Mobility), … sẽ giúp các lãnh đạo của bệnh viện và các cơ sở y tế có thể
quản lý toàn bộ hoạt động với các số liệu chính xác, trung thực và trực tuyến.
Việc ứng dụng công nghệ thông tin (CNTT) trong công tác bảo vệ, chăm sóc,
nâng cao sức khỏe ở Việt Nam đã có những bƣớc phát triển quan trọng, đặt nền
móng xây dựng, triển khai và vận hành nền y tế thơng minh.



Trí tuệ nhân tạo (AI – Artificial Intelligent) là một ngành của Khoa học
máy tính liên quan đến việc mơ phỏng các quá trình suy nghĩ và học tập của con
ngƣời cho máy móc, đặc biệt là cho các hệ thống máy tính. Các q trình này
bao gồm việc học tập (thu thập thông tin và thiết lập các quy tắc sử dụng thông
tin), lập luận (sử dụng các quy tắc để đạt đƣợc kết luận gần đúng hoặc xác định),
và tự sửa lỗi. AI gần đây trở nên bùng nổ, nhận đƣợc nhiều sự quan tâm là nhờ
Dữ liệu lớn (Big data) phát triển, cho phép xử lý công nghệ AI với tốc độ nhanh
hơn bao giờ hết. Một số ứng dụng điển hình của AI trong lĩnh vực y tế có thể kể
đến nhƣ : (1) <b>Phẫu thuật với sự hỗ trợ của Robot cho phép bác sĩ thực hiện </b>
nhiều quy trình phức tạp cùng với sự kiểm soát tốt hơn ; (2) <b>Trợ lý y tá ảo </b>
hƣớng dẫn và tƣơng tác với bệnh nhân, thực hiện các biện pháp chăm sóc tránh
việc thăm khám khơng cần thiết ; (3) Hỗ trợ chẩn đốn lâm sàng nhƣ phát hiện
ung thƣ, hay việc hỗ trợ đƣa ra phác đồ điều trị ; (4)Tự động hóa các tác vụ
<b>quản trị giúp tiết kiệm thời gian, giúp giảm bớt khối lƣợng công việc và nhiệm </b>
vụ quản trị ; (5) <b>Phân tích hình ảnh giúp bác sĩ đƣa ra đƣợc kết luận chính xác </b>
về các tổn thƣơng trên các hình ảnh X-Quang, CT, MRI, ....


</div>
<span class='text_page_counter'>(10)</span><div class='page_container' data-page=10>

đón tiếp bệnh nhân đến thăm khám và điều trị chữa bệnh tại các cơ sở y tế và
các bệnh viện. Việc đón tiếp liên tục, tự động hóa và nhanh chóng giúp phân
luồng và giảm tải cho cơ sở khám chữa bệnh (KCB) để có thể cứu chữa và thăm
khám đƣợc nhiều bệnh nhân hơn, đồng nghĩa cứu đƣợc nhiều mạng ngƣời hơn.


Từ các yêu cầu thực tế để xây dựng và triển khai một hệ thống có thể tự
động đón tiếp khám bệnh, đón tiếp làm cận lâm sàng, hƣớng dẫn tìm đƣờng,
hƣớng dẫn thủ tục, phân loại khám bệnh cho bệnh nhân dựa vào tập câu hỏi cho
trƣớc thay cho cán bộ đón tiếp. Để xây dựng đƣợc một hệ thống đón tiếp nhƣ
vậy, tôi thực hiện nghiên cứu các phƣơng pháp phân tích câu hỏi tiếng Việt để
tiền xử lý tập lệnh cho hệ thống đón tiếp và phân loại bệnh nhân một cách tự
động.



Phân loại văn bản là quá trình gán nhãn hoặc phân nhóm cho văn bản theo
nội dung của nó. Đây là một trong những nhiệm vụ cơ bản của Xử lý ngôn ngữ
tự nhiên với các ứng dụng rộng rãi nhƣ : Phân tích cảm xúc (Sentiment
analysis), gán nhãn chủ đề (Topic labeling), phát hiện thƣ rác (Spam detection),
và phát hiện ý định (Intent detection).


Trong khuôn khổ của đề tài này, nghiên cứu các phƣơng pháp <b>Phân tích </b>
<b>câu hỏi tiếng Việt và đƣa ra một kiến trúc để xây dựng một hệ thống đón </b>
<b>tiếp và phân loại bệnh nhân đƣợc ứng dụng tại các bệnh viện và cơ sở khám </b>
chữa bệnh.


</div>
<span class='text_page_counter'>(11)</span><div class='page_container' data-page=11>

<b>MỞ ĐẦU </b>


<b>1. Động lực nghiên cứu và tính cấp thiết của bài toán thực tế </b>


Trong bối cảnh mạng Internet đã trở lên rất phổ biến nhƣ hiện nay, con
ngƣời kết nối với con ngƣời thông qua mạng xã hội, bất cứ thời gian nào và ở
bất cứ nơi đâu. Sẽ thật tốt hơn nếu có một hệ thống tự động thơng minh hỗ trợ
con ngƣời bằng cách trị chuyện, có khả năng nhắc nhở, làm trợ lý cơng việc và
có thể theo dõi tình trạng sức khỏe cá nhân mọi lúc, mọi nơi.


Hệ thống trả lời tự động hay trợ lý ảo đang là chủ đề rất nóng từ đầu năm
2016, khi chính thức các cơng ty lớn nhƣ Microsoft, Google, Facebook, Apple,
Samsung, WeChat, Slack đã giới thiệu các trợ lý ảo của mình, là các hệ thống
trả lời tự động. Chính thức đặt cƣợc lớn vào cuộc chơi tạo những những thế hệ
trợ lý ảo, với mong muốn tạo ra một trợ lý ảo thực sự thông minh tồn tại trong
hệ sinh thái các sản phẩm của mình.


Trong nƣớc, một số cơng ty nhƣ ERM và Vietcare đã phát triển tạo ra hệ


thống trả lời tự động về kiến thức y khoa, hỏi đáp về sức khỏe thông tin y tế, hay
Subiz, Messnow, Harafunnel, Chatbot Vietnam, … cũng đang cố gắng tạo ra
cho mình một hệ thống hỗ trợ, chăm sóc khách hàng và bán hàng tự động.


Trong lĩnh vực y tế, một số công ty cũng đã ứng dụng Robot Đón tiếp nhƣ
một sản phẩm của Trí tuệ nhân tạo, Robot là một sản phẩm của quá trình chuyển
đổi số y tế, là nhân tố không thể thiếu trong một bệnh viện thông minh. Hỗ trợ
hƣớng dẫn tồn bộ các quy trình từ khám chữa bệnh đến chỉ dẫn, có thể kết nối
với hệ thống thông tin y tế khác.


</div>
<span class='text_page_counter'>(12)</span><div class='page_container' data-page=12>

Có thể thấy, hệ thống trả lời tự động có những nhiệm vụ và vai trị quan
trọng, có thể trợ giúp đƣợc con ngƣời rất nhiều trong rất nhiều lĩnh vực: y tế,
giáo dục, thƣơng mại điện tử, …, là động lực to lớn để nghiên cứu và đƣa ra các
sản phẩm phù hợp ứng dụng vào thực tế.


<b>2. Mục tiêu của luận văn </b>


Với cơ sở thực tiễn trên, luận văn này đặt ra mục tiêu nghiên cứu một số
phƣơng pháp xử lý ngôn ngữ tự nhiên để phân tích câu hỏi, câu mệnh lệnh, cho
phép phân loại các văn bản đầu vào là các câu nói tiếng Việt có tính chất sai
khiến, u cầu ra lệnh. Nhằm giải quyết một phần nhỏ trong một hệ thống Hỏi
đáp và Đón tiếp bệnh nhân tại các cơ sở y tế.


Từ đó, xây dựng một mơ hình phân loại văn bản để dự đốn đƣợc ý định
của văn bản đầu vào. Từ kết quả thu đƣợc, sẽ đƣợc sử dụng để ứng dụng vào bài
tốn Đón tiếp và phân loại bệnh nhân đến phòng khám phù hợp tại các cơ sở
khám chữa bệnh.


<b>3. Cấu trúc của luận văn </b>



Các nghiên cứu và kết quả đƣợc mô tả trong luận văn đƣợc chia thành bố
cục với các nội dung nhƣ sau:


<b>CHƢƠNG 1: Giới thiệu tổng quan; Giới thiệu tổng quan về hệ thống trả </b>
lời tự động, tình hình nghiên cứu trong và ngoài nƣớc; Nghiên cứu về cơ sở xử
lý ngôn ngữ tự nhiên và các ứng dụng;tìm hiểu bài toán phân loại văn bản và
Các phƣơng pháp phân loại văn bản.


<b>CHƢƠNG2: Phân tích câu hỏi trong hệ thống trả lời tự dộng; Nghiên </b>
cứu các vấn đề cơ bản của hệ thống trả lời tự động, tìm hiểu các phƣơng pháp
xác định ý định ngƣời dùng bằng phƣơng pháp học máy; Nghiên cứu phƣơng
pháp đánh giá một hệ thống thống phân lớp ý định.


</div>
<span class='text_page_counter'>(13)</span><div class='page_container' data-page=13>

<b>KẾT LUẬN VÀ KIẾN NGHỊ: Phần này đƣa ra các kết luận và đánh giá </b>
kết quả đạt đƣợc của luận văn, một số đề xuất để cải tiến mô hình, cũng nhƣ khả
năng ứng dụng vào bài tốn thực tế.


</div>
<span class='text_page_counter'>(14)</span><div class='page_container' data-page=14>

Xây dựng hệ thống trả lời tự động là một bài tốn khó thuộc lĩnh vực xử
lý ngơn ngữ tự nhiên. Bởi vì tính nhập nhằng, đa nghĩa, đa ngữ cảnh của ngôn
ngữ tự nhiên. Bài toán đặt ra nhiều thách thức để phát hiện ra đƣợc câu trả lời
phù hợp nhất, thơng tin hữu ích nhất.


Chƣơng này sẽ giới thiệu tổng quan về hệ thống đối thoại ngƣời máy, các
nghiên cứu ở trong và ngoài nƣớc để thấy đƣợc các phƣơng pháp tiếp cận là rất
phong phú, sau đó tổng quan và phân loại các mơ hình trả lời tự động. Tìm hiểu
và giới thiệu bài toán phân loại văn bản, các lý thuyết về học máy, các phƣơng
pháp đánh giá một hệ thống phân lớp.


<b>1 </b> <b>Tổng quan về hệ thống trả lời tự động </b>



Hệ thống hộp thoại (Dialogue systems), còn đƣợc gọi là trợ lý tƣơng tác
hội thoại, trợ lý ảo và đôi khi đƣợc gọi với thuật ngữ là chatbot, đƣợc sử dụng
rộng rãi trong các ứng dụng khác nhau, từ các dịch vụ kỹ thuật cho đến các cơng
cụ có thể học ngơn ngữ và giải trí [22]. Các hệ thống đối thoại có thể đƣợc chia
thành các hệ thống hướng mục tiêu, ví dụ nhƣ các dịch vụ hỗ trợ kỹ thuật, và
<i><b>các hệ thống khơng có định hướng mục tiêu, ví dụ nhƣ các công cụ học ngôn </b></i>
ngữ hoặc các nhân vật trị chơi máy tính [23]. Trong luận văn này tập trung vào
trƣờng hợp thứ nhất, thiết kế một hệ thống hƣớng tới các nhiệm vụ có mục tiêu,
tức là đi xây dựng một mơ hình phân tích ý định của ngƣời dùng cho tiếng Việt
trên tập dữ liệu đƣợc xây dựng theo kịch bản.


Một trong những thách thức chính trong phát triển của hệ thống đối thoại
ngƣời máy hƣớng nhiệm vụ, và trong việc mở rộng chúng trong nhiều miền ứng
dụng, đƣợc nhắc đến trong [24], là sự sẵn có của dữ liệu trên một miền hội thoại
cụ thể. Hệ thống đối thoại cần kết hợp và khai thác nhiều thành phần, ví dụ nhƣ
nhận dạng giọng nói, hiểu ngơn ngữ tự nhiên, giám sát hội thoại, phát sinh ngôn
ngữ tự nhiên, và mỗi thành phần này yêu cầu sẵn có nguồn dữ liệu trên miền cụ
thể, tài nguyên và các mơ hình. Bao gồm các mơ hình ngơn ngữ, mơ hình ngữ
âm, mơ hình hiểu ngơn ngữ, các miền bản thể Ontology, các kịch bản tƣơng tác,
các mơ hình sinh ngơn ngữ, …


</div>
<span class='text_page_counter'>(15)</span><div class='page_container' data-page=15>

dữ liệu thoại dẫn đến chi phí phát triển cao và tiêu tốn thời gian cho các nhà phát
triển hệ thống. Trừ khi các nguồn lực bên ngoài đã có sẵn trong miền tập dữ liệu
yêu cầu phải có một hệ thống triển khai có khả năng duy trì một cuộc đối thoại
với ngƣời dùng. Điều này dẫn đến một vấn đề khởi đầu: do thiếu dữ liệu để huấn
luyện hệ thống ban đầu, các nhà phát triển hệ thống mang gánh nặng về việc
phát triển văn phạm và các mơ hình ngơn ngữ, hoặc là thủ cơng [24]. Thu thập
dữ liệu hội thoại với phiên bản đầu tiên của một hệ thống đƣợc triển khai thƣờng
có thiếu sót: chất lƣợng dữ liệu thu thập có thể phải chịu những bất cập của hệ
thống chính nó, và ngƣời dùng có thể chịu ảnh hƣởng ngôn ngữ của chúng để


điều chỉnh cho những khuyết điểm của hệ thống trong việc theo hết một cuộc
đối thoại. Kết quả là, tốc độ của tập dữ liệu có thể chậm hơn so với mong muốn.
Cuối cùng, quá trình phát triển tốn kém này phải đƣợc lặp đi lặp lại trên một lần
nữa cho mỗi miền hoặc hệ thống mới, hoặc ngay cả khi chức năng mới đƣợc
thêm vào.


<b>1.1 </b> <b>Hệ thống hƣớng nhiệm vụ và hƣớng hội thoại </b>


Các hệ thống trả lời tự động giao tiếp với ngƣời dùng bằng ngôn ngữ tự
nhiên (văn bản, giọng nói, hoặc cả hai) thƣờng đƣợc chia vào hai nhóm chính:
<b>Hƣớng nhiệm vụ hoặc hƣớng hội thoại: </b>


Các hệ thống hƣớng nhiệm vụ đƣợc thiết kế cho một tác vụ cụ thể và
đƣợc thiết lập để có các cuộc hội thoại ngắn (từ một tƣơng tác đơn lẻ đến các
hàng loạt các tƣơng tác liên tiếp) để lấy thông tin từ ngƣời dùng để giúp hoàn
thành tác vụ.


Ngày nay mà chúng ta có thể thấy sự hiện diện của chúng trên các thiết bị
di động hoặc trên bộ điều khiển gia đình (Siri, Cortana, Alexa, Google Home,
v.v.) mà các hệ thốnghội thoại có thể đƣa ra chỉ dẫn tìm đƣờng, điều khiển thiết
bị gia đình, tìm nhà hàng hoặc giúp gọi điện thoại hoặc gửi văn bản. Các công ty
triển khai các tác tử đàm thoại trên trang web của họ để giúp khách hàng trả lời
các câu hỏi hoặc giải quyết các vấn đề một cách tự động. Tác tử đàm thoại đóng
một vai trị quan trọng nhƣ một giao diệncho robot để có thể giao tiếp.


</div>
<span class='text_page_counter'>(16)</span><div class='page_container' data-page=16>

trung vào một nhiệm vụ cụ thể nhƣ đặt vé máy bay. Các hệ thống này thƣờng có
giá trị giải trí, chẳng hạn nhƣ hệ thống Microsoft Xiao XiaoIce (Little Bing)
(Microsoft, 2014), trò chuyện với mọi ngƣời trên nền tảng nhắn tin văn bản.


Trên phƣơng tiện truyền thông và trong công nghiệp, các tác tử đàm thoại


ngƣời-máy thƣờng đƣợc gọi bằng thuật ngữ Chatbots, và các chƣơng trình này,
cũng thƣờng cố gắng vƣợt qua các bài kiểm tra thử nghiệm Turing khác nhau.


Tuy nhiên, một hệ thống đầu tiên rất sớm, ELIZA (Weizenbaum, 1966),
những Chatbots cũng đã đƣợc sử dụng cho các mục đích thực tế, chẳng hạn nhƣ
kiểm tra các lý thuyết về tƣ vấn tâm lý.


<b>1.2 </b> <b>Tình hình nghiên cứu trong và ngồi nƣớc </b>


Việc nghiên cứu vềhệ thống trả lời tự động có ý nghĩa trong khoa học và
thực tế. Đã có rất nhiều các hội nghị thƣờng niên về xử lý ngôn ngữ tự nhiên,
khai phá dữ liệu, xử lý dữ liệu lớn, tƣơng tác ngƣời máy, … nhƣ TREC, CLEF,
tại Việt Nam có KSE, RIVF, ATC, …


Theo ý tƣởng của Russellvà cộng sự [25], thì một hệ thống AI phải đƣợc
<b>kiểm tra (hành động dƣới sự ràng buộc hình thức và phù hợp với các điều kiện </b>
kỹ thuật); phải đƣợc xác nhận (không theo đuổi các hành vi không mong muốn
dƣới sự ràng buộc trƣớc); phải an toàn (ngăn chặn các thao tác có chủ ý của các
bên thứ ba, hoặc bên ngồi hoặc bên trong); và phải đƣợc kiểm sốt (con ngƣời
cần phải có cách để thiết lập lại kiểm soát nếu cần thiết).


</div>
<span class='text_page_counter'>(17)</span><div class='page_container' data-page=17>

liệu cho việc xây dựng hệ thống đối thoại, và họ đã trích xuất ra 1,3 triệu cuộc
hội thoại từ Twitter với mục đích là phát hiện ra các hành động trong cuộc hội
thoại. Bằng việc xây dựng dựa trên sự tƣơng đồng về phân phối trong khn khổ
mơ hình không gian vector, Banchs và Li (2012) [33] đã xây dựng một cơng cụ
tìm kiếm để lấy câu trả lời thích hợp cho bất kỳ một thơng điệp đầu vào. Phƣơng
pháp tiếp cận khác tập trung vào nhiệm vụ trên một lĩnh vực cụ thể nhƣ các trò
chơi [34], và các nhà hàng ăn uống (2016) [35,36].


</div>
<span class='text_page_counter'>(18)</span><div class='page_container' data-page=18>

<b>2.1 </b> <b>Sơ lƣợc về ngôn ngữ tự nhiên </b>



Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP), là một
lĩnh vực khoa học máy tính, kỹ thuật thơng tin và trí tuệ nhân tạo tập trung vào
nghiên cứu các tƣơng tác về mặt ngơn ngữ giữa máy tính và con ngƣời, cụ thể
hơn là làm thế nào để lập trình cho máy tính xử lý và phân tích một lƣợng lớn
dữ liệu ngôn ngữ tự nhiên.


Theo cách hiểu khác, NLP quan tâm đến việc làm thế nào để máy tính
hiểu và tận dụng đƣợc các tập dữ liệu sẵn có dƣới dạng ngôn ngữ tự nhiên. NLP
đã đƣợc ứng dụng rộng rãi trong thực tế nhằm: tiết kiệm sức lao động, thúc đẩy
các ngành nghề kinh doanh mới, và giúp các nhà hoạch định chiến lƣợc trong
việc đƣa ra quyết định, …


Ngôn ngữ tự nhiên không giống với ngôn ngữ nhân tạo nhƣ ngơn ngữ
máy tính (C, PHP, …). Trên thế giới hiện nay có khoảng 7000 loại ngơn ngữ.
Có nhiều cách để phân loại, một số cách phân loại ngôn ngữ phổ biến nhƣ dựa
vào: nguồn gốc, đặc điểm, …


<b>Phân loại ngôn ngữ theo nguồn gốc: </b>


1. Ấn – Âu : Dòng Ấn độ, Hy lạp, German, …


2. Xê-mít (Semite): Dịng Semite, Do Thái, Ả Rập, Ai cập, Kusit, …
3. Thổ: Thổ Nhĩ Kỳ


4. Hán Tạng (Tạng-Miến): Dòng Hán, Tạng-Miến, …
5. Nam Phƣơng: Dòng Nam-Thái, Nam Á (Tiếng Việt).
<b>Phân loại ngơn ngữ theo đặc điểm: </b>


1. Hịa kết (Flexional): Đức, Anh, Nga…



2. Chắp dính (Agglutinate): Thổ Nhĩ Kỳ, Nhật Bản, Triều Tiên, …
3. Đơn lập (Isolate): Tiếng Việt, Hán, …


4. Tổng hợp (Polysynthetic): Chukchi, Aniu…


</div>
<span class='text_page_counter'>(19)</span><div class='page_container' data-page=19>

<b>Ngơn ngữ </b> <b>Câu ví dụ </b> <b>Trật tự </b>


Tiếng Việt Tôi đọc sách SVO


Tiếng Anh I read a book SVO


Tiếng Nhật 私は本を読みます SOV


<b>2.2 </b> <b>Các ứng dụng xử lý ngôn ngữ tự nhiên </b>


Các ứng dụng phổ biến của NLP bao gồm: ứng dụng giám sát mạng xã
hội, chatbot, và tổng đài trả lời tự động.


<b>2.3 </b> <b>Tiền xử lý văn bản </b>


Văn bản trƣớc khi đƣợc vector hoá, tức là trƣớc khi sử dụng văn bản cần
phải đƣợc tiền xử lý, để loại bỏ nhiễu và làm sạch dữ liệu. Quá trình tiền xử lý
sẽ giúp nâng cao hiệu suất phân loại và giảm độ phức tạp của thuật toán huấn
luyện.


Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phƣơng pháp
tiền xử lý văn bản khác nhau, nhƣ :


1. Chuyển vẳn bản về chữ thƣờng.



2. Loại bỏ dấu câu (nếu không thực hiện tách câu).


3. Loại bỏ các kí tự đặc biệt biệt, các chữ số, phép tính tốn số học.
4. Loại bỏ các từ dừng stopword (những từ xuất hiện hầu hết trong các


văn bản) khơng có ý nghĩa khi tham gia vào phân loại văn bản
5. Các kỹ thuật tinh chỉnh khác dựa trên kinh nghiệm


<b>2.3.1 </b> <b>Chuẩn hóa và biến đổi văn bản </b>


Một trong những nhiệm vụ đầu tiên trong việc xử lý phân loại văn bản là
chọn đƣợc một mơ hình biểu diễn văn bản thích hợp. Một văn bản ở dạng thô
(dạng chuỗi) cần đƣợc chuyển sang một mô hình khác để tạo thuận lợi cho việc
biểu diễn và tính tốn.


</div>
<span class='text_page_counter'>(20)</span><div class='page_container' data-page=20>

đo lƣờng giá trị của phần tử văn bản.


<b>2.3.2 </b> <b>Biểu diễn văn bản dƣới dạng vector </b>


Mơ hình khơng gian vector là một trong những mơ hình đƣợc sử dụng
rộng rãi nhất cho việc tìm kiếm (truy hồi) thơng tin. Ngun nhân chính là bởi vì
sự đơn giản của nó.


Trong mơ hình này, các văn bản đƣợc thể hiện trong một không gian có
số chiều lớn, trong đó mỗi chiều của không gian tƣơng ứng với một từ trong văn
bản. Phƣơng pháp này có thể biểu diễn một cách hình tƣợng nhƣ sau : mỗi văn
bản D đƣợc biểu diễn dƣới dạng ⃗ (vector đặc trƣng cho văn bản D). Trong đó,
⃗ , và n là số lƣợng đặc trƣng hay số chiều của vector văn bản,



là trọng số của đặc trƣng thứ i (với 1≤ i ≤n).


Nhƣ vậy, nếu trong kho ngữ liệu của quá trình huấn luyện nhiều văn bản,
ta kí hiệu Dj, là văn bản thứ j trong tập ngữ liệu, và vector <sub> </sub> <sub> </sub> <sub> </sub>
là vector đặc trƣng cho văn bản Dj, và <sub> </sub>là trọng số thứ i của vector văn bản j.
<b>3 </b> <b>Bài toán phân loại văn bản </b>


<b>3.1 </b> <b>Bài toán phân loại văn bản </b>


Trong lĩnh vực xử lý ngôn ngữ tự nhiên, phân loại văn bản là một bài toán
xử lý văn bản cổ điển, có nhiệm vụ là ánh xạ một văn bản vào một chủ đề đã
biết trong một tập hữu hạn các chủ đề dựa trên ngữ nghĩa của văn bản. Theo
Yang & Xiu (1999)[1] “Phân loại văn bản tự động là việc gán các nhãn phân
<i>loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các </i>
<i>văn bản đã được gán nhãn trong tập huấn luyện”. Ví dụ một bài viết trong một </i>
tờ báo có thể thuộc một (hoặc một vài) chủ đề nào đó (nhƣ thể thao, sức khỏe,
công nghệ thông tin,…). Việc tự động phân loại văn bản vào một chủ đề nào đó
giúp cho việc sắp xếp, lƣu trữ và truy vấn tài liệu dễ dàng hơn về sau.


</div>

<!--links-->
Một số giải pháp nâng cao chất lượng đội ngũ nữ cán bộ quản lý giáo dục của thành phố vinh, tỉnh nghệ an luận văn thạc sĩ khoa học giáo dục
  • 107
  • 2
  • 12
  • ×