Tải bản đầy đủ (.pdf) (75 trang)

(Luận văn thạc sĩ) - Phân tích câu hỏi tiếng Việt trong hệ thống đón tiếp và phân loại bệnh nhân

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.04 MB, 75 trang )

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM


Lƣu Thị Vân

PHÂN TÍCH CÂU HỎI TIẾNG VIỆT
TRONG HỆ THỐNG ĐĨN TIẾP VÀ PHÂN LOẠI BỆNH NHÂN

LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH

HÀ NỘI - 2020


VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM


Lƣu Thị Vân

PHÂN TÍCH CÂU HỎI TIẾNG VIỆT
TRONG HỆ THỐNG ĐĨN TIẾP VÀ PHÂN LOẠI BỆNH NHÂN

Chuyên ngành: Hệ thống thông tin
Mã số: 8 48 01 04

LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH

CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS.Nguyễn Nhƣ Sơn

Nguyễn Nhƣ Sơn



HÀ NỘI – 2020


LỜI CAM ĐOAN
Tơi là Lƣu Thị Vân, học viên khóa I, ngành Công nghệ thông tin, chuyên
ngành Hệ Thống Thông Tin. Tơi xin cam đoan luận văn “Phân tích câu hỏi
Tiếng Việt trong hệ thống đón tiếp và phân loại bệnh nhân” là do tơi nghiên cứu,
tìm hiểu và phát triển dƣới sự hƣớng dẫn của TS. Nguyễn Nhƣ Sơn. Luận văn
không phải sự sao chép từ các tài liệu, cơng trình nghiên cứu của ngƣời khác mà
khơng ghi rõ trong tài liệu tham khảo. Tôi xin chịu trách nhiệm về lời cam đoan
này.

Hà Nội, tháng 10 năm 2020
Học viên

Lƣu Thị Vân


LỜI CẢM ƠN
Đầu tiên tôi xin gửi lời cảm ơn tới các thầy cô Học viện Khoa học và
Công nghệ nghệ Việt nam, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã
tận tình giảng dạy và truyền đạt kiến thức cho tơi trong suốt khóa học cao học
vừa qua.Tôi cũng xin đƣợc gửi lời cảm ơn đến các thầy cô trong Bộ môn Hệ
thống thông tin cũng nhƣ Khoa công nghệ thông tin đã mang lại cho tôi những
kiến thức vơ cùng q giá và bổ ích trong quá trình học tập tại trƣờng.
Đặc biệt xin chân thành cảm ơn thầy giáo, TS. Nguyễn Nhƣ Sơn, ngƣời
đã định hƣớng, giúp đỡ, trực tiếp hƣớng dẫn và tận tình chỉ bảo tơi trong suốt
q
trình nghiên cứu, xây dựng và hồn thiện luận văn này.

Tơi cũng xin đƣợc cảm ơn tới gia đình, những ngƣời thân, các đồng
nghiệp và bạn bè đã thƣờng xuyên quan tâm, động viên, chia sẻ kinh nghiệm,
cung cấp các tài liệu hữu ích trong thời gian học tập, nghiên cứu cũng nhƣ trong
suốt quá trình thực hiện luận văn tốt nghiệp.
Hà Nội, tháng 10 năm 2020
Học viên

Lƣu Thị Vân


MỤC LỤC
LỜI CAM ĐOAN.................................................................................................. 2
LỜI CẢM ƠN ....................................................................................................... 3
MỤC LỤC ............................................................................................................. 4
DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT ............................ 6
DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ................................................................... 7
DANH MỤC CÁC BẢNG BIỂU ......................................................................... 7
TÓM TẮT ............................................................................................................. 8
MỞ ĐẦU ............................................................................................................. 10
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN ........................................................ 13
1

Tổng quan về hệ thống trả lời tự động....................................................... 13

1.1

Hệ thống hƣớng nhiệm vụ và hƣớng hội thoại ....................................... 14

1.2


Tình hình nghiên cứu trong và ngồi nƣớc ............................................ 15

2

Xử lý ngơn ngữ tự nhiên và ứng dụng ....................................................... 17

2.1

Sơ lƣợc về ngôn ngữ tự nhiên................................................................. 17

2.2

Các ứng dụng xử lý ngôn ngữ tự nhiên .................................................. 18

2.3

Tiền xử lý văn bản .................................................................................. 18

2.3.1

Chuẩn hóa và biến đổi văn bản ........................................................... 18

2.3.2

Biểu diễn văn bản dƣới dạng vector .................................................... 19

3

Bài toán phân loại văn bản......................................................................... 19


3.1

Bài toán phân loại văn bản ..................................................................... 19

3.2

Một số thuật toán phân loại văn bản ...................................................... 20

3.2.1

Thuật toán Naive Bayes ....................................................................... 20

3.2.2

Thuật toán SVM ................................................................................... 23

3.2.3

Mạng nơ-ron nhân tạo......................................................................... 31

3.3

Các phƣơng pháp đánh giá một hệ thống phân lớp ................................ 36

3.3.1

Đánh giá theo độ chính xác Accuracy ................................................. 37

3.3.2


Ma trận nhầm lẫn ................................................................................. 37


3.3.3

True/False Positive/Negative .............................................................. 39

3.3.4

Precision và Recall .............................................................................. 40

3.3.5

F1-Score............................................................................................... 42

CHƢƠNG 2: PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG TRẢ LỜI TỰ
ĐỘNG ................................................................................................................. 44
1

Vấn đề cơ bản của một hệ thống trả lời tự động........................................ 44

2

Bài toán phân loại câu hỏi ......................................................................... 46

2.1

Phát biểu bài toán.................................................................................... 46

2.2


Các phƣơng pháp phân loại câu hỏi ....................................................... 46

2.2.1

Phân loại câu hỏi dựa trên luật ............................................................ 47

2.2.2

Phƣơng pháp sử dụng mơ hình ngơn ngữ............................................ 48

2.2.3

Phân loại câu hỏi dựa vào học máy ..................................................... 48
Trích chọn đặc trƣng cho phân tích câu hỏi ........................................... 51

2.3
2.3.1

Đặc trƣng về từ vựng ........................................................................... 51

2.3.2

Đặc trƣng về cú pháp ........................................................................... 53

2.3.3

Đặc trƣng về ngữ nghĩa ....................................................................... 54

3


Sự phân loại câu hỏi Taxonomy ................................................................ 55

3.1

Khái niệm Taxonomy ............................................................................. 55

3.2

Taxonomy câu hỏi .................................................................................. 55

3.3

Mơ hình phân lớp đa cấp ........................................................................ 59

4

Một số kết quả nghiên cứu......................................................................... 60

CHƢƠNG 3: XÂY DỰNG MƠ HÌNH VÀ ĐÁNH GIÁ THỰC NGHIỆM...... 62
1

Kiến trúc ứng dụng .................................................................................... 62

2

Xây dựng và cài đặt mơ hình ..................................................................... 63

2.1


Tập dữ liệu thực nghiệm ......................................................................... 63

2.2

Công cụ thực nghiệm .............................................................................. 65

2.3

Lựa chọn đặc trƣng ................................................................................. 66

3

Đánh giá kết quả thực nghiệm ................................................................... 67

KẾT LUẬN ......................................................................................................... 69
TÀI LIỆU THAM KHẢO ................................................................................... 70


DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT
Từ viết tắt
Từ chuẩn
Diễn giải
AI
Artificial Intelligence
Trí tuệ nhân tạo
ML
Machine Learning
Máy học, máy móc có khả năng học
tập
ANN

Artificial Nerual Network
Mạng nơ ron nhân tạo
NLP
Natural Languague
Xử lý ngôn ngữ tự nhiên
Processing
VNTK
Vietnamese NLP Toolkit
Bộ công cụ xử lý ngôn ngữ tiếng Việt
for Node
NLTK
Natural Language Toolkit
Bộ công cụ xử lý ngôn ngữ tự nhiên
bằng Python
Python
Python
Ngôn ngữ lập trình python, nền tảng
lập trình phía máy chủ
SDK
Support Development Kit
Bộ công cụ hỗ trợ phát triển
CPU
Central Processing Unit
Bộ xử lý trung tâm
GPU
Graphics Processing Unit
Bộ vi xử lý chuyên dụng nhận nhiệm
vụ tăng tốc, xử lý đồ họa cho bộ vi xử
lý trung tâm CPU
API

Application Programming
Giao diện lập trình ứng dụng
Interface
QA
Question Answering
Các cặp câu hỏi đáp
Agent
Agent hay Software Agent Tác tử hay Tác tử phần mềm, là một
chƣơng trình máy tính tồn tại trong
một mơi trƣờng nhất định, tự động
hành động phản ứng lại sự thay đổi
của môi trƣờng nhằm đáp ứng mục
tiêu đã đƣợc thiết kế trƣớc
Conversational Conversational agents
Các tác tử đàm thoại là tác tử có khả
agents
năng giao tiếp thơng qua văn bản
hoặc lời nói
NBC
Naive Bayes Classifier
Bộ phân lớp Naïve Bayes
TREC
Text REtrieval Conference Hội nghị về truy hồi thơng tin
SVM
Support Vector Machine
Một thuật tốn học máy có giám sát
đƣợc sử dụng rất phổ biến ngày nay
trong các bài toán phân lớp
(classification)
hay

hồi
qui
(Regression)


DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ
Hình 1: Mặt phân cách dữ liệu ............................................................................ 24
Hình 2. Lề siêu phẳng ......................................................................................... 24
Hình 3. Dữ liệu phi tuyến .................................................................................... 27
Hình 4. Khơng gian dữ liệu phi tuyến ................................................................. 29
Hình 5. Kiến trúc mạng nơ-ron nhân tạo ............................................................ 32
Hình 6. Quá trình xử lý thơng tin của một mạng nơ-ron nhân tạo...................... 33
Hình 7. Minh hoạ unnormalized confusion và normalized confusion matrix .... 39
Hình 8. Cách tính Precision và Recall ................................................................ 41
Hình 9. Các bƣớc cơ bản trong hệ thống trả lời tự động .................................... 44
Hình 10. Mơ hình giai đoạn huấn luyện.............................................................. 49
Hình 11. Các bƣớc thực hiện giai đoạn huấn luyện ............................................ 50
Hình 12. Mơ hình giai đoạn phân lớp ................................................................. 51
Hình 13. Bộ phân lớp đa cấp của Li và Roth ...................................................... 60
Hình 14. Kiến trúc tổng quan của hệ thống phân loại câu hỏi ............................ 63
Hình 15. Tập dữ liệu huấn luyện ......................................................................... 64
Hình 16. Tập dữ liệu kiểm tra ............................................................................. 64
DANH MỤC CÁC BẢNG BIỂU
Bảng 1. Một vài so sánh các cách sắp xếp trật tự câu ......................................... 18
Bảng 2. Dữ liệu tập mẫu tính xác suất theo phƣơng pháp Naive Bayes ............. 21
Bảng 3. Biểu diễn các đặc trƣng của một câu hỏi ............................................... 52
Bảng 4. Taxonomy câu hỏi ................................................................................. 56
Bảng 5. Độ chính xác phân loại câu hỏi với các thuật toán học máy khác nhau 61
Bảng 6. Thông tin phần cứng thực nghiệm ......................................................... 65
Bảng 7. Các công cụ, thƣ viện sử dụng............................................................... 65

Bảng 8. Độ chính xác kết quả thực nghiệm SVM với các đặc trƣng khác nhau 67


TĨM TẮT
Sự phát triển mạnh mẽ của Cơng nghệ thơng tin trong những năm gần
đây, đặc biệt trong bối cảnh cuộc cách mạng công nghiệp lần thứ tƣ đang tác
động tới nhiều ngành nghề, nhiều lĩnh vực, trong đó có ngành y tế, đòi hỏi các
bệnh viện và các cơ sở y tế phải không ngừng đổi mới để nâng cao chất lƣợng
dịch vụ khám chữa bệnh, nâng cao hiệu suất làm việc của bác sĩ, giảm chi phí
khám chữa bệnh, giảm thời gian chờ đợi của bệnh nhân.
Ứng dụng những cơng nghệ mới nhƣ : Trí tuệ nhân tạo (AI), Dữ liệu lớn
(Big Data), Điện toán đám mây (Cloud Computing), Kết nối vạn vật (IOT), Di
động (Mobility), … sẽ giúp các lãnh đạo của bệnh viện và các cơ sở y tế có thể
quản lý tồn bộ hoạt động với các số liệu chính xác, trung thực và trực tuyến.
Việc ứng dụng công nghệ thông tin (CNTT) trong công tác bảo vệ, chăm sóc,
nâng cao sức khỏe ở Việt Nam đã có những bƣớc phát triển quan trọng, đặt nền
móng xây dựng, triển khai và vận hành nền y tế thơng minh.
Trí tuệ nhân tạo (AI – Artificial Intelligent) là một ngành của Khoa học
máy tính liên quan đến việc mơ phỏng các q trình suy nghĩ và học tập của con
ngƣời cho máy móc, đặc biệt là cho các hệ thống máy tính. Các q trình này
bao gồm việc học tập (thu thập thông tin và thiết lập các quy tắc sử dụng thông
tin), lập luận (sử dụng các quy tắc để đạt đƣợc kết luận gần đúng hoặc xác định),
và tự sửa lỗi. AI gần đây trở nên bùng nổ, nhận đƣợc nhiều sự quan tâm là nhờ
Dữ liệu lớn (Big data) phát triển, cho phép xử lý công nghệ AI với tốc độ nhanh
hơn bao giờ hết. Một số ứng dụng điển hình của AI trong lĩnh vực y tế có thể kể
đến nhƣ : (1) Phẫu thuật với sự hỗ trợ của Robot cho phép bác sĩ thực hiện
nhiều quy trình phức tạp cùng với sự kiểm soát tốt hơn ; (2) Trợ lý y tá ảo
hƣớng dẫn và tƣơng tác với bệnh nhân, thực hiện các biện pháp chăm sóc tránh
việc thăm khám khơng cần thiết ; (3) Hỗ trợ chẩn đoán lâm sàng nhƣ phát hiện
ung thƣ, hay việc hỗ trợ đƣa ra phác đồ điều trị ; (4)Tự động hóa các tác vụ

quản trị giúp tiết kiệm thời gian, giúp giảm bớt khối lƣợng công việc và nhiệm
vụ quản trị ; (5) Phân tích hình ảnh giúp bác sĩ đƣa ra đƣợc kết luận chính xác
về các tổn thƣơng trên các hình ảnh X-Quang, CT, MRI, ....
Đón tiếp và phân loại bệnh nhân là một bài toán quan trọng trong việc


đón tiếp bệnh nhân đến thăm khám và điều trị chữa bệnh tại các cơ sở y tế và
các bệnh viện. Việc đón tiếp liên tục, tự động hóa và nhanh chóng giúp phân
luồng và giảm tải cho cơ sở khám chữa bệnh (KCB) để có thể cứu chữa và thăm
khám đƣợc nhiều bệnh nhân hơn, đồng nghĩa cứu đƣợc nhiều mạng ngƣời hơn.
Từ các yêu cầu thực tế để xây dựng và triển khai một hệ thống có thể tự
động đón tiếp khám bệnh, đón tiếp làm cận lâm sàng, hƣớng dẫn tìm đƣờng,
hƣớng dẫn thủ tục, phân loại khám bệnh cho bệnh nhân dựa vào tập câu hỏi cho
trƣớc thay cho cán bộ đón tiếp. Để xây dựng đƣợc một hệ thống đón tiếp nhƣ
vậy, tơi thực hiện nghiên cứu các phƣơng pháp phân tích câu hỏi tiếng Việt để
tiền xử lý tập lệnh cho hệ thống đón tiếp và phân loại bệnh nhân một cách tự
động.
Phân loại văn bản là q trình gán nhãn hoặc phân nhóm cho văn bản theo
nội dung của nó. Đây là một trong những nhiệm vụ cơ bản của Xử lý ngôn ngữ
tự nhiên với các ứng dụng rộng rãi nhƣ : Phân tích cảm xúc (Sentiment
analysis), gán nhãn chủ đề (Topic labeling), phát hiện thƣ rác (Spam detection),
và phát hiện ý định (Intent detection).
Trong khuôn khổ của đề tài này, nghiên cứu các phƣơng pháp Phân tích
câu hỏi tiếng Việt và đƣa ra một kiến trúc để xây dựng một hệ thống đón
tiếp và phân loại bệnh nhân đƣợc ứng dụng tại các bệnh viện và cơ sở khám
chữa bệnh.
Kết quả chính của mà tơi đạt đƣợc là một mơ hình phân loại văn để xác
định ý định và nhu cầu khám chữa bệnh của ngƣời dân, đối với nhóm đối tƣợng
điều trị bệnh mãn tính, nhóm đối tƣợng tƣ vấn tổng qt. Mơ hình ban đầu đã
cho kết quả rất tính cực, có thể giải quyết đƣợc những vấn đề cơ bản về ngữ

nghĩa, ngữ cảnh và tiến tới giải quyết đƣợc những yêu cầu cao hơn về việc phân
loại và hỗ trợ tự động.


MỞ ĐẦU
1. Động lực nghiên cứu và tính cấp thiết của bài toán thực tế
Trong bối cảnh mạng Internet đã trở lên rất phổ biến nhƣ hiện nay, con
ngƣời kết nối với con ngƣời thông qua mạng xã hội, bất cứ thời gian nào và ở
bất cứ nơi đâu. Sẽ thật tốt hơn nếu có một hệ thống tự động thơng minh hỗ trợ
con ngƣời bằng cách trị chuyện, có khả năng nhắc nhở, làm trợ lý cơng việc và
có thể theo dõi tình trạng sức khỏe cá nhân mọi lúc, mọi nơi.
Hệ thống trả lời tự động hay trợ lý ảo đang là chủ đề rất nóng từ đầu năm
2016, khi chính thức các cơng ty lớn nhƣ Microsoft, Google, Facebook, Apple,
Samsung, WeChat, Slack đã giới thiệu các trợ lý ảo của mình, là các hệ thống
trả lời tự động. Chính thức đặt cƣợc lớn vào cuộc chơi tạo những những thế hệ
trợ lý ảo, với mong muốn tạo ra một trợ lý ảo thực sự thông minh tồn tại trong
hệ sinh thái các sản phẩm của mình.
Trong nƣớc, một số công ty nhƣ ERM và Vietcare đã phát triển tạo ra hệ
thống trả lời tự động về kiến thức y khoa, hỏi đáp về sức khỏe thông tin y tế, hay
Subiz, Messnow, Harafunnel, Chatbot Vietnam, … cũng đang cố gắng tạo ra
cho mình một hệ thống hỗ trợ, chăm sóc khách hàng và bán hàng tự động.
Trong lĩnh vực y tế, một số công ty cũng đã ứng dụng Robot Đón tiếp nhƣ
một sản phẩm của Trí tuệ nhân tạo, Robot là một sản phẩm của quá trình chuyển
đổi số y tế, là nhân tố không thể thiếu trong một bệnh viện thơng minh. Hỗ trợ
hƣớng dẫn tồn bộ các quy trình từ khám chữa bệnh đến chỉ dẫn, có thể kết nối
với hệ thống thơng tin y tế khác.
Nhiều nhà nghiên cứu đang có hi vọng phát triển các trợ lý ảo có thể hiểu
đƣợc ngơn ngữ tự nhiên của con ngƣời, có thể đối thoại và tƣơng tác đƣợc với
con ngƣời một cách tự nhiên. Nhiều ngƣời cho rằng việc sử dụng kỹ thuật xử lý
ngôn ngữ tự nhiên NLP và các kỹ thuật học sâu Deep Learning để làm tăng

đƣợc chất lƣợng và hiệu quả của hệ thống. Nhƣng từ lý thuyết đến thực tế là cả
một chặng đƣờng dài và nhiều thách thức, bằng cách nào đó, con ngƣời có thể
tích hợp Trí tuệ nhân tạo vào các sản phẩm cơng nghiệp của mình.


Có thể thấy, hệ thống trả lời tự động có những nhiệm vụ và vai trị quan
trọng, có thể trợ giúp đƣợc con ngƣời rất nhiều trong rất nhiều lĩnh vực: y tế,
giáo dục, thƣơng mại điện tử, …, là động lực to lớn để nghiên cứu và đƣa ra các
sản phẩm phù hợp ứng dụng vào thực tế.
2. Mục tiêu của luận văn
Với cơ sở thực tiễn trên, luận văn này đặt ra mục tiêu nghiên cứu một số
phƣơng pháp xử lý ngơn ngữ tự nhiên để phân tích câu hỏi, câu mệnh lệnh, cho
phép phân loại các văn bản đầu vào là các câu nói tiếng Việt có tính chất sai
khiến, yêu cầu ra lệnh. Nhằm giải quyết một phần nhỏ trong một hệ thống Hỏi
đáp và Đón tiếp bệnh nhân tại các cơ sở y tế.
Từ đó, xây dựng một mơ hình phân loại văn bản để dự đoán đƣợc ý định
của văn bản đầu vào. Từ kết quả thu đƣợc, sẽ đƣợc sử dụng để ứng dụng vào bài
tốn Đón tiếp và phân loại bệnh nhân đến phòng khám phù hợp tại các cơ sở
khám chữa bệnh.
3. Cấu trúc của luận văn
Các nghiên cứu và kết quả đƣợc mô tả trong luận văn đƣợc chia thành bố
cục với các nội dung nhƣ sau:
CHƢƠNG 1: Giới thiệu tổng quan; Giới thiệu tổng quan về hệ thống trả
lời tự động, tình hình nghiên cứu trong và ngồi nƣớc; Nghiên cứu về cơ sở xử
lý ngôn ngữ tự nhiên và các ứng dụng;tìm hiểu bài tốn phân loại văn bản và
Các phƣơng pháp phân loại văn bản.
CHƢƠNG2: Phân tích câu hỏi trong hệ thống trả lời tự dộng; Nghiên
cứu các vấn đề cơ bản của hệ thống trả lời tự động, tìm hiểu các phƣơng pháp
xác định ý định ngƣời dùng bằng phƣơng pháp học máy; Nghiên cứu phƣơng
pháp đánh giá một hệ thống thống phân lớp ý định.

CHƢƠNG3: Xây dựng mơ hình và đánh giá thực nghiệm; Đề xuất mơ
hình học máy và kiến trúc của ứng dụng, trình bày các kỹ thuật tiền xử lý dữ liệu
đầu vào là các câu nói Tiếng Việt có tính chất sai khiến, yêu cầu ra lệnh.Liệt kê
các vấn đề và giải pháp khắc phục khi huấn luyện mơ hìnhdữ liệu.


KẾT LUẬN VÀ KIẾN NGHỊ: Phần này đƣa ra các kết luận và đánh giá
kết quả đạt đƣợc của luận văn, một số đề xuất để cải tiến mơ hình, cũng nhƣ khả
năng ứng dụng vào bài toán thực tế.
TÀI LIỆU THAM KHẢO: Đƣa ra danh sách các bài báo đƣợc sử dụng
làm tham khảo, tham chiếu cho luận văn.


13
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
Xây dựng hệ thống trả lời tự động là một bài tốn khó thuộc lĩnh vực xử
lý ngơn ngữ tự nhiên. Bởi vì tính nhập nhằng, đa nghĩa, đa ngữ cảnh của ngôn
ngữ tự nhiên. Bài toán đặt ra nhiều thách thức để phát hiện ra đƣợc câu trả lời
phù hợp nhất, thông tin hữu ích nhất.
Chƣơng này sẽ giới thiệu tổng quan về hệ thống đối thoại ngƣời máy, các
nghiên cứu ở trong và ngoài nƣớc để thấy đƣợc các phƣơng pháp tiếp cận là rất
phong phú, sau đó tổng quan và phân loại các mơ hình trả lời tự động. Tìm hiểu
và giới thiệu bài toán phân loại văn bản, các lý thuyết về học máy, các phƣơng
pháp đánh giá một hệ thống phân lớp.
1

Tổng quan về hệ thống trả lời tự động

Hệ thống hộp thoại (Dialogue systems), còn đƣợc gọi là trợ lý tƣơng tác
hội thoại, trợ lý ảo và đôi khi đƣợc gọi với thuật ngữ là chatbot, đƣợc sử dụng

rộng rãi trong các ứng dụng khác nhau, từ các dịch vụ kỹ thuật cho đến các cơng
cụ có thể học ngơn ngữ và giải trí [22]. Các hệ thống đối thoại có thể đƣợc chia
thành các hệ thống hướng mục tiêu, ví dụ nhƣ các dịch vụ hỗ trợ kỹ thuật, và
các hệ thống khơng có định hướng mục tiêu, ví dụ nhƣ các cơng cụ học ngơn
ngữ hoặc các nhân vật trị chơi máy tính [23]. Trong luận văn này tập trung vào
trƣờng hợp thứ nhất, thiết kế một hệ thống hƣớng tới các nhiệm vụ có mục tiêu,
tức là đi xây dựng một mơ hình phân tích ý định của ngƣời dùng cho tiếng Việt
trên tập dữ liệu đƣợc xây dựng theo kịch bản.
Một trong những thách thức chính trong phát triển của hệ thống đối thoại
ngƣời máy hƣớng nhiệm vụ, và trong việc mở rộng chúng trong nhiều miền ứng
dụng, đƣợc nhắc đến trong [24], là sự sẵn có của dữ liệu trên một miền hội thoại
cụ thể. Hệ thống đối thoại cần kết hợp và khai thác nhiều thành phần, ví dụ nhƣ
nhận dạng giọng nói, hiểu ngôn ngữ tự nhiên, giám sát hội thoại, phát sinh ngôn
ngữ tự nhiên, và mỗi thành phần này yêu cầu sẵn có nguồn dữ liệu trên miền cụ
thể, tài ngun và các mơ hình. Bao gồm các mơ hình ngơn ngữ, mơ hình ngữ
âm, mơ hình hiểu ngơn ngữ, các miền bản thể Ontology, các kịch bản tƣơng tác,
các mơ hình sinh ngơn ngữ, …
Mặc dù, nhiều vấn đề AI đã đƣợc hƣởng lợi ích từ các nguồn dữ liệu ngày
càng lớn, thu thập dữ liệu end-to-end cho các hệ thống đối thoại hƣớng nhiệm


14
vụ vẫn cịn là một vấn đề khó khăn. Phƣơng pháp tiếp cận hiện tại để thu thập
dữ liệu thoại dẫn đến chi phí phát triển cao và tiêu tốn thời gian cho các nhà phát
triển hệ thống. Trừ khi các nguồn lực bên ngồi đã có sẵn trong miền tập dữ liệu
yêu cầu phải có một hệ thống triển khai có khả năng duy trì một cuộc đối thoại
với ngƣời dùng. Điều này dẫn đến một vấn đề khởi đầu: do thiếu dữ liệu để huấn
luyện hệ thống ban đầu, các nhà phát triển hệ thống mang gánh nặng về việc
phát triển văn phạm và các mơ hình ngơn ngữ, hoặc là thủ công [24]. Thu thập
dữ liệu hội thoại với phiên bản đầu tiên của một hệ thống đƣợc triển khai thƣờng

có thiếu sót: chất lƣợng dữ liệu thu thập có thể phải chịu những bất cập của hệ
thống chính nó, và ngƣời dùng có thể chịu ảnh hƣởng ngôn ngữ của chúng để
điều chỉnh cho những khuyết điểm của hệ thống trong việc theo hết một cuộc
đối thoại. Kết quả là, tốc độ của tập dữ liệu có thể chậm hơn so với mong muốn.
Cuối cùng, quá trình phát triển tốn kém này phải đƣợc lặp đi lặp lại trên một lần
nữa cho mỗi miền hoặc hệ thống mới, hoặc ngay cả khi chức năng mới đƣợc
thêm vào.
1.1

Hệ thống hƣớng nhiệm vụ và hƣớng hội thoại

Các hệ thống trả lời tự động giao tiếp với ngƣời dùng bằng ngơn ngữ tự
nhiên (văn bản, giọng nói, hoặc cả hai) thƣờng đƣợc chia vào hai nhóm chính:
Hƣớng nhiệm vụ hoặc hƣớng hội thoại:
Các hệ thống hƣớng nhiệm vụ đƣợc thiết kế cho một tác vụ cụ thể và
đƣợc thiết lập để có các cuộc hội thoại ngắn (từ một tƣơng tác đơn lẻ đến các
hàng loạt các tƣơng tác liên tiếp) để lấy thông tin từ ngƣời dùng để giúp hồn
thành tác vụ.
Ngày nay mà chúng ta có thể thấy sự hiện diện của chúng trên các thiết bị
di động hoặc trên bộ điều khiển gia đình (Siri, Cortana, Alexa, Google Home,
v.v.) mà các hệ thốnghội thoại có thể đƣa ra chỉ dẫn tìm đƣờng, điều khiển thiết
bị gia đình, tìm nhà hàng hoặc giúp gọi điện thoại hoặc gửi văn bản. Các công ty
triển khai các tác tử đàm thoại trên trang web của họ để giúp khách hàng trả lời
các câu hỏi hoặc giải quyết các vấn đề một cách tự động. Tác tử đàm thoại đóng
một vai trò quan trọng nhƣ một giao diệncho robot để có thể giao tiếp.
Hệ thống hƣớng hội thoại là các hệ thống đƣợc thiết kế cho các cuộc hội
thoại mở rộng, đƣợc cài đặt để mô phỏng các cuộc hội thoại khơng có cấu trúc


15

hoặc mô phỏng lại đặc trƣng của sự tƣơng tác giữa ngƣời và ngƣời, thay vì tập
trung vào một nhiệm vụ cụ thể nhƣ đặt vé máy bay. Các hệ thống này thƣờng có
giá trị giải trí, chẳng hạn nhƣ hệ thống Microsoft Xiao XiaoIce (Little Bing)
(Microsoft, 2014), trò chuyện với mọi ngƣời trên nền tảng nhắn tin văn bản.
Trên phƣơng tiện truyền thông và trong công nghiệp, các tác tử đàm thoại
ngƣời-máy thƣờng đƣợc gọi bằng thuật ngữ Chatbots, và các chƣơng trình này,
cũng thƣờng cố gắng vƣợt qua các bài kiểm tra thử nghiệm Turing khác nhau.
Tuy nhiên, một hệ thống đầu tiên rất sớm, ELIZA (Weizenbaum, 1966),
những Chatbots cũng đã đƣợc sử dụng cho các mục đích thực tế, chẳng hạn nhƣ
kiểm tra các lý thuyết về tƣ vấn tâm lý.
1.2

Tình hình nghiên cứu trong và ngồi nƣớc

Việc nghiên cứu vềhệ thống trả lời tự động có ý nghĩa trong khoa học và
thực tế. Đã có rất nhiều các hội nghị thƣờng niên về xử lý ngôn ngữ tự nhiên,
khai phá dữ liệu, xử lý dữ liệu lớn, tƣơng tác ngƣời máy, … nhƣ TREC, CLEF,
tại Việt Nam có KSE, RIVF, ATC, …
Theo ý tƣởng của Russellvà cộng sự [25], thì một hệ thống AI phải đƣợc
kiểm tra (hành động dƣới sự ràng buộc hình thức và phù hợp với các điều kiện
kỹ thuật); phải đƣợc xác nhận (không theo đuổi các hành vi không mong muốn
dƣới sự ràng buộc trƣớc); phải an toàn (ngăn chặn các thao tác có chủ ý của các
bên thứ ba, hoặc bên ngồi hoặc bên trong); và phải đƣợc kiểm sốt (con ngƣời
cần phải có cách để thiết lập lại kiểm soát nếu cần thiết).
Thiết kế hệ thống đối thoại là một nhiệm vụ đầy thách thức và là một
trong những mục tiêu ban đầu của trí tuệ nhân tạo (Turing, 1950) [26]. Trong
nhiều thập kỷ, việc thiết kế tác nhân đối thoại đã giúp các hệ thống dựa trên cơ
sở tri thức và cơ chế dựa trên luật Rule-based để hiểu các thông điệp đầu vào
của con ngƣời và tạo ra các phản hồi đáp ứng hợp lý [27,28,29]. Phƣơng pháp
tiếp cận hƣớng dữ liệu nhấn mạnh vào việc học trực tiếp từ các tập ngữ liệu của

các cuộc đối thoại tiếng nói hoặc văn bản chữ viết. Gần đây, phƣơng pháp này
đã đạt đƣợc hiệu quả vì lợi thế dữ liệu phong phú [23], sức mạnh tính tốn, và
các thuật toán học tốt hơn [30,31].


16
Ritter và cộng sự (2010) [32] đã đề xuất phƣơng pháp tiếp cận hƣớng dữ
liệu cho việc xây dựng hệ thống đối thoại, và họ đã trích xuất ra 1,3 triệu cuộc
hội thoại từ Twitter với mục đích là phát hiện ra các hành động trong cuộc hội
thoại. Bằng việc xây dựng dựa trên sự tƣơng đồng về phân phối trong khn khổ
mơ hình khơng gian vector, Banchs và Li (2012) [33] đã xây dựng một cơng cụ
tìm kiếm để lấy câu trả lời thích hợp cho bất kỳ một thông điệp đầu vào. Phƣơng
pháp tiếp cận khác tập trung vào nhiệm vụ trên một lĩnh vực cụ thể nhƣ các trò
chơi [34], và các nhà hàng ăn uống (2016) [35,36].
Việc xây dựng các chƣơng trình Trả lời tự động và Tác tử đàm thoại
(conversational agents) đã đƣợc theo đuổi bởi nhiều nhà nghiên cứu trong nhiều
thập kỷ qua, và rất nhiều nghiên cứu khác không đƣợc đề cập trong danh mục
tham khảo. Tuy nhiên, hầu hết các hệ thống hội thoại này địi hỏi một quy trình
xử lý khá phức tạp qua nhiều giai đoạn [37, 38].


2

17
Xử lý ngôn ngữ tự nhiên và ứng dụng

2.1

Sơ lƣợc về ngôn ngữ tự nhiên


Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP), là một
lĩnh vực khoa học máy tính, kỹ thuật thơng tin và trí tuệ nhân tạo tập trung vào
nghiên cứu các tƣơng tác về mặt ngơn ngữ giữa máy tính và con ngƣời, cụ thể
hơn là làm thế nào để lập trình cho máy tính xử lý và phân tích một lƣợng lớn
dữ liệu ngơn ngữ tự nhiên.
Theo cách hiểu khác, NLP quan tâm đến việc làm thế nào để máy tính
hiểu và tận dụng đƣợc các tập dữ liệu sẵn có dƣới dạng ngơn ngữ tự nhiên. NLP
đã đƣợc ứng dụng rộng rãi trong thực tế nhằm: tiết kiệm sức lao động, thúc đẩy
các ngành nghề kinh doanh mới, và giúp các nhà hoạch định chiến lƣợc trong
việc đƣa ra quyết định, …
Ngôn ngữ tự nhiên không giống với ngôn ngữ nhân tạo nhƣ ngơn ngữ
máy tính (C, PHP, …). Trên thế giới hiện nay có khoảng 7000 loại ngơn ngữ.
Có nhiều cách để phân loại, một số cách phân loại ngôn ngữ phổ biến nhƣ dựa
vào: nguồn gốc, đặc điểm, …
Phân loại ngôn ngữ theo nguồn gốc:
1.
2.
3.
4.
5.

Ấn – Âu : Dòng Ấn độ, Hy lạp, German, …
Xê-mít (Semite): Dịng Semite, Do Thái, Ả Rập, Ai cập, Kusit, …
Thổ: Thổ Nhĩ Kỳ
Hán Tạng (Tạng-Miến): Dòng Hán, Tạng-Miến, …
Nam Phƣơng: Dòng Nam-Thái, Nam Á (Tiếng Việt).

Phân loại ngơn ngữ theo đặc điểm:
1.
2.

3.
4.

Hịa kết (Flexional): Đức, Anh, Nga…
Chắp dính (Agglutinate): Thổ Nhĩ Kỳ, Nhật Bản, Triều Tiên, …
Đơn lập (Isolate): Tiếng Việt, Hán, …
Tổng hợp (Polysynthetic): Chukchi, Aniu…

Do đó tiếng Việt đƣợc xếp vào loại đơn lập – tức phi hình thái, khơng
biến hình. Cùng với đó, tiếng Việt đƣợc viết theo trật tự S – V – O. (subject (S),
verb (V) and object (O)).


18
Bảng 1. Một vài so sánh các cách sắp xếp trật tự câu
Ngơn ngữ
Tiếng Việt
Tiếng Anh
Tiếng Nhật
2.2

Câu ví dụ
Tơi đọc sách
I read a book
私は本を読みます

Trật tự
SVO
SVO
SOV


Các ứng dụng xử lý ngôn ngữ tự nhiên

Các ứng dụng phổ biến của NLP bao gồm: ứng dụng giám sát mạng xã
hội, chatbot, và tổng đài trả lời tự động.
2.3

Tiền xử lý văn bản

Văn bản trƣớc khi đƣợc vector hoá, tức là trƣớc khi sử dụng văn bản cần
phải đƣợc tiền xử lý, để loại bỏ nhiễu và làm sạch dữ liệu. Quá trình tiền xử lý
sẽ giúp nâng cao hiệu suất phân loại và giảm độ phức tạp của thuật toán huấn
luyện.
Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phƣơng pháp
tiền xử lý văn bản khác nhau, nhƣ :
Chuyển vẳn bản về chữ thƣờng.
Loại bỏ dấu câu (nếu không thực hiện tách câu).
Loại bỏ các kí tự đặc biệt biệt, các chữ số, phép tính tốn số học.
Loại bỏ các từ dừng stopword (những từ xuất hiện hầu hết trong các
văn bản) khơng có ý nghĩa khi tham gia vào phân loại văn bản
5. Các kỹ thuật tinh chỉnh khác dựa trên kinh nghiệm
1.
2.
3.
4.

2.3.1 Chuẩn hóa và biến đổi văn bản
Một trong những nhiệm vụ đầu tiên trong việc xử lý phân loại văn bản là
chọn đƣợc một mô hình biểu diễn văn bản thích hợp. Một văn bản ở dạng thô
(dạng chuỗi) cần đƣợc chuyển sang một mô hình khác để tạo thuận lợi cho việc

biểu diễn và tính tốn.
Tuỳ thuộc vào từng thuật tốn phân loại khác nhau mà chúng ta có mơ
hình biểu diễn riêng. Một trong những mơ hình đơn giản và thƣờng đƣợc sử
dụng trong nhiệm vụ này là mơ hình khơng gian vector. Một văn bản trong


19
nhiệm vụ này đƣợc biểu diễn theo dạng , với
đo lƣờng giá trị của phần tử văn bản.

là một vector n chiều để

2.3.2 Biểu diễn văn bản dƣới dạng vector
Mô hình khơng gian vector là một trong những mơ hình đƣợc sử dụng
rộng rãi nhất cho việc tìm kiếm (truy hồi) thơng tin. Ngun nhân chính là bởi vì
sự đơn giản của nó.
Trong mơ hình này, các văn bản đƣợc thể hiện trong một khơng gian có
số chiều lớn, trong đó mỗi chiều của khơng gian tƣơng ứng với một từ trong văn
bản. Phƣơng pháp này có thể biểu diễn một cách hình tƣợng nhƣ sau : mỗi văn
bản D đƣợc biểu diễn dƣới dạng ⃗ (vector đặc trƣng cho văn bản D). Trong đó,

, và n là số lƣợng đặc trƣng hay số chiều của vector văn bản,
là trọng số của đặc trƣng thứ i (với 1≤ i ≤n).
Nhƣ vậy, nếu trong kho ngữ liệu của quá trình huấn luyện nhiều văn bản,
ta kí hiệu Dj, là văn bản thứ j trong tập ngữ liệu, và vector
là vector đặc trƣng cho văn bản Dj, và
3

Bài toán phân loại văn bản


3.1

Bài toán phân loại văn bản

là trọng số thứ i của vector văn bản j.

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, phân loại văn bản là một bài tốn
xử lý văn bản cổ điển, có nhiệm vụ là ánh xạ một văn bản vào một chủ đề đã
biết trong một tập hữu hạn các chủ đề dựa trên ngữ nghĩa của văn bản. Theo
Yang & Xiu (1999)[1] “Phân loại văn bản tự động là việc gán các nhãn phân
loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các
văn bản đã được gán nhãn trong tập huấn luyện”. Ví dụ một bài viết trong một
tờ báo có thể thuộc một (hoặc một vài) chủ đề nào đó (nhƣ thể thao, sức khỏe,
công nghệ thông tin,…). Việc tự động phân loại văn bản vào một chủ đề nào đó
giúp cho việc sắp xếp, lƣu trữ và truy vấn tài liệu dễ dàng hơn về sau.
Bài toán phân loại văn bản, thực chất, có thể xem là bài tốn phân lớp.
Phân loại văn bản tự động là việc gán các nhãn phân loại lên một văn bản mới
dựa trên mức độ tƣơng tự của văn bản đó so với các văn bản đã đƣợc gán nhãn
trong tập huấn luyện. Các ứng dụng của phân lớp văn bản thƣờng rất đa dạng


20
nhƣ: lọc email spam, phân tích cảm xúc (sentiment analysis), phân loại tin tức,

Đã có nhiều cơng trình nghiên cứu đạt những kết quả khả quan, nhất là
đối với phân loại văn bản tiếng Anh. Tuy vậy, các nghiên cứu và ứng dụng đối
với văn bản tiếng Việt còn nhiều hạn chế do khó khăn về tách từ và câu. Một số
cơng trình nghiên cứu trong nƣớc với các hƣớng tiếp cận khác nhau cho bài toán
phân loại văn bản, nhƣ: phân loại với máy học vectơ hỗ trợ [39], cách tiếp cận
sử dụng lý thuyết tập thô [40], cách tiếp cận thống kê hình vị [41], cách tiếp cận

sử dụng phƣơng pháp học không giám sát và đánh chỉ mục [42], cách tiếp cận
theo luật kết hợp [43]. Theo các kết quả trình bày trong các cơng trình đó thì
những cách tiếp cận nêu trên đều cho kết quả khá tốt.
3.2

Một số thuật toán phân loại văn bản

3.2.1 Thuật toán Naive Bayes
Naive Bayes đã đƣợc nghiên cứu rộng rãi từ những năm 1950. Đƣợc dùng
lần đầu tiên trong lĩnh vực phân loại vào đầu những năm 1960. Sau đó nó trở
nên phổ biến và đƣợc sử dụng rộng rãi trong lĩnh vực này cho đến ngày nay.
Ý tƣởng cơ bản của cách tiếp cận này là sử dụng xác suất có điều kiện
giữa từ hoặc cụm từ và chủ đề để dự đoán xác suất chủ đề của một tập tin cần
phân loại. Điểm quan trọng của phƣơng pháp này chính là ở chỗ giả định rằng
sự xuất hiện của tất cả các từ trong tập tin đều độc lập với nhau. Ví dụ một loại
trái cây có thể đƣợc cho là quả táo nếu nó đỏ, trịn và đƣờng kính là 10cm. Giải
thuật Nạve Bayes sẽ cho rằng mỗi tính năng này đều đóng góp một cách độc lập
để xác suất trái cây này là quả táo bất kể sự hiện diện hay vắng mặt của các tính
năng khác.
Thuật toán Naive Bayes dựa trên định lý Bayes đƣợc phát biểu nhƣ sau :
|
Trong đó:
 P(Y|X) là xác suất X thuộc lớp Y.

|


21
 P(X|Y) xác suất một phần tử thuộc lớp Y, và phần từ đó có đặc điểm
X.

 P(Y) xác suất xảy ra lớp Y, mức độ thƣờng xuyên lớp Y xuất hiện
trong tập dữ liệu
 P(X) xác suất xảy ra X.
Ví dụ 1: Giả sử ta có hai lớp Y1 = Nam, Y2 = nữ. Và một ngƣời không
biết giới tính là Phƣơng, X = Phƣơng. Việc xác định Phƣơng là Nam hay Nữ
tƣơng đƣơng với việc so sánh xác suất P(Nam/Phƣơng) và P(Nữ/Phƣơng). Theo
thuật tốn Nạve Bayes ta có cơng thức nhƣ sau:
|

|

Trong đó: P(Nam|Phƣơng): Xác suất Phƣơng là Nam
 P (Phƣơng|Nam): xác suất những ngƣời phái nam đƣợc gọi
Phƣơng (có tên Phƣơng).
 P(Nam): xác suất phái nam trong tập dữ liệu.
 P(Phƣơng): xác suất tên Phƣơng trong tập dữ liệu.
Tƣơng tự ta có:
|

|

Giả sử ta có bảng dữ liệu tên và giới tính nhƣ sau :
Bảng 2.Dữ liệu tập mẫu tính xác suất theo phương pháp Naive Bayes
Tên
Phƣơng
Nga
Hồng
Nam
Phƣơng
Phƣơng

Tiến
Giang
Tùng

Giới tính
Nam
Nữ
Nữ
Nam
Nữ
Nữ
Nam
Nữ
Nam


22
Đài

Nữ

|

|
Nhƣ vậy Phƣơng là Nữ có xác suất cao hơn nên Phƣơng đƣợc phân vào
lớp nữ khi phân loại.
Thuật toán Naive Bayes Classification đƣợc áp dụng vào các loại ứng
dụng sau:
 Real time Prediction: NBC chạy khá nhanh nên nó thích hợp áp dụng
ứng dụng nhiều vào các ứng dụng chạy thời gian thực, nhƣ hệ thống

cảnh báo, các hệ thống trading …
 Multi class Prediction: Nhờ vào định lý Bayes mở rộng ta có thể ứng
dụng vào các loại ứng dụng đa dự đốn, tức là ứng dụng có thể dự
đoán nhiều giả thuyết mục tiêu.
 Text classification/ Spam Filtering/ Sentiment Analysis: NBC cũng rất
thích hợp cho các hệ thống phân loại văn bản hay ngôn ngữ tự nhiên vì
tính chính xác của nó lớn hơn các thuật tốn khác. Ngoài ra các hệ
thống chống thƣ rác cũng rất ƣu chuộng thuật tốn này. Và các hệ
thống phân tích tâm lý thị trƣờng cũng áp dụng NBC để tiến hành phân
tích tâm lý ngƣời dùng ƣu chuộng hay khơng ƣu chuộng các loại sản
phẩm nào từ việc phân tích các thói quen và hành động của khách
hàng.
 Recommendation System: Naive Bayes Classifier và Collaborative
Filtering đƣợc sử dụng rất nhiều để xây dựng cả hệ thống gợi ý, ví dụ
nhƣ xuất hiện các quảng cáo mà ngƣời dùng đang quan tâm nhiều nhất
từ việc học hỏi thói quen sử dụng internet của ngƣời dùng, hoặc nhƣ ví


23
dụ đầu bài viết đƣa ra gợi ý các bài hát tiếp theo mà có vẻ ngƣời dùng
sẽ thích trong một ứng dụng nghe nhạc
3.2.2 Thuật toán SVM
SVM (Support Vector Machine) là một thuật tốn học máy có giám sát
đƣợc sử dụng rất phổ biến ngày nay trong các bài toán phân lớp (classification)
hay hồi qui (Regression).
SVM đƣợc đề xuất bởi Vladimir N. Vapnik [5] và các đồng nhiệp của ông
vào năm 1963 tại Nga dựa trên lý thuyết học thống kê và sau đó trở nên phổ biến
trong những năm 90 nhờ ứng dụng giải quyết các bài toán phi tuyến tính
(nonlinear) bằng phƣơng pháp Kernel Trick [4]. Có nhiều tiềm năng phát triển
về mặt lý thuyết cũng nhƣ ứng dụng trong thực tiễn.

Ý tƣởng của phƣơng pháp này là cho trƣớc một tập huấn luyện đƣợc biểu
diễn trong khơng gian véc-tơ, trong đó mỗi văn bản đƣợc xem nhƣ là một điểm
trong không gian này. Phƣơng pháp này tìm ra một mặt siêu phẳng h quyết định
tốt nhất có thể chia các điểm trên khơng gian này thành hai lớp riêng biệt tƣơng
ứng, tạm gọi là lớp + (dƣơng) và lớp – (âm). Nhƣ vậy, bộ phân loại SVM là một
mặt siêu phẳng tách các mẫu thuộc lớp dƣơng ra khỏi cách mẫu thuộc lớp âm
với độ chênh lệch lớn nhất. Độ chênh lệch này hay còn gọi là khoảng cách biên
đƣợc xác định bằng khoảng cách giữa mẫu dƣơng và mẫu âm gần mặt siêu
phẳng nhất (hình).
Khoảng cách này càng lớn các mẫu thuộc hai lớp càng đƣợc phân chia rõ
ràng, nghĩa là sẽ đạt đƣợc kết quả phân loại tốt. Mục tiêu của thuật toán SVM là
tìm đƣợc khoảng cách biên lớn nhất để tạo đƣợc kết quả phân loại tốt.
Với bài toán phân loại nhị phân tuyến tính ta cần vẽ đƣợc mặt phân tách
(với khơng gian 2 chiều thì mặt phẳng này là đƣờng phân tách):
để phân biệt đƣợc dữ liệu. Khi đó dấu của hàm ƣớc lƣợng
sẽ thể hiện đƣợc điểm dữ
liệu x nằm ở cụm dữ liệu nào.


24

Hình 1: Mặt phân cách dữ liệu
Ta có thể thấy có nhiều mặt phân tách thoả mãn đƣợc việc này và đƣơng
nhiên là nếu chọn đƣợc mặt mà phân tách tốt thì kết quả phân loại của ta sẽ tốt
hơn. Một lẽ rất tự nhiên là dƣờng nhƣ mặt nằm vừa khít giữa 2 cụm dữ liệu sao
cho nằm xa các tập dữ liệu nhất là mặt tốt nhất.

Hình 2. Lề siêu phẳng



×