Tải bản đầy đủ (.pdf) (73 trang)

“Nghiên cứu, tìm hiểu mô hình phân lớp câu hỏi và ứng dụng trên hệ thống hỗ trợ sinh viên của viện đại học mở hà nội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2 MB, 73 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

NGUYỄN THỊ KHÁNH QUYÊN

LUẬN VĂN THẠC SỸ

2015 - 2017

CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN

CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU, TÌM HIỂU MÔ HÌNH PHÂN LỚP CÂU HỎI
VÀ ỨNG DỤNG TRÊN HỆ THỐNG HỖ TRỢ SINH VIÊN
CỦA VIỆN ĐẠI HỌC MỞ HÀ NỘI

NGUYỄN THỊ KHÁNH QUYÊN

HÀ NỘI - 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ
NGHIÊN CỨU, TÌM HIỂU MÔ HÌNH PHÂN LỚP CÂU HỎI
VÀ ỨNG DỤNG TRÊN HỆ THỐNG HỖ TRỢ SINH VIÊN
CỦA VIỆN ĐẠI HỌC MỞ HÀ NỘI
NGUYỄN THỊ KHÁNH QUYÊN


CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60.48.02.018
HƯỚNG DẪN KHOA HỌC: TS. ĐINH TUẤN LONG

HÀ NỘI - 2017


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân
tôi, không sao chép của ai do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và
thực hiện. Nội dung lý thuyết trong trong luận văn tôi có sử dụng một số tài liệu
tham khảo như đã trình bày trong phần tài liệu tham khảo. Các số liệu, chương
trình phần mềm và những kết quả trong luận văn là trung thực và chưa được
công bố trong bất kỳ một công trình nào khác.
Hà Nội, ngày

tháng năm 2017

Học viên thực hiện

Nguyễn Thị Khánh Quyên

i


LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy giáo,
TS. Đinh Tuấn Long đã tận tình chỉ bảo, hướng dẫn và giúp đỡ tôi trong suốt quá
trình thực hiện bài luận văn tốt nghiệp này.
Tôi xin gửi lời cảm ơn tới các thầy, cô Viện Đại học Mở Hà Nội, những người

đã tận tâm chỉ dạy những kiến thức quý báu, giúp đỡ và góp ý cho tôi trong suốt thời
gian học tập và nghiên cứu tại trường.
Bên cạnh đó, tôi cũng xin gửi lời cảm ơn chân thành tới các anh chị, các bạn
học viên cùng học tập nghiên cứu tại Viện Đại học Mở Hà Nội đã hỗ trợ và đồng
hành cùng tôi trong quá trình học tập cũng như thực hiện bài luận văn này.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè và đồng nghiệp,
những người thân yêu luôn bên cạnh, quan tâm, động viên và khuyến khích tôi trong
suốt học tập và cuộc sống.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày

tháng

năm 2017

Học Viên

Nguyễn Thị Khánh Quyên

ii


MỤC LỤC

LỜI CAM ĐOAN ...................................................................................................... i
LỜI CẢM ƠN ........................................................................................................... ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ............................................v
DANH SÁCH BẢNG .............................................................................................. vi
DANH SÁCH HÌNH VẼ ........................................................................................ vii

MỞ ĐẦU ....................................................................................................................1
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP CÂU HỎI .....................................3
1.1 Tổng quan về hệ thống hỏi đáp ......................................................................... 3
1.1.1 Đặt vấn đề................................................................................................ 3
1.1.2 Hệ thống hỏi đáp (Question Answering System) .................................... 4
1.2 Bài toán phân lớp câu hỏi .................................................................................. 8
1.2.1 Định nghĩa phân lớp câu hỏi ................................................................... 8
1.3 Biểu diễn câu hỏi ............................................................................................... 9
1.4 Taxonomy câu hỏi ............................................................................................. 9
1.5 Các đặc trưng phân lớp .................................................................................... 13
1.5.1 Các đặc trưng về từ vựng ...................................................................... 13
1.5.2 Các đặc trưng về cú pháp ...................................................................... 15
1.5.3 Các đặt trưng về ngữ nghĩa ................................................................... 18
1.6. Kết luận chương.............................................................................................. 19
CHƯƠNG 2: MỘT SỐ MÔ HÌNH PHÂN LỚP CÂU HỎI VÀ GIẢI THUẬT
...................................................................................................................................20
2.1 Tiếp cận bài toán phân lớp câu hỏi .................................................................. 20
2.1.1 Tiếp cận dựa trên luật ............................................................................ 20
2.1.2 Tiếp cận dựa trên học máy ................................................................... 21
2.2 Mô hình phân lớp câu hỏi ................................................................................ 23
2.2.1 Mô hình phân lớp phẳng ....................................................................... 23

iii


2.2.2 Mô hình phân lớp phân cấp ................................................................... 25
2.3 Một số giải thuật phân lớp câu hỏi .................................................................. 26
2.3.1 Giải thuật học máy có giám sát ............................................................. 26
2.3.2 Giải thuật học máy bán giám sát ........................................................... 34
2.4. Kết luận chương.............................................................................................. 40

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................41
3.1 Ứng dụng mô hình phân lớp ............................................................................. 41
3.1.1 Thực trạng ............................................................................................. 41
3.1.2 Mô hình phân lớp câu hỏi ứng dụng ..................................................... 41
3.1.3 Mô hình xử lý dữ liệu ............................................................................ 43
3.2 Tình trạng hệ thống hỏi đáp ............................................................................. 48
3.3 Thực nghiệm với dữ liệu trên hệ thống hỗ trợ sinh viên trực tuyến Viện Đại học
Mở Hà Nội ........................................................................................................ 50
3.3.1 Thu thập dữ liệu .................................................................................... 50
3.3.2 Xử lý dữ liệu.......................................................................................... 51
3.3.3 Kết quả thực nghiệm ............................................................................. 57
3.3 Kết luận

........................................................................................................ 58

KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO.....................................59
TÀI LIỆU THAM KHẢO ......................................................................................60
PHỤ LỤC .................................................................................................................62

iv


DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
STT

Viết tắt

1

Tiếng Anh


Tiếng Việt

QA

Question Answering
systems

TREC

Text Retrieval Conference

kNN

K - Nearest Neighbors

Thuật toán k láng
giềng gần

NB

Naïve Bayes

Thuật toán Naïve
Bayes

SVM

Support Vector Machine


Máy vector hỗ trợ

POS

Part – Of - Speech

SNoW

Sparse
Network
Winnows

Hệ thống hỏi đáp

2
3
4
5
6
7

v

of

Mạng lọc thưa


DANH SÁCH BẢNG
Bảng 1.1. Taxonomy câu hỏi của Li và Roth............................................................11

Bảng 2.1. Bộ phân lớp câu hỏi của Dragomir Radev................................................24
Bảng 2.2. Bảng dữ liệu huấn luyện của ví dụ người chơi tennis ..............................30
Bảng 3. 1: Môi trường thực nghiệm ..........................................................................43
Bảng 3.2: Bộ phân lớp câu hỏi trên hệ thống hỗ trợ sinh viên .................................51
Bảng 3.3: Bộ phân lớp câu hỏi chia theo ngành học .................................................52
Bảng 3.4: Thống kê kết quả tìm kiếm nhãn lớp có độ phân lớp chính xác cao với dữ
liệu tại hệ thống hỗ trợ sinh viên Viện ĐH Mở Hà Nội ....................................55
Bảng 3.5: Thống kê câu hỏi sinh viên theo ngành học .............................................56
Bảng 3.6: Kết quả thực nghiệm với dữ liệu tại hệ thống hỗ trợ sinh viên trực tuyến
Viện Đại học Mở Hà Nội ...................................................................................58

vi


DANH SÁCH HÌNH VẼ
Hình 1.1. Mô hình hệ thống hỏi đáp với các lĩnh vực liên quan .................................5
Hình 1.2. Kiến trúc của một hệ thống hỏi đáp ............................................................6
Hình 2.1. Mô hình giai đoạn huấn luyện. ..................................................................22
Hình 2.2. Chi tiết giai đoạn huấn luyện. ...................................................................23
Hình 2.3. Mô hình giai đoạn phân lớp ......................................................................23
Hình 2.4. Bộ phân lớp đa cấp của Li và Roth ...........................................................26
Hình 2.5. Mô hình phân lớp câu hỏi với SVM .........................................................28
Hình 2.6. Sơ đồ thực hiện giải thuật Sefl-training ....................................................36
Hình 2.7. Sơ đồ giải thuật Co-training ......................................................................37
Hình 2.8. Sơ đồ giải thuật Tri-training ......................................................................39
Hình 3.1. Mô hình phân lớp áp dụng ........................................................................42
Hình 3.2. Chương trình xử lý dữ liệu ........................................................................43
Hình 3.3. Sơ đồ giải thuật tham lam loại bỏ nhãn lớp có độ phân lớp chính xác cao
...................................................................................................................................47
Hình 3.4. Mô hình xử lý của hệ thống H113 hiện tại ...............................................48

Hình 3.5. Nội dung file câu hỏi đã được gán nhãn từ loại ........................................53
Hình 3.6. Ánh xạ đặc trưng câu hỏi gán nhãn lớp ....................................................54
Hình 3.7. Nội dung file theo định dạng SVM ...........................................................54
Hình 3.8. Biểu đồ chính các theo lớp câu hỏi ...........................................................56
Hình 3.9. Biểu đồ thống kê độ chính xác câu hỏi theo ngành ..................................57

vii


MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong thời đại công nghệ phát triển hiện nay, sự bùng nổ mạnh mẽ của
Internet toàn cầu cùng với các nhu cầu tìm kiếm thông tin ngày càng cao của con
người. Chỉ cần một thao tác tìm kiếm đơn giản trên Internet, người dùng đã có thể
nhận về một khối lượng khổng lồ những thông tin liên quan tới nội dung tìm kiếm.
Tuy nhiên, chính vì thế mà sự dễ dàng đó mang đến cho người dùng nhiều khó khăn
trong việc chiết lọc những thông tin thực sự hữu ích. Vậy nên, hệ thống hỏi đáp tự
động đã ra đời nhằm mục đích phục vụ tốt hơn những nhu cầu của con người.
Hệ thống hỏi đáp đã nhận được sự quan tâm đặc biệt của các nhà nghiên cứu,
các công ty lớn (như Google, Microsoft, IBM…), các hội nghị lớn về trích chọn
thông tin, xử lý ngôn ngữ tự nhiên (TREC, ACL…) và đã đạt được những kết quả
nhất định. Quy trình hoạt động của một hệ thống hỏi đáp tự động có nhiều bước,
trong đó bước phân lớp câu hỏi đóng một vai trò quan trọng trong việc làm giảm
thông tin tìm kiếm và tăng độ chính xác của kết quả tìm kiếm.
Tuy nhiên, việc nghiên cứu về hệ thống hỏi đáp nói chung và bài toán phân
lớp câu hỏi là một nhiệm vụ gặp không ít khó khăn. Các hướng tiếp cận, mô hình
phân lớp hay những giải thuật phân lớp sử dụng trong quá trình nghiên cứu và thực
hiện đều có những ưu điểm và nhược điểm nhất định. Trong phạm vi đề tài, tác giả
tập trung tìm hiểu và nghiên cứu những vấn đề cơ bản trong mô hình phân lớp câu
hỏi và ứng dụng trên hệ thống của Viện Đại học Mở Hà Nội với tên đề tài “Nghiên

cứu, tìm hiểu mô hình phân lớp câu hỏi và ứng dụng trên hệ thống hỗ trợ sinh viên
của Viện Đại học Mở Hà Nội”.
2. Mục tiêu của luận văn
Đề tài nhằm mục tiêu
 Tìm hiểu các kiến thức cơ bản của bài toán phân loại câu hỏi
 Ứng dụng các mô hình học máy để giải quyết bài toán phân loại câu hỏi.
3. Bố cục của luận văn
Nội dung của đề tài gồm 3 chương chính sau:

1


Chương 1: Tổng quan về phân lớp câu hỏi
Trong chương này sẽ giới thiệu về hệ thống hỏi đáp, trình bày tổng quan về
bài toán phân lớp câu hỏi, cách tiếp cận bài toán câu hỏi và các đặc trưng phân lớp
câu hỏi.
Chương 2: Một số mô hình phân lớp câu hỏi và giải thuật
Chương này sẽ trình bày tổng quan về các cách tiếp cận bài toán câu hỏi, một
số mô hình phân lớp câu hỏi và các giải thuật học máy sử dụng trong bài toán phân
lớp câu hỏi.
Chương 3: Thực nghiệm và đánh giá
Ứng dụng mô hình phân lớp câu hỏi, trình bày các kết quả thực nghiệp khi áp
dụng mô hình phân lớp câu hỏi với dữ liệu câu hỏi thực nghiệm tại hệ thống hỗ trợ
sinh viên Viện Đại học Mở Hà Nội, trình bày những đánh giá và kết luận sau thực
nghiệm.

2


CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP CÂU HỎI

1.1 Tổng quan về hệ thống hỏi đáp
1.1.1 Đặt vấn đề
Câu hỏi đặt ra trong tình hình phát triển của Internet hiện nay và sự phát triển
nhanh chóng của lượng thông tin khổng lồ trên Web là “Làm thế nào để việc tìm
kiếm thông tin đạt hiệu quả nhất?”. Thay vì phải đọc rất nhiều các tài liệu liên quan
đến thông tin để có thể tìm ra được câu trả lời mong muốn, người sử dụng và tìm
kiếm mong muốn được hệ thống website trả về các câu trả lời chính xác, ngắn gọn và
nhanh chóng nhất. Các hệ thống hỏi đáp (Question Answering System – QA) khi đó
phải cung cấp các phần thông tin chính xác cho các câu hỏi ghi nhận tương ứng.
Trong giai đoạn xử lý câu hỏi của hệ thống hỏi đáp, việc phân lớp câu hỏi là
một nhiệm vụ rất quan trọng. Nhiệm vụ của phân lớp câu hỏi như sau: Cho một câu
hỏi, ánh xạ câu hỏi đó tới trong k lớp, các lớp đó cung cấp một gợi ý ngữ nghĩa về
câu trả lời sau khi được tìm kiếm. Mục đích của sự phân lớp này là giảm thiểu các
câu trả lời không có tiềm năng, giai đoạn này được xử lý tại quá trình hạ lưu để lựa
chọn câu trả lời chính xác từ một lượn các câu trả lời có tiềm năng.
Phân lớp câu hỏi trong hệ thống hỏi đáp có 2 yêu cầu chính. Thứ nhất, nó cung
cấp các gợi ý về loại câu trả lời mà cho phép tiếp tục xử lý để xác định vị trí chính
xác và xác minh câu trả lời. Thứ hai, nó cung cấp thông tin trong quá trình xử lý hạ
lưu được sử dụng để lựa chọn các chiến lược cho từng câu trả lời cụ thể.
Hãy xem xét ví dụ cụ thể sau đây để hiểu hơn về các khía cạnh của việc phân
lớp câu hỏi:
Câu hỏi 1: “Quy định khen thưởng cho sinh viên Viện Đại học Mở như thế
nào?”. Những từ khóa như “Quy định”, “Khen thưởng”, “sinh viên Viện Đại học Mở”
là cơ sở để tìm ra những câu trả lời phù hợp. Mục đích của câu hỏi này là tìm ra được
những quy định, quy chế để có thể công nhận khen thưởng cho sinh viên tại Viện Đại
học Mở Hà Nội.
Câu hỏi 2: “Chương trình đào tạo của Viện Đại học Mở Hà Nội hoạt động theo
quy chế nào?”. Xem xét câu hỏi trên, ta nhận thấy rằng một câu trả lời liên quan đến

3



lớp “quy chế đào tạo chính quy” hay “quy chế đào tạo hệ từ xa” sẽ có ích hơn là chỉ
biết đến lớp “quy chế”. Viện Đại học Mở Hà Nội hiện nay đào tạo theo rất nhiều hệ:
chính quy, từ xa. Quy chế bao gồm rất nhiều loại như quý chế đào tạo, quy chế học
tập, quy chế tuyển sinh…Nếu hệ thống đã xác định được mục đích câu hỏi là về quy
chế đào tạo thuộc hệ đào tạo nào thì không gian tìm kiếm để đưa ra câu trả lời sẽ
nhanh và chính xác hơn nhiều.
Trong phân lớp câu hỏi, việc xác định ngữ nghĩa rõ ràng của câu hỏi mang lại
những lợi ích to lớn. Tuy nhiên câu hỏi không phải lúc nào cũng đơn giản, mà chúng
thường rất phức tạp, có nhiều ngữ nghĩa mập mờ, khó xác định. Trong quá trình phân
lớp câu hỏi, nếu hệ thống hạn chế được số lượng lớp phải dự đoán thì hiệu suất phân
lớp sẽ tăng lên. Vì vậy, ngoài việc xác định ngữ nghĩa câu hỏi, thì việc lựa chọn sử
dụng mô hình phân lớp nào cũng rất quan trọng. Đó là bước đầu thực sự cần trong
nhiệm vụ phân lớp.

1.1.2 Hệ thống hỏi đáp (Question Answering System)
1.1.2.1. Giới thiệu hệ thống hỏi đáp
Hệ thống hỏi đáp đầu tiên được ra đời từ những năm 1960. Ví dụ tiêu biểu cho
hệ thống hỏi đáp trong thời gian đó là hệ thống BASEBALL được phát triển năm
1961 do nhóm tác giả Green, Chomsky, và Laughery. Hệ thống này dùng để trả lời
các câu hỏi viết bằng ngôn ngữ tự nhiên trong một lĩnh vực đặc biệt là về trò chơi
bóng chày trong ở giải đấu của Mỹ trong một mùa giải. Một hệ thống khác tương tự
như BASEBALL đã được phát triển bởi Woods năm 1973 và được đặt tên là LUNAR.
LUNAR có thể trả lời các câu hỏi liên quan đến các mẫu đas trở về từ tàu thăm dò
trên mặt trăng Apolo. Hệ thống này dịch các câu hỏi trong ngôn ngữ tự nhiên thành
một câu truy vấn tương ứng trong cơ sở dữ liệu.
Hầu hết các nghiên cứu trước đây chủ yếu là các hệ thống hỏi đáp trong một
lĩnh vực đặc biệt hoặc là có sự giới hạn trong việc hỏi đáp. Do thiếu kiến thức để cung
cấp câu trả lời cho câu hỏi miền mở, các nghiên cứu về hệ thống hỏi đáp nằm im

trong vài thập kỷ cho đến khi sự xuất hiện của các trang web. Với số lượng lớn của
các dữ liệu trên web, cần phải thực hiện các truy vấn web, do đó các nhiệm vụ về hỏi

4


đáp lại được tập trung nghiên cứu. Sự tập trung nghiên cứu về hỏi đáp đặc biệt tăng
khi hội nghị truy hồi văn bản (Text REtrieval Conference-Trec) bắt đầu một chủ để
về hỏi đáp vào năm 1990.
Một vài kĩ thuật từ truy hồi thông tin, xử lý ngôn ngữ tự nhiên và học máy đã
được dùng trong các hệ thống hỏi đáp. Các nghiên cứu gần đây trên các hệ thống hỏi
đáp miền mở điển hình thường dựa trên các kĩ thuật truy hồi thông tin (Information
Retrieval-IR). Các hệ thống hỏi đáp dựa trên truy hồi thông tin cố gắng tìm kiếm câu
trả lời cho câu hỏi bằng cách xử lý các tài liệu, thường từ web và tìm kiếm một phần
của văn bản đó có thể là câu trả lời cho câu hỏi
Khái niệm về hệ thống hỏi đáp (Question Answering – QA) được hiểu như
sau: QA là một hệ thống được xây dựng để thực hiện việc tìm kiếm câu trả lời cho
một câu hỏi của người dùng. Hệ thống hỏi đáp liên quan đến 3 lĩnh vực lớn đó là xử
lý ngôn ngữ tự nhiên (Natural Language Processing), tìm kiếm thông tin (Information
Retrieval) và rút trích thông tin (Information Extraction).

Hình 1.1: Mô hình hệ thống hỏi đáp với các lĩnh vực liên quan

Hệ thống hỏi đáp có 2 loại:
 Hệ thống hỏi đáp miền đóng (Closed-domain Question Answering): Hệ
thống này liên quan đến các câu hỏi trong một lĩnh vực cụ thể, chẳng hạn
như lĩnh vực y học hay lĩnh vực khoa học.

5



 Hệ thống hỏi đáp miền mở (Open-domain Question Answering): hệ thống
này liên quan đến các câu hỏi gần như về tất cả mọi thứ.
1.1.2.2. Cấu trúc của một hệ thống hỏi đáp
Thông thường hệ thống hỏi đáp xử lý 3 nhiệm vụ quan trọng chính: xử lý câu
hỏi, xử lý tài liệu và xử lý câu trả lời.

Hình 1.2: Kiến trúc của một hệ thống hỏi đáp

 Xử lý câu hỏi:
Xử lý câu hỏi thông thường bao gồm các công việc như biểu diễn câu hỏi, dẫn
xuất đến loại câu trả lời mong đợi và trích xuất từ khóa. Phân tích được thực hiện để
xây dựng xấu trúc câu hỏi. Thông thường, cấu trúc biểu diễn câu hỏi là một cây cú
pháp hoặc cây phụ thuộc. Sau đó cấu trúc này được sử dụng để xác định vị trí và xác
minh các câu trả lời trong các tài liệu hay đoạn văn đã được trích xuất.
 Xử lý tài liệu:
Bước này sử dụng câu truy vấn được tạo ra ở bước xử lý câu hỏi để tìm các tài
liệu liên quan đến câu hỏi. Giao đoạn này bao gồm mở rộng từ khóa, trích chọn tài

6


liệu, và xác định đoạn văn liên quan. Mở rộng từ khóa là sử dụng các từ khóa được
trích xuất trong giai đoạn xử lý câu hỏi ở trên và tìm kiếm chúng trong một từ điển
đồng nghĩa hoặc các tài nguyên khác, và thêm các điều kiện tìm kiếm để lấy ra càng
nhiều tài liệu liên quan càng tốt. Ví dụ từ khóa “kill” có thể được mở rộng thành
“murder” và “assassinate”. Các tài liệu được trích chọn dựa trên các từ khóa mở rộng.
Từ đó, một đoạn hoặc một phần của mỗi tài liệu này có chứa câu trả lời tiềm năng sẽ
được xác định. Phân loại câu hỏi được sử dụng ở đây: nó có thể xác định chiến lược
tìm kiếm để tìm kiếm các ứng viên đúng. Tùy thuộc vào các lớp câu hỏi, truy vấn tìm

kiếm có thể được chuyển đổi thành một hình thức mà là thích hợp nhất cho việc tìm
kiếm câu trả lời.
 Xử lý câu trả lời:
Bước này phân tích tập tài liệu trả về từ bước xử lý tài liệu và sử dụng các
thông tin hữu ích do bước xử lý câu hỏi cung cấp để đưa ra câu trả lời chính xác nhất.
Các ứng cử viên câu trả lời được xếp hạng theo khả năng của mình trong việc trong
cùng một lớp như lớp câu hỏi và câu trả lời xếp hạng cao nhất sẽ được coi là câu trả
lời cuối cùng của câu hỏi.
1.1.2.3. Mục đích của việc phân lớp câu hỏi
Như đã phân tích ở trên, hiệu suất của việc phân lớp câu hỏi có ảnh hướng
đáng kể đến hiệu suất tổng thể của hệ thống hỏi đáp. Việc phân lớp câu hỏi càng hiệu
quả thì hiệu suất của hệ thống hỏi đáp càng cao.
Có hai động cơ thúc đẩy chính về việc phân lớp câu hỏi đó là: xác định câu trả
lời và lựa chọn chiến lược tìm kiếm.
Xác định câu trả lời: Khi biết được loại câu hỏi không chỉ có thể thu gọn được
không gian tìm kiếm cần tìm câu trả lời, nó còn có thể tìm kiếm chính xác câu trả lời
trong một tập lớn các ứng viên trả lời. Ví dụ cùng xem xét câu hỏi sau: “Ai là Viện
trưởng của Viện Đại học Mở Hà Nội”. Chúng ta cùng thấy đây là dạng câu hỏi liên
quan đến ai, con người, hệ thống sẽ đưa ra các câu trả lời liên quan đến thực thể có
được xác định là người mà không cần phải kiểm tra toàn bộ các đoạn văn bản để tìm
ở đâu có thể chứa câu trả lời hoặc không.

7


Lựa chọn chiến lược tìm kiếm: Lớp câu hỏi có thể có được sử dụng để lựa
chọn chiến lược tìm kiếm khi câu hỏi được viết dưới dạng một truy vấn để tìm kiếm
trên máy tìm kiếm. Cho ví dụ đưa ra câu hỏi: “Địa điểm chính của Viện Đại học Mở
Hà Nội ở đâu?” Xác định được lớp câu hỏi này là “nơi trốn”, các mẫu tìm kiếm cho
việc xác định câu trả lời có thể dùng là “Địa chỉ của Viện Đại học Mở Hà Nội là ở….”

Hay “Viện Đại học Mở Hà Nội ở…”. Việc lựa chọn chiến lược tìm kiếm theo các lớp
như vậy tốt hơn nhiều việc tìm kiếm đơn giản thông thường.

1.2 Bài toán phân lớp câu hỏi
1.2.1 Định nghĩa phân lớp câu hỏi
Phân lớp câu hỏi được định nghĩa theo nhiều cách khác nhau, áp dụng định
nghĩa phân lớp văn bản, Hakhan Sundblad đã đưa ra một số định nghĩa phân lớp câu
hỏi như sau:
Phân lớp câu hỏi [5, tr.9-10] là nhiệm vụ gán 1 giá trị đúng hoặc sai tới mỗi
cặp (𝑞𝑗, 𝑐𝑖) ∈ 𝑄 × 𝐶, trong đó Q là miền các câu hỏi và 𝐶 = {𝐶1, 𝐶2, … , 𝐶|𝐶|} là tập
các lớp đã được định nghĩa trước.
Cặp (qj,ci) được gán cho giá trị là T chỉ ra rằng câu hỏi qj thuộc phân loại ci
và được gán cho giá trị là F nếu qj không thuộc phân loại ci.
Phân lớp câu hỏi là một bước xử lý quan trọng trong các hệ thống hỏi đáp.
Mục đích của hệ thống hỏi đáp là đưa ra được một câu trả lời ngắn gọn, súc tích hơn
là những tài liệu liên quan chứa câu trả lời. Trong ngôn ngữ tự nhiên, một câu hỏi có
thể liên quan và ảnh hưởng bởi nhiều lĩnh vực khác nhau nên lượng câu trả lời liên
quan cũng rất lớn. Việc phân lớp câu hỏi sẽ cung cấp các thông tin ràng buộc về loại
câu trả lời. Nhờ đó, hệ thống đưa ra một hoặc nhiều chiến lược làm giảm không gian
tìm kiếmcác câu trả lời tiềm năng trong kho ngữ liệu khổng lồ.

Phát biểu bài toán phân lớp câu hỏi
Bài toán phân loại câu hỏi có thể được phát biểu như sau:
Input:
- Cho trước một tập các câu hỏi
- Tập các chủ đề (phân loại) được định nghĩa

8



Output:
- Nhãn ci của câu hỏi qj.

1.3 Biểu diễn câu hỏi
Xác định loại câu hỏi mang một ý nghĩa to lớn trong việc phân tích các câu hỏi
bởi mỗi loại câu hỏi sẽ có những đặc trưng và cách tiếp cận khác nhau, từ đó lựa chọn
một mô hình biểu diễn câu hỏi thích hợp. Có nhiều loại câu hỏi như: câu hỏi định
nghĩa, mô tả, tổng hợp, đánh giá, liệt kê...Trong câu hỏi, người ta có thể sử dụng từ
ngữ phức tạp và đa dạng để diễn đạt cùng nội dung làm cho việc xác định lớp câu hỏi
phù hợp trở nên khó khăn. Các loại câu hỏi này nên đưa về những dạng cây hỏi đơn
giản hoặc loại câu hỏi phức tạp. Mỗi loại câu hỏi cần có những chiến lược phân lớp
phù hợp cũng như biểu diễn bởi các mô mình riêng. Một trong những mô hình đơn
giản và thường được sử dụng là mô hình không gian vector.
Trong mô hình này, các câu hỏi được thể hiện trong một không gian có số chiều
lớn, trong đó mỗi chiều của không gian tương ứng với một từ trong câu hỏi. Phương
pháp này có thể biểu diễn một cách hình tượng như sau: mỗi câu hỏi được biểu diễn
dưới dạng 𝑥⃗ (vector đặc trưng của câu hỏi đó). Trong đó, 𝑥⃗ = (x1, x2….,xn) và n là số
lượng đặc trưng hay số chiều của vector câu hỏi, xi là trọng số của đặc trưng thứ i với
I ≤ 1 ≤ n.

1.4 Taxonomy câu hỏi
Trong Q&A Roadmap đã chỉ ra rằng taxonomy câu hỏi là rất cần thiết trong
nghiên cứu về Q&A. Các nghiên cứu về taxonomy câu hỏi đã được nhiều nhà nghiên
cứu quan tâm, trên các mặt về ngôn ngữ học, triết học, xã hội học, có nền tảng lý
thuyết lẫn thực nghiệm.
Khái niệm taxonomy mang nhiều ý nghĩa khác nhau, nhưng về bản chất,
taxonomy là sự định danh, phân loại một số tính chất, đặc điểm. Taxonomy được xem
là một hình thức của hệ phân cấp và có chứa các phần tử gọi là các nút. Mối quan hệ
chủ yếu giữa các nút là quan hệ cha – con và giữa các nút con đồng cấp với nhau thì
không tồn tại mối quan hệ nào.


9


Một taxonomy được mô tả theo cấu trúc hình cây, trên đỉnh của cấu trúc là nút
gốc và dưới nó là các nút con, tập nút con của các nút cha không giao nhau. Khi duyệt
cây từ nút cha đến các nút con, thông tin tại các nút con chi tiết và rõ ràng hơn nút
cha. Khi xác định được nút cha, các nút con cũng sẽ được xác định. Điều này mang
lại hiệu quả trong tìm kiếm, truy vấn dữ liệu vì dựa vào nút cha, việc xác định miền
thông tin cần tìm rõ ràng hơn và được giới hạn.
Năm 1972, Robinson và Rackstraw đã nghiên cứu về cách sử dụng các từ để
hỏi trong tiếng Anh, theo đó “the Five Ws” (Who, What, When, Where, Why, và
How) là cách phân loại câu hỏi thông thường và đơn giản nhất. Có lẽ bởi “the Five
Ws” là cách suy nghĩ rất tự nhiên khi đặt câu hỏi của người dùng tiếng Anh nên nó
rất phổ biến trong các tài liệu và trong hỏi đáp thông thường. Robinson và Rackstraw
đã dành 2 tập sách [8,9] để khảo sát về wh-words, hình thức câu hỏi dựa vào whwords và câu trả lời cho các câu hỏi này. Robinson và Rackstraw định nghĩa whwords là “tập hoàn toàn của các từ để hỏi về mặt từ vựng” (“the total set of lexically
marked interrogative words”). Họ đưa ra một taxonomy câu hỏi 7 lớp bao gồm:Who,
Which, What, When, Where, Why, How.
Có hai vấn đề với taxonomy trên là: Câu hỏi không nhất thiết phải là câu có sử
dụng từ để hỏi wh-words và không phải câu nào có sử dụng từ để hỏi wh-words cũng
đều là câu hỏi. Một câu hỏi có dạng của một câu phát biểu nhưng có thể được hiểu
và chấp nhận như là một câu hỏi. Ví dụ xem xét câu sau: “I’m looking for the name
of the General Secretary of the United Nations” tương đương với câu “Who was the
General Secretary of the United Nations?”. Các cách nói tu từ, biểu cảm rất hay sử
dụng các từ wh-words ví dụ câu “What a beautiful house!” hay “Why not?” đều không
phải là các câu có mục đích hỏi.
Một vài hệ thống Q&A trong hội nghị TREC sử dụng wh-words như là các
tiêu chuẩn chính trong phân tích và biểu diễn logic của câu hỏi [11,12]. Một số hệ
thống chia nhỏ các lớp câu hỏi wh-words thành các lớp con nhằm cho phép hệ thống
Q&A có thể nhận diện được “kiểu ngữ nghĩa (semantic types) của câu trả lời mong

muốn”. Dan Moldovan và đồng nghiệp đưa ra một taxonomy phân loại câu hỏi phân
cấp theo cả từ để hỏi lẫn loại câu trả lời mong muốn tương ứng

10


Ngoài ra, cùng với nghiên cứu về vấn đề này, Li và Roth [12, 13] đã đưa ra
taxonomy phân cấp theo sự phân loại ngữ nghĩa tự nhiên của câu trả lời cho các câu
hỏi được khảo sát từ hội nghị TREC. Cấu trúc phân cấp bao gồm 6 lớp câu hỏi thô
(coarse classes) là ABBREVIATION (viết tắt), ENTITY (thực thể), DESCRIPTION
(mô tả), HUMAN (con người), LOCATION (địa điểm) và NUMERIC VALUE (giá
trị số). Mỗi lớp câu hỏi thô lại được phân chia thành các lớp con (fine class).
Taxonomy câu hỏi của Li và Roth được trình bày chi tiết trong bảng dưới đây.
Taxonomy này cùng bộ dữ liệu câu hỏi đã gán nhãn của Li và Roth được nhiều nhóm
nghiên cứu sử dụng lại bởi nó bao phủ được hầu hết các loại câu hỏi thường gặp trong
thực tế.
Bảng 1.1: Taxonomy câu hỏi của Li và Roth

Nhãn lớp

Số lượng câu
hỏi

Ý nghĩa

Số lượng
kiểm tra

ABBREV


Sự tóm tắt

abbreviation

Tóm tắt

16

1

expansion

ý nghĩa viết tắt

70

8

ENTITY

Thực thể

animal

Động vật

112

16


body

Cơ thể

16

2

color

Màu sắc

40

10

creative

Sự sáng tạo

207

0

currency

Tiền tệ

4


6

disease/ medical

Bệnh tật và y học

103

2

event

Sự kiện

56

2

food

Thực phẩm

103

4

instrument

Dụng cụ chơi nhạc


10

1

language

Ngôn ngữ

16

2

letter

Ký tự

9

0

other

Thực thể khác

217

12

plant


Thực vật

13

5

11


product

Sản phẩm

religion

Tín ngưỡng

sport

42

4

4

0

Thể thao

62


1

substance

Nguyên tố

41

15

symbol

Ký hiệu

11

0

technique

Kỹ thuật

38

1

term

Thuật ngữ


93

7

27

4

26

0

vehicle

Phương tiện giao
thông

word

Từ ngữ

DESCRIPTION

Mô tả

definition

Định nghĩa


421

123

description

Mô tả

274

7

manner

Bộ dạng cử chỉ

276

2

reason

Lý do

191

6

HUMAN


Con người

group

Nhóm

189

6

individual

Cá nhân, cá thể

962

55

title

Danh nghĩa

25

1

description

Mô tả


47

3

LOCATION

Địa điểm

city

Thành phố

129

18

country

Đất nước

155

3

mountain

Ngọn núi

21


3

other

Địa điểm khác

464

50

state

Bang, tỉnh thành

66

7

9

0

363

9

NUMERIC

Số học


code



count

Số lượng

12


date
distance

Ngày tháng
Khoảng cách

218

47

34

16

71

3

6


0

money

Giá cả

order

Thứ hạng

other

Khác

52

12

period

Giai đoạn

75

8

percent

Phần trăm


27

3

speed

Tốc độ

9

6

temperature

Nhiệt độ

8

5

size

Kích thước

13

0

weight


Cân nặng

11

4

1.5 Các đặc trưng phân lớp
Đầu vào của một hệ thống hỏi đáp là câu hỏi dưới dạng ngôn ngữ tự nhiên. Vì
vậy việc phân tích câu hỏi như thế nào luôn gặp khó khăn, làm thế nào để máy tính
có thể hiểu được ngôn ngữ của con người, từ việc hiểu nghĩa của từng từ trong mỗi
hoàn cảnh cụ thể, đến việc hiểu nghĩa của cả câu hỏi, hiểu được câu hỏi đang muốn
hỏi về cái gì và người hỏi mong muốn cái gì. Điểm quan trọng ở đây chính là bản
chất phức tạp của ngôn ngữ con người, đặc biệt là sự đa nghĩa và nhập nhằng của ngữ
nghĩa của ngôn ngữ. Chính vì vậy để việc phân lớp câu hỏi trong hệ thống hỏi đáp
đạt hiểu quả cao cần hiểu về các đặc trưng riêng của mỗi loại câu hỏi. Các đặc trưng
phân lớp câu hỏi có thể được chia thành 3 loại khác nhau: các đặc trưng về từ vựng,
các đặc trưng về cú pháp và các đặc trưng về ngữ nghĩa.

1.5.1 Các đặc trưng về từ vựng
Các đặc trưng từ vựng của một câu hỏi thường được rút trích dựa trên ngữ
cảnh của các từ của câu hỏi, nghĩa là, các từ đó xuất hiện trong một câu hỏi. Trong
nhiệm vụ phân loại câu hỏi, một câu hỏi được biểu diễn giống như biểu diễn tài liệu
trong mô hình không gian vectơ, tức là, một câu hỏi là một vectơ mà được mô tả bởi
các từ bên trong nó. Do đó một câu hỏi x có thể được biểu diễn như sau:

13


x = (x1, x2,...,xn)


(1)

Trong đó: xi là tần số xuất hiện của từ i trong câu hỏi x và N là tổng số các từ.
Do sự thưa thớt của các đặc trưng, chỉ các đặc trưng có giá trị khác không mới được
giữ lại trong vectơ đặc trưng. Vì vậy đôi khi các câu hỏi cũng được biểu diễn dưới
hình thức sau:
x = {(t1, f1), (t2, f2),…,(tn,fn)}

(2)

Trong đó ti là thứ i trong câu hỏi x và fi là tần số xuất hiện của ti trong câu hỏi
x. Không gian đặc trưng này được gọi là các đặc trưng bag-of-word và thứ tự của các
từ trong câu hỏi là không quan trọng trong cách biểu diễn. Việc biểu diễn các câu hỏi
theo công thức (2) làm cho kích thước của tập mẫu tương đối nhỏ mặc dù kích thước
của không gian đặc trưng rất lớn. Ví dụ cùng xem xét câu hỏi sau:“Viện Đại học Mở
Hà Nội được thành lập từ năm nào“ được biểu diễn như sau:
x = {(Viện, 1), (Đại, 1), (học,1), (Mở, 1), (Hà, 1), (Nội, 1), (được, 1), (thành,
1), (lập, 1), (từ, 1), (năm, 1), (nào, 1)}
Tần số xuất hiện của các từ trong câu hỏi (các giá trị của đặc trưng) có thể
được xem như là giá trị trọng số, nó biểu thị cho tầm quan trọng của một từ trong câu
hỏi.
Không gian đặc trưng bag-of-word còn được gọi là unigram. Unigram là một
trường hợp đặc biệt của các đặc trưng n-gram. Để trích xuất các đặc trưng n-gram,
bất kỳ n từ liên tiếp nhau trong một câu hỏi sẽ được xem như là một đặc trưng. Ngoài
unigram, còn có thêm 2 loại n-gram thường được gọi là bigram, trigram. Cụ thể:
+ Bigram: lấy lần lượt 2 từ liên tiếp nhau trong câu.
+ Trigram : lấy lần lượt 3 từ liên tiếp nhau trong câu.
Ví dụ như câu hỏi sau:“Vì sao bạn chọn học E-learning tại Viện Đại học Mở Hà
Nội?”, từ hỏi “Vì sao” là một đặc trưng Bigram và có thể được thêm vào vector đặc

trưng. Tất cả các đặc trưng về từ vựng, cú pháp và ngữ nghĩa có thể được thêm vào
không gian đặc trưng và mở rộng vector đặc trưng trên.
Các vector đặc trưng vẫn có thể được biểu diễn theo (2), trong khi các đặc trưng mới
có thể được coi như từ loại mới. Chẳng hạn đặc trưng bigram “Vì sao” có thể được
xem như một từ loại mới và cặp {(Vì sao), 1)} sẽ được thêm vào vector đặc trưng khi

14


đặc trưng bigram được trích xuất. Tuy nhiên, điều này sẽ làm tăng kích thước của
không gian đặc trưng và các câu hỏi sẽ được biểu diễn với số chiều cao. Ngoài ra,
trong đặc trưng bigram cứ 2 từ liên tiếp trong tập dữ liệu được xem là đặc trưng,
nhưng hầu hết trong đó lại dư thừa và không hiển thị trong dữ liệu. Vì vậy, chúng ta
chỉ nên xem xét hai từ đầu tiên của một câu hỏi là đặc trưng bigram và như vậy, kích
thước của không gian đặc trưng sẽ nhỏ hơn rất nhiều. Như trong ví dụ vừa nêu ra “Vì
sao bạn chọn học E-learning tại Viện Đại học Mở Hà Nội?”, chỉ có ý nghĩa bigram
trong câu hỏi này là “Vì sao” trong khi các phần còn lại là không hữu ích.
Trong nghiên cứu của mình, nhóm tác giả Huang đã giới thiệu đặc trưng từ hỏi whword. Đặc trưng wh-word được hiểu các câu hỏi bắt đầu bằng “wh” (đối với hệ thống
tiếng Anh). Ví dụ “Where is Hanoi Open University?” thì wh-word của câu hỏi trên
là “where”. Đã có 8 loại wh-word được nêu ra: what, which, when, where, who, how,
why, và rest, với rest được hiểu là các loại câu hỏi còn lại không thuộc 8 loại trên. Ví
dụ câu hỏi “Name a food high in zinc” là một câu hỏi thuộc loại rest.
Nhóm tác giả Huang còn giới thiệu một đặc trưng từ vựng khác là word shapes (khuôn
dạng từ). Loại đặc trưng này dùng để chỉ tính chi tiết của các đơn từ. Có 5 loại đặc
trưng word shapes được giới thiệu là: all digits, all lower case, all upper case, mixed
case and other.

1.5.2 Các đặc trưng về cú pháp
Các đặc trưng về cú pháp chính là các quan hệ cấu trúc giữa các từ, xem các
từ đi với nhau như thế nào để tạo ra một câu hoàn chỉnh, đúng nghĩa. Dưới đây là một

số loại đặc trưng thường được sử dụng nhất.

1.5.2.1. POS Tags và Tagged Unigrams
POS tags cho biết nhãn từ loại của mỗi từ trong câu hỏi như NN (Nound-danh
từ), JJ (adjective- tính từ), RB (Adverb – trạng từ),…Việc gán nhãn từ loại (POS tags)
đóng một vai trò quan trọng trong việc phân loại câu hỏi. Các danh từ trong câu hỏi
đại diện cho các đối tượng hay các thực thể cần nói tới. Vì thế, ta cần các định từ loại
của các từ trong câu hỏi.
Một vài nghiên cứu trong phân loại câu hỏi thêm tất cả các POS tags của câu
hỏi vào vector đặc trưng. Không gian đặc trưng này đôi khi được gọi là bag-of-POS

15


tags. Ví dụ các đặc trưng bag-of-POS tags của câu hỏi “Where is Hanoi Open
University?” như sau:
Where_WRB is_MD Hanoi_NN Open_NN University_NN
Việc gán nhãn từ loại (POS tags) cũng đóng một vai trò quan trọng trong việc
phân loại câu hỏi. Các danh từ trong câu hỏi đại diện cho các đối tượng hay các thực
thể cần hỏi tới. Vì thế, ta cần xác định từ loại của các từ trong câu hỏi. Có một vài
nghiên cứu trong phân loại câu hỏi thêm tất cả các POS tags của câu hỏi vào vectơ
đặc trưng. Không gian đặc trưng này đôi khi được gọi như bag-of-POS tags. Các đặc
trưng bag-of-POS tags của câu hỏi trên như sau:
{(WRB,1), (MD,1), (NN,1), (NN,1), (NN,1)}
Bên cạnh đó, có một đặc trưng khác tên là tagged unigram. Đặc trưng này đơn
giản là unigrams tăng cường với POS tags. Xét tagged unigram thay vì unigrams bình
thường có thể giúp bộ phân loại phân biệt một từ với các thẻ khác như là hai đặc trưng
khác nhau. Ví dụ trên được biểu diễn với các đặc trưng tagged unigram trên như sau:
{(Where_WRB,1),


(is_MD,1),

(Hanoi_NN,1),

(Open_NN,1),

(University_NN,1)}.

1.5.2.2. Từ đầu (head word)
Cách khai thác từ đầu của Li và Rod là lấy danh từ và động từ đầu tiên của
một đoạn văn bản và coi như những từ đầu của một câu hỏi, họ sử dụng đặc trưng
head chuck như đặc trưng cú pháp cho cách tiếp cận của mình. Head chuck được định
nghĩa là cụm danh từ và cụm động từ đằng sau từ để hỏi. Xét ví dụ “What is the best
university in Hanoi” thì head chuck là cụm danh từ “the best university in Hanoi”.
Theo nghiên cứu của Krishman (2005), ông cũng sử dụng đặc trưng gọi là informer
span. Đặc trưng này có thể được biểu diễn là một cụm từ mà cung cấp đủ thông tin
để giúp phân loại câu hỏi. Cũng với ví dụ của câu hỏi “What is the best university in
Hanoi” thì imformer span được xác định là “the best university”.
Nhận thấy rằng 2 cách tiếp cận này đều được chứng minh là chứa thông tin
nhiễu. Chẳng hạn với câu hỏi. Nhóm tác giải Huang đã đề xuất đặc trưng headword
dựa trên ý tưởng một từ trong câu hỏi đại diện cho một đối tượng cần hỏi đến để giải
quyết vấn đề này. Xác định chính xác từ đầu có thể cải thiện đáng kể độ chính xác

16


×