Tải bản đầy đủ (.pdf) (73 trang)

Ứng dụng trích rút thông tin vào xây dựng hệ thống hỏi đáp từ tập dữ liệu dạng văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.02 MB, 73 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

──────── * ───────

Họ và tên tác giả luận văn: Hoàng Thị Thu Hiền

ỨNG DỤNG TRÍCH RÚT THÔNG TIN VÀO XÂY DỰNG
HỆ THỐNG HỎI ĐÁP TỪ TẬP DỮ LIỆU DẠNG VĂN BẢN

LUẬN VĂN THẠC SĨ KỶ THUẬT
NGÀNH CÔNG NGHỆ THÔNG TIN

Hà nội - năm 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

──────── * ───────

Họ và tên tác giả luận văn: Hoàng Thị Thu Hiền

ỨNG DỤNG TRÍCH RÚT THÔNG TIN VÀO XÂY DỰNG
HỆ THỐNG HỎI ĐÁP TỪ TẬP DỮ LIỆU DẠNG VĂN BẢN

LUẬN VĂN THẠC SĨ KỶ THUẬT
NGÀNH CÔNG NGHỆ THÔNG TIN

Ngƣời hƣớng dẫn khoa học: PGS.TS Lê Thanh Hƣơng


Hà nội - năm 2016


MỤC LỤC
Trang
LỜI CẢM ƠN! ............................................................................................................ 4
LỜI CAM DOAN ....................................................................................................... 5
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................ 6
DANH MỤC CÁC BẢNG ......................................................................................... 7
DANH MỤC HÌNH VẼ .............................................................................................. 8
LỜI MỞ ĐẦU ............................................................................................................. 9
PHẦN 1 : ĐẶT VẤN ĐỀ VÀ ĐỊNH HƢỚNG GIẢI PHÁP ................................... 11
CHƢƠNG I. GIỚI THIỆU VỀ HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG ....................... 11
1. Hệ thống hỏi đáp tự động ......................................................................................11
2. Phân loại hệ thống hỏi đáp tự động .......................................................................13
2.1. Phân loại theo miền ứng dụng .....................................................................13
2.2. Phân loại theo khả năng trả lời câu hỏi .......................................................14
2.3. Phân loại theo hƣớng tiếp cận ....................................................................15
3. Các bƣớc cơ bản của hệ thống hỏi đáp tự động ....................................................16
4. Một số vấn đề quan tâm khi thiết kế hệ thống Q&A ............................................16
5. Một số hệ thống hỏi đáp tiêu biểu .........................................................................17
CHƢƠNG II: NGHIÊN CỨU CÁC KỶ THUẬT PHÂN TÍCH CÂU HỎI THEO
NGÔN NGỮ TỰ NHIÊN .........................................................................................19
1. Nội dung của phân tích câu hỏi ............................................................................. 19
2. Khó khăn của phân tích câu hỏi ............................................................................ 19
3. Khảo sát các phƣơng pháp phân tích câu hỏi cho các loại câu hỏi khác nhau ............ 20
3.1. Câu hỏi đơn giản (factual-base) ......................................................................20

1



3.2. Câu hỏi định nghĩa (definition question) ........................................................23
4. Một số phƣơng pháp phân tích câu hỏi ................................................................. 25
4.1. Phƣơng pháp phân lớp sử dụng học máy thống kê .........................................25
4.2. Phƣơng pháp phân tích câu hỏi bằng cách xử lí ngôn ngữ tự nhiên...............26
4.3. Phƣơng pháp xác định loại câu hỏi sử dụng mẫu quan hệ .............................28
CHƢƠNG 3. NGHIÊN CỨU CÁC KỶ THUẬT TRÍCH RÚT THÔNG TIN DỰA
TRÊN QUAN HỆ NGỮ NGHĨA ..............................................................................30
1. Khái quát bài toán trích rút quan hệ ngữ nghĩa ..................................................... 30
1.1. Quan hệ ngữ nghĩa .........................................................................................30
1.2. Các loại quan hệ ngữ nghĩa ............................................................................30
1.3. Bài toán trích rút mối quan hệ ngữ nghĩa .......................................................34
2. Các phƣơng pháp trích rút mẫu quan hệ ............................................................... 34
2.1. Phƣơng pháp DIPRE.......................................................................................34
2.2. Phƣơng pháp Snowball ...................................................................................37
2.3. Phƣơng pháp trích xuất mẫu tự động sử dụng máy tìm kiếm.........................39
2.4. Phƣơng pháp KnowItAll .................................................................................40
2.5. Phƣơng pháp TextRunner ...............................................................................42
2.6. So sánh ............................................................................................................43
PHẦN 2 : KẾT QUẢ ĐẠT ĐƢỢC .......................................................................... 45
CHƢƠNG 4: THỰC NGHIỆM XÂY DỰNG HỆ THỐNG HỎI ĐÁP PHÒNG VÀ
CHỮA BỆNH Ở TRẺ EM ........................................................................................45
1. Đặt vấn đề và giải pháp: ........................................................................................ 45
3. Xây dựng cơ sở dữ liệu: ........................................................................................ 52
3.1. Dữ liệu về danh sách các loại bệnh: ...............................................................56
3.2. Dữ liệu về định nghĩa các loại bệnh: ..............................................................57

2



3.3. Dữ liệu về nguyên nhân gây ra bệnh: .............................................................57
3.4. Dữ liệu về triệu chứng các loại bệnh: .............................................................58
3.5. Dữ liệu về cách phòng các loại bệnh: .............................................................58
3.6. Dữ liệu về cách chữa các loại bệnh: .............................................................. 59
4. So khớp mẫu.......................................................................................................... 59
4.1. Tạo mẫu câu hỏi..............................................................................................59
4.2. Tìm từ khóa .....................................................................................................60
5. So khớp mẫu câu hỏi ............................................................................................. 62
6. Trích xuất câu trả lời: ............................................................................................ 62
7.Kết quả và đánh giá ................................................................................................ 63
7.1 Giao diện chƣơng trình ....................................................................................63
7.3 Nhận xét, đánh giá ...........................................................................................68
KẾT LUẬN ............................................................................................................... 69
TÀI LIỆU THAM KHẢO......................................................................................... 71

3


LỜI CẢM ƠN!
Trƣớc tiên, em xin lời cảm ơn và lòng biết ơn sâu sắc nhất đến PGS.TS Lê
Thanh Hƣơng ngƣời đã tận tình chỉ bảo em suốt quá trình làm luận văn tốt nghiệp.
Em xin cảm ơn các thầy cô và cán bộ trƣờng Đại học Bách Khoa đã tạo điều
kiện thuận lợi để em học tập và nghiên cứu.
Cuối cùng, em muốn gửi lời cảm ơn tới gia đình và bạn bè, những ngƣời thân
yêu luôn bên cạnh, động viên em trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Em xin chân thành cảm ơn !

4



LỜI CAM DOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân dƣới sự hƣớng
dẫn khoa học của PGS.TS. Lê Thanh Hƣơng, xuất phát từ yêu cầu phát sinh trong
cuộc sống hàng ngày để hình thành hƣớng nghiên cứu. Các số liệu có nguồn gốc rõ
ràng tuân thủ đúng nguyên tắc và kết quả trình bày trong luận văn đƣợc thu thập
trong quá trình nghiên cứu là trung thực chƣa từng đƣợc ai công bố trƣớc đây.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về
nội dung luận văn của mình.
Hà Nội, tháng 10 năm 2016
Tác giả luận văn

Hoàng Thị Thu Hiền

5


DANH MỤC CÁC TỪ VIẾT TẮT
STT

Từ viết tắt

Chi tiết

Nghĩa

1

Q&A

Question and answer


Hệ thống hỏi đáp

2

NP

Noun Phrase

Cụm danh từ

3

UMLS

Unified Medical
Language System

Thống nhất hệ thống
ngôn ngữ y tế

4

IR

information retrieval

Truy vấn thông tin

5


PMI

pointwise mutual
information

Thông tin chung dựa
trên điểm

6

SEI

Search Engine
Interface

Giao diện
máy tìm kiếm

7

SVM

Support Vector
Machines

Máy hỗ trợ Vector

8


kNN

k Near Neighbors

Láng giềng gần nhất

6


DANH MỤC CÁC BẢNG
Bảng 1. Bảng mối quan hệ ngữ nghĩa trong WordNet ............................................. 33
Bảng 2. Ví dụ trích rút mẫu ....................................................................................... 35
Bảng 3. So sánh các phƣơng pháp trích rút mẫu ...................................................... 43
Bảng 4. Từ điển định nghĩa mối quan hệ với các loại bệnh ........................................ 48
Bảng 5. Tập quan hệ cùng các mẫu tƣơng ứng ........................................................ 49
Bảng 6. Một số kết quả thử nghiệm chƣơng trình hỏi đáp chữa bệnh cho trẻ em .... 64
Bảng 7. Đánh giá độ chính xác hệ thống cho từng loại câu hỏi ............................... 67

7


DANH MỤC HÌNH VẼ
Hình 1. Xu hƣớng nghiên cứu về Q&A .................................................................... 14
Hình 2. Các bƣớc của hệ thống Q&A ....................................................................... 16
Hình 3. Kiến trúc cho xử lý các câu hỏi factual-base ............................................... 21
Hình 4. Xác định loại câu hỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên ................. 27
Hình 5. Mối liên hệ giữa từ “car” với các từ khác thông qua các mối quan hệ ........ 32
Hình 6. Kiến trúc hệ thống Snowball ........................................................................ 37
Hình 7. Các thành phần chính của KnowItAll .......................................................... 40
Hình 8. Mô hình của hệ thống hỏi đáp tự động ........................................................ 46

Hình 9. Mô hình xử lí cho pha phân tích câu hỏi và trích xuất câu trả lời ............... 49
Hình10. Cơ sở dữ liệu cách phòng và chữa bệnh ở trẻ em ....................................... 52
Hình 11. Giao diện chƣơng trình hỏi đáp phòng và chữa bệnh cho trẻ em .............. 63

8


LỜI MỞ ĐẦU
Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) đã đƣợc quan tâm từ rất lâu
trên thế giới. Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở dữ
liệu đã đƣợc ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hƣớng đến việc
“hiểu văn bản” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ thống kê.
Cuối những năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở thành
một kho ngữ liệu khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai
thác web nhƣ là một nguồn dữ liệu cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi
hỏi tốc độ cao, khả năng xử lý lƣợng dữ liệu web lớn đang rất đƣợc quan tâm.Việc xây
dựng một hệ thống hỏi đáp tự động trả lời đƣợc tất cả các câu hỏi về tất cả các lĩnh vực
rất khó thực hiện vì hệ thống tri thức quá rộng do đó thƣờng tập trung vào một lĩnh vực
nào đó, khóa luận đã hƣớng tới một lĩnh vực cụ thể đó là hỏi đáp về phòng và chữa
bệnh ở trẻ em.
Khóa luận tập trung vào nghiên cứu các kỷ thuật phân tích câu hỏi ngôn ngữ
tự nhiên và nghiên cứu các kỷ thuật trích rút thông tin. Từ đó, đƣa ra một phƣơng
pháp trích rút mối quan hệ ngữ nghĩa cho ngôn ngữ tiếng Việt bằng cách kết hợp
giữa phƣơng pháp trích rút mối quan hệ ngữ nghĩa sử dụng máy tìm kiếm và
phƣơng pháp DIPRE. Bên cạnh đó, khoá luận cũng áp dụng phƣơng pháp trích rút
mối quan hệ ngữ nghĩa để giải quyết cho bài toán mà cũng đang nhận đƣợc sự quan
tâm không kém – đó là xây dựng hệ thống hỏi đáp. Thông qua việc xây dựng hệ
thống hỏi đáp tự động (question answering), hệ thống cũng đánh giá đƣợc hiệu quả
của phƣơng pháp cho bài toán trích rút mối quan hệ ngữ nghĩa mà khoá luận đƣa ra.
Nội dung của khoá luận đƣợc chia thành các chƣơng nhƣ sau:

Chƣơng 1: Giới thiệu về hệ thống hỏi đáp tự động. Trong chƣơng này đề cập
tới khái niện hệ thống hỏi đáp, phân loại hệ thống hỏi đáp tự động, Các bƣớc cơ bản
của hệ thống hỏi đáp tự động bao gồm phân tích câu hỏi và trích chọn tài liệu liên
quan sau đó đƣa ra câu trả lời.

9


Chƣơng 2: Nghiên cứu các kỷ thuật phân tích câu hỏi theo ngôn ngữ tự
nhiên. Đây là chƣơng đề cập tới những khó khăn trong việc phân tích câu hỏi đồng
thời đƣa ra phƣơng pháp khảo sát và cách phân tích các loại câu hỏi khác nhau từ
câu hỏi đơn giản đến câu hỏi phức tạp.
Chƣơng 3:Nghiên cứu các kỷ thuật trích rút thông tin dựa trên quan hệ ngữ
nghĩa. Trình bày khái niệm mẫu quan hệ ngữ nghĩa, các phƣơng pháp trích rút mẫu
quan hệ ngữ nghĩa. Đồng thời đƣa ra phƣơng pháp trích rút mẫu quan hệ ngữ nghĩa
phù hợp nhất đối với tài liệu tiếng Việt.
Chƣơng 4: Thực nghiệm xây dựng hệ thống hỏi đáp phòng và chữa bệnh ở trẻ
em. Trong chƣơng trình bày kết quả đã đạt đƣợc từ xây dựng hệ thống CSDL, ứng
dụng phƣơng pháp trích rút mối quan hệ ngữ nghĩa sử dụng máy tìm kiếm và phƣơng
pháp DIPRE để trích rút thông tin trên trang wiki, google..., và cách xác định tập
seed, mẫu, tìm từ khóa để hỏi đến trích xuất ra câu trả lời. Đồng thời trong chƣơng
cũng trình bày một số kết quả câu hỏi đáp theo ngôn ngữ tự nhiên đã đạt đƣợc.
Phần kết luận và hƣớng phát triển khoá luận: Tóm lƣợc những điểm
chính của khoá luận. Chỉ ra những điểm cần khắc phục, đồng thời đƣa ra những
hƣớng nghiên cứu trong thời gian sắp tới.

10


PHẦN 1 : ĐẶT VẤN ĐỀ VÀ ĐỊNH HƢỚNG GIẢI PHÁP

CHƢƠNG I. GIỚI THIỆU VỀ HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG
1. Hệ thống hỏi đáp tự động
Hệ thống hỏi đáp tự động có thể coi nhƣ một lựa chọn thứ hai bên cạnh hệ
thống trích chọn thông tin khi ngƣời dùng muốn tìm kiếm thông tin họ cần. Hệ
thống trích chọn thông tin nhận đầu vào là các từ khóa và trả về tập các tài liệu liên
quan (có chứa các từ khóa đó). Kết quả mà hệ thống trích chọn thông tin (máy tìm
kiếm) trả lại cho ngƣời dùng là rất lớn, có thể lên đến hàng nghìn trang web mà
phần nhiều không chứa thông tin ngƣời dùng mong muốn. Trong khi đó, hệ thống
hỏi đáp nhận đầu vào là câu hỏi dƣới dạng ngôn ngữ tự nhiên của ngƣời dùng, trả
lại các đoạn văn bản ngắn (các snippet) chứa câu trả lời trực tiếp cho câu hỏi.
Nghiên cứu về hệ thống hỏi đáp tự động hiện đang thu hút sự quan tâm của
rất nhiều các nhà nghiên cứu từ các trƣờng đại học, các viện nghiên cứu và cả các
doanh nghiệp lớn trong ngành công nghệ thông tin. Từ những năm 1960, các hệ
thống hỏi đáp đầu tiên đã đƣợc ra đời. Điểm chung trong các hệ thống này là sử
dụng cơ sở dữ liệu đƣợc thiết kế bằng tay bởi các chuyên gia trong lĩnh vực đƣợc
chọn. Giai đoạn những năm 1970- 1980, có nhiều dự án lớn hƣớng đến việc “hiểu
văn bản” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ thống kê.
Hội nghị TREC diễn ra hàng năm (bắt đầu từ cuối những năm 1990) thu hút sự
tham gia của rất nhiều các nhóm nghiên cứu cũng đã góp phần rất lớn trong việc
thúc đẩy các nghiên cứu về hệ thống hỏi đáp. Cuối những năm 1990, world wide
web ra đời và nhanh chóng phát triển bùng nổ trở thành một kho ngữ liệu khổng lồ.
Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web nhƣ là một
nguồn cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng
xử lý lƣợng dữ liệu web lớn đang rất đƣợc quan tâm.

11


 Khái niện hệ thống hỏi đáp : Là hệ thống được xây dựng để thực hiện việc
tìm kiếm tự động câu trả lời từ một tập lớn các tài liệu cho câu hỏi đầu vào

một cách chính xác và ngắn gọn.
Năm 2000, Carbonell và các đồng nghiệp trong bài báo The Vision Statement
to Guide Research in Question Answering and Text Summarization [13] đã đƣa ra
các tƣ tƣởng chung cho việc nghiên cứu Q&A. Theo đó một hệ thống hỏi đáp đƣợc
ngƣời dùng đánh giá là hữu ích nếu đáp ứng đƣợc các tiêu chuẩn: ™
- Tính hợp lý về thời gian (Timeliness): Câu trả lời phải đƣợc đƣa ra trong
thời gian ngắn, ngay cả khi có hàng ngàn ngƣời dùng cùng truy nhập hệ thống một
lúc. Các nguồn dữ liệu mới cần phải đƣợc tích hợp vào hệ thống ngay khi chúng sẵn
sàng để có thể cung cấp cho ngƣời dùng câu trả lời cho những câu hỏi về các sự
kiện có tính thời sự. ™
- Tính chính xác: Tính chính xác của hệ thống hỏi đáp tự động là cực kì quan
trọng bởi việc đƣa ra câu trả lời sai còn tai hại hơn nhiều là không đƣa ra câu trả lời.
Nghiên cứu về Q&A cần tập trung vào việc đánh giá tính đúng đắn của câu trả lời
đƣa ra, bao gồm cả phƣơng thức để phát hiện các trƣờng hợp mà dữ liệu hiện thời
không chứa câu trả lời cho câu hỏi. Các thông tin mâu thuẫn trong dữ liệu cũng cần
đƣợc tìm ra và các thông tin này cần đƣợc xử lý theo một cách phù hợp, nhất quán.
Để đạt đƣợc sự chính xác, hệ thống Q&A cần đƣợc tích hợp các nguồn tri thức
(world knowledge ) và cơ chế “bắt chƣớc” việc suy luận thông thƣờng (việc bắt
chƣớc có thể hiểu nhƣ là một quá trình học).
- Tính khả dụng: Hệ thống Q&A cần đáp ứng đƣợc các yêu cầu cụ thể của
một ngƣời dùng. Các ontology trên từng miền cụ thể và ontology trên miền mở cần
đƣợc tích hợp trong hệ thống. Hệ thống Q&A cần có khả năng khai phá câu trả lời 5
từ bất kì dạng dữ liệu gì (văn bản, web, cơ sở dữ liệu, …) và đƣa ra câu trả lời dƣới
định dạng mà ngƣời dùng mong muốn, cho phép ngƣời dùng miêu tả ngữ cảnh của
câu hỏi và cung cấp các thông tin giải thích, trích dẫn nguồn cho câu trả lời. ™

12


- Tính hoàn chỉnh: Câu trả lời hoàn chỉnh cho câu hỏi của ngƣời dùng là

điều mà các hệ thống Q&A hƣớng tới. Trong nhiều trƣờng hợp (câu hỏi về danh
sách, nguyên nhân, cách thức…), các phần của câu trả lời nằm rải rác trong một văn
bản, thậm chí trong nhiều văn bản. Vì vậy cần phải hợp nhất các phần này dựa trên
các thông tin liên kết để tạo ra câu trả lời hoàn chỉnh. ™
- Tính thích hợp của câu trả lời: Trong ngôn ngữ tự nhiên, câu hỏi đƣa ra
luôn gắn với ngữ cảnh nào đó và câu trả lời cũng nằm trong một ngữ cảnh nhất định.
Câu trả lời mà hệ thống Q&A đƣa ra phải phù hợp ngữ cảnh với câu hỏi. Một hệ
thống Q&A có khả năng giao tiếp (interactive Q&A) là cần thiết trong nhiều trƣờng
hợp bởi chuỗi các câu hỏi liên quan đến một vấn đề sẽ giúp làm sáng tỏ thông tin mà
ngƣời dùng đang hỏi. Việc đánh giá một hệ thống Q&A cần hƣớng ngƣời dùng bởi ý
kiến ngƣời dùng là đánh giá tốt nhất cho tính thích hợp của câu trả lời
Các tiêu chuẩn trên đƣợc đặt ra với mong muốn xây dựng đƣợc một hệ thống
Q&A hoàn chỉnh. Tuy nhiên, không phải hệ thống nào cũng có khả năng thông
minh và hoàn thiện nhƣ thế. Các nghiên cứu về Q&A hiện nay đang tập trung vào
xây dựng hệ thống hỏi đáp có tính chính xác cao và có khả năng sử dụng nguồn dữ
liệu web khổng lồ trên Internet.
2. Phân loại hệ thống hỏi đáp tự động
Có nhiều cách phân loại hệ thống hỏi đáp dựa trên các tiêu chí khác nhau nhƣ:
phân loại theo miền ứng dụng, theo khả năng trả lời câu hỏi, theo cách tiếp cận giải
quyết bài toán…
2.1 Phân loại theo miền ứng dụng
 Hệ thống hỏi đáp miền mở (open domain Question answering): Hệ thống trả lời
bất kỳ câu hỏi nào đƣợc đƣa vào. Khó khăn cho hệ thống miền mở đó chính là việc
xây dựng các tri thức cho việc trả lời cũng nhƣ phân tích câu hỏi, các phƣơng pháp
hiện nay thƣờng sử dụng một số các ontology khái quát hay các mạng tri thức nhƣ:
wikipedia, bách khoa từ điển... Tuy nhiên, dữ liệu cho việc trích rút câu trả lời là phong
phú, dễ thu thập.
13



 Hệ thống hỏi đáp miền đóng (close domain Question answering): Hệ thống
tập trung vào trả lời các câu hỏi liên quan đến một miền cụ thể (giáo dục, y tế, thể
thao...). Xây dựng hệ thống hỏi đáp miền đóng đƣợc coi là bài toán dễ hơn so với
xây dựng hệ thống hỏi đáp miền mở vì có thể sử dụng các tri thức miền (thƣờng là
ontology của miền cụ thể).
Hệ thống hỏi đáp

Miền đóng

Miền mở

Dữ liệu có cấu trúc

Web

Dữ liệu phi cấu trúc

Tập dữ liệu lớn

Văn bản đơn

Hình 1. Xu hướng nghiên cứu về Q&A
Các nghiên cứu hiện nay về Q&A khi nghiên cứu vào xây dựng hệ thống hỏi
đáp trên miền mở, sử dụng nguồn dữ liệu phi cấu trúc (kho văn bản lớn hay dữ liệu
web) để tìm câu trả lời. Các nghiên cứu mới và cải tiến những phƣơng pháp cũ để
có thể áp dụng cho nguồn dữ liệu web vốn đa dạng, nhiều “nhiễu” và trùng lặp
đang rất đƣợc quan tâm.
2.2. Phân loại theo khả năng trả lời câu hỏi
Hệ thống có khả năng trả lời các câu hỏi liên quan đến sự vật, hiện tƣợng,...
dựa trên việc trích ra câu trả lời có sẵn trong tập tài liệu. Câu trả lời là các chuỗi ký

tự trong một tài liệu. Kỷ thuật chính đƣợc sử dụng là xử lý chuỗi và từ khóa.
Hệ thống có cơ chế lập luận đơn giản: Trích xuất các câu trả lời có sẵn trong
tập tài liệu sau đó sử dụng các suy luận để tìm mối liên kết giữa câu trả lời và câu

14


hỏi. Hệ thống sử dụng các nguồn tri thức nhƣ ontology về từng miền cụ thể và
ontology chung.
Hệ thống trả lời các câu hỏi yêu cầu khả năng tổng hợp: Các phần của câu trả
lời đƣợc trích rút từ nhiều tài liệu sau đó đƣợc tổng hợp lại thành câu trả lời hoàn
chỉnh. Câu hỏi thƣờng là về danh sách, về cách thức, nguyên nhân...
Hệ thống có khả năng giao tiếp với ngƣời dùng: Trả lời chuỗi các câu hỏi của
ngƣời dùng về cùng một vấn đề. Ví dụ các câu hỏi của ngƣời dùng nhƣ: “Giáo sƣ A
sinh năm nào? Ở đâu? Ông ấy đang công tác ở đâu?”.
Hệ thống có khả năng lập luận tƣơng tự: Có thể trả lời các câu hỏi có tính chất
suy đoán, câu trả lời ẩn trong tập tài liệu. Hệ thống cần trích ra các luận chứng và
sử dụng lập luận tƣơng tự để tìm ra câu trả lời.
2.3. Phân loại theo hướng tiếp cận:
Hướng tiếp cận nông (shalow): Nhiều phƣơng pháp sử dụng trong Q&A dùng
các kĩ thuật dựa trên từ khóa để định vị các câu, đọan văn có khả năng chứa câu trả
lời từ các văn bản đƣợc trích chọn về. Sau đó giữ lại các câu, đoạn văn có chứa
chuỗi ký tự cùng loại với loại câu trả lời mong muốn (ví dụ các câu hỏi về tên
ngƣời, địa danh, số lƣợng…).
Hướng tiếp cận sâu (deep): Trong những trƣờng hợp khi mà hƣớng tiếp cận
bề mặt không thể tìm ra câu trả lời, những quá trình xử lý về ngữ pháp, ngữ nghĩa
và ngữ cảnh là cần thiết để trích xuất hoặc tạo ra câu trả lời. Các kĩ thuật thƣờng
dùng nhƣ nhận dạng thực thể (named-entity recognition), trích xuất mối quan hệ,
loại bỏ nhập nhằng ngữ nghĩa,… Hệ thống thƣờng sử dụng các nguồn tri thức nhƣ
Wordnet, ontology để làm giàu thêm khả năng lập luận thông qua các định nghĩa và

mối liên hệ ngữ nghĩa. Các hệ thống hỏi đáp dựa theo mô hình ngôn ngữ thống kê
cũng đang ngày càng phổ biến.

15


3. Các bƣớc cơ bản của hệ thống hỏi đáp tự động
 Bƣớc 1: Phân tích câu hỏi. Bƣớc phân tích câu hỏi tạo truy vấn cho
bƣớc trích chọn tài liệu liên quan và tìm ra những thông tin hữu ích cho bƣớc trích
xuất câu trả lời.
 Bƣớc 2: Trích chọn tài liệu liên quan. Bƣớc này sử dụng câu truy
vấn đƣợc tạo ra ở bƣớc phân tích câu hỏi để tìm các tài liệu liên quan đến câu hỏi.
 Bƣớc 3 : Đƣa ra câu trả lời. Bƣớc này phân tích tập tài liệu trả về từ
bƣớc 2 và sử dụng các thông tin hữu ích do bƣớc phân tích câu hỏi cung cấp để đƣa
ra câu trả lời chính xác nhất.
CÂU HỎI
PHÂN TÍCH
Ƣ CÂU HỎI
TRÍCH CHỌN TÀI LIỆU
TRÍCH XUẤT CÂU TRẢ LỜI

CÂU TRẢ LỜI
Hình 2. Các bước của hệ thống Q&A
4. Một số vấn đề quan tâm khi thiết kế hệ thống Q&A
 Loại câu hỏi: Câu hỏi trong ngôn ngữ tự nhiên rất đa dạng, nhập nhằng và
phụ thuộc vào ngữ cảnh. Một số loại câu hỏi đang đƣợc quan tâm trong hệ hống hỏi
đáp nhƣ câu hỏi về sự vật, sự kiện, định nghĩa, danh sách, quá trình, cách thức, lí
do…Mỗi loại câu hỏi có những đặc trƣng và khó khăn trong việc giải quyết, đòi hỏi
phải có các chiến lƣợc để trả lời chúng.
 Xử lí câu hỏi: Một câu hỏi có thể đƣợc diễn đạt bằng nhiều cách khác nhau.

Vì thế, xử lí câu hỏi là phải xác định đƣợc các câu hỏi tƣơng tự, đồng thời có thể
chuyển một câu hỏi phức tạp thành chuỗi các câu hỏi đơn giản hơn.
16


 Ngữ cảnh: Câu hỏi thƣờng đƣợc gắn với ngữ cảnh và câu trả lời cũng đƣợc
đƣa ra trong một ngữ cảnh xác định. Việc sử dụng các thông tin về ngữ cảnh giúp
hệ thống hỏi đáp hiểu câu hỏi một cách rõ ràng, loại bỏ đƣợc các nhặp nhằng và
tăng tính chính xác khi trả lời câu hỏi.
 Nguồn dữ liệu: Nguồn dữ liệu cho hệ thống hỏi đáp rất phong phú, có thể là
sách, báo chí hay các trang web. Tuy nhiên cần đảm bảo nguồn dữ liệu có độ tin
cậy và thông tin chính xác cao.
 Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố:
độ phức tạp của câu hỏi, loại câu hỏi có đƣợc từ quá trình xử lí câu hỏi, dữ liệu
chứa câu trả lời, phƣơng pháp tìm kiếm và ngữ cảnh,... Câu trả lời cho ngƣời dùng
cần phải đảm bảo chính xác.
5. Một số hệ thống hỏi đáp tiêu biểu
Cùng với sự phát triển bủng nổ của world wid web và sự quan tâm của các nhà
nghiên cứu, đã có rất nhiều hệ thống hỏi đáp đƣợc ra đời. Một số hệ thống hỏi đáp
tiêu biểu đƣợc biết đến nhƣ sau: Answer.com (www.answers.com), START
(www.ai.mit.edu/projects/infolab), Ask Jeeves (www.ask.com), Webclopedia and
MURAX ... Trong đó, một số hệ thống hỏi đáp đ. sử dụng phƣơng pháp trích rút
mối quan hệ nhƣ: Webclopedia, OntotripleQA …
- Năm 2000, Hovy, Gerber và Hermjakob đã giới thiệu hệ thống hỏi đáp tự
động Webclopedia. Với mỗi câu hỏi đầu vào, hệ thống sẽ xác định câu hỏi thuộc
loại nào, từ đó đƣa ra một tập các mẫu cho loại câu hỏi đó và một tập các mẫu cho
câu trả lời tƣơng ứng. Sau đó, sử dụng tập mẫu câu trả lời để t.m ra những đoạn văn,
những câu có chứa các thông tin liên quan và trích xuất ra câu trả lời cuối cùng đáp
ứng yêu cầu ngƣời dùng.
- Năm 2002, Ravichandran và Hovy cũng đƣa ra một phƣơng pháp trích rút

mối quan hệ tự động cho hệ thống hỏi đáp tự động. Nhận đầu vào là những ví dụ
của một loại câu hỏi (bao gồm những khái niệm là câu hỏi và câu trả lời), từ đó cho

17


tiến hành học để trích rút mẫu và những ví dụ mới cho loại câu hỏi đó. Sau đó sẽ
tiến hành trả lời dựa trên tập mẫu đ. đƣợc xây dựng.
- Năm 2004, Kim, Lewis, Martinez và Goodall cũng đƣa ra một hệ thống hỏi
đáp OntotrileQA sử dụng kĩ thuật trích rút mối quan hệ ngữ nghĩa cho các thực
thểtrên ontoloty đã đƣợc gán nhãnn bằng tay.
- Năm 2009, một hệ thống hỏi đáp đã đƣợc xây dựng dựa vào việc trích xuất
tự độngcác từ, khái niệm và mối quan hệ. Ở đây, Fahmi đ. tăng độ bao phủ các mối
quan hệ bằng việc cho việc học bán giám sát để sinh tự động các mẫu quan hệ từ
một tập dữ liệu lớn. Mục đích của ông là làm tăng độ chính xác bằng việc sử dụng
những thông tin từ Unified Medical Language System (UMLS) và sử dụng việc lựa
chọn những mối quan hệ liên quan tới các từ trong lĩnh vực y tế.
Nhƣ vậy, phƣơng pháp trích rút mối quan hệ ngữ nghĩa cũng đƣợc sử dụng
nhiều có việc xây dựng hệ thống hỏi đáp. Đồng thời, qua quá trình khảo sát và nghiên
cứu, chúng tôi nhận thấy phƣơng pháp này hầu nhƣ đều tiến hành bằng việc trích rút
các mẫu quan hệ cho những mối quan hệ ngữ nghĩa đã đƣợc xác định trƣớc.

18


CHƢƠNG II : NGHIÊN CỨU CÁC KỸ THUẬT PHÂN TÍCH CÂU HỎI
THEO NGÔN NGỮ TỰ NHIÊN

1. Nội dung của phân tích câu hỏi
Bài toán phân tích câu hỏi: Phân tích câu hỏi nhận đầu vào là câu hỏi dƣới dạng

ngôn ngữ tự nhiên của ngƣời dùng, đƣa ra câu truy vấn cho bƣớc trích chọn tài liệu liên
quan và các thông tin cần thiết cho bƣớc trích rút câu trả lời.
Câu truy vấn là dạng tổ hợp của các từ khóa quan trọng trong câu hỏi (và các từ
khóa mở rộng) với các phép toán tập hợp AND, OR.
Các thông tin cần thiết để trích xuất câu trả lời là rất đa dạng, tùy phuộc vào
phƣơng pháp trích xuất câu trả lời. Thông thƣờng các thông tin đó là mục đích của câu
hỏi (ví dụ mục đích hỏi để khẳng định một điều, để so sánh hay để tìm kiếm thông tin,
để hỏi về định nghĩa, cách thức…), loại câu trả lời mong đợi (question target hay answer
type). Ví dụ câu hỏi “Dân số Việt Nam là bao nhiêu”, câu trả lời đƣợc mong đợi là một
“con số” hay câu hỏi “Ai là tổng thống Mỷ” thì loại câu trả lời là một “tên ngƣời”
2. Khó khăn của phân tích câu hỏi
Câu hỏi đầu vào của hệ thống hỏi đáp tự động là câu hỏi dƣới dạng ngôn ngữ tự
nhiên của ngƣời dùng. Vì vậy việc phân tích câu hỏi cũng gặp những khó khăn của xử
lý ngôn ngữ tự nhiên. Cái khó nằm ở chỗ làm sao cho máy tính đƣợc hiểu ngôn ngữ
con ngƣời, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa
của cả câu hỏi, hiểu câu hỏi đang hỏi về cái gì và ngƣời hỏi mong muốn cái gì. Mấu
chốt ở đây là bản chất phức tạp của ngôn ngữ của con ngƣời, đặc biệt là sự đa nghĩa và
nhập nhằng ngữ nghĩa của ngôn ngữ. Thêm nữa, có một khác biệt sâu sắc là con ngƣời
ngầm hiểu và dùng quá nhiều lẽ thƣờng (common sense) trong ngôn ngữ, nhƣ khi hỏi
về “thời tiết” thì tức là hỏi về “nhiệt độ, độ ẩm, mƣa, nắng …”, hay biết “sợi dây” thì
dùng để kéo chứ không dùng để đẩy hay khều các vật, trong khi rất khó làm cho máy
hiểu các lẽ thƣờng này.

19


Cùng hỏi về một thông tin nhƣng câu hỏi có thể đƣợc diễn đạt theo nhiều cách
khác nhau, sử dụng từ ngữ, cấu trúc câu khác nhau, lúc ở dạng nghi vấn, lúc lại ở dạng
khẳng định. Vì vậy cần thiết phải có một mô hình ngữ nghĩa để hiểu và xử lý câu hỏi, có
khả năng nhận diện đƣợc các câu hỏi tƣơng đƣơng bất kể nó ở dạng khẳng định, nghi

vấn hay các từ ngữ và quan hệ ngữ pháp giữa chúng khác nhau hoặc các dạng thành ngữ,
tu từ. Mô hình này cũng cần có khả năng chuyển đổi các câu hỏi phức tạp thành chuỗi
các câu hỏi đơn giản hơn, có thể xác định đƣợc các nhập nhằng và xử lý chúng theo ngữ
cảnh hoặc sử dụng cách thức giao tiếp với ngƣời dùng để làm rõ ngữ nghĩa.
Xử lý câu hỏi cũng cần phải có cơ chế để xử lý các câu hỏi tiếp sau liên quan đến
cùng một vấn đề của câu hỏi trƣớc, sử dụng các thông tin thu đƣợc ở câu hỏi trƣớc để
làm sáng tỏ câu hỏi tiếp sau, cao hơn nữa là có thể đối thoại với ngƣời dùng theo chuỗi
các câu hỏi và câu trả lời
3. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau
Trong hội nghị TREC, các câu hỏi đƣợc chia thành một số loại sau: câu hỏi
đơn giản (factual-base question), câu hỏi định nghĩa (definition question), câu hỏi
danh sách (list question), câu hỏi phức tạp (complex question),…. Mỗi loại câu hỏi
có những đặc trƣng riêng và hƣớng tiếp cận khác nhau.
3.1. Câu hỏi đơn giản (factual-base)
Câu hỏi factual-base là những câu hỏi về các sự vật, sự kiện đơn lẻ,.. có câu trả
lời là những đoạn văn bản ngắn nằm sẵn trong tài liệu. Kiến trúc thông thƣờng để
xử lý loại câu hỏi này nhƣ sau (Hình 3): Câu hỏi đầu vào đƣợc phân lớp theo loại
ngữ nghĩa của câu trả lời và biến đổi sang dạng truy vấn. Câu truy vấn đƣợc sử
dụng để tìm kiếm các tài liệu có liên quan đến câu hỏi, loại câu hỏi đƣợc sử dụng
trong phần trích xuất câu trả lời nhằm thu hẹp không gian tìm kiếm và kiểm tra câu
trả lời có chính xác hay không.

20


Hình 3. Kiến trúc cho xử lý các câu hỏi factual-base
Nhƣ vậy, hai công việc chính của pha xử lý câu hỏi với loại câu hỏi này là xác
định loại câu hỏi và tạo truy vấn cho hệ IR (information retrieval) trích chọn tài liệu
liên quan. Xác định loại câu hỏi
Xác định loại câu hỏi

Có ý nghĩa rất quan trọng trong phân tích các câu hỏi factual base, đặc biệt là
việc phân loại câu hỏi theo loại ngữ nghĩa của câu trả lời. Có nhiều cách để xác
định loại câu hỏi nhƣ: xây dựng bộ phân lớp câu hỏi sử dụng học máy thống kê,
xác định câu hỏi sử dụng các kỷ thuật của xử lý ngôn ngữ tự nhiên, xác định loại
câu hỏi dựa vào so khớp với các mẫu quan hệ có sẵn. Nội dung chi tiết của các
phƣơng pháp này đƣợc trình bày ở chƣơng 3.
Tạo truy vấn từ câu hỏi
Vấn đề của tạo truy vấn là lựa chọn các từ khóa trong câu hỏi và kết hợp
chúng để tạo ra câu truy vấn không quá chung chung, cũng không quá chi tiết.
Chiến lƣợc đƣợc sử dụng để trích ra các từ khóa quan trọng là sử dụng độ ƣu tiên:
Độ ƣu tiên cao nhất đƣợc gán cho các từ trong dấu nháy kép hoặc nháy đơn, tiếp
đến là các cụm danh từ, động từ, tính từ, trạng từ. Các từ dừng, giới từ, trợ động từ
đƣợc bỏ qua.

21


Nhiều hệ thống Q&A có độ hồi tƣởng (tỉ lệ câu trả lời đƣa ra trên câu hỏi đầu
vào) rất thấp.. Một số nguyên nhân chính bao gồm: module phân tích câu hỏi không
nhận diện đƣợc câu hỏi thuộc loại nào hoặc không tìm đƣợc các mẫu khớp với câu
hỏi, module trích chọn thông tin (IR) không tìm ra đƣợc các tài liệu có chứa câu trả
lời, module trích xuất câu trả lời không thể tìm ra câu trả lời thỏa đáng cho câu hỏi.
Vì vậy với module trích chọn thông tin trong hệ thống Q&A, độ hồi tƣởng là quan
trọng hơn so với độ chính xác bởi các module sau có thể lọc ra các tài liệu không
liên quan, nhƣng không thể tìm ra đƣợc câu trả lời nếu các tài liệu chứa câu trả lời
không đƣợc trả về từ IR [34] . Các nghiên cứu trƣớc đây nhằm làm tăng độ hồi
tƣởng của IR đều tập trung vào việc thu nhỏ sự khác biệt về mặt hình thái, từ vựng
và ngữ nghĩa giữa các từ xuất hiện trong truy vấn và trong tài liệu chứa câu trả lời.
Các nghiên cứu trƣớc đây nhằm làm tăng độ hồi tƣởng của IR đều tập trung
vào việc thu nhỏ sự khác biệt về mặt hình thái, từ vựng và ngữ nghĩa giữa các từ

xuất hiện trong truy vấn và trong tài liệu chứa câu trả lời
- Áp dụng kĩ thuật stemming cho tập dữ liệu đƣợc đánh chỉ mục và các từ
trong truy vấn (stemming là chuyển tất cả các dạng biến thể của một từ thành từ
gốc, ví dụ “expand”, “expanded”, “expansion”, “expandable”… đều đƣợc chuyển
thành “expand”).
- Đánh chỉ mục cho các từ trong tài liệu mà không sử dụng stemming. Sử
dụng kĩ thuật mở rộng hình thái (morphological expansion– ví dụ từ “expands”
đƣợc

mở

rộng

thành

{“expands”,“expand”,

“expanded”,

“expansion”,

“expandable” , … }) cho các từ khóa trong câu hỏi khi tạo truy vấn.
Về mặt từ vựng và ngữ nghĩa, phƣơng pháp hay đƣợc sử dụng đó là: các từ
trong truy vấn đƣợc mở rộng bởi tập các từ đồng nghĩa, các khái niệm có nghĩa
khái quát hơn hoặc chuyên môn hơn, chi tiết hơn hoặc bởi các từ liên quan. Phƣơng
pháp này đòi hỏi phải có các nguồn tri thức vềngôn ngữ, từ vựng nhƣ Wordnet
hoặc Ontology.

22



3.2. Câu hỏi định nghĩa (definition question)
Câu hỏi định nghĩa hỏi về định nghĩa hoặc mô tả về một điều, một khái niệm
gì đó.
Các câu hỏi thƣờng gặp có dạng nhƣ “Máy tìm kiếm là gì”, “Định nghĩa khai phá
dữ liệu”, “Bush là ai ?”…
Câu trả lời cho loại câu hỏi này rất đa dạng, rất nhiều đoạn văn bản ngắn có thể
coi là câu trả lời chấp nhận đƣợc. Ví dụ với câu hỏi “Who is George W. Bush ?”thì
các câu trả lời có thể là:
“… George W. Bush, the 43rd President of the United States…”
“George W. Bush defeated Democratic incumbent Ann Richards to become the
46th Governor of the State of Texas…”
……
Với loại câu hỏi định nghĩa, phƣơng pháp thƣờng hay đƣợc sử dụng là so khớp
mẫu (pattern matching) [17].
Ví dụ về các mẫu câu hỏi và mẫu câu trả lời
Mẫu câu hỏi

Mẫu trả lời

What <be> a <Q> ?

<Q> là gì?

Who <be> <Q> ?

<Q> là ai?....

<Q>, the <A>


<Q> - <A>

<Q> (a <A>)

<Q> - một loại <A>
<Q> là <A> …

<Q> is a|the <A>
Ƣu điểm: Có độ chính xác khá cao.

Nhƣợc điểm: Các mẫu khó có thể bao quát đƣợc hết các trƣờng hợp đa dạng
của câu hỏi và câu trả lời.
3.3. Câu hỏi phức tạp, có ràng buộc về thời gian
Nhiều câu hỏi phức tạp đòi hỏi phải phát hiện ra các thuộc tính về thời gian
hoặc thứ tự diễn ra của sự kiện. Ví dụ“Ai là tổng bí thƣ Đảng Cộng Sản Việt Nam
trong chiến thắng lịch sử Điện Biên Phủ”.
Câu hỏi liên quan đến thời gian đƣợc chia làm 4 loại [33]:

23


×