Mô hình rút trích thông tin văn bản theo chủ đề trong miền chuyên biệt (tin học)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.49 MB, 162 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

TẠ DUY CÔNG CHIẾN

XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN
THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC)

LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP. HỒ CHÍ MINH NĂM 2016

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

TẠ DUY CÔNG CHIẾN

XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN
THEO CHỦ ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC)

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số chuyên ngành: 62.48.01.01
Phản biện độc lập 1:
Phản biện độc lập 2:
Phản biện 1:
Phản biện 2:
Phản biện 3:
NGƯỜI HƯỚNG DẪN KHOA HỌC
GS.TS. PHAN THỊ TƯƠI

LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả
nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất
kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu
(nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.

Tác giả luận án

Chữ ký

Tạ Duy Công Chiến

i

TÓM TẮT LUẬN ÁN
Cùng với truy xuất thông tin, hệ thống hỏi đáp, rút trích thông tin là một trong
các ứng dụng phổ biến trong thời đại ngày nay. Đặc biệt các hệ thống rút trích thông
tin trên các miền chuyên biệt như y học, sinh học, giảng dạy đã mang lại nhiều lợi ích
trong cuộc sống. Tuy nhiên việc xây dựng các hệ thống rút trích thông tin trên các
miền chuyên biệt thường gặp nhiều thử thách như việc xử lý thông tin từ các nguồn tài
nguyên khác nhau, độ chính xác của thông tin và tốc độ xử lý của hệ thống. Vì vậy
hiện nay đã và đang có rất nhiều công trình nghiên cứu trong và ngoài nước liên quan
đến xây dựng các hệ thống rút trích thông tin trên các miền chuyên biệt. Mục đích của
luận án là xây dựng hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên
biệt (Tin học).
Để xây dựng các hệ thống rút trích thông tin văn bản theo chủ đề trên miền
chuyên biệt (Tin học), luận án đề xuất một cách tiếp cận dựa trên bản thể học
(Ontology-based Information Extraction) kết hợp với các giải thuật xử lý ngôn ngữ tự

nhiên và phương pháp thống kê. Để thực hiện mục tiêu trên, luận án phải giải quyết
các vấn đề chính. Thứ nhất, đề xuất mô hình lý thuyết cho hệ thống rút trích thông tin
theo chủ đề trên các tập tin văn bản. Thứ hai, đề xuất cấu trúc, các lớp và các thành
phần của Bản thể học trên miền Tin học, được gọi là Computing Domain Ontology
(CDO) được thể hiện qua nhiều quan hệ ngữ nghĩa hơn các mô hình Bản thể học khác
nói chung. Thứ ba, đề xuất và cải tiến các giải thuật rút trích thông tin từ ba nguồn ngữ
liệu khác nhau để xây dựng và làm giàu ontology, bao gồm các tập tin văn bản trong
trong tập thư viện điện tử ACM (ACM Digital Library), Wikipedia, và WordNet. Thứ
tư, luận án cài đặt hệ thống rút trích thông tin dựa trên ontology để trả lời câu truy vấn
của người dùng. Phần thực nghiệm của luận án đã được tiến hành dựa trên các tập tin
văn bản trong trong tập thư viện điện tử ACM, các câu truy vấn nhập trực tiếp từ
người dùng và các từ điển liên quan đến lĩnh vực Tin học. Kết quả thực nghiệm phản
ánh tính khả thi của các mô hình, giải thuật được đề xuất trong luận án.

ii

ABSTRACT
Nowadays, besides Information Retrieval and Question Answering, Information
Extraction has become an emerging trend in the modern area of digital information
processing. Especially, in some certain domains such as Medicine, Biology and
Education, Information Extraction has made significant contributions for the
improvement of human living condition. However, there are also a lot of challenges
arising when the information extraction is exploited in a specific domain, e.g.
processing data from different resources, the quality and correctness of the extracted
information and system performance when dealing with large-scale datasets.
Therefore, there is much research, both in international and national scales, has been
conducted on the issue of building an efficient information extraction system on a
specific domain. It prompts the general objective of this dissertation, which is to build
a topic-oriented document-based information extraction system for a specific domain

(chosen as Computing within the dissertation scope).
To develop such a proposed system, the dissertation proposes a novel
methodology which combines ontology engineering, natural language processing and
statistics algorithms. In order to fulfil its objective, the dissertation has made the
following contributions. The first, the dissertation proposes a topic-based theoretical
model of the information extraction system on textual documents. The second, the
dissertation proposes the structure, classes and instances of a specific ontology, known
as Computting Domain Ontology (CDO), which renders more semantic relations than
other typical existing ontological models. The third, the dissertation proposes and
improves some algorithms of information extraction for building and enriching the
ontology. Lastly, the dissertation develops an ontology-based information extraction
system for answering user's queries. The experiments of the dissertation were
conducted from the following materials: (i) a dataset of text documents collected from
the ACM Digital Library; (ii) a collection of the user's queries inputted directly into
the system and (iii) the computing dictionaries. The experiment results show that the
algorithms and the proposed models are feasible and introduce significant
improvement compared to similar existing works.

iii

LỜI CẢM ƠN
Trong quá trình hoàn thành luận này, tôi đã được các Thầy Cô nơi cơ sở đào tạo
giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia
đình thường xuyên động viên khích lệ.
Luận án này không thể hoàn thành tốt nếu không có sự tận tình hướng dẫn và sự
giúp đỡ quý báu của GS.TS. Phan Thị Tươi, thầy hướng dẫn mà tôi tôn vinh và bày tỏ
lòng biết ơn sâu sắc nhất.
Tôi muốn bày tỏ lòng biết ơn các thầy cô trong khoa Khoa học và Kỹ thuật Máy
tính trường Đại học Bách Khoa Tp. Hồ Chí Minh đã tạo điều kiện thuận lợi cho tôi

trong quá trình học tập và nghiên cứu tại Khoa.
Lời cảm ơn của tôi xin được gửi đến Phòng Quản lý Sau Đại học về sự hỗ trợ các
thủ tục trong quá trình hoàn thành luận án.
Đồng thời, tôi muốn cảm ơn Ban Giám Hiệu trường Đại học Bách Khoa
Tp.HCM, Phòng Khoa học Công nghệ & Dự án, Phòng Quản lý Sau Đại học đã tài trợ
cho tôi thực hiện đề tài cấp trường năm 2011.
Cuối cùng tôi cảm ơn tất cả bạn bè và người thân đã góp nhiều ý kiến và những
lời động viên khích lệ quí báu giúp tôi vượt qua khó khăn để hoàn thành tốt luận án.
Tác giả luận án
__________________________________
Tạ Duy Công Chiến

iv

MỤC LỤC
DANH MỤC CÁC HÌNH ẢNH.................................................................................. viii
DANH MỤC BẢNG BIỂU .............................................................................................x
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... xi
CHƯƠNG 1.

GIỚI THIỆU.........................................................................................1

1.1

Động cơ nghiên cứu ...........................................................................................1

1.2

Mục tiêu và phạm vi nghiên cứu........................................................................6

1.3

Kết quả đạt được của luận án .............................................................................9

1.4

Cấu trúc của luận án .........................................................................................11

CHƯƠNG 2.

CÁC NGHIÊN CỨU LIÊN QUAN ...................................................14

2.1

Giới thiệu .........................................................................................................14

2.2

Các nghiên cứu liên quan đến xây dựng Ontology ..........................................14

2.2.1

Khái niệm về Ontology .............................................................................14

2.2.2

Các nghiên cứu xây dựng ontology ..........................................................16

2.3

Các nghiên cứu xử lý và rút trích thông tin .....................................................19

2.3.1

Trong nước ................................................................................................19

2.3.2

Ngoài nước ................................................................................................20

2.4

Kết chương .......................................................................................................21

CHƯƠNG 3. XÂY DỰNG MÔ HÌNH RÚT TRÍCH THÔNG TIN VĂN BẢN
THEO CHỦ ĐỀ TRÊN MIỀN CHUYÊN BIỆT ..........................................................23
3.1

Giới thiệu .........................................................................................................23

3.2

Giới thiệu một số mô hình rút trích thông tin ..................................................25

3.2.1

Các mô hình rút trích thông tin trên web ..................................................25

3.2.2

Các mô hình rút trích thông tin trên văn bản ............................................27

3.3 Mục tiêu, hướng giải quyết và nhiệm vụ nghiên cứu mô hình rút trích thông
tin văn bản theo chủ đề trên miền chuyên biệt của luận án .......................................29
3.4

Phươngphápnghiêncứu và hướng tiếp cận ..................................................32

3.5

So sánh mô hình rút trích đề xuất với các mô hình rút trích khác đã đề cập ...34

3.6

Các nguồn ngữ liệu phục vụ cho hệ thống rút trích của luận án......................34

3.6.1

Tập chủ đề của ACM và tập thư viện điện tử ACM .................................34

3.6.2

Wikipedia ..................................................................................................34

3.6.2

WordNet ....................................................................................................35

3.6.3

Babelnet: Từ điển đa ngôn ngữ .................................................................35

3.7

Kết chương .......................................................................................................36

v

CHƯƠNG 4. XÂY DỰNG VÀ LÀM GIÀU ONTOLOGY TRÊN MIỀN TIN HỌC
(COMPUTING DOMAIN ONTOLOGY – CDO) .......................................................37
4.1

Giới thiệu Ontology .........................................................................................37

4.1.1

Các khái niệm ............................................................................................38

4.1.2

Một số phương pháp xây dựng ontology ..................................................41

4.2

Giới thiệu về một số ontology liên quan đến Tin học......................................45

4.2.1

Computing Ontology [9] ...........................................................................45

4.2.2 SwetoDblp ontology ...................................................................................45
4.3

Xây dựng và làm giàu Ontology chuyên biệt trên miền Tin học. ....................46

2..1

Bước 1 – Xây dựng Lớp chủ đề (Topic layer) ..........................................47

2..2

Bước 2 – Xây dựng lớp Thành phần (Ingredient layer) ............................49

2..3

Bước 3 – Xây dựng lớp Synset .................................................................58

2..4

Bước 4 – Xây dựng lớp câu (Sentence layer) ...........................................59

4.4

Biểu diễn và lưu trữ CDO ................................................................................63

4.4.1

Resource Description Framwork (RDF) ...................................................63

4.4.2

Ontology Web Language (OWL)..............................................................64

4.4.3

Chuyển đổi từ OWL sang cơ sở dữ liệu quan hệ ......................................66

4.5

Kết quả thực nghiệm và đánh giá CDO ...........................................................74

4.5.1

So sánh CDO và một số ontology trên thế giới ........................................74

4.5.2

Kết quả xây dựng và làm giàu CDO .........................................................76

4.5.3

Đánh giá kết quả xây dựng và làm giàu CDO ..........................................77

4.6

Kết chương .......................................................................................................81

CHƯƠNG 5.

XÁC ĐỊNH CHỦ ĐỀ CÂU TRUY VẤN ..........................................83

5.1

Mô hình xác định chủ đề của câu truy vấn ......................................................83

5.2

Bài toán xác định chủ đề câu truy vấn và phương pháp đề xuất .....................88

5.2.1

Phân tích câu truy vấn. ..............................................................................89

5.2.2

Xác định các quan hệ ngữ nghĩa bằng cây phụ thuộc ...............................90

5.2.3

So trùng trên ontology ...............................................................................93

5.3

Kết quả thực nghiệm và đánh giá. ...................................................................98

5.3.1

Thực nghiệm .............................................................................................98

5.3.2 Kết quả thực nghiệm và đánh giá phương pháp xác định chủ đề câu truy
vấn dựa trên CDO ..................................................................................................98
5.3.3

So sánh với AIchemyAPI ........................................................................101

5.3.4

Đánh giá về thời gian thực thi .................................................................101

5.3.5

Công cụ hỗ trợ và môi trường thực nghiệm ............................................103
vi

5.4

Kết chương .....................................................................................................104

CHƯƠNG 6.
6.1

RÚT TRÍCH THÔNG TIN THEO CHỦ ĐỀ ...................................105

Mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt ........105

6.1.1

Rút trích thông tin từ các nguồn tài nguyên khác nhau. .........................105

6.1.2

Rút trích thông tin dựa trên CDO trả lời câu truy vấn ............................106

6.2 Ví dụ minh họa hoạt động của hệ thống rút trích thông tin cho câu truy vấn
dựa vào ontology CDO ............................................................................................113
6.3

Phân tích và đánh giá mô hình rút trích thông tin theo chủ đề ......................118

6.4

Thực nghiệm và đánh giá kết quả rút trích thông tin dựa trên CDO .............119

6.4.1 Thực nghiệm và đánh giá kết quả dựa trên độ chính xác, độ truy hồi và
trung bình điều hòa ..............................................................................................119
6.4.2
6.5

Đánh giá về thời gian thực thi .................................................................123

Kết chương .....................................................................................................124

TỔNG KẾT....... ..........................................................................................................125
Kết luận....................................................................................................................125
Hướng phát triển ......................................................................................................127
CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN ...........128
TÀI LIỆU THAM KHẢO ...........................................................................................130

PHỤ LỤC.......... ..........................................................................................................141

vii

DANH MỤC CÁC HÌNH ẢNH
Hình 1.1. Mô hình rút trích thông tin theo chủ đề dựa trên văn bản ...............................8
Hình 3.1. Mô hình rút trích thông tin trên web .............................................................26
Hình.3.2. Mô hình rút trích theo C. Feilmayr (nguồn [54]) ..........................................27
Hình.3.3. Mô hình rút trích văn bản của S. Jonnalagadda (nguồn [54]) .......................28
Hình 3.4. Mô hình rút trích thông tin theo đề nghị của Batcha (nguồn [57]) ...............28
Hình 3.5. Mô hình SOBA (nguồn [59]) ........................................................................29
Hình 3.6.Sơ đồ hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt
.......................................................................................................................................31
Hình 3.7. Mô hình xử lý vấn đề 1..................................................................................33
Hình 4.1. Mô hình biểu diễn ontology chuyên biệt (nguồn [15]) .................................40
Hình 4.2. Ontology trên miền địa danh (nguồn [67]) ....................................................41
Hình 4.3. Computing ontology do tổ chức ACM thành lập (nguồn [9]) .......................45
Hình 4.4. Cấu trúc phân cấp CDO .................................................................................46
Hình 4.5. Cấu trúc phân cấp chủ đề trong CDO............................................................47
Hình 4.6. Số phần tử được rút trích từ các nguồn tài nguyên khi chưa áp dụng giá trị
ngưỡng ...........................................................................................................................54
Hình 4.7. Số phần tử được rút trích từ các nguồn tài nguyên sau khi áp dụng giá trị
ngưỡng là 0,4 .................................................................................................................55
Hình 4.8. Mô hình xây dựng và làm giàu CDO từ các tập tin văn bản của ACM và
Wikipedia.......................................................................................................................56
Hình 4.9. Một số quan hệ giữa các đối tượng trong CDO ............................................61
Hình 4.10. CDO biểu diễn bằng Protégé .......................................................................66
Hình 4.11. Mô hình ánh xạ các lớp OWL thành bảng ..................................................67
Hình 4.12. Ánh xạ thuộc tính đối tượng theo E. Vysniauskas ......................................68

Hình 4.13. Ánh xạ thuộc tính đối tượng thành các bảng trong cơ sở dữ liệu quan hệ ..68
Hình 4.14. Mô hình quan hệ của CDO biểu diễn bằng RDB ........................................70
Hình 4.15. So sánh tỷ lệ rút trích các đối tượng với Stanford CoreNLP ......................80
Hình 4.16. So sánh tỷ lệ rút trích các quan hệ ngữ nghĩa với Stanford CoreNLP ........81
Hình 5.1. Mô hình phân cấp các chủ đề theo P.G. Ipeirotis (nguồn [118]) ..................84
Hình 5.2. Mô hình nhận dạng chủ đề của Y. Ishizuka (nguồn [121]) ...........................85
Hình 5.3. Mô hình truy vấn thông tin của K.Wen (nguồn [122]) .................................86
Hình 5.4. Mô hình xác định chủ đề của câu truy vấn ....................................................88
Hình 5.5. Cây phụ thuộc của ví dụ 5.4 được phân tích bằng mô hình ngôn ngữ ..........90
Hình 5.6. Cây phụ thuộc được SLDP xây dựng. ...........................................................91
Hình 5.7. Phân loại kỹ thuật so trùng theo HUANG (nguồn [15]) ...............................93
Hình 5.8. Cây phụ thuộc của truy vấn ở ví dụ 5.6 được SLDP tạo ra ...........................96
Hình 5.9. Cây phụ thuộc của câu ở ví dụ 5.8 do SLDP tạo ra.......................................97
Hình 5.10. Biểu đồ thể hiện kết quả thực nghiệm trên 320 câu truy vấn ....................100
Hình 5.11. Cây phụ thuộc của câu ở ví dụ 5.9 ............................................................104
Hình 6.1. Mô hình tổng quát rút trích thông tin văn bản theo chủ đề trên miền chuyên
biệt (Tin học) ...............................................................................................................105
Hình 6.2. Mô hình rút trích thông tin trả lời câu truy vấn ...........................................106
Hình 6.3. Cây đồ thị phụ thuộc của câu ở ví dụ 6.2 ....................................................109
Hình 6.4. Mô hình ánh xạ các từ khóa tương ứng .......................................................110
viii

Hình 6.5. Cây phụ thuộc của câu ở ví dụ 6.3 ..............................................................112
Hình 6.6. Tỷ lệ rút trích thành công dựa vào CDO để tạo tự động dạng biểu diễn trung
gian cho câu truy vấn ...................................................................................................113
Hình 6.7. Cây phụ thuộc của ví dụ 6.4 ........................................................................114
Hình 6.8. Cây phụ thuộc của câu ở ví dụ 6.5 ..............................................................116
Hình 6.9. Kết quả rút trích thông tin dựa trên CDO cho câu truy vấn nhập chỉ dựa trên
từ khóa và các quan hệ ngữ nghĩa trong câu. ..............................................................121

Hình 6.10. Kết quả rút trích thông tin dựa trên CDO cho câu truy vấn nhập .............123

ix

DANH MỤC BẢNG BIỂU
Bảng 4.1. Ví dụ minh họa cách tính độ lợi ....................................................................52
Bảng 4.2. Một số ví dụ khi xử lý bằng SLDP ...............................................................61
Bảng 4.3. Các quan hệ ngữ nghĩa biểu diễn dưới dạng OWL và RDB.........................73
Bảng 4.4. So sánh CDO và một số ontology trên thế giới ............................................75
Bảng 4.5. Tỷ lệ các đối tượng được rút trích từ các nguồn tài nguyên .........................76
Bảng 4.6. Tỷ lệ số câu rút trích từ các nguồn tài nguyên khác nhau.............................76
Bảng 4.7. Số lượng các quan hệ ngữ nghĩa trên một số chủ đề của CDO ....................77
Bảng 4.8. Bảng đánh giá các đối tượng thuộc lớp Thành phần thể hiện qua một số chủ
đề trên CDO ...................................................................................................................79
Bảng 4.9. Bảng đánh giá các quan hệ ngữ nghĩa trong CDO thể hiện qua một số chủ đề
.......................................................................................................................................79
Bảng 4.10. Bảng so sánh tỷ lệ rút trích các đối tượng so với Stanford CoreNLP.........80
Bảng 4.11. Bảng so sánh tỷ lệ rút trích các quan hệ ngữ nghĩa so với Stanford
CoreNLP ........................................................................................................................81
Bảng 5.1. Các mẫu câu truy vấn nhập vào ....................................................................98
Bảng 5.2. Kết quả đánh giá việc xác định chủ đề trên tập văn bản ...............................99
Bảng 5.3. Kết quả đánh giá xác định chủ đề trên các dạng câu truy vấn khác nhau...100
Bảng 5.4. Kết quả thực nghiệm khi sử dụng AIchemyAPI trên tập ngữ liệu ACM ...101
Bảng 5.5. Kết quả đánh giá khi sử dụng giải thuật đề nghị 5.1 trên tập ngữ liệu ACM
.....................................................................................................................................101
Bảng 5.6. Kết quả đánh giá về thời gian thực thi trong trường hợp có một từ haycụm từ
khóa trong câu .............................................................................................................102
Bảng 5.7. Kết quả đánh giá về thời gian thực thi trong trường hợp có 2-5 từ hay cụm từ
khóa trong câu .............................................................................................................102

Bảng 6.1. Hệ thống xác định các chủ đề của câu truy vấn ở ví dụ 6.4........................114
Bảng 6.2. Kết quả rút trích thông tin cho câu truy vấn “oracle database” ..................115
Bảng 6.3. Hệ thống nhận dạng các chủ đề với ví dụ 6.5 .............................................117
Bảng 6.4. Kết quả rút trích thông tin cho ví dụ 6.5 dựa trên CDO .............................117
Bảng 6.5. Các mẫu câu truy vấn cho hệ thống rút trích thông tin dựa trên CDO .......119
Bảng 6.6. Kết quả rút trích thông tin (không có chủ đề) trên chủ đề Network ...........120
Bảng 6.7. Kết quả rút trích thông tin (không có chủ đề) trên chủ đề OS ....................120
Bảng 6.8. Kết quả rút trích thông tin (không có chủ đề) trên chủ đề IR .....................120
Bảng 6.9. Kết quả rút trích thông tin (không có chủ đề) trên chủ đề NLP .................121
Bảng 6.10. Kết quả rút trích thông tin trên chủ đề Network .......................................122
Bảng 6.11. Kết quả rút trích thông tin trên chủ đề OS ................................................122
Bảng 6.12. Kết quả rút trích thông tin trên chủ đề IR .................................................122
Bảng 6.13. Kết quả rút trích thông tin trên chủ đề NLP..............................................122
Bảng 6.14. Đánh giá thời gian rút trích thông tin từ CDO ..........................................124

x

DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt

Diễn giải tiếng Anh

Diễn giải tiếng Việt

CDO

Computing Domain Ontology

Bản thể học trên miền Tin Học

CRF

Conditional Random Fields

Mô hình trường ngẫu nhiên có điều
kiện

DOM

Document Object Model

Mô hình đối tượng tài liệu

FCA

Formal Concept Analysis

Phân tích khái niệm hình thức

FOGA

Fuzzy Ontology Generation

Nền tảng sinh ra bản thể học mờ

Framework
GATE

General Architechture for Text

Kiến trúc tổng quát cho động cơ

Engineering

văn bản

GeT

Graph-embedded Tree

Cây đồ thị nhúng

HMM

Hidden Markov Model

Mô hình Markov ẩn

HTML/HTM

Hyper Text Markup Language

Ngôn ngữ đánh dấu siêu văn bản

IE

Information Extraction

Rút trích thông tin

IG

Information Gain

Độ lợi

IR

Information Retrieval

Truy xuất thông tin

JAPE

Java Anotation Pattern Engine

Động cơ mẫu chú thích java

KIM

Knowledge and Information

Quản lý thông tin và tri thức

Mangement
NLP

Natural Language Processing

Xử lý ngôn ngữ tự nhiên

NMF

Non negative Matrix

Thừa số ma trận không âm

Factorization
OOMP

Ontology of Object-Member-

Bản thể học của Đối tượng- Thành

Property

phần-Tính chất.

OWL

Ontology Web Language

Ngôn ngữ biểu diễn bản thể học

RDB

Relational Database System

Hệ cơ sở dữ liệu quan hệ

RDF

Resource Description

Nền tảng mô tả tài nguyên

Framework
RMN

Relational Markov Network
xi

Mạng Markov biểu diễn quan hệ

Từ viết tắt
SLDP

Diễn giải tiếng Anh

Diễn giải tiếng Việt

Stanford Lexical Dependency

Bộ phân tích cú pháp văn phạm phụ

Parser

thuộc Stanford

SVM

Support Vector Machines

Máy vector hỗ trợ

TS

Text Summarization

Tóm tắt văn bản

UMLS

Unified Medical Language

Hệ thống ngôn ngữ y học đồng nhất

System
WWW

World Wide Web

Mạng lưới toàn cầu

XML

Extensible Markup Language

Ngôn ngữ đánh dấu mở rộng

YAGO

Yet Another Great Ontology

Bản thể học YAGO

xii

CHƯƠNG 1. GIỚI THIỆU
1.1 Động cơ nghiên cứu
Trong lĩnh vực Rút trích thông tin, các nghiên cứu quan tâm đến rút trích nội
dung văn bản dựa trên một số tính chất đặc trưng. Rút trích nội dung văn bản là một
vấn đề khó trong xử lý văn bản cũng như khó để đạt độ chính xác như mong muốn.
Gần đây, một số đề tài nghiên cứu rút trích thông tin trong văn bản đã đưa ra
hướng tiếp cận mới là rút trích các cụm từ đặc trưng mang tính ngữ nghĩa của câu
trong văn bản. Phương pháp này đã cải thiện độ chính xác và tăng khả năng ứng dụng
của chúng trong nhiều lĩnh vực khác nhau. Tuy nhiên hướng tiếp cận này đòi hỏi hệ
thống rút trích phải có khả năng phân tích cú pháp và ngữ nghĩa của các câu thậm chí
cả văn bản, cũng như phải được biệt lập trong một chủ đề nhất định.
Hiện nay và trong tương lai, nguồn thông tin (văn bản) là vô cùng lớn và nhu cầu
truy xuất thông tin chính xác của người sử dụng ngày càng cao trong từng chủ đề
thuộc các lĩnh vực kinh tế, xã hội, khoa học. Vì vậy các hệ thống rút trích thông tin,
ngoài khả năng trích xuất các cụm từ đặc trưng ngữ nghĩa của câu trong văn bản còn
phải có khả năng phân tích thông tin theo từng chủ đề. Thực hiện hai cách tiếp cận
này, hệ thống sẽ rút trích thông tin chính xác và hiệu quả hiệu quả hơn.
Trong công trình nghiên cứu [1], A. Nuntiyagul cùng các cộng sự thực hiện phân
loại câu hỏi nhập vào từ người dùng trên miền toán học. Trước hết A. Nuntiyagul định

nghĩa khái niệm Item Banks là tập hợp các từ quan trọng trong câu hỏi được ghép lại
thành câu dưới dạng rút gọn để qua đó nhận dạng và phận loại câu. A. Nuntiyagul đã
xây dựng tập dữ liệu huấn luyện từ các văn bản liên quan đến Toán học bằng phương
pháp Term Frequency with Inverse Document Frequency (TFIDF). Quá trình rút trích
thông tin từ văn bản là rút trích các từ khóa và các quan hệ ngữ nghĩa liên quan đến
chúng. Để rút trích từ khóa A. Nuntiyagul tính tần suất xuất hiện của các từ trong văn
bản. Còn để rút trích các quan hệ ngữ nghĩa liên quan đến các từ khóa, A. Nuntiyagul
đã áp dụng phương pháp “Gói từ (bag-of-words)”. Sau đó A. Nuntiyagul tiến hành xây
dựng tập mẫu từ khóa trong câu (Patterned Keyword in Phrase – PKIF) dựa vào các từ
khóa, các luật và giải thuật máy vector hỗ trợ (Support Vector Machine-SVM). Các
1

mẫu câu này sẽ được dùng để xác định chủ đề của các câu hỏi. A. Nuntiyagul cũng
định nghĩa một tập các chủ đề tương ứng với mẫu câu này. Tuy nhiên công trình này
vẫn còn một số hạn chế như sau.
i.

Phương pháp “gói từ” không xác định các quan hệ ngữ nghĩa liên quan đến các
từ khóa.

ii.

Phải cần thời gian thay thế các từ viết tắt trong câu hỏi trước khi xử lý.

iii.

Phương pháp “gói từ” cũng không thể xếp loại quan hệ ngữ nghĩa đó thuộc về
quan hệ IS-A, PART-OF, INCLUDE.

iv.

Việc xác định các quan hệ ngữ nghĩa không chính xác dẫn đến việc phân loại
chủ đề cho câu hỏi không chính xác.
Trong công trình [2], F.Z. Lahlou cùng các cộng sự xây dựng một hệ thống đề

nghị (Context Aware Recommendation System - CARS). Mục đích của hệ thống sẽ hiển
thị những đề nghị cho người dùng từ nhiều lãnh vực khác nhau. Để xây dựng hệ thống,
F.Z. Lahlou rút trích thông tin từ những bài phê bình của người dùng trên mạng từ
nhiều lĩnh vực khác nhau. Để có thể phân loại những bài phê bình này, F.Z. Lahlou đã
sử dụng ba giải thuật khác nhau như SVM, k-Nearest Neighbor (k-NN) và Multinomial
Naïve Bayes (MNB). Kết quả đánh giá theo F.Z. Lahlou là thấp, trong đó tốt nhất là
60,1% (MNB) vì F.Z. Lahlou không tập trung trên một miền nào cả nên tính chính xác
là không cao.
Hiện tại Internet (Web) được xem là nguồn thông tin khổng lồ của nhân loại.
Theo thời gian, nguồn thông tin này không ngừng được chia sẻ, mở rộng và phát triển.
Các thông tin trên Internet hầu hết được biểu diễn bởi ngôn ngữ tự nhiên, trong đó
phần lớn là thông qua các trang Web, thường là không có cấu trúc. Đồng thời với sự
phát triển của Internet là sự gia tăng rất lớn về nhu cầu truy xuất thông tin, rút trích
thông tin của người sử dụng, trong đó việc tìm kiếm các thông tin thể hiện trong ngôn
ngữ tiếng Anh chiếm tỉ lệ đáng kể.
Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sử dụng, các hệ
thống truy xuất thông tin (IR), rút trích thông tin (IE) đã được nghiên cứu và phát
triển. Tuy nhiên việc tìm kiếm thông tin thường không nhận được kết quả đầy đủ,
chính xác, đặc biệt là những thông tin thuộc các chuyên ngành, như Y học, Sinh học,
chống tội phạm.
2

Trong Công trình [3], J. Xiao-yu đã rút trích thông tin từ các tập tin văn bản để

tiến hành tóm tắt văn bản. Để tóm tắt văn bản, J. Xiao-yu dùng giải thuật xử lý ngôn
ngữ tự nhiên (NLP) để nhận dạng các từ khóa. Tuy nhiên công trình này còn điểm hạn
chế là việc nhận dạng câu chỉ dựa vào tần suất xuất hiện của các từ trong câu không
thể hiện được tính ngữ nghĩa, mối liên kết giữa các từ trong câu.
Bên cạnh các mô hình xử lý ngôn ngữ tự nhiên, các mô hình học máy cũng
thường được sử dụng để nhận dạng và rút trích thông tin nhất là rút trích các thực thể
có tên. Công trình [4], J. Diesner dùng mô hình Ràng buộc ngẫu nhiên có điều kiện
(CRF) để nhận dạng các thực thể có tên liên quan đến con người và tổ chức. Công
trình đã đạt những kết quả khả quan, tuy nhiên một vài hạn chế của công trình là:
i.

Chỉ giải quyết cho các bài toán nhận dạng thực thể có tên.

ii.

Muốn rút trích các quan hệ ngữ nghĩa phải dựa vào các luật. Do đó các quan hệ
ngữ nghĩa thường chỉ là IS-A, PART-OF.

iii.

Các quan hệ ngữ nghĩa chỉ là những quan hệ nhị phân.
Trong công trình [5], J. Jiang rút trích các đối tượng và các quan hệ ngữ nghĩa từ

các tập tin văn bản liên quan đến con người, các tổ chức và vị trí. Tuy nhiên công
trình này vẫn còn một số hạn chế sau.
i.

Chỉ có hai quan hệ ngữ nghĩa là: FounderOf, HeadQuateredIn trong ontology.

ii.

Các quan hệ này là quan hệ nhị phân, là quan hệ chỉ có hai đối tượng tham gia.
Các quan hệ nhị phân được tham chiếu từ ACE (Automatic Content Extraction)
bao gồm: NEAR, AT, ROLE, SOCIAL, PART.

iii.

Ontology không phân chia thành nhiều lớp khác nhau.
Từ các phân tích trên, để cung cấp cho người dùng những thông tin chính xác về

một lĩnh vực chuyên biệt mà họ quan tâm, như giá cả chứng khoán, thông tin về một
món hàng trước khi mua, cách điều trị một căn bệnh..., thì cần phải có các hệ thống rút
trích thông tin cho các lĩnh vực chuyên biệt này.
Để có thể rút trích thông tin phù hợp với mong muốn của người dùng, các hệ
thống phải có khả năng phân tích ngữ nghĩa của câu truy vấn và thông tin rút trích
phải lấy từ các nguồn tài nguyên có độ tin cậy cao. Bài toán xây dựng các hệ thống
rút trích thông tin trên các miền chuyên biệt sẽ giải quyết được đáng kể sự nhập nhằng
ngữ nghĩa của thông tin khi tiến hành rút trích.
3

Trong lĩnh vực quan trọng như Y học, liên quan đến việc chẩn đoán bệnh và cấp
thuốc hàng ngày đối với các bệnh nhân, để tránh sai sót các hệ thống rút trích thông tin
trên lĩnh vực này đã được nghiên cứu, xây dựng và phát triển khá nhiều. Tương tự, các
hệ thống rút trích thông tin chuyên biệt trên các lĩnh vực sinh học, nông nghiệp hay
phòng chống tội phạm cũng được nghiên cứu và phát triển khá mạnh. Một lĩnh vực
khác cũng cần phải nhắc đến đó là giáo dục. Các hệ thống rút trích thông tin đã phục
vụ khá nhiều trong công việc giảng dạy, học tập. Những hệ thống rút trích thông tin
cho một số miền chuyên biệt liên quan đến các môn học hoặc liên quan đến chuyên
ngành đào tạo giúp cho sinh viên học sinh tra cứu, tìm hiểu nhanh hơn về tri thức liên

quan đến các khái niệm trong các môn học hay chuyên ngành được chọn.
Vấn đề cốt lõi của bài toán rút trích thông tin trên các miền chuyên biệt là xác
định các từ, cụm từ thích hợp trong văn bản, cũng như các mối quan hệ liên quan đến
ngữ nghĩa, cú pháp giữa chúng để có được những thông tin chính xác và đầy đủ phù
hợp với miền chuyên biệt. Để giải quyết vấn đề này, nhiều nghiên cứu đã hướng đến
phân tích ngữ nghĩa của thông tin cần rút trích dựa trên cơ sở tri thức như bản thể
học (ontology). Các hệ thống rút trích thông tin trên các miền chuyên biệt dựa trên
bản thể học hướng đến ngữ nghĩa nhiều hơn so với các hệ thống rút trích truyền thống
trước đây được xây dựng bằng các mô hình toán học như mô hình Markov ẩn (HMM),
mô hình trường ngẫu nhiên có điều kiện (CRF), hay mô hình máy vector hỗ trợ (SVM)
v.v. Tuy nhiên một trong những thách thức của các mô hình rút trích thông tin dựa trên
bản thể học là việc xây dựng và làm giàu bản thể học.
Để hỗ trợ xây dựng các hệ thống rút trích trên các miền chuyên biệt, ontology
được tổ chức thành các lớp tương ứng với các khái niệm, đối tượng khác nhau, giữa
chúng tồn tại các mối quan hệ ngữ nghĩa do đó ontology tạo thành một mạng ngữ
nghĩa liên kết các đối tượng. Thông qua mạng ngữ nghĩa, ontology bổ sung tri thức
đầy đủ cho các đối tượng, từ đó sẽ giúp cho người dùng hiểu rõ hơn ý nghĩa, đặc điểm
của các đối tượng. Việc xây dựng một hệ thống rút trích thông tin trên các miền
chuyên biệt thành công hay không, điều này phụ thuộc vào việc xây dựng các khái
niệm, đối tượng, các lớp và mối quan hệ giữa chúng trong ontology.
Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin (trên Web),
cùng với hướng giải quyết làm sao để hệ thống có thể thông minh khi xử lý nhằm rút
4

trích thông tin chính xác hơn, thì yêu cầu về một hệ thống rút trích thông tin trên các
miền chuyên biệt là cần thiết.
Công trình [6], J. Kim đã xây dựng một hệ thống rút trích thông tin trên miền Y
sinh dựa trên ontology. J. Kim đã áp dụng NLP cùng với sự hỗ trợ của bộ phân tích từ
vựng (Lexical Analyzer) để rút trích các sự kiện từ các bài báo khoa học. Công trình

đã đạt được những kết quả và còn một số hạn chế sau.
i.

Rút trích 79 sự kiện khác nhau liên quan các công thức về Y sinh, độ chính xác
là 84%, độ truy hồi là 21%.

ii.

Dùng bộ phân tích cú pháp của văn phạm cấu trúc cụm từ hướng đến trọng tâm
(Head-Driven Phrase Structure Grammar - HPSG). Bộ phân tích cú pháp
HPSG phân tích câu của văn bản thuộc miền Y sinh. Tuy nhiên HPSG không
thể hiện được mối quan hệ phụ thuộc giữa các từ trong câu.

iii.

Ontology không phân chia nhiều lớp.
Trong công trình [7], M. Abulaish xây dựng một hệ thống rút trích thông tin và

hỏi đáp từ văn bản trên miền sinh học dựa trên ontology. Hệ thống đã rút trích các đối
tượng và các quan hệ ngữ nghĩa liên quan đến miền sinh học từ các tập tin văn bản.
Công trình đã sử dụng NLP kết hợp với các luật để khai phá dữ liệu. Tuy nhiên công
trình vẫn còn một số hạn chế sau.
i. Các quan hệ ngữ nghĩa chỉ bao gồm các quan hệ IS-A, PART-OF và là quan hệ
nhị phân R(Ci, Cj).
ii. Ontology chỉ bao gồm ba chủ đề khác nhau: nguồn sinh học (Biological
source), các vật liệu sinh học (Biological substance) và các tên khác
(Other_name).
iii. Ontology được rút trich từ các bài bào của MEDLINE bao gồm 400.000 từ và
100.000 chú thích do đó ontology chưa bao phủ được các chủ đề trong miền
Sinh học

Trong công trình [8], M.P. Nepal cùng các cộng sự xây dựng hệ thống rút trích
thông tin dựa trên ontology trên miền Xây dựng. Để xây dựng ontology trên miền Xây
dựng, M.P. Nepal đã rút trích thông tin từ trên Internet. Ontology bao gồm hai lớp
chính là Component và Intersection. Trong mỗi lớp chính có một số lớp con và các đối
tượng thuộc về các lớp con. Lớp Component diễn tả các thành phần liên quan đến lĩnh
5

vực Xây dựng, trong khi Intersection diễn tả sự giao tiếp giữa các thành phần. Công
trình đã hỗ trợ trong lĩnh vực Xây dựng, tuy nhiên vẫn còn một số hạn chế như :
i.

Do số lớp chủ đề trong ontology ít nên chưa thể hiện được nhiều vấn đề của
lĩnh vực Xây dựng.

ii.

Chỉ bao gồm một quan hệ ngữ nghĩa là IS-A.
Từ nghiên cứu và phân tích các công trình khoa học về rút trích thông tin trên

miền chuyên biệt dựa vào ontology hiện nay trên thế giới, tác giả nhận thấy còn tồn tại
một số hạn chế sau.
 Phải cần thời gian thay thế các từ viết tắt trong câu hỏi trước khi xử lý [1].
 Chưa sử dụng bộ phân tích cú pháp phù hợp nên không cung cấp được mối
quan hệ phụ thuộc giữa các từ trong câu [6].
 Sự phân lớp trong Ontology là đơn giản [6] ; số lớp khái niệm còn ít nên
ontology chưa hỗ trợ rút trích thông tin cho nhiều vấn đề của lĩnh vực Xây dựng
[8], hoặc ontology chỉ bao gồm ba chủ đề [7].
 Các quan hệ ngữ nghĩa giữa các đối tượng trong ontology cũng chỉ bao gồm các
quan hệ nhị phân R (Ci, Cj), là quan hệ IS-A, PART-OF [7] [9], hoặc chỉ bao

gồm một quan hệ ngữ nghĩa là IS-A [8].
 Ontology được xây dựng và làm giàu với 400.000 từ và 100.000 chú thích [7]
1.2 Mục tiêu và phạm vi nghiên cứu
Mục tiêu luận án là xây dựng mô hình rút trích thông tin văn bản theo chủ đề trên
miền chuyên biệt (Tin học) dựa trên Computing Domain Ontology (CDO). Khác với
Computing Ontology của nhóm ACM [9] (hiện nay vẫn còn đang cập nhật các chủ đề)
chỉ tập trung vào việc phân loại các chủ đề liên quan đến Khoa Học Máy Tính là
chính, không có nhiều các đối tượng trong mỗi lớp và chỉ có một số các quan hệ IS-A,
PART-OF hay SwetoDblp Ontology [10] chỉ tập trung vào các công trình khoa học đã
được công bố trên thế giới (bao gồm các thông tin : tác giả, tên công trình, ngày tháng
năm công bố, tên hội nghị hay tạp chí). Hơn nữa, hai ontology này cũng không khai
thác các quan hệ đồng nghĩa, thượng danh và hạ danh. Nhằm khắc phục những hạn chế
nêu trên, luận án đã thực hiện những cải tiến sau trong quá trình xây dụng CDO.

6

i.

CDO do luận án đề xuất có 170 lớp chủ đề khác nhau, mỗi lớp có nhiều lớp
con, với hơn 1 triệu đối tượng thuộc các lớp khác nhau, do đó có thể đáp ứng
yêu cầu rút trích thông tin ở nhiều lĩnh vực liên quan đến Tin học.

ii.

Các quan hệ ngữ nghĩa giữa các đối tượng thuộc CDO không chỉ có IS-A,
PART-OF mà còn mở rộng thêm quan hệ : INCLUDE, MADE-OF, RESULTOF, quan hệ thượng danh, hạ danh và đồng nghĩa. Qua đó thông tin rút trích sẽ
giàu tính ngữ nghĩa hơn. Quan hệ ngữ nghĩa trong CDO không chỉ giới hạn ở
quan hệ nhị phân mà còn có thể là quan hệ của nhiều hơn hai đối tượng, được
biểu diễn bằng R(C1, …, Ci) với i  2.

iii.

Ngoài ra CDO còn có các quan hệ đồng nghĩa nên sẽ tránh được giai đoạn thay
thế các từ viết tắt nếu trong câu truy vấn của người dùng có xuất hiện, do đó sẽ
tiết kiệm thời gian hơn. Ví dụ, trung bình một câu truy vấn được thực thi trên
WordNet ở chế độ offline tốn 2,5ms (SQL Server), trong khi thực thi trên CDO
với cùng một cơ sở dữ liệu chỉ mất 0,4ms.

iv.

Việc xác định chủ đề dựa trên CDO và quá trình rút trích thông tin cho người
dùng cũng được thực hiện trên lớp chủ đề này của CDO, nên sẽ tránh được sự
nhập nhằng chủ đề khi rút trích thông tin.
Trong phạm vi nghiên cứu, luận án sẽ áp dụng các giải thuật xử lý ngôn ngữ tự

nhiên kết hợp với xác suất thông kê và ontology, đó là cơ sở để xây dựng một hệ thống
rút trích thông tin văn bản theo chủ đề trên miền Tin học. Ngoài chức năng rút trích
thông tin, hệ thống còn có chức năng như một hệ thống hỏi đáp liên quan đến lĩnh vực
Tin học. Mô hình tổng quan của hệ thống được thể hiện qua hình 1.1

7

Hình 1.1. Mô hình rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt (Tin học)

Để xây dựng mô hình rút trích thông tin theo chủ đề trên miền chuyên biệt (Tin
học) dựa trên ontology, luận án cần giải quyết một số bài toán sau đây.
Bài toán 1: Nhận dạng và rút trích các đối tượng, các quan hệ ngữ nghĩa từ
những nguồn ngữ liệu khác nhau để xây dựng và làm giàu Ontology

Ontology là một cơ sở tri thức dùng để chia sẻ thông tin, trong đó bao gồm các
lớp chủ đề với những khái niệm, đối tượng, đặc tính và mối quan hệ giữa chúng.
Ontology được xây dựng là ontology của một miền chuyên biệt. Một miền chuyên biệt
có thể gồm nhiều chủ đề khác nhau. Mỗi chủ đề sẽ là một hệ thống mạng ngữ nghĩa
liên quan đến các từ, cụm từ đặc trưng cho chủ đề.
Để xây dựng ontology trên miền Tin học, luận án sử dụng cấu trúc cây phân cấp
chủ đề của ACM (ACM categories) để xây dựng lớp chủ đề trong ontology. Kho ngữ
liệu tiếp theo để xây dựng ontology là tập văn bản đã được xác định chủ đề từ tập thư
viện điện tử ACM (ACM Digital Library). Để nhận dạng và rút trích các khái niệm, từ
ngữ trong các tập tin văn bản theo từng lớp chủ đề khác nhau, luận án sử dụng một số
các giải thuật về xử lý ngôn ngữ tự nhiên như tách câu, gán nhãn (POS-Tag), phân tích
câu. Sau khi nhận dạng, luận án sẽ tiến hành rút trích các đối tượng và các từ hay cụm
từ này trong các kho ngữ liệu. Tuy nhiên để đảm bảo độ chính xác cho các đối tượng
này, luận án đã kết hợp phương pháp xác suất thống kê với xử lý ngôn ngữ tự nhiên để
đánh giá chúng trước khi bổ sung vào ontology [CT1], [CT4].
Để làm giàu tri thức cho ontology phục vụ cho quá trình rút trích, luận án sử
dụng các ontology có sẵn như Wikipedia, WordNet, Babelnet.
Một vấn đề khác không thể thiếu trong quá trình xây dựng và làm giàu ontology
trên miền chuyên biệt là nhận dạng các mối quan hệ giữa các đối tượng trong
ontology. Các mối quan hệ này bao gồm các quan hệ ngữ nghĩa và quan hệ cú pháp
giữa các khái niệm, các đối tượng trong câu. Tùy thuộc vào mục đích khác nhau của
các ứng dụng, mà các quan hệ này có thể được nhận dạng và rút trích theo nhiều cách
khác nhau. Thông thường những quan hệ này là quan hệ hai ngôi xác định mối quan hệ
giữa hai đối tượng như: thủ đô, vị trí, ví dụ, capital (“Hanoi”, “Vietnam”), location
(“Paris”, “France”), hay quan hệ IS-A, PART-OF, INCLUDE. Trong phạm vi nghiên
cứu của luận án, các quan hệ ngữ nghĩa được luận án khai thác là các quan hệ đồng
8

nghĩa, quan hệ thượng danh (hypernym), hạ danh (hyponym), là (is-a), từng phần

(part-of), gộp (include). Bên cạnh đó, trong quá trình nhận dạng và rút trích các đối
tượng, luận án cũng quan tâm đến các quan hệ cú pháp giữa của các đối tượng trong
ontology để có được những câu hoàn thiện hơn. Những câu này sẽ bổ sung tri thức cho
chức năng hỏi đáp của hệ thống rút trích.
Nội dung liên quan đến bài toán này được công bố trong các công trình [CT1],
[CT2], [CT3], [CT4], [CT7], [CT9], [CT11] và [CT12]
Bài toán 2: Xác định chủ đề câu truy vấn dựa trên ontology
Với mục tiêu xây dựng hệ thống rút trích thông tin trả lời câu truy vấn từ người
dùng, việc phân tích và xác định chủ đề câu truy vấn là một trong các bài toán mà luận
án cần giải quyết. Để giải quyết bài toán này, một số phương pháp đã được đề xuất
như giải thuật SVM, Naïve Bayes, hay dựa trên ontology. Nhằm tận dụng cấu trúc
phân lớp có sẵn trong ontology, luận án đề xuất mô hình xác định chủ đề câu truy vấn
dựa trên các từ khóa trong câu và dựa trên ontology. Tương tự như trong bài toán thứ
nhất, các giải thuật xử lý ngôn ngữ tự nhiên như tách câu, gán nhãn để phân tích câu
truy vấn được sử dụng trong bài toán này. Bên cạnh đó, luận án cũng sử dụng bộ phân
tích cú pháp để nhận dạng và rút trích mối quan hệ ngữ nghĩa giữa các từ trong câu
truy vấn.
Nội dung liên quan đến bài toán 2 được công bố trong công trình [CT5].
Bài toán 3: Rút trích thông tin trả lời câu truy vấn.
Sau khi xác định chủ đề câu truy vấn ở bài toán 2, hệ thống sẽ dựa trên ontology
trên miền Tin học để rút trích thông tin liên quan đến câu truy vấn từ người dùng.
Những thách thức của bài toán này là thông tin rút trích phải có độ chính xác cao phù
hợp với chủ đề câu truy vấn và tốc độ xử lý của hệ thống phải nhanh. Để vượt quá
những thách thức này luận án đã xét đến ngữ nghĩa của câu truy vấn kết hợp với kinh
nghiệm (heuristic) để diễn dịch câu truy vấn sang ngôn ngữ trung gian sau đó mới tiến
hành rút trích thông tin từ ontology.
Nội dung liên quan đến bài toán này được công bố trong các công trình [CT6],
[CT8] và [CT10].
1.3 Kết quả đạt được của luận án
Các kết quả đạt được của luận án bao gồm:

9

 Kết quả thứ nhất: Đề xuất mô hình xây dựng và làm giàu Computing Domain
Ontology (CDO)
CDO được xây dựng và làm giàu dựa trên ba nguồn tài nguyên khác nhau. Luận án
đã đề xuất ba phương pháp khác nhau bao gồm: (i) phương pháp xây dựng CDO dựa
trên các tập tin văn bản từ tập thư viện điện tử ACM (Document - Based Knowledge
Base Traning); (ii) phương pháp làm giàu CDO dựa trên kho ngữ liệu có sẵn
Wikipedia (Wikipedia - Based Knowledge Base Traning); (iii) phương pháp làm giàu
CDO dựa trên ontology WordNet (WordNet – Based Knowledge Base Training);
So với các ontology hiện tại thì CDO có một số điểm mới là:
 Cấu trúc phân lớp trong CDO. Trong CDO bao gồm bốn lớp trong đó các đối
tượng của lớp này có thể có những quan hệ với các đối tượng của lớp khác như
quan hệ đồng nghĩa, hạ danh, thượng danh. Mỗi lớp sẽ chứa đựng những đối
tượng khác nhau phục vụ cho bài toán rút trích thông tin.
 Số lượng chủ đề. CDO bao gồm 170 chủ đề khác nhau thuộc lĩnh vực Tin học
và hơn một triệu phần tử thuộc các lớp và các chủ đề khác nhau.
 Các quan hệ ngữ nghĩa. CDO bao gồm các quan hệ đồng nghĩa, thượng danh
hạ danh, IS-A, PART-OF, INCLUDE, MADE-OF, RESULT-OF, AFFECTS.
 CDO được làm giàu trên ba lớp: Thành phần, Synset và Câu.
Nội dung liên quan đến đóng góp này được công bố trong các công trình [CT1],
[CT2], [CT3], [CT4], [CT7], [CT10], [CT11] và [CT12].
 Kết quả thứ hai: Đề xuất phương pháp xác định chủ đề dựa trên ontology có
xét đến quan hệ ngữ nghĩa giữa các từ trong câu.
Phương pháp xác định chủ đề câu truy vấn bao gồm các bước: phân tích câu truy
vấn từ người dùng; nhận dạng và rút trích các từ khóa cũng như các mối quan hệ ngữ
nghĩa giữa chúng với các từ còn lại trong câu; xác định chủ đề dựa trên CDO.
Khác với một số mô hình xác định chủ đề bằng các giải thuật có giám sát như
SVM, HMM hay CRF, luận án đề xuất phương pháp xác định chủ đề dựa trên

ontology. Bởi vì ontology là mạng ngữ nghĩa biểu diễn mối quan hệ giữa các khái
niệm theo cấu trúc phân cấp, do đó việc xác định chủ đề của câu truy vấn thông qua
ontology sẽ có xác suất tìm thấy cao hơn (theo [11] [12]) và phù hợp với những chủ đề

10

đã được hệ thống rút trích hỗ trợ, tránh được nhập nhằng. Nội dung liên quan đến đóng
góp này được công bố trong các công trình [CT5].
 Kết quả thứ 3: Xác định và rút trích các mối quan hệ ngữ nghĩa và cú pháp từ
các tập tin văn bản trong tập thư viện điện tử ACM và từ các nguồn tài nguyên
có sẵn như Wikipedia, WordNet.
Xác định mối quan hệ giữa các đối tượng trong ontology là công việc quan
trọng và cần thiết trong quá trình xây dựng và làm giàu ontology. Luận án đề xuất hai
phương pháp xác định mối quan hệ giữa các đối tượng là mối quan hệ ngữ nghĩa và
mối quan hệ cú pháp. Các quan hệ ngữ nghĩa và cú pháp ở đây có thể cho phép có
nhiều hơn hai đối tượng tham gia trong quan hệ.
Các quan hệ ngữ nghĩa bao gồm các quan hệ đồng nghĩa, thượng danh, hạ danh
được rút trích từ ontology WordNet. Bên cạnh đó, luận án còn nhận dạng các quan hệ
ngữ nghĩa như IS-A, PART-OF, INCLUDE, MADE-OF, RESULT-OF, AFFECTS khi
tiến hành phân tích câu từ các nguồn ngữ liệu khác nhau. Các quan hệ này bổ sung tri
thức cho những khái niệm trong ontology.
Nội dung liên quan đến đóng góp này được công bố trong các công trình [CT9].
 Kết quả thứ tư: Đề xuất mô hình hỏi đáp, rút trích thông tin dựa trên các từ
khóa, chủ đề câu truy vấn và từ CDO
Với chức năng của một hệ thống hỏi đáp, hệ thống phải trả lời các câu truy vấn
từ người dùng. Để hỗ trợ việc truy xuất thông tin dễ dàng và nhanh hơn, luận án đề
xuất phương pháp chuyển đổi từ ngôn ngữ OWL sang mô hình cơ sở dữ liệu quan hệ.
Bên cạnh đó luận án cũng đề xuất phương pháp dựa trên kinh nghiệm (heuristic) để
thông dịch tự động câu truy vấn của người dùng sang ngôn ngữ trung gian trước khi

rút trích thông tin từ CDO dựa trên các từ khóa, chủ đề câu truy vấn.
Các giải thuật và nội dung liên quan đến các kết quả này được công bố trong các
công trình [CT6] [CT8] và [CT10].
1.4 Cấu trúc của luận án
Luận án được chia thành sáu chương, phần tổng kết và hai phụ lục, trong đó ở
đầu mỗi chương đều có phần giới thiệu tổng quan và ở cuối mỗi chương đều có phần
kết chương.

11

Mô hình rút trích thông tin văn bản theo chủ đề trong miền chuyên biệt (tin học)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về