Mô hình rút trích thông tin văn bản theo chủ đề trong miền chuyên biệt (tin học)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.49 MB, 162 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

TẠ DUY CƠNG CHIẾN

MƠ HÌNH RÚT TRÍCH THƠNG TIN VĂN BẢN THEO CHỦ
ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC)

LUẬN ÁN TIẾN SĨ KỸ THUẬT

TP. HỒ CHÍ MINH NĂM 2017

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

TẠ DUY CƠNG CHIẾN

MƠ HÌNH RÚT TRÍCH THƠNG TIN VĂN BẢN THEO CHỦ
ĐỀ TRONG MIỀN CHUYÊN BIỆT (TIN HỌC)

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số chuyên ngành: 62.48.01.01
Phản biện độc lập 1: GS. TS. Nguyễn Thanh Thủy
Phản biện độc lập 2: TS. Nguyễn Tuấn Đăng
Phản biện 1: PGS. TS. Đinh Điền
Phản biện 2: PGS. TS. Đỗ Thanh Nghị
Phản biện 3: PGS. TS. Dương Tuấn Anh
NGƯỜI HƯỚNG DẪN KHOA HỌC
GS.TS. PHAN THỊ TƯƠI

LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả
nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất
kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu
(nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.

Tác giả luận án

Chữ ký

Tạ Duy Công Chiến

i

TĨM TẮT LUẬN ÁN
Cùng với truy xuất thơng tin, hệ thống hỏi đáp, rút trích thơng tin là một trong
các ứng dụng phổ biến trong thời đại ngày nay. Đặc biệt các hệ thống rút trích thơng
tin trên các miền chuyên biệt như y học, sinh học, giảng dạy đã mang lại nhiều lợi ích
trong cuộc sống. Tuy nhiên việc xây dựng các hệ thống rút trích thơng tin trên các
miền chuyên biệt thường gặp nhiều thử thách như việc xử lý thông tin từ các nguồn tài
nguyên khác nhau, độ chính xác của thơng tin và tốc độ xử lý của hệ thống. Vì vậy
hiện nay đã và đang có rất nhiều cơng trình nghiên cứu trong và ngồi nước liên quan
đến xây dựng các hệ thống rút trích thơng tin trên các miền chun biệt. Mục đích của
luận án là xây dựng hệ thống rút trích thơng tin văn bản theo chủ đề trên miền chuyên
biệt (Tin học).
Để xây dựng các hệ thống rút trích thơng tin văn bản theo chủ đề trên miền
chuyên biệt (Tin học), luận án đề xuất một cách tiếp cận dựa trên ontology (Ontologybased Information Extraction) kết hợp với các phương pháp của xử lý ngôn ngữ tự
nhiên. Để thực hiện mục tiêu trên, luận án phải giải quyết các vấn đề chính. Thứ nhất,

đề xuất mơ hình lý thuyết cho hệ thống rút trích thơng tin theo chủ đề trên các tập tin
văn bản. Thứ hai, đề xuất cấu trúc, các lớp và các thành phần của ontology trên miền
Tin học, được gọi là Computing Domain Ontology (CDO) được thể hiện qua nhiều
quan hệ ngữ nghĩa hơn các mơ hình ontology khác nói chung. Thứ ba, đề xuất và cải
tiến các giải thuật rút trích thơng tin từ hai nguồn ngữ liệu khác nhau để xây dựng và
làm giàu ontology, bao gồm các tập tin văn bản trong trong tập thư viện điện tử ACM
(ACM Digital Library), Wikipedia. Thứ tư, luận án cài đặt hệ thống rút trích thơng tin
dựa trên ontology để trả lời câu truy vấn của người dùng. Phần thực nghiệm của luận
án đã được tiến hành dựa trên các tập tin văn bản trong trong tập thư viện điện tử
ACM, các câu truy vấn nhập trực tiếp từ người dùng và các từ điển liên quan đến lĩnh
vực Tin học. Kết quả thực nghiệm phản ánh tính khả thi của các mơ hình, giải thuật
được đề xuất trong luận án.

ii

ABSTRACT
Nowadays, besides Information Retrieval and Question Answering, Information
Extraction has become an emerging trend in the modern area of digital information
processing. Especially, in some certain domains such as Medicine, Biology and
Education, Information Extraction has made significant contributions for the
improvement of human living condition. However, there are also a lot of challenges
arising when the information extraction is exploited in a specific domain, e.g.
processing data from different resources, the quality and correctness of the extracted
information and system performance when dealing with large-scale datasets.
Therefore, there is much research, both in international and national scales, has been
conducted on the issue of building an efficient information extraction system on a
specific domain. It prompts the general objective of this dissertation, which is to build
a topic-oriented document-based information extraction system for a specific domain
(chosen as Computing within the dissertation scope).

To develop such a proposed system, the dissertation proposes a novel
methodology which combines ontology engineering and natural language processing
methods. In order to fulfil its objective, the dissertation has made the following
contributions. The first, the dissertation proposes a topic-based theoretical model of
the information extraction system on textual documents. The second, the dissertation
proposes the structure, classes and instances of a specific ontology, known as
Computting Domain Ontology (CDO), which renders more semantic relations than
other typical existing ontological models. The third, the dissertation proposes and
improves some algorithms of information extraction for building and enriching the
ontology. Lastly, the dissertation develops an ontology-based information extraction
system for answering user's queries. The experiments of the dissertation were
conducted from the following materials: (i) a dataset of text documents collected from
the ACM Digital Library; and (ii) a collection of the user's queries inputted directly
into the system. The experiment results show that the algorithms and the proposed
models are feasible and introduce significant improvement compared to similar
existing works.

iii

LỜI CẢM ƠN
Trong q trình hồn thành luận này, tơi đã được các Thầy Cô nơi cơ sở đào tạo
giúp đỡ tận tình, cơ quan nơi cơng tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia
đình thường xun động viên khích lệ.
Luận án này khơng thể hồn thành tốt nếu khơng có sự tận tình hướng dẫn và sự
giúp đỡ quý báu của GS.TS. Phan Thị Tươi, thầy hướng dẫn mà tơi tơn vinh và bày tỏ
lịng biết ơn sâu sắc nhất.
Tơi muốn bày tỏ lịng biết ơn các thầy cô trong khoa Khoa học và Kỹ thuật Máy
tính trường Đại học Bách Khoa Tp. Hồ Chí Minh đã tạo điều kiện thuận lợi cho tôi
trong quá trình học tập và nghiên cứu tại Khoa.

Lời cảm ơn của tơi xin được gửi đến Phịng Quản lý Sau Đại học về sự hỗ trợ các
thủ tục trong quá trình hồn thành luận án.
Đồng thời, tơi muốn cảm ơn Ban Giám Hiệu trường Đại học Bách Khoa
Tp.HCM, Phòng Khoa học Cơng nghệ & Dự án, Phịng Quản lý Sau Đại học đã tài trợ
cho tôi thực hiện đề tài cấp trường năm 2011.
Cuối cùng tôi cảm ơn tất cả bạn bè và người thân đã góp nhiều ý kiến và những
lời động viên khích lệ q báu giúp tơi vượt qua khó khăn để hồn thành tốt luận án.
Tác giả luận án
__________________________________
Tạ Duy Công Chiến

iv

MỤC LỤC
DANH MỤC CÁC HÌNH ẢNH.................................................................................. viii
DANH MỤC BẢNG BIỂU .............................................................................................x
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... xi
CHƯƠNG 1.

GIỚI THIỆU.........................................................................................1

1.1

Động cơ nghiên cứu ...........................................................................................1

1.2

Mục tiêu và phạm vi nghiên cứu........................................................................6

1.3

Kết quả đạt được của luận án ...........................................................................10

1.4

Cấu trúc của luận án .........................................................................................12

CHƯƠNG 2.

CÁC NGHIÊN CỨU LIÊN QUAN ...................................................14

2.1

Giới thiệu .........................................................................................................14

2.2

Các nghiên cứu liên quan đến xây dựng Ontology ..........................................14

2.2.1

Khái niệm về Ontology .............................................................................14

2.2.2

Các nghiên cứu xây dựng ontology ..........................................................16

2.3

Các nghiên cứu xử lý và rút trích thơng tin .....................................................18

2.3.1

Trong nước ................................................................................................19

2.3.2

Ngồi nước ................................................................................................20

2.4

Kết chương .......................................................................................................21

CHƯƠNG 3. XÂY DỰNG MƠ HÌNH RÚT TRÍCH THƠNG TIN VĂN BẢN
THEO CHỦ ĐỀ TRÊN MIỀN CHUN BIỆT ..........................................................23
3.1

Giới thiệu .........................................................................................................23

3.2

Giới thiệu một số mơ hình rút trích thơng tin ..................................................25

3.2.1

Các mơ hình rút trích thơng tin trên web ..................................................25

3.2.2

Các mơ hình rút trích thơng tin trên văn bản ............................................27

3.3 Mục tiêu, hướng giải quyết và nhiệm vụ nghiên cứu mơ hình rút trích thơng
tin văn bản theo chủ đề trên miền chuyên biệt của luận án .......................................29
3.4

Phươngphápnghiêncứu và hướng tiếp cận ..................................................32

3.5

So sánh mơ hình rút trích đề xuất với các mơ hình rút trích khác đã đề cập ...34

3.6

Các nguồn ngữ liệu phục vụ cho hệ thống rút trích của luận án......................34

3.6.1

Tập chủ đề của ACM và tập thư viện điện tử ACM .................................34

3.6.2

Wikipedia ..................................................................................................35

3.6.2

WordNet ....................................................................................................35

3.6.3

Babelnet: Từ điển đa ngôn ngữ .................................................................35

3.7

Kết chương .......................................................................................................36

v

CHƯƠNG 4. XÂY DỰNG VÀ LÀM GIÀU ONTOLOGY TRÊN MIỀN TIN HỌC
(COMPUTING DOMAIN ONTOLOGY – CDO) .......................................................37
4.1

Giới thiệu Ontology .........................................................................................37

4.1.1

Các khái niệm ............................................................................................38

4.1.2

Một số phương pháp xây dựng ontology ..................................................41

4.2

Giới thiệu về một số ontology liên quan đến Tin học......................................45

4.2.1

Computing Ontology [9] ...........................................................................45

4.2.2 SwetoDblp ontology ...................................................................................45
4.3

Xây dựng và làm giàu Ontology chuyên biệt trên miền Tin học. ....................46

2..1

Bước 1 – Xây dựng Lớp chủ đề (Topic layer) ..........................................47

2..2

Bước 2 – Xây dựng lớp Thành phần (Ingredient layer) ............................49

2..3

Bước 3 – Xây dựng lớp Synset .................................................................58

2..4

Bước 4 – Xây dựng lớp câu (Sentence layer) ...........................................59

4.4

Biểu diễn và lưu trữ CDO ................................................................................63

4.4.1

Resource Description Framwork (RDF) ...................................................63

4.4.2

Ontology Web Language (OWL)..............................................................64

4.4.3

Chuyển đổi từ OWL sang cơ sở dữ liệu quan hệ ......................................66

4.5

Kết quả thực nghiệm và đánh giá CDO ...........................................................74

4.5.1

So sánh CDO và một số ontology trên thế giới ........................................74

4.5.2

Kết quả xây dựng và làm giàu CDO .........................................................76

4.5.3

Đánh giá kết quả xây dựng và làm giàu CDO ..........................................77

4.6

Kết chương .......................................................................................................81

CHƯƠNG 5.

XÁC ĐỊNH CHỦ ĐỀ CÂU TRUY VẤN ..........................................83

5.1

Mơ hình xác định chủ đề của câu truy vấn ......................................................83

5.2

Bài toán xác định chủ đề câu truy vấn và phương pháp đề xuất .....................88

5.2.1

Phân tích câu truy vấn. ..............................................................................89

5.2.2

Xác định các quan hệ ngữ nghĩa bằng cây phụ thuộc ...............................90

5.2.3

So trùng trên ontology ...............................................................................93

5.3

Kết quả thực nghiệm và đánh giá. ...................................................................98

5.3.1

Thực nghiệm .............................................................................................98

5.3.2 Kết quả thực nghiệm và đánh giá phương pháp xác định chủ đề câu truy
vấn dựa trên CDO ..................................................................................................98
5.3.3

So sánh với AIchemyAPI ........................................................................101

5.3.4

Đánh giá về thời gian thực thi .................................................................101

5.3.5

Công cụ hỗ trợ và môi trường thực nghiệm ............................................103
vi

5.4

Kết chương .....................................................................................................104

CHƯƠNG 6.
6.1

RÚT TRÍCH THƠNG TIN THEO CHỦ ĐỀ ...................................105

Mơ hình rút trích thơng tin văn bản theo chủ đề trên miền chun biệt ........105

6.1.1

Rút trích thơng tin từ các nguồn tài ngun khác nhau. .........................105

6.1.2

Rút trích thơng tin dựa trên CDO trả lời câu truy vấn ............................106

6.2 Ví dụ minh họa hoạt động của hệ thống rút trích thông tin cho câu truy vấn
dựa vào ontology CDO ............................................................................................113
6.3

Phân tích và đánh giá mơ hình rút trích thơng tin theo chủ đề ......................118

6.4

Thực nghiệm và đánh giá kết quả rút trích thơng tin dựa trên CDO .............119

6.4.1 Thực nghiệm và đánh giá kết quả dựa trên độ chính xác, độ truy hồi và
trung bình điều hịa ..............................................................................................119
6.4.2
6.5

Đánh giá về thời gian thực thi .................................................................123

Kết chương .....................................................................................................124

TỔNG KẾT....... ..........................................................................................................125
Kết luận....................................................................................................................125
Hướng phát triển ......................................................................................................127
CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN ...........128
TÀI LIỆU THAM KHẢO ...........................................................................................130
PHỤ LỤC.......... ..........................................................................................................141

vii

DANH MỤC CÁC HÌNH ẢNH
Hình 1.1. Mơ hình rút trích thơng tin theo chủ đề dựa trên văn bản ...............................8
Hình 3.1. Mơ hình rút trích thơng tin trên web .............................................................26
Hình.3.2. Mơ hình rút trích theo C. Feilmayr (nguồn [54]) ..........................................27
Hình.3.3. Mơ hình rút trích văn bản của S. Jonnalagadda (nguồn [54]) .......................28
Hình 3.4. Mơ hình rút trích thơng tin theo đề nghị của Batcha (nguồn [57]) ...............28
Hình 3.5. Mơ hình SOBA (nguồn [59]) ........................................................................29
Hình 3.6.Sơ đồ hệ thống rút trích thông tin văn bản theo chủ đề trên miền chuyên biệt
.......................................................................................................................................31
Hình 3.7. Mơ hình xử lý vấn đề 1..................................................................................33
Hình 4.1. Mơ hình biểu diễn ontology chun biệt (nguồn [15]) .................................40
Hình 4.2. Ontology trên miền địa danh (nguồn [67]) ....................................................41
Hình 4.3. Computing ontology do tổ chức ACM thành lập (nguồn [9]) .......................45
Hình 4.4. Cấu trúc phân cấp CDO .................................................................................46
Hình 4.5. Cấu trúc phân cấp chủ đề trong CDO............................................................47
Hình 4.6. Số phần tử được rút trích từ các nguồn tài nguyên khi chưa áp dụng giá trị
ngưỡng ...........................................................................................................................54
Hình 4.7. Số phần tử được rút trích từ các nguồn tài nguyên sau khi áp dụng giá trị
ngưỡng là 0,4 .................................................................................................................55
Hình 4.8. Mơ hình xây dựng và làm giàu CDO từ các tập tin văn bản của ACM và
Wikipedia.......................................................................................................................56
Hình 4.9. Một số quan hệ giữa các đối tượng trong CDO ............................................61
Hình 4.10. CDO biểu diễn bằng Protégé .......................................................................66
Hình 4.11. Mơ hình ánh xạ các lớp OWL thành bảng ..................................................67
Hình 4.12. Ánh xạ thuộc tính đối tượng theo E. Vysniauskas ......................................68
Hình 4.13. Ánh xạ thuộc tính đối tượng thành các bảng trong cơ sở dữ liệu quan hệ ..68

Hình 4.14. Mơ hình quan hệ của CDO biểu diễn bằng RDB ........................................70
Hình 4.15. So sánh tỷ lệ rút trích các đối tượng với Stanford CoreNLP ......................80
Hình 4.16. So sánh tỷ lệ rút trích các quan hệ ngữ nghĩa với Stanford CoreNLP ........81
Hình 5.1. Mơ hình phân cấp các chủ đề theo P.G. Ipeirotis (nguồn [118]) ..................84
Hình 5.2. Mơ hình nhận dạng chủ đề của Y. Ishizuka (nguồn [121]) ...........................85
Hình 5.3. Mơ hình truy vấn thơng tin của K.Wen (nguồn [122]) .................................86
Hình 5.4. Mơ hình xác định chủ đề của câu truy vấn ....................................................88
Hình 5.5. Cây phụ thuộc của ví dụ 5.4 được phân tích bằng mơ hình ngơn ngữ ..........90
Hình 5.6. Cây phụ thuộc được SLDP xây dựng. ...........................................................91
Hình 5.7. Phân loại kỹ thuật so trùng theo HUANG (nguồn [15]) ...............................93
Hình 5.8. Cây phụ thuộc của truy vấn ở ví dụ 5.6 được SLDP tạo ra ...........................96
Hình 5.9. Cây phụ thuộc của câu ở ví dụ 5.8 do SLDP tạo ra.......................................97
Hình 5.10. Biểu đồ thể hiện kết quả thực nghiệm trên 320 câu truy vấn ....................100
Hình 5.11. Cây phụ thuộc của câu ở ví dụ 5.9 ............................................................104
Hình 6.1. Mơ hình tổng qt rút trích thơng tin văn bản theo chủ đề trên miền chuyên
biệt (Tin học) ...............................................................................................................105
Hình 6.2. Mơ hình rút trích thơng tin trả lời câu truy vấn ...........................................106
Hình 6.3. Cây đồ thị phụ thuộc của câu ở ví dụ 6.2 ....................................................109
Hình 6.4. Mơ hình ánh xạ các từ khóa tương ứng .......................................................110
viii

Hình 6.5. Cây phụ thuộc của câu ở ví dụ 6.3 ..............................................................112
Hình 6.6. Tỷ lệ rút trích thành cơng dựa vào CDO để tạo tự động dạng biểu diễn trung
gian cho câu truy vấn ...................................................................................................113
Hình 6.7. Cây phụ thuộc của ví dụ 6.4 ........................................................................114
Hình 6.8. Cây phụ thuộc của câu ở ví dụ 6.5 ..............................................................116
Hình 6.9. Kết quả rút trích thông tin dựa trên CDO cho câu truy vấn nhập chỉ dựa trên
từ khóa và các quan hệ ngữ nghĩa trong câu. ..............................................................121
Hình 6.10. Kết quả rút trích thơng tin dựa trên CDO cho câu truy vấn nhập .............123

ix

DANH MỤC BẢNG BIỂU
Bảng 4.1. Ví dụ minh họa cách tính độ lợi ....................................................................52
Bảng 4.2. Một số ví dụ khi xử lý bằng SLDP ...............................................................61
Bảng 4.3. Các quan hệ ngữ nghĩa biểu diễn dưới dạng OWL và RDB.........................73
Bảng 4.4. So sánh CDO và một số ontology trên thế giới ............................................75
Bảng 4.5. Tỷ lệ các đối tượng được rút trích từ các nguồn tài nguyên .........................76
Bảng 4.6. Tỷ lệ số câu rút trích từ các nguồn tài nguyên khác nhau.............................76
Bảng 4.7. Số lượng các quan hệ ngữ nghĩa trên một số chủ đề của CDO ....................77
Bảng 4.8. Bảng đánh giá các đối tượng thuộc lớp Thành phần thể hiện qua một số chủ
đề trên CDO ...................................................................................................................79
Bảng 4.9. Bảng đánh giá các quan hệ ngữ nghĩa trong CDO thể hiện qua một số chủ đề
.......................................................................................................................................79
Bảng 4.10. Bảng so sánh tỷ lệ rút trích các đối tượng so với Stanford CoreNLP.........80
Bảng 4.11. Bảng so sánh tỷ lệ rút trích các quan hệ ngữ nghĩa so với Stanford
CoreNLP ........................................................................................................................81
Bảng 5.1. Các mẫu câu truy vấn nhập vào ....................................................................98
Bảng 5.2. Kết quả đánh giá việc xác định chủ đề trên tập văn bản ...............................99
Bảng 5.3. Kết quả đánh giá xác định chủ đề trên các dạng câu truy vấn khác nhau...100
Bảng 5.4. Kết quả thực nghiệm khi sử dụng AIchemyAPI trên tập ngữ liệu ACM ...101
Bảng 5.5. Kết quả đánh giá khi sử dụng giải thuật đề nghị 5.1 trên tập ngữ liệu ACM
.....................................................................................................................................101
Bảng 5.6. Kết quả đánh giá về thời gian thực thi trong trường hợp có một từ haycụm từ
khóa trong câu .............................................................................................................102
Bảng 5.7. Kết quả đánh giá về thời gian thực thi trong trường hợp có 2-5 từ hay cụm từ
khóa trong câu .............................................................................................................102
Bảng 6.1. Hệ thống xác định các chủ đề của câu truy vấn ở ví dụ 6.4........................114

Bảng 6.2. Kết quả rút trích thơng tin cho câu truy vấn “oracle database” ..................115
Bảng 6.3. Hệ thống nhận dạng các chủ đề với ví dụ 6.5 .............................................117
Bảng 6.4. Kết quả rút trích thơng tin cho ví dụ 6.5 dựa trên CDO .............................117
Bảng 6.5. Các mẫu câu truy vấn cho hệ thống rút trích thơng tin dựa trên CDO .......119
Bảng 6.6. Kết quả rút trích thơng tin (khơng có chủ đề) trên chủ đề Network ...........120
Bảng 6.7. Kết quả rút trích thơng tin (khơng có chủ đề) trên chủ đề OS ....................120
Bảng 6.8. Kết quả rút trích thơng tin (khơng có chủ đề) trên chủ đề IR .....................120
Bảng 6.9. Kết quả rút trích thơng tin (khơng có chủ đề) trên chủ đề NLP .................121
Bảng 6.10. Kết quả rút trích thơng tin trên chủ đề Network .......................................122
Bảng 6.11. Kết quả rút trích thơng tin trên chủ đề OS ................................................122
Bảng 6.12. Kết quả rút trích thông tin trên chủ đề IR .................................................122
Bảng 6.13. Kết quả rút trích thơng tin trên chủ đề NLP..............................................122
Bảng 6.14. Đánh giá thời gian rút trích thơng tin từ CDO ..........................................124

x

DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết

Diễn giải tiếng Anh

Diễn giải tiếng Việt

tắt
BOW

Bag-of-words

Túi từ

CARS

Context Aware Recommendation

Hệ thống khuyến nghị nhận thức

System

ngữ cảnh

CDO

Computing Domain Ontology

Bản thể học trên miền Tin Học

CRF

Conditional Random Fields

Trường điều kiện ngẫu nhiên

DOM

Document Object Model

Mơ hình đối tượng tài liệu

FCA

Formal Concept Analysis

Phân tích khái niệm hình thức

FOGA

Fuzzy Ontology Generation

Nền tảng sinh ra bản thể học mờ

Framework
GATE

General Architecture for Text

Kiến trúc tổng quát cho công nghệ

Engineering

văn bản

GeT

Graph-embedded Tree

Cây đồ thị nhúng

HMM

Hidden Markov Model

Mơ hình Markov ẩn

HPSG

Head-Driven Phrase Structure

Văn phạm cấu trúc cụm từ hướng

Grammar

đến trọng tâm

Hyper Text Markup Language

Ngơn ngữ đánh dấu siêu văn bản

IE

Information Extraction

Rút trích thơng tin

IG

Information Gain

Độ lợi

IR

Information Retrieval

Truy xuất thông tin

JAPE

Java Annotation Pattern Engine

Công nghệ mẫu chú thích java

KIM

Knowledge and Information

Quản lý thơng tin và tri thức

HTML/
HTM

Management
NLP

Natural Language Processing

Xử lý ngôn ngữ tự nhiên

NMF

Non negative Matrix Factorization Nhân chuẩn hóa

OOMP

Ontology of Object-Member-

Bản thể học của Đối tượng- Thành

Property

phần-Tính chất.
xi

Từ viết

Diễn giải tiếng Anh

Diễn giải tiếng Việt

tắt
OWL

Ontology Web Language

Ngôn ngữ biểu diễn bản thể học

RDB

Relational Database System

Hệ cơ sở dữ liệu quan hệ

RDF

Resource Description Framework

Nền tảng mô tả tài nguyên

RMN

Relational Markov Network

Mạng Markov biểu diễn quan hệ

SLDP

Stanford Lexical Dependency

Bộ phân tích cú pháp văn phạm

Parser

phụ thuộc từ vựng Stanford

SVM

Support Vector Machines

Máy vector hỗ trợ

TS

Text Summarization

Tóm tắt văn bản

UMLS

Unified Medical Language

Hệ thống ngôn ngữ y học hợp

System

nhất

WWW

World Wide Web

Mạng lưới tồn cầu

XML

Extensible Markup Language

Ngơn ngữ đánh dấu mở rộng

YAGO

Yet Another Great Ontology

Bản thể học YAGO

xii

CHƯƠNG 1. GIỚI THIỆU
1.1 Động cơ nghiên cứu
Trong lĩnh vực Rút trích thơng tin, các nghiên cứu quan tâm đến rút trích nội
dung văn bản dựa trên một số tính chất đặc trưng. Rút trích nội dung văn bản là một
vấn đề khó trong xử lý văn bản cũng như khó để đạt độ chính xác như mong muốn.
Gần đây, một số đề tài nghiên cứu rút trích thơng tin trong văn bản đã đưa ra
hướng tiếp cận mới là rút trích các cụm từ đặc trưng mang tính ngữ nghĩa của câu
trong văn bản. Phương pháp này đã cải thiện độ chính xác và tăng khả năng ứng dụng
của chúng trong nhiều lĩnh vực khác nhau. Tuy nhiên hướng tiếp cận này địi hỏi hệ
thống rút trích phải có khả năng phân tích cú pháp và ngữ nghĩa của các câu thậm chí
cả văn bản, cũng như phải được biệt lập trong một chủ đề nhất định.
Hiện nay và trong tương lai, nguồn thông tin (văn bản) là vô cùng lớn và nhu cầu
truy xuất thơng tin chính xác của người sử dụng ngày càng cao trong từng chủ đề
thuộc các lĩnh vực kinh tế, xã hội, khoa học. Vì vậy các hệ thống rút trích thơng tin,
ngồi khả năng trích xuất các cụm từ đặc trưng ngữ nghĩa của câu trong văn bản cịn
phải có khả năng phân tích thơng tin theo từng chủ đề. Thực hiện hai cách tiếp cận
này, hệ thống sẽ rút trích thơng tin chính xác và hiệu quả hiệu quả hơn.
Trong cơng trình nghiên cứu [1], A. Nuntiyagul cùng các cộng sự thực hiện phân
loại câu hỏi nhập vào từ người dùng trên miền toán học. Trước hết A. Nuntiyagul định
nghĩa khái niệm Item Banks là tập hợp các từ quan trọng trong câu hỏi được ghép lại
thành câu dưới dạng rút gọn để qua đó nhận dạng và phận loại câu. A. Nuntiyagul đã
xây dựng tập dữ liệu huấn luyện từ các văn bản liên quan đến Toán học bằng phương

pháp Term Frequency with Inverse Document Frequency (TF*IDF). Q trình rút
trích thơng tin từ văn bản là rút trích các từ khóa và các quan hệ ngữ nghĩa liên quan
đến chúng. Để rút trích từ khóa A. Nuntiyagul tính tần suất xuất hiện của các từ trong
văn bản. Cịn để rút trích các quan hệ ngữ nghĩa liên quan đến các từ khóa, A.
Nuntiyagul đã áp dụng phương pháp “túi từ”. Sau đó A. Nuntiyagul tiến hành xây dựng
tập từ khóa mẫu trong câu (Patterned Keyword in Phrase – PKIF) dựa vào các từ
khóa, các luật và phương pháp SVM. Các mẫu câu này sẽ được dùng để xác định chủ
1

đề của các câu hỏi. A. Nuntiyagul cũng định nghĩa một tập các chủ đề tương ứng với
mẫu câu này. Tuy nhiên cơng trình này vẫn cịn một số hạn chế như sau.
i.

Phương pháp “túi từ” không xác định các quan hệ ngữ nghĩa liên quan đến các
từ khóa.

ii.

Phải cần thời gian thay thế các từ viết tắt trong câu hỏi trước khi xử lý.

iii.

Phương pháp “túi từ” cũng không thể xếp loại quan hệ ngữ nghĩa đó thuộc về
quan hệ IS-A, PART-OF, INCLUDE.

iv.

Việc xác định các quan hệ ngữ nghĩa khơng chính xác dẫn đến việc phân loại
chủ đề cho câu hỏi khơng chính xác.

Trong cơng trình [2], F.Z. Lahlou cùng các cộng sự xây dựng một hệ thống

khuyến nghị nhận thức ngữ cảnh (CARS). Mục đích của hệ thống sẽ hiển thị những đề
nghị cho người dùng từ nhiều lãnh vực khác nhau. Để xây dựng hệ thống, F.Z. Lahlou
rút trích thơng tin từ những bài phê bình của người dùng trên mạng từ nhiều lĩnh vực
khác nhau. Để có thể phân loại những bài phê bình này, F.Z. Lahlou đã sử dụng ba
phương pháp khác nhau như SVM, k-Nearest Neighbor (k-NN) và Multinomial Naïve
Bayes (MNB). Kết quả đánh giá theo F.Z. Lahlou là thấp, trong đó tốt nhất là 60,1%
(MNB) vì F.Z. Lahlou khơng tập trung trên một miền nào cả nên tính chính xác là
khơng cao.
Hiện tại Internet (Web) được xem là nguồn thông tin khổng lồ của nhân loại.
Theo thời gian, nguồn thông tin này không ngừng được chia sẻ, mở rộng và phát triển.
Các thông tin trên Internet hầu hết được biểu diễn bởi ngơn ngữ tự nhiên, trong đó
phần lớn là thơng qua các trang Web, thường là khơng có cấu trúc. Đồng thời với sự
phát triển của Internet là sự gia tăng rất lớn về nhu cầu truy xuất thông tin, rút trích
thơng tin của người sử dụng, trong đó việc tìm kiếm các thông tin thể hiện trong ngôn
ngữ tiếng Anh chiếm tỉ lệ đáng kể.
Để phục vụ cho những nhu cầu tìm kiếm thơng tin của người sử dụng, các hệ
thống truy xuất thơng tin (IR), rút trích thơng tin (IE) đã được nghiên cứu và phát
triển. Tuy nhiên việc tìm kiếm thơng tin thường khơng nhận được kết quả đầy đủ,
chính xác, đặc biệt là những thơng tin thuộc các chuyên ngành, như Y học, Sinh học,
chống tội phạm.

2

Trong Cơng trình [3], J. Xiao-yu đã rút trích thơng tin từ các tập tin văn bản để
tiến hành tóm tắt văn bản. Để tóm tắt văn bản, J. Xiao-yu dùng phương pháp của xử lý
ngôn ngữ tự nhiên (NLP) để nhận dạng các từ khóa. Tuy nhiên cơng trình này còn
điểm hạn chế là việc nhận dạng câu chỉ dựa vào tần suất xuất hiện của các từ trong câu

khơng thể hiện được tính ngữ nghĩa, mối liên kết giữa các từ trong câu.
Bên cạnh các phương pháp của xử lý ngôn ngữ tự nhiên, phương pháp học máy
cũng thường được sử dụng để nhận dạng và rút trích thơng tin nhất là rút trích các thực
thể có tên. Cơng trình [4], J. Diesner dùng phương pháp Trường điều kiện ngẫu nhiên
(CRF) để nhận dạng các thực thể có tên liên quan đến con người và tổ chức. Cơng
trình đã đạt những kết quả khả quan, tuy nhiên một vài hạn chế của cơng trình là:
i.

Chỉ giải quyết cho các bài tốn nhận dạng thực thể có tên.

ii.

Muốn rút trích các quan hệ ngữ nghĩa phải dựa vào các luật. Do đó các quan hệ
ngữ nghĩa thường chỉ là IS-A, PART-OF.

iii.

Các quan hệ ngữ nghĩa chỉ là những quan hệ nhị phân.
Trong cơng trình [5], J. Jiang rút trích các đối tượng và các quan hệ ngữ nghĩa từ

các tập tin văn bản liên quan đến con người, các tổ chức và vị trí. Tuy nhiên cơng trình
này vẫn cịn một số hạn chế sau.
i.

Chỉ có hai quan hệ ngữ nghĩa là: FounderOf, HeadQuateredIn trong ontology.

ii.

Các quan hệ này là quan hệ nhị phân, là quan hệ chỉ có hai đối tượng tham gia.
Các quan hệ nhị phân được tham chiếu từ ACE (Automatic Content Extraction)

bao gồm: NEAR, AT, ROLE, SOCIAL, PART.

iii.

Ontology không phân chia thành nhiều lớp khác nhau.
Từ các phân tích trên, để cung cấp cho người dùng những thơng tin chính xác về

một lĩnh vực chun biệt mà họ quan tâm, như giá cả chứng khoán, thơng tin về một
món hàng trước khi mua, cách điều trị một căn bệnh, thì cần phải có các hệ thống rút
trích thơng tin cho các lĩnh vực chun biệt này.
Để có thể rút trích thơng tin phù hợp với mong muốn của người dùng, các hệ
thống phải có khả năng phân tích ngữ nghĩa của câu truy vấn và thơng tin rút trích
phải lấy từ các nguồn tài ngun có độ tin cậy cao. Bài tốn xây dựng các hệ thống
rút trích thơng tin trên các miền chun biệt sẽ giải quyết được đáng kể sự nhập nhằng
ngữ nghĩa của thơng tin khi tiến hành rút trích. Rút trích thông tin trên miền chuyên
3

biệt là thơng tin sau khi rút trích chỉ thuộc về một lãnh vực (ví dụ như Xây dựng, Y
học, Tin học) hay một số chủ đề thuộc lĩnh vực nào đó (ví dụ một số chủ đề như lập
trình, mạng máy tính thuộc lĩnh vực Tin học).
Trong lĩnh vực quan trọng như Y học, liên quan đến việc chẩn đoán bệnh và cấp
thuốc hàng ngày đối với các bệnh nhân, để tránh sai sót các hệ thống rút trích thông tin
trên lĩnh vực này đã được nghiên cứu, xây dựng và phát triển khá nhiều. Tương tự, các
hệ thống rút trích thơng tin chun biệt trên các lĩnh vực sinh học, nơng nghiệp hay
phịng chống tội phạm cũng được nghiên cứu và phát triển khá mạnh. Một lĩnh vực
khác cũng cần phải nhắc đến đó là giáo dục. Các hệ thống rút trích thơng tin đã phục
vụ khá nhiều trong công việc giảng dạy, học tập. Những hệ thống rút trích thơng tin
cho một số miền chun biệt liên quan đến các môn học hoặc liên quan đến chuyên
ngành đào tạo giúp cho sinh viên học sinh tra cứu, tìm hiểu nhanh hơn về tri thức liên

quan đến các khái niệm trong các môn học hay chuyên ngành được chọn.
Vấn đề cốt lõi của bài tốn rút trích thơng tin trên các miền chuyên biệt là xác
định các từ, cụm từ thích hợp trong văn bản, cũng như các mối quan hệ liên quan đến
ngữ nghĩa, cú pháp giữa chúng để có được những thơng tin chính xác và đầy đủ phù
hợp với miền chuyên biệt. Để giải quyết vấn đề này, nhiều nghiên cứu đã hướng đến
phân tích ngữ nghĩa của thơng tin cần rút trích dựa trên cơ sở tri thức như bản thể
học (ontology). Các hệ thống rút trích thơng tin trên các miền chun biệt dựa trên
ontology hướng đến ngữ nghĩa nhiều hơn so với các hệ thống rút trích truyền thống
trước đây được xây dựng bằng các phương pháp thống kê như HMM, CRF, SVM, v.v.
Tuy nhiên một trong những thách thức của các hệ thống rút trích thơng tin dựa trên
ontology là việc xây dựng và làm giàu ontology.
Để hỗ trợ xây dựng các hệ thống rút trích trên các miền chuyên biệt, ontology
được tổ chức thành các lớp tương ứng với các khái niệm, đối tượng khác nhau, giữa
chúng tồn tại các mối quan hệ ngữ nghĩa do đó ontology tạo thành một mạng ngữ
nghĩa liên kết các đối tượng. Thông qua mạng ngữ nghĩa, ontology bổ sung tri thức
đầy đủ cho các đối tượng, từ đó sẽ giúp cho người dùng hiểu rõ hơn ý nghĩa, đặc điểm
của các đối tượng. Việc xây dựng một hệ thống rút trích thơng tin trên các miền
chuyên biệt thành công hay không, điều này phụ thuộc vào việc xây dựng các khái
niệm, đối tượng, các lớp và mối quan hệ giữa chúng trong ontology.
4

Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thơng tin (trên Web),
cùng với hướng giải quyết làm sao để hệ thống có thể thơng minh khi xử lý nhằm rút
trích thơng tin chính xác hơn, thì u cầu về một hệ thống rút trích thơng tin trên các
miền chun biệt là cần thiết.
Cơng trình [6], J. Kim đã xây dựng một hệ thống rút trích thông tin trên miền Y
sinh dựa trên ontology. J. Kim đã áp dụng NLP cùng với sự hỗ trợ của bộ phân tích từ
vựng (Lexical Analyzer) để rút trích các sự kiện từ các bài báo khoa học. Cơng trình
đã đạt được những kết quả và còn một số hạn chế sau.

i.

Rút trích 79 sự kiện khác nhau liên quan các cơng thức về Y sinh, độ chính xác
là 84%, độ truy hồi là 21%.

ii.

Dùng bộ phân tích cú pháp của văn phạm cấu trúc cụm từ hướng đến trọng tâm
(HPSG). Bộ phân tích cú pháp HPSG phân tích câu của văn bản thuộc miền Y
sinh. Tuy nhiên HPSG không thể hiện được mối quan hệ phụ thuộc giữa các từ
trong câu.

iii.

Ontology khơng phân chia nhiều lớp.
Trong cơng trình [7], M. Abulaish xây dựng một hệ thống rút trích thơng tin và

hỏi đáp từ văn bản trên miền sinh học dựa trên ontology. Hệ thống đã rút trích các đối
tượng và các quan hệ ngữ nghĩa liên quan đến miền sinh học từ các tập tin văn bản.
Cơng trình đã sử dụng NLP kết hợp với các luật để khai phá dữ liệu. Tuy nhiên cơng
trình vẫn cịn một số hạn chế sau.
i. Các quan hệ ngữ nghĩa chỉ bao gồm các quan hệ IS-A, PART-OF và là quan hệ
nhị phân R(Ci, Cj).
ii. Ontology chỉ bao gồm ba chủ đề khác nhau: nguồn sinh học (Biological
source), các vật liệu sinh học (Biological substance) và các tên khác
(Other_name).
iii. Ontology được rút trich từ các bài bào của MEDLINE bao gồm 400.000 từ và
100.000 chú thích do đó ontology chưa bao phủ được các chủ đề trong miền
Sinh học
Trong cơng trình [8], M.P. Nepal cùng các cộng sự xây dựng hệ thống rút trích

thơng tin dựa trên ontology trên miền Xây dựng. Để xây dựng ontology trên miền Xây
dựng, M.P. Nepal đã rút trích thơng tin từ trên Internet. Ontology bao gồm hai lớp
5

chính là Component và Intersection. Trong mỗi lớp chính có một số lớp con và các đối
tượng thuộc về các lớp con. Lớp Component diễn tả các thành phần liên quan đến lĩnh
vực Xây dựng, trong khi Intersection diễn tả sự giao tiếp giữa các thành phần. Cơng
trình đã hỗ trợ trong lĩnh vực Xây dựng, tuy nhiên vẫn còn một số hạn chế như :
i.

Do số lớp chủ đề trong ontology ít nên chưa thể hiện được nhiều vấn đề của
lĩnh vực Xây dựng.

ii.

Chỉ bao gồm một quan hệ ngữ nghĩa là IS-A.
Từ nghiên cứu và phân tích các cơng trình khoa học về rút trích thơng tin trên

miền chuyên biệt dựa vào ontology hiện nay trên thế giới, tác giả nhận thấy còn tồn tại
một số hạn chế sau.
 Phải cần thời gian thay thế các từ viết tắt trong câu hỏi trước khi xử lý [1].
 Chưa sử dụng bộ phân tích cú pháp phù hợp nên không cung cấp được mối
quan hệ phụ thuộc giữa các từ trong câu [6].
 Sự phân lớp trong ontology là đơn giản [6] ; số lớp khái niệm cịn ít nên
ontology chưa hỗ trợ rút trích thơng tin cho nhiều vấn đề của lĩnh vực Xây dựng
[8], hoặc ontology chỉ bao gồm ba chủ đề [7].
 Các quan hệ ngữ nghĩa giữa các đối tượng trong ontology cũng chỉ bao gồm các
quan hệ nhị phân R (Ci, Cj), là quan hệ IS-A, PART-OF [7] [9], hoặc chỉ bao
gồm một quan hệ ngữ nghĩa là IS-A [8].

 Ontology được xây dựng và làm giàu với 400.000 từ và 100.000 chú thích [7]
1.2 Mục tiêu và phạm vi nghiên cứu
Mục tiêu luận án là xây dựng mơ hình rút trích thơng tin văn bản theo chủ đề trên
miền chuyên biệt (Tin học) dựa trên Computing Domain Ontology (CDO). Khác với
Computing Ontology của nhóm ACM [9] (hiện nay vẫn cịn đang cập nhật các chủ đề)
chỉ tập trung vào việc phân loại các chủ đề liên quan đến Khoa học máy tính là chính,
khơng có nhiều các đối tượng trong mỗi lớp và chỉ có một số các quan hệ IS-A,
PART-OF hay SwetoDblp Ontology [10] chỉ tập trung vào các cơng trình khoa học đã
được công bố trên thế giới (bao gồm các thơng tin : tác giả, tên cơng trình, ngày tháng
năm cơng bố, tên hội nghị hay tạp chí). Hơn nữa, hai ontology này cũng không khai

6

thác các quan hệ đồng nghĩa, thượng danh. Nhằm khắc phục những hạn chế nêu trên,
luận án đã thực hiện những cải tiến sau trong quá trình xây dựng CDO.
i.

CDO do luận án đề xuất có 170 lớp chủ đề khác nhau, mỗi lớp có nhiều lớp
con, với hơn 1 triệu đối tượng thuộc các lớp khác nhau, do đó có thể đáp ứng
u cầu rút trích thơng tin ở nhiều lĩnh vực liên quan đến Tin học.

ii.

Các quan hệ ngữ nghĩa giữa các đối tượng thuộc CDO không chỉ có IS-A,
PART-OF mà cịn mở rộng thêm quan hệ : INCLUDE, MADE-OF, RESULTOF, quan hệ thượng danh và đồng nghĩa. Qua đó thơng tin rút trích sẽ giàu tính
ngữ nghĩa hơn. Quan hệ ngữ nghĩa trong CDO không chỉ giới hạn ở quan hệ nhị
phân mà cịn có thể là quan hệ của nhiều hơn hai đối tượng, được biểu diễn
bằng R(C1, …, Ci) với i  2.

iii.

Ngoài ra CDO cịn có các quan hệ đồng nghĩa nên sẽ tránh được giai đoạn thay
thế các từ viết tắt nếu trong câu truy vấn của người dùng có xuất hiện, do đó sẽ
tiết kiệm thời gian hơn. Ví dụ, trung bình một câu truy vấn được thực thi trên
WordNet ở chế độ offline tốn 2,5ms (SQL Server), trong khi thực thi trên CDO
với cùng một cơ sở dữ liệu chỉ mất 0,4ms.

iv.

Việc xác định chủ đề dựa trên CDO và quá trình rút trích thơng tin cho người
dùng cũng được thực hiện trên lớp chủ đề này của CDO, nên sẽ tránh được sự
nhập nhằng chủ đề khi rút trích thơng tin.
Trong phạm vi nghiên cứu, luận án sẽ áp dụng phương pháp của xử lý ngôn ngữ

tự nhiên kết hợp với thống kê và ontology, đó là cơ sở để xây dựng một hệ thống rút
trích thơng tin văn bản theo chủ đề trên miền Tin học. Ngoài chức năng rút trích thơng
tin, hệ thống cịn có chức năng như một hệ thống hỏi đáp liên quan đến lĩnh vực Tin
học. Mơ hình tổng quan của hệ thống được thể hiện qua hình 1.1

7

Hình 1.1. Mơ hình rút trích thơng tin văn bản theo chủ đề trên miền chuyên biệt (Tin học)

Để xây dựng mơ hình rút trích thơng tin theo chủ đề trên miền chuyên biệt (Tin
học) dựa trên ontology, luận án cần giải quyết một số bài toán sau đây.
Bài toán 1: Nhận dạng và rút trích các đối tượng, các quan hệ ngữ nghĩa từ
những nguồn ngữ liệu khác nhau để xây dựng và làm giàu Ontology
Ontology là một cơ sở tri thức dùng để chia sẻ thông tin, trong đó bao gồm các

lớp chủ đề với những khái niệm, đối tượng, đặc tính và mối quan hệ giữa chúng.
Ontology được xây dựng là ontology của một miền chuyên biệt. Một miền chuyên biệt
có thể gồm nhiều chủ đề khác nhau. Mỗi chủ đề sẽ là một hệ thống mạng ngữ nghĩa
liên quan đến các từ, cụm từ đặc trưng cho chủ đề.
Để xây dựng ontology trên miền Tin học, luận án sử dụng cấu trúc cây phân cấp
chủ đề của ACM (ACM categories) để xây dựng lớp chủ đề trong ontology. Kho ngữ
liệu tiếp theo để xây dựng ontology là tập văn bản đã được xác định chủ đề từ tập thư
viện điện tử ACM (ACM Digital Library). Để nhận dạng và rút trích các khái niệm, từ
ngữ trong các tập tin văn bản theo từng lớp chủ đề khác nhau, luận án sử dụng các
phương pháp của xử lý ngôn ngữ tự nhiên như tách câu, gán nhãn (POS-Tag), phân
tích câu. Sau khi nhận dạng, luận án sẽ tiến hành rút trích các đối tượng và các từ hay
cụm từ này trong các kho ngữ liệu. Tuy nhiên để đảm bảo độ chính xác cho các đối
tượng này, luận án đã dùng phương pháp thống kê để đánh giá chúng trước khi bổ
sung vào ontology [CT1], [CT4].
8

Để làm giàu tri thức cho ontology phục vụ cho q trình rút trích, luận án sử
dụng các ontology có sẵn như Wikipedia, WordNet, Babelnet.
Một vấn đề khác không thể thiếu trong quá trình xây dựng và làm giàu ontology
trên miền chuyên biệt là nhận dạng các mối quan hệ giữa các đối tượng trong
ontology. Các mối quan hệ này bao gồm các quan hệ ngữ nghĩa và quan hệ cú pháp
giữa các khái niệm, các đối tượng trong câu. Tùy thuộc vào mục đích khác nhau của
các ứng dụng, mà các quan hệ này có thể được nhận dạng và rút trích theo nhiều cách
khác nhau. Thơng thường những quan hệ này là quan hệ hai ngôi xác định mối quan hệ
giữa hai đối tượng như: thủ đô, vị trí, ví dụ, capital (“Hanoi”, “Vietnam”), location
(“Paris”, “France”), hay quan hệ IS-A, PART-OF, INCLUDE. Trong phạm vi nghiên
cứu của luận án, các quan hệ ngữ nghĩa được luận án khai thác là các quan hệ đồng
nghĩa, quan hệ thượng danh (hypernym), hạ danh (hyponym), từng phần (part-of), gộp
(include). Bên cạnh đó, trong q trình nhận dạng và rút trích các đối tượng, luận án

cũng quan tâm đến các quan hệ cú pháp giữa của các đối tượng trong ontology để có
được những câu hồn thiện hơn. Những câu này sẽ bổ sung tri thức cho chức năng hỏi
đáp của hệ thống rút trích.
Nội dung liên quan đến bài tốn này được cơng bố trong các cơng trình [CT1],
[CT2], [CT3], [CT4], [CT5], [CT8], [CT10], [CT12] và [CT13]
Bài toán 2: Xác định chủ đề câu truy vấn dựa trên ontology
Với mục tiêu xây dựng hệ thống rút trích thơng tin trả lời câu truy vấn từ người
dùng, việc phân tích và xác định chủ đề câu truy vấn là một trong các bài toán mà luận
án cần giải quyết. Để giải quyết bài toán này, một số phương pháp đã được đề xuất
như SVM, Naïve Bayes, hay dựa trên ontology. Nhằm tận dụng cấu trúc phân lớp có
sẵn trong ontology, luận án đề xuất mơ hình xác định chủ đề câu truy vấn dựa trên các
từ khóa trong câu và dựa trên ontology. Tương tự như trong bài toán thứ nhất, các
phương pháp của xử lý ngôn ngữ tự nhiên như tách câu, gán nhãn để phân tích câu
truy vấn được sử dụng trong bài tốn này. Bên cạnh đó, luận án cũng sử dụng bộ phân
tích cú pháp để nhận dạng và rút trích mối quan hệ ngữ nghĩa giữa các từ trong câu
truy vấn.
Nội dung liên quan đến bài toán 2 được cơng bố trong cơng trình [CT6].
Bài tốn 3: Rút trích thơng tin trả lời câu truy vấn.
9

Sau khi xác định chủ đề câu truy vấn ở bài toán 2, hệ thống sẽ dựa trên ontology
trên miền Tin học để rút trích thơng tin liên quan đến câu truy vấn từ người dùng.
Những thách thức của bài tốn này là thơng tin rút trích phải có độ chính xác cao phù
hợp với chủ đề câu truy vấn và tốc độ xử lý của hệ thống phải nhanh. Để vượt qua
những thách thức này luận án đã xét đến ngữ nghĩa của câu truy vấn kết hợp với kinh
nghiệm (heuristic) để diễn dịch câu truy vấn sang ngôn ngữ trung gian sau đó mới tiến
hành rút trích thơng tin từ ontology.
Nội dung liên quan đến bài toán này được cơng bố trong các cơng trình [CT7],
[CT9] và [CT11].

1.3 Kết quả đạt được của luận án
Các kết quả đạt được của luận án bao gồm:
 Kết quả thứ nhất: Đề xuất mơ hình xây dựng và làm giàu Computing Domain
Ontology (CDO)
CDO được xây dựng và làm giàu dựa trên ba nguồn tài nguyên khác nhau. Luận án
đã đề xuất ba phương pháp khác nhau bao gồm: (i) phương pháp xây dựng CDO dựa
trên các tập tin văn bản từ tập thư viện điện tử ACM (Document - Based Knowledge
Base Traning); (ii) phương pháp làm giàu CDO dựa trên kho ngữ liệu có sẵn
Wikipedia (Wikipedia - Based Knowledge Base Traning); (iii) phương pháp làm giàu
CDO dựa trên ontology WordNet (WordNet – Based Knowledge Base Training);
So với các ontology hiện tại thì CDO có một số điểm mới là:
 Cấu trúc phân lớp trong CDO. Trong CDO bao gồm bốn lớp trong đó các đối
tượng của lớp này có thể có những quan hệ với các đối tượng của lớp khác như
quan hệ đồng nghĩa, hạ danh, thượng danh. Mỗi lớp sẽ chứa đựng những đối
tượng khác nhau phục vụ cho bài tốn rút trích thơng tin.
 Số lượng chủ đề. CDO bao gồm 170 chủ đề khác nhau thuộc lĩnh vực Tin học
và hơn một triệu phần tử thuộc các lớp và các chủ đề khác nhau.
 Các quan hệ ngữ nghĩa. CDO bao gồm các quan hệ đồng nghĩa, thượng danh
hạ danh (IS-A), PART-OF, INCLUDE, MADE-OF, RESULT-OF, AFFECTS.
 CDO được làm giàu trên ba lớp: Thành phần, Synset và Câu.

10

Nội dung liên quan đến đóng góp này được cơng bố trong các cơng trình [CT1],
[CT2], [CT3], [CT4], [CT8], [CT11], [CT12] và [CT13].
 Kết quả thứ hai: Đề xuất phương pháp xác định chủ đề dựa trên ontology có
xét đến quan hệ ngữ nghĩa giữa các từ trong câu.
Phương pháp xác định chủ đề câu truy vấn bao gồm các bước: phân tích câu truy
vấn từ người dùng; nhận dạng và rút trích các từ khóa cũng như các mối quan hệ ngữ

nghĩa giữa chúng với các từ còn lại trong câu; xác định chủ đề dựa trên CDO.
Khác với một số mơ hình xác định chủ đề bằng các phương pháp học có giám sát
như SVM, HMM hay CRF, luận án đề xuất phương pháp xác định chủ đề dựa trên
ontology. Bởi vì ontology là mạng ngữ nghĩa biểu diễn mối quan hệ giữa các khái
niệm theo cấu trúc phân cấp, do đó việc xác định chủ đề của câu truy vấn thơng qua
ontology sẽ có xác suất tìm thấy cao hơn (theo [11] [12]) và phù hợp với những chủ đề
đã được hệ thống rút trích hỗ trợ, tránh được nhập nhằng. Nội dung liên quan đến đóng
góp này được cơng bố trong các cơng trình [CT6].
 Kết quả thứ 3: Xác định và rút trích các mối quan hệ ngữ nghĩa và cú pháp từ
các tập tin văn bản trong tập thư viện điện tử ACM và từ các nguồn tài nguyên
có sẵn như Wikipedia, WordNet.
Xác định mối quan hệ giữa các đối tượng trong ontology là cơng việc quan
trọng và cần thiết trong q trình xây dựng và làm giàu ontology. Luận án đề xuất hai
phương pháp xác định mối quan hệ giữa các đối tượng là mối quan hệ ngữ nghĩa và
mối quan hệ cú pháp. Các quan hệ ngữ nghĩa và cú pháp ở đây có thể cho phép có
nhiều hơn hai đối tượng tham gia trong quan hệ.
Các quan hệ ngữ nghĩa bao gồm các quan hệ đồng nghĩa, thượng danh, hạ danh
được rút trích từ ontology WordNet. Bên cạnh đó, luận án còn nhận dạng các quan hệ
ngữ nghĩa như hạ danh (IS-A), PART-OF, INCLUDE, MADE-OF, RESULT-OF,
AFFECTS khi tiến hành phân tích câu từ các nguồn ngữ liệu khác nhau. Các quan hệ
này bổ sung tri thức cho những khái niệm trong ontology.
Nội dung liên quan đến đóng góp này được cơng bố trong các cơng trình [CT5],
[CT10].
 Kết quả thứ tư: Đề xuất mơ hình hỏi đáp, rút trích thơng tin dựa trên các từ
khóa, chủ đề câu truy vấn và CDO
11

Mô hình rút trích thông tin văn bản theo chủ đề trong miền chuyên biệt (tin học)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về