Tải bản đầy đủ (.pdf) (107 trang)

KỸ THUẬT NÂNG CAO HIỆU QUẢ TRA CỨU SÁCH TẠI THƯ VIỆN TRƯỜNG CAO ĐẲNG KINH TẾ CÔNG NGHỆ TP.HCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 107 trang )

Header Page 1 of 137.

i

CHUẨN Y CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN


Luận văn tựa đề “KỸ THUẬT NÂNG CAO HIỆU QUẢ TRA CỨU SÁCH TẠI
THƯ VIỆN TRƯỜNG CAO ĐẲNG KINH TẾ CÔNG NGHỆ TP.HCM” được
Phan Văn Út thực hiện và nộp nhằm thỏa một trong các yêu cầu tốt nghiệp Thạc sĩ
ngành Khoa Học Máy Tính.
Ngày bảo vệ luận văn, TP.HCM, ngày 21 tháng 11 năm 2015

Chủ tịch Hội đồng

Người hướng dẫn

PGS.TS. Trần Công Hùng
Học viện công nghệ Bưu chính Viễn Thông
Ngày

PGS.TS. Đỗ Văn Nhơn
Đại học Công Nghệ Thông tin TpHCM

tháng năm 2015

Ngày

Viện Đào Tạo Sau Đại Học

GS. TSKH. Hoàng Văn Kiếm


Ngày tháng nă m 2015

Footer Page 1 of 137.

tháng năm 2015


Header Page 2 of 137.

ii

LÝ LỊCH CÁ NHÂN
-

Họ và tên: Phan Văn Út.

-

Ngày sinh: 10 tháng 08 năm 1985

-

Nơi sinh: Bình Định

-

Tốt nghiệp PTTH tại Trường Trung học phổ thông Tam Quan, Hoài Nhơn,
Bình Định, năm 2004.
Tốt nghiệp Đại học ngành Tin học tại Trường Đại học Văn Lang, Thành phố


-

Hồ Chí Minh.
-

Quá trình công tác:
Nơi công tác

Thời gian
Năm 2009 đến nay

Chức vụ

Trường CĐ Kinh tế - Công nghệ Nhân viên Trung tâm
Tp. HCM
thông tin thư viện

-

Địa chỉ liên lạc: 482/2 Khu phố 3A, Phường Thạnh Lộc, Quận 12, Tp. HCM.

-

Điện thoại: 0902.051.560

-

Email:

Footer Page 2 of 137.



Header Page 3 of 137.

iii

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài “Kỹ thuật nâng cao hiệu quả tra cứu sách tại Thư
viện trường cao đẳng Kinh tế công nghệ TPHCM” là công trình nghiên cứu của
chính tôi.
Ngoài trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi
cam đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được
công bố hoặc sử dụng để nhận bằng cấp ở những nơi khác.
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận
văn này mà không được trích dẫn theo đúng quy định.
Tp. Hồ Chí Minh, ngày 25 tháng 10 năm 2015
Tác giả luận văn

Phan Văn Út

Footer Page 3 of 137.


Header Page 4 of 137.

iv

LỜI CẢM ƠN


Xin cho tôi được gửi lòng biết ơn đến Thầy PGS.TS Đỗ Văn Nhơn – người
đã hướng dẫn luận văn cho tôi. Trong suốt thời gian thực hiện luận văn, Thầy đã tận
tình hướng dẫn và có những lời khuyên, những đóng góp rất quý báu, giúp cho tôi
định hướng và hoàn thành các mục tiêu đề ra.
Tôi xin chân thành tỏ lòng biết ơn đến quý Thầy, Cô đã tận tình giảng dạy
cho tôi trong suốt các năm học qua trong chương trình đào tạo Thạc sĩ khoa học
máy tính, Trường Đại học quốc tế Hồng Bàng.
Cho tôi được gửi lòng biết ơn trân trọng đến những người lãnh đạo cơ quan,
đã tạo điều kiện thuận lợi để tôi công tác và học tập
Xin cảm ơn tất cả bạn bè đã động viên, giúp đỡ và đóng góp cho tôi nhiều ý
kiến quý báu, qua đó giúp chúng tôi hoàn thiện hơn cho đề tài này.
Và cuối cùng, tôi cũng không quên gửi lời cảm ơn đến tác giả của các báo
cáo nghiên cứu khoa học mà tôi đã tham khảo và tìm hiểu cho đề tài.
Luận văn đã hoàn thành với một số kết quả nhất định tuy nhiên vẫn không
tránh khỏi thiếu sót. Kính mong sự cảm thông và đóng góp ý kiến từ quý thầy cô và
các bạn.
Một lần nữa tôi xin chân thành cảm ơn!
Thành phố Hồ Chí Minh, ngày 25 tháng 10 năm 2015
Người thực hiện
Phan Văn Út

Footer Page 4 of 137.


Header Page 5 of 137.

v

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN


..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
Tp. Hồ Chí Minh, ngày

Footer Page 5 of 137.

tháng năm 2015


Header Page 6 of 137.

vi

NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN 1


..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
Tp. Hồ Chí Minh, ngày

Footer Page 6 of 137.

tháng năm 2015


Header Page 7 of 137.

vii

NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN 2
..................................................................................................................................

..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
Tp. Hồ Chí Minh, ngày

Footer Page 7 of 137.

tháng năm 2015


Header Page 8 of 137.

viii

NHẬN XÉT CỦA HỘI ĐỒNG PHẢN BIỆN
..................................................................................................................................
..................................................................................................................................

..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
Tp. Hồ Chí Minh, ngày

Footer Page 8 of 137.

tháng

năm 2015


Header Page 9 of 137.

ix

MỤC LỤC
CHUẨN Y CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN .................................................... i

LÝ LỊCH CÁ NHÂN ................................................................................................... ii
LỜI CAM ĐOAN ....................................................................................................... iii
LỜI CẢM ƠN ............................................................................................................. iv
MỤC LỤC .................................................................................................................. ix
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ...................................................................... xii
DANH MỤC CÁC BẢNG ........................................................................................ xiii
DANH SÁCH CÁC KÝ HIỆU, CHỮ VIẾT TẮT ..................................................... xiv
TÓM TẮT ................................................................................................................. xv
ABSTRACT ............................................................................................................ xvii
MỞ ĐẦU ............................................................................................................... xviii
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI ................................................................. 1
1.1. Giới thiệu tổng quan về vấn đề nghiên cứu ....................................................... 1
1.1.1. Nhu cầu và thực trạng tìm kiếm theo ngữ nghĩa trên kho tài liệu .............. 1
1.1.2. Khảo sát một số giải pháp và ứng dụng tìm kiếm ngữ nghĩa trên kho tài
liệu hiện nay ............................................................................................. 1
1.2. Mục tiêu và phạm vi nghiên cứu ....................................................................... 4
1.3. Phương pháp nghiên cứu ................................................................................... 5
1.4. Ý nghĩa khoa học và thực tiễn của đề tài ........................................................... 6
1.5. Nội dung thực hiện ........................................................................................... 6
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT .......................................................................... 8
2.1. Giới thiệu về tìm kiếm thông tin ....................................................................... 8
2.1.1. Khái niệm ................................................................................................. 8
2.1.2. Cấu trúc hệ thống tìm kiếm thông tin ........................................................ 8
2.1.3. Đánh giá hệ thống tìm kiếm thông tin ....................................................... 9
2.2. Các mô hình và phương pháp tìm kiếm thông tin ............................................ 10
2.2.1. Mô Hình Boolean ................................................................................... 11

Footer Page 9 of 137.



Header Page 10 of 137.

x

2.2.2. Mô hình Boolean cải tiến (Advanced Boolean Model )........................... 12
2.2.3. Mô Hình Không Gian Vector(Vector Space Model) ............................... 14
2.2.4. Latent Semantic Indexing - LSI .............................................................. 15
2.2.5. Áp dụng xử lý ngôn ngữ tự nhiên ........................................................... 17
2.3. Ontology ......................................................................................................... 20
2.3.1. Định nghĩa.............................................................................................. 20
2.3.2. Vai trò của ontology ............................................................................... 21
2.3.3. Các thành phần của ontology .................................................................. 22
2.3.4. Phân loại ontology .................................................................................. 23
2.3.5. Các ứng dụng dựa trên Ontology ............................................................ 26
2.4. Các phương pháp tính độ tương đồng ngữ nghĩa giữa các khái niệm ............... 27
CHƯƠNG 3. MÔ HÌNH VÀ GIẢI PHÁP .............................................................. 37
3.1 Một mô hình ontology cho ngữ nghĩa của tài liệu. .......................................... 37
3.2. Xây dựng đồ thị keyphrase biểu diễn nội dung................................................ 40
3.2.1. Đánh trọng số trong đồ thị keyphrase biểu diễn tài liệu........................... 40
3.2.2. Gán nhãn trong đồ thị keyphrase biểu diễn tài liệu.................................. 42
3.2.3. Trọng số trong đồ thị keyphrase biểu diễn câu truy vấn .......................... 44
3.3. Độ tương đồng ngữ nghĩa giữa hai keyphrase ................................................. 49
3.4. Độ tương đồng ngữ nghĩa giữa hai đồ thị keyphrase ....................................... 55
3.5. Xây dựng mô hình và cách thức lưu trữ, tìm kiếm theo ngữ nghĩa .................. 58
3.5.1. Mô hình Cơ sở dữ liệu DB phục vụ việc lưu trữ ..................................... 58
3.5.2. Tổ chức lưu trữ các tài liệu theo ngữ nghĩa ............................................. 60
CHƯƠNG 4. CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ ..................................... 63
4.1. Thiết kế hệ thống thử nghiệm.......................................................................... 63
4.1.1. Mục tiêu ứng dụng ................................................................................. 63
4.1.2. Yêu cầu và chức năng của hệ thống ........................................................ 63

4.1.3. Cấu trúc của hệ thống ............................................................................. 65
4.1.4. Các thiết kế xử lý.................................................................................... 68
4.2. Kết quả thử nghiệm......................................................................................... 71

Footer Page 10 of 137.


Header Page 11 of 137.

xi

CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ....................................... 73
5.1. Kết quả đạt được của luận văn ........................................................................ 73
5.2. Những hạn chế của đề tài ................................................................................ 73
5.3. Hướng phát triển. ............................................................................................ 74
TÀI LIỆU THAM KHẢO ....................................................................................... 75
PHỤ LỤC................................................................................................................. 77

Footer Page 11 of 137.


Header Page 12 of 137.

xii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Trang
Chương 2. Cơ sở lý thuyết
Hình 2.1. Phân loại ontology theo Guarino ............................................................ 24
Hình 2.2. Phân loại ontology theo Lassila và Mc Guiness...................................... 25

Hình 2.3. Ví dụ mạng phân cấp trong WordNet ..................................................... 31
Chương 3. Mô hình và giải pháp
Hình 3.1. Ví dụ về quan hệ phân cấp của Information Technology ........................ 51
Hình 3.2. Mô hình CSDL ontology........................................................................ 61
Hình 3.3. Tổ chức CSDL của kho tài liệu .............................................................. 62
Chương 4. Cài đặt thử nghiệm và đánh giá
Hình 4.1. Mô hình kiến trúc hệ thống quản lý kho tài nguyên theo ngữ nghĩa ........ 66
Hình 4.2. Biểu đồ phân cấp chức năng................................................................... 68
Hình 4.3. Biểu đồ xử lý chức năng người quản lý tổng quát .................................. 68
Hình 4.4. Biểu đồ xử lý tổ chức quản lý kho tài liệu và bảo quản .......................... 69
Hình 4.5. Biểu đồ xử lý hỗ trợ và quản lý người dùng ........................................... 69
Hình 4.6. Biểu đồ xử lý chức năng người sử dụng tổng quát.................................. 70
Hình 4.7. Biểu đồ xử lý tìm kiếm theo từ khóa ...................................................... 70
Hình 4.8. Biểu đồ xử lý tìm kiếm theo ngữ nghĩa .................................................. 70

Footer Page 12 of 137.


Header Page 13 of 137.

xiii

DANH MỤC CÁC BẢNG
Trang
Chương 3. Mô hình và giải pháp
Bảng 3.1. Quan hệ giữa các keyphrase trong CK_ONTO ...................................... 38
Bảng 3.2. Trọng số được gán cho mỗi quan hệ ...................................................... 53
Chương 4. Cài đặt thử nghiệm và đánh giá
Bảng 5.1. Thống kê kết quả tìm kiếm trên kho thử nghiệm tài liệu ........................ 71


Footer Page 13 of 137.


Header Page 14 of 137.

xiv

DANH SÁCH CÁC KÝ HIỆU, CHỮ VIẾT TẮT
CNTT

: Công nghệ thông tin

LSI

: Latent Semantic Indexing

CK_ONTO : Classified Keyphrase based Ontology
CSDL

: Cơ sở dữ liệu

HĐH

: Hệ điều hành

IR

: Information Retrieval

KĐTNN


: Keyphrase đặc trưng ngữ nghĩa

Footer Page 14 of 137.


Header Page 15 of 137.

xv

TÓM TẮT
Với sự phát triển của công nghệ thông tin như hiện nay thì điều kiện học tập
của con người ngày càng được nâng cao. Chính vì vậy việc tổ chức một kho tài liệu
học tập về CNTT với chức năng tìm kiếm liên quan đến thông tin hay nội dung tài
liệu là một nhu cầu cấp thiết trong việc giảng dạy, học tập và nghiên cứu. Như vậy
làm thế nào để việc tìm kiếm của người sử dụng có hiệu quả hơn. Để giải quyết các
vấn đề trên luận văn đã xây dựng một hệ thống cho phép tra cứu, tìm kiếm tài liệu
theo nhiều chức năng không chỉ hỗ trợ tìm kiếm dựa trên từ khóa, tìm kiếm theo hệ
thống thư mục mà còn hỗ trợ tìm kiếm dựa trên tri thức của lĩnh vực hay theo ngữ
nghĩa, trả về tập tài liệu kết quả đúng nhất với ý định của người dùng.
Nghiên cứu tìm hiểu các phương pháp, kỹ thuật biểu diễn, xử lý ngữ nghĩa của
tài liệu, đặc biệt là hướng tiếp cận dựa trên Ontology cho việc quản lý kho tài
nguyên học tập về lĩnh vực CNTT theo ngữ nghĩa, bao gồm các mô hình, vấn đề,
thuật giải, kỹ thuật, qui trình để tổ chức một kho tài liệu quản lý được các thông tin
ngữ nghĩa liên quan đến nội dung của tài liệu cũng như hỗ trợ biểu diễn và xử lý
ngữ nghĩa trong tìm kiếm.
Những phương pháp và kỹ thuật liên quan đến luận văn bao gồm.
 Phương pháp biểu diễn và xử lý tri thức, biểu diễn và xử lý ngữ nghĩa các
tài liệu
 Phương pháp truy hồi thông tin và các chiến lược tìm kiếm.

 Phương pháp đánh giá độ tương đồng ngữ nghĩa giữa hai keyphrase và độ
tương đồng ngữ nghĩa giữa hai đồ thị keyphrase.
 Đặc biệt là các phương pháp và kỹ thuật dựa trên các ontology sẽ được
vận dụng một cách linh hoạt có sự phát triển để tạo ra các mô hình, các
ngôn ngữ đặc tả, kỹ thuật tổ chức kho tài liệu có ngữ nghĩa phục vụ việc
xử lý lưu trữ và tìm kiếm theo ngữ nghĩa một cách hiệu quả hơn.
Luận văn đã đưa ra được nhiều cải tiến có hiệu quả trong kỹ thuật biểu

Footer Page 15 of 137.


Header Page 16 of 137.

xvi

diễn ngữ nghĩa và xử lý tính toán độ tương đồng ngữ nghĩa giữa tài liệu và câu truy
vấn. Những cải tiến được đề ra trong luận văn đã trực tiếp khắc phục các hạn chế
trong kỹ thuật tìm kiếm ngữ nghĩa, giúp tăng cường đáng kể hiệu quả tìm kiếm
theo ngữ nghĩa.
Luận văn đã đề xuất một phương pháp xử lý biểu diễn câu truy vấn thành đồ
thị keyphrase có trọng số giúp xác định chính xác hơn yêu cầu tìm kiếm của
người dùng. Điều này tăng cường đáng kể khả năng xử lý câu truy vấn của hệ
thống, cải thiện tính hiệu quả của quá trình tìm kiếm. Bên cạnh đó, các trọng số cho
đồ thị keyphrase biểu diễn tài liệu cũng đã được luận văn điều chỉnh đáng kể dựa
trên các kết quả khảo sát từ thực tiễn. Các công thức tính trọng số chính xác hơn
không chỉ góp phần tăng độ chính xác cho bài toán tìm kiếm ngữ nghĩa mà việc sắp
xếp các kết quả tìm kiếm cũng hiệu quả và gần với yêu cầu của người dùng hơn.

Footer Page 16 of 137.



Header Page 17 of 137.

xvii

ABSTRACT
Research to find out the methods, techniques performed, semantic processing
of documents, particularly Ontology based approach for the management of
learning resources repositories of semantic IT, including the patterns, problems,
algorithms, techniques, procedures for organizing a document management
repository for information related to the semantic content of the document and
supports the performance and handling of semantic search Search.
These methods and techniques related to the thesis included.
 Method of performing and processing knowledge, representation and
semantic processing of documents
 Information Retrieval Methods and search strategies.
 Evaluation method of semantic similarity between two keyphrase and
semantic similarity between two graphs keyphrase.
 Methods and techniques based on ontologies will be applied in a flexible
way with the development to create the model, the language specification,
technical organization document repository for semantic incident handling
storage and a semantic search more effectively.
Thesis has launched many innovative techniques effectively in semantic
representation and processing calculate semantic similarity between documents and
queries. These improvements were proposed in direct essays overcome technical
limitations in semantic search, significantly enhances efficiency semantic search.
Thesis has proposed a method of processing a query performing a weighted
graph keyphrase help determine more precise search requests of users. This
significantly enhances the ability to handle the query of the system, improve the
effectiveness of the search process. In addition, the weighting of keyphrase graph

represents the document has been significantly adjusted thesis based on survey
results from practice. The formula for weighting more accurately not only
contributes to increased accuracy for semantic search problem that the arrangement
of search results is also effective and close to the requirements of users.

Footer Page 17 of 137.


Header Page 18 of 137.

xviii

MỞ ĐẦU
Ngày nay, sự phát triển của công nghệ thông tin như hiện nay thì điều kiện
học tập của con người ngày càng được nâng cao. Chính vì vậy việc tổ chức một kho
tài liệu học tập về CNTT với chức năng tìm kiếm liên quan đến thông tin hay nội
dung tài liệu là một nhu cầu cấp thiết trong việc giảng dạy, học tập và nghiên cứu.
Một số công cụ tìm kiếm nổi tiếng hiện nay như Google hay Yahoo thực chất chỉ là
hệ thống tìm kiếm tài liệu, nghĩa là tìm xem trong số các tài liệu trong cơ sở dữ liệu
lưu trữ, tài liệu nào có nội dung phù hợp, liên quan và thỏa mãn đến nhu cầu thông
tin của người dùng, sau đó người dùng sẽ tìm kiếm thông tin họ cần trong các tài
liệu liên quan đó. Các hệ thống tìm kiếm này phần lớn vẫn dựa trên từ khóa và mức
độ phổ biến của tài liệu.Một danh sách các từ khóa là dạng biểu diễn sơ lược nhất
của nội dung, nghĩa là mỗi tài liệu được biểu diễn bởi một tập từ hay cụm từ được
rút trích từ chính nội dung của tài liệu và do đó, cách biểu diễn này mang mức độ
thông tin còn thấp. Do đó hệ thống tìm kiếm này có kết quả trả về không phải lúc
nào cũng thỏa mãn yêu cầu tìm kiếm của người sử dụng, như là độ chính xác không
cao khi kết quả trả về quá nhiều mà tỷ lệ số tài liệu hữu ích trên tổng số tài liệu trả
về thấp, hoặc có thể không tìm thấy được những tài liệu liên quan khi chúng được
mô tả với những từ khóa khác đồng nghĩa hoặc gần nghĩa với từ khóa mà người

dùng tìm kiếm (độ bao phủ không cao) gây ra không ít khó khăn cho người sử dụng
trong việc tìm kiếm chính xác thông tin mình cần.
Vấn đề quan trọng nhất đối với hệ thống là tổ chức lưu trữ và tìm kiếm thông
tin. Đối với việc lưu trữ tài liệu hệ thống sử dụng một số tiêu chuẩn mô tả tài liệu
như : Dublin Core, LOM, IMS,… nhưng các chuẩn này chỉ đơn thuần tạo siêu dữ
liệu với các trường mô tả đơn giản như tiêu đề, bản quyền, tác giả, …và tập từ vựng
riêng biệt còn hạn chế,do đó vẫn chưa đủ khả năng diễn giải, kết hợp tài nguyên
theo ngữ nghĩa hay nội dung. Giải pháp quản lý tài nguyên còn chủ yếu ở mức xử lý
dữ liệu và vì thế các tính năng của hệ thống còn nhiều hạn chế trong việc áp dụng

Footer Page 18 of 137.


Header Page 19 of 137.

xix

các yêu cầu sử dụng ngày càng cao, đặc biệt là việc tổ chức và xử lý tích hợp dữ
liệu, thông tin và tri thức.
Như vậy làm thế nào để việc tìm kiếm của người sử dụng có hiệu quả hơn.
Để giải quyết các vấn đề trên cần phải xây dựng một hệ thống cho phép tra cứu, tìm
kiếm tài liệu theo nhiều chức năng không chỉ hỗ trợ tìm kiếm dựa trên từ khóa, tìm
kiếm theo hệ thống thư mục mà còn hỗ trợ tìm kiếm dựa trên tri thức của lĩnh vực
hay theo ngữ nghĩa, trả về tập tài liệu kết quả đúng nhất với ý định của người dùng.
Ứng dụng đã được cài đặt, thử nghiệm tại trường cao đẳng Kinh tế công
nghệ Thành phố Hồ Chí Minh. Kết quả thực nghiệm bước đầu cho thấy giải pháp
đã đề xuất là khả quan và có khả năng ứng dụng tốt.
Nội dung của luận văn được trình bày trong 5 chương, bao gồm:
Chương 1: Giới thiệu và khảo sát các hệ thống tìm kiếm thông tin, phân tích
đánh giá thực trạng, trình bày mục tiêu, giới hạn của đề tài, ý nghĩa lý luận và thực

tiễn, phương pháp nghiên cứu, hướng tiếp cận giải quyết vấn đề và nội dung thực
hiện của đề tài.
Chương 2: Trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề truy hồi
thông tin bao gồm định nghĩa, mô tả cấu trúc và phân loại các hệ thống tìm kiếm
thông tin, các phương pháp và mô hình tìm kiếm, vấn đề biểu diễn ngữ nghĩa của tài
liệu, các lý thuyết nền tảng về Ontology cùng với các phương pháp và kỹ thuật tính
khoảng cách ngữ nghĩa giữa các khái niệm.
Chương 3: Mô hình và giải pháp: Chương này đề xuất các mô hình gồm một
mô hình ontology mô tả tri thức về một lĩnh vực đặc biệt trong đó sử dụng
keyphrase là thành phần chính để hình thành các khái niệm của ontology; xây dựng
đồ thị keyphrase biểu diễn nội dung, phương pháp đánh giá độ tương đồng ngữ
nghĩa giữa hai keyphrase và độ tương đồng ngữ nghĩa giữa hai đồ thị keyphrase.
Chương 4: Cài đặt thử nghiệm: Xây dựng ứng dụng thử nghiệm quản lý kho
tài nguyên học tập về lĩnh vực CNTT bao gồm các tác vụ chính là tổ chức lưu trữ,

Footer Page 19 of 137.


Header Page 20 of 137.

xx

quản lý và tìm kiếm. Hệ thống cho phép tra cứu, tìm kiếm tài liệu trong kho lưu trữ
theo nhiều chức năng như dựa trên từ khóa và trên CSDL lưu trữ, tìm kiếm dựa
trên tri thức của lĩnh vực hay theo ngữ nghĩa. Tiến hành thực nghiệm, so sánh và
đánh giá kết quả
Chương 5: Kết luận và hướng phát triển: Tổng kết những kết quả đạt được của luận
văn, những hạn chế và hướng phát triển của đề tài trong tương lai.

Footer Page 20 of 137.



Header Page 21 of 137.

1

CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI
1.1. Giới thiệu tổng quan về vấn đề nghiên cứu
1.1.1. Nhu cầu và thực trạng tìm kiếm theo ngữ nghĩa trên kho tài liệu

Hiện nay, việc tổ chức một kho tài liệu học tập về một chuyên ngành, một
lĩnh vực đặc biệt như CNTT với chức năng tìm kiếm liên quan đến thông tin tri
thức hay nội dung tài liệu là một nhu cầu cấp thiết trong thực tiễn của việc giảng
dạy, học tập và nghiên cứu. Đã có một số công trình liên quan đến vấn đề tổ chức
quản lý và xử lý tìm kiếm theo nội dung. Tuy nhiên những kết quả đạt được vẫn
còn hạn chế và chưa đủ để đáp ứng cho nhu cầu khai thác thông tin của người sử
dụng.
Các giải pháp cũng như công nghệ phổ biến hiện nay tuy có nhiều hỗ trợ cho
ứng dụng quản lý tài nguyên học tập, nhưng còn chủ yếu ở mức xử lý dữ liệu. Do
đó vẫn chưa đủ khả năng diễn giải, kết hợp tài nguyên theo ngữ nghĩa nội dung hay
tri thức liên quan. Vì thế các tính năng của hệ thống chưa đủ đáp ứng các yêu cầu
sử dụng ngày càng cao, đặc biệt là việc tổ chức và xử lý tích hợp dữ liệu, thông tin
và tri thức.
Trong lĩnh vực của khoa học máy tính, hiện đang có một sự chuyển hướng
dần đến những thứ mà có thể gọi là sự hướng tri thức hoặc xử lý ngữ nghĩa. Theo
đó, những hệ thống tìm kiếm dựa trên khái niệm được nghiên cứu phát triển nhằm
thay thế cho những hệ thống truyền thống vốn đã bộc lộ nhiều khuyết điểm lớn.
1.1.2. Khảo sát một số giải pháp và ứng dụng tìm kiếm ngữ nghĩa trên kho tài

liệu hiện nay

1.1.2.1.

Về một số động cơ tìm kiếm thông dụng hiện nay

Đối với nhu cầu tìm kiếm thông tin nói chung, hầu hết đều nghĩ đến cái
tênGoogle. Tuy nhiên, thị trường các công cụ tìm kiếm thông tin trên máy tính vẫn
đang ngày càng trở nên đông đảo và gia tăng không ngừng. Trên lĩnh vực tìm kiếm

Footer Page 21 of 137.


Header Page 22 of 137.

2

trên internet, người khổng lồ Google bị bám đuổi và cạnh tranh gay gắt từ các dịch
vụ như Yahoo search (yahoo.com), Microsoft Bing (bing.com), Ask (ask.com),
v.v.... Các động cơ tìm kiếm này đã nổi tiếng trên toàn thế giới, ngôn ngữ được hỗ
trợ chính là tiếng Anh nhưng cũng sử dụng được với các ngôn ngữ khác. Ngoài ra,
với tham vọng là xây dựng các động cơ tìm kiếm tận dụng những lợi thế địa
phương của quốc gia về ngôn ngữ và văn hóa, các công ty quốc gia cũng xây dựng
các động cơ tìm kiếm riêng cho mình như Baidu (baidu.com) của Trung Quốc,
Heeya (heeya.com) của Hàn Quốc hay Yandex (yandex.com) của Nga, v.v...
Nếu bàn về tìm kiếm theo từ khóa, Google đã gần như không có đối thủ. Tuy
nhiên, nếu người dùng không biết rõ về từ khóa họ cần cung cấp cho máy tìm kiếm,
họ cần máy tìm kiếm “hiểu” ý của họ thông qua ngữ nghĩa hàm ý trong câu truy
vấn. Đây là điểm mà một số đối thủ của Google như Lexxe (lexxe.com), Factbites
(factbites.com), Swoogle (swoogle.umbc.edu), Kngine (kngine.com), DuckDuckGo
(duckduckgo.com), Wolfram Alpha (wolframalpha.com) nhắm vào. Với khả năng
đoán ý, hiểu nghĩa của từ hay cụm từ để cho ra kết quả gần nhất với ý định tìm

kiếm của người dùng, các động cơ tìm kiếm ngữ nghĩa kể trên có khả năng sẽ tạo
sự đột phá cho thị trường tìm kiếm hiện nay.
Có thể xem khả năng tìm kiếm ngữ nghĩa như là một cách tốt hơn để cung
cấp cho người dùng thông tin họ cần, đảm bảo kết quả thu được có liên quan đến
thông tin cần tìm hơn dựa trên khả năng hiểu được nghĩa của từ hoặc cụm từ đang
được tìm kiếm. Với các công nghệ ngữ nghĩa, máy tính sẽ hiểu rõ hơn những mối
quan hệ giữa nhiều thông tin khác nhau hơn là chỉ chuyển tiếp các liên kết dựa trên
từ khóa tìm kiếm.
1.1.2.2.

Các hệ thống quản lý tài liệu

Ngoài việc tìm kiếm thông tin trên mạng Internet, người dùng còn một
nguồn tài liệu khác đó là các bộ sưu tập sẵn có. Tuy khối lượng thông tin trong một
bộ sưu tập sẵn có chắc chắn sẽ có giới hạn nhưng việc này vô tình có thể giúp người
dùng tránh được tình trạng quá tải thông tin. Đồng thời các kho tài liệu sẵn có

Footer Page 22 of 137.


Header Page 23 of 137.

3

thường tập trung nhiều tài liệu đặc chủng và chuyên ngành không dễ có thể tìm thấy
trên Internet. Hiện nay người dùng thường có một số lựa chọn sau khi tìm nguồn
thông tin từ các bộ sưu tập sẵn có:
Các thư viện điện tử: Thông thường, đây là địa điểm đầu tiên cần nghĩ đến
khi tìm kiếm tài liệu tham khảo khoa học. Nhiều thư viện lớn hiện nay đã tin học
hoá thư mục để có thể tra cứu qua các cổng thông tin trực tuyến với nhiều chức

năng tìm kiếm theo tên tác giả, tựa tài liệu, từ khoá, chủ đề, ...Các hệ thống thư viện
thường có tài liệu được tổ chức quy cũ, chặt chẽ và tính đặc thù chuyên môn cao.
Các cơ sở dữ liệu tài liệu: Các cơ sở dữ liệu thông tin khoa học kĩ thuật
thường được các công ty, tổ chức lớn xây dựng, bằng cách tập hợp thông tin tóm tắt
từ rất nhiều các tạp chí chuyên ngành khác nhau, sắp xếp và tổ chức sao cho việc
tìm kiếm thông tin được dễ dàng hơn.
Vấn đề quan trọng nhất đối với các hệ thống này là tổ chức lưu trữ và tìm
kiếm thông tin. Đối với việc lưu trữ tài liệu, các hệ thống sử dụng các chuẩn siêu dữ
liệu như MARC, LOM, IMS, Dublin Core, ... để hỗ trợ việc sắp xếp và tìm kiếm.
Tuy nhiên các chuẩn này chỉ đơn thuần tạo siêu dữ liệu với các trường mô tả đơn
giản như tiêu đề, bản quyền, tác giả, ... và tập từ vựng riêng biệt còn hạn chế, do đó
vẫn chưa đủ khả năng biểu diễn các tài nguyên theo ngữ nghĩa hay nội dung. Đối
với vấn đề tìm kiếm, việc tìm kiếm chủ yếu vẫn dựa vào từ khóa, độ chính xác và
độ bao phủ của hệ thống không cao. Giải pháp quản lý tài nguyên còn chủ yếu ở
mức xử lý dữ liệu và vì thế các tính năng của hệ thống còn nhiều hạn chế trong việc
áp dụng các yêu cầu sử dụng ngày càng cao, đặc biệt là việc tổ chức và xử lý tích
hợp dữ liệu, thông tin và tri thức. Chính nhược điểm này đòi hỏi hướng tiếp cận
theo ngữ nghĩa mà theo đó các hệ thống phải được xây dựng hướng tới việc quản lý
tri thức kết hợp với quản lý và xử lý các thông tin ngữ nghĩa liên quan đến nội dung
của tài liệu.
Trong những năm gần đây, kỹ thuật tìm kiếm tài liệu có nhiều thay đổi và
cải tiến, xu hướng tìm kiếm hiện nay đang dịch chuyển từ mang tính chất cú pháp

Footer Page 23 of 137.


Header Page 24 of 137.

4


(syntax), cấu trúc (structure), thành mang tính chất ngữ nghĩa (semantic), từ tìm
kiếm trên từ khóa (keyword) trở thành tìm kiếm trên khái niệm (concept). Các
phương pháp truy hồi thông tin dựa trên khái niệm và ngữ nghĩa nhắm đến việc mô
phỏng một ở một mức độ giới hạn khả năng hiểu về ý nghĩa của từ, cụm từ hay văn
bản mà người dùng cung cấp tương ứng với những gì người dùng nghĩ. Trong đó
nổi bật là hướng tiếp cận sử dụng ontology về tri thức của từng lĩnh vực để biểu
diễn, xử lý nội dung và ý nghĩa của các tài liệu.
Có thể nói ontology đang dần trở thành một công cụ phổ biến trong giới
nghiên cứu khi giải quyết các vấn đề đòi hỏi việc biểu diễn tri thức miền. Ontology
được sử dụng để tăng cường khả năng của hệ thống tìm kiếm theo ngữ nghĩa thông
qua việc biểu diễn và lưu trữ tri thức trong miền lĩnh vực, từ đó tạo ra nền tảng
trong việc biểu diễn nội dung và lập chỉ mục cho tài liệu, cho phép tìm kiếm tài liệu
chính xác hơn dựa trên nội dung.
Bênh cạnh sự phát triển của ontology, nhiều mô hình biểu diễn hiện đại cũng
được áp dụng ngày càng nhiều trong việc biểu diễn tài liệu. Các tài liệu này không
chỉ dựa trên từ vực mà dựa trên cả quan hệ ngữ nghĩa giữa các từ như mô hình
mạng ngữ nghĩa (semantic net), đồ thị khái niệm (conceptual graph), đồ thị
keyphrase, ... Thông qua các mô hình biểu diễn đó, việc so khớp giữa tài liệu và
yêu cầu tìm kiếm có thể được thực hiện dựa trên nhiều thông tin về ngữ nghĩa hơn.
Các kỹ thuật đánh giá độ tương đồng ngữ nghĩa hay còn gọi là so khớp ngữ nghĩa
(semantic matching) đang tỏ ra rất hứa hẹn trong việc thay đổi một cách nền tảng
kỹ thuật truy hồi thông tin với độ chính xác và độ bao phủ cao hơn.
1.2. Mục tiêu và phạm vi nghiên cứu
Trên cơ sở nghiên cứu tìm hiểu các phương pháp, kỹ thuật biểu diễn, xử lý ngữ
nghĩa của tài liệu, đặc biệt là hướng tiếp cận dựa trên Ontology cho việc quản lý kho
tài nguyên học tập về lĩnh vực CNTT theo ngữ nghĩa, bao gồm các mô hình, vấn đề,
thuật giải, kỹ thuật, qui trình để tổ chức một kho tài liệu quản lý được các thông tin
ngữ nghĩa liên quan đến nội dung của tài liệu cũng như hỗ trợ biểu diễn và xử lý ngữ

Footer Page 24 of 137.



Header Page 25 of 137.

5

nghĩa trong tìm kiếm.
Ứng dụng các giải pháp được nghiên cứu, hướng tới việc xây dựng một hệ
thống quản lý kho tài nguyên học tập về lĩnh vực CNTT trong phạm vi thư viện của
Trường cao đẳng Kinh tế công nghệ TpHCM.
Luận văn đặt mục tiêu đưa ra được một số cải tiến trong mô hình biểu diễn và
nhất là các phương pháp kỹ thụật giải quyết các vấn đề của bài toán đánh giá độ
tương đồng ngữ nghĩa của tài liệu. Các đề xuất sẽ nhắm đến việc cải thiện hiệu quả
khâu tìm kiếm theo ngữ nghĩa trên cả hai bình diện cải tiến sự hiệu quả (thông qua
hai độ đo precision và recall) lẫn cải thiện thời gian thực thi.
Quá trình thực hiện luận văn sẽ bao gồm việc thu thập dữ liệu, tổ chức, quản lý
thử nghiệm và xây dựng một ứng dụng thử nghiệm dưới dạng một hệ thống truy hồi
tài liệu theo ngữ nghĩa trên nền web. Ứng dụng thử nghiệm này hướng đến mục đích
phục vụ cho việc tìm kiếm tài liệu học tập của sinh viên tại thư viện trường cao đẳng
Kinh tế công nghệ TpHCM.
1.3. Phương pháp nghiên cứu
Xuất phát từ việc phân tích các phương pháp và kỹ thuật đã có, đặc biệt là kỹ
thuật được đề xuất trong [1], luận văn cố gắng đưa ra những đóng góp phát triển và
đề xuất mới về mặt kỹ thuật với khả năng xử lý chính xác và hiệu quả hơn.
Những phương pháp và kỹ thuật liên quan đến luận văn bao gồm các phương
pháp và kỹ thuật của trí tuệ nhân tạo có thể được điểm qua như:
 Phương pháp biểu diễn và xử lý tri thức, biểu diễn và xử lý ngữ nghĩa các
tài liệu
 Phương pháp truy hồi thông tin và các chiến lược tìm kiếm.
 Các phương pháp tính khoảng cách ngữ nghĩa giữa các khái niệm và

tương quan ngữ nghĩa giữa các đối tượng được so khớp.
 Đặc biệt là các phương pháp và kỹ thuật dựa trên các ontology sẽ được

Footer Page 25 of 137.


×