Tải bản đầy đủ (.pdf) (61 trang)

XÂY DỰNG hệ THỐNG hỗ TRỢ tìm KIẾM tài LIỆU THEO NGỮ NGHĨA CHO THƯ VIỆN TRƯỜNG cđ KTKT TP HCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.56 MB, 61 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


LÊ THỊ THU THẢO

XÂY DỰNG HỆ THỐNG HỖ TRỢ TÌM KIẾM
TÀI LIỆU THEO NGỮ NGHĨA CHO THƯ VIỆN
TRƯỜNG CĐ KTKT TP.HCM

KHÓA LUẬN CAO HỌC
NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. ĐỖ VĂN NHƠN

TP HỒ CHÍ MINH – NĂM 2016


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết
quả trình bày trong khóa luận này là trung thực. Những tư liệu được sử dụng trong
khóa luận có nguồn gốc và trích dẫn rõ ràng, đầy đủ.
Người thực hiện
Lê Thị Thu Thảo


MỤC LỤC
Trang
Mục lục ............................................................................................................................. 1


Danh mục các bảng ......................................................................................................... 4
Danh mục các hình vẽ ...................................................................................................... 5
Danh mục các ký hiệu, chữ viết tắt ................................................................................. 6
Mở đầu ............................................................................................................................. 7
CHƯƠNG 1. TỔNG QUAN ........................................................................................ 8
1.1. Giới thiệu tổng quan về vấn đề nghiên cứu ................................................... 8
1.1.1. Thực trạng và nhu cầu xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo
ngữ nghĩa cho thư viện Trường CĐ KTKT TP.HCM ............................... 8
1.1.2. Khảo sát một số giải pháp và ứng dụng tìm kiếm tài liệu trong thư viện
hiện nay .............................................................................................. 13
1.2. Mục tiêu nghiên cứu ......................................................................................... 15
1.3. Đối tượng nghiên cứu...................................................................................... 15
1.4. Phạm vi nghiên cứu ........................................................................................ 16
1.5. Ý nghĩa thực tiễn của đề tài ............................................................................. 16
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ......................................................................... 17
2.1 Hệ thống tìm kiếm thông tin ......................................................................... 17
2.1.1. Cấu trúc của một hệ thống tìm kiếm thông tin ....................................17
2.1.2. Phân loại hệ thống tìm kiếm thông tin ............................................... 18
2.1.2.1. Hệ thống tìm kiếm thông tin dựa trên từ khóa............................... 18
2.1.2.2. Hệ thống tìm kiếm thông tin dựa trên khái niệm hay ngữ nghĩa ... 18
2.1.3. Các phương pháp tìm kiếm thông tin ................................................. 19
2.1.3.1. Tìm kiếm thông tin theo hướng tiếp cận thống kê......................... 19
2.1.3.2. Tìm kiếm thông tin theo hướng ngữ nghĩa .................................... 20
2.1.4. Đánh giá một hệ thống tìm kiếm thông tin ......................................... 21
2.2 Ontology .......................................................................................................... 22
2.2.1. Khái niệm Ontology ........................................................................... 22

1



2.2.2. Định nghĩa Ontology .......................................................................... 22
2.2.3. Thành phần của một Ontology ........................................................... 23
2.2.4. Phân loại ontology .............................................................................. 24
2.2.5. Vai trò của Ontology .......................................................................... 24
2.2.6. Các hướng tiếp cận xây dựng ontology .............................................. 25
2.2.7. Phương pháp xây dựng Ontology ....................................................... 26
2.2.7.1. Xây dựng Ontology ....................................................................... 26
2.2.7.2. Ngôn ngữ xây dựng Ontology ........................................................ 26
CHƯƠNG 3. MÔ HÌNH VÀ CÔNG CỤ PHÁT TRIỂN ..................................... 28
3.1. Mô hình Ontology cho ngữ nghĩa của các tài liệu .................................. 28
3.1.1. Tập hợp K các keyphrase......................................................................... 28
3.1.2. Tập hợp C các lớp keyphrase .................................................................. 28
3.1.3. Tập hợp RKC các quan hệ giữa keyphrase và lớp ................................ 29
3.1.4. Tập hợp RCC các quan hệ giữa các lớp................................................ 29
3.1.5. Tập hợp RKK các quan hệ giữa các keyphrase .................................... 30
3.2. Công cụ xây dựng ontology .................................................................... 31
3.3. Thư viện Lucene ....................................................................................... 32
3.4. Công cụ tách từ tiếng Việt vnTokenizer .................................................. 35
3.5. Công cụ gán nhãn từ loại tiếng Việt vnTagger ........................................ 37
CHƯƠNG 4. CÀI ĐẶT ỨNG DỤNG ...................................................................... 38
4.1. Thiết kế hệ thống ............................................................................................ 38
4.1.1. Mục tiêu ứng dụng..................................................................................... 38
4.1.2. Yêu cầu và chức năng của hệ thống ........................................................ 38
4.1.2.1. Yêu cầu đối với hệ thống ................................................................38
4.1.2.2. Chức năng của hệ thống .................................................................38
4.1.3. Cấu trúc hệ thống ....................................................................................... 39
4.2. Cài đặt ứng dụng............................................................................................. 40
4.2.1. Môi trường cài đặt ................................................................................ 40
4.2.1.1. Phần cứng ............................................................................................... 40
4.2.1.2. Phần mềm .............................................................................................. 40

4.2.2. Xây dựng Ontology .............................................................................. 40
2


4.2.2.1. Thiết kế lớp .................................................................................... 41
4.2.2.2. Thuộc tính lớp ................................................................................ 43
4.2.2.3. Các mối quan hệ ............................................................................. 43
4.2.2.4. Xây dựng các thực thể .................................................................... 48
4.2.3. Xây dựng thành phần tạo chỉ mục ....................................................... 48
4.2.4. Xây dựng thành phần truy vấn ............................................................. 48
4.3. Giao diện chương trình ............................................................................. 52
4.3.1. Màn hình tìm kiếm chính xác ...................................................................... 52
4.3.2. Màn hình tìm kiếm theo ngữ nghĩa ............................................................. 52
4.4. Kết quả thử nghiệm .................................................................................. 54
CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ....................................... 56
5.1. Kết quả đạt được ............................................................................................. 56
5.2. Hạn chế ......................................................................................................56
5.3. Hướng phát triển ............................................................................................. 57
TÀI LIỆU THAM KHẢO ............................................................................................ 58

3


DANH MỤC CÁC BẢNG
1. Bảng 3.1. Ví dụ quan hệ “thuộc về”
2. Bảng 3.2. Mối quan hệ giữa các lớp trong sơ đồ phân cấp
3. Bảng 3.3. Các loại quan hệ giữa các keyphrase
4. Bảng 3.4. Bảng các thẻ từ loại
5. Bảng 4.1. Bảng mô tả các lớp
6. Bảng 4.2. Một số tính năng của các đối tượng, biến sử dụng trong chương

trình
7. Bảng 4.3. Thống kê kết quả tìm kiếm thử nghiệm

4


DANH MỤC CÁC HÌNH VẼ
1. Hình 1.1. Trang web tra cứu tài liệu của thư viện trường CĐ KTKT TPHCM
2. Hình 1.2. Phiếu đăng ký mượn sách dành cho học sinh sinh viên
3. Hình 1.3. Phiếu đăng ký mượn sách dành cho cán bộ, giáo viên, nhân viên
4. Hình 1.4. Màn hình kết quả tra cứu sách
5. Hình 2.1. Cấu trúc của một hệ thống tìm kiếm thông tin
6. Hình 2.2. Các phương pháp tìm kiếm thông tin
7. Hình 3.1. Ví dụ sơ đồ phân cấp
8. Hình 3.2. Các thành phần cơ bản của một ứng dụng tìm kiếm
9. Hình 3.3. Tiến trình lập chỉ mục
10. Hình 3.4. Qui trình chuyển đổi nội dung tìm kiếm
11. Hình 3.5. Tiến trình phân tích trong quá trình lập chỉ mục
12. Hình 3.6. Quy trình tách từ
13. Hình 4.1. Cấu trúc tổng quát của hệ thống
14. Hình 4.2. Minh họa các lớp trong Ontology
15. Hình 4.3. Minh họa các quan hệ phân cấp trên lớp
16. Hình 4.4. Quy trình xử lý hệ thống tìm kiếm
17. Hình 4.5. Màn hình tìm kiếm chính xác
18. Hình 4.6. Màn hình tìm kiếm theo ngữ nghĩa
19. Hình 4.7. Màn hình tìm kiếm theo ngữ nghĩa dùng toán tử AND
20. Hình 4.8. Màn hình tìm kiếm theo ngữ nghĩa dùng toán tử OR

5



DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
CĐ KTKT: Cao đẳng kinh tế kỹ thuật
CNTT : Công nghệ thông tin
CSDL : Cơ sở dữ liệu
IR : Information Retrieval

6


MỞ ĐẦU

Ngày nay, cùng với sự vận động và phát triển không ngừng của ngành khoa học
máy tính, việc đưa tri thức con người vào máy tính là một vấn đề đang được rất nhiều
người quan tâm. Ngày càng có nhiều hệ thống được xây dựng để hỗ trợ hoặc ngay cả
thay thế con người trong nhiều lĩnh vực khác nhau như giáo dục, y học, toán học, công
nghệ, hóa học, địa chất, khoa học máy tính, tài chính, kinh doanh, quốc phòng.....
Xuất phát từ mục tiêu áp dụng công nghệ tri thức vào thực tiễn, kết hợp với nhu
cầu cần cải thiện hệ thống tra cứu thông tin cho thư viện Trường Cao đẳng KTKT
TP.HCM, tôi đã chọn đề tài “Xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo ngữ nghĩa
cho thư viện Trường Cao đẳng KTKT TP.HCM” để làm khóa luận tốt nghiệp Thạc sĩ
của mình.
Xin chân thành cảm ơn quý thầy cô trường Đại học Công Nghệ Thông Tin đã
tận tình dạy bảo và cung cấp cho tôi nhiều kiến thức bổ ích trong suốt thời gian học
tập tại trường.
Đặc biệt, tôi xin chân thành cảm ơn Phó giáo sư tiến sĩ Đỗ Văn Nhơn, người
thầy đã tận tâm, nhiệt tình hướng dẫn và chỉ bảo cho tôi trong suốt quá trình thực hiện
đề tài.
Xin cảm ơn bạn bè, đồng nghiệp đã động viên, giúp đỡ và đóng góp nhiều ý kiến
quý báu, giúp tôi hoàn thiện hơn đề tài này.

Và cuối cùng, xin cảm ơn các tác giả của các báo cáo nghiên cứu khoa học mà
tôi đã tham khảo và tìm hiểu để thực hiện đề tài.
Khóa luận đã hoàn thành với một số kết quả nhất định tuy nhiên vẫn không tránh
khỏi nhiều thiếu sót. Kính mong sự đóng góp ý kiến từ quý thầy cô và các bạn.
Học viên thực hiện
Lê Thị Thu Thảo

7


Chương 1. Tổng quan

CHƯƠNG 1.

TỔNG QUAN

1.1. Giới thiệu tổng quan về vấn đề nghiên cứu
1.1.1. Thực trạng và nhu cầu xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo
ngữ nghĩa cho thư viện Trường CĐ KTKT TP.HCM
Cùng với sự phát triển mạnh mẻ của công nghệ thông tin, hệ thống giáo dục
trong những năm qua cũng đã có những đổi mới và phát triển đáng kể. Các ứng
dụng của công nghệ thông tin vào lĩnh vực giáo dục phải kể đến như:
-

Ứng dụng trong quản lý giáo dục: quản lý sinh viên, quản lý giảng viên,
quản lý hồ sơ, quản lý trang thiết bị, quản lý thư viện, …

-

Các ứng dụng hỗ trợ giảng dạy, học tập


-

Các lớp học trực tuyến, các chương trình đào tạo từ xa

-

Các kho chứa tài nguyên học tập

-



Trong một nền giáo dục tiến bộ thì thư viện không thể tách rời với dạy và học.
Thư viện là nơi bổ sung, cập nhật những kiến thức mới, mở rộng cho sinh viên về
các lĩnh vực tri thức hơn so với khuôn khổ qui định về nội dung, chương trình và
kế hoạch đào tạo của nhà trường. Thư viện là cầu nối giữa thông tin và người sử
dụng. Thư viện là một yếu tố căn bản và quan trọng, là thước đo đánh giá vai trò,
chức năng, nhiệm vụ, hiệu quả đào tạo của trường học. Do đó trong trường học
công tác thông tin thư viện giữ vai trò đặc biệt quan trọng và không thể thiếu. Việc
khai thác hiệu quả thông tin thư viện đã trở thành một trong những nhiệm vụ hàng
đầu trong công tác thư viện của bất kỳ một trường học nào [1].
Qua khảo sát thực tế tại Trường CĐ KTKT TP.HCM, thư viện có trên 18000
đầu sách với hơn 58000 quyển sách thuộc nhiều chuyên ngành, số lượng học sinh
sinh viên và cán bộ giáo viên đến mượn sách hoặc tra cứu thông tin tài liệu tại thư
viện trường hàng ngày khá đông. Tuy có quy mô như vậy, nhưng hầu hết mọi việc
quản lý tại thư viện đều lại được thực hiện thủ công hoặc bán thủ công.
8



Chương 1. Tổng quan

Cụ thể như sau:
• Quy trình mượn sách:
o Người dùng thư viện (độc giả):
1. Tra cứu tài liệu trong sổ danh mục của thư viện hoặc trên trang web
tra

cứu

tài

liệu

của

thư

viện

trường

theo

địa

chỉ:

/>
Hình 1.1. Trang web tra cứu tài liệu của thư viện trường CĐ KTKT TP.HCM


2. Điền đầy đủ các thông tin lên Phiếu đăng ký mượn sách

Hình 1.2. Phiếu đăng ký mượn sách dành cho học sinh sinh viên

9


Chương 1. Tổng quan

Hình 1.3. Phiếu đăng ký mượn sách dành cho cán bộ, giáo viên, nhân viên

3. Mang Phiếu đăng ký mượn sách tới bàn phục vụ
o Nhân viên thư viện:
1. Kiểm tra Thẻ Thư viện (đối với người dùng là sinh viên)
2. Vào kho tìm tài liệu
+ Nếu có tài liệu trong kho: làm thủ tục cho mượn.
+ Nếu không có tài liệu trong kho: định hướng bạn đọc tới những tài
liệu có nội dung tương tự.
3. Làm thủ tục cho mượn tài liệu
4. Giao tài liệu và ghi nhận vào sổ mượn tài liệu của thư viện
• Thực trạng kho sách thư viện:
Kho sách thư viện trường được tổ chức theo kho đóng.
Kho đóng là kho mà người dùng thư viện đến mượn tài liệu, phải tra cứu
hệ thống tài liệu mục lục truyền thống (sổ danh mục, mục lục phiếu) hoặc mục
lục trên máy tính, phải ghi phiếu yêu cầu và mượn qua nhân viên thư viện (thủ
thư). Người dùng không được trực tiếp vào kho tài liệu.
10



Chương 1. Tổng quan

Do không được tiếp xúc trực tiếp nên độ chính xác tìm tài liệu bị hạn chế.
Người dùng mất thời gian tra cứu, chờ đợi nhân viên thư viện tìm và trả tài liệu
theo yêu cầu.
• Thực trạng việc tra cứu tài liệu:
Việc tra cứu tài liệu tại thư viện trường còn rất nhiều hạn chế, có hai hình
thức tra cứu:
-

Tra cứu từ sổ danh mục: sổ danh mục phân loại sách theo các chủ
đề và được trình bày theo dạng bảng. Thông tin các quyển sách
gồm: ký hiệu phân loại, ký hiệu xếp giá, tên sách, tác giả, nhà xuất
bản, năm xuất bản.
Các chủ đề trong danh mục gồm:
+ Âm nhạc
+ An ninh quốc phòng
+ Chính trị
+ CNKT Điện - Điện tử viễn thông
+ Cơ khí - Tự động hóa
+ Công nghệ thông tin
+ Giáo dục - Đào tạo
+ Hồ Chí Minh
+ Khoa học kỹ thuật - Công nghệ
+ Khoa học tự nhiên
+ Kinh tế - Kế toán
+ Lịch sử- Địa lý
+ May - Thiết kế thời trang
+ Nghệ thuật
+ Ngôn ngữ - Tiếng Anh

+ Nữ công gia chánh
+ Pháp luật
+ SGK và tham khảo THPT

11


Chương 1. Tổng quan

-

Tra cứu sách từ trang web của thư viện trường: hiện tại hệ thống
chỉ hỗ trợ tra cứu theo các mục: chuyên ngành, nhà xuất bản, tác giả
và tên sách [14].
+ Mục: Chuyên ngành, Nhà xuất bản, Tác giả: chỉ cho phép
chọn trong danh mục liệt kê.
+ Mục Tên sách: cho phép người dùng nhập tên sách hoặc cụm
từ có trong tên sách.
Hệ thống không hỗ trợ tìm gần đúng.

Ví dụ khi người dùng nhập cụm từ “tin học văn phòng” vào mục Tên sách thì
kết quả tìm kiếm sẽ cho ra danh sách các quyển sách có chứa chính xác cụm từ “tin
học văn phòng” trong tên sách.

Hình 1.4. Màn hình kết quả tra cứu sách

Với cách tìm kiếm này, khi người dùng có nhu cầu tìm những quyển sách có
liên quan đến tin học văn phòng như: “Bài tập Excel và Word - 450 vấn đề và giải
pháp”, “Bài tập thực hành Windows 95, Word 97, Excel 97”,… thì không thể thực
hiện được. Đây cũng chính là cách thức tìm kiếm tài liệu – tìm những tài liệu có


12


Chương 1. Tổng quan

liên quan đến nội dung cần tìm - mà người dùng là những người có nhu cầu nghiên
cứu, giảng dạy như sinh viên, giảng viên mong muốn được hệ thống hỗ trợ.
Qua đó cho thấy, với phương pháp tìm kiếm hiện tại của hệ thống tra cứu tài
liệu của thư viện nhà trường chưa đáp ứng được nhu cầu tìm kiếm tài liệu của
người dùng. Do đó, cần phải tăng cường ứng dụng công nghệ thông tin vào hệ
thống để cải thiện chất lượng phục vụ, đảm bảo hoàn thành được nhiệm vụ trọng
tâm của công tác quản lý thư viện là hỗ trợ hiệu quả người dùng trong việc tiếp
cận thông tin.
Từ những thực trạng khảo sát trên cho thấy việc xây dựng một hệ thống tìm
kiếm thông tin mới hiệu quả hơn thay thế cho hệ thống kiếm truyền thống vốn có
nhiều hạn chế mà thư viện nhà trường đang sử dụng là điều thực sự cần thiết. Đó
cũng chính là lý do để tôi chọn đề tài “Xây dựng hệ thống hỗ trợ tìm kiếm tài liệu
theo ngữ nghĩa cho thư viện Trường Cao đẳng KTKT TP.HCM” làm khóa luận tốt
nghiệp Thạc sĩ của mình.
1.1.2. Khảo sát một số giải pháp và ứng dụng tìm kiếm tài liệu trong thư viện
hiện nay
Với xu hướng toàn cầu hoá và xu hướng hiện đại hoá trong phạm vi lĩnh vực
hoạt động thư viện, hiện nay các thư viện công cộng, phòng tư liệu, thư viện ở các
trường học lớn, … đã dần sử dụng hệ quản trị thư viện tích hợp mã nguồn mở Koha
ILS - là một phần mềm thư viện hiện đại, đầy đủ tính năng, áp dụng các chuẩn quốc
tế, có nhiều tính năng nổi trội, tiện ích trong hệ thống thư viện tích hợp [3]. Trong
đó OPAC (Online Public Access Catalog) là một phân hệ với chức năng hỗ trợ
người dùng tìm kiếm tài liệu với hai hình thức: tìm chi tiết và tìm nâng cao với
nhiều tiêu chí như: Nhan đề; Tác giả; Nơi xuất bản; Năm xuất bản; Chỉ số phân

loại; Từ khoá; Tiêu đề đề mục; Ngôn ngữ, … cho độ chính xác tương đối cao dù
vậy mối quan hệ ngữ nghĩa giữa các từ khóa trong hệ thống này vẫn chưa được
xem xét.
Như vậy, ngoài việc cung cấp cho người dùng các chức năng tìm kiếm thông
thường khi tìm kiếm thông tin, thì hầu hết các hệ thống quản lý thư viện hiện nay
13


Chương 1. Tổng quan

còn hỗ trợ thêm cho người dùng tìm kiếm tài liệu theo từ khóa (keywords). Tuy
nhiên, hạn chế của phương pháp này là cho độ chính xác của kết quả tìm kiếm
không cao.
Theo [2] với phương pháp tìm kiếm theo từ khóa gặp hai vấn đề chính sau đây:
-

Mỗi từ khóa tìm kiếm có thể có nhiều ý nghĩa tùy theo từng ngữ cảnh và
hệ thống tìm kiếm không thể hiện mối quan hệ giữa các từ khóa với nhau.

-

Các thông tin cùng ý nghĩa với từ khóa tìm kiếm của người dùng sẽ không
tồn tại trong kết quả tìm.

Tài liệu [2] cũng đã chỉ ra rằng sử dụng công nghệ ngữ nghĩa trong tìm kiếm
để khắc phục những hạn chế này. Sử dụng công nghệ ngữ nghĩa cho phép mô tả
được các đối tượng, thiết lập được các lược đồ trong các dạng của ontology cho
các định danh của các đối tượng với mục tiêu là làm cho thao tác giữa các phần có
thể xử lý thông minh, nhất quán, mạch lạc. Việc ứng dụng ontology trong quản lý
tài liệu trong thư viện không những thực hiện lưu trữ dữ liệu mô tả để mô tả hệ

thống thư mục mà còn mô tả được nội dung của nó.
Việc sử dụng công nghệ ngữ nghĩa với cách biểu diễn dựa trên các ontology
hiện nay được xem là cách tiếp cận hiện đại và phù hợp cho việc thiết kế biểu diễn,
xử lý nội dung và ý nghĩa của các tài liệu . Đã có nhiều nghiên cứu xây dựng các
hệ thống phục vụ cho giáo dục theo cách tiếp cận sử dụng ontology được đề cập
trong các nghiên cứu [4, 5, 6, 7, 8, 12].
Theo hướng tiếp cận hiện đại trên, nhiều công cụ hỗ trợ cho việc xây dựng
và phát triển các ứng dụng xử lý ngôn ngữ tự nhiên cũng ra đời, tiêu biểu như
Lucene, GATE, …
Trong phạm vi đề tài “Xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo ngữ
nghĩa cho thư viện Trường CĐ KTKT TP.HCM”, đề tài đã đặt mục tiêu nghiên
cứu tìm hiểu các kỹ thuật tìm kiếm theo ngữ nghĩa và từ đó xây dựng một ứng
dụng tìm kiếm theo ngữ nghĩa trên cơ sở vận dụng các tính năng hỗ trợ của
Lucene nhằm mục đích cải thiện hiệu quả công việc tìm kiếm tài liệu tại thư
viện cũng như nâng cao chất lượng học tập, nghiên cứu tại trường của sinh viên
và giảng viên.
14


Chương 1. Tổng quan

1.2. Mục tiêu nghiên cứu
Nghiên cứu lý thuyết về các kỹ thuật và công cụ để xây dựng hệ thống tìm
kiếm thông tin theo ngữ nghĩa. Qua đó, xây dựng ứng dụng hỗ trợ tìm kiếm tài liệu
chuyên ngành CNTT theo ngữ nghĩa cho thư viện Trường CĐ KTKT TP.HCM.
Đề tài tập trung nghiên cứu và giải quyết các vấn đề sau:
-

Nghiên cứu một số mô hình biểu diễn tri thức, trong đó có mô hình
Ontology mô tả tri thức lĩnh vực, cùng với đó là các phương pháp biểu diễn

ngữ nghĩa liên quan đến nội dung tài liệu.

-

Nghiên cứu một số công cụ hỗ trợ xây dựng hệ thống tìm kiếm theo ngữ
nghĩa, công cụ xử lý ngôn ngữ tự nhiên.
Trên cơ sở đó, đề tài sẽ xây dựng một hệ thống hỗ trợ tìm kiếm tài liệu chuyên

ngành CNTT theo ngữ nghĩa cho thư viện Trường CĐ KTKT TP.HCM. Hệ thống
đáp ứng các chức năng chính sau:
-

Hỗ trợ tìm kiếm theo ngữ nghĩa các tài liệu có trong cơ sở dữ liệu. Việc
tìm kiếm bao gồm các chức năng:
+ Tìm kiếm so trùng chính xác tất cả các từ do người dùng nhập vào. Kết
quả trả về là các tài liệu mà trong phần tựa đề, tên tác giả, tên nhà xuất
bản hay trong tập từ khóa của nội dung tài liệu có chứa các từ trùng với
các từ ở câu truy vấn của người dùng.
+ Tìm kiếm không so trùng một cách chính xác những gì người dùng nhập
vào. Hệ thống sẽ thực hiện việc xử lý tách câu, tách từ tiếng Việt, chọn
lọc từ khóa cho câu truy vấn. Kết quả trả về là các tài liệu mà trong phần
tựa đề, tên tác giả, tên nhà xuất bản hay trong tập từ khóa của nội dung
tài liệu có chứa các cụm từ trùng với các từ khóa ở câu truy vấn của
người dùng sau khi được hệ thống xử lý.

1.3. Đối tượng nghiên cứu
-

Đối tượng nghiên cứu lý thuyết: phương pháp tìm kiếm thông tin theo ngữ
nghĩa, biểu diễn tri thức bằng ontology.


-

Đối tượng nghiên cứu ứng dụng: thông tin tài liệu chuyên ngành CNTT tại thư
viện Trường CĐ KTKT TP.HCM.
15


Chương 1. Tổng quan

1.4. Phạm vi nghiên cứu
Đề tài tập trung nghiên cứu về phương pháp biểu diễn tri thức bằng ontology
và phương pháp tìm kiếm thông tin theo ngữ nghĩa để ứng dụng vào xây dựng hệ
thống tìm kiếm sách (sách in) chuyên ngành CNTT theo ngữ nghĩa cho thư viện
của Trường CĐ KTKT TP.HCM.
1.5. Ý nghĩa thực tiễn của đề tài
Xuất phát từ yêu cầu thực tiễn tại Trường Cao đẳng KTKT TP.HCM nêu trên
cho thấy việc xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo ngữ nghĩa cho thư
viện tại Trường là vấn đề hết sức cần thiết hiện nay. Điều này không những mang
lại lợi ích thiết thực cho sinh viên, giảng viên trong việc tìm kiếm tài liệu phục vụ
công tác học tập nghiên cứu mà còn góp phần nâng cao chất lượng đào tạo và hiệu
quả nghiên cứu khoa học của nhà trường.

16


Chương 2. Cơ sở lý thuyết

CHƯƠNG 2.


CƠ SỞ LÝ THUYẾT

Cơ sở lý thuyết về hệ thống tìm kiếm thông tin, biểu diễn tri thức bằng
ontology được đề cập trong các tài liệu [4, 9, 10, 11, 12, 17, 19, 20, 21]
2.1. Hệ thống tìm kiếm thông tin (Information Retrieval - IR)
Mục tiêu của tìm kiếm thông tin là tìm kiếm và đưa ra các thông tin liên quan
nhất với nhu cầu thông tin của người dùng.
Một hệ thống tìm kiếm thông tin có nhiệm vụ của tương tự như nhiệm vụ tổ
chức phân loại tài liệu và phục vụ việc tra cứu thông tin của một thư viện.
2.1.1. Cấu trúc của một hệ thống tìm kiếm thông tin
Một hệ thống tìm kiếm thông tin có hai chức năng chính: lập chỉ mục
(indexing) và tra cứu (interrogation).
-

Lập chỉ mục: phân tích tài liệu nhầm xác định các chỉ mục biểu diễn nội
dung của tài liệu. Có hai cách lập chỉ mục:
+ Lập chỉ mục dựa vào một cấu trúc phân lớp có sẵn. Các chỉ mục
tồn tại trước và độc lập với tài liệu. Cách làm này tương tự cách
làm của các nhân viên thư viện, phân loại tài liệu theo một bộ
phân loại cho trước.
+ Lập chỉ mục từ việc rút trích các chỉ mục từ nội dung của các tài
liệu trong kho tài liệu.
Kết thúc giai đoạn này nội dung của các tài liệu có trong kho tài
liệu sẽ được biểu diễn bên trong bằng tập các chỉ mục.

-

Tra cứu: hệ thống nhận yêu cầu thông tin từ người dùng thông qua câu
hỏi (query). Hệ thống tiến hành phân tích và biểu diễn thành một dạng
biểu diễn trong sau đó sử dụng một hàm so khớp để so khớp biểu diễn

của câu hỏi với các biểu diễn của các tài liệu để tìm ra các tài liệu có liên
quan.

17


Chương 2. Cơ sở lý thuyết

Hình 2.1. Cấu trúc của một hệ thống tìm kiếm thông tin

2.1.2. Phân loại hệ thống tìm kiếm thông tin:
2.1.2.1. Hệ thống tìm kiếm thông tin dựa trên từ khóa
Tìm kiếm theo từ khóa là tìm kiếm các tài liệu mà những từ trong câu truy
vấn xuất hiện nhiều nhất. Trong một tài liệu, nếu số từ khoá của câu truy vấn
xuất hiện càng nhiều trong một tài liệu thì tài liệu đó càng được ưu tiên chọn
để trả về cho người dùng.
Hệ thống sử dụng một danh sách các từ khóa (keywords) hay thuật ngữ
(term) để biểu diễn cho nội dung của tài liệu và câu truy vấn.
Các mô hình tìm kiếm được sử dụng như mô hình Boolean, mô hình không
gian vector, các mô hình xác suất, mô hình LSI.
2.1.2.2. Hệ thống tìm kiếm thông tin dựa trên khái niệm hay ngữ nghĩa
Tìm kiếm thông tin dựa trên khái niệm hay ngữ nghĩa là tìm kiếm mà trong
đó một tập các khái niệm hay một cấu trúc khái niệm được dùng để mô tả cho
nội dung của một đối tượng thông tin. Để rút trích được các khái niệm từ đối
tượng thông tin, hệ thống cần sử dụng đến nguồn tri thức về lĩnh vực thuộc đối
tượng thông tin đó.
Các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công nghệ ontology được
đề xuất sử dụng trong hệ thống tìm kiếm thông tin này.
18



Chương 2. Cơ sở lý thuyết

2.1.3. Các phương pháp tìm kiếm thông tin
Có hai hướng tiếp cận chính trong việc nguyên cứu các hệ thống tìm kiếm
thông tin là tìm kiếm thông tin theo hướng tiếp cận thống kê và tìm kiếm thông
tin theo hướng ngữ nghĩa. [22]

Hình 2.2. Các phương pháp tìm kiếm thông tin

2.1.3.1. Tìm kiếm thông tin theo hướng tiếp cận thống kê
Tìm kiếm thông tin theo hướng tiếp cận thống kê với ý tưởng là dùng một
danh sách các từ khóa, thuật ngữ xuất hiện trong tài liệu hoặc trong câu truy vấn
làm dạng biểu diễn của nội dung tài liệu, câu truy vấn đó.
Một số mô hình tiêu biểu:
• Mô hình Boolean
Boolean là một mô hình cổ điển được xây dựng dựa trên kiến thức
toán học. Đây là mô hình đơn giản, dễ triển khai được sử dụng nhiều
trong các hệ thống trước đây.
Cách biểu diễn:
-

Tài liệu được biểu diễn bằng biểu thức logic AND (và) của các từ
khóa.

-

Câu truy vấn được biểu diễn bằng biểu thức Bool (AND, OR,
NOT) của các từ khóa.
R(D, Q) = D → Q

Phương pháp này có một số khuyết diểm như sau:
19


Chương 2. Cơ sở lý thuyết

-

Các tài liệu trả về không được sắp xếp (ranking).

-

Kết quả trả về có thể là rất ít hoặc rất nhiều tài liệu.

-

Gây khó khăn cho người dùng do khó biểu diễn câu truy vấn đúng
định dạng của biểu thức Boolean.

• Mô hình Boolean mở rộng (Advanced Boolean Model)
Để giải quyết vấn đề sắp xếp kết quả trả về ở mô hình tìm kiếm
Boolean, mô hình tìm kiếm Boolean mở rộng ra đời với ý tưởng cơ bản
là đánh trọng số cho mỗi từ trong truy vấn và trong tài liệu.
• Mô hình Không gian vector (Vector Space Model)
Mô hình không gian vector là một mô hình đại số, biểu diễn thông
tin văn bản bằng một vector, các phần tử của vector này thể hiện mức độ
quan trọng của một từ trong một tài liệu.
Ý tưởng chính mô hình là dựa trên ý nghĩa của một tài liệu thì phụ
thuộc vào các từ được sử dụng bên trong nó.
Độ tương quan giữa tài liệu và câu truy vấn được tính toán dựa trên

vector tài liệu và vector câu truy vấn. Độ tương quan càng lớn cho thấy
tài liệu đó càng liên quan nhiều đến tới câu truy vấn.
• Mô hình xác suất (Probability Model)
Mô hình tìm kiếm xác suất tính toán độ tương quan giữa tài liệu và
câu truy vấn dựa vào xác suất mà tài liệu đó liên quan đến câu hỏi.
Ý tưởng chính của mô hình tìm kiếm xác suất là tính xác suất của
mỗi từ có trong câu truy vấn và sau đó sử dụng chúng để tính xác suất
mà tài liệu liên quan đến câu truy vấn.
2.1.3.2. Tìm kiếm thông tin theo hướng ngữ nghĩa
• Khái niệm tìm kiếm ngữ nghĩa:
Tìm kiếm ngữ nghĩa là một kỹ thuật tìm kiếm dữ liệu trong đó một
câu truy vấn tìm kiếm không chỉ nhắm đến tìm các từ khóa, mà còn để
xác định mục đích và ý nghĩa theo ngữ cảnh của những từ mà người dùng
sử dụng để tìm kiếm.
Không giống như các thuật toán tìm kiếm điển hình, tìm kiếm ngữ
nghĩa được dựa trên ngữ cảnh, nội dung, khái niệm của cụm từ tìm kiếm.
20


Chương 2. Cơ sở lý thuyết

Về mặt ngôn ngữ học, thì tìm kiếm ngữ nghĩa còn kết hợp vị trí xuất hiện
của từ trong câu, từ đồng nghĩa, biến thể từ và các yếu tố ngôn ngữ tự
nhiên khác như là một phần của tìm kiếm.
Các hướng tiếp cận cho việc tìm kiếm thông tin theo hướng ngữ
nghĩa là: sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công
nghệ ontology.
• Xử lý ngôn ngữ tự nhiên
Hướng tiếp cận dùng các kỹ thuật xử lý ngôn ngữ tự nhiên giải quyết
được các vấn đề biến thể về mặt ngôn ngữ học của các từ trong tài liệu

và câu truy vấn mà khi sử dụng phương pháp tìm kiếm thông tin theo
hướng tiếp cận thống kê không thể giải quyết được.
Các biến thể về mặt ngôn ngữ học gồm: biến thể về hình thái học,
về từ vựng họ, về ngữ nghĩa học, biến thể về cú pháp học.
• Hướng tiếp cận Ontology
Biểu diễn ngữ nghĩa dựa trên các ontology là cách biểu diễn phù hợp
cho việc biểu diễn nội dung, ý nghĩa, mối liên hệ giữa các tài liệu. Với
cách biểu diễn này giúp xây dựng lên mạng lưới ngữ nghĩa, bộ từ điển
chung về một lĩnh vực chuyên môn, tạo ra mối liên hệ giữa chúng và tạo
ra khả năng kế thừa giữa các đối tượng.
2.1.4. Đánh giá một hệ thống tìm kiếm thông tin
Các tiêu chuẩn dùng đánh giá hiệu quả của một hệ thống tìm kiếm thông tin
như sau [4]:
Để đánh giá hiệu quả truy tìm của hệ thống ta dùng độ chính xác và độ bao
phủ.
-

Gọi S là tập các tài liệu được tìm thấy (liên quan theo hệ thống).

-

Gọi U là tập các tài liệu liên quan (theo đánh giá của người dùng).
Ta có công thức tính độ chính xác và độ bao phủ như sau:
Độ chính xác =
Độ bao phủ =

21

S U
S


S U
U


Chương 2. Cơ sở lý thuyết

o Độ chính xác: là sự tương ứng giữa số tài liệu mà hệ thống tìm
thấy có liên quan đến câu truy vấn theo người dùng trên tổng số
các tài liệu tìm thấy của hệ thống.
o Độ bao phủ: là sự tương quan giữa số tài liệu hệ thống tìm thấy
được đánh giá là liên quan theo người dùng trên tổng số các tài
liệu có liên quan theo người dùng.
2.2. Ontology
2.2.1. Khái niệm Ontology
Ontology gồm những khái niệm về một lĩnh vực cụ thể và các mối quan
hệ giữa chúng.
2.2.2. Định nghĩa Ontology
Có nhiều định nghĩa khác nhau về Ontology:
• Trong triết học
Ontology là một thuật ngữ có nguồn gốc từ Triết học Hy Lạp diễn tả các
thực thể tồn tại trong tự nhiên và các mối quan hệ giữa chúng.
“ontos” có nghĩa là sự tồn tại, “logos” nghĩa là diễn đạt ; có nghĩa là diễn
đạt sự tồn tại.
Theo Aristoteles thì “ontology là một siêu hình học nghiên cứu về sự tồn
tại và hiện thân của tự nhiên”.
• Trong lĩnh vực Trí tuệ nhân tạo
Có nhiều cách định nghĩa khác nhau về ontology trong lĩnh vực trí tuệ
nhân tạo, một số định nghĩa như sau:
-


Theo Gruber (1993) ontology như “một đặc tả tường minh của sự
khái niệm hóa trong một lĩnh vực”.

-

Theo Borst (1997): ontology là “ sự đặc tả hình thức của sự khái niệm
hóa được chia sẻ”.

-

Theo Motta (1999) định nghĩa “ontology là đặc tả một phần của tập
hợp các khái niệm được sử dụng hình thức hóa các tri thức của một
lĩnh vực cần quan tâm. Vai trò cơ bản của một ontology là nhằm
chia sẽ và sử dụng lại tri thức”.

22


Chương 2. Cơ sở lý thuyết

-

Theo Uschold và Jasper (1999): “ontology chứa các định nghĩa và
quan hệ giữa các khái niệm, hình thành một cấu trúc lĩnh vực và giới
hạn ngữ nghĩa của thuật ngữ trong từ vựng”.

-

Theo Weiss (1999): “ontology là một đặc tả của các khái niệm và

quan hệ trong lĩnh vực quan tâm. Ontology không chỉ là phân cấp
các lớp mà còn mô tả các quan hệ”.

-

Theo Hendler (2001): “ontology là một tập hợp các thuật ngữ tri thức
(knowledge term), bao gồm từ vựng, các quan hệ ngữ nghĩa, một số
luật suy diễn và logic trong một lĩnh vực đặc thù”.

Ontology được sử dụng trong nhiều lĩnh vực khác nhau như: trí tuệ nhân
tạo, Semantic Web, các hệ thống kỹ thuật, kỹ thuật phần mềm, tin học y sinh

2.2.3. Thành phần của một Ontology
Các thành phần cơ bản của Ontology bao gồm:
-

Các lớp (classes, tương ứng với concept - khái niệm): mô tả các khái
niệm trong miền lĩnh vực, thường được tổ chức phân cấp và áp dụng kỹ
thuật thừa kế. Một lớp có thể chứa các lớp khác (lớp con), các thực thể
hoặc chứa cả hai.

-

Các thuộc tính (properties): khái niệm được mô tả thông qua các thuộc
tính, của chúng. Mỗi thuộc tính đều có tên và giá trị. Giá trị của thuộc
tính là một kiểu dữ liệu. Một thuộc tính có thể có các thuộc tính con và
các ràng buộc trên nó.

-


Các quan hệ (relations): Biểu diễn các kiểu quan hệ giữa các khái niệm.
Mỗi quan hệ đều có tên và giá trị, tuy nhiên giá trị của quan hệ là một
khái niệm.

-

Thực thể hay thể hiện (instance): là thành phần cơ bản, nền tảng của một
ontology, biểu diễn các phần tử riêng biệt của khái niệm, là các thể hiện
của lớp.

-

Hàm (function): Là một loại thuộc tính hay quan hệ đặc biệt, trong đó
phần tử thứ n là duy nhất đối với n-1 phần tử còn lại.

23


×