Tải bản đầy đủ (.pdf) (88 trang)

XÂY DỰNG hệ hỗ TRỢ tìm KIẾM văn bản điện tử THEO NGỮ NGHĨA TRONG tập đoàn bưu CHÍNH VIỄN THÔNG VIỆT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.31 MB, 88 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
────────────

NGUYỄN MINH LUÂN

XÂY DỰNG HỆ HỖ TRỢ TÌM KIẾM VĂN BẢN ĐIỆN
TỬ THEO NGỮ NGHĨA TRONG TẬP ĐOÀN BƯU
CHÍNH VIỄN THÔNG VIỆT

KHÓA LUẬN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS TRẦN CÔNG ÁN

TP HỒ CHÍ MINH – NĂM 2016


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, các số liệu và kết
quả nghiên cứu nêu trong khóa luận là trung thực.Vì vậy tôi xin chịu trách nhiệm
hoàn toàn về công trình nghiên cứu của mình.
Tp. Hồ Chí Minh, ngày

tháng

Nguyễn Minh Luân

năm 2016




Mục lục
Số trang
Trang phụ bìa
Lời cam đoan
Mục lục ........................................................................................................................ i
Danh mục các hình vẽ, đồ thị ..................................................................................... ii
Danh mục ký hiệu, chữ viết tắt .................................................................................. iii
MỞ ĐẦU ................................................................................................................... iv
Chương 1 - Giới thiệu tổng quan về khóa luận .......................................................... 1
1.1.Đặt vấn đề ............................................................................................................. 1
1.2.Mục tiêu của khóa luận......................................................................................... 5
1.3.Đối tượng và phạm vi nghiên cứu ....................................................................... 6
1.4.Phương pháp nghiên cứu ...................................................................................... 6
1.5.Ý nghĩa khoa học và thực tiễn .............................................................................. 7
Chương 2- Cơ sở lý thuyết............................................................................................8
2.1.Vấn đề truy tìm thông tin...................................................................................... 8
2.2.Ontology ............................................................................................................. 15
2.3.Mô hình CK_ONTO ........................................................................................... 22
2.4 Các phương pháp tính khoảng cách giữa các khái niệm......................................30
2.5 Ứng dụng xử lý ngôn ngữ tự nhiên trong tìm kiếm thông tin..............................36
Chương 3- Mô hình và giải pháp................................................................................40
3.1.Mô hình Ontology hỗ trợ tìm kiếm văn bản.. ..................................................... 41
3.2.Mô hình biểu diễn văn bản theo ngữ nghĩa ....................................................... 47
3.3.Mô hình kho tài liệu văn bản ngữ nghĩa ............................................................. 49
3.4 Xử lý câu truy vấn................................................................................................51
3.5 Sơ đồ cấu trúc của hệ truy tìm văn bản ngữ nghĩa................................................53
Chương 4- Cài đặt ứng dụng.......................................................................................58
4.1 Thiết kế hệ thống ..................................................................................................58

4.2 Cài đặt hệ thống.....................................................................................................60
4.3 Kết quả thử nghiệm...............................................................................................72
4.4 Đánh giá kết quả thử nghiệm.................................................................................75
Chương 5- Kết luận và hướng phát triển.....................................................................77
5.1 Kết quả của khóa luận............................................................................................77
5.2 Hạn chế..................................................................................................................78
5.3 Hướng phát triển....................................................................................................78
Tài liệu tham khảo........................................................................................................79
i


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Trang
Chương 2 – CƠ SỞ LÝ THUYẾT
Hình 2.1: Bảng mô tả 02 thành phần cốt lõi của Lucene ....................................... 19
Hình 2.2: Biểu diễn đồ thị Keyphase G .................................................................. 26
Hình 2.3: Biểu diễn đồ thị Keyphase G1 ................................................................ 27
Hình 2.4: Biểu diễn đồ thị Keyphase G2 ................................................................ 28
Chương 3 – MÔ HÌNH VÀ GIẢI PHÁP
Hình 3.1: Bảng mô tả ví dụ tập các quan hệ RKC ................................................... 43
Hình 3.2: Bảng mô tả ví dụ tập các quan hệ RCC ................................................... 44
Hình 3.3: Bảng mô tả ví dụ quan hệ liên quan giữa các lớp .................................. 44
Hình 3.4: Biểu đồ liên hệ giữa các thành phần trong mô hình văn bản ngữ nghĩa. 51
Hình 3.5: Mô hình hệ truy tìm văn bản ngữ nghĩa VNPT...................................... 54
Chương 4- CÀI ĐẶT ỨNG DỤNG
Hình 4.1: Bảng tổng hợp số lượng văn bản có trong CSDL mẫu ......................... 58
Hình 4.2: Cấu trúc của hệ thống ............................................................................ 60
Hình 4.3:Các thông tin liên quan đến văn bản ....................................................... 61
Hình 4.4: Thông tin tổng hợp của văn bản ............................................................. 62
Hình 4.5: Chức năng tìm kiếm theo từ khóa .......................................................... 63

Hình 4.6: Cơ sở dữ liệu văn bản đã thu thập được ................................................. 64
Hình 4.7: Các lớp trong CK_ONTO_VNPT .......................................................... 65
Hình 4.8: Kết quả phân loại từ Tiếng Việt ............................................................. 67
Hình 4.9: Sơ đồ diagram CK_ONTO_VNPT ........................................................ 68
Hình 4.10: Danh mục lớp CK_ONTO_VNPT ....................................................... 68
Hình 4.11: Danh mục quan hệ CK_ONTO_VNPT ................................................ 69
Hình 4.12: Danh mục từ khóa CK_ONTO_VNPT ................................................ 70
Hình 4.13: Minh họa quan hệ giữa keyphase với keyphase ................................... 71
Hình 4.14: Mô hình gán chỉ mục ngữ nghĩa ........................................................... 71
Hình 4.15: Danh mục đồ thị ngữ nghĩa .................................................................. 72
Hình 4.16: Giao diện tìm kiếm theo ngữ nghĩa ...................................................... 73
Hình 4.17 Minh họa kết quả tìm kiếm theo từ khóa ............................................... 74
Hình 4.18: Minh họa kết quả tìm kiếm theo ngữ ghĩa ........................................... 75
iv


DANH SÁCH CÁC KÝ HIỆU, CHỮ VIẾT TẮT
CNTT

: Công nghệ thông tin

CK_ONTO : Classified Keyphrase based Ontology
CSDL

: Cơ sở dữ liệu

DRS

: Document Retrieval System


HĐH

: Hệ điều hành

IR

: Information Retrieval

KĐTNN

: Keyphrase đặc trưng ngữ nghĩa

SDB

: Semantic Document Base

iv


MỞ ĐẦU
Hiện nay, việc tìm kiếm liên quan đến ngữ nghĩa hay nội dung tài liệu là một
nhu cầu cấp thiết trong thực tiễn nhằm khắc phục nhược điểm của các phương pháp
tìm kiếm truyền thống. Và cụ thể, các hệ thống tìm kiếm thông tin hiện nay phần lớn
vẫn dựa trên từ khóa và mức độ phổ biến của tài liệu. Một danh sách các từ khóa là
dạng biểu diễn sơ lược nhất của nội dung và cách biểu diễn này mang mức độ thông
tin thấp nhất. Vấn đề khó khăn đối với người sử dụng là ở khả năng mô tả nhu cầu
thông tin bằng một số từ khóa biểu diễn và chuyển nhu cầu này thành dạng thức truy
vấn phù hợp với hệ thống. Đặc biệt đối với người sử dụng ít kinh nghiệm không thể
đặc tả đúng từ khóa cho vấn đề cần tìm kiếm.
Vì vậy, trong lĩnh vực của khoa học máy tính có một sự chuyển hướng dần đến

hướng tri thức hoặc xử lý ngữ nghĩa. Theo đó, những hệ thống tìm kiếm dựa trên khái
niệm được nghiên cứu phát triển nhằm thay thế cho những hệ thống truyền thống vốn
đã bộc lộ nhiều khuyết điểm lớn. Việc tìm kiếm sẽ dựa trên không gian các khái niệm
và các mối quan hệ ngữ nghĩa giữa chúng. Những cách tiếp cận theo hướng ngữ nghĩa
hay theo cấu trúc khái niệm này hướng tới việc mô phỏng một cách tự nhiên cách con
người giao tiếp, nghĩa là mô phỏng cấp độ hiểu về ý nghĩa của từ, cụm từ hay văn bản
mà người dùng cung cấp tương ứng với những gì người dùng nghĩ.
Và cách tiếp cận dựa trên các ontology được xem là cách tiếp cận hiện đại và
phù hợp nhất cho việc thiết kế biểu diễn, xử lý nội dung và ý nghĩa của các tài liệu của
con người. Bên cạnh đó, nhiều mô hình biểu diễn cho tài liệu giàu ngữ nghĩa hơn cũng
được đề xuất như mạng ngữ nghĩa, đồ thị khái niệm CGs, đồ thị hình sao, đồ thị tần số,
đồ thị khoảng cách, đồ thị song phương,…được đánh giá có nhiều tiềm năng vì tận
dụng được các thông tin quan trọng về cấu trúc và các mối quan hệ ngữ nghĩa vốn
không được xét đến trong các mô hình biểu diễn truyền thống.
Xuất phát từ nhu cầu thực tế và khả năng nghiên cứu phát triển giải pháp cũng
như ứng dụng, chúng tôi đã xây dựng, triển khai hệ hỗ trợ tìm kiếm văn bản điện tử
theo ngữ nghĩa trong Tập đoàn VNPT và áp dụng thử nghiệm cho chi nhánh của Tập
đoàn tại tỉnh Tiền Giang, đánh giá kết quả, rút kinh nghiệm trước khi nhân rộng ra
phạm vi toàn quốc.

iv


CHƢƠNG 1
GIỚI THIỆU TỔNG QUAN VỀ KHÓA LUẬN
Chương 1 giới thiệu tổng quan về khóa luận bao gồm các nghiên cứu khảo sát
thực trạng ứng dụng CNTT trong tổ chức lưu trữ và khai thác văn bản điện tử của
Tập đoàn Bưu chính Viễn thông Việt Nam (Tập đoàn VNPT); Phân tích đánh giá
thực trạng, nhu cầu và khả năng nghiên cứu phát triển giải pháp cũng như ứng dụng.
Trình bày mục tiêu, giới hạn của khóa luận, ý nghĩa lý luận và thực tiễn, phương

pháp nghiên cứu, hướng tiếp cận giải quyết vấn đề và nội dung thực hiện của khóa
luận.
1.1. ĐẶT VẤN ĐỀ
1.1.1. Văn bản hành chính
Văn bản là phương tiện lưu giữ và truyền đạt thông tin bằng ngôn ngữ. Văn
bản quản lý là những quyết định, thông tin quản lý thành văn (được văn bản hóa) do
các cơ quan quản lý ban hành theo thẩm quyền, trình tự, hình thức nhất định và
được Nhà nước đảm bảo thi hành bằng những biện pháp khác nhau nhằm điều chỉnh
các mối quan hệ quản lý nội bộ cơ quan nhà nước với các tổ chức và người dân.
Văn bản là công cụ quan trọng, phổ biến trong các cơ quan, doanh nghiệp là
thước đo cho trình độ quản lý, văn bản do người có thẩm quyền soạn thảo và ban
hành. Chỉ có những văn bản do người đúng thẩm quyền ban hành mới có ý nghĩa
pháp lý.
- Về mục đích ban hành: nhằm mục đích thực hiện các nhiệm vụ, chức năng
được Nhà nước giao;
- Đối tượng áp dụng: tất cả các nhân viên trong tổ chức, doanh nghiệp và các
đối tượng khác có liên quan, là cơ sở pháp lý quan trọng cho các hoạt động cụ thể
của các cơ quan, tổ chức, cá nhân.
- Về trình tự ban hành, hình thức văn bản: Văn bản được xây dựng, ban hành
theo thủ tục pháp luật quy định và được trình bày theo hình thức luật định. Mỗi loại
văn bản thường được sử dụng trong những trường hợp nhất định và có cách thức
trình bày riêng. Sử dụng đúng hình thức văn bản sẽ góp phần tạo ra sự thống nhất cả
về nội dung và hình thức của hệ thống văn bản, tạo điều kiện thuận lợi cho việc
nghiên cứu, sử dụng, triển khai thực hiện văn bản.
- Về bảo đảm thi hành: bắt buộc các chủ thể khác phải thực hiện và được đảm
bảo thực hiện bởi Nhà nước như hoạt động tổ chức trực tiếp.
- Về văn phong: truyền đạt thông tin, mệnh lệnh từ chủ thể quản lý đến đối
tượng quản lý một cách đầy đủ, chính xác nhất. Văn bản quản lý thường mang tính
phổ quát, đại chúng và không cần quá chi tiết như văn bản khoa học.
Văn bản thông thường gồm các thành phần chính: số, ký hiệu; ngày ký, người

ký, cơ quan ban hành, trích yếu.

1


1.1.2. Văn bản điện tử
Văn bản điện tử là một trong những phương tiện ghi tin được sử dụng rộng rãi
trong thời đại ngày nay. Theo quy định tại Nghị định số 64/2007/NĐ-CP về ứng
dụng công nghệ thông tin trong hoạt động quản lý nhà nước, “Văn bản điện tử” là
văn bản được thể hiện dưới dạng thông điệp dữ liệu. Như vậy, với tính chất là một
loại hình văn bản, văn bản điện tử trước hết cũng phải đảm bảo yêu cầu ổn định,
thống nhất, cố định và truyền đạt thông tin cho nhiều đối tượng. Điểm khác biệt
giữa văn bản bản điện tử với văn bản giấy và các loại hình văn bản khác chính ở kỹ
thuật ghi tin, lưu trữ và truyền tin. Các công đoạn này được thực hiện bằng các
phương tiện hoạt động dựa trên công nghệ điện, điện tử, kỹ thuật số, từ tính, truyền
dẫn không dây, quang học, điện từ và các công nghệ tích hợp.
1.1.3. Thực trạng và nhu cầu xây dựng hệ thống quản lý văn bản điện tử
theo hƣớng ngữ nghĩa
Tập đoàn Bưu chính Viễn thông Việt Nam (VNPT) là công ty trách nhiệm hữu
hạn một thành viên do Nhà nước nắm giữ 100% vốn điều lệ, bao gồm: 01 Công ty
mẹ, 63 chi nhánh tại 63 Tỉnh/Thành phố, 03 Công ty con và 18 Công ty cổ phần.
Với số lượng nhân viên trên 30 ngàn người và đang thực hiện tái cơ cấu, sắp xếp lại
hoạt động sản xuất kinh doanh theo quyết định số 888/QĐ-TTg ngày 10/06/2014
của Chính phủ.
Do đó, công tác chỉ đạo điều hành từ Tập đoàn về các chi nhánh diễn ra
thường xuyên, liên tục và hầu hết dưới hình thức văn bản, tại mỗi chi nhánh lại có
các văn bản chỉ đạo riêng. Vì vậy, số lượng văn bản ngày càng nhiều, nhu cầu tìm
kiếm văn bản trong vô vàn các văn bản được lưu trữ là một yêu cầu hết sức cần
thiết, đặc biệt nhu cầu quản lý văn bản điện tử phục vụ công tác quản lý ngày càng
trở nên quan trọng. Mặc dù toàn bộ các công văn đều được lưu trữ dưới dạng các

file mềm số hóa nhưng chỉ đơn thuần là lưu trữ bản sao chứ chưa được sắp xếp theo
hệ thống cơ sở dữ liệu chuẩn nhất định.
Để đáp ứng nhu cầu quản lý, điều hành tập trung, liên tục, thời gian qua Tập
đoàn VNPT đã triển khai phần mềm quản lý văn bản điện tử (còn gọi là văn phòng
điện tử), và phần mềm đã hỗ trợ người dùng rất nhiều trong việc quản lý, lưu trữ, xử
lý và tìm kiếm văn bản điện tử. Tuy nhiên, số lượng văn bản lớn, nhu cầu tìm kiếm
một cách chính xác và nhanh chóng tăng lên.Việc khai thác, tìm kiếm văn bản đã có
dựa trên hai phương pháp tìm kiếm chủ yếu:
- Tìm kiếm theo từ khóa: Người sử dụng đưa ra chủ đề cần tìm tài liệu và các
từ khóa phù hợp. Hệ thống tiến hành so khớp và trả về một danh mục các tài liệu có
chứa chính xác với từ khóa đã được nhập vào trong trích yếu và nội dung của tài
liệu. Các giải pháp tìm kiếm là so sánh từ khóa của người dùng với dữ liệu có sẵn
trong cơ sở dữ liệu, nên người dùng phải sử dụng chính xác từ khóa mới có thể nhận
được kết quả tìm kiếm mong muốn;

2


- Tìm kiếm theo thuộc tính dữ liệu: Nếu nhớ chính xác thông tin chính của
văn bản (đơn vị ban hành?, loại văn bản là gì?, số văn bản?), người dùng có thể tìm
kiếm theo nhiều tiêu chí khác nhau với theo giao diện được thiết kế sẳn tương ứng
và các thuộc tính được quy định và tổ chức trong trong cơ sở dữ liệu.
1.1.4 Một số vấn đề còn hạn chế
Kỹ thuật tìm kiếm so khớp dựa trên từ khóa đã bộc lộ nhiều hạn chế. Chẳng
hạn, thông tin được cung cấp từ nhiều nguồn khác nhau, thì các thuật ngữ sẽ không
được thống nhất, cùng một thuật ngữ có thể được dùng với nhiều nghĩa khác nhau
và cũng có trường hợp nhiều thuật ngữ khác nhau lại dùng để chỉ các khái niệm có
cùng nghĩa. Một số trường hợp cụ thể gồm:
- Không tìm thấy tài liệu văn bản nếu không có sự quy ước và thống nhất
trong viết tắt các cụm từ (còn gọi là keyphrase):

Trong Tập đoàn VNPT, nhân viên có thói quen sử dụng các cụm từ
(keyphrase) viết tắt hoặc có ngữ nghĩa tương đương để mô tả thông tin văn bản khi
lưu trữ trong phần mềm quản lý. Ví dụ: Hai văn bản sau được mô tả trong cơ sở dữ
liệu hoàn toàn tương đương nhau về mặt ngữ nghĩa:
+ VB1: “Sự vụ điện khẩn số 18/VNPT-TG-DHTT về việc khắc phục sự cố
gián đoạn dịch vụ truy cập internet do bão số 9 gây ra”
+ VB2: “SVĐ khẩn số 18/VNPT-TG-DHTT về việc khắc phục sự cố gián
đoạn dịch vụ FTTH do bão số 9 gây ra”.
Nhận xét: VB2 sử dụng keyphrase viết tắt “SVĐ” tương đương keyphrase “Sự
vụ điện” trong VB1. Tương tự VB2 sử dụng keyphrase viết tắt “FTTH” tương
đương keyphrase “truy cập internet” trong VB1…
- Không tìm thấy văn bản nếu không có sự quy ước thống nhất dùng các
keyphrases khác nhau nhưng phản ánh ngữ nghĩa tương đương khi lưu trữ chúng
trong cơ sở dữ liệu. Ví dụ: Hai văn bản được lưu trữ trong cơ sở dữ liệu như sau:
+ VB1: “Văn bản số 137/VNPT-TG-KT ngày 01/11/2016 đề nghị giám đốc
các đơn vị thực hiện tiết kiệm chi phí sản xuất kinh doanh”
+ VB2: “Văn bản số 137/VNPT-TG-KT ngày 01/11/2016 đề nghị lãnh đạo
các đơn vị thực hiện tiết kiệm chi phí sản xuất kinh doanh”
Nhận xét: Trong ví dụ trên, có hai văn bản hành chính trên đang đề cập đến
việc chỉ đạo thủ trưởng các đơn vị thực hiện tiết kiệm chi phí sản xuất kinh doanh.
Nếu người dùng tìm kiếm những văn bản “chỉ đạo thủ trưởng các đơn vị thực hiện
tiết kiệm chi phí”, phương pháp tìm kiếm theo từ khoá sẽ không tìm thấy.
1.1.5 Đặt vấn đề
Sau 5 năm áp dụng phần mềm quản lý, tất cả các tài liệu, văn bản điều hành
của đơn vị đã được số hóa, lưu trữ trên hệ thống quản lý tập trung. Điều này dẫn
đến, cơ sở dữ liệu lưu trữ tài liệu văn bản tiếp tục tăng theo thời gian và theo sự phát

3



triển của hoạt động kinh doanh. Vấn đề đặt ra cần có giải pháp kỹ thuật cải tiến, xử
lý tìm kiếm được tốt hơn để đảm bảo việc tìm kiếm các tài liệu văn bản trên hệ
thống tương đối đầy đủ, chấp nhận dư thừa thông tin, nhưng hạn chế tình trạng tài
liệu văn bản liên quan tồn tại trong hệ thống nhưng không tìm thấy, nhằm giúp cho
cán bộ, nhân viên, đặc biệt là người quản lý có thể xem xét đầy đủ thông tin trước
khi ra quyết định kinh doanh, góp phần tăng năng suất lao động, kết quả hoạt động
của đơn vị.
Ví dụ: Giám đốc đơn vị trước khi ký hợp đồng thanh toán chi phí xây dựng hạ
tầng mạng, thiết bị phụ trợ cho đối tác cần có đầy đủ các văn bản, quyết định có liên
quan trước đó, nếu không tìm được các văn bản làm căn cứ mà vẫn ký quyết định
chi trả sẽ dẫn đến chi sai quy định, thất thoát tiền của đơn vị và bị truy cứu trách
nhiệm.
Hầu hết các văn bản điều hành đã được số hóa và lưu trữ trên hệ cơ sở dữ liệu
có cấu trúc thuộc hệ thống phần mềm (Sử dụng hệ quản trị Oracle 11G). Với hệ
thống tìm kiếm hiện tại, độ chính xác của kết quả tìm kiếm không cao, người sử
dụng cần phải tự mình chọn lọc tìm ra thông tin chính xác cần tìm hoặc phải qua
nhiều bước tìm kiếm.
Các phương pháp tìm kiếm phổ biến hiện nay, hỗ trợ người sử dụng tạo các
câu truy vấn gồm các từ khóa tìm kiếm. Tuy nhiên, mỗi từ khóa có thể có một hay
nhiều nghĩa tùy theo ngữ cảnh; Bộ máy tìm kiếm không thể hiện mối quan hệ giữa
các từ khóa với nhau;Thông tin có cùng ý nghĩa với từ khóa nhưng không nằm trong
kết quả trả về.
Qua quá trình tìm hiểu các kỹ thuật hiện nay, phương pháp tìm kiếm ngữ nghĩa
được các nhà nghiên cứu quan tâm, đặc biệt là ứng dụng Ontology. Tìm kiếm ngữ
nghĩa(semantic search) là tìm kiếm thông tin không dựa trên sự hiện diện của từ
khóa hay cụm từ, mà dựa vào nghĩa của từ. Động cơ tìm kiếm ngữ nghĩa khắc phục
được nhược điểm của tìm kiếm theo từ khoá bằng cách sử dụng ngữ nghĩa học
(semantics) và nhờ đó cung cấp cho người dùng kết quả chính xác, thích đáng. Nó
còn cho phép trả về các kết quả không liên quan một cách tường minh đến câu truy
vấn nguyên mẫu, hỗ trợ phân tích, xác định ngữ nghĩa nội dung của từng văn bản.

Từ những vấn đề nêu trên, khoá luận tập trung nghiên cứu nhằm giải quyết 02
vấn đề chính:
- Tìm hiểu phương pháp tổ chức biểu diễn tri thức lĩnh vực văn bản nội bộ
nhằm hỗ trợ cho việc tìm kiếm theo nhiều cách khác nhau và đặc biệt là theo hướng
có ngữ nghĩa. Trong phạm vi khoá luận này, chỉ tập trung nghiên cứu trong Tập
đoàn VNPT.
- Xây dựng chức năng xử lý tìm kiếm các văn bản hành chính trên hệ thống
theo hướng ngữ nghĩa, chọn lọc, thông tin phù hợp, khả năng giải quyết tìm kiếm
thống kê theo ngữ nghĩa để giúp cho Lãnh đạo đơn vị có thể truy vấn được thông tin
cần thiết và tương đối đầy đủ, hạn chế việc tìm kiếm thiếu thông tin, văn bản hành

4


chính, góp phần công tác điều hành, quản lý ra quyết định đúng đắn, kịp thời, chính
xác.
1.1.6 Nhận xét và hƣớng giải quyết
- Tình hình nghiên cứu, triển khai tìm kiếm ngữ nghĩa trên thế giới: Công cụ
Teachingwithdata.org trợ giúp học tập; Công cụ tìm kiếm ABS của Đại học
Stanford; Mô hình SSE của Madhan R Arumugam; Công cụ tìm kiếm Wolfram
Alpha...Nhưng hầu hết những công trình nghiên cứu này chỉ hỗ trợ cho những ngôn
ngữ phổ biến như Tiếng Anh, Tiếng Pháp, chưa có hỗ trợ Tiếng Việt.
- Tình hình nghiên cứu, triển khai tìm kiếm ngữ nghĩa trong nước: Mô hình
biểu diễn văn bản thành đồ thị đăng trên Tạp chí phát triển KH&CN của nhóm tác
giả Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi [1]; Mô hình
tổ chức và kỹ thuật tìm kiếm có ngữ nghĩa trên kho tài nguyên học tập lĩnh vực
CNTT của Huỳnh Thị Thanh Thương[8]; Ứng dụng xử lý‎ ngôn ngữ tự nhiên trong
hệ tìm kiếm thông tin trên văn bản tiếng Việt của Đồng Thị Bích Thủy, Hồ Bảo
Quốc[9]; Hệ thống quản lý tri thức và thông tin cho các thực thể có tên ở Việt Nam
của Cao Hoàng Trụ [11]…

- Đối với lĩnh vực hành chính, một số đề tài nghiên cứu như: Giải pháp tìm
kiếm tài liệu dựa trên ngữ nghĩa, ứng dụng vào việc tìm kiếm văn bản nhà nước
ngành thông tin và truyền thông của Tăng Thị Ngọc Em [2]; Ứng dụng semantic
web xây dựng hệ thống tìm kiếm văn bản trong ngành giáo dục của Phạm Hoàng
Linh [6]. Tuy nhiên, các nghiên cứu này chỉ dừng lại việc giới thiệu biểu diễn
Ontology trong tìm kiếm ngữ nghĩa nhưng chưa đề cập đến mô hình tổ chức thông
tin cụ thể.
Đặc biệt kết quả nghiên cứu của tác giả Huỳnh Thị Thanh Thương[8] về
CK_ONTO, rất phù hợp để vận dụng biểu diễn thông tin ngữ nghĩa trong lĩnh vực
hành chính nhà nước và giải quyết các vấn đề đặt ra trong phạm vi khoá luận này.
1.2. MỤC TIÊU CỦA KHÓA LUẬN
Từ nhu cầu thực tế tại Tập đoàn VNPT về việc tra cứu, tìm kiếm các văn bản
có sẳn trong cơ sở dữ liệu và khắc phục các hạn chế trong xử lý tìm kiếm của hệ
thống hiện tại, mục tiêu của khoá luận là:
- Xây dựng mô hình tổ chức, biểu diễn và lưu trữ thông tin theo hướng ngữ
nghĩa các tài liệu văn bản hành chính trong Tập đoàn VNPT (gồm các lĩnh vực: điều
hành thông tin, giá cước-tiếp thị và tài chính-kế toán).
- Căn cứ trên mô hình tổ chức, biểu diễn thông tin ngữ nghĩa nêu trên, xây
dựng chức năng tìm kiếm theo ngữ nghĩa: người dùng đưa ra yêu cầu câu truy vấn,
hệ thống sẽ phân tích và so sánh sự tương đồng ngữ nghĩa câu truy vấn với các tài
liệu văn bản trong cơ sở dữ liệu và trả về kết quả danh sách tài liệu văn bản khi tìm
thấy.

5


Ví dụ: Tìm được các văn bản chứa các thông tin liên quan đến tình hình kinh
doanh dịch vụ viễn thông, hệ thống có thể trả về các văn bản như sau:
+ VB1: “123/BC-VNPT-TG của VNPT Tiền Giang về kết quả kinh doanh dịch
vụ viễn thông tháng 09 năm 2016 .

+ VB2: “1124/BC-TTVT-CT của Trung tâm Viễn thông Châu Thành về kết
quả kinh doanh DVVT tháng 09 năm 2016”.
1.3 ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU
1.3.1 Đối tƣợng nghiên cứu:
Các đối tượng nghiên cứu trong khoá luận này gồm:
- Văn bản hành chính, văn bản điều hành trong Tập đoàn Bưu chính Viễn
thông Việt Nam (Tập đoàn VNPT);
- Các nguyên tắc tổ chức quản lý, lãnh đạo, điều hành của Tập đoàn VNPT;
- Các phương pháp kỹ thuật, tổ chức, biễu diễn và lưu trữ thông tin ngữ nghĩa
trong lĩnh vực nghiên cứu;
- Các phương pháp tìm kiếm ngữ nghĩa;
- Các công cụ hỗ trợ, ngôn ngữ lập trình liên quan đến việc cài đặt các mô
hình và thuật toán xử lý để tổ chức, biễu diễn và lưu trữ thông tin.
1.3.2 Phạm vi:
Phạm vi nghiên cứu tổ chức, biểu diễn thông tin ngữ nghĩa được giới hạn trong
phạm vi quản lý, điều hành của chi nhánh Tập đoàn tại tỉnh Tiền Giang gồm 3 lĩnh
vực: Điều hành thông tin, Giá cước-tiếp thị và Tài chính-Kế toán.
Phạm vi nghiên cứu của khoá luận phục vụ trong đơn vị doanh nghiệp nhà
nước cấp tỉnh và trong lĩnh vực chuyên ngành quản lý cụ thể.
1.4 PHƢƠNG PHÁP NGHIÊN CỨU
Phương pháp lý thuyết: biểu diễn thông tin ngữ nghĩa; tìm hiểu về ontology;
tìm hiểu các kỹ thuật xử lý câu truy vấn; tìm hiểu các kỹ thuật tìm kiếm, tìm kiếm
ngữ nghĩa; tổ chức biểu diễn dữ liệu;
Phương pháp thực nghiệm: xây dựng ontology; xây dựng kỹ thuật tìm kiếm
ngữ nghĩa; triển khai thử nghiệm trên cơ sở dữ liệu thực tế đang ứng dụng tại chi
nhánh Tập đoàn VNPT tại tỉnh Tiền Giang;
Hướng tiếp cận giải quyết: Tìm hiểu hoạt động của hệ thống thông tin điều
hành có sẳn tại VNPT Tiền Giang; Nghiên cứu tổ chức các cơ sở dữ liệu văn bản
hành chính, văn bản điều hành từ Tập đoàn về các chi nhánh; Thiết kế bổ sung cơ sở
dữ liệu để tổ chức, lưu trữ tài liệu văn bản mang tính ngữ nghĩa.

Các phương pháp và kỹ thuật áp dụng: Phương pháp biểu diễn và xử lý ngữ
nghĩa các tài liệu văn bản; Phương pháp và kỹ thuật lập chỉ mục tự động cho các tài

6


liệu, rút trích các khái niệm từ tài liệu, phân loại tài liệu và một số kỹ thuật xử lý
ngôn ngữ tự nhiên; Xây dựng hệ tìm kiếm thông tin ngữ nghĩa.
1.5 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN
Về mặt khoa học, khoá luận đóng góp một phương pháp vận dụng ontology để
biểu diễn tri thức trong lĩnh vực hành chính trong doanh nghiệp nhà nước cụ thể,
dựa trên biểu diễn tri thức để xây dựng kỹ thuật xử lý tìm kiếm ngữ nghĩa tài liệu
văn bản.
Về mặt thực tiễn, khoá luận nghiên cứu kỹ thuật tìm kiếm cải tiến để khắc
phục các hạn chế kỹ thuật tìm kiếm theo từ khóa của hệ thống đang ứng dụng tại chi
nhánh Tập đoàn Bưu chính Viễn thông Việt Nam tại tỉnh Tiền Giang. Kết quả
nghiên cứu có thể mở rộng phát triển để áp dụng cho các doanh nghiệp nhà nước
kinh doanh ngành nghề tương tự.
Tính mới của khoá luận này là phương pháp vận dụng ontology để biểu diễn
tri thức trong lĩnh vực quản lý văn bản của doanh nghiệp nhà nước. Phương pháp
này chưa được áp dụng cụ thể trong các ứng dụng CNTT của các chi nhánh trong
nội bộ Tập đoàn Bưu chính Viễn thông Việt Nam.
Xây dựng giải pháp ứng dụng công nghệ thông tin giúp cho Lãnh đạo chi
nhánh Tập đoàn Bưu chính Viễn thông Việt Nam tại tỉnh Tiền Giang có thể thu
thập, xử lý nhanh các thông tin được nhanh chóng, thuận lợi, chính xác, hạn chế
không dư thừa thông tin, kịp thời xử lý điều hành hoạt động của đơn vị dựa trên hệ
thống quản lý văn bản và điều hành của cơ quan.

7



CHƢƠNG 2
CƠ SỞ LÝ THUYẾT
Chương này trình bày cơ sở lý thuyết liên quan đến vấn đề truy hồi thông tin
(information retrieval), các lý thuyết cơ bản về ontology, CK_ONTO, phương pháp
tính khoảng cách ngữ nghĩa giữa các khái niệm và giới thiệu một số kỹ thuật xử lý
ngôn ngữ tự nhiên để làm cơ sở vận dụng giải quyết các vấn đề mà khoá luận đang
nghiên cứu(Các cơ sở lý thuyết được trình bày tham khảo tài liệu của tác giả Huỳnh
Thị Thanh Thương [8]). Đặc biệt, việc nghiên cứu các ontology cho biểu diễn tri
thức và biểu diễn ngữ nghĩa. Từ đó xây dựng giải pháp đáp ứng nhu cầu của ứng
dụng thực tế đặt ra.
2.1. VẤN ĐỀ TRUY TÌM THÔNG TIN
2.1.1. Cấu trúc của một hệ thống truy tìm thông tin
Ngày nay, hệ thống tìm kiếm tài liệu (Document Retrieval) đang được nhiều
người sử dụng thường xuyên, là một dạng của hệ thống tìm kiếm thông tin
(Information Retrieval, IR).IR là hệ thống truy tìm những tài liệu (trong số các tài
liệu có trong cơ sở dữ liệu lưu trữ) có nội dung liên quan, phù hợp, đáp ứng với nhu
cầu thông tin của người dùng, sau đó người dùng sẽ chọn lọc thông tin họ cần trong
các tài liệu liên quan đó. Tài liệu là các mẫu văn bản, hình ảnh, âm thanh và video.
Có hai khái niệm quan trọng thường được đề cập đến đó là tài liệu và câu truy vấn.
Một hệ thống tìm kiếm thông tin có hai chức năng chính là lập chỉ mục
(indexing) và tra cứu (interrogation).
- Lập chỉ mục là giai đoạn phân tích tài liệu, xác định các chỉ mục (term/index
term) biểu diễn nội dung của tài liệu. Việc lập chỉ mục có thể dựa vào một cấu trúc
phân lớp có sẵn, các chỉ mục này tồn tại trước và độc lập với tài liệu.Hoặc lập chỉ
mục bằng cách rút trích các chỉ mục từ chính nội dung của tài liệu (free text). Cuối
giai đoạn lập chỉ mục nội dung của các tài liệu có trong kho tài liệu (corpus) được
biểu diễn bên trong bằng tập các chỉ mục.
- Trong giai đoạn tra cứu, nhu cầu thông tin của người sử dụng được đưa vào
hệ thống dưới dạng một câu hỏi (query) bằng ngôn ngữ tự nhiên hay một dạng thức

qui ước nào đó, cũng sẽ được phân tích và biểu diễn thành một dạng biểu diễn
trong. Hệ thống sẽ sử dụng một hàm so khớp (matching function) để so khớp biểu
diễn của câu hỏi với các biểu diễn của các tài liệu để tìm ra các tài liệu có liên quan
(relevance).
Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ
(noun phrase), khái niệm (concept). Vấn đề xác định chỉ mục cho văn bản tiếng Việt
phức tạp hơn đối với ngôn ngữ khác.
Có hai hướng tiếp cận chính cho việc nguyên cứu các hệ thống IR bao gồm
phương pháp tiếp cận thống kê và phương pháp tiếp cận hướng ngữ nghĩa hay khái

8


niệm:
- Trong phương pháp tiếp cận thống kê, các tài liệu kết quả được truy tìm về
hoặc được xếp hạng cao là những tài liệu được xem là thích hợp với câu truy vấn
nhất theo một số tiêu chí đo lường thống kê.
- Trong phương pháp tiếp cận hướng ngữ nghĩa hay khái niệm thực hiện phân
tích cú pháp và ngữ nghĩa. Nội dung của một đối tượng thông tin được mô tả bởi
một tập các khái niệm hay một cấu trúc khái niệm, nói cách khác là cố gắng mô
phỏng lại các cấp độ hiểu của máy tính về các văn bản theo ngôn ngữ tự nhiên của
con người. Để rút trích khái niệm, hệ thống cần sử dụng đến nguồn tri thức về lĩnh
vực nhất định nào đó. Hướng tiếp cận chính cho việc nguyên cứu các hệ thống này
là sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công nghệ ontology.
2.1.2. Truy hồi thông tin theo hƣớng thống kê
Có một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê
thuần túy có thể kể đến là mô hình Boolean, Boolean mở rộng (extended Boolean),
Không gian vector (Vector Space), các mô hình xác xuất (Probabilistic models). Ý
tưởng chính theo hướng tiếp cận này là dùng một danh sách các term xuất hiện
trong tài liệu hay câu truy vấn là dạng biểu diễn của nội dung tài liệu và câu truy

vấn đó. Term - viết tắt của terminology, nghĩa là thuật ngữ, là một từ hay cụm từ
(keyphrase) biểu thị một khái niệm khoa học.
2.1.2.1 Mô hình Boolean
Định nghĩa mô hình truy hồi Boolean (Boolean retrieval model): là mô hình
cho việc truy hồi thông tin. Trong đó chúng ta có thể đặt ra bất kỳ truy vấn dưới
dạng một biểu thức Boolean của các term, các term kết hợp với các phép toán AND,
OR, và NOT. Mô hình này xem mỗi tài liệu như là một tập các từ (words). Yếu tố
chủ yếu cho truy hồi Boolean là thứ tự trong danh sách posting được truy xuất.
Chúng ta cần đánh giá và lưu trữ tạm thời biểu thức trung gian trong một biểu thức
phức tạp. Tuy nhiên trong nhiều trường hợp chỉ là sự liên kết thuần túy.
Ví dụ: Để trả lời câu truy vấn Brutus AND Caesar AND NOT Calpurnia,
chúng ta đi theo vector cho Brutus, Caesar và Calpurnia từ đầu đến cuối và có kết
quả so bit như sau: 110100 AND 110111 AND 101111 = 100100. Kết quả này cho
biết cột 1 và cột 4 bật bit 1. Như thế tương ứng với kết quả trả về là quyển sách
Antony and Cleopatra và quyển Hamlet.
Yếu tố chủ yếu cho truy hồi Boolean là thứ tự trong danh sách posting được
truy xuất. Chúng ta cần đánh giá và lưu trữ tạm thời biểu thức trung gian trong một
biểu thức phức tạp. Tuy nhiên trong nhiều trường hợp chỉ là sự liên kết thuần túy.
2.1.2.2 Mô hình Boolean cải tiến (Advanced Boolean Model )
Thậm chí nếu bổ sung thêm toán tử “proximity” thì điều kiện boolean vẫn là
đúng hoặc sai, “tất cả hoặc không có gì” (all – or – nothing) dẫn tới trường hợp là
tìm thấy một số lượng lớn tài liệu liên quan hoặc là không có tài liệu nào. Hơn nữa,

9


trong trường hợp câu truy vấn bao gồm nhiều term liên kết với nhau bởi toán tử OR,
một tài liệu có chứa tất cả (hay nhiều) term truy vấn cũng không được xem là tốt
hơn so với một tài liệu chỉ chứa một term. Tương tự, trong trường hợp với toán tử
AND, một tài liệu chứa được gần hết các term vẫn được xem là không phù hợp

giống như một tài liệu không chứa term nào. Từ những hạn chế nêu trên, nhiều mô
hình Boolean mở rộng đã được nghiên cứu phát triển nhằm sắp hạng kết quả trả về.
Những mô hình này sử dụng nhiều toán tử Boolean mở rộng khác. Ví dụ, một toán
tử boolean mở rộng có thể trả về một giá trị cho đối số nằm trong khoảng từ 0 đến 1
(thay vì chỉ là 2 số hoặc 0 hoặc 1) tương ứng với mức độ phù hợp khi so khớp giữa
biểu thức logic và tài liệu đang xét (mô hình p – norm là một điển hình).
Ƣu điểm của mô hình Boolean:
 Đơn giản, dễ hiểu, dễ cài đặt và sử dụng.
 Mô hình lý thuyết chặt chẽ, rõ ràng.
 Trả về những kết quả chứa chính xác các từ khóa tìm kiếm.
Nhƣợc điểm:
 Đặc tính all – or – nothing, hệ thống chỉ xác định hai trạng thái là tài liệu có
liên quan hoặc không liên quan với câu truy vấn nên kết quả trả về hoặc là quá
nhiều hoặc không có gì cả. Do đó, hiệu quả truy tìm không cao.
 Mối quan hệ giữa các term hay thứ tự giữa chúng không được xét đến.
 Không xếp hạng, không xác định được mức độ liên quan giữa tài liệu và
câu truy vấn.
 Việc chuyển một câu truy vấn của người dùng sang dạng biểu thức Boolean
không đơn giản, người dùng sẽ gặp khó khăn trong việc xây dựng các biểu thức truy
vấn Boolean.
Nhằm khắc phục những hạn chế trong mô hình Boolean, một mô hình mới đã
được đề xuất với ý tưởng chính là xét đến độ tương đồng giữa tài liệu và câu truy
vấn thay thế cho việc so khớp chính xác theo cách tiếp cận Boolean.
2.1.2.3 Mô hình không gian Vector(Vector Space Model)
Trong mô hình không gian vector, văn bản được thể hiện là các vector của các
term. Term này tiêu biểu cho các từ (word) và các cụm từ (keyphrase). Khi một từ
được chọn làm term, thì khi đó mỗi từ trong bộ từ vựng trở thành một chiều độc lập
trong mô hình không gian vector. Bất kỳ văn bản nào cũng có thể được thể hiện
bằng vector trong không gian với số chiều rất lớn. Nếu một term thuộc một văn bản
thì nhận giá trị khác không trong vector văn bản, cùng với chiều tương ứng cho term

đó. Bởi vì bất kỳ văn bản nào cũng chứa một tập hợp các term trong hạn định (bộ từ
vựng hàng triệu term) cho nên hầu hết các vector văn bản thì rất thưa thớt.
Để gán điểm số cho một tài liệu (document) từ câu truy vấn, thì mô hình
vector sẽ đo độ tương đồng giữa vector truy vấn và vector tài liệu. Cho nên ý tưởng

10


then chốt của giải pháp này là: xem các tài liệu và câu truy vấn là các vector trong
không gian có số chiều cao. Góc giữa 2 vector được dùng như một tiêu chuẩn để
đánh giá sự khác nhau giữa các vector.
Với mô hình không gian vector: các tài liệu và câu truy vấn được thể hiện là
các vector có trọng số. Sử dụng phép toán trên không gian vector để tính toán độ đo
tương tự giữa câu truy vấn và các văn bản hoặc các từ khóa biểu diễn, kết quả sau
khi tính toán có thể được xếp hạng theo độ đo tương tự với vector truy vấn.
Một cách hình thức, những tài liệu được biểu diễn trong một không gian tài
liệu D có chiều là các đặc trưng fi  F . Một tài liệu d được biểu diễn như một
r
vector d   wd f , wd f K , wd f   D với wd fi là trọng số của đặc trưng fi trong tài liệu d
và n = |F|. Tương tự, câu truy vấn cũng được biểu diễn trong cùng một không gian
tài liệu như một vector qr   wq f , wq f K , wq f   D .
1

2

n

1

2


n

Có nhiều cách tính trọng số được sử dụng, trong đó, phương pháp tính idf × tf
được xem là phổ biến và sử dụng rộng rãi nhất. “Term frequency” (tf) là tần số xuất
hiện của term trong tài liệu, phản ánh mức độ quan trọng của term trong tài liệu
đang xét, ngược lại, “inverse doccument frequency” (idf) đánh giá mức độ quan
trọng của term hay mật độ phân phối của term trong toàn bộ kho tài liệu bằng các
xét số tài liệu chứa term đó trên tổng số tài liệu trong kho. Càng có ít tài liệu chứa
term đang xét thì giá trị của idf càng lớn và nếu mọi tài liệu đều có chứa term đó thì
giá trị của idf sẽ bằng 0. Như vậy, với việc áp dụng idf × tf, trọng số được gán
r
tương ứng cho mỗi đặc trưng f của vector d được tính bởi công thức sau:
wdf  (log

N
)  tf fd  IDF ( f )  tf fd
Nf

d
Trong đó, tf f là tần số xuất hiện của đặc trưng f trong tài liệu d, N là số tài

liệu có trong bộ sưu tập và Nf là số tài liệu mà f xuất hiện.
Sau khi đã biểu diễn tập tài liệu và câu truy vấn thành các vector trong không
gian tài liệu, bước tiếp theo là tính toán độ tương quan (giống nhau) giữa chúng
bằng cách sử dụng các độ đo sau:
r

r


- Inner-product (hoặc dot-product): Sd ,q  d  q   wdf  wqf
f

- Cosin similarity: S d ,q

r r
r r
d q
 cos( d , q )  r
r 
d  q
r

- Distance metrics: Sd ,q  d  qr 

p

 (w

d
f

w
f

d
f

 wqf


r
r
d  q

 wqf ) p

f

- Hệ số Jaccard: Jaccard  n

Nz

11


- Hệ số Dice: Dice 
Trong đó:

r
d

2n
n1  n2

là vector document, qr là vector truy vấn, nlà số term chung của 2

vector d1và d2, n1 là số term khác 0 trong d1, n2 là số term khác 0 trong d2, N là tổng
số term trong không gian vector, z là số term không xuất hiện trong cả d1 và d2 (N –
z là số term có xuất hiện trong d1 hoặc d2 hoặc cả hai)
 Nhận xét về ƣu điểm và khuyết điểm của mô hình không gian vector

* Ƣu điểm:
 Đơn giản, dễ hiểu, dễ cài đặt.
 Hệ thống đánh trọng số các từ khóa biểu diễn làm tăng hiệu suất tìm kiếm.
 Khắc phục các hạn chế trên mô hình Boolean là tính được mức độ tương
đồng giữa một truy vấn và mỗi tài liệu, đại lượng này có thể được dùng để xếp hạng
các tài liệu trả về.
 Chiến lược so trùng một phần cho phép trả về các tài liệu phù hợp nhất, thỏa
mãn với thông tin truy vấn của người dùng.
 Mức độ trùng khớp có thể được dùng để xếp hạng các tài liệu, thứ bậc của
việc xếp hạng cho biết tài liệu có thỏa mãn với thông tin người dùng hay không.
 Tính được mức độ tương đồng giữa một câu truy vấn và mỗi tài liệu, nhưng
chỉ thực hiện một lần mà thôi nên không cho ra nhiều ngữ nghĩa.
* Khuyết điểm:
 Số chiều biểu diễn cho tập văn bản có thể rất lớn nên tốn nhiều không gian
lưu trữ, vì mỗi term là một chiều và tổng các term là từ điển mà đồng thời từ điển thì
lưu trữ trên bộ nhớ nên tốn nhiều không gian lưu trữ.
 Không cho biết nghĩa rộng hơn hoặc hẹp hơn so với term đang tìm, chỉ cho
biết độ đo giữa vector tài liệu và vector truy vấn có liên quan với nhau hay không.
 Các từ khóa biểu diễn được xem là độc lập với nhau.
Số chiều biểu diễn cho tập văn bản có thể rất lớn nên tốn không gian lưu trữ.
2.1.3.

Hệ thống tìm kiếm thông tin dựa trên ngữ nghĩa

Hệ thống tìm kiếm dựa trên ngữ nghĩa có chức năng, nguyên lý hoạt động và
các bộ phận cấu thành giống như một hệ thống tìm kiếm theo từ khóa. Điểm khác
biệt lớn nhất là việc sử dụng một tập các khái niệm để lập chỉ mục. Cụ thể, bộ lập
chỉ mục gồm có hai chức năng là rút trích toàn bộ các khái niệm có trong cơ sở dữ

12



liệu lưu trữ các tài liệu và lập chỉ mục cho các tài liệu dựa trên các khái niệm này.
Tương tự như bộ truy vấn của hệ tìm kiếm dựa trên từ khóa, bộ truy vấn của hệ
thống dựa trên các khái niệm trong nội dung câu truy vấn do người dùng nhập vào,
rút trích ngữ nghĩa từ câu truy vấn, so khớp với tập chỉ mục đã được lập để tìm ra
các tài liệu có liên quan. Tùy thuộc vào cách lập chỉ mục mà có cách so trùng câu
truy vấn với tập chỉ mục của tài liệu khác nhau, chẳng hạn nếu bộ lập chỉ mục sử
dụng các mô hình truyền thống thì cách bộ truy vấn so trùng các khái niệm cũng
giống như trong hệ thống tìm kiếm dựa trên từ khóa, nếu một cấu trúc khái niệm
biểu diễn tập khái niệm của các tài liệu đã được xây dựng trong quá trình lập chỉ
mục, thì cần xây dựng thêm một cấu trúc khái niệm để biểu diễn tập khái niệm của
câu truy vấn, sau đó việc tìm kiếm được thực hiện dựa trên việc so trùng giữa các
cấu trúc khái niệm này.
Các cấu trúc khái niệm có thể tổng quát hoặc cụ thể theo từng lĩnh vực, có thể
được tạo thủ công, bán tự động hoặc tự động, chúng có thể khác nhau ở dạng biểu
diễn hoặc ở cách xây dựng mối liên hệ giữa các khái niệm. Các kiểu cấu trúc khái
niệm phổ biến: cây khái niệm phân cấp (conceptual taxonomy), nguồn tri thức về
lĩnh vực (domain ontology), mạng ngữ nghĩa (semantic linguistic network of
concept), các đồ thị khái niệm (conceptual graphs), từ điển từ vựng (thesaurus), mô
hình tiên đoán (predictive model) và vector ngữ cảnh (context vector).
Trong thực tế, việc triển khai một hệ thống tìm kiếm dựa trên khái niệm vẫn
còn chưa phổ biến vì rất nhiều vấn đề vẫn chưa có lời giải tối ưu. Bên cạnh đó, việc
xây dựng cơ sở tri thức cho một lĩnh vực gặp khó khăn vì tốn nhiều chi phí xây
dựng và duy trì, cần kiến thức của chuyên gia về lĩnh vực và phụ thuộc nhiều vào
ngôn ngữ. Vì vậy, các công cụ tìm kiếm theo khái niệm hiện nay chỉ hỗ trợ một lĩnh
vực nhất định trong những ứng dụng cụ thể. Mặc dù đã có nhiều công trình nghiên
cứu xây dựng hệ thống tìm kiếm dựa trên khái niệm nhưng vẫn chưa có những đóng
góp đáng kể trong thực tiễn. Một số công trình nghiên cứu tiêu biểu như:
 Công trình của nhóm tác giả Lê Thị Hoàng Diễm, Jean-Pierre Chevallet và

Joo Hwee Lim [16] xây dựng hệ thống tìm kiếm dựa trên khái niệm sử dụng mô
hình mạng Bayes;
 Nhóm tác giả Hồ Bảo Quốc, Lê Thúy Ngọc [12] nghiên cứu vấn đề về tìm
kiếm dựa trên khái niệm, cụ thể bao gồm: các phương pháp mở rộng khái niệm,
cách tiếp cận lập chỉ mục theo khái niệm, triển khai thử nghiệm hệ thống tìm kiếm
thông tin y học (CIRS), sử dụng nguồn tri thức UMLSMetathesaurus, dùng công cụ
MetaMa để rút trích khái niệm tiếng Anh, XIOTA để lập chỉ mục, áp dụng trên bộ
dữ liệu ImageCLEFmed của CLEF, tuy nhiên hệ thống lập chỉ mục dựa trên mô
hình truyền thống nên không tận dụng được mối liên hệ giữa các khái niệm.
Nhìn chung, các nghiên cứu về tìm kiếm dựa trên khái niệm hiện nay chủ yếu
tập trung cải thiện hiệu quả tìm kiếm theo bốn hướng chính [12]:
 Nghiên cứu việc khai thác những nguồn tri thức như WordNet, UMLS,

13


Sensus.
 Nghiên cứu việc mở rộng tài liệu và mở rộng câu truy vấn.
 Nghiên cứu việc sử dụng các kỹ thuật khác để hỗ trợ quá trình tìm kiếm như
xử lý ngôn ngữ tự nhiên, fuzzy, khử nhập nhằng, phân loại (clasification),… hay các
kỹ thuật để sắp xếp kết quả tìm kiếm (ranking).
 Nghiên cứu cách thức xây dựng, biểu diễn và so trùng các cấu trúc khái
niệm, các cách lập chỉ mục khái niệm.
2.1.4. Đánh giá một hệ thống tìm kiếm thông tin
Việc đánh giá một hệ truy tìm thông tin thường được thực hiện theo các tiêu
chuẩn sau:
 Để đánh giá hiệu quả truy tìm của hệ thống, người ta sử dụng đến hai độ đo
cơ bản là độ chính xác (precision) và độ bao phủ (recall). Những độ đo này đo sự
thỏa mãn của người dùng với các tài liệu mà hệ thống tìm thấy. Cho S là tập các tài
liệu được tìm thấy (liên quan hệ thống). Cho U là tập các tài liệu liên quan đánh giá

của người dùng. Khi đó, độ chính xác và độ bao phủ sẽ được định nghĩa như sau:
Độ chính xác: là sự tương ứng giữa số tài liệu mà hệ thống tìm thấy có liên
quan đến câu truy vấn của người dùng trên tổng số các tài liệu tìm thấy của hệ
thống.
Độ chính xác 

S U
S

Độ chính xác 100% nghĩa là tất cả các tài liệu mà hệ thống tìm thấy điều liên
quan đến câu truy vấn của người dùng.
Độ bao phủ: là sự tương quan giữa số tài liệu hệ thống tìm thấy được đánh giá
là liên quan người dùng trên tổng số các tài liệu có liên quan theo người dùng.
Độ bao phủ 

S U
U

Độ bao phủ là 100% có nghĩa là hệ thống tìm thấy tất cả các tài liệu liên quan.
Thông thường, khó đáp ứng được cả hai độ đo này cùng một lúc. Một hệ thống
muốn tăng độ chính xác thường sẽ phải giảm độ bao phủ và ngược lại.
 Hiệu quả thực thi của hệ thống (Execution efficiency) được đo bởi thời gian
thực hiện thủ tục tìm kiếm các văn bản liên quan đến câu truy vấn được cho.
Hiệu quả lưu trữ được đo bởi dung lượng bộ nhớ cần thiết để lưu trữ dữ liệu
(cả bộ nhớ ngoài lưu trữ dữ liệu chỉ mục và bộ nhớ RAM khi hệ thống thực thi).

14


2.2. ONTOLOGY

Ontology được nghiên cứu, phát triển mạnh mẽ trong thời gian gần đây và trở
thành một lĩnh vực nghiên cứu phổ biến có mặt trong nhiều lĩnh vực từ xử lý ngôn
ngữ tự nhiên, công nghệ tri thức, các hệ thống trao đổi, tích hợp thông tin cho đến
biểu diễn, quản lý tri thức. Ontology hỗ trợ xây dựng mạng lưới ngữ nghĩa, từ điển
về các lĩnh vực chuyên môn trong các ứng dụng, mã hóa tri thức lĩnh vực thành một
hệ tri thức dùng chung mà máy tính có thể hiểu được bằng cách phân chia khối tri
thức này thành các đối tượng tri thức nhỏ hơn xác định mối liên hệ giữa chúng. Nội
dung trình bày trong phần tổng quan về ontology dưới đây được tham khảo từ tài
liệu [7].
2.2.1. Định nghĩa
Trong triết học
Ontology là một thuật ngữ có nguồn gốc từ triết học diễn tả các thực thể tồn tại
trong tự nhiên và các mối quan hệ giữa chúng. Theo cách nhìn của triết học,
ontology (bản thể học) là “một môn khoa học về nhận thức, cụ thể hơn là một nhánh
của siêu hình học về tự nhiên và bản chất của thế giới, nhằm xem xét các vấn đề về
sự tồn tại hay không tồn tại của các sự vật”. Theo đó người ta đưa ra khái niệm bộ
ba ngữ nghĩa bao gồm biểu tượng – khái niệm – sự vật, đây là mô hình dùng để mô
tả hay biểu diễn thế giới thực. Biểu tượng sẽ gợi lên khái niệm và biểu diễn sự vật
còn khái niệm sẽ đề cập tới sự vật.
Trong lĩnh vực Trí tuệ nhân tạo
Trong Trí tuệ nhân tạo đã có nhiều cách định nghĩa khác nhau về ontology,
một số định nghĩa được xem là kinh điển và được thừa nhận rộng rãi như sau:
 Gruber (1993) định nghĩa ontology như “một đặc tả tường minh của sự khái
niệm hóa trong một lĩnh vực”.
 Borst (1997) sửa đổi một chút định nghĩa của Gruber, rằng ontology là “ sự
đặc tả hình thức của sự khái niệm hóa được chia sẻ”. Studer (1998) giải thích hai
định nghĩa của Gruber và Borst như sau “Sự khái niệm hóa có nghĩa là mô hình trừu
tượng của các sự vật, hiện tượng trên thế giới được xác định qua các khái niệm liên
quan của sự vật, hiện tượng đó. Tường minh có nghĩa là các kiểu khái niệm và các
ràng buộc giữa chúng được xác định rõ ràng. Hình thức có nghĩa là ontology phải

được hiểu bởi máy tính. Chia sẻ có nghĩa là tri thức trong ontology được kết hợp
xây dựng và được chấp nhận bởi một nhóm hoặc một cộng đồng chứ không theo tri
thức chủ quan của cá nhân”.
 Motta (1999) định nghĩa “Ontology là đặc tả một phần của tập hợp các khái
niệm được sử dụng hình thức hóa các tri thức của một lĩnh vực cần quan tâm. Vai
trò cơ bản của một ontology là nhằm chia sẽ và sử dụng lại tri thức”.
 Uschold và Jasper (1999) phát biểu rằng “Ontology chứa các khái niệm và
quan hệ giữa các khái niệm, hình thành một cấu trúc của một lĩnh vực và giới hạn
ngữ nghĩa của thuật ngữ trong từ vựng”.
 Weiss (1999) định nghĩa “Ontology là một đặc tả của các khái niệm và
quan hệ trong lĩnh vực mà chúng ta quan tâm. Ontology không chỉ là phân cấp các

15


lớp mà còn mô tả các quan hệ giữa các lớp”.
 Theo định nghĩa của Hendler năm 2001, “Ontology là một tập hợp các thuật
ngữ tri thức (knowledge term), bao gồm từ vựng, các quan hệ ngữ nghĩa, một số luật
suy diễn và logic trong một lĩnh vực đặc thù”.
Nhìn chung, có rất nhiều định nghĩa về ontology, mỗi định nghĩa thể hiện một
cách nhìn khác nhau và đi kèm với nó là một phương pháp luận và kỹ thuật xây
dựng ontology. Một định nghĩa mang tính tổng hợp và đúng theo định hướng xây
dựng ontology của đề tài như sau: “Một ontology xác định một bảng từ vựng chung
cho những người cần chia sẻ thông tin trong một lĩnh vực, bao gồm định nghĩa của
các khái niệm cơ bản mà máy tính có thể hiểu được trong một lĩnh vực nào đó và sự
liên quan giữa chúng”.
2.2.2. Các thành phần của ontology
Ontology bao gồm các thành phần cơ bản sau:
 Các lớp (class) (tương ứng với các concept – khái niệm): là trung tâm của
hầu hết các ontology, mô tả các khái niệm trong miền lĩnh vực. Các lớp thường

được tổ chức phân cấp và áp dụng kỹ thuật thừa kế. Một lớp có thể có các lớp con
biểu diễn khái niệm cụ thể (hay đặc trưng) hơn so với lớp cha.
 Thuộc tính (property hay role, slot): mô tả các đặc tính, đặc trưng, tính chất
khác nhau của khái niệm và mỗi thuộc tính đều có giá trị. Thuộc tính còn được gọi
là datatype property và được phân biệt với quan hệ (relation) dựa trên kiểu dữ liệu
của giá trị.Một thuộc tính có giá trị thuộc các kiểu nguyên thủy (primitive) như
string, number, boolean, .... Một thuộc tính bản thân nó cũng có các thuộc tính con
và cũng có các ràng buộc trên nó.
 Quan hệ (relation): biểu diễn các kiểu quan hệ giữa các khái niệm. Các quan
hệ còn được gọi là các object propert. Sự khác nhau giữa quan hệ với các thuộc tính
là ở chỗ giá trị của quan hệ là một khái niệm còn giá trị.Tuy nhiên, giá trị của quan
hệ khác với giá trị của thuộc tính ở chỗ giá trị của quan hệ là một khái niệm.
 Thực thể hay thể hiện (instance): biểu diễn các phần tử riêng biệt của khái
niệm, là các thể hiện của lớp. Mỗi thể hiện của lớp biểu diễn một sự cụ thể hóa của
khái niệm đó.
 Hàm (function): là một loại thuộc tính hay quan hệ đặc biệt, trong đó, phần
tử thứ n là duy nhất đối với n-1 phần tử còn lại.
 Tiền đề (Axioms): biểu diễn các phát biểu luôn đúng mà không cần phải
chứng minh hay giải thích. Axioms được sử dụng để kiểm chứng sự nhất quán của
ontology hoặc cơ sở tri thức. Cả hai thành phần hàm và tiên đề góp phần tạo nên
khả năng suy diễn trên ontology.
2.2.3. Phân loại ontology
Về cơ bản ontology được phân loại như sau:
 Ontology biểu diễn tri thức (Knowledge representation Ontology) nắm giữ
các biểu diễn nguyên thủy được dùng để chuẩn hóa tri thức trong một mô hình biểu
diễn tri thức. Một trong những ontology thuộc loại này là Frame Ontology của
Gruber, ontology này định nghĩa những khái niệm như là frame, slot và các ràng

16



buộc slot cho phép biểu diễn tri thức theo hướng đối tượng hoặc theo frame-based.
 Ontology tổng quát (Generic Ontology) bao gồm từ vựng liên quan tới sự
vật, hiện tượng, thời gian, không gian, quan hệ nhân quả …có ý nghĩa chung chung
không chỉ dùng riêng cho một lĩnh vực nào. Ví dụ: WordNet, CYC, …
 Metadata ontology cung cấp từ vựng dùng để mô tả nội dung của các nguồn
thông tin trực tuyến. Ví dụ ontology Dublin Core
 Ontology lĩnh vực (Domain Ontology) là những ontology chuyên biệt của
một lĩnh vực nào đó. Nó cung cấp từ vựng về các khái niệm và các mối quan hệ
trong một lĩnh vực cụ thể. Ví dụ: ontology về y khoa MeSH, GALEN hay ontology
về sinh học Gene Ontology, OBO.
 Ontology tác vụ (Tast Ontology) cung cấp một tập các thuật ngữ cụ thể cho
những tác vụ cụ thể.
 Ontology lĩnh vực - tác vụ (Domain – Tast Ontology) là các ontology về tác
vụ có thể tái sử dụng trong một lĩnh vực nào đó.
 Ontology ứng dụng (Application Ontology)
 Ontology chỉ mục (Index Ontology)
 Ontology hỏi và trả lời (Tell and Ask Ontology) …
Các loại metadata ontology, ontology lĩnh vực, ontology ứng dụng nắm giữ tri
thức một cách tĩnh nghĩa là độc lập với cách giải quyết vấn đề, trong khi ontology
tác vụ, ontology lĩnh vực– tác vụ liên quan đến tri thức giải quyết vấn đề của một
lĩnh vực. Tất cả các ontology này có thể kết hợp với nhau để xây dựng lên một
ontology mới.
Ngoài ra, cộng đồng nghiên cứu phân biệt các ontology dựa trên độ phức tạp
của mô hình biểu diễn ontology.
 Lightweight ontology: chứa các khái niệm, phân cấp khái niệm, mối quan
hệ giữa các khái niệm và các thuộc tính mô tả khái niệm.
 Heavyweight ontology: bổ sung vào lighweight ontology các tiền đề, hàm
và ràng buộc.
2.2.4. Vai trò của Ontology

Xuất phát từ nhu cầu giao tiếp giữa người với người, giữa con người với máy
tính, nên cần có sự chia sẻ, thống nhất chung. Và hướng tiếp cận, xây dựng
ontology để cung cấp các nguồn thông tin giàu ngữ nghĩa mà máy tính có thể xử lý
được, đồng thời có thể chia sẻ tri thức là rất cần thiết. Bởi vì trong thực tiễn, mỗi
một hệ thống đều các khái niệm, thuật ngữ riêng, cấu trúc và phương pháp khác
nhau; Một số trường hợp giống nhau nhưng lại được hiểu theo ngữ cảnh khác nhau
hoặc biểu diễn theo các cách khác nhau. Do đó, nếu không có sự hiểu biết chung thì
giao tiếp sẽ trở nên nghèo nàn, khó xác định yêu cầu, khó đặc tả hệ thống, khả năng
liên kết giữa các hệ thống bị giới hạn, tính kế thừa thấp, phát sinh chi phí cho việc
xây dựng, liên kết các hệ thống.
Bên cạnh đó, việc triển khai các hệ thống thông minh đòi hỏi miền tri thức
chung về các sự vật và nó đóng vai trò then chốt trong hoạt động suy diễn. Vì vậy,
các tri thức này cần có một cơ chế thông minh và dễ hiểu, giảm thiểu tối đa sự nhầm

17


lẫn, trùng lắp giữa các khái niệm, xây dựng cơ sở ngữ nghĩa tiến đến chia sẻ hiểu
biết chung. Ontology có thể giải quyết được các vấn đề nêu trên, ontology gồm các
chức năng sau:
 Chia sẻ sự hiểu biết chung giữa các ứng dụng và con người, hiểu biết về cấu
trúc thông tin giữa con người và các tác tử.
 Cho phép sử dụng lại tri thức. Ví dụ, nếu một nhóm nghiên cứu đã phát
triển các ontology, nhóm khác có thể sử dụng lại cho ứng dụng của họ.
 Làm rõ lĩnh vực quan tâm, đưa ra các giả thiết rõ ràng về miền: tạo điều
kiện thay đổi khi tri thức về lĩnh vực thay đổi, các đặc tả rõ ràng về miền tri thức sẽ
giúp cho người mới dễ tìm hiểu ngữ nghĩa của các từ trong lĩnh vực quan tâm
 Phân tách hay tách rời tri thức lĩnh vực với tri thức xử lý: có thể hình dung
1 tác vụ tạo một tài liệu học tập từ nhiều thành phần theo đặc tả thì độc lập với
chương trình ứng dụng làm nhiệm vụ này.

 Phân tích tri thức: Phân tích hình thức của các khái niệm, cần thiết cho việc
tái sử dụng và mở rộng ontology. Muốn kế thừa hay sử dụng một ontology ta phải
phân tích và tìm hiểu các khái niệm và quan hệ giữa chúng trong ontology đó.
Theo Aldea, các ontology có khả năng:
 Cung cấp một cấu trúc để chú giải nội dung của một tài liệu với thông tin
ngữ nghĩa, điều này cho phép trích chọn thông tin thích hợp từ những tài liệu đó.
 Tích hợp thông tin từ nhiều nguồn khác nhau nhờ cung cấp một cấu trúc
cho tổ chức của nó và tạo thuận lợi cho trao đổi dữ liệu, tri thức và các mô hình.
 Đảm bảo sự đồng nhất và chính xác nhờ công thức hóa các ràng buộc nội
dung của thông tin.
 Tạo các thư viện của các mô hình có khả năng trao đổi và tái sử dụng.
 Cho phép lập luận, nghĩa là cho phép tiến triển từ xử lý cú pháp đến xử lý
ngữ nghĩa và cho phép các hệ thống suy diễn về các đối tượng dựa trên các luật sinh
tổng quát.
2.2.5. Các ứng dụng dựa trên Ontology
Hiện nay, ngoài việc chia sẻ tri thức ontology còn được áp dụng vào nhiều lĩnh
vực khác nhau như: Hệ thống quản lý tri thức, rút trích thông tin, thương mại điện
tử, web ngữ nghĩa, xử lý ngôn ngữ tự nhiên, cơ sở dữ liệu, quản lý thông tin đa ngôn
ngữ, khai phá tri thức, học máy, trong công nghệ phần mềm, trong kiến trúc đa tác
tử hay trong các hệ thống bảo mật, … Ontology cung cấp nguồn thông tin giàu ngữ
nghĩa giúp cho các hệ thống thực hiện các tác vụ với kết quả tốt hơn.
Ontology được tổ chức W3C đưa vào làm một trong những nền tảng xây dựng
Web ngữ nghĩa. Web ngữ nghĩa được định nghĩa như là sự mở rộng của Web hiện
tại bằng cách thêm vào các mô tả ngữ nghĩa của thông tin dưới dạng mà chương
trình máy tính có thể “hiểu” được. Trong đó, thông tin được định nghĩa rõ ràng,
giúp cho máy tính có thể “hiểu” được các thông tin và do đó các ứng dụng Web có
thể xử lý thông tin hiệu quả hơn. Việc phát triển ontology dựa trên mục đích muốn
cải thiện việc tìm kiếm trên Web vốn chỉ dựa trên việc duyệt và tìm kiếm theo từ
khóa. Ontology được dùng để gán nhãn lại các trang web, các web service hay các


18


nguồn dữ liệu khác trên internet nhằm tăng tính hiệu quả trong việc truy xuất, tìm
kiếm và khai thác dữ liệu.
Trong quá trình khai thác hoặc tích hợp dữ liệu, ontology mang lại tiện ích,
chẳng hạn như đối với các hệ thống bao gồm nhiều nguồn cơ sở dữ liệu khác nhau
(khác nhau về cách thức lưu trữ và nội dung thông tin), mỗi nguồn dữ liệu sẽ có một
ontology mô tả về nó. Các ontology đó sẽ được hợp nhất vào một ontology chung
và khi người dùng đưa ra yêu cầu thì hệ thống sẽ chuyển truy vấn đến nguồn cơ sở
dữ liệu tương ứng.
Trong thương mại điện tử, ontology sử dụng để mô tả các sản phẩm khác nhau
và được ứng dụng vào việc mục đích định vị và tìm kiếm sản phẩm tự động với các
thông tin có sẵn. Ở đây ontology đóng vai trò chuẩn hóa các nhóm mặt hàng. Ngoài
ra, ontology còn có công dụng giúp cho các hệ thống tự động giao tiếp với nhau dễ
dàng. Các trang web hoạt động như là cổng thông tin chung, có nhiệm vụ thực hiện
các biến đổi trên ontology giữa bên bán và bên mua.
Trong lĩnh vực giáo dục, ontology được sử dụng chủ yếu cho 3 mục đích: (i)
biểu diễn và lưu trữ tri thức về các lĩnh vực cũng như các đối tượng cần thiết trong
ứng dụng; (ii) xây dựng các mô hình tổ chức lưu trữ, biểu diễn ngữ nghĩa, biểu diễn
tài liệu, lập chỉ mục cho các tài liệu (iii) xây dựng các chiến lược tìm kiếm theo ngữ
nghĩa liên quan đến nội dung tài liệu. Ví dụ:
 Các hệ thống chia sẻ tài nguyên giáo dục trực tuyến: GEM - Gateway to
Educational Materials (thegateway.org), Connexions (cnx.rice.edu).
 Các mạng chia sẻ ngang hàng về tài nguyên giáo dục: POOL - Portal for
Online Objects in Learning , Edutella (www.edutella.org).
 Các hệ thống Elearning dựa trên ontology: PIP - Personalized Instruction
Planner (peonto.cityu.edu.hk), TANGRAM (iis.fon.bg.ac.yu/TANGRAM).
2.2.6 Một số nghiên cứu liên quan đến vấn đề ngữ nghĩa khác
- Lucene:

Lucene là một thư viện mã nguồn mở, cung cấp các hàm cơ bản hỗ trợ cho
việc đánh chỉ mục và tìm kiếm. Khi muốn áp dụng Lucene, người dùng cần có sẳn
dữ liệu. Dữ liệu có thể là tập hợp các tập tin dạng PDF, Word hay là các trang web
HTML; hoặc là dữ liệu lưu trong các hệ quản trị CSDL như MS SQL Server hay
MySQL. Dùng Lucene, ta có thể tiến hành đánh chỉ mục trên dữ liệu hiện có để sau
này có thể thực hiện thao tác tìm kiếm toàn văn trên dữ liệu đó.
Lucene cho phép tạo chỉ mục và tìm kiếm trên ứng dụng của ta. Các IR
Library là các search engines chứ không phải các web search engine. Lucene chỉ
cung cấp sẵn các API, không phải là một ứng dụng.
Bảng 2.1: Bảng mô tả 02 thành phần cốt lõi của Lucene
Nhóm 1: Lập chỉ mục
Nhóm 2: Tìm kiếm
IndexWriter: là thành phần trung tâm IndexSearcher: tìm kiếm từ chỉ mục
của tiến trình lập chỉ mục. Lớp này tạo đã được lập bởi IndexWriter (hay nói
chỉ mục mới và thêm các tài liệu vào cách khác là IndexSearcher mở index

19


×