TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
307
NGHIÊN CỨU ỨNG DỤNG MÃ NGUỒN MỞ LUCENE ĐỂ
XÂY DỰNG PHẦN MỀM TÌM KIẾM THÔNG TIN TRÊN VĂN BẢN
A CASE STUDY ON USING OPEN SOURCE LUCENE TO BUILD THE FULL
TEXT SEARCH ENGINE
Huỳnh Đức Việt
Trung tâm Công nghệ Phần
mềm, Trường Đại học Duy Tân
Võ Duy Thanh
Trường Cao đẳng Công nghệ
Thông tin Hữu nghị Việt – Hàn
Võ Trung Hùng
Trường Đại học Bách khoa,
Đại học Đà Nẵng
TÓM TẮT
Trong bài báo này chúng tôi giới thiệu những nghiên cứu về mã nguồn mở Lucene và chỉ
ra cách thức ứng dụng nó trong hệ thống tìm kiếm. Lucene là dự án mã nguồn mở được cung
cấp và quản lý bởi tổ chức Apache Software Foundation, đây là công cụ lập chỉ mục cho văn bản,
sử dụng trong hệ thống tìm kiếm. Lucene cho phép xử lý các văn bản đầu vào ở dạng văn bản
(text) để tạo ra tập chỉ
mục và cung cấp phương thức tìm kiếm trên tập chỉ mục đó. Nó cũng cho
phép người dùng kế thừa và phát triển để phù hợp với nhiều ngôn ngữ khác nhau. Chúng tôi đề
xuất mô hình ứng dụng Lucene để phát triển hệ thống tìm kiếm trên các văn bản lưu trữ. Trong
mô hình này, chúng tôi sử dụng mã nguồn của Lucene và xây dựng một số xử lý cho ngôn ngữ
tiếng Việt. Đầu tiên, chúng tôi tiến hành tách nội dung của các loại v
ăn bản, sau đó thực hiện một
số xử lý cho tiếng Việt và lập chỉ mục cho các văn bản, cuối cùng chúng tôi xây dựng các ứng
dụng tìm kiếm sử dụng tập chỉ mục này để truy vấn và lấy về tài liệu liên quan.
ABSTRACT
In this paper, we introduce our research on open- source Lucene and how to apply it to
a search engine. Lucene is the open source project which is supplied and managed by Apache
Foundation Organization. This is a tool applied to create an index for the text used in search
engine. Lucene helps to process on input documents for plain text to create an index and supply
search mode based on this index. It also helps users inherit and develop in appropriation to
different languages. We propose applied Lucene to develop a search engine on stored
documents. In this model, we use the source code of Lucene and build some processing
functions for Vietnamese. First, we begin to extract kinds of documents, and then perform some
processing for Vietnamese and create the index for the documents. Finally, we build search
applications using this index to query and retrieve similar documents.
1. Giới thiệu
Cùng với sự phổ biến của công nghệ thông tin, số lượng các tài liệu điện tử cũng
gia tăng từng ngày. Đến nay, số lượng các tài liệu được lưu trữ lên đến hàng tỷ trang.
Trong khi đó, nhu cầu khai thác trong kho tài liệu khổng lồ này để tìm kiếm những
thông tin cần thiết đang là nhu cầu thường ngày và thiết thực của người sử dụng. Tuy
nhiên, một trong những khó khăn con người gặp phải trong việc khai thác thông tin là
khả năng tìm chính xác thông tin họ cần trong kho tài liệu. Để trợ giúp công việc này,
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
308
các hệ thống tìm kiếm đã lần lượt được phát triển nhằm phục vụ cho nhu cầu tìm kiếm
của người sử dụng.
Những hệ thống tìm kiếm bắt đầu phát triển và đưa vào ứng dụng, phổ biến là
các hệ thống tìm kiếm theo từ khóa. Nhiều hệ thống hoạt động hiệu quả trên Internet
như Google, Bing, Yahoo!… Tuy nhiên, phần lớn các công cụ tìm kiếm này là những
sản phẩm thương mại và mã nguồn được giữ bí mật. Hoặc các hệ thống tìm kiếm trên
máy cá nhân như Windows Search, Google Desktop… đã đáp ứng phần nào nhu cầu
của người sử dụng, miễn phí cho cá nhân, tuy nhiên cũng chỉ đáp ứng được trên phạm
vi nhỏ. Điều này dẫn tới kết quả là nhiều nhà phát triển riêng biệt hoặc các tổ chức sử
dụng sẽ phải tự mình xây dựng từ đầu một công cụ tìm kiếm nếu hệ thống của họ cần
chức năng tìm kiếm này. Một cách tiếp cận hiệu quả để giải quyết vấn đề này là sử dụng
các thư viện mã nguồn mở để xây dựng hệ thống tìm kiếm.
Trong bài báo này, chúng tôi giới thiệu những những tính năng nổi bật nhất củ
a
Lucene, cùng những kết quả thử nghiệm trên hệ thống này và đưa ra những phát triển
mở rộng cho văn bản tiếng Việt.
2. Tìm kiếm thông tin
Tìm kiếm thông tin (Information Retrieval – IR) là tìm kiếm tài nguyên (thường
là các tài liệu - documents) trên một tập lớn các dữ liệu phi cấu trúc (thường là văn bản
– text) được lưu trữ trên các máy tính nhằm thỏa mãn nhu cầu về thông tin [2].
Mục đích của IR là trả lại cho ngườ
i dùng một tập các thông tin thỏa mãn nhu
cầu của họ. Chúng ta định nghĩa rằng thông tin cần thiết là “câu truy vấn” (query) và
các thông tin được chọn là “tài liệu” (documents). Mỗi cách tiếp cận trong IR bao gồm 2
thành phần chính: một là các kỹ thuật để biểu diễn thông tin (câu truy vấn, tài liệu) và
hai là phương pháp so sánh các cách biểu diễn này. Mục đích là để thực hiện tự động
qui trình kiểm tra các tài liệu bằng cách tính toán độ tương quan giữa các câu truy vấn
và tài liệu. Qui trình tự động này thành công khi nó trả về các kết quả giống với các kết
quả được con người tạo ra khi so sánh câu truy vấn với các tài liệu.
Hình 1. Mô hình biểu diễn và so sánh thông tin
Không gian
tài liệu D
Không gian
truy vấn Q
Hàm biểu diễn tài liệu d Hàm biểu diễn truy vấn q
Truy vấn
Tài liệu
Biểu diễn 1 Biểu diễn 2
Không gian
biểu diễn R
Hàm so sánh c
Xử lý của con người j
[0,1]
[0,1]
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
309
Gọi miền xác định của hàm biểu diễn câu truy vấn q là Q, tập hợp các câu truy
vấn có thể có; và miền giá trị của nó là R, không gian thống nhất biểu diễn thông tin.
Gọi miền xác định của hàm biểu diễn tài liệu d là D, tập hợp các tài liệu; và miền giá trị
của nó là R. Miền xác định của hàm so sánh c là R × R và miền giá trị của nó là [0,1],
tập các số thực từ 0 đến 1. Trong một hệ thống tìm kiếm lý tưởng:
c(q(query), d(doc)) = j(query, doc) , query Q, doc D
với j: Q × D Æ [0,1] biểu diễn việc xử lý của người dùng về mối quan hệ của
thông tin trên câu truy vấn và thông tin trong tài liệu.
Có nhiều cách đo lường khác nhau cho việc đánh giá mức độ xử lý trả về kết quả
của một hệ thống tìm kiếm thông tin. Các cách đo lường đều đòi hỏi một tập tài liệu và
một câu truy vấn trên tập tài liệu đó, giả sử rằng mỗi tài liệu có thể liên quan hoặc
không liên quan đến câu truy vấn.
o Độ chính xác (Precision): được đo bởi tỉ lệ của tài liệu tr
ả về chính xác trên
tổng các tài liệu nhận được
o Độ bao phủ (Recall): được đo bởi tỉ lệ tài liệu trả về chính xác trên tổng các tài
liệu có liên quan
o Kết quả sai (Fall-out): được đo bởi tỉ lệ các tài liệu không có liên quan tả về
trên tổng các tài liệu không liên quan
Ví dụ trong tập 1000 tài liệu được sử dụng cho tìm kiếm với 200 tài liệu liên
quan đến thông tin “tin học”, một hệ thống tìm kiếm thông tin “tin học” trả về được 150
tài liệu, trong đó có 130 tài liệu chính xác. Khi đó:
Độ chính xác =
}150{
}150{}200{
∩
=
}150{
}130{
~ 87%
Độ bao phủ =
}200{
}150{}200{
∩
=
}200{
}130{
~ 65%
Kết quả sai =
}800{
}150{}800{
∩
=
}800{
}20{
~ 2.5%
Các mô hình tìm kiếm thông tin thường sử dụng:
- Mô hình so khớp (Boolean retrieval model): là một mô hình mà chúng ta có thể
xem mỗi câu truy vấn là một biểu thức logic các mục từ, trong đó gồm các mục từ kết
hợp với các toán tử logic (AND, OR, và NOT). Mô hình sẽ xem mỗi tài liệu là một tập
Độ chính xác =
{Tài liệu liên quan} ∩ {Tài liệu nhận được}
{Tài liệu nhận được}
Độ bao phủ =
{Tài liệu liên quan} ∩ {Tài liệu nhận được}
{Tài liệu liên quan}
Kết quả sai =
{Tài liệu không liên quan} ∩ {Tài liệu nhận được}
{Tài liệu không liên quan}
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
310
hợp các mục từ. Mỗi mục từ sẽ chứa một danh sách các tài liệu có chứa nó, danh sách
này gọi là posting, việc so khớp sẽ duyệt qua danh sách posting để kiểm tra các tài liệu
có chứa mục từ hay không.
- Phương pháp tính điểm: Mô hình so khớp chỉ trả về giá trị chân lý là có hoặc
không có trong tài liệu tìm kiếm, kết quả trả về không có thứ hạng. Điều này đã dẫn đến
kết quả tìm kiếm không được như mong muốn của người dùng. Để cải tiến mô hình này,
người ta áp dụng cách tính điểm cho kết quả trả về, dựa trên trọng số của mục từ trên tài
liệu.
Tần suất xuất hiện của mục từ t trên tài liệu d được ký hiệu là tf
t,d
. Tần suất
nghịch đảo của tài liệu d trên tập N tài liệu ký hiệu là idf
t
=log(N / df
t
), khi đó, trọng số
mục từ t trên tài liệu d sẽ là tf-idf
t,d
= tf
t,d
× idf
t
, điểm số của tài liệu d sẽ là tổng điểm
các mục từ trong câu truy vấn có mặt trong d:
Score (q,d) =
∑
∈
−
qt
dt
idftf
,
Ví dụ với 1000 tài liệu có 100 tài liệu chứa mục từ “tin” và 150 tài liệu chứa
mục từ “học”, giả sử tài liệu thứ nhất d có 3 lần xuất hiện mục từ “tin” và 4 lần xuất
hiện mục từ “học”, khi đó điểm số của câu truy vấn q=tin học trên tài liệu d sẽ là:
Score(q,d) = tf
tin,d
- idf
tin
+ tf
học,d
- idf
học
= tf
tin,d
× log (N/df
tin
) + tf
học,d
× log
(N/df
học
)
= 3 × log (1000/100) + 4 × log (1000/150) ~ 6.23
- Mô hình không gian vec-tơ (The vector space model): Mô hình so khớp và cả
phương pháp tính điểm số ở trên chưa xét vai trò của các mục từ trong câu truy vấn. Ví
dụ hai tài liệu chứa câu “Mary is quicker than John” và “John is quicker than Mary”, số
lượng các mục từ như nhau nhưng vai trò khác nhau hoàn toàn. Để giải quyết vấn đề
này người ta đưa ra mô hình không gian vec-tơ, mô hình này sẽ biểu diễn tài liệu d như
một vec-tơ tần suất các mục từ )(V d .Với hai tài liệu trên thì tuy có các mục từ giống
nhau, nhưng biểu diễn vec-tơ của chúng thì lại khác nhau, khi đó chúng ta có thể tính
mức tương quan giữa hai tài liệu:
sim (d
1
, d
2
) =
)(dV)(dV
)(dV).(dV
21
21
×
Đối với truy vấn q chúng ta cũng xem đây là một vec-tơ
)(V q
biểu diễn tần
suất các mục từ truy vấn. Mức độ tương quan giữa hai vector được tính theo hàm cosin
của góc giữa chúng:
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
311
Ví dụ, với truy vấn best car insurance trên tập dữ liệu với N=1.000.000 tài liệu
với tần số xuất hiện của 4 mục từ auto, best, car, insurance lần lượt là 5.000, 50.000,
10.000, 1.000. Chúng ta có bảng tính điểm số sau:
Mục từ
Truy vấn q
tf df idf w
t,q
Tài liệu d
(ngẫu nhiên)
tf wf w
t,d
Điểm số
auto 0 5000 2.3 0 1 1 0.41 0
best 1 50000 1.3 1.3 0 0 0 0
Car 1 10000 2.0 2.0 1 1 0.41 0.82
insurance 1 1000 3.0 3.0 2 2 0.82 2.46
Như vậy, điểm số Score (q,d) = 0 + 0 + 0.82 + 2.46 = 3.28
3. Mã nguồn mở Lucene
Năm 1998, Doug Cutting – từng là nhân viên của Excite, Yahoo, và đang làm
việc tại Apache Software Foundation - đã bắt đầu tiến hành xây dựng thư viện tìm kiếm
thông tin mã nguồn mở Lucene với mục tiêu phát triển nó thành một thư viện tìm kiếm
tài liệu hoàn chỉnh, cho phép các nhà phát triển ứng dụng dễ dàng tích hợp chức năng
tìm kiếm vào hệ thống của mình.
Lucene là một thư viện tìm kiếm thông tin có khả năng xử lý và khả năng mở
rộng ở mức cao, cho phép chúng ta có thể tích hợp vào các ứng dụng. Lucene là một dự
án mã nguồn mở và nguyên thuỷ được phát triển bằng ngôn ngữ Java, ngày nay Lucene
được phát triển bằng nhiều ngôn ngữ khác nhau như Delphi, Perl, C#, C++, Python,
Ruby và PHP…
Thành phần chức năng chính của Lucene bao gồm hai phần: Thành phần tạo chỉ
mục và thành phần tìm kiếm. Đây là hai thành phần quan trọng cho một hệ thống tìm
kiếm.
sim(d
i
,q)= cos
θ
=
(q)V)(dV
(q)V).(dV
i
i
×
≈
)().( qvdv
i
Với :
)(/)()( dVdVdv =
,
)(/)()( qVqVqv =
là các vec-tơ đơn vị.
Length(d)=M, Length(q)=N
∑
=
=
M
i
i
dVdV
1
2
)()(
,
∑
=
=
N
i
i
qVqV
1
2
)()(
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
312
Hình 2. Các thành phần Lucene hỗ trợ cho hệ thống Tìm kiếm
- Thành phần Tạo chỉ mục: bao gồm các phần chức năng xử lý tạo chỉ mục, từ
văn bản đầu vào để cho ra kết quả là một tập chỉ mục. Lucene chỉ hỗ trợ trên văn bản
sau khi được tách nội dung ở dạng ký tự thuần, nó cho phép lập chỉ mục trên từng
trường thông tin của văn bản và cho phép thiết lập hệ số cho từng trường thông tin
để
nâng cao vai trò lúc tìm kiếm.
• Directory: cho phép định nghĩa vùng nhớ, xác định nơi lưu trữ trên bộ nhớ
ngoài và bộ nhớ trên RAM trong quá trình tạo chỉ mục
• Document và Field: định nghĩa tài liệu và các trường thông tin của tài liệu sử
dụng cho lập chỉ mục, nó cũng sử dụng cho việc lấy kết quả trả về cho thành
phần Tìm kiếm
• Analyzer: thực hiện chức năng xử
lý và tách văn bản để lấy nội dung, chuẩn
hóa, loại bỏ mục từ không cần thiết,… để chuẩn bị cho việc lập chỉ mục
• IndexWriter: là phần chính trong thành phần Tạo chỉ mục, nó thực hiện việc
tạo mới hoặc mở chỉ mục, sau đó thực hiện thêm mới hoặc cập nhật nội dung
của chỉ mục
- Thành phần Tìm kiế
m: bao gồm các phần chức năng cho xử lý tìm kiếm, từ
yêu cầu của người dùng, thông qua biên dịch và so khớp để lấy về kết quả tốt nhất.
Lucene hỗ trợ nhiều loại truy vấn thuận tiện cho người sử dụng, nó cho phép tìm theo
trường thông tin hay các thiết lập nâng cao như sắp xếp kết quả, giới hạn thời gian hoặc
số lượng kết quả, phân trang…
• Term: Term là m
ột đơn vị cơ bản của tìm kiếm, tương tự như thành phần
Field, Term cũng bao gồm tên và giá trị tương ứng.
• Query: bao gồm nhiều loại truy vấn khác nhau, nó chứa nhiều phương thức,
nhưng hầu hết đều quan tâm đến việc thiết lập chỉ số Boost, cho phép Lucene
hiểu truy vấn con nào là quan trọng hơn.
• IndexSearcher: cho phép tìm kiếm trên tập chỉ mục do IndexWriter tạo ra,
đây là thành phần chỉ thực hiện nhiệm vụ mở tập chỉ mục, không cho phép
chỉnh sửa hay thay đổi. Có nhiều phương thức tìm kiếm, một trong số đó là
lớp thành phần thực thi Searcher, với cách đơn giản là cung cấp một Query
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
313
truy vấn, số lượng các liên kết cần trả về, và kết quả trả về sẽ là tập các đối
tượng TopDoc.
• TopDoc: là một lớp đơn giản, dùng cho việc chứa các thứ hạng cao nhất của
N tài liệu có liên quan đến truy vấn. Với mỗi đối tượng trong danh sách này
sẽ cho một docID dùng để liên kết đến tài liệu nhận về.
Lucene không phải là một ứng dụng hay một máy tìm kiếm hoàn chỉnh để người
dùng có thể sử dụng ngay, đây chỉ là một thư viện, nó cung cấp các thành phần quan
trọng nhất của một máy tìm kiếm đó là tạo chỉ mục và truy vấn. Chính vì chỉ cung cấp
các thành phần quan trọng trong việc tạo chỉ mục nên người dùng rất linh hoạt trong
việc ứng dụng vào sản phẩm của mình, cũng như có một số cải tiến cho phù hợp hơn.
4. Xây dựng hệ thống tìm kiếm công văn
Trên cơ sở nghiên cứu, chúng tôi đề xuất một hệ thống tìm kiếm trên các tài liệu
và công văn lưu trữ. Trong đó, chúng tôi kế thừa mã nguồn từ Lucene.NET để xây dựng
hệ thống tìm kiếm với hai thành phần chính là Tạo chỉ mục và Tìm kiếm. Do chỉ xây
dựng hệ thống tìm kiếm nhỏ với dữ liệu là văn bản công văn đã lưu sẵn trên máy và bổ
sung một cách thủ công từ phía người dùng nên hệ thống không có thành phần thu thập
thông tin. Các thành phần xây dựng bao gồm:
− Thành phần tạo chỉ mục: bao gồm các chức năng chính như chỉ định dữ liệu lập
chỉ mục, thực hiện phân tích tài liệu, tạo chỉ mục và lưu trữ xuống tập chỉ mục,
cập nhật chỉ mục trong trường hợp bổ sung hay thay đổi, theo dõi và quản trị nội
dung chỉ mục… Thành phần này dựa trên những lớp có sẵn của Lucene, ngoài ra
có phát triển một số lớp bổ sung cho việc đọc nội dung các loại tài liệu, phân tích
hỗ trợ ngôn ngữ Tiếng Việt, giao diện người dùng…
− Thành phần tìm kiếm: bao gồm các chức năng chính như: nhận thông tin truy
vấn, biên dịch và tìm kiếm, trình bày kết quả và liên kết đến tài liệu gốc… trong
đó các lớp biên dịch truy vấn và tìm kiếm dựa trên các thành phần có sẵn của
Lucene.
Do đặc trưng của các văn bản lưu trữ là được thu thập từ nhiều đơn vị và do
nhiều người dùng tạo ra, nên tồn tại rất nhiều loại tệp tin văn bản cũng như sự thiếu
đồng nhất về bảng mã tiếng Việt. Về cơ bản, Lucene chỉ hỗ trợ cho vă
n bản Text và
ngôn ngữ tiếng Anh, do vậy số lượng văn bản lập chỉ mục được là rất ít (chỉ có tệp tin
dạng .txt), các mục từ trên tiếng Việt không được chuẩn hoá nên có thể dẫn đến tình
trạng dư thừa và tìm kiếm thiếu chính xác. Ví dụ với mục từ "trường" thì có thể tồn tại
đến 3-4 mục từ trong chỉ mục, mỗi mục từ là một bảng mã như Vni, Abc, Unicode,…
và nghiêm trọng hơn mục từ này không được tách chính xác do ký tự dấu làm cho thành
phần phân tích của Lucene không thể tách đúng từ vựng.
Trên cơ sở tạo chỉ mục của Lucene, chúng tôi đã kế thừa và xây dựng thành
phần tách nội dung các loại tệp tin văn bản, trong đó có hỗ trợ cho ngôn ngữ tiếng Việt
như xây dựng lại danh sách từ loại bỏ (stopword), thực hiện chuẩn hoá bảng mã Tiếng
Vi
ệt (stemming)…
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
314
− VietnameseAnayzer: Chức năng chính là định nghĩa lại danh sách từ cần loại bỏ
stopword, thay vì loại bỏ một số từ tiếng Anh, chúng tôi định nghĩa lại danh sách
các từ loại bỏ trong tiếng Việt, đây là các từ ít nghĩa như:
"à","ạ","ấy","bây","bấy","bỗng",…
− VietnameseStemFilter: Chức năng chính là lọc các mục từ đọc ra từ thành phần
phân tích và thực hiện đưa sang thành phần chuyển mã.
− AutoGetFont: Thực hiện nhận diện các bảng mã tiếng Việt như ABC, Vni,
Vietware, Unicode Dựng sẵn hay Tổ hợp…
− AutoConvert: thực hiện chuyển đổi các bảng mã Tiếng Việt về dạng TCVN
6909.
− ExtractFile: Thực hiện việc lấy văn bản ký tự thuần từ các loại tệp tin khác nhau
như MS Word, MS Excel, MS PowerPoint, Pdf, Html… Trong đó có sử dụng các
thư viện hỗ trợ của MS Office, PDF Box, HTML Parse để tách văn bản và lấy nội
dung.
Hệ thống xây dựng gồm hai ứng dụng chính: ứng dụng thứ nhất là Tạo chỉ mục,
cho phép thực thi trên máy chủ, dành cho người quản trị với các chức năng chính là chỉ
định dữ liệu lập chỉ mục, tạo và cập nhật nội dung chỉ mục, quản lý người dùng… Ứng
dụng thứ hai là tìm kiếm, cho phép thực thi trên các máy người dùng cuối, hoạt động cả
trên môi trường LAN và Internet với chức năng chính là nhận yêu cầu tìm kiếm và trả
về danh sách tài liệu liên kết cho người dùng.
Hình 3. Mô hình hệ thống tìm kiếm công văn
5. Thử nghiệm
Với mô hình hệ thống như trên, chúng tôi đã xây dựng và thử nghiệm với khoảng
15.000 văn bản, đa số là các thông báo, quyết định và công văn thu thập ở Trường Đại
Tách n
ộ
i dun
g
văn bản
Tập chỉ
m
ụ
c
Yêu cầu tìm kiếm
Người sử dụng
Công văn lưu trữ
- Loại bỏ stopword
- Nhận dạng bảng mã
- Chu
y
ển mã
- Thiết lập thông tin
- Lập chỉ mục
- Ứng dụng/Website tìm kiếm
- Lấy về kết quả
- Phân tích truy vấn
-Tìm kiếm
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
315
Học Duy Tân, đây là nguồn tài liệu chưa lớn nhưng đầy đủ các loại văn bản thông dụng
như doc, docx, xls, xlsx, ppt, pptx, pdf, html,… và chứa đựng nhiều bảng mã tiếng Việt.
Hệ thống đã thực hiện thành công trên máy tính cá nhân với cấu hình Intel Core
2 Duo T6600 2.2GHz, 2GB RAM
và kết quả thống kê như sau:
S
T
T
Loại tài liệu,
số lượng
Tổng tệp
tin, Kích
thước
Thời
gian lập
Kích
thước
tệp chỉ
mục
Số
lượng
mục từ
Truy
vấn
Kết quả và
thời gian tìm
kiếm Trung
Bình
1
(.doc): 6
(.xls): 1
TS : 7
(216 KB)
00:00:0
7
12 KB 645
"văn
bản"
3kq ~ 0.031s
2
(.doc): 144
(.xls): 27
(.pdf): 7
(.ppt): 1
TS : 179
(23.1
MB)
00:02:1
0
302 KB 6262 văn bản
110kq ~
0.047s
3
(.doc): 1053
(.xls): 216
(.pdf): 19
TS : 1288
(167 MB)
00:21:1
9
1.5 MB 25388
nh*
881kq ~
0.062s
4
(.doc):
11392
(.docx): 121
(.xls): 3753
(.pdf): 146
(.ppt): 10
(.pptx): 6
TS :
15428
(2.1 GB)
04:15:4
8
26.8 MB 302117
văn bản
4821kq ~
0.42s
Qua kết quả thống kê trên thực tế tài liệu gốc (thực hiện thủ công đối với trường
hợp ít tài liệu) cho thấy thử nghiệm cho kết quả tương đối chính xác và hiệu quả:
− Khoảng 3% tài liệu bị sai sót trong quá trình tách văn bản và chuyển mã.
− Kích thước chỉ mục trung bình giảm 20-30 lần cho văn bản ký tự, trên 30 lần cho
văn bản có chèn hình ảnh.
− Thời gian tách văn bả
n, chuyển mã và lập chỉ mục tương đương 1 giây cho mỗi
tài liệu (các văn bản thông dụng, kích thước không quá 10 trang).
− Tỉ lệ cập nhật và chỉnh sửa chính xác 100%.
Như vậy, hệ thống tìm kiếm văn bản và công văn đã đáp ứng những yêu cầu cơ
bản của người quản trị và người dùng. Hệ thống đã hỗ trợ cho hầu hết các loại văn b
ản
phổ biến hiện có và bước đầu hỗ trợ cho xử lý trên ngôn ngữ tiếng Việt.
6. Kết luận
Kết quả đạt được chỉ mới dừng lại ở phạm vi nhỏ với số lượng văn bản còn hạn
chế. Kết quả lớn nhất đạt được là chúng tôi đã nghiên cứu một cách hệ thống các tính
năng và hoạt động của mã nguồn mở Lucene và ứng dụng thành công mã nguồn này
trong công tác tìm kiếm thông tin trên văn bản. Hệ thống được kế thừa toàn bộ thư việ
n
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010
316
mã nguồn mở Lucene.NET nên tính hiệu quả rất lớn và không phải mất chi phí cho bản
quyền sử dụng.
Việc xây dựng một số tính năng xử lý cho tiếng Việt tuy còn ít nhưng đã mở ra
khả năng kế thừa và phát triển mã nguồn này. Trên cơ sở đó, chúng ta có thể tùy chỉnh,
mở rộng chức năng, hay đóng góp để phát triển cho Lucene.
Chúng tôi nhận thấy rằng, với việc phát triển nhanh chóng của công nghệ thông
tin cũng như nhu cầu tìm kiếm thông tin của người dùng ngày một nhiều thì hệ thống rất
có khả năng để phát triển. Trong thời gian đến, chúng tôi hy vọng sẽ kết hợp với xử lý
ngôn ngữ tiếng Việt để xây dựng được một hệ thống tìm kiếm hoàn chỉnh hơn.
TÀI LIỆU THAM KHẢO
[1] C.J. van Rijsgergen, “Information Retrieval”, Information Retrieval Group,
University of Glasgow, LonDon, United Kingdom, 1979.
[2] Christopher D. Manning, Prabhakar Raghavan and Hinrich
Schütze: “Introduction to Information Retrieval”, Cambridge University Press,
2008.
[3] Erik Hatcher, Michael McCandless, Otis Gospodnetic: “Lucene in Action”,
Apache Jakarta Project Management Committee, 2008.
[4] Grant Ingersoll, Ozgur Yilmazel, Niranjan Balasubramanian, Steve Rowe,
Svetlana Smoyenko, “Advanced Lucene”, Center for Natural Language
Processing, 2005.
[5] Peter Ingwersen, “Information Retrieval Interaction”, Taylor Graham Publishing,
LonDon, United Kingdom, 1992.
[6] Đỗ Phúc, Đỗ Hoàng Cường, Nguyễn Tri Tuấn, Huỳnh Thụy Bảo Trân, Nguyễn
Văn Khiết, “Phát triển một Hệ thống S.E Hỗ trợ Tìm kiếm Thông tin, thuộc lãnh
vực CNTT trên Internet qua từ khóa bằng tiếng Việt”, Đại Học Khoa Học Tự
Nhiên, TP.HCM.
[7] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, “Modern Information Retrieval”, A
Division of the Association for Computing Machinary, New York, 2008.
[8] The Apache Software Foundation: “Apache Lucene.Net Class Library API”,
[9] Tổng cục tiêu chuẩn đo lường chất lượng: “Xử lý văn bản Tiếng Việt qua mạng”,