1
Trờng Đại học Văn hoá H Nội
Khoa th viện - thông tin
-------------------------
TìM KIếM THÔNG TIN VĂN BảN
TRONG THƯ VIệN Số
Khoá luận tốt nghiệp
Giảng viên hớng dẫn
: TS. Đỗ QUANG VINH
Sinh viên thực hiện
: NGUYễN THị THANH HảI
Lớp
: th viện 41B
H Néi - 2013
2
MỤC LỤC
MỞ ĐẦU ....................................................................................................................1
Chương 1: KHÁI QUÁT VỀ THƯ VIỆN SỐ VÀ THÔNG TIN VĂN BẢN
TRONG THƯ VIỆN SỐ .........................................................................................10
1.1 Khái niệm, đặc trưng và kiến trúc thư viện số ...........................................10
1.1.1 Khái niệm thưviện số ..............................................................................10
1.1.2 Đặc trưng thư viện số ..............................................................................13
1.1.3 Kiến trúc thư viện số ................................................................................16
1.2 Thông tin văn bản trong thư viện số............................................................22
Chương 2: PHƯƠNG PHÁP TÌM KIẾM THÔNG TIN VĂN BẢN .................24
TRONG THƯ VIỆN SỐ .........................................................................................24
2.1 Mơ hình tìm kiếm thơng tin - IR ..................................................................24
2.2 Truy vấn Boolean – BQ.................................................................................28
2.2.1 Truy vấn BQ hội ......................................................................................29
2.2.2 Truy vấn BQ không hội ...........................................................................31
2.3 Truy vấn xếp hạng - RQ ...............................................................................34
2.3.1 So khớp tọa độ ..........................................................................................36
2.3.2 Tích trong độ tượng tự.............................................................................36
2.3.3 Mơ hình khơng gian vector .....................................................................38
Chương 3: THỬ NGHIỆM TÌM KIẾM VÀ ĐÁNH GIÁ HIỆU SUẤT TÌM
KIẾM THƠNG TIN VĂN BẢN TRONG THƯ VIỆN SỐ .................................45
3.1 Thử nghiệm tìm kiếm thơng tin văn bản tại một số thư viện số trên thế
giới và Việt Nam ..................................................................................................45
3.2 Đánh giá hiệu suất tìm kiếm thơng tin ........................................................52
3.3. Đánh giá phương pháp tìm kiếm thơng tin văn bản trong thư viện số ...55
3.3.1 Ưu điểm ....................................................................................................56
3.1.2 Nhược điểm .............................................................................................58
KẾT LUẬN ..............................................................................................................61
TÀI LIỆU THAM KHẢO ......................................................................................62
PHỤ LỤC
3
LỜI CẢM ƠN
Tơi xin bày tỏ lịng kính trọng và biết ơn sâu sắc tới thầy Đỗ Quang
Vinh, người đã tận tình hướng dẫn, giúp đỡ, động viên tơi trong suốt thời gian
thực hiện khóa luận này.
Tơi cũng xin gửi lời cảm ơn chân thành tới các thầy cô trong Khoa Thư
viện – thơng tin Trường Đại học Văn hóa Hà Nội đã truyền đạt cho tôi những
kiến thức nền tảng về ngành thư viện và tạo điều kiện thuận lợi để tơi hồn
thành khóa luận tốt nghiệp này.
Mặc dù đã có nhiều cố gắng cùng với sự hướng dẫn tận tâm của thầy
giáo hướng dẫn, song do hạn chế về thời gian và trình độ của bản thân, vì vậy
khóa luận khó tránh khỏi những sai sót. Rất mong nhận được những ý kiến
đóng góp chân thành của thầy cơ và các bạn để khóa luận tốt nghiệp của tơi
được hồn thiện hơn.
Xin chân thành cảm ơn!
Hà Nội, ngày 03 tháng 06 năm 2013
Sinh viên
Nguyễn Thị Thanh Hải
4
DANH MỤC CHỮ VIẾT TẮT
Chữ viết
tắt
BQ
Nghĩa tiếng việt
Nghĩa tiếng anh
Truy vấn Boolean
Boolean Query
Cơ sở dữ liệu
Database
DL
Thư viện số
Digital Library
IR
Tìm kiếm thông tin
Information Retrieval
RQ
Truy vấn xếp hạng
Rank Query
HTML
Ngôn ngữ đánh dấu siêu văn bản
Hyper Text Markup Language
HTTP
Giao thức truyền siêu văn bản
Hyper Text Transfer Protocol
CSDL
5
DANH MỤC BẢNG
Bảng 2.1: Các vector đối với tính tốn tích trong
Bảng 2.1: Các vector đối với tính tốn tích trong
6
DANH MỤC HÌNH VẼ
Hình 1.1: Kiến trúc cơ bản của thư viện số
Hình 1.2: Các dịch vụ và nội dung thư viện số
Hình 2.1: Quy trình tìm kiếm thơng tin
Hình 2.2: Giản đồ Venn về tác động của toán tử AND
Hình 2.3: Giản đồ Venn về tác động của tốn tử OR
Hình 2.4: Giản đồ Venn về tác động của tốn tử NOT
Hình 3.1: Kết quả tìm kiếm Boolean tại Thư viện số IEEE
Hình 3.2: Kết quả tìm kiếm Boolean tại Thư viện Tạ Quang Bửu
Hình 3.3: Kết quả tìm kiếm Boolean tại thư viện Đại Học Quốc gia Hà Nội
Hình 3.4: Kết quả tìm kiếm Boolean tại thư viện Quốc gia Việt Nam
Hình 3.5: Kết quả tìm kiếm Boolean tại thư viện Khoa học và cơng nghệ
Hình 3.6: Kết quả tìmkiếm Boolean tại thư viện Đại học Quốc gia Tp. Hồ Chí Minh
Hình 3.7: Kết quả tìm kiếm xếp hạng tại thư viện IEEE
Hình 3.8: Đường cong P-R đối với hạng của bảng 3.1
7
MỞ ĐẦU
1. Lý do chọn đề tài
Trong kỷ nguyên xã hội thông tin, nền kinh tế tri thức đang phát triển
một cách mạnh mẽ. Mạng Internet phát triển rộng khắp tồn cầu khiến cho
thơng tin gia tăng theo hàm mũ, với sự phong phú, đa dạng và phức tạp của
các loại hình thơng tin như: Văn bản, hình ảnh, âm thanh, video… Khi đó, thư
viện số ra đời nhằm quản trị thông tin và tri thức của nhân loại. Thư viện số
lưu trữ một lượng thông tin lớn với hệ thống các cơ sở dữ liệu đa phương tiện
và tạo khả năng truy cập thông tin mọi lúc mọi nơi trên phạm vi tồn thế giới.
Thơng tin văn bản là một dạng dữ liệu đa phương tiện, chiếm đa số
trong các cơ quan, tổ chức đặc biệt là trong thư viện nói chung và thư viện số
nói riêng. Ngày nay, với khối lượng thông tin văn bản khổng lồ, việc tìm kiếm
một cách nhanh chóng, chính xác và phù hợp với nhu cầu người sử dụng lại
càng trở nên khó khăn hơn. Vì vậy, tìm kiếm thơng tin văn bản có vai trị
quan trọng trong mọi lĩnh vực hoạt động của con người. Nó trở thành một nhu
cầu thiết yếu khơng thể thiếu. Với những thơng tin hữu ích được lưu trữ, cập
nhật trong thư viện số đã thúc đẩy mọi hoạt động như nghiên cứu - giáo dục kinh tế - chính trị - văn hóa… ngày một phát triển hơn.
Hơn nữa, thư viện số là một mơ hình thư viện mới và hiện đại để khai
thác thông tin một cách có hiệu quả đang là vấn đề cần quan tâm của các nhà
nghiên cứu trong hoạt động thư viện, công nghệ thông tin và các ngành khác.
Hầu hết người sử dụng thư viện khơng có kiến thức cụ thể về các lược
đồ, hoặc cấu trúc truy vấn ngôn ngữ để tiếp cận thông tin được lưu trữ trong
các cơ sở dữ liệu của thư viện số. Với mục đích giúp người sử dụng có thể dễ
dàng truy cập, tìm kiếm và khai thác thơng tin một cách có hiệu quả nhất từ
8
nguồn tài nguyên được cập nhật và lưu trữ trong thư viện số, tơi đã chọn đề
tài “Tìm kiếm thơng tin văn bản trong thư viện số”.
2. Tình hình nghiên cứu
Liên quan đến thư viện số, đã có nhiều đề tài nghiên cứu dưới các góc
độ khác nhau như: “Xây dựng một số công cụ hỗ trợ tra cứu và tổng hợp
thông tin trong các thư viện số” – đề tài nghiên cứu khoa học do Đỗ Phúc và
Nguyễn Minh Hiệp làm chủ nhiệm; “Digital Library” – luận văn tốt nghiệp
của nhóm sinh viên Trường Đại học nơng lâm thành phố Hồ Chí Minh… Về
vấn đề tìm kiếm thơng tin văn bản cũng có đề tài đề cập đến như: “Kỹ thuật
tìm kiếm văn bản trên cơ sở nội trong các cơ sở dữ liệu đa phương
tiện”…Tuy nhiên, đề tài này chưa đi cụ thể vào việc tìm kiếm thơng tin văn
bản trong thư viện số. Có thể nói, “Tìm kiếm thông tin văn bản trong thư viện
số” là đề tài nghiên cứu đầu tiên của sinh viên khoa Thư viện – thơng tin
Trường Đại học Văn hóa Hà Nội về hai phương pháp tìm kiếm thơng tin cơ
bản trong thư viện số và có thực hành cụ thể giúp người sử dụng thư viện có
thể tìm kiếm thơng tin hiệu quả hơn.
3. Đối tượng nghiên cứu
- Phương pháp tìm kiếm thông tin văn bản trong thư viện số
4. Mục đích nghiên cứu
- Đánh giá các phương pháp tìm kiếm thông tin văn bản trong thư viện số
5. Phạm vi nghiên cứu
- Tìm kiếm thơng tin văn bản trong thư viện số.
6. Phương pháp nghiên cứu
- Phương pháp tìm kiếm Boolean BQ
- Phương pháp tìm kiếm xếp hạng RQ
9
7. Cấu trúc của khóa luận tốt nghiệp
Ngồi phần Mở đầu, Kết luận, Tài liệu tham khảo, Phụ lục, nội dung
chính của khóa luận gồm 3 chương:
Chương 1: Khái qt về thư viện số và thông tin văn bản trong thư viện số
Chương 2: Phương pháp tìm kiếm thơng tin văn bản trong thư viện số
Chương 3: Thử nghiệm tìm kiếm và đánh giá hiệu suất tìm kiếm thơng
tin văn bản tại một số thư viện số trên thế giới và Việt Nam
10
Chương 1
KHÁI QUÁT VỀ THƯ VIỆN SỐ VÀ THÔNG TIN VĂN BẢN
TRONG THƯ VIỆN SỐ
1.1 Khái niệm, đặc trưng và kiến trúc thư viện số
1.1.1 Khái niệm thưviện số
Cùng với sự phát triển và ứng dụng rộng rãi của mạng lưới truyền
thông và công nghệ thông tin, nhiều thư viện số đang có sự phát triển mạnh
mẽ trên thế giới hiện nay. Sự xuất hiện của thư viện số không chỉ tạo ra một
cơ hội mới cho sự phát triển thư viện, mà còn đặt ra những yêu cầu cao hơn
trong việc cải tổ những thư viện truyền thống, nhằm đáp ứng tốt nhu cầu ngày
càng cao của người sử dụng.
Hiện nay, có rất nhiều định nghĩa khác nhau về thư viện số, nhiều định
nghĩa đã được công bố trong giới học giả toàn cầu về thư viện, nhằm định
nghĩa rõ ràng một DL. Dưới đây là một số định nghĩa tiêu biểu về thư viện số.
Định nghĩa 1.1 (Arms W.Y.) [16]: Thư viện số là một kho thông tin có
tổ chức với các dịch vụ liên kết, trong đó thơng tin được lưu trữ ở dạng số và
có thể truy cập qua một mạng. Ý chính của định nghĩa là thơng tin có tổ chức.
DL chứa các loại kho thông tin khác nhau dùng bởi nhiều người sử dụng khác
nhau. DL có quy mơ từ nhỏ đến rất lớn. DL có thể sử dụng bất kỳ loại thiết bị
tính toán nào và loại phần mềm nào phù hợp. Chủ đề thống nhất là thông tin
được tổ chức trên máy tính và có sẵn trên mạng với các thủ tục lựa chọn tài
liệu trong các kho để tổ chức, làm cho sẵn có với người sử dụng và lưu trữ.
Định nghĩa 1.2 (Chen H., Houston A.L.) [20]: Thư viện số là một thực
thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các
mạng tồn cầu. DL là một kho thơng tin có tổ chức. Một DL được biểu thị là
một tập hợp các máy chủ tự phân tán làm việc đồng thời nhằm trao cho người
11
sử dụng diện mạo của một CSDL tài liệu liên kết. Thực tế, mỗi máy chủ lưu
trữ một lượng lớn thông tin đa dạng trên nhiều loại vật tải lưu trữ.
Đặc điểm của DL là trợ giúp cộng tác, bảo quản tài liệu số, quản trị
CSDL phân tán, siêu văn bản, trích lọc thơng tin, tìm kiếm thơng tin, các đơn
thể hướng dẫn, các quyền sở hữu trí tuệ, các dịch vụ thông tin đa phương tiện
và các dịch vụ tra cứu, khám phá tài nguyên và phổ biến thông tin có chọn
lọc. Chúng cho phép thơng tin được truy cập tồn cầu, sao chép khơng lỗi, lưu
trữ cơ đặc và tìm kiếm nhanh.
Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.) [23]: Thư viện số là
các kho dữ liệu mạng về tài liệu văn bản số, hình ảnh, âm thanh, dữ liệu khoa
học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy
cập phổ biến về tất cả tri thức của loài người trong tương lai.
Định nghĩa 1.4 (Sun Microsystems) [27]: Thư viện số là sự mở rộng
điện tử về các chức năng điển hình người sử dụng thực hiện và các tài nguyên
người sử dụng truy cập trong thư viện truyền thống. Các tài nguyên thông tin
được chuyển thành dạng số lưu trữ trong các kho multimedia và làm cho sẵn
có thơng qua các dịch vụ Web.
Định nghĩa 1.5 (Witten và Bainbridge, 2003) [29]. Thư viện số là các
kho đối tượng số, bao gồm văn bản, video và audio cùng với các phương pháp
truy cập và tìm kiếm, lựa chọn tổ chức và bảo trì.
TS. Ian Witten, chuyên gia thư viện số Đại học Waikato, New Zealand:
Thư viện số là tập hợp những bộ sưu tập thông tin các đối tượng số hoặc đã
được số hóa có tổ chức và tập trung. Tập trung theo đề tài hay chủ đề và có tổ
chức để thông tin dễ truy cập và lưu trữ theo những tiêu chuẩn chuyên biệt
cung cấp hai khả năng chính:
- Phương thức truy cập, chọn lọc, hiển thị tài nguyên số (dành cho
người sử dụng);
- Phương thức xây dựng, tổ chức và lưu hành (dành cho cán bộ thư viện)”.
12
Định nghĩa 1.6 (Liên đoàn thư viện Hoa Kỳ): Thư viện số là cơ quan,
tổ chức có các nguồn nhân lực chuyên hóa, để lựa chọn cấu trúc việc truy cập
đến diễn giải, phổ biến, bảo quản sự toàn vẹn, đảm bảo sự ổn định trong thời
gian dài của sưu tập các cơng trình số hóa mà chúng ở dạng sẵn sàng để sự
dụng một cách kinh tế cho một hoặc một số cộng đồng nhất định.
Định nghĩa 1.7 (Liên đoàn thư viện số - The Digital Library
Federation): Thư viện số là một tổ chức cung cấp tài nguyên, để chọn lọc, cấu
trúc, cung ứng truy cập, biên dịch, phân phối, bảo quản nguyên vẹn, và đảm
bảo bền vững theo thời gian những bộ sưu tập kỹ thuật số để sẵn sàng phục vụ
cộng đồng một cách tinh tế.
Ngoài ra, cịn có một số định nghĩa khác về thư viện số:
Thư viện số là thuật ngữ được chấp nhận rộng rãi như sự mô tả việc
sử dụng công nghệ số của thư viện để thu thập, lưu trữ, bảo tồn và cung cấp
sự truy cập đến thông tin - Trung tâm Nghiên cứu và đổi mới thư viện Anh.
Thư viện số là nơi trình bày những bộ sưu tập thơng tin có tổ chức. Đối
tượng của những bộ sưu tập đó là nguồn tài ngun thơng tin số hóa cùng với
các phương thức: Truy hồi, chọn lọc, truy cập, tổ chức và bảo trì bộ sưu tập
đó. Người sử dụng: Truy cập, chọn lọc, hiển thị tài liệu số. Cán bộ thư viện:
xây dựng, tổ chức, lưu hành.
Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với
các dịch vụ liên kết qua mạng.
Một câu hỏi đặt ra là: World Wide Web có phải là một thư viện số hay
không? World Wide Web cũng là một kho dữ liệu khổng lồ chuyên thu thập
hàng ngàn, hàng triệu trang tài liệu, cho phép mọi người tìm kiếm thơng tin trên
đó. Tuy nhiên, có nhiều ý kiến lại cho rằng: World Wide Web không phải là thư
viện số, đặc biệt là Clifford Lyunch – một trong những nhà nghiên cứu hàng đầu
trong lĩnh vực thư viện nói chung và thư viện số nói riêng. Ơng cho rằng:
“Internet và những tài nguyên đa phương tiện của nó, còn gọi là World Wide
13
Web, không được thiết kế để hỗ trợ xuất bản và thu thập thơng tin có tổ chức. Nó
chỉ là một kho hỗn độn của các thông tin vô tổ chức trên thế giới số…Internet
không phải là một thư viện số”. Khi so sánh những thông tin trên Internet với
những thông tin được cung cấp từ thư viện số, Nguyễn Minh Hiệp, Đại học
Khoa học tự nhiên Thành phố Hồ Chí Minh đã nói: “Có thể ví các thơng tin từ
các chương trình tìm kiếm trên Internet như bột mì, nếu muốn dùng phải nhào
nặn rồi nướng lên còn ở đây với hệ thống Greenstone bạn đọc được cung cấp
trực tiếp bánh mì, tiết kiệm được thời gian và cơng sức tìm kiếm”.
1.1.2 Đặc trưng thư viện số
Thư viện số được xây dựng và phát triển dựa trên nền tảng của thư viện
truyền thống. Dó đó, nó cũng mang những đặc trưng của thư viện truyền thống.
Tuy nhiên, thư viện số có những ưu thế nổi bật hơn hẳn so với thư viện truyền
thống nhờ có sự ứng dụng của công nghệ thông tin cũng như hệ thống các phần
mềm sử dụng trong thư viện. Thư viện số có các đặc trưng cơ bản sau.
Thư viện số có khả năng lưu trữ khối lượng lớn các thơng tin số hóa.
Tất cả các loại tài liệu của thư viện truyền thống như sách, báo, phim, ảnh,
bản nhạc, bản đồ, video…đều có thể số hóa và được lưu trữ trong kho chứa
của DL. Thư viện số có khả năng tích hợp thơng tin số hóa, các dạng thơng tin
mới như: thơng tin điện tử, thông tin đa phương tiện trở nên hữu dụng.
Như vậy, thông tin được lưu trữ trong thư viện số là các thơng tin đã
được số hóa. Nguồn thơng tin số hóa chính là hạt nhân của thư viện số. Việc
phát triển kho tài liệu số hóa là cơng việc quan trọng hàng đầu trong xây dựng
thư viện số.
Với thư viện số, sức mạnh của máy tính được dùng để tìm kiếm thơng
tin. Trong hầu hết các trường hợp tìm tin bằng máy tính bao giờ cũng nhanh
hơn và tiện lợi hơn phương pháp thủ công và đặc biệt có thể chuyển dễ dàng
từ nguồn thơng tin này sang nguồn thông tin khác.
14
Thông tin luôn sẵn sàng phục vụ người dùng bởi cửa thư viện số khơng
bao giờ đóng. Người sử dụng có thể truy cập, sử dụng bất kỳ khi nào họ muốn
mà không bị giới hạn về không gian, thời gian hay số lượng người truy cập.
Các nguồn thông tin trong thư viện số có thể được chia sẻ, người sử
dụng không chỉ truy cập, sao chép các nguồn thông tin nội tại của thư viện mà
cịn có thể với tới nhiều nguồn thơng tin từ bên ngồi nhờ các dịch vụ thông
tin liên kết. Đây là một đặc điểm quan trọng bởi vì trong xã hội thơng tin hiện
đại khơng có một thư viện nào có thể phục vụ tốt cho người đọc và người
dùng tin nếu chỉ đơn thuần sử dụng nguồn tin của riêng mình.
Thơng tin trong thư viện số dễ dàng bổ sung, cập nhật nên thư viện số
ln đảm bảo có những thơng tin mới nhất.
Người dùng có thể xây dựng bộ sưu tập riêng của cá nhân họ bởi các cơ
sở được cung cấp bởi thư viện số. Khả năng tìm xử lý nội dung đa ngơn ngữ.
Có thể nói, thư viện số đã mang thư viện đến với người sử dụng.
Thư viện số có khả năng phục vụ rộng rãi. Đối tượng khai thác, sử
dụng thư viện số được mở rộng ra ngoài phạm vi thư viện. Muốn tiếp cận
thơng tin số địi hỏi phải sử dụng một hệ thống các máy đọc đa phương tiện.
Thơng tin có thể được tiếp cận từ xa qua modem hoặc mạng truyền thông tự
động. Điểm mạnh nhất của thư viện số là có thể tiếp cận thơng tin dễ dàng và
nhanh chóng với giá rẻ và có khả năng cung cấp một số lượng khơng hạn chế
các bản sao.
Thư viện số cung cấp các bản dự phịng và bản lưu trữ số hóa của kho
tài liệu số. Các tập tin số hoá gốc được lưu trữ ở dạng thức khơng nén và có
thể truy cập qua trang web. Các chương trình bảo quản kỹ thuật số trong thư
viện số tạo nên chu trình bảo quản dài hạn cho kho tài liệu số hóa.
Thư viện số cung cấp những công cụ và dịch vụ thông qua các trang
web hoặc các giao thức của thư viện để giúp cộng đồng người sử dụng tìm
kiếm, sử dụng và đánh giá các nguồn tài nguyên, thao tác thành thạo với
15
nhiều định dạng số hóa khác nhau. Thơng qua mục lục cơng cộng trực tuyến
(OPAC) người dùng có thể truy cập tất cả các tài liệu của thư viện số. Thư
viện số với giao diện web cung cấp dịch vụ một cách hiệu quả hơn, vượt ra
khỏi giới hạn của những bức tường và không gian hạn hẹp của thư viện truyền
thống. Thư viện số cho phép một số lượng không giới hạn người sử dụng truy
cập cùng một tài liệu trong cùng một thời điểm dù ở bất cứ nơi đâu. Người
dùng được cấp quyền truy cập nguồn tài ngun số hóa có thể tìm kiếm tham
chiếu nhiều CSDL của nhóm những thư viện số cùng chia sẻ tài nguyên, kết
quả tìm kiếm được chuyển đến người sử dụng một cách tức thời thông qua sự
chuyển giao tư liệu điện tử.
Giao diện web của thư viện số cung cấp những công cụ trợ giúp, các
câu trả lời cho những thắc mắc thơng thường về cách tìm kiếm thơng tin cũng
như các mẹo tìm kiếm theo những cấp độ khác nhau cho người dùng từ xa.
Các công cụ này giúp cho người dùng tìm kiếm tài liệu một cách nhanh chóng
và hiệu quả.
Thư viện số cung cấp một khối lượng lớn các loại dịch vụ, có thể kể
đến dịch vụ cung cấp CSDL điện tử bao gồm các bài trích, tư liệu điện tử theo
yêu cầu, bài tóm tắt, bài viết tồn văn, bài phân tích các bài báo, sách điện tử,
bách khoa toàn thư, dịch vụ chuyển giao tư liệu điện tử, tài liệu hướng dẫn sử
dụng thư viện số, tài liệu tham khảo và dịch vụ tham khảo thông qua thư điện
tử, hỏi đáp trực tuyến (chat). Khả năng lưu trữ và chuyển giao tài nguyên
thông tin bằng nhiều phương tiện khác nhau.
Thư viện số được quản lý bởi một hệ quản trị thư viện tích hợp ( bổ sung,
biên mục, quản trị xuất bản phẩm định kỳ, kiểm sốt lưu thơng tư liệu, tổ chức
mục lục truy nhập công cộng trực tuyến,…); và phải nối mạng máy tính.
Thư viện số là một hệ thống dịch vụ thư viện rộng lớn và các cán bộ
thư viện sẽ đóng một vai trò trung tâm trong phát triển và quản trị thư viện số,
là hình thức kết hợp giữa thiết bị tính tốn, lưu trữ và truyền thơng số với nội
16
dung và phần mềm cần thiết để tái tạo, thúc đẩy và mở rộng các dịch vụ của
các thư viện truyền thống vốn dựa trên các biện pháp thu thập, biên mục và
phổ biến thông tin trên giấy và các vật liệu khác.
Tất cả các nguồn thông tin trong thư viện đều có sẵn dưới dạng số và
trong đó tất cả các chức năng bổ sung, lưu trữ, bảo quản, tìm kiếm, truy cập
và hiện hình đều sử dụng kỹ thuật số…
Thư viện số là một thư viện hiện đại, trong đó tồn bộ các tài liệu của
thư viện đó được số hoá và được quản lý bằng một phần mềm chuyên nghiệp
có tổ chức để người dùng tin dễ dàng truy cập, tìm kiếm và xem được nội
dung tồn văn của chúng từ xa thông qua hệ thống mạng thơng tin và các
phương tiện truyền thơng.
Nói cách khác, thư viện số phải sử dụng các phương tiện điện tử trong
thu thập, lưu trữ, xử lý, tìm kiếm và phổ biến thông tin. Thư viện số ra đời là
kết quả của sự hợp tác giữa các chuyên gia thư viện, xuất bản, các nhà khoa
học và công nghệ hướng về mục tiêu tiếp cận tới đầy đủ thông tin, ở mọi nơi
và mọi lúc.
Như vậy, có thể nói rằng thư viện số là một mơ hình thư viện hiện đại
có những ưu điểm nổi trội hơn hẳn so với các mơ hình thư viện truyền thống,
cho phép người sử dụng đọc được thơng tin tồn văn sau khi đã số hoá tài
liệu, đặc biệt là các tài liệu đa phương tiện như: âm thanh, bản đồ, hình ảnh,
audio, video…
1.1.3 Kiến trúc thư viện số
Các thành phần chức năng cơ bản trong một thư viện số.[28]
1). Chuyển đổi nội dung từ vật lý sang dạng số.
2). Trích hoặc tạo siêu dữ liệu hoặc thông tin chỉ mục mô tả nội dung
hỗ trợ cho tìm kiếm cũng như cho quản trị và xây dựng kiến trúc siêu dữ liệu
để trợ giúp hiểu thị, quản lý, duy trì đối tượng thư viện số.
17
3). Lưu trữ nội dung số và siêu dữ liệu trong kho đa phương tiện phù
hợp. Kho chứa có quản lý và các quyền truy cập. Chức năng thương mại điện
tử có thể được dùng để tính cước.
4). Các dịch vụ máy khách bao gồm cả truy vấn kho chứa và luồng
công việc.
5). Chuyển tải nội dung qua dịch vụ truyền tệp hoặc luồng media.
6). Bạn đọc truy cập kho dữ liệu qua một trình duyệt hoặc một client
đặc biệt.
7). Mạng cơng cộng hoặc mạng riêng.
1
Số hóa nội dung
6
Trình duyệt trên
Client bạn đọc
Mạng Netword
2
7
Dịch vụ trên Client
Streaming
3
Quản
lý/quyền truy
cập
Siêu dữ
liệu
Nội dung
Multimedia
File Transfer
Trích siêu dữ liệu
4
Chuyển tải nội
dung
Hình 1.1: Kiến trúc cơ bản thư viện số
5
18
Nhìn một cách tổng thể, một thư viện số đơn giản là một hệ thống trực
tuyến cung cấp khả năng truy cập các dịch vụ và nội dung của thư viện số.
Nội dung của thư viện số bao gồm các tài liệu số được lưu trữ dưới các
dạng thức khác nhau như: văn bản, âm thanh, hình ảnh, video, audio…
Các dịch vụ thư viện số rất đa dạng, việc chuyên mơn hóa, ứng dụng
cơng nghệ là động cơ tạo ra tính đa dạng cho các dịch vụ thư viện số.
Nhưng điển hình vẫn là phát triển các bộ sưu tập truyền thống và truy cập
các dịch vụ có trong các thư viện như lựa chọn và quản lý nguồn tài nguyên.
Các dịch vụ thư viện số
OPAC
Tìm/hiển
thị siêu dữ
liệu
Khai thác
tài nguyên
Tìm kiếm
tài
nguyên
Cổng
thông tin
cá nhân
Yêu cầu về
sách/tiêu đề
Định danh tài nguyên
Xác thực bạn đọc
Cấp quyền truy cập và kiểm soát
Catalogs
thư viện
Các bộ
sưu tập
số
Các
CSDL
thuê bao
Báo điện
tử
Đăng ký
qua
mạng
Chuyển
tài liệu
Nội dung thư viện số
Hình 1.2: Các dịch vụ và nội dung thư viện số
Tài liệu số là thành phần quan trọng không thể thiếu, và được coi là hạt
nhân của thư viện số. Xây dựng và phát triển kho tài liệu số hóa là cơng việc
quan trọng hàng đầu trong xây dựng thư viện số.
Có thể hiểu tài liệu số là tất cả những tài liệu được trình bày dưới dạng
số mà máy tính có thể đọc được. Hay nói cách khác, tài liệu số những thơng
tin về tài liệu, một phần hay tồn bộ nội dung của tài liệu đã được chuyển
thành các bit thông tin dữ liệu và được lưu trữ, khai thác trên máy vi tính, với
sự hỗ trợ của một hay một vài thiết bị chuyên dụng, phần mềm ứng dụng và
19
hệ thống mạng máy tính. Như vậy, tài liệu được tạo lập trực tiếp từ máy vi
tính, được lưu trữ thành các tệp dữ liệu (file), với những định dạng khác nhau
như: .doc, .exe, .jpg…, và các tài liệu có nội dung là kết quả của q trình số
hố các loại hình tài liệu khác: Giấy, ảnh, phim… đều là tài liệu số. Với cách
hiểu đó, có thể coi nguồn tài liệu số là tập hợp có tổ chức những bộ sưu tập
thông tin số và thông tin trong tài liệu đã được số hoá.
Trong thư viện số, việc lưu trữ bộ sưu tập số không chỉ phân bổ cho
một đơn vị mà cịn có thể được phân phát trên tồn thế giới thơng qua hiệp
hội các thành viên hoặc qua sự hợp tác với các đối tác từ xa. Nhiều đối tượng
số có thể được truyền trực tiếp trên Web, hoặc một số các tài nguyên khi
muốn hiển thị phải có các ứng dụng đặc biệt.
Việc chun mơn hóa là động cơ tạo ra tính đa dạng trong truy cập dịch
vụ thơng tin qua việc tìm kiếm hiển thị tài nguyên. Các đối tượng số cần được
tổ chức, đánh chỉ mục. Cấu trúc cho việc tổ chức và đánh chỉ mục các đối
tượng số bao gồm mục lục của các bộ sưu tập số, trợ giúp tìm kiếm và các cơ
sở dữ liệu. Thông qua việc cung cấp nội dung và dịch vụ thư viện số qua các
cổng thông tin cá nhân, người sử dụng có khả năng thực hiện việc đồng bộ
hóa các nội dung trực tuyến.
Khi các nhà nghiên cứu và các nhà cung cấp sản phẩm thương mại mở
rộng các loại hình truy cập nội dung và dịch vụ, thì cơng nghệ để cung cấp
các dịch vụ thư viện số thay đổi tiếp tục thay đổi nhanh chóng. Cơng nghệ
phát triển kéo theo tầm nhìn của các tổ chức cũng như yêu cầu cho một thư
viện số cũng phát triển sao cho phù hợp.
Sự phát triển và bảo trì phần mềm hỗ trợ chuyển tải các dịch vụ và nội
dung của thư viện số là một nhân tố quan trọng cần lưu ý.
Trong thực tế, các hệ thống DL thế giới thực là các bộ sưu tập với các
dịch vụ đi kèm với nhau thể hiện khả năng tích hợp ít hay nhiều khi truy cập
thơng qua trang web của thư viện. Các hệ thống xây dựng DL bao gồm các
20
sản phẩm thương mại, các thành phần được xây dựng với các cơng cụ chun
biệt hóa, các ứng dụng phần mềm nguồn mở, các chương trình tự phát triển.
Việc xây dựng một DL có tính tồn diện trở thành một cơng việc tích hợp các
hệ thống phức tạp.
Thư viện số được tổ chức và quản lý bởi một hệ thống các phần mềm.
Trên thế giới có nhiều phần mềm phục vụ cho việc xây dựng và phát triển thư
viện số. Bao gồm hai loại phần mềm chính: phần mềm thương mại và phần
mềm mã nguồn mở.
Một kiến trúc phần mềm có thể hỗ trợ các tác vụ và các chức năng
thông thường cần thiết cho các ứng dụng trên Web phân tán; Kiến trúc phần
mềm càng phong phú, càng làm giảm cơng việc lập trình. Một số chức năng
do kiến trúc phần mềm hỗ trợ DL gồm:
- Quản lý phiên làm việc qua yêu cầu/đáp ứng HTTP
- Quản lý phiên làm việc của người dùng;
- Hệ thống tạo HTML và ngôn ngữ đánh dấu khác;
- Cơ chế gọi thủ tục từ xa;
- Kết nối CSDL;
- Quản lý tài liệu XML - ngôn ngữ đánh dấu mở rộng;
- Gửi Email.
Phần mềm/chức năng trung gian (Middleware) là một lớp ứng dụng
cung cấp các giao diện đồng bộ cho các thành phần phân phối của DL. Nó
giúp kết nối khả năng lưu trữ, chuyển tải, tìm kiếm, hiển thị các tài nguyên số
với nhau. Bằng cách gộp các dịch vụ chính trong DL bên trong một lớp phần
mềm/chức năng trung gian, các tài ngun hiện tại và tài ngun mới có thể
được tích hợp dễ dàng vào DL. Khả năng này có thể thực hiện được thông
qua một kiến trúc phần mềm/chức năng trung gian.
Các thành phần cung cấp quyền truy cập cho bạn đọc thơng qua các
dạnh bạ khác nhau có thể giao tiếp với một thành phần trung gian cho phép
21
điều khiển tính phức tạp của các giao tiếp danh bạ. Khi một danh bạ được
thêm hoặc thay đổi, chỉ có thành phần trung gian bị ảnh hưởng nhiều hơn là
thành phần có yêu cầu bạn đọc xác thực. Tương tự vậy, một thành phần trung
gian có thể xử lý việc xác thực bạn đọc đối với các nguồn tài nguyên từ xa
khác nhau để các thành phần truy cập dịch vụ và thành phần dịch vụ (và các
bạn đọc) không cần phải biết cách đăng nhập vào trong tất cả các tài nguyên
trong thư viện. Ví dụ, một thành phần có thể truy vấn một thành phần trung
gian khi tên tĩnh cần thiết cho một nguồn tài nguyên hơn là nhận tên từ các
dịch vụ khác nhau phục thuộc vào các dạng tài nguyên được đặt tên. Tương tự
như vậy, các thành phần không được thiết kế để tra cứu các thơng tin dùng
chung có thể được đồng bộ hóa thơng qua một thuộc tính trung gian khi thơng
tin mà chúng ta cần có sự thay đổi. Để giữ các giao diện đơn giản, thành phần
trung gian của phần mềm, không nên yêu cầu các giao thức đặc biệt để giao
tiếp. Lập trình giao tiếp liên tiến trình, đặc biệt trong mơi trường phân tán, có
thể khó khăn và lỗi trừ khi kiến trúc phần mềm trú trọng tới các chi tiết nhỏ
của việc gửi truy vấn/ đáp ứng giữa các chương trình. HTTP là một giao thức
mạng đơn giản được hỗ trợ bởi các kiến trúc phần mềm có hiệu hiệu quả đặc
biệt khi các trang web cần liên kết tới dịch vụ của tầng trung gian. Kiến trúc
phần mềm cho phép phát triển các công cụ đang tồn tại và tối thiểu hóa mã
nguồn để lập trình giao diện cho các thành phần thư viện số. Thông qua công
nghệ mượn tài liệu từ các dịch vụ Web để xây dựng các dịch vụ cung cấp giao
diện đồng bộ đơn cho nhiều thành phần để truy cập vào các nội dung và dịch
vụ đa dạng của thư viện số.
Trong thư viện số, hệ thống mạng là yếu tố bắt buộc. Bởi thư viện số
hoạt động trên nền giao diện web. Nếu khơng có mạng máy tính thư viện số
sẽ khơng thể hoạt động được. Có thể sử dụng nhiều mơ hình mạng như Cilent
- Sever, INTRANET, INTERNET..., tùy thuộc vào từng quy mô của mỗi thư
22
viện. Mạng có ảnh hưởng lớn nhất là Internet. Sự nổi lên của Internet như một
mạng trên toàn thế giới, giá thấp, linh động là một trong những yếu tố chính
dẫn đến sự phát triển của thư viện số.
1.2 Thơng tin văn bản trong thư viện số
Thơng tin đóng vai trò quan trọng và là động lực thúc đẩy sự phát triển
của tất cả các lĩnh vực trong đời sống xã hội như: Kinh tế, văn hóa, chính trị,
giáo dục… Nó trở thành một nhu cầu thiết yếu trong mọi lĩnh vực hoạt động
của con người.
Thông tin được hiểu là sự phản ánh các hiện tượng, sự vật của thế giới
khách quan và hoạt động của con người trong đời sống xã hội.
Thông tin được lưu trữ chủ yếu trong các cơ quan, tổ chức mà đặc biệt
là trong hệ thống các Trung tâm thông tin – thư viện. Trong thư viện số, thông
tin được lưu trữ dưới các dạng đa phương tiện: Văn bản, âm thanh, hình ảnh,
video, audio...Trong đó, thơng tin văn bản chiếm khối lượng lớn nhất trong
tồn bộ kho tài liệu của thư viện.
Văn bản nói chung là một phương tiện ghi tin và truyền đạt thông tin
bằng ngôn ngữ (hay một loại ký hiệu) nhất định. Văn bản được hình thành
trong nhiều lĩnh vực của đời sống. Tùy theo từng lĩnh vực cụ thể của đời sống
xã hội và quản lý nhà nước mà văn bản có những nội dung và hình thức thể
hiện khác nhau.
Văn bản là sản phẩm của hoạt động giao tiếp bằng ngôn ngữ ở dạng
viết. Văn bản thường là tập hợp của các câu có tính trọn vẹn về nội dung và
hồn chỉnh về hình thức, có tính liên kết chặt chẽ và hướng tới một mục tiêu
giao tiếp nhất định.
Thông tin văn bản đang tồn tại với một khối lượng lớn trong các thư
viện là nguồn thông tin quan trọng trong mọi cơ quan tổ chức; Thông tin văn
bản cịn được sử đụng để mơ tả các loại thơng tin đa phương tiện khác nhau
23
như audio, ảnh và video…Điều đó cho thấy, cần có một hệ thống IR đủ tốt để
có thể tìm kiếm thông tin một cách hiệu quả nhất.
24
Chương 2
PHƯƠNG PHÁP TÌM KIẾM THƠNG TIN VĂN BẢN
TRONG THƯ VIỆN SỐ
2.1 Mơ hình tìm kiếm thơng tin - IR
Với sự phát triển mạnh mẽ của các CSDL đa phương tiện và mạng máy
tính, hệ thống IR (Information retrieval) ngày càng được quan tâm. Từ những
năm 40 của thế kỷ XX, các hệ thống tìm kiếm thơng tin đã phát triển nhằm
quản trị một khối lượng thông tin khổng lồ. Hệ thống tìm kiếm đang trở nên
cần thiết bởi vì hiện nay lượng thông tin rất lớn, yêu cầu truy tìm thơng tin
một cách chính xác và nhanh chóng.
Chức năng chính của hệ thống tìm kiếm thơng tin IR là lưu trữ và quản
trị khối lượng văn bản lớn theo cách sao cho dễ dàng truy vấn thông tin mà
người dùng quan tâm. Đồng nghĩa với IR chính là text IR, mặc dù ý nghĩa đầy
đủ của khái niệm IR là đề cập đến tìm kiếm bất kỳ loại thơng tin nào. Tuy
nhiên hầu hết các hệ thống IR chỉ đề cập đến các tài liệu là văn bản.
Một hệ thống IR thường có hai khối chức năng chính: Chức năng lập
chỉ mục (indexing); Chức năng tra cứu (interrogation). Lập chỉ mục là giai
đoạn phân tích tài liệu để rút trích các đơn vị thơng tin từ tài liệu và biểu diễn
lại tài liệu bởi các đơn vị thông tin đó. Đơn vị thơng tin có thể là từ (word),
hoặc cụm từ (phrase), khái niệm (concept) và nội dung tài liệu có thể được
biểu diễn bởi một cấu trúc đơn giản như danh sách từ (cụm từ) khóa có đánh
trọng số hay một dạng đồ thị giàu ngữ nghĩa hơn. Tra cứu là giai đoạn tìm
kiếm trong CSDL những tài liệu phù hợp với nội dung câu truy vấn. Trong
giai đoạn tra cứu, nhu cầu thông tin của người sử dụng được đưa vào hệ thống
dưới dạng một câu truy vấn bằng ngôn ngữ tự nhiên hay một dạng thức qui
ước nào đó. Câu truy vấn và tập dữ liệu sẽ được phân tích và biểu diễn thành
một dạng biểu diễn bên trong.
25
Mục đích của người sử dụng hệ thống tìm kiếm thơng tin:
- Độ chính xác: Truy tìm đúng thơng tin mà người sử dụng mong muốn
và đúng với truy vấn. Có thể có một vài tài liệu trong kết quả trả về khơng
chính xác, song tất cả các câu trả lời phù hợp đều được truy vấn.
- Tốc độ truy tìm: Việc truy tìm phải được thực hiện nhanh chóng
Một số định nghĩa về hệ thống tìm kiếm thơng tin:
Định nghĩa của Salton (1989) [25]:
Hệ thống tìm kiếm thơng tin xử lý các tệp tin lưu trữ trong cơ sở dữ liệu
và những yêu cầu về thông tin, xác định và tìm từ các tập tin trong cơ sở dữ
liệu những thơng tin phù hợp với những u cầu tìm kiếm thơng tin đó. Việc
tìm kiếm những thơng tin đặc thù phụ thuộc vào sự tương tự giữa các thông tin
được lưu trữ và các thông tin yêu cầu, được đánh giá bằng cách so sánh các giá
trị của các thuộc tính đối với thơng tin được lưu trữ và thơng tin tìm kiếm.
Định nghĩa của Kowalski (1997) [22]:
Hệ thống tìm kiếm thơng tin là một hệ thống có khả năng lưu trữ, tìm
kiếm và duy trì thơng tin. Thơng tin trong những trường hợp này có thể bao gồm
văn bản, hình ảnh, âm thanh, video và những đối tượng đa phương tiên khác.
Định nghĩa mơ hình tìm kiếm thơng tin của R.B. Yates và B.R. Neto:
Mơ hình tìm kiếm thông tin là một bộ bốn [D, Q, F, R(qi, dj)]
Trong đó:
- D là một tập các tài liệu;
- Q là một tập hợp các truy vấn của người sử dụng;
- F là một khung mơ hình hóa các biểu diễn tài liệu, truy vấn và các
quan hệ giữa chúng;
- R(qi, dj) là một hàm sắp xếp liên kết một số thực với một truy vấn qi
∈ Q và một biểu diễn tài liệu dj ∈ D. Hàm sắp xếp xác định thứ tự giữa các tài
liệu đối với truy vấn qi.