Tải bản đầy đủ (.pdf) (128 trang)

Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.65 MB, 128 trang )

Đề tài: Xây dựng một số công cụ hổ trợ
tra cứu và tổng hợp thông tin
trong thư viện số






CHƯƠNG 1

TỔNG QUAN
1.1. Thư viện số
Thư viện số là thư viện phục vụ thông tin điện tử ( được số hóa) - được đọc
với sự trợ giúp của máy vi tính. Thơng tin điện tử có thể được chứa trong những Tư
liệu điện tử nằm trong và ngoài thư viện. Tư liệu điện tử bao gồm:
• CD-ROM và băng từ - CD-ROM thường chứa những CSDL chuyên ngành,
được phục vụ riêng lẻ hay trên mạng máy tính.
• Tạp chí điện tử - ấn hành trên mạng Internet. Thư viện có thể đặt mua như
tạp chí in và sẽ được cấp quyền login vào để truy cập.
• Cơ sở dữ liệu trực tuyến - có rất nhiều trên mạng Internet do những trường
đại học, những cơ sở thông tin, và những công ty tư nhân như LEXIXNEXIX, DIALOG, vv... - Cũng như tạp chí điện tử, thư viện có thể đặt mua
quyền sử dụng.
• Tài liệu khác trên Internet - tài liệu trong những web site của những cơ sở
chính quyền, trường đại học, cơng ty, hội đồn, vv... Việc truy cập thường là
miễn phí.
Thơng tin điện tử đơi khi cịn bao gồm tư liệu được số hóa, tập hợp dưới hình
thức Thư viện số. Tư liệu được số hóa trước tiên là tranh ảnh, tài liệu quý hiếm,
vv... Ngày nay nhiều thư viện có khuynh hướng số hóa đại bộ phận tư liệu trong thư
viện để phục vụ dưới dạng điện tử.
1.2. Nghiên cứu về thư viện số tại Mỹ


Vấn đề nghiên cứu về thư viện số là một trong 5 hướng nghiên cứu chủ yếu về
CNTT của Mỹ hiện nay. Những tiến bộ cực kỳ nhanh chóng của kỹ thuật tính tốn
và mạng máy tính làm cho một tư liệu chỉ trong nháy mắt đã có thể “nhân bản” và
chuyển tới hành trăm triệu người trên khắp thế giới.
Năm 1994, người ta đưa ra một vấn đề gọi là SÁNG KIẾN THƯ VIỆN SỐ
(SKTVS) mà ngày nay gọi là DLI pha 1. SKTVS pha 1 tập trung làm sáng tỏ từng

1-1


bước các vấn đề về mơ hình quan niệm, cấu trúc, những thách thức về tính tốn
nhằm tạo ra các các kho tri thức nhân loại dạng điện tử. Trong 5 năm, SKTVS pha 1
đã có những thành cơng bước đầu mà chúng ta đang chứng kiến, chẳng hạn đó là
các cơng cụ tìm kiếm nổi tiếng trên Internet.
SKTVS pha 2 – DLI pha 2 bắt đầu từ 1999 và đã thu hút rất nhiều nhà khoa
học và kỹ sư CNTT, các nhà nghiên cứu của nhiều ngành KHXH, nghệ thuật, sinh
học…Mục tiêu là phát triển các nguồn tư liệu số, thử nghiệm liên kết giữa các
nguồn tư liệu phân tán, thiết lập nguyên tắc, phần mềm và cấu trúc mạng có khả
năng liên hợp các tư liệu đa phương tiện thành các bản ghi nhất thể, giải quyết vấn
đề ngữ nghĩa hiện đang cản trở việc tích hợp tư liệu số từ các tư liệu từ các sưu tập
phân tán và rất khác nhau về cấu trúc. Pha 2 của SKTVS tập trung vào 3 hướng
nghiên cứu lớn sau:
• Human-centered research-nghiên cứu hỗ trợ việc tạo ra thông tin và sử dụng
thơng tin.
• Content and collections-tạo lập thư viện số chứa đựng các dạng tri thức.
• System-centered research-các vấn đề kỹ thuật, phần mềm, phân loại khi tổ
chức và liên kết các bộ dữ liệu số dạng thức khác nhau thơng qua Internet.
Để hình dung rõ hơn về 3 hướng nghiên cứu trên, chúng ta sẽ lược qua các dự
án chính, các vấn đề quan trọng nhất của 3 hướng nghiên cứu và triển khai này.
1.2.1.Human-centered research (nghiên cứu hướng nguời dùng)

Trong hướng này, có các dự án và chương trình lớn:
Personalized Retrieval and Summarization of Image, Video, and
Language Resources (PERSIVAL). Trong dự án PERSIVAL, các nhà nghiên cứu
ở Đại học Columbia đang thử nghiệm thiết kế hệ thống giúp cho các bệnh nhân truy
cập dễ dàng và nhanh chóng đến các nguồn thơng tin y học trực tuyến thích hợp cho
từng người bệnh. />Digital resource designed for children. Các nhà nghiên cứu ở Đại học
Maryland phát triển các cơng cụ thích hợp cho phép nghe, xem, tìm kiếm, hỏi đáp

1-2




tổ

chức

thơng

tin

nghe,

nhìn,

văn

bản…cho

trẻ


em.

/>Technologies and tools for students. Nhiều đại học và cơ quan nghiên cứu
như Đại Học Quốc Gia Georgia, Hiệp Hội Máy Tính (Association for Computing
Machinery-ACM), Ủỵ Ban Giáo Dục của SIGGRAPH (SIGGRAPH Education
Committee) đang phát triển các kỹ thuật và công cụ cho sinh viên để việc truy cập
thông tin trực tuyến phục vụ học tập ở đại học được hiệu quả.
/>Video information college. Dự án được triển khai tại Đại Học Carnegie
Mellon nhằm thiết lập môi trường làm việc với các tư liệu video, văn bản, ảnh và
âm thanh. />Alexandria Digital Earth prototype (ADEPT). Đây là một bộ phận của
chương trình hợp tác về thư viện số giữa Đại học Berkeley, Đại học Santa Barbara
(UCSB), Đại học Stanford, Trung tâm Siêu Máy Tính San Diego và Thư Viện Số
California, liên quan chủ yếu đến việc sử dụng các loại thơng tin khơng gian, thư
mục

hóa

chúng,

những

vấn

đề

tìm

kiếm


trên

Web…

http:/www.alexandria.ucsb.edu/adept/
1.2.2. Content and collections (Nội dung và các bộ sưu tập)
Hướng này tập trung nghiên cứu việc tổ chức các kho thông tin về mọi lĩnh
vực tri thức. Một số dự án lớn có thể kể đến như:
Digital Library for the humanity. Đại Học Tuffs hợp tác với viện Max
Planck ở Berlin, Hội Ngôn Ngữ Hiện Đại (the Modern Language Association), Bảo
Tàng Nghệ Thuật Boston (the Boston Museum of Fine Arts) và Tổ Hợp Xuất Bản
Điện Tử Stoa (the Stoa electronic pubishing consortium) phát triển một thư viện
điện tử chứa các tư liệu từ thời Ai Cập cổ đại đến thế kỷ 19.

National Gallery of Spoken Word (NGSW). Đại Học Quốc Gia Michigan
đang thực hiện một thư viện các bài nói lịch sử suốt thế kỷ 20 với các công cụ xử lý
hiệu quả. />
1-3


National digital library for science, mathematics, engineering, ang
technology education (SMETE). Đại Học Berkeley California phát triển một thư
viện số tập hợp các ngành khoa học, tốn học và cơng nghệ hỗ trợ việc học tập ở
bậc phổ thông trung học.
Digital Atheneum. Đại Học Kentucky được Quỹ Khoa Học Quốc Gia tài trợ
phối hợp với Thư Viện Anh và Chương Trình Shared University Research của IBM
đang làm việc với kho tư liệu của Thư Viện Anh chứa đựng các tư liệu cổ của Hi
Lạp, Do Thái từ thế kỷ 17. .
Digital workflow management. Hơn 29.000 ngàn bản nhạc Mỹ từ 1790 đến
1960 đang được Đại Học Hopkins chuyển thành một thư viện số.


Data provenance. Các nghiên cứu tại Đại Học Pennsylvania hướng tới vấn đề
nan giải bậc nhất của các tập hợp dữ liệu trực tuyến. Đó là độ trung thực của một
bản tin số và những vấn đề liên quan, có thể xếp vào nhóm các vấn đề hệ thống
được trình bày dưói đây. />1.2.3.System-centered research (nghiên cứu hướng hệ thống )
Phát triển các thư viện số đòi hỏi phải giải quyết rất nhiều vấn đề về hệ thống.
Có thể nêu vài cái trong số các vấn đề quan trọng mà các nhà khoa học Mỹ đang tập
trung giải quyết:
New model for scholarly publishing. Bản chất vấn đề là việc xuất bản bây
giờ khác xa cách in ấn truyền thống. Xuất bản tức thời, phân tán, liên tục… Mọi
quy trình đều phải thay đổi thích hợp để thực hiện việc “xuất bản” trên các hệ thống
tính tốn phân tán. Vấn đề đang được Đại Học Berkeley California nghiên cứu.

Classification systems. Một trong những vấn đề kỹ thuật phức tạp nhất của
thư viện là phân loại tư liệu. Mọi công cụ lưu trữ, tìm kiếm đều rất phụ thuộc vào
kỹ thuật phân loại. Với các thư viện số chứa đựng, tích hợp mọi dạng thức thơng
tin, tri thức thì vấn đề càng phức tạp. Rất nhiều đại học và các viện nghiện cứu đang

1-4


tập

trung

cho

vấn

đề


này.



thể

xem

trong

Web

site:

/>Security, quality, access, and reliability. Với thư viện số thì an toàn, bảo
mật, chống sao chép bất hợp pháp, kỹ thuật tìm kiếm… cịn chứa đựng rất nhiều
vấn đề mở. Chẳng hạn ở Đại Học Cornell, các nhà nghiên cứu đang tập trung cho
tính tồn vẹn của một thư viện số.
1.3. Nghiên cứu về thư viện số tại Việt nam
Ở Việt nam, các nghiên cứu về thư viện số mới chỉ ở các buớc khởi đầu. Trong
những năm qua nhiêề phần mền quản lý thư viện và hỗ trợ đọc sách trên Internet đã
được đầu tư phát triển. Bảng 1.1 là đặc tính của một số phần mềm quản lý thư viện
do các nhà sản xuất phần mềm trong nước phát triển.
Bảng 1.1. Danh sách một số phần mền quản lý thư viện do các nhà sản xuất phần mềm
Việt nam phát triển
Tên thuộc
tính
Mơ tả


LIBOL (Tinh Vân)

ILIB (CMC Soft)

VEBRARY (Lạc Việt)

Phát triển vì nhu cầu trong nước
(1997) và sau đó được thay đổi
theo các chuẩn quốc tế

Có giao diện dạng Web và được
thiết kế theo mơ hình mở 3 lớp.

Đây là hệ thống quản lý thư viện điện
tử, được dùng đầu tiên tại Trung Tâm
Thông Tin Tư Liệu Đại Học Đà Nẵng

Hệ điều hành

WinNT, Unix, Linux

Cơ sở dữ
liệu

NA

Hỗ trợ tiếng
Việt

Hỗ trợ tiếng Việt mà một số

ngôn ngữ khác như Anh, Nga,
Nhật, Hoa, hỗ trợ Unicode

Hỗ trợ tìm
kiếm

Oracle 8i đối với phiên bản lớn
SQL-Server đối với phiên bản
nhỏ SmiLib
Hỗ trợ đa ngơn ngữ, trong đó
tiêng Việt theo bảng mã Unicode
và TVCN
Tìm kiếm tra cứu mạnh, hỗ trợ
tất cả các khung phân loại

NA

Mọi thao tác trên thư viện đều qua
trình duyệt Web
Lưu trữ và lập chỉ mục với số lượng
lớn các dạng tài liệu SGML, XML,
MARC, RTF, các dạng tài liệu đa
phương tiện theo chuẩn open-ebook
của W3C
Hỗ trợ các tiêu chuẩn về sách điện tử
và thư viện như Z39.50, Unicode…
Biên mục theo chuẩn MARC,
ÚMARC (ngầm định là MARC21)
Có nhiều tính năng khác như bổ sung
tài liệu, lưu thông tài liệu, quản lý

xuất bản phẩm nhiều kỳ, mượn liên
thư viện, báo cáo thống kê. Tính năng
bảo mật đáng lưu ý.
Tuân thủ những tiêu chuẩn mở về hệ
thống thư viện và được xây dựng trên
nền công nghệ hiện đại, quản lý thư
viện hiệu quả, có khả năng liên thơng
với các thư viện khác trên thế giới.

Các chức
năng chuyên
môn

Môi trường hiển thị: Web
Chuẩn giao tiếp dữ liệu ISO2709
Hỗ trợ tra cứu liên thư viện qua
chuẩn Z39.50
Có khả năng tùy biến giao diện
Có 8 phân hệ nhgiệp vụ chuyên
môn: tra cứu (Z39.50), , biên
mục, ấn phẩm điện tử, ấn phẩm
định kỳ, phân hệ bổ sung, phân
hệ quản lý, phân hệ bạn đọc và
phân hệ mượn trả.

Hỗ trợ tôi đa khả năng liên thư
việ theo các chuẩn (MARC,
USMARC, UNIMARC
Cho phép tra cứu liên thư viện
theo chuẩn Z39.50

Có chức năng hỗ trợ mã vạch
Cho phép thay đổi các module
khác nhau qua các thơng số

Nhận xét

Có khả năng đáp ứng hầu hết
các nhu cầu chuẩn hóa về nghiệp
vụ
Thân thiện với người dùng, chức
năng tìm kiếm nhanh chóng,
chính xác trên nhiều ngơn ngữ
và nhiều tiêu chí

Có tính mở và linh hoạt
Đã được ứng dụng tại một số nơi
như Học Viện Quan hệ Quốc
tế…

1-5

Hỗ trợ tìm kiếm tra cứu theo nhiều
tiêu chí khác nhau


Thông tin
liên lạc


Cty Công nghệ Tin học Tinh

Vân
371 Kim Mã, Hà NộI
ĐT: (4) 771 5737



Cty CMC Soft
777 GiảI Phóng, Hà NộI
ĐT: (4) 664 1595


Cty Cổ phần Tin học Lạc VIệt
191A Hồng Văn THụ, q. Phú Nhuận,
tp. Hồ Chí Minh
ĐT: (8) 842 3333
Fax: (8) 842 2370

1.4. Mục tiêu nghiên cứu của đề tài
Các nghiên cứu-ứng dụng CNTT vào quản lý và khai thác thông tin trong các
thư viện đã và đang được quan tâm. Sự phát triển nhanh chóng của CNTT và
Internet vào những thập niên sau của thế kỷ 20 đã tạo ra lượng thông tin khổng lồ.
Các thư viện số hóa đã được hình thành và hiện đang lưu trữ một lượng lớn thông
tin, dễ dàng truy cập qua Internet. Do đó cần phải xây dựng các cơng cụ hỗ trợ tổ
chức, tìm, đọc, tổng hợp thơng tin.
Những năm qua, nhiều thư viện và các trung tâm lưu trữ trong nước đã có
những bước phát triển đáng kể trong việc sử dụng các công cụ CNTT để quản lý tư
liệu, độc giả và hỗ trợ công tác tra cứu thông tin. Tuy nhiên hướng nghiên cứu phát
triển các công cụ hỗ trợ tìm kiến, phân tích, tổng hợp thơng tin vẫn đang cịn chưa
được đầu tư phát triển.


Ngồi nuớc, nhóm nghiên cứu về thư viện số thuộc Đại học Arizona ở địa chỉ
trang web là là một trong các nhóm thức đẩy các

1-6


nghiên cứu nhằm phát triển các kỹ thuật phân loại tư liệu hỗ trợ tìm đọc và tổng hợp
thơng tin. Đề tài “Xây dựng một số công cụ hỗ trợ tra cứu và tổng hợp thông
tin trong thư viên số “ tập trung vào các nội dung sau:
• Nghiên cứu nhu cầu khai thác thông tin của độc giả trong một số thư viện số
hóa tiêu biểu như thư viện cao học trường ĐHKHTN; thư viện sách điện tử
thuộc chương trình đào tạo từ xa ĐHQG-HCM làm cơ sở cho việc áp dụng
trong các thư viện khác.
• Nghiên cứu đề xuất qui trình tổ chức thơng tin hỗ trợ tiến trình sưu tầm, tổ
chức và khai thác thơng tin trong các thư viện số hóa và xây dựng hệ thống
phần mềm hỗ trợ qui trình.
• Nghiên cứu và xây dựng các cơng cụ phần mềm hỗ trợ tìm kiếm, phân tích
tổng hợp thơng tin trong các thư viện số hóa.
Giai đoạn 1: từ tháng 12/2001 đến 7/2002
• Nghiên cứu các nhu cầu khai thác thơng tin trong thư viện số
• Nghiên cứu đặc trưng của thơng tin tư liệu
• Nghiên cứu các công nghệ sưu tầm, tổ chức thông tin theo tiếp cận tác nhân
thơng minh, phân lớp gom cụm
• Thiết kế hệ thống và cài đặt một số phần mềm phân lớp gom cụm
Giai đoạn 2: Từ 08/2002 đến 3/2003
• Nghiên cứu cơng nghệ tìm kiếm thơng tin theo tiếp cận tác nhân thơng minh
• Cài đặt một số phần mềm phân lớp, gom cụm, hỗ trợ tra cứu thơng tin

1.5. Các kết quả đạt được của đề tài


• Xây dựng khung tiêu đề đề mục Việt, Anh , từ điển từ đồng hiện CNTT

• Xây dựng cơng cụ Search và Download
• Xây dựng cơng cụ tìm các dãy từ phổ biến để đặc trưng văn bản
• Xây dựng công cụ tổng hợp văn qua gom cụm bằng mạng Kohonen
• Xây dựng thư viện số trên Web với hàng ngàn bài báo khoa học. Phát triển
truy vấn thư viện qua từ khóa, qua tiêu đề đề mục, qua từ đồng hiện, qua lớp
ra Kohonen trên giao diện Web.

1-7


CHƯƠNG 2

TỔ CHỨC KHAI THÁC THÔNG TIN THƯ VIỆN
2.1. Tổ chức phục vụ khai thác thông tin
Bước qua giai đoạn quản lý tư liệu đã tồn tại nhiều thế hệ, đến giai đoạn quản
lý thông tin đã đặt ra cho nghề thư viện vấn đề trao đổi và chia sẻ thông tin. Đây là
bước ngoặt quan trọng trong nghề thư viện, đồng thời việc ứng dụng triệt để thành
tựu CNTT đã đặt ra một thách thức cho nghề thư viện là phải nhanh chóng thay đổi
quan niệm ngành nghề đề đối phó với với sự phát triển như vũ bảo của CNTT.
Ngày nay lượng thông tin dồi dào trở nên quá tải, CNTT lại giúp người ta chọn lọc
thông tin có ích và có ý nghĩa được gọi là tri thức và CNTT đồng thời cũng giúp
người ta tự hình thành tri thức – Đây là giai đoạn quản lý tri thức.
Ngày nay để đánh giá một thư viện, người ta cho rằng: “Giá trị thư viện không
phải ở chỗ thư viện có bao nhiêu nguồn thơng tin mà là thư viện đáp ứng nhu cầu
thơng tin một cách có hiệu quả như thế nào từ rất nhiều nguồn thông qua công nghệ
mới”; Trong một quan niệm mới khác về thư viện, người ta cho rằng “Chuyên môn
cốt lõi của nghề thư viện là điểm giao nhau của ba mặt: thông tin, công nghệ thông
tin và người sử dụng”.

Hiểu biết về nguồn thông tin và cách tổ chức thông tin là năng lực quan trọng
của cán bộ thư viện. Nghiệp vụ thư viện cho chúng ta biết cách thu thập thông tin –
biểu thị qua công tác quản lý và phương thức truy hồi thông tin; biết cách tổ chức
thông tin – biểu thị qua công tác phân loại, biên mục, chỉ mục và thiết lập cơ sở dữ
liệu; biết cách lưu trữ thông tin – biểu thị qua công tác quản lý vật lý nguồn thông
tin và các hoạt động tìm kiếm. Nói chung, người cán bộ thư viện phải biết cách tạo
điều kiện để người sử dụng truy cập được thông tin.
Công nghệ thông tin và truyền thông đã có ảnh hưởng trong 20 năm qua và ngày
nay đang có khả năng thay đổi cuộc sống của chúng ta về mọi mặt. Động lực thay
đổi quan trọng nhất chính là thơng tin. Cơng nghệ thơng tin mở rộng bốn bức tường
của thư viện nhằm cung cấp nguồn thông tin trong thư viện ra ngoài, đồng thời cung

2-1


cấp nguồn tư liệu ngoài phạm vi thư viện cho người sử dụng trong thư viện. CNTT
đã đưa ngành thông tin thư viện đạt đến đỉnh cao của quản lý thông tin.
Trong giai đoạn này – người cán bộ thư viện đã thay đổi vai trị của mình từ
người giữ sách thụ động sang vai trò chủ động của người cung cấp thông tin – là đã
bắt đầu quan tâm đến người sử dụng. Ngày nay trong công tác phục vụ thông tin, áp
lực thường trực đối với người cán bộ thư viện là phải thực hiện:
-

Cung cấp lượng thông tin đúng,

-

Thời điểm đúng,

-


Hình thức trình bày đúng,

-

Nhằm sử dụng đúng mục đích,

-

Chi phí hợp lý.

Muốn hồn thành tốt cơng việc trên thì người cán bộ thư viện phải quan tâm đến
người sử dụng với việc sử dụng thông tin:
-

Hiểu nhu cầu người sử dụng,

-

Phương thức sử dụng thông tin,

-

Khả năng đáp ứng nhu cầu
Giá trị chuyên nghiệp của nghề thư viện sẽ được nâng cao một khi chúng ta

không phải chỉ tập trung vào việc mua và cho mượn sách và những tài liệu khác mà
là phải biết nhận định nhu cầu và tìm ra giải pháp thơng tin cho người sử dụng,
đồng thời bằng cách sử dụng CNTT để quản lý thông tin một cách hợp lý nhằm đưa
thông tin đến với người sử dụng một cách nhanh nhất.

Bước qua giai đoạn quản lý tri thức, yêu cầu đặt ra cho người cán bộ thư viện
là phải quản lý lượng thông tin điện tử khổng lồ nhằm đáp ứng nhu cầu tìm kiếm
của người sử dụng ngày càng gia tăng.
Biên mục tự động là một trong những vấn đề then chốt trong giai đoạn này để
quản lý thư viện kỹ thuật số. Sử dụng hệ thống ngôn ngữ tiêu đề đề mục để giúp
người sử dụng tìm kiếm và tập trung thông tin theo chủ đề là một cơng việc biên
mục mang tính nghiệp vụ cao nhất - địi hỏi cả hai tính chất đặc thù là kỹ thuật và
nghệ thuật. Việc biên mục tự động do đó đòi hỏi chuyên gia tin học và cán bộ thư
viện phải có một sự phối hợp đồng bộ để tạo nên một hệ thống tiêu đề đề mục phản

2-2


ánh đúng nội dung của kho tin. Đồng thời hỗ trợ việc tìm kiếm thơng tin cho người
sử dụng thơng qua hệ thống tiêu đề đề mục hồn chỉnh đó.
Tiêu đề đề mục hay đề mục là một danh từ hay cụm từ được hình thành theo
những nguyên tắc định sẳn với một cấu trúc nhất định hay ngữ pháp ngôn ngữ tiêu
đề đề mục. Một tiêu đề đề mục phản ánh một nội dung của tài liệu. Một danh sách
tiêu đề đề mục được biên soạn trước và đưa vào trong CSDL được xem như là một
tập tin có thẩm quyền (authority file) dùng để kiểm sốt tính nhất quán (authority
control) của tiêu đề đề mục. Đồng thời được dùng để ấn định tiêu đề đề mục cho
từng tài liệu điện tử một cách tự động.
Ngôn ngữ tiêu đề đề mục khơng q máy móc và đơn giản như từ khóa, và
cũng khơng dài dịng như ngơn ngữ thường. Tiêu đề đề mục có một cấu trúc nhất
định gồm đề mục mục chính với những phân mục phản ánh tính khoa học và đại
chúng sẽ trở nên gần gũi với những tìm tin phục vụ cơng tác nghiên cứu; bản thân
danh sách tiêu đề đề mục cũng đã đóng góp một phần trong cơng tác nghiên cứu
cho những ai theo đuổi một đề tài theo một chủ đề nào đó.
Để ấn định một tiêu đề đề mục cho một cuốn sách hay một tài liệu, người cán
bộ biên mục phải mất nhiều thời gian trước khi đưa vào CSDL một biểu ghi có chứa

tiêu đề đề mục đó, đây là công việc tiền kết hợp (pre-coordinating). Tiền kết hợp
theo cách này sẽ không thực hiện được khi khối lượng thông tin cần xử lý trở nên
quá lớn. Tuy nhiên với giải pháp hỗ trợ của CNTT được trình bày trong đề tài
nghiên cứu khoa học này, công việc biên mục trở nên tự động. Ngoài ra với các
nghiên cứu gom cụm thông tin sẽ cung cấp giải pháp đề xuất tập các từ khóa đặc
trưng cho nhóm thơng tin cần khảo sát tạo điều kiện cho việc xây dựng các khung
tiêu đề đề mục.

2-3


2.2. Một ví dụ điển hình về thư viện điện tử trực tuyến
(www.webcrawler.com)
Webcrawler là một trong những thí dụ điển hình về thư viện điện tử online.

Trên trang chủ của Webcrawler, ở trên cùng bên góc trái là Ơ hội thoại để tìm theo
Từ khóa. Phía dưới là 18 chanels cho các chủ đề khác nhau (Giải trí, Giáo dục, Máy
tính và Internet, Tin tức, Sức khỏe, Mua sắm,vv…).

2-4


Ví dụ khi nhấp chuột vào chanel Giáo dục (Education), ta sẽ đi đến một trang web
mà trên đó, trong phần Thư mục (Directory) sẽ bao gồm 14 lãnh vực thuộc Giáo
dục (Ái hữu, Nghệ thuật và Nhân văn, Hỗ trợ tài chánh, Luật học, Thư viện, Tham
khảo, Khoa học & Tự nhiên, Khoa học Xã hội, Các Viện và Trường đại học, ...).

Nếu ta thử nhấp chuột vào mục Khoa học và Tự nhiên, ta sẽ lại đi đến một
webpage gồm 17 ngành Khoa học tự nhiên (Hóa học, Vật lý, vv…). Nếu cần tìm
các thơng tin về Hóa học, ta lại nhấp chuột vào mục Hóa học, dưới đề mục Hóa học

này lại gồm 15 chuyên ngành nhỏ và các vấn đề liên quan đến Hóa học (Hóa phân
tích, Hóa đại cương,v.v…). Webcrawler sẽ đề nghị những website tốt nhất về những
vấn đề này mỗi khi ta nhấp chuột vào các đề mục trong Directory.
Sự tổ chức của một thư viện điện tử online về bản chất không khác với một
thư viện truyền thống: một chủ đề lớn bao gồm những chủ đề nhỏ, rồi đến lượt các
chủ đề nhỏ này bao gồm các chủ đề nhỏ hơn, và cứ thế tiếp tục cho đến tận nguồn
thông tin cuối cùng là một trang web hay một bài viết. Điều làm cho các nguồn
thông tin trong một thư viện điện tử online như trong phần Directory của
Webcrawler khác với các nguồn thông tin truyền thống là khối lượng khổng lồ của
khả năng nối kết to lớn giữa các thông tin trên mạng. Ví dụ khi tìm các thơng tin về
Hóa học, từ những web site tốt nhất được đề nghị trong phần Directory Matches của
Webcrawler, chúng ta sẽ được dẫn đến rất nhiều web site lớn khác như web site của
Hiệp hội Hóa học Hoa Kỳ, và nhiều web site khác mà chính bản thân chúng cũng có

2-5


thể coi như những thư viện về hóa học vì khối lượng thông tin to lớn được nối kết
trong mọi web site này.

2-6


CHƯƠNG 3

TIÊU ĐỀ ĐỀ MỤC
3.1 TIÊU ĐỀ ĐỀ MỤC
Tiêu đề đề mục được dịch từ Subject Heading (Subject = Đề mục và Heading
= Tiêu đề) đôi khi được gọi là Đề mục như ta đã biết, cùng với Tác giả và Nhan
đề là những điểm truy cập quan trọng nhất trong Hệ thống tra cứu thư viện. Tác

giả và Nhan đềø được mơ tả dựa vào dữ liệu có sẵn của tư liệu, trong khi đó Tiêu
đề đề mục do cán bộ biên mục xác định dựa vào nội dung tư liệu rồi đưa vào hệ
thống như một dữ liệu mới, tiến trình này được gọi là Phân tích Đề mục hay
Phân tích Chủ đề (Subject Analysis) phải được thực hiện với nghệ thuật và kỹ
thuật biên mục. Từng tư liệu được xác định đúng tiêu đề đề mục hay hệ thống tiêu
đề đề mục của một thư viện được xử lý tốt thì nội dung kho tư liệu của thư viện đó
được phản ánh một cách đầy đủ. Do đó Tiêu đề đề mục được dùng rộng rãi trong
Biên mục sách (Cataloging).
Thư viện của một quốc gia sử dụng ngơn ngữ nào thì Tiêu đề đề mục được thể
hiện bằng ngơn ngữ đó. Từng quốc gia do đó thiết lập một Hệ thống Tiêu đề Đề
mục bằng ngôn ngữ của riêng mình, nhưng phải tuân theo những cấu trúc và
nguyên tắc thiết lập chung để dần dần tiến đến một ngôn ngữ chung "Ngôn ngữ
tiêu đề đề mục = Subject Heading Language".
Một vài minh họa phô hiện thông tin trên biểu ghi về tư liệu với Đề mục.
sử dụng Tiếng Việt cho Hệ thống Tiêu đề đề mục của Thư viện mình như minh
họa trong Hình 3.1 - Hai Đề mục được đánh số thứ tự Ả Rập ở dòng cuối cùng của
Thẻ Thư mục.

3-1


Hình 3.1: Thơng tin về sách (Hệ thống Online Catalog của Thư viện ĐH Khoa
học Tự Nhiên)
Độc giả có thể nhấp chuột vào các Đề mục sau để tìm tài liệu có nội dung tương
ứng:
C++ (NGƠN NGỮ LẬP TRÌNH MÁY TÍNH) ĐỒ HỌA MÁY TÍNH
Thư viện Quốc hội Hoa kỳ sử dụng Khung Đề mục LC (Library of Congress
Subject Headings) để định Tiêu đề đề mục. Ví dụ ở Hình 3.2 cho ta thấy thông tin
về một cuốn sách xuất bản bằng Tiếng Việt có hai Đề mục bằng Tiếng Anh được
dịch như sau:

BỘ ĐỘI--GIÁO DỤC NGOẠI KHÓA--VIỆT NAM
VIỆT NAM--LỰC LƯỢNG VŨ TRANG--SINH HOẠT CHÍNH TRỊ

3-2


Hình 3.2: Thơng tin về sách (Hệ thống Online Catalog của Thư viện Quốc hội
Hoa kỳ)
Ví dụ ở Hình 3.3 là một biểu ghi thư mục một tác phẩm Tiếng Ba Lan của Thư
viện Quốc gia Anh gồm 4 Tiêu đề mục bằng Tiếng Anh. Đề mục ở đây được chọn
từ Khung LCSH (Library of Congress Subject Headings). Những đề mục được
dịch như sau:
KINH TẾ DỰ BÁO--BA LAN
BA LAN--ĐIỀU KIỆN KINH TẾ--1990BA LAN--CHÍNH SÁCH KINH TẾ--1990-

3-3


Hình 3.3: Thơng tin về sách (Hệ thống Online Catalog của Thư viện Quốc gia
Anh)
Hình 3.4 trình bày một biểu ghi thư mục của một bài tạp chí trong Cơ sở dữ liệu
CD-ROM "General Science" của EBSCO. Bài tạp chí này được phân tích thành
hai Đề mục mang nội dung khác nhau, được dịch như sau:
Y TẾ, CHĂM SÓC--VIỆT NAM
VIỆT NAM--CHÍNH SÁCH KINH TẾ

3-4


Search/Subjects/Find

GENERAL SCIENCE (FEB'91 - MAR'96)
+--------------------------Detailed Display - 1 of 1---------------------------+
Subject: MEDICAL care -- Vietnam; VIETNAM -- Economic policy
Title: The influence of market economics on primary health care in
Vietnam.
Author: Gellert, George A.
Summary: Analyzes the impact of economic reforms introduced in
Vietnam in 1986 on health care in the country. Information on Vietnam's
health care system; Abolishing the subsidy system; Details of factors
affecting primary health care; Disease prevention and health promotion
programs;Conclusions.
Source: (Journal of the American Medical Association, 5/17/95, Vol. 273
Issue 19,p1498,5p)
ISSN: 0098-7484
Item No: 9506043952

Hình 3.4: Thơng tin về bài tạp chí (CSDL CD-ROM EBSCO)
Qua các minh họa trên ta thấy Tiêu đề đề mục đóng vai trị quan trọng trong
việc giới thiệu nội dung của một tư liệu (sách hoặc bài tạp chí...). Tiêu đề đề mục
là một trường độc lập trong một biểu ghi.
3.2. TỪ KHĨA
Từ khóa là từ được dùng để định vị thông tin trong một Cơ sở dữ liệu. Thông
tin có thể là một biểu ghi thư mục (bibligographic record), bản tóm tắc (abstract),
hay tồn văn (full text) mà Từ khóa hiện diện trong đó.
Có hai loại Từ khóa:

3-5





Từ khóa tự do (Free Style Keyword) là từ nằm sẵn trong tư liệu hay
CSDL. Từ khóa này khơng có riêng một trường độc lập.



Từ khóa có kiểm sốt (Controlled Style Keyword) là từ được chọn lọc
đưa vào CSDL. Từ khóa loại này có riêng một trường độc lập.

Khác với Tiêu đề đề mục đã có từ lâu, Từ khóa chỉ mới xuất hiện khi computer
được áp dụng trong ngành Thơng tin Thư viện.
Từ khóa giúp ta tìm nhanh tài liệu có chứa từ khóa đó. Nhờ các Phép tốn
Boolean giúp ta kết hợp nhiều nội dung tìm hay hạn chế số lượng kết quả tìm. Do
đo Từ khóa được dùng để định vị và chỉ điểm (pointing) thông tin cần tìm trong
CSDL. Từ khóa được dùng rộng rãi trong cơng tác Chỉ mục tạp chí (Indexing).
3.3. SO SÁNH TIÊU ĐỀ ĐỀ MỤC VỚI TỪ KHÓA.
Tiêu đề đề mục với Từ khóa tự do: Được dùng trong Biên mục sách


Tiêu đề đề mục là do Cán bộ biên mục đưa vào Cơ sở dữ liệu để phản ánh
nội dung tư liệu.



Từ khóa tự do có thể là Từ khóa trong Nhan đề, Từ khóa trong Tác giả,
Từ khóa trong Đề mục.

Vài minh họa cách sử dụng Từ khóa tự do trong Hệ thống tra cứu Online
Catalog. So sánh với cách sử dụng Tiêu đề đề mục.
Hình 3.5 và Hình 3.6 cho ta thấy hai cách tìm theo Tiêu đề (Heading) và Từ

khóa tự do (Keyword) trong Hệ thống Online Catalog của Thư viện Baker, Đại
học Harvard, Hoa kỳ.

3-6


Hình 3.5

Khi ta chọn BASIC SEARCH màn hình sẽ hiện ra như Hình 3.5 cho ta phương
thức tìm theo Tiêu đề gồm: Tiêu đề Tác giả, Tiêu đề Nhan đề, Tiêu đề Tên Tạp
chí, Tiêu đề đề mục, và Tiêu đề ký hiệu Phân loại (Xếp giá). Mỗi Tiêu đề là một
Trường trong CSDL. Ta phải gõ đầy đủ thông tin về Tiêu đề. Chẳng hạn như đối
với Tiêu đề đề mục thì ta phải gõ đầy đủ Đề mục chính, Tiểu phân mục, dấu phân
cách,v.v... Ví dụ:
VIETNAM--HISTORY--1954-1975
Nếu ta chọn KEYWORD SEARCH Màn hình như Hình3.6 cho ta phương thức
tìm theo Từ khóa tự do kèm theo giải thích cách tìm theo những Tốn tử logic:


thêm AND/OR vào ơ hội thoại



dùng ngoặc kép để thể hiện Từ khóa nhóm từ: "venture capital"



dùng + để đánh dấu những từ thiết yếu: +management

3-7



×