Tải bản đầy đủ (.docx) (74 trang)

Hệ thống đề cương câu hỏi môn thư viện số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (806.54 KB, 74 trang )

Hệ thống đề cương câu hỏi môn thư viện số
Câu 1: Trình bày tổng quan về tình hình nghiên cứu và phát triển thư viện số DL (Digital
Library) trên thế giới và ở Việt Nam ?


Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế
giới



Trọng tâm của các dự án DL :
Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thơng
tin
Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL

 Nghiên cứu và phát triển DL ở Mỹ


Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số
lượng tăng nhanh



2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giai đoạn 2 (DLI-2) và
Dự án thư viện số quốc tế



Dự án thư viện số DLI:

 Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU


 Dự án dịch vụ thông tin số của Đại học California ở Berkeley
 Dự án Alexandria của Đại học California ở Santa Barbara
 Dự án Interspace của Đại học Illinois ở Urbana-Champaign
 Dự án UMDL của Đại học Michigan
 Dự án InfoBus của Đại học Stanford


Các dự án DL chủ yếu khác ở Mỹ:

 Thư viện quốc hội (Library of Congress)
 Dự án công nghệ thư viện số DLT của NASA
 Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ
 Dự án thư viện số của IBM
1


 Dự án thư viện số California CDL
 Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project

Agency)
 Dự án MOA của hai Đại học Cornel và Michigan
 Dự án Open Book của Đại học Yale
 Dự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T

Laboratories và Springer-Verlag
 Dự án TULIP của nhà xuất bản Elsevier Science Publisher


DL ở các nước khác


Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về
lịch sử, văn hoá và nghệ thuật:
Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan,
Australia, New Zealand
 Việt Nam


Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư
viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng tồn cầu sang xã hội
thơng tin



Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn tồn số hố, với tồn bộ dịch vụ
chuyển sang phương thức điện tử, là không khả thi



Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của q trình tin học hố, là các
cổng vào thơng tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam



Đại bộ phận thư viện sẽ đi theo con đường: kết hợp các nguồn tin truyền thống với hiện
đại, bổ sung thêm các tạp chí điện tử tồn văn trên CD-ROM, đặt mua các tạp chí điện tử
tồn văn trên mạng, số hố một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều
kiện cho NSD chủ động khai thác thông tin




Hiện nay, một số phần mềm được cài đặt:

 PM Thư viện số Greenstone của dự án New Zealand Digital Library ở Đại học Quốc gia

TP Hồ Chí Minh và nhiều trường Đại học khác
 PM Thư viện số VTLS ở Đại học Bách khoa Hà Nội
2


 PM Thư viện số Koha ở Đại học Quốc gia Hà Nội
 PM Thư viện số Dspace ở Đại học Đà Lạt
 PM thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc gia Việt Nam
 PM thư viện điện tử LIBOL của công ty Tinh vân ở Cục Thông tin khoa học và công

nghệ Quốc gia



Hệ phần mềm nguồn mở Greenstone rất phổ biến trong xây dựng thư viện số. PM cung
cấp cách tổ chức thông tin và đưa thông tin lên Internet rất thuận tiện. Kho tài liệu do
Greenstone tạo ra có thể duy trì, tìm kiếm và duyệt. Kho tài liệu dành cho mọi đối tượng
độc giả và có thể mở rộng. PM được phát hành theo General Public License (GNU) với
tinh thần là phần mềm nguồn mở. Xem thông tin chi tiết tại www.nzdl.org. Phần mềm
Thư viện số Greenstone do Dự án Thư viện số New Zealand của trường Đại học Waikato
triển khai. Có thể tải phần mềm từ www.nzdl.org.



Hệ phần mềm thư viện số Greenstone đang được Tổ chức Giáo dục, Khoa học và Văn
hóa của Liên hợp quốc UNESCO ủng hộ và khuyến cáo các nước trên thế giới cài đặt và

sử dụng.
Câu 2: Trình bày các định nghĩa khơng hình thức về DL, lợi ích của DL,ưu điểm và
nhược điểm của DL ?



Định nghĩa 1 (Arms W.Y.): DL là một kho thơng tin có quản lý với các dịch vụ liên kết,
trong đó thơng tin được lưu trữ ở dạng số và có thể truy cập qua một mạng.



Định nghĩa 2 (Chen H., Houston A.L.): DL là một thực thể liên quan tới sự tạo ra các
nguồn tin và sự hoạt động thơng tin qua các mạng tồn cầu.



Định nghĩa 3 (Reddy R., Wladawsky-Berger I.): DL là các kho dữ liệu mạng về tài liệu
văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và
các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương
lai.



Định nghĩa 4 (Sun Microsystems): DL là sự mở rộng điện tử về các chức năng điển hình
NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống.



Định nghĩa 5 (Witten I.H., Bainbridge D.): DL là các kho đối tượng số, bao gồm văn bản,
video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo

trì.

3




Định nghĩa 6 (Liên đoàn Thư viện số - The Digital Library Federation): Thư viện số là
những tổ chức cung cấp các nguồn lực gồm cả cán bộ chuyên môn để lựa chọn, xây
dựng, truy cập tri thức, giải thích, phân phát, bảo tồn tính tồn vẹn và đảm bảo tính bền
vững vượt thời gian của các kho tài liệu số, do đó chúng ln sẵn sàng đáp ứng nhu cầu
sử dụng của một cộng đồng cụ thể hoặc của một nhóm cộng đồng.

 Tóm lại, thư viện số là một kho thơng tin số khổng lồ có tổ chức với các dịch vụ liên kết

qua mạng.
 Ngồi ra, cịn có một số định nghĩa khác về DL:


“Thư viện số là thuật ngữ được chấp nhận rộng rãi như sự mô tả việc sử dụng công nghệ
số của thư viện để thu thập, lưu trữ, bảo tồn và cung cấp sự truy cập đến thông tin" Trung tâm Nghiên cứu và đổi mới thư viện Anh



Thư viện số không phải chỉ là một thực thể đơn lẻ; Thư viện số phải có cơng nghệ để liên
kết tài ngun của nhiều dịch vụ; Sự liên kết giữa những thư viện điện tử và dịch vụ
thông tin phải là trong suốt đối với người dùng tin đầu cuối; Sự truy nhập đến thư viện
điện tử và dịch vụ thông tin là mục đích; Sưu tập số của thư viện số khơng chỉ giới hạn ở
mẫu tìm của tài liệu; nó được mở rộng cả đến các đối tượng số mà chúng không thể được
trình bày hoặc phổ biến ở dạng in ấn - Hiệp hội Thư viện nghiên cứu




"Thư viện số là cơ quan/tổ chức có các nguồn lực, kể cả các nguồn nhân lực chuyên hoá,
để lựa chọn, cấu trúc việc truy cập đến diễn giải, phổ biến, bảo quản sự toàn vẹn, đảm
bảo sự ổn định trong thời gian dài của sưu tập các cơng trình số hố mà chúng ở dạng sẵn
sàng để sử dụng một cách kinh tế cho một hoặc một số cộng đồng nhất định." - Liên đồn
Thư viện Hoa Kỳ



Thư viện số là nơi trình bày những bộ sưu tập thơng tin có tổ chức. Đối tượng của những
bộ sưu tập đó là nguồn tài ngun thơng tin số hóa cùng với các phương thức: truy hồi,
chọn lọc, truy cập, tổ chức và bảo trì bộ sưu tập đó.



Người sử dụng: truy cập, chọn lọc, hiển thị tài liệu số



Cán bộ thư viện: xây dựng, tổ chức, lưu hành



Thư viện điện tử là loại thư viện "sử dụng các phương tiện điện tử trong thu thập, lưu trữ,
xử lý, tìm kiếm và phổ biến thơng tin" - Vũ Văn Sơn




Thư viện điện tử là thư viện duy trì tồn bộ hay một phần đáng kể sưu tập của mình ở
dạng máy tính có thể xử lý được như một phương thức thay thế, bổ sung cho những tài
liệu in truyền thống hoặc tài liệu trên vi hình hiện đang chiếm ưu thế trong thư viện – B.
Sloan
4




“Thư viện điện tử là hệ thống thông tin phân tán cho phép tích hợp, bảo quản và sử dụng
một cách hiệu quả những tập hợp đa dạng tài liệu điện tử, truy cập được ở dạng thuận tiện
cho người sử dụng thơng qua mạng truyền dữ liệu tồn cầu" - Chương trình thư viện điện
tử của Nga



LỢI ÍCH CỦA DL


Thư viện số mang thư viện đến người sử dụng



Máy tính được sử dụng để tìm kiếm và duyệt



Thơng tin có thể được chia sẻ




Thơng tin dễ dàng cập nhật hơn



Thơng tin ln sẵn có



Các dạng thơng tin mới trở thành thực hiện được



Giá của DL

Ưu điểm và nhược điểm của DL:
ƯU ĐIỂM
 Không bị giới hạn về địa lý
 Tiết kiệm khơng gian
 Sẵn có 24/24
 Truy cập đồng thời
 Khả năng tìm kiếm
 Lưu trữ thuận tiện
 Kết nối mạng
 Chi phí thấp








NHƯỢC ĐIỂM
Phần cứng/Phần mềm
Bản quyền
Truy cập hạn chế
Phụ thuộc vào nhà cung cấp
Lưu trữ lâu dài
5


 Mua quyền truy cập












Câu 4: . Trình bày vấn đề bản quyền tài liệu trong DL.
a. Khái niệm cơ bản
Bản quyền (Copyright): thuật ngữ pháp lý mô tả quyền xác định cho người sáng tạo đối với
tài liệu và các cơng trình nghệ thuật của họ.
Vi phạm bản quyền (Copyright infringement): việc sử dụng tài liệu được bảo vệ bởi luật bản
quyền không được phép của chủ sở hữu, hoặc cấp phép và/hoặc bán quyền sử dụng.

Người sáng tạo (Creator): tác giả của tác phẩm, người mà cơng trình của họ được công
nhận. Chủ sở hữu bản quyền.
Nguyên tắc sử dụng không phải xin phép (Fair use principle): cho phép thư viện sao chụp
tác phẩm. Kiểm tra bốn nhân tố sẽ đảm bảo thư viện quyết định việc sử dụng là phải xin
phép hay khơng trong trường hợp có một bản sao thực làm ra.
Học thuyết chấm dứt quyền sau lần bán đầu tiên (First sale doctrine): điều khoản cho phép
thư viện, một khi đã bản sao tác phẩm đúng bản quyền, quyền phổ biến bản sao không cần
phép của chủ sở hữu bản quyền. Lần bán đầu tiên đảm bảo các thư viện mượn sách hoặc tiến
hành mượn liên thư viện không vi phạm luật bản quyền.
Quyền sở hữu trí tuệ (Intellectual Property Right)): sáng tạo trí óc: sáng chế, tác phẩm văn
học và nghệ thuật, biểu tượng, tên, ảnh và các thiết kế dùng trong thương mại.
Quyền tinh thần (Moral rights): quyền dành cho như người sáng tạo tác phẩm, thực hiện
hành động nếu ai đó gây sai trái hoặc tác phẩm bị xuyên tạc.
WIPO - Tổ chức Sở hữu trí tuệ quốc tế là tổ chức chuyên môn của Liên hiệp quốc hoạt động
trong việc phát triển một hệ thống sở hữu trí tuệ quốc tế truy cập được và ổn định dành cho
sự sáng tạo, kích thích cải tiến và góp phần vào phát triển kinh tế trong khi bảo vệ được lợi
ích chung.
b. Quyền sở hữu trí tuệ là gì?
 Mở đầu
 Thư viện là cơ quan có nhiệm vụ cung cấp sự truy cập thơng tin cơng bằng cho cộng
đồng nó phục vụ. Quyền sở hữu trí tuệ và bản quyền ảnh hưởng đến nhiệm vụ này như
thế nào?
 WIPO định nghĩa quyền sở hữu trí tuệ là “sáng tạo trí óc: sáng chế, tác phẩm văn học và
nghệ thuật, biểu tượng, tên, ảnh và các thiết kế dùng trong thương mại.”
 Theo WIPO, quyền sở hữu trí tuệ được phân thành hai loại: sở hữu công nghiệp và bản
quyền.
 Bản quyền là gì?
 Bản quyền là thuật ngữ pháp lý mơ tả quyền của người sáng tạo đối với các tác phẩm văn
học và nghệ thuật của họ. Bảo vệ bản quyền là tự động cho dù tác phẩm này có được
đăng ký hay không. Ngay khi tác phẩm được viết ra, nó đã được bảo vệ.

Bản quyền phức tạp và khác nhau giữa các nước
 Ai là chủ sở hữu bản quyền?
 Nói chung, người sáng tạo ra tác phẩm là chủ sở hữu bản quyền. Trong trường hợp có từ
hai người sáng tạo trở lên, điều quan trọng là cần có một bản cam kết viết ra xem ai là
6


chủ sở hữu bản quyền. Mặt khác, đã có những ngoại lệ với quy định này, và ngoại lệ cũng
khác nhau giữa các nước.
 Bản quyền cũng có thể được cấp lại (thí dụ, cho nhà xuất bản) và/hoặc hết thời hạn sau
khi tác giả chết.
 Quyền dành riêng cho chủ sở hữu bản quyền
 Quyền tái bản tác phẩm (gồm sao chụp, sao chép, làm phim, ghi âm và quét)
 Đưa tác phẩm đến với công chúng lần đầu tiên


























Tun truyền tác phẩm với cơng chúng
Trình diễn tác phẩm với cơng chúng (chiếu phim, chơi nhạc)
Phóng tác (gồm dịch, kịch hố, chuyển biên)
Truyền tệp và ghi âm cho cơng chúng bằng cách sử dụng bất kỳ hình thức cơng nghệ nào
(qua thư điện tử, phát thanh, ...)
Phát lại trên vơ tuyến hoặc truyền hình.
Bản quyền sẽ chấm dứt trong bao lâu?
Khoảng thời gian bản quyền khác nhau giữa các nước. Ở Philippines, khoảng thời gian
bản quyền chấm dứt sau khi người sáng tạo chết 50 năm.
Ở Ôxtrâylia, từ tháng 1/2005, khoảng thời gian bản quyền là cuộc đời người sáng tạo
công thêm 70 năm hoặc 70 năm từ khi tác phẩm được xuất bản lần đầu tiên.
Các điều khoản ở Hoa Kỳ còn phức tạp hơn.
Vi phạm bản quyền là gì?
Vi phạm bản quyền là sử dụng tài liệu được bảo vệ bản quyền không được phép của chủ
sở hữu, hoặc cấp phép và/hoặc bán trái phép.
Các hoạt động khơng vi phạm bản quyền
Đó là các hoạt động thuộc sử dụng không phải xin phép.
Sử dụng thông tin,.. không nằm trong diện bảo vệ bản quyền.
Các tác phẩm không được bảo vệ bản quyền
Ý tưởng, quá trình, hệ thống, phương pháp hoặc hoạt động, khái niệm, nguyên lý, phát
hiện hoặc siêu dữ liệu cũng như sự kiện nếu được diễn tả, giải thích, minh hoạ hoặc kèm

trong một tác phẩm.
Tin tức hàng ngày và các sự kiện linh tinh khác có tính chất bình thường của thơng tin
báo chí.
Tài liệu luật, hành chính hoặc có tính pháp lý, cũng như các bản dịch chính thức của các
tài liệu này.
Tài liệu của chính phủ; tuy nhiên cần phải xin phép trước khi khai thác vì mục đích lợi
nhuận.
Tác giả của các bài nói chuyện, bài giảng, bài thuyết giáo, bài luận văn sẽ có độc quyền
tạo ra bộ sưu tập các tác phẩm của họ.
Quyền tinh thần
Bổ sung cho bản quyền, người sáng tạo có các quyền tinh thần. Đó là các quyền dành cho
người sáng tạo tác phẩm, thực hiện hành động nếu ai đó xâm phạm tác phẩm hoặc tác
phẩm bị xuyên tạc.
7


 Học thuyết chấm dứt quyền sau lần bán đầu tiên là gì?
 Khi thư viện hoặc cá nhân mua hợp pháp một bản sao tác phẩm, Học thuyết chấm dứt

quyền sau lần bán đầu tiên của luật bản quyền (17 U.S.C. Section 109) cho phép thư viện
hoặc cá nhân này có thể thực hiện quyền dành riêng khác của bản quyền-quyền phổ biến
bản sao-không cần phép của chủ sở hữu bản quyền


Lần bán đầu tiên đảm bảo cho thư viện mượn sách và tiến hành các dịch vụ liên thư viện
không cần cam kết không vi phạm bản quyền.

 Hướng dẫn sử dụng không phải xin phép

Việc sao chép cá nhân một tác phẩm đã xuất bản ra một bản sao duy nhất, ở đây việc sao

chép được thực hiện bởi một người tự nhiên chỉ cho mục đích nghiên cứu hoặc học tập cá nhân,
sẽ được phép, không cần sự cho phép của chủ sở hữu bản quyền tác phẩm. Mặt khác, bản quyền
sẽ không được mở rộng cho:


Sao chép toàn bộ cuốn sách hoặc phần quan trọng của nó hoặc nhạc phẩm dưới dạng đồ
hoạ bằng các phương tiện sao chụp;



Tập hợp dữ liệu và các tài liệu khác;



Chương trình máy tính.



Bất kỳ tác phẩm nào khi sao chép có thể làm ảnh hưởng quyền lợi hợp pháp của tác giả.



Việc sử dụng chương trình máy tính cùng với máy tính cho mục đích này, và để mở rộng
chương trình máy tính đã có;



Mục đích lưu trữ, và để thay thế bản sao đã có sở hữu luật pháp của một chương trình
máy tính nếu bị mất, phá huỷ hoặc khơng sử dụng được nữa.


 Phân tích 4 yếu tố về sử dụng không phải xin phép


Sử dụng việc kiểm tra sau đây để xác định việc sử dụng có phải là khơng cần xin phép
hay khơng:


Mục đích và đặc điểm sử dụng là gì? Đó sử dụng có bản chất thương mại hay mục
đích đào tạo phi lợi nhuận,



Bản chất của tác phẩm có bản quyền;



Số lượng và thực chất của phần được sử dụng so với toàn bộ tác phẩm;



Tác động của Việc sử dụng đến thị trường tiềm năng hoặc gía trị của tác phẩm.
8


Quyền đặc biệt của thư viện


Các thư viện được phép thực thi những quyền đặc biệt bổ sung cho việc sử dụng
khơng phải xin phép. Một số quyền đó là:




Lưu trữ những tác phẩm bị phá huỷ, hư hỏng, ăn cắp và mất.



Sao chụp cho người dùng thư viện.



Sao chụp cho những người dùng khác (mượn liên thư viện).



Trình diễn và trưng bày trong dạy trực tiếp và đào tạo từ xa



Các cơ quan giáo dục cũng được phép trưng bày và trình diễn tác phẩm khác
trong các khố học có giảng dạy trực tiếp, và mức độ ít hơn trong đào tạo từ xa.

 Bảo vệ bản quyền quốc tế


Khơng có gì là bảo vệ bản quyền quốc tế, nhưng phần lớn các nước có bảo vệ các tác
phẩm nước ngồi theo các hiệp ước và cơng ước quốc tế.

 Ghi nhớ



Nếu không chắc chắn về các điều khoản của luật này, để áp dụng cụ thể, cần xin giấy
phép sử dụng tài liệu từ chủ sở hữu bản quyền và/hoặc tư vấn luật sư vì luật bản quyền ở
các nước khác nhau thì khác nhau. Mặt khác, cũng nên nhớ rằng, do cơng ước quốc tế, có
sự dành cho nhau những đặc quyền trong luật này với các nước tham gia công ước, hiệp
ước hoặc nghị định liên quân đến
C,Luật bản quyền hiện hành có áp dụng trong thời đại số hay khơng?



Mở đầu



Mục đích của luật bản quyền là cân bằng quyền của chủ sở hữu bản quyền và người
dùng. Luật bản quyền hiện hành có áp dụng được trong thời đại số hay không? Thư viện
mua thơng tin để cung cấp bình đẳng cho cộng đồng của mình. Vì ngày càng có nhiều
thơng tin phổ biến dưới dạng số, nên thư viện cần phải chú ý để đảm bảo cho cơng chúng
có thể được hưởng các quyền truy cập giống như với thông tin dạng in.

 Bản sao số


Bản quyền dựa trên việc sao chép tài liệu. Trong thời đại in, việc sao chụp có thể nhận
biết được, và một trong các quyền dành riêng chi chủ sở hữu bản quyền là sao chụp.
Trong thời đại số, các bản sao số được tạo ra ngay khi tài liệu này được truy cập.

 Cấp phép và quyền sở hữu
9





Ngày nay các thư viện không bổ sung tài liệu số để sở hữu riêng. Thay vào đó họ mua
quyền truy cập, mà đòi hỏi đặt mua dài hạn liên tục

 Vấn đề bảo quản

Luật bản quyền cho phép thư viện sao chụp tài liệu in và sao chép tài liệu điện tử với mục đích
bảo quản.
 Đăng ký trước điện tử


Luật bản quyền hạn chế việc đặt trước tài liệu điện tử ở các chương, bài báo đơn lẻ, một
số biểu đồ và các minh hoạ khác, hoặc những phần nhỏ của tác phẩm.



Truy cập cũng có thể hạn chế cho các thành viên của lớp và cần chấm dứt vào cuối khố
học này. Giấy phép cũng có thể cần thiết đối với những tài liệu mà sẽ được sử dụng lại
sau này.

 Ngoại lệ đối với thư viện và cơ quan lưu trữ


Theo Đạo luật bản quyền ở Hoa Kỳ, mục 404 của đạo luật bản quyền thiên niên kỷ số
(DMCA) bổ sung mục 108 của đạo luật bản quyền.



Mục “Hạn chế các quyền đặc biệt: Tái bản bởi thư viện và cơ quan lưu trữ”


 Kết luận


Mặc dù DMCA đã có hiệu lực năm 2000, những vẫn còn những vấn đề bất ổn và các mối
quan tâm về bản quyền trong thời đại số. Đó là vấn đề ở Hoa Kỳ cũng như ở bất kỳ nước
nào. Một lần nữa, xin lưu ý rằng nên tư vấn luật sư về các vấn đề bản quyền cụ thể.

 Dùng Internet để tìm các luật trong nước bạn tác động đến bản quyền trong thời đại số.

Nếu khơng có, hãy tìm các diều khoản bản quyền tác động đến thư viện ở nước bạn.
Câu 5: Trình bày mơ hình hình thức cho DL?
1. Cơ sở tốn học


Định nghĩa 2.1: Một tập hợp là một sưu tập không sắp xếp các thực thể phân biệt.



Định nghĩa 2.2: Một quan hệ nhị phân R trên tập hợp A và B là một tập con của A x B.
Ký hiệu (a,b) ∈ R là aRb. Một quan hệ R n-phân trên các tập hợp A1, A2, ..., An là một
tập con của tích Đề các A1x A2 x ... x An



Định nghĩa 2.3: Cho trước hai tập hợp A và B, một hàm f là một quan hệ nhị phân trên A
x B sao cho đối với mỗi một a ∈ A tồn tại b ∈ B sao cho (a,b) ∈ f và nếu (a,b) ∈ f và
10



(a,c) ∈ f thì b = c. Tập hợp A được gọi là miền xác định của f và tập hợp B được gọi là
miền giá trị của f. Ký pháp f : A → B và b = f(a) là một ký pháp chung đối với (a,b) ∈ f.
Tập hợp {f(a)| a ∈ A} được gọi là vùng của f.


Định nghĩa 2.4: Một dãy là một hàm f , có miền xác định là tập hợp các số tự nhiên hoặc
tập con ban đầu nào đó của {1, 2, ... , n} của các số tự nhiên và miền giá trị của nó là tập
bất kỳ.



Định nghĩa 2.5:

Một bộ là một dãy hữu hạn thường được ký hiệu bằng cách liệt kê dải các giá trị của hàm
như <f(1), f(2), ... , f(n)>.


Định nghĩa 2.6:

Một xâu là một dãy hữu hạn các ký tự hoặc ký hiệu rút ra từ một tập hợp hữu hạn với ít
nhất hai phần tử, được gọi là bảng chữ. Một xâu thường được ký hiệu bằng cách nối với nhau dải
các giá trị khơng có ký tự phân cách.
Cho Σ là một bảng chữ. Σ* ký hiệu tập hợp tất cả xâu từ Σ, bao hàm xâu rỗng (một dãy
rỗng ε). Một ngôn ngữ là một tập con của Σ*.


Định nghĩa 2.7:

Một đồ thị G là một cặp (V, E), trong đó V là một tập đỉnh không rỗng và E là một tập
của một tập cạnh {u, v}, u, v ∈ V. Một đồ thị có hướng G là một cặp (V, E), trong đó V là một

tập đỉnh (nút) khơng rỗng và E là một tập cạnh (cung) trong đó mỗi một cạnh là một cặp thứ tự
đỉnh phân biệt (vi, vj) với vi, vj ∈ V và vi ≠ vj. Cạnh (vi, vj) được gọi là liên thuộc trên các đỉnh
vi và vj, trong đó vi kề với vj và vj kề từ vi.


Định nghĩa 2.8:

Một văn phạm phi ngữ cảnh là một bộ bốn (V, Σ, R, s0) trong đó V là một tập biến gọi là
khơng kết thúc, Σ là bộ chữ ký hiệu kết thúc, R là một tập luật hữu hạn và s0 là một phần tử phân
biệt của V gọi là ký hiệu bắt đầu.
Một luật/ một sản xuất là một phần tử của tập V x (V ∪ Σ)*. Mỗi một sản xuất có dạng
SX → α trong đó SX là một ký hiệu không kết thúc và α là một xâu ký hiệu
2. Dịng


Định nghĩa 2.14:
Một dịng là một dãy có miền giá trị là một tập không rỗng.
11


3. Cấu trúc


Định nghĩa 2.15:

Một cấu trúc là một bộ (G, L, F), trong đó G = (V, E) là một đồ thị có hướng với tập đỉnh
V và tập cạnh E, L là một tập giá trị nhãn và F là một hàm gán nhãn F : (V ∪ E) → L
4. Không gian



Định nghĩa 2.23:

Một không gian là một không gian đo được, không gian độ đo, không gian xác suất,
không gian vector hoặc một không gian topo
(kết thúc và/hoặc không kết thúc).
5. Kịch bản


Định nghĩa 2.26: Một kịch bản là một dãy sự kiện chuyển trạng thái liên quan (e1, e2, ... ,
en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1 ≤ k ≤ n

6. Cộng đồng


Định nghĩa 2.29: Một cộng đồng là một bộ (C, R), trong đó:
C = {c1 , c2, ... , cn} là một tập của các cộng đồng khái niệm, mỗi một cộng đồng
quy về một tập cá thể có cùng lớp hoặc kiểu;
R = {r1
, r2, ... , rn} là một tập quan hệ, mỗi một quan hệ là một bộ rj = (ej, ij) trong đó ej là một
tích Đề các ck1 x ck2 x ... x cknj , 1 ≤ k1 < k2 < ... < knj ≤ n, định rõ các cộng đồng bị dính
vào quan hệ và ij là một hoạt động mô tả tương tác hoặc truyền thông giữa các cá thể

7. Định nghĩa hình thức thư viện số


Định nghĩa 2.41:
Một thư viện số là một bộ bốn (R, MC, DV, XH)
trong đó:
R là một kho;
MC là một mục lục siêu dữ liệu;

DV là một tập dịch vụ chứa tối thiểu các dịch vụ chỉ mục, tìm kiếm và duyệt;
XH là một cộng dồng NSD thư viện số.
12


Câu 6: . Trình bày các lý do xây dựng DL và các bước cơ bản của dự án xây dựng phát
triển DL?
 Lý do xây dựng thư viện số


Lý do chính:
DL phân phát thơng tin tốt hơn thư viện truyền thống



Số lượng tài liệu ngày càng tăng



Sự phát triển của cơng nghệ thơng tin và các hình thức xuất bản mới



Nhu cầu của người sử dụng thay đổi



Các hình thức tìm tin mới




Vai trị của thư viện thay đổi

 Các bước cơ bản của dự án xây dựng DL
1. Xác định dự án
2. Phác thảo kế hoạch triển khai DL
3.

Thực hiện

1.Xác định dự án
Nêu mục đích, mục tiêu rõ ràng, xác định đối tượng độc giả và nội dung:


Phát triển hình ảnh và nhiệm vụ. Thư viện là các nguồn thông tin hàng đầu; là trung tâm
thông tin quan trọng nhất dành cho sinh viên, giảng viên và nhân viên của trường đại học/
cao đẳng. Để thực hiện nhiệm vụ của mình, thư viện phát triển các kho tài liệu, tổ chức
kho tài liệu để truy cập, cung cấp khả năng truy cập các nguồn thông tin khác, dạy người
dùng các kỹ năng thư viện, tuyển dụng và đào tạo cán bộ các kỹ năng cần thiết để thư
viện hoạt động, cung cấp phương tiện và dịch vụ thúc đẩy nghiên cứu và học tập.



Lập mục đích và mục tiêu
Mục đích là mục tiêu dài hạn hình thành cùng với hình ảnh của tổ chức.
Mục tiêu là những hoạt động cụ thể mà tổ chức muốn hoàn thành trong
một giai đoạn nào đó, thường là trong vịng một năm. Mục tiêu mang tính ngắn
hạn, chỉ tiêu phấn đấu có thể đạt được.

2.Phác thảo kế hoạch triển khai thư viện số

13


Xác định các nguồn yêu cầu và phác thảo các nhiệm vụ khác nhau, chiến
lược và thời hạn để hoàn thành mục đích. Chiến lược do các phương pháp cấu
thành, được thiết kế để hồn thành mục đích và mục tiêu. Chiến lược bao gồm kế
hoạch hành động, người phụ trách, thời hạn và các nguồn cần có. Bảng dưới đây
là bản mẫu của một kế hoạch hành động.
Mục đích

Kết quả mong đợi

Các nguồn lực yêu cầu/
Chi phí dự án

Người phụ
trách
Dự kiến
hoàn thành

Ngày dự
kiến
hoàn
thành

 Các nguồn lực yêu cầu


Nội dung vốn tài liệu số đáp ứng nhu cầu của đối tượng độc giả và mục tiêu của
dự án




Nhân sự và những kỹ năng cần thiết để xây dựng, tổ chức và quản lý thư viện số
và thức hiện các nhiệm vụ cần thiết trong xây dựng thư viện số



Hạ tầng cơng nghệ thơng tin (Ví dụ: phần cứng, phần mềm, khả năng kết nối)



Phân bổ ngân sách



Hỗ trợ và hợp tác của các đơn vị chính tham gia



Khảo sát mơi trường. Điểm chung của tất cả các định nghĩa và nhiệm vụ này là
nhu cầu khảo sát môi trường kỹ lưỡng để có thể chuẩn bị một hình ảnh cho tương
lai và chiến lược để đạt được tương lai đó



Các công cụ cùng các tiêu chuẩn và giao thức tương ứng cho việc cung
cấp thông tin và dịch vụ và mơ tả việc bảo trì và đánh giá hệ thống sẽ được thực
hiện nằm trong chiến lược xây dựng thư viện số.


3.Thực hiện


Lựa chọn nội dung. Tiêu chí lựa chọn cần phải mở rộng



Tổ chức tài liệu gốc để số hố, lưu giữ, truy cập, tìm kiếm và tra cứu.



Cung cấp dịch vụ. Nghiên cứu thị trường và cung cấp các dịch vụ phù hợp
14






Tìm kiếm và sử dụng các cơng nghệ và cơng cụ chuyên dụng cho kế hoạch



Bảo trì hệ thống. Liên tục giám sát và bảo trì hệ thống là biện pháp cần thiết để
nâng cao chất lượng dịch vụ tốt hơn



Thực hiện các chiến lược marketing. Thư viện số cần được tiếp thị tới người dùng
hiện tại và tiềm năng. Có rất nhiều cách xúc tiến việc sử dụng thư viện số


Giám sát và đánh giá hoạt động của thư viện. Đánh giá hoạt động định kỳ sẽ cho phép
ban quản lý định hướng lại kế hoạch nhằm đáp ứng những thay đổi của môi trường. Nhu
cầu tái định hướng có thể do những thay đổi cơng nghệ, chính sách…

 Khảo sát môi trường

Điểm chung của tất cả các định nghĩa và nhiệm vụ này là nhu cầu khảo sát
môi trường kỹ lưỡng để có thể chuẩn bị một hình ảnh cho tương lai và chiến lược
để đạt được tương lai đó.
 Kho tài liệu

Tiêu chí lựa chọn tài liệu của tổ chức cần phải rõ ràng. Tài liệu lựa chọn
phải phù hợp với tiêu chí đề ra: chủ đề, u cầu, tính duy nhất và giá trị. Tài liệu
cịn phải có giá trị sử dụng lâu dài. Đơi khi một ấn phẩn mới có thể thay thế ấn
phẩm hiện có.
 Bản quyền

Mục đích của thư viện số là cung cấp truy cập vốn tài liệu từ xa.
Bản quyền là vấn đề quan trọng cần cân nhắc trong xây dựng thư viện số vì chức
năng phân phối lại của thư viện số.


Cơng nghệ


Có cơng nghệ để số hố tài liệu in và tài liệu dạng thu nhỏ. Chí phí dành cho công
nghệ tốn kém và đôi khi việc mua công nghệ có thể là sự lựa chọn tốt hơn. Ngồi
ra, việc tạo ra các công cụ truy cập cần phải cân nhắc kỹ vì chi phí bỏ ra có thể rất
cao. Công nghệ OCR vẫn chưa thực sự đáng tin cậy.




Tiếp nhận và xây dựng hạ tầng công nghệ thông tin cần thiết. Lựa chọn hệ thống
thư viện số dựa vào nhu cầu và khả năng của cơ quan (Ví dụ: ngân sách, khả năng
chuyên môn). Bạn nên lựa chọn hệ thống có bán trên thị trường hay hệ thống sử
dụng phần mềm nguồn mở do chính bạn xây dựng?
Câu 7: Trình bày tóm tắt các phương pháp chỉ mục tài liệu?
15


3.1.MỞ ĐẦU


Định nghĩa 3.1 (từ để nhận dạng đối với chỉ mục): là một dãy cực đại của các ký tự chữ
và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số



Bảng 3.1 - CSDL TREC
Số tài liệu N

741856

Số thuật ngữ F

333338738

Số thuật ngữ riêng biệt n


535346

Số con trỏ chỉ mục f 134994414
Kích thước tổng (MB)2070.29
trong DL ?

Có 2 phương pháp chỉ mục tài liệu:
3.2 CHỈ MỤC TỆP ĐẢO IFID


Định nghĩa 3.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu trúc dữ liệu dùng để
xác định vị trí của các dịng trong tệp theo điều kiện nào đó



Định nghĩa 3.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là một cách tìm kiếm
thơng tin



Định nghĩa 3.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ cho trước trong văn bản



Định nghĩa 3.5 (chỉ mục tệp đảo IFID): Đối với mỗi một thuật ngữ trong từ điển, một
IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của
thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà
thuật ngữ đó xuất hiện. IL đôi khi được coi là một danh sách mục lục và các con trỏ là
mục lục


 Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn

sách và với cách dùng mục lục truyền thống
 Bảng 3.2 - Văn bản mẫu; mỗi dòng là một tài liệu
 TÀI LIỆU


1

VĂN BẢN
Information retrieval is searching and indexing
16




2

Indexing is building an index



3

An inverted file is an index



4


Building an inverted file is indexing

Bảng 3.3 - IF đối với văn bản của bảng 3.2
Số

Thuật ngữ

IL(tài liệu; vị trí)

1

an

(2;4), (3;1), (3;5), (4;2)

2

and

(1;5)

3

building

(2;3), (4;1)

4

file


(3;3), (4;4)

5

index

(2;5), (3;6)

6

indexing

(1;6), (2;1), (4;6)

7

information

(1;1)

8

inverted

(3;2), (4;3)

9

is


(1;3), (2;2), (3;4), (4;5)

10

retrieval

(1;2)

11

searching

(1;4)



Định nghĩa 3.6: Độ hạt (granularity) của một chỉ mục là tính chính xác để nhận
dạng vị trí của thuật ngữ

Bảng 3.4 - IF mức từ đối với văn bản của bảng 3.2
Số

Thuật ngữ

(Tài liệu; từ)

1

an


<4; (2;4), (3;1), (3;5), (4;2)>

2

and

<1; (1;5)>

3

building

<2; (2;3), (4;1)>

4

file

<2; (3;3), (4;4)>
17


5

index

<2; (2;5), (3;6)>

6


indexing

<3; (1;6), (2;1), (4;6)>

7

information

<1; (1;1)>

8

inverted

<2; (3;2), (4;3)>

9

is

<4; (1;3), (2;2), (3;4), (4;5)>

10

retrieval

<1; (1;2)>

11


searching

<1; (1;4)>



Xây dựng chỉ mục tệp đảo IFID



Xây dựng chỉ mục là một trong những nhiệm vụ thách thức nhất phải đương đầu khi xây
dựng một CSDL.

Ở đây, ta đề cập đến bài toán xây dựng chỉ mục tệp đảo IFID, vì đây là dạng chỉ mục thiết
thực nhất đối với cả hai truy vấn BQ và RQ.


Quá trình xây dựng chỉ mục được coi là sự đảo văn bản. Từ điển The Concise Oxford
Dictionary định nghĩa “sự đảo là đảo lộn trên dưới, đảo vị trí, trật tự hoặc quan hệ bình
thường” và đây đúng là điều phải làm để tạo lập chỉ mục.



Xét văn bản mẫu ở bảng 3.2

Mỗi tài liệu của văn bản chứa một số thuật ngữ chỉ mục và mỗi một thuật ngữ chỉ mục
xuất hiện ở một số dòng. Quan hệ có thể được biểu diễn với một ma trận tần suất, trong đó mỗi
một cột tương ứng với một từ, mỗi một hàng tương ứng với một tài liệu và số chứa tại hàng và
cột bất kỳ là tần suất của từ chỉ định bởi cột đó. Ma trận tần suất đối với văn bản của bảng 3.2

được trình bày ở bảng 5.1


GIẢI THUẬT 5.1 ĐẢO DANH SÁCH MÓC NỐI

1. Sản xuất một chỉ mục đảo đối với một CSDL tài liệu
/* Khởi tạo */
2. Tạo ra một cấu trúc từ điển rỗng S.
/* Pha 1 - tập hợp các xuất hiện thuật ngữ */
Đối với mỗi một tài liệu Dd trong CSDL, 1 ≤ d ≤ N,
a. Đọc Dd , phân tích cú pháp nó thành các thuật ngữ chỉ mục
18


b. Đối với mỗi một thuật ngữ chỉ mục t ∈ Dd
i.

Cho fd,t là tần suất của thuật ngữ t trong Dd

ii.

Tìm kiếm S đối với t

iii.

Nếu t khơng có trong S, chèn nó

iv.

Thêm một nút lưu trữ <d, fd,t> vào danh sách


tương ứng với thuật ngữ t
3. /* Pha 2 - đầu ra của IF */
Đối với mỗi một thuật ngữ 1 ≤ t ≤ N
a. Bắt đầu một mục vào IF mới
b. Đối với mỗi một <d, fd,t> trong danh sách tương ứng với t,

thêm <d, fd,t> vào mục vào IF này
a. Nếu yêu cầu, nén mục vào IF
b. Thêm mục vào IF này vào IF.
 Thời gian đảo T yêu cầu là:

T = Btr + Ftp +

(đọc và phân tích cú pháp văn bản)

I(td + tr)

(ghi IF nén)

3.3 CHỈ MỤC TỆP KÝ SỐ SFID
Bảng 3.5 – Mã hoá chồng lên của tài liệu 2 đối với SF
Thuật ngữ

Ký số thuật ngữ

indexing

0001 0000 1100 0100


is

0100 0100 0001 0000

building

0101 0011 0000 0000

an

0000 0100 0100 1100

index
Ký số bloc

1100 1000 0010 0000
1101 1111 1111 1110
19




Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn bản. Mỗi một tài liệu có một
ký số liên kết, một xâu bit bắt nội dung tài liệu theo một nghĩa nào đó



Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằng cách dùng kỹ thuật
bitslicing, tức là kỹ thuật chuyển vị ma trận bit .
Câu 8+ câu 9 nằm trong câu 7.

Câu 10. So sánh 2 phương pháp chỉ mục tệp đảo tài liệu IFID và chỉ mục tệp ký số
tài liệu SFID ?



Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là hai phương pháp chỉ
mục chính tài liệu trong thư viện số.



Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng, IF thực hiện tốt hơn SF
trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn. IF nén là phương pháp
chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi.

Câu 11: Trình bày mơ hình tìm kiếm thơng tin tổng qt IR trong DL ?
MƠ HÌNH TÌM KIẾM THƠNG TIN


Tìm kiếm thơng tin IR đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thơng tin có liên
quan tới nhu cầu thơng tin của NSD.



Mơ hình IR tổng qt là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm
kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn.
Cho
D = {d1, d2, ..., dM}, M ≥ 2




(4.1)

là một tập hữu hạn không rỗng đối tượng.

 Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường. Các đối tượng

tiêu biểu là đại diện.
Cho ℜ là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó ρ(D), nghĩa là,
ℜ : D → ρ(D)
(4.2) Bằng
cách kết hợp tập đối tượng D và ánh xạ tìm kiếm ℜ, chúng tơi định nghĩa cấu trúc tìm
kiếm thơng tin như sau:


Định nghĩa 4.1 (cấu trúc tìm kiếm thơng tin):
Cấu trúc tìm kiếm thơng tin SIR là một bộ 2 S = <D, ℜ>
20

(4.3)


Định nghĩa 4.1 là một định nghĩa tổng quát: nó không đề cập đến về các dạng
riêng biệt của ánh xạ tìm kiếm ℜ và đối tượng D. Từ đó, các mơ hình IR riêng biệt khác
nhau có thể nhận được bằng cách đặc tả D và ℜ.

Câu 12. Trình bày phương pháp truy vấn xếp hạng tài liệu RQ trong DL ?
TRUY VẤN XẾP HẠNG RQ
4.3.1 So khớp toạ độ
Đếm số thuật ngữ truy vấn xuất hiện trong mỗi một tài liệu
4.3.2 Tích trong độ tương tự

Q trình được hình thức hố bằng một tích trong của một vectơ truy vấn với một tập
vectơ tài liệu
Độ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau:
S(Q, Dd) = Q . Dd

(4.5)

n

X.Y = ∑ x i yi
i =1

trong đó: phép tốn . là phép tích trong
Tích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:
(4.6)
Bảng 4.1 – Các vectơ đối với tính tốn tích trong
(a) Vectơ tài liệu, (b) Vectơ truy vấn.
Ví dụ:
S(indexing, D1) = (0, 0, 0, 1, 0, 0, 0, 0) . (1, 1, 1, 1, 0, 0, 0, 0) = 1
 Cách tiếp cận so khớp toạ độ có 3 hạn chế:

1. Khơng tính đến tần suất thuật ngữ
2. Khơng tính đến sự khó tìm thuật ngữ
3. Các tài liệu dài với nhiều thuật ngữ


Bài toán 1 có thể được giải quyết bằng cách thay thế đánh giá “có” hoặc “khơng” nhị
phân bằng một số ngun chỉ thị thuật ngữ xuất hiện bao nhiêu lần trong tài liệu.

21





Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :
Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu
Ví dụ:
Tính độ tương tự đối với truy vấn mẫu trở thành
S(information retrieval, D1)
= (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0) = 2
vì tài liệu D1 chứa information 1 lần và retrieval 1 lần.



Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật
ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn
n

∑w


q, t

⋅ w d,t

t =1

Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng
của tích các trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng:
S(Q, Dd) = Q . Dd =


(4.7)

∑ w q,t ⋅ w d,t

t∈Q

tương tự như sau:


S(Q, Dd) =

Nếu wq,t = 0 thì (nếu t khơng xuất hiện trong Q) độ
(4.8)

Bài tốn 2 khơng tính đến các thuật ngữ khó tìm.
Một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp hạng
đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác, bằng cách lấy trọng số
thuật ngữ tuân theo tần suất tài liệu đảo IDF.

wt =


1
ft

Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch với hạng
của nó. Tức là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một
thuật ngữ t được tính như sau:
(4.9)

trong đó: ft là số tài liệu chứa thuật ngữ t.
22




Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau:
1. Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t để sinh ra
trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tính theo một số cách khác nhau.
2. Trọng số thuật ngữ có thể được tổ hợp bằng cách nhân với rq,t sinh ra một trọng
số truy vấn-thuật ngữ wq,t
3. Có thể được dùng trong cả hai tính toán wd,t và wq,t , tức là, áp dụng hai lần.
Không công thức nào ở trên là khả năng duy nhất được dùng đối với wt , thành
phần IDF.



Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo.
Các vectơ tài liệu được tính như sau:
wd,t = rd,t
hoặc

(4.12)

wd,t = rd,t . wt

(TF x IDF)

 Chú ý:


+ Các thành phần TF và IDF không nên hiểu theo nghĩa đen là các hàm đưa ra tên
của chúng. Một heuristic độ tương tự được gọi là “TF x IDF” bất kỳ khi dùng tần suất
thuật ngữ fd,t tăng đều và tần suất tài liệu của thuật ngữ ft giảm đều.
+ Các trọng số truy vấn-thuật ngữ wq,t được tính tương tự


Nhân tử chuẩn hố để khơng kể đến phần đóng góp của các tài liệu dài. Do đó, luật tích
trong đánh giá độ tương tự bằng

(4.14)

Dd = ∑ i f d ,i
trong đó

là độ dài của tài liệu Dd

4.3.3 Mơ hình khơng gian vectơ

23


n



S (Q, Dd ) =

t =1

wq ,t − wd ,t


2

Độ
tương tự đối với một cặp vectơ là khoảng cách Euclide:
(4.15)

n

X ⋅Y
cos θ =
=
X Y

∑x

i

yi

i =1

n


i =1

xi2

n



i =1

yi2
Hướng chỉ thị bởi 2

vectơ
(4.18)

Cơng thức có 2 hàm ý:
1. Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu
2. Cung cấp một sự trực quan rõ ràng của luật xếp hạng
Luật cosin đối với xếp hạng:

1 n
∑ w q,t
=
Wq Wd t =1
cos(Q, D d ) =

w d , t cos(Q, D d ) =

Q ⋅ Dd
Q Dd

24

Q ⋅ Dd
Q Dd



Wd =

n

∑w
t =1

2
d ,t

Trong đó:

Wq =

n

∑w

2
q ,t

t =1

là độ dài Euclide – trọng số – của tài liệu d

và:

 N

1
cos(Q, D d ) =
∑ (1 + log e f d , t ) ⋅ log e 1 + 
t

Q
Wd Wq ∩ D
 ft 
d



trọng số của truy vấn q.
Độ tương tự:

Câu 13. Trình bày mơ hình tìm kiếm thơng tin xác suất trong DL ?


Nguyên lý xếp hạng theo xác suất do Robertson đưa ra (probability ranking principle):

Nếu đáp ứng của một hệ tìm kiếm thơng tin với mỗi một yêu cầu của NSD là một dãy các tài liệu
sắp xếp theo thứ tự giảm dần của các xác suất liên quan, các xác suất ở đây được đánh giá là độ
chính xác có thể trên CSDL có sẵn thì toàn bộ hiệu quả của hê đối với NSD sẽ là tốt nhất trên
CSDL đó.


Mơ hình tìm kiếm thơng tin xác suất như sau:

Định nghĩa 4.4 (PIR):
25



×