Tải bản đầy đủ (.doc) (12 trang)

KHAI PHÁ DỮ LIỆU THƯ VIỆN HỖ TRỢ VIỆC RA QUYẾT ĐỊNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (221.66 KB, 12 trang )

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC
  
TIỂU LUẬN CAO HỌC
CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN
Môn học: Khai phá dữ liệu
ĐỀ TÀI :
KHAI PHÁ DỮ LIỆU THƯ VIỆN HỖ TRỢ VIỆC RA QUYẾT ĐỊNH
Học viên thực hiện : TRẦN HIẾU
ĐẶNG THỊ THÁI HÒA
Giáo viên phụ trách: TS NGUYỄN THANH BÌNH
Lớp: Cao học 2005

Huế 01-2007
Khai phá dữ liệu thư viện hỗ trợ việc ra quyết định
MỤC LỤC
MỤC LỤC...........................................................................................................................................................2
I.GIỚI THIỆU.......................................................................................................................................................3
II.NỀN TẢNG......................................................................................................................................................3
III.NỘI DUNG CHÍNH..........................................................................................................................................4
1.Các hệ thống thư viện tích hợp và kho dữ liệu..........................................................................................4
2.Khám phá các nguồn dữ liệu......................................................................................................................5
a.Các nguồn dữ liệu ILS từ sự tạo thành của hệ thống thư viện..............................................................5
b.Nguồn dữ liệu ILS đến từ cách dùng hệ thống thư viện........................................................................5
c.Các nguồn dữ liệu ngoài.........................................................................................................................6
3.Ứng dụng của khai phá dữ liệu thư viện thông qua kho dữ liệu...............................................................7
a.Khai phá dữ liệu thư viện để cải tiến dịch vụ thư viện..........................................................................7
b.Khai phá dữ liệu thư viện hỗ trợ việc ra quyết định của các tổ chức trong thư viện...........................7
c.Khai phá dữ liệu thư viện cho báo cáo và cân đối bên ngoài................................................................8
IV.HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI....................................................................................................8
1.Đối với kho dữ liệu.....................................................................................................................................8


2.Khai phá dữ liệu thư viện, khai phá Web, và khai phá văn bản.................................................................9
3.Ví dụ của cách tiếp cận lai..........................................................................................................................9
V.KẾT LUẬN.....................................................................................................................................................10
TÀI LIỆU THAM KHẢO......................................................................................................................................11
2
Khai phá dữ liệu thư viện hỗ trợ việc ra quyết định
I. GIỚI THIỆU
Rất nhiều người nghĩ một thư viện giống như một tòa nhà nhỏ xây bằng gạch nằm
trong trung tâm của cộng đồng dân cư hay như một tòa nhà lớn trong trung tâm của một
trường đại học. Tuy nhiên, những khái niệm này quá đơn giản hóa về thế giới thư viện. đa
số các tổ chức kinh doanh lớn đều có một thư viện chuyên dụng giống như trường học; các
tổ chức phi chính phủ, và địa phương, bang, và các chính quyền liên bang. Với sự tăng
trưởng của việc sử dụng mạng World Wide Web, các thư viện số cũng đã được phát triển,
phục vụ cho một lượng độc giả khổng lồ và đa dạng. Với việc mở rộng tầm nhìn của thư
viện, xuất hiện hai vấn đề cần được hiểu rõ: Đầu tiên, các thư viện điển hình được nhúng
trong các cơ quan lớn hơn. Các thư viện của tập đoàn phục vụ cho các công ty của họ, các
thư viện thuộc các trường đại học thì phục vụ cho các trường của họ, các thư viện chung
phục vụ cho cộng đồng. Thứ hai, các thư viện đóng vai trò nòng cốt trong các cơ quan như
những kho chứa cung cấp tài nguyên thông tin. Trong vai trò nhà cung cấp, các thư viện
thể hiện như tri thức thu nhỏ của con người và các hoạt động học tập của những người
trong cơ quan. Thực tế này cung cấp cơ sở quan trọng trong chiến lược khai phá dữ liệu
thư viện: Bằng việc xác nhận người sử dụng đang tìm kiếm cái gì, khai phá dữ liệu thư
viện có thể tìm ra những hiểu biết có nghĩa trong ngữ cảnh thư viện.
Sử dụng khai phá dữ liệu để khảo sát dữ liệu thư viện có thể áp dụng thuật ngữ khai
phá dữ liệu thư viện (bibliomining). Với sự thông qua của những danh mục đã được đưa
vào máy tính và tìm kiếm dễ dàng trên các phần thông tin liên tục, các nhà khoa học về thư
viện và thông tin thường sử dụng phương pháp bibliometric (chẳng hạn như, khám phá các
mẫu trong nghề viết văn và trích dẫn bên trong một lĩnh vực) để khám phá những mẫu
thông tin thư mục. Trong thời kỳ này, nhiều nhà nhiên cứu đã phát triển và kiểm thử kỹ
thuật khai phá dữ liệu, là các phương pháp trực quan hóa và thống kê nâng cao để định vị

các mẫu không bình thường trong tập dữ liệu lớn. Bibliomining tham chiếu đến việc sử
dụng kỹ thuật bibliometric và khai phá dữ liệu để khám phá khối dữ liệu khổng lồ được tạo
ra tự động bởi thư viện.
II. NỀN TẢNG
Suy nghĩ trước đây của các tác giả trong lĩnh vực khoa học thư viện bắt đầu để
khám phá dữ liệu phức tạp của thư viện cách đây vài năm trước khi khái niệm khai phá dữ
liệu được phổ biến rộng rãi.
Nutter (1987) đã khám phá các nguồn dữ liệu thư viện để hỗ trợ việc ra quyết định
nhưng đã than rằng “khả năng tập hợp, tổ chức, và thao tác dữ liệu còn cách quá xa để có
thể chuyển đổi và áp dụng chúng”(p. 143). Johnston và Weckert (1990) đã phát triển một
hệ chuyên gia điều khiển dữ liệu để giúp đỡ lựa chọn tài nguyên thư viện và Vizine-Goetz,
Weibel, và Oskins (1990) đã phát triển một hệ thống cho việc tự động lập danh mục dựa
trên tiêu đề sách (xem thêm Morris, 1992, và Aluri & Riggs, 1990). Một mục đặc biệt của
3
Khai phá dữ liệu thư viện hỗ trợ việc ra quyết định
Quản trị và quản lý thư viện, “Khái phá hệ thống tự động của bạn” bao gồm các bài báo về
việc trích dữ liệu để hỗ trợ các quyết định quản lý hệ thống (Mancini, 1996), trích theo tần
số để đưa vào tập tuyển chọn ra quyết định (Atkins, 1996), và khảo sát nhật ký giao dihcj
để hỗ trợ quản lý tập tuyển chọn (Peters, 1996).
Gần đây, Banerjeree (1998) tập trung vào việc mô tả khai phá dữ liệu làm việc như
thế nào và làm thế nào để sử dụng nó để cung cấp sự truy cập tốt hơn vào tập tuyển chọn.
Guenther (2000) bàn luận về các nguồn dữ liệu và các ứng dụng nhưng tập trung vào các
vấn đề về khuôn dạng dữ liệu hỗn tạp. Doszkocs (2000) bàn luận về tiềm năng để áp dụng
mạng Neural vào dữ liệu thư viện để khám phá những mỗi liên hệ giữa các tài liệu, thiết
lập chỉ mục thuật ngữ, mã phân loại, và các câu truy vấn. Liddy (2000) kết hợp xử lý ngôn
ngữ tự nhiên với khai phá văn bản để khám phá thông tin trong các tập tuyển chọn thư viện
số. Lawrence, Giles, và Bollacker (1999) tạo ra một hệ thống để khôi phục và chỉ mục hóa
những đoạn trích dẫn từ các công việc trong thư viện số. Gutwin, Paynter, Witten, Nevill-
Manning, và Frank (1999) sử dụng khai phá văn bản để hỗ trợ khám phá tài nguyên.
Các dự án này chi sẻ một điểm chung trên việc tiến bộ và việc tự động hóa hai trong

số các chức năng lõi của một thư viện: quản lý thu nhận và các bộ tuyển chọn. Vài tác giả
mới đây đã bắt đầu gởi các báo cáo về khai phá dữ liệu cần thiết để hỗ trợ quản lý bằng
việc tập trung vào việc hiểu về người sử dụng thư viện: Schulman (1998) thảo luận về sử
dụng khai phá dữ liệu để khảo sát những khuynh hướng thay đổi trong hành vi của người
sử dụng thư viện; Sallis, Hill, Jancee, Lovette, và Masi (1999) tạo một mạng neural tạo bó
người sử dụng thư viện số; và Chau (2000) bàn luận về ứng dụng của khai phá Web để các
nhân hóa dịch vụ trong tham khảo điện tử.
Tháng 12 năm 2003 vấn đề Công nghệ thông tin và thư viện là một vấn đề đặc biệt
được dảnh cho xử lý khai phá dữ liệu thư viện. Nicholson giới thiệu một quá trình tổng
quan, bao gồm vấn đề quan trọng trong việc tạo một kho dữ liệu mà bảo vệ được tính riêng
tư của người dùng. Zucca thảo luận về sữ thi hành của một kho dữ liệu trong một thư viện
trường học. Wormell; Suárez-Balseiro, Iribarren- Maestro, & Casado; và Geyer-Schultz,
Neumann, & Thede sử dụng khai phá dữ liệu thư viện trong những cách khác nhau để hiểu
về việc sử dụng nguồn thư viện trường học và tạo các dịch vụ thư viện thishc hợp.
Chúng tôi mở rộng các nghiên cứu này bằng việc đưa ra một tầm nhìn toàn cầu của
việc dữ liệu được tạo ra trong thư viện và sự đa dạng của các quyết định mà dữ liệu đó có
thể chứa thông tin. Như vậy, tiêu điểm của công việc này là trên việc mô tả cách thức trong
mỗi thư viện và những người quản lý thông tin có thể dùng khai phá dữ liệu để hiểu các
mẫu về hành vi của người sử dụng thư viện và nhân viên và các mẫu về nguồn tài nguyên
sử dụng khắp cơ quan.
III. NỘI DUNG CHÍNH
1. Các hệ thống thư viện tích hợp và kho dữ liệu
Đa số những người quản lý ước muốn khám phá khai pha sách sẽ cần để làm việc
với nhân viên kỹ thuật của những nhà cung cấp hệ thống thư viện tích hợp(ILS) để có thể
4
Khai phá dữ liệu thư viện hỗ trợ việc ra quyết định
truy cập vào cơ sở dữ liệu nằm bên dưới hệ thống và tạo ra một kho dữ liệu. Việc làm sạch,
tiền xử lý và đồng bộ dữ liệu có thể chiếm một chi phí lớn về thời gian và công sức. Chỉ
bởi vì kết hợp và liên kết các nguồn dữ liệu khác nhau, tuyh nhiên, Các nhà quản lý có thể
khám phá các mẫu ẩn để giúp họ hiểu về điều hành thư viện và người sử dụng.

2. Khám phá các nguồn dữ liệu
Các nguồn dữ liệu thư viện có sẵn được chia thành các nhóm cho thảo luận này. Dữ
liệu từ sự tạo thành thư viện, dữ liệu từ sử dụng tập tuyển chọn, dữ liệu từ các nguồn
ngoài không bình thường được bao gồm trong ILS.
a. Các nguồn dữ liệu ILS từ sự tạo thành của hệ thống thư viện
• Thông tin thư mục
Một nguồn dữ liệu là tập tuyển chọn của các bản ghi thư mục và giao diện tìm kiếm
tài liệu trong thư viện, thông thường được biết đến như là Danh mục truy cập chung trực
tuyến(OPAC). Trong một môi trường thư viện số, kiểu thông tin được tập hợp trong một
bản ghi thư viện thư mục có thể được tập hợp như siêu dữ liệu. Những khái niệm song
song đó trong một thư viện truyền thống: nắm giữ một sự phê chuẩn về mô tả một đối
tượng, áp dụng nó cho mọi đối tượng, và tạo ra dữ liệu kết quả tìm kiếm được. Bởi vậy,
các thư viện số sử dụng các nguồn dữ liệu thư mục tương tự thư viện truyền thống.
• Sự thu nhận thông tin
Nguồn dữ liệu khác của khai phá dữ liệu thư viện đến từ sự thu nhận, nơi mà các
mục được đặt từ người cung cấp và theo dõi cho đến khi nhận được và xử lý chúng. Vì
những thư viện số không có phần đặt sách vật lý tốt, tồn tại các phương thức thu nhận và
các mối quan hệ nhà cung cấp có phần khác nhau. Tuy nhiên, trong môi trường thư viện số
và cả thư viện truyền thống, đều cần đến thu nhận dữ liệu có tiềm năng chưa khai thác để
hiểu, kiểm soát và thông tin dự báo chi phí tài nguyên.
b. Nguồn dữ liệu ILS đến từ cách dùng hệ thống thư viện
• Thông tin người sử dụng
Trong việc đặt sách để xác nhận định danh của người sử dụng các dịch vụ của thư
viện, Thư viện sẽ duy trì cơ sở dữ liệu người dùng. Trong các thư viện liên quan đến các
cơ quan, cơ sở dữ liệu người dùng gần với cơ sở dữ liệu của tổ chức. Sự phức tạp của thư
viện chung liên kết các bản ghi của người sử dụng thông qua mã vùng với thông tin hộ
khẩu trong việc đạt sách để học nhiều hơn về người sử dụng phổ thông. Thư viện số có thể
có hoặc không thông tin về người sử dụng, dựa trên thủ tục yêu cầu đăng nhập. không có
dữ liệu quan trọng nào được lưu trữ bởi nhà bảo trợ, điều đó rất quan trọng để đảm bảo
thông tin xác nhận về nhà bảo trợ được tách ra từ thông tin về hộ khẩu trước khi thông tin

này được lưu trữ trong kho dữ liệu; điều đó bảo vệ tính riêng tư cá nhân.
5

×