Tải bản đầy đủ (.pdf) (19 trang)

TÌM HIỂU NGUỒN MỞ GREENSTONE VÀ ỨNG DỤNG - 2 pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (535.39 KB, 19 trang )









Chương 1 – Tổng quan
Trang 4
Một câu hỏi thú vị là, World Wide Web có phải là một thư viện số hay
không? Nó cũng là một kho dữ liệu khổng lồ chuyên thu thập hàng ngàn, hàng triệu
trang tài liệu, cho phép người ta tìm kiếm thông tin trên đó. Tuy nhiên, theo Clifford
Lynch, một trong những nhà nghiên cứu hàng đầu trong lĩnh vực khoa học thư viện
nói chung và thư viện số nói riêng, câu trả lời là không. “Internet và những tài
nguyên đa phương tiện của nó, còn gọi là World Wide Web, không được thiết kế để
hỗ trợ
xuất bản và thu nhận thông tin có tổ chức. Nó chỉ là một kho hỗn độn của
các thông tin vô tổ chức trên thế giới số… Internet không phải là một thư viện
số.”[23]
Thư viện số trước hết là một thư viện.Thêm vào đó nó có các đặc trưng riêng
của một hệ thống điện tử với những công nghệ, dịch vụ mới.
Hiện nay trên thế giới có r
ất nhiều hệ thống phần mềm thư viện số như
Project Gutenberg, Ibiblio và Internet Archieve. Tuy nhiên, chúng hầu hết là những
sản phẩm thương mại. Chỉ tính riêng ở Việt Nam đã có ít nhất ba nhà cung cấp hệ
thống phần mềm dạng này
1
. Đó là Công ty trách nhiệm hữu hạn CMC (CMC Co.,
Ltd) với hệ thống iLib; Công ty Tin học Lạc Việt (LAC VIET Computing Corp) với
phần mềm VeBrary; và phần mềm Libol của Công ty Tin học Tinh Vân (TINH


VAN Informatic Technology Co.). Theo các chuyên gia đánh giá, “Các phần mềm
hiện nay đang sử dụng tại các thư viện Việt Nam do các nhà sản xuất Việt Nam
cung cấp đang còn có một số hạn chế về độ tin cậy. Do thời gian dùng thử nghiệm
chưa nhiều, qui mô khai thác chưa lớn nên ch
ưa thể có kết luận một cách rõ ràng
chất lượng của các sản phẩm này” [19]. Do đó, việc sử dụng một hệ thống thư viện
số thoả mãn những tiêu chuẩn quốc tế, tạo mặt bằng chung trong quá trình liên kết
hệ thống các thư viện hiện nay là rất cần thiết.
1.2. Thư viện số Greenstone
1.2.1. Giới thiệu
Các thư viện số làm thay đổi nhanh chóng cách thức thu thập và phổ biến
thông tin ở nhiều quốc gia, nhất là các quốc gia còn kém và đang phát triển. Đứng


1
Xin xem phần thăm dò các sản phẩm phần mềm thư viện ở Việt Nam trong phụ lục B








Chương 1 – Tổng quan
Trang 5
trước yêu cầu thực tế, năm 1995 một nhóm nhỏ các giảng viên và sinh viên Đại học
Waikato, New Zealand đã xây dựng phần mềm thư viện số Greenstone, giúp người
dùng dễ dàng xây dựng và phân phối các bộ sưu tập thư viện số. Phần mềm
Greenstone cung cấp một phương pháp mới để tổ chức và xuất bản thông tin trên

Internet và qua CD-ROM. Greenstone ban đầu là sản phẩm của dự án New Zealand
Digital Library của trường đại họ
c Waikato. Sau đó, thấy được ý nghĩa và tác dụng
của phần mềm, từ tháng 8/2000, UNESCO
2
và Human Info NGO
3
đã tham gia
phát triển và hỗ trợ. Đây là phần mềm mã nguồn mở được cung cấp trên

theo thoả thuận đăng kí GNU General Public License.
Greenstone mang tính quốc tế. Hiện nay Greenstone đã được sử dụng ở rất
nhiều quốc gia, có giao diện và các bộ sưu tập với nhiều ngôn ngữ. Nhóm nghiên
cứu nghĩ rằng, việc mở rộng, hỗ trợ cho mọi sinh ngữ là điều có thể thực hiện được.
UNESCO đã và đang phát triển Greenstone như là một phần trong chương trình
“Thông tin cho tất cả - Information for All”. Greenstone cũng là ph
ần mềm đa môi
trường : có thể chạy được trên hệ điều hành Windows, Unix, Macintosh OS/X.
Người dùng sử dụng các bộ sưu tập của Greenstone qua web, hoặc qua đĩa CD, mà
không có sự khác biệt gì nhiều.
Hệ thống Greenstone gồm hai phần : Phần xử lý offline, thực hiện việc tạo
dựng các bộ sưu tập, tạo các cấu trúc dữ liệu để tìm kiếm và trình duyệt; và phần xử
lý online, cho phép người dùng truy xuất, sử dụng các bộ sưu tập.
1.2.2. Tính năng
Sau đây là những điều tóm lược về những đặc trưng nổi bật, và cũng là ưu
thế của Greenstone.
- Truy cập qua trình duyệt web, cả ở chế độ cục bộ (local) và từ xa (remote).
- Chạy được trên nhiều hệ điều hành : Windows, Unix, Macintosh.
- Tìm kiếm toàn văn bản và tìm kiếm theo từng trường riêng biệt.



2
UNESCO (United Nations Educational, Scientific and Cultural Organization) – Tổ chức Giáo dục, Khoa
học và Văn hoá của Liên Hợp Quốc.
3
Human Info NGO, viết tắt của Humanitarian Information for All - Non-Governmental Organization, một
tổ chức phi chính phủ của Bỉ, hoạt động nhân đạo vì quyền tự do và phát triển của con người.








Chương 1 – Tổng quan
Trang 6
- Khả năng trình duyệt linh động, đa dạng
- Cấu trúc duyệt tài liệu được xây dựng hoàn toàn tự động.
- Tận dụng các metadata sẵn có trong tài liệu, giúp người tạo lập bộ sưu tập
không phải làm bằng tay.
- Khả năng linh động, dễ mở rộng hệ thống nhờ các thành phần như plugin,
classifier.
- Hỗ trợ xử lý tài liệu với nhiều loại ngôn ngữ.
- Cung cấp giao diện đ
a ngôn ngữ.
- Ngoài các bộ sưu tập văn bản, hình ảnh thông thường, Greenstone còn cho
phép tạo các bộ sưu tập hình ảnh, âm thanh đa phương tiện (multimedia)
- Khả năng lưu trữ rất lớn, tới hàng Gigabyte dữ liệu.
- Thêm mới bộ sưu tập đơn giản, có hiệu quả tức thì.

- Khả năng xuất bản các bộ sưu tập ra CD, với đầy đủ tính năng để có thể tự

cài đặt và chạy độc lập
- Các bộ sưu tập dễ dàng được mang chuyển, phân phối, chia sẻ.
- Theo phong cách WYSIWYG (What you see is what you get), dễ dùng,
thuận tiện.
1.3. Mục đích của đề tài
Sau khi tìm hiểu về hệ thống những phần mềm thư viện số trong nước và
trên thế giới, Greenstone nổi bật lên với tính hiệu quả, dễ sử dụng, mã nguồn mở, dễ
tùy biến và mang tính chuẩn quốc tế. Rất tâm đắc với phương châm hoạt động của
Greenstone, chúng em đã chọn tìm hiểu về hệ thống phần mềm này làm đề tài Tốt
nghiệp của mình. Hiểu rõ v
ề Greenstone và ứng dụng phần mềm này vào mục đích
xây dựng một thư viện số, trước hết là phục vụ nhu cầu học tập và giảng dạy trong
Khoa Công nghệ Thông tin, Đại học KHTN. Sau đó, nếu có thể, sẽ tham gia vào
việc số hoá hệ thống thư viện hiện có. Đây cũng là một yêu cầu cấp thiết, nhất là khi
Trường chúng ta làm chủ đầu tư dự án “Hệ thố
ng thông tin – thư viện điện tử liên
kết các trường đại học” từ giữa năm 2004.









Chương 2 – Các khái niệm cơ bản
Trang 7












CHƯƠNG 2. CÁC KHÁI NIỆM CƠ BẢN
 Tài liệu
 Bộ sưu tập
 Tìm kiếm
 Duyệt tài liệu
 Metadata
 Biên mục
 Plugin
 Classifier
 Định dạng cách hiển thị tài liệu








Chương 2 – Các khái niệm cơ bản

Trang 8
2.1. Tài liệu
Greenstone hỗ trợ các loại tài liệu dạng HTML, XHTML và XML, TXT, các
dạng phức tạp như Word, RTF hoặc dạng được sử dụng phổ biến trên nhiều môi
trường như PDF, PostScript, dạng multi-media như âm thanh (ví dụ .mp3), hình
ảnh, phim…
2.2. Bộ sưu tập
Một thư viện số do Greenstone tạo ra chứa được nhiều bộ sưu tập. Mỗi bộ
sưu tập tập trung vào một chủ đề nào đó. Ví dụ, bộ sưu tập Luận văn, bộ sưu tập
Sách… Các bộ sưu tập có thể được bổ sung cập nhật. Kích thước bộ sưu tập có thể
lên đến hàng gigabyte dữ liệu. Bộ sưu tập có thể xem là đơn vị của một thư viện số
Greenstone.
2.3. Tìm kiếm
Mặc định, các bộ sưu tập cho phép tìm kiếm trên toàn bộ nội dung văn bản.
hoặc có thể tìm trên từng vùng (section) hay đoạn (paragraph). Cũng có thể tìm
kiếm theo các từ khoá, hay các cụm từ, và kết quả sẽ được sắp xếp thứ tự theo yêu
cầu của câu truy vấn.
2.4. Duyệt tài liệu
Greenstone cho phép định nghĩa trước các cấu trúc để duyệt tài liệu trong
mỗi bộ sưu tập dựa trên những metadata tìm thấy trong bộ sưu tập đó.








Chương 2 – Các khái niệm cơ bản
Trang 9

Ví dụ, bộ sưu tập Greenstone Demo cho phép ta duyệt các tài liệu theo
metadata “đề mục”

Hình 2.1 - Minh hoạ duyệt tài liệu
Với những tài liệu phân cấp theo bảng mục lục, ta có thể duyệt theo chính
mục lục đó, rất tiện lợi, như hình dưới đây








Chương 2 – Các khái niệm cơ bản
Trang 10

Hình 2.2 - Minh hoạ duyệt tài liệu được phân cấp
2.5. Metadata
Là thông tin mô tả cho một tài liệu trong bộ sưu tập, ví dụ tựa đề tài liệu, tên
tác giả, ngày xuất bản…
Greenstone dùng các thẻ XML để mô tả thông tin cho tài liệu, ví dụ:
<Metadata name =”Title”> Tìm hiểu nguồn mở Greenstone </Metadata>
<Metadata name =”Author”> Quy,Quỳnh </Metadata>
Các thẻ này có thể:
- Được nhúng trong tài liệu của bộ sưu tập, ví dụ các thẻ HTML trong tài liệu
HTML.
- Được lưu thành tập tin metadata kèm theo tài liệu.
- Được trích một cách tự động từ một tài liệu nào đó, ví dụ
thông tin về tên,

kích thước, ngày tạo, ngày hiệu chỉnh … tập tin tài liệu.








Chương 2 – Các khái niệm cơ bản
Trang 11
2.6. Biên mục
Biên mục là khái niệm của nghiệp vụ thư viện để chỉ hành động cung cấp
thông tin mô tả cho các tài liệu trong thư viện. Hiện nay người ta thường biên mục
tài liệu theo chuẩn quốc tế Dublin Core.
2.7. Plugin
2.7.1. Giới thiệu
Plugin là một chương trình con (script) được dùng trong quá trình xây dựng
bộ sưu tập.
Do nguồn vào có nhiều dạng tài liệu khác nhau (pdf, word, text…) nên cần
plugin chuyển chúng về một dạng thống nhất là XML của Greenstone và trích thông
tin từ những tài liệu nguồn đưa vào tập tin XML này. Ví dụ một plugin là
HTMLPlug chuyển những trang HTML nguồn sang định dạng XML của
Greenstone và trích thông tin metadata của tài liệu nguồn, ví dụ phần tiêu đề của
trang HTML được bao trong cặp tag <title></title> được trích ra và đưa vào tập tin
XML của Greenstone.
Mỗi bộ sưu tập có một tập tin cấu hình collect.cfg. Tập tin này liệt kê các
plugin được dùng trong quá trình xây dựng bộ sưu tập. Tùy theo tài liệu nguồn có
định dạng thế nào, ta sẽ chọn các plugin tương ứng. Ví dụ nếu tài liệu nguồn là tập
tin word thì ta dùng plugin WordPlug.

Các plugin được viết bằng ngôn ngữ lập trình Perl. Mọi plugin đều kế thừa từ
plugin cơ sở BasPlug. Plugin cơ sở BasPlug thực hiện những thao tác cơ bản như
tạo tài liệu mới XML theo định dạng của Greenstone, gán định danh cho tài liệu.
Các plugin được đặt trong thư mục “greenstone\perllib\plugins”.
Để tìm hiểu thông tin của một plugin, ta dùng lệnh sau ở chế độ command
prompt: pluginfo.pl plugin-name. Ta cũng có thể viết các plugin mới.








Chương 2 – Các khái niệm cơ bản
Trang 12
2.7.2. Danh sách các plugin
Tên plugin Công dụng Kiểu tập tin
xử lý
Các tập tin
không xử lý
BasPlug Là lớp cơ sở cho tất cả các plugin - -
ConvertToPlug Gọi các chương trình bên ngoài để
chuyển các tài liệu độc quyền (word
hay pdf) sang html hay plain text
- -
ArcPlug Xử lý những tập tin được chỉ ra trong
tập tin archives.inf, tập tin archive.inf
là cầu nối giữa tiến trình import và
tiến trình build. Plugin này bắt buộc

phải khai báo trong tập tin cấu hình
- -
RecPlug Duyệt qua thư mục để xử lý các tập tin
mà plugin này tìm thấy
- -
GAPlug Xử lý những tập tin của Greenstone
được phát sinh từ chương trình
import.pl
.xml -
TEXTPlug Xử lý tập tin text thuần túy .txt, .text -
HTMLPlug Xử lý tập tin HTML .htm, .html,
.cgi, .php,
.asp, .shm,
.shtml
.gif, .jpg,
.jpeg, .png,
.css, .rtf
WordPlug Xử lý tài liệu Word .doc .gif, .jpg,
.jpeg, .png,
.css, .rtf
PDFPlug Xử lý tập tin pdf .pdf .gif, .jpg,
.jpeg, .png,
.css, .rtf
PSPlug Xử lý tài liệu postscript, trích thông
tin metadata ngày, tựa đề, số trang
.ps .eps
EMAILPlug Xử lý những thông điệp email, trích
thông tin như tác giả, chủ đề, ngày…
Tên tập tin
kết thúc

bằng số,
hoặc số theo
sau là
.Email
-
BibTexPlug Xử lý các tập tin bibliography theo
chuẩn BibTex
.bib -
ReferPlug Xử lý các tập tin bibliography theo
chuẩn Refer
.bib -
SRCPlug Xử lý các tập tin mã nguồn Makefile,
Readme, .c,
.cc, .cpp, .h,
.hpp, pl,
.o, .obj, .a,
.so, .dll








Chương 2 – Các khái niệm cơ bản
Trang 13
.pm, .sh
ImagePlug Xử lý các tập tin ảnh. Plugin này chỉ
dùng trên UNIX

.gif, .jpg,
.jpeg, .png,
.bmp, .xbm,
.tif, .tiff
-
SplitPlug Giống BasPlug và ConvertToPlug.
Không dùng trực tiếp plugin này,
plugin này phải được kế thừa lại để xử
lý tài liệu
- -
FOXPlug Xử lý các tập tin FoxBase .dbt, .dbf -
ZIPPlug Xử lý các tập tin nén .gzip, .bzip,
.zip, .tar,
.gz, .bz, .tgz,
.taz
-
Bảng 2.1 – Danh sách các plugin
2.7.3. Các plugin xử lý tài liệu độc quyền
Đối với tài liệu độc quyền như word, pdf, ta dùng các plugin tương ứng là
WordPlug và PDFPlug. Các plugin này thực hiện 2 thao tác:
1. Chuyển tài liệu nguồn sang dạng html hay plain text
2. Sử dụng plugin HTMLPlug hay TEXTPlug chuyển kết quả ở bước 1 sang
dạng XML của Greenstone.
Để chuyển tài liệu nguồn sang dạng html hay plain text, Greenstone dùng
những chương trình có sẵn như pdftohtml, wvware trong thư mục
“greenstone\bin\windows”.
Các plugin WordPlug và PDFPlug kế thừa từ plugin ConvertToPlug. Tùy
chọn convert_to của plugin ConvertToPlug cho biết chuyển sang dạng tài liệ
u nào.









Chương 2 – Các khái niệm cơ bản
Trang 14

Hình 2.3 - Cây kế thừa của các plugin xử lý tài liệu độc quyền
2.7.4. Gán thông tin metadata từ một tập tin mô tả
Các thông tin metadata cho một tài liệu có thể được đặc tả trong một tập tin
XML metadata.xml. Nếu tùy chọn use_metadata_files của plugin RecPlug được
chỉ ra, plugin này sẽ gán thông tin metadata có trong tập tin metadata.xml vào tập
tin XML chuyển đổi từ tài liệu nguồn.
<!DOCTYPE GreenstoneDirectoryMetadata [
<!ELEMENT DirectoryMetadata (FileSet*)>
<!ELEMENT FileSet (FileName+,Description)>
<!ELEMENT FileName (#PCDATA)>
<!ELEMENT Description (Metadata*)>
<!ELEMENT Metadata (#PCDATA)>
<ATTLIST Metadata name CDATA #REQUIRED>
<ATTLIST Metadata mode (accumulate|override) "override">
]>
Hình 2.4 - Định nghĩa kiểu tài liệu XML của tập tin metadata.xml









Chương 2 – Các khái niệm cơ bản
Trang 15

<?xml version="1.0" ?>
<!DOCTYPE GreenstoneDirectoryMetadata SYSTEM
"
ryMetadata.dtd">
<DirectoryMetadata>
<FileSet>
<FileName>vidu.*</FileName>
<Description>
<Metadata name="Title">Đây là ví dụ</Metadata>
<Metadata name="Place" mode="accumulate">Sách giáo
khoa</Metadata>
</Description>
</FileSet>
<FileSet>
<FileName>vidu-1.jpg</FileName>
<Description>
<Metadata name="Title">Đây là ví dụ 1</Metadata>
<Metadata name="Subject">Thư viện số</Metadata>
</Description>
</FileSet>
</DirectoryMetadata>
Hình 2.5 -Ví dụ một tập tin metadata.xml
Ví dụ trên chứa 2 cấu trúc metadata. Ở mỗi cấu trúc, trường FileName đặc tả

tên các tập tin cần gán thông tin metadata. Ở cấu trúc thứ nhất, thông tin metadata
sẽ được gán cho các tập tin được bắt đầu với chữ “vidu”. Những thông tin metadata
Title và Place có giá trị tương ứng là “Đây là ví dụ”, “Sách giáo khoa”. Ở cấu trúc
thứ hai, metadata Title của tập tin vidu-1.jpg có giá trị “Đây là ví dụ 1” sẽ override








Chương 2 – Các khái niệm cơ bản
Trang 16
thông tin metadata Title đã được đặc tả ở cấu trúc metadata thứ nhất. Tập tin vidu-
1.jpg còn được cung cấp thêm metadata Subject với giá trị là “Thư viện số”.
Với một metadata có nhiều giá trị phải dùng thuộc tính mode =
“accumulate”, nếu không metadata đặc tả sau sẽ override metadata trước (giá trị
mặc định là mode = “override”)
Đối với plugin RecPlug, nếu tùy chọn use_metadata_files được chọn ,
RegPlug sẽ tìm trong thư mục tài liệu nguồn tập tin metadata.xml, sau đó gán thông
tin metadata trong t
ập tin metadata.xml này cho các tập tin và thư mục con trong
thư mục tài liệu nguồn.
2.7.5. Chia cấu trúc tài liệu nguồn
Có thể chia tài liệu nguồn có cấu trúc phân cấp thành nhiều vùng (section),
mỗi vùng được bao bằng cặp thẻ <Section> </Section>, các cặp thẻ
<Section></Section> có thể lồng nhau.
<!
<Section>

<Description>
<Metadata name="Title">( Thông tin metadata mô tả thông tin của
Section)</Metadata>
</Description>
>
(Phần nội dung của Section)
<!
</Section>
>
Hình 2.6 - Minh họa cách chia section cho tài liệu
Giữa cặp thẻ <Section> </Section> ta có thể thêm cặp thẻ <Description>
</Description> để mô tả thông tin cho section. Ví dụ trên mô tả thông tin metadata








Chương 2 – Các khái niệm cơ bản
Trang 17
Title cho section. Ta chỉ có thể thêm các thẻ section vào tài liệu nguồn dạng html,
word vì:
- Đối với tập tin html, các văn bản trong vùng <! > được xem như dòng
ghi chú, do đó các thẻ <Section> trong tập tin html không ảnh hưởng đến nội dung
hiển thị của tập tin html này.
- Đối với tập tin word , việc chuyển sang XML của Greenstone phải qua
bước trung gian là chuyển sang tập tin html nên việc chèn các thẻ <Section> cũng
không ảnh hưởng đến nội dung hiển thị cuối cùng

Mục đ
ích của việc thêm cặp thẻ <Section> </Section> vào tài liệu nguồn là
để sau khi xây dựng bộ sưu tập, khi hiển thị nội dung của tài liệu bằng trình duyệt
web, ta sẽ thấy cấu trúc phân cấp của tài liệu và có thể nhanh chóng xem nội dung
một đoạn nào đó trong tài liệu nhờ cấu trúc phân cấp này.
Để plugin HTMLPlug xử lý cặp thẻ <Section> </Section>, ta phải chọn tùy
chọn description_tags.








Chương 2 – Các khái niệm cơ bản
Trang 18
Ví dụ một tài liệu có cấu trúc phân cấp :
Tìm hiểu PP LT hướng khía cạnh
Lời cảm ơn
(Nội dung phần “Lời cảm ơn”)

Mục lục
(Nội dung phần “Mục lục”)

Danh mục các ảnh-Sơ đồ
(Nội dung phần “Danh mục các ảnh-Sơ đồ”)

Giới thiệu
(Nội dung phần “Giới thiệu”)


Nội dung
(Nội dung phần “Nội dung”)

Phần 1: Tìm hiểu phương pháp lập trình hướng khía cạnh
Chương 1: Tổng quan về đề tài
(Các nội dung trong chương 1)

Chương 2: Phương pháp lập trình hướng khía cạnh (AOP)
(Các nội dung trong chương 2)

Chương 3: Ngôn ngữ lập trình AspectJ
(Các nội dung trong chương 3)

Sau khi chèn các cặp thẻ <Section> </Section> vào tài liệu nguồn, tài liệu
nguồn lúc này có nội dung như sau:
<!
<Section>
<Description>
<Metadata name="Title">Tìm hiểu PP LT hướng khía cạnh</Metadata>
</Description>
>
Tìm hiểu PP LT hướng khía cạnh
<!
<Section>
<Description>
<Metadata name="Title">Lời cảm ơn</Metadata>
</Description>
>









Chương 2 – Các khái niệm cơ bản
Trang 19
Lời cảm ơn
(Nội dung phần “Lời cảm ơn”)

<!
</Section>
<Section>
<Description>
<Metadata name="Title">Mục lục</Metadata>
</Description>
>
Mục lục
(Nội dung phần “Mục lục”)

<!
</Section>
<Section>
<Description>
<Metadata name="Title">Mục lục</Metadata>
</Description>
>
Danh mục các ảnh-Sơ đồ

(Nội dung phần “Danh mục các ảnh-Sơ đồ”)

<!
</Section>
<Section>
<Description>
<Metadata name="Title">Giới thiệu</Metadata>
</Description>
>
Giới thiệu
(Nội dung phần “Giới thiệu”)

<!
</Section>
<Section>
<Description>
<Metadata name="Title">Nội dung</Metadata>
</Description>
>
Nội dung
(Nội dung phần “Nội dung”)

<!
</Section>









Chương 2 – Các khái niệm cơ bản
Trang 20
<Section>
<Description>
<Metadata name="Title">Tìm hiểu phương pháp lập trình hướng khía cạnh
</Metadata>
</Description>
>
Phần 1: Tìm hiểu phương pháp lập trình hướng khía cạnh
<!
<Section>
<Description>
<Metadata name="Title">Tổng quan về đề tài</Metadata>
</Description>
>
Chương 1: Tổng quan về đề tài
(Các nội dung trong chương 1)

<!
</Section>
<Section>
<Description>
<Metadata name="Title">Chương 2: Phương pháp lập trình hướng khía
cạnh (AOP)</Metadata>
</Description>
>
Chương 2: Phương pháp lập trình hướng khía cạnh (AOP)
(Các nội dung trong chương 2)


<!
</Section>
<Section>
<Description>
<Metadata name="Title">Chương 3: Ngôn ngữ lập trình
AspectJ</Metadata>
</Description>
>
Chương 3: Ngôn ngữ lập trình AspectJ
(Các nội dung trong chương 3)

<!
</Section>
</Section>
</Section>
>








Chương 2 – Các khái niệm cơ bản
Trang 21
Sau khi xây dựng bộ sưu tập từ tài liệu nguồn đã chèn các cặp thẻ <Section>
</Section>, trình duyệt web sẽ hiển thị nội dung tài liệu này như sau:


Hình 2.7 - Hiển thị nội dung tài liệu trên trình duyệt web
Giả sử ta muốn xem nội dung Chương 1, ta click vào link Chương 1: Tổng
quan về đề tài, nội dung hiển thị như sau:

Hình 2.8 - Hiển thị nội dung của một chương cụ thể








Chương 2 – Các khái niệm cơ bản
Trang 22
2.8. Classifier
2.8.1. Giới thiệu
Classifier dùng để xây dựng cấu trúc duyệt tài liệu trên web của một bộ sưu
tập. Tương tự các plugin, các classifier được đặc tả trong tập tin cấu hình collect.cfg
của mỗi bộ sưu tập.
Trong pha cuối cùng của quá trình xây dựng bộ sưu tập (nén và tạo chỉ mục
trên tài liệu), các classifier được script buildcol.pl gọi sẽ lưu cấu trúc duyệt tài liệu
vào cơ sở dữ liệu bộ sưu tập.
Cú pháp:
classify <Tên classifier> <Các tham số>
Ví dụ: classify AZList -metadata Title -buttonname TitleA-Z
Trong dòng đặc tả có một tham số quan trọng là metadata xác định rằng các
tài liệu của bộ sưu tập sẽ được sắp xếp theo metadata đã được chỉ ra. Với ví dụ trên,
các tài liệu được sắp xếp theo tựa đề của tài liệu (Title)
Tham số buttonname xác định tên nút xuất hiện trên thanh duyệt. Với dòng

đặc tả trên, khi ta click vào nút TitleA-Z trên thanh duyệt, các tài liệu của bộ sư
u tập
được liệt kê theo thứ tự từng vùng alphabet.

Hình 2.9 - Dùng AZList để liệt kê các tài liệu theo từng vùng alphabet
Các classifier được đặt trong thư mục greenstone\perllib\classify. Để biết
thông tin của classifier, dùng lệnh: classinfo.pl <Tên classifier>. Ta có thể viết các
classifier mới.

×