Tải bản đầy đủ (.pdf) (111 trang)

Hệ thống tìm tin Ngô Thanh Thảo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.27 MB, 111 trang )


1
LỜI NÓI ðẦU


Giáo trình “Hệ thống tìm tin” ñược biên sọan nhằm cung cấp những kiến thức cơ
bản về hệ thống tìm tin cho sinh viên chuyên ngành thông tin-thư viện.
Nội dung giáo trình bao gồm 7 chương như sau:
Chương 1: Tổng quan về hệ thống tìm tin.
Chương 2: Hệ thống công cụ xử lý ngữ nghĩa trong các hệ thống tìm tin.
Chương 3: Tổ chức thông tin trong hệ thống tìm tin
Chương 4: Thiết kế hệ thống tìm tin
Chương 5: Hệ thống tìm tin thủ công
Chương 6: Hệ thống tìm tin tự ñộng hóa
Chương 7: ðánh giá hiệu quả hoạt ñộng của hệ thống tìm tin
Giáo trình này ñược biên soạn lần ñầu nên không tránh khỏi những thiếu sót. Rất
mong nhận ñược ý kiến ñóng góp của các ñồng nghiệp và bạn ñọc ñể giáo trình ñược
hoàn thiện hơn trong những lần xuất bản sau.
Xin chân thành cảm ơn các ñồng nghiệp ở khoa Thư viện -Thông tin học, trường
ðại học Khoa học xã hội và nhân văn Tp.Hồ Chí Minh, PGS.TS ðoàn Phan Tân,
ThS.Vĩnh Quốc Bảo ñã nhiệt tình giúp ñỡ và có nhiều ý kiến ñóng góp cho tác giả
trong quá trình biên soạn giáo trình.

TP.Hồ Chí Minh, tháng 12 năm 2009

Tác giả




















2
BẢNG CÁC TỪ VIẾT TẮT


AACR: Quy tắc biên mục Anh-Mỹ (Anglo-American Cataloguing Rule)
CSDL: Cơ sở dữ liệu
CQTT: Cơ quan thông tin
DDC: Khung phân lọai thập phân Dewey (Dewey Decimal Classification)
DC: Y
ếu tố siêu dữ liệu cốt lõi Dublin (
Dublin Core)
HTTT: Hệ thống tìm tin
HTTTTðH: Hệ thống tìm tin tự ñộng hóa
LCSH: Bảng ñề mục chủ ñề của Thư viện Quốc hội Mỹ (Library of Congress
Subject Headings
MARC: Biên mục ñọc máy (Machine Readable Cataloging)

MLCC: Mục lục chữ cái
MLPL: Mục lục phân lọai
NNTT: Ngôn ngữ tìm tin
OPAC: Mục lục công công truy cập trực tiếp (Online Public Access Catalog)
TðTC: Từ ñiển từ chuẩn
























3

CHƯƠNG 1
TỔNG QUAN VỀ HỆ THỐNG TÌM TIN


1.1.Tìm tin

1.1.1. Khái niệm tìm tin


Khái niệm tìm tin ñược nhiều tác giả ñề cập ñến trong nhiều tài liệu về các lĩnh vực
khác nhau như thông tin học, thư viện học, khoa học máy tính… Sau ñây là một số
ñịnh nghĩa về tìm tin.
Theo TCVN 5453-1991, tìm tin là quá trình lựa chọn và ñưa ra từ một tập hợp tài
liệu hay mảng tin nào ñó những tài liệu, thông tin thích hợp với nội dung yêu cầu tin.
[8]
Các tác giả cuốn “Cơ sở thông tin học” của Viện thông tin VINITI ñưa ra ñịnh
nghĩa “Tìm tin là một tập hợp các công ñoạn ñược thực hiện với mục ñích tìm ra
những tài liệu có chứa thông tin nhất ñịnh (sau ñó cung cấp chính các tài liệu ñó hoặc
các bản sao của chúng) hoặc với mục ñích cung cấp các số liệu cụ thể ñể trả lời các
câu hỏi ñược ñịnh trước”. [24]
Theo C.T. Meadow, các thuật ngữ tìm tài liệu, tìm dữ kiện, chọn lọc dữ liệu và tìm
tin ñược sử dụng ñể chỉ quá trình tìm các tài liệu ñáp ứng yêu cầu tin (tìm tài liệu)
hoặc tìm thông tin trực tiếp (ba dạng tìm sau cùng). Vì vậy, “Tìm tin là quá trình tìm
kiếm trong một mảng tin nào ñó những tài liệu chứa thông tin và việc tìm kiếm này
không phụ thuộc vào bản chất, loại thông tin cần tìm và phương thức sử dụng thông
tin ñó.” [22]
Theo B.C.Vickery, tìm tin là quá trình lựa chọn thông tin từ một mảng tin. [31]
Những ñịnh nghĩa trên cho thấy mặc dù cách diễn ñạt khác nhau nhưng có sự thống
nhất tương ñối giữa các tác giả về ý nghĩa của thuật ngữ tìm tin. Như vậy, tìm tin là
một thuật ngữ chung ñược sử dụng ñể phản ánh quá trình tìm kiếm tài liệu hoặc thông

tin cần thiết trong một mảng tin nào ñó.
Việc tìm kiếm tài liệu hoặc thông tin cần thiết ñược thực hiện một cách chọn lọc và
thường ñòi hỏi nhiều công sức, thời gian và chi phí. Thư viện là một ví dụ ñiển hình
về một tổ chức chuyên phục vụ cho việc tìm kiếm thông tin một cách chọn lọc. Một
người dùng tin ñến thư viện không phải ñể ñọc toàn bộ tài liệu có trong thư viện mà
ñể tìm tài liệu hoặc thông tin một cách chọn lọc nhằm thỏa mãn các nhu cầu tin của
mình. Phương pháp hiệu quả nhất ñể tìm tài liệu hoặc thông tin cần thiết trong một
thư viện bất kỳ là ñọc qua từng tài liệu của thư viện này. Tuy nhiên, trong thực tế
không thể áp dụng phương pháp này vì số lượng tài liệu trong các thư viện thường rất
lớn nên việc ñọc tất cả tài liệu ñể chọn ra những tài liệu cần thiết là không khả thi. Vì
vậy, người ta sử dụng một phương pháp tìm tin khác, ñó là tìm tin theo các ñặc tính
nội dung ngắn gọn hoặc theo các ñặc tính hình thức của tài liệu.

4
Có thể xem tìm tin như một quá trình truyền thông một cách gián tiếp giữa các tác
giả hoặc những người tạo lập các biểu ghi với những người sử dụng thông tin. Các
ngôn ngữ và các kênh của hệ thống truyền thông này khác với các hệ thống truyền
thông khác như truyền thông ñại chúng hoặc truyền thông trực tiếp. Các ngôn ngữ
ñược sử dụng trong hệ thống truyền thông này có thể là các ngôn ngữ tìm tin và/hoặc
ngôn ngữ tự nhiên. Còn các kênh truyền thông có thể là các công cụ tìm tin như hệ
thống mục lục, bảng tra, cơ sở dữ liệu…Nói cách khác, tìm tin là một quá trình tương
tác giữa người sử dụng và các mảng tin thông qua các công cụ tìm tin khác nhau.

1.1.2. Quá trình tìm tin

Tìm tin là một quá trình cơ bản của con người và nó liên quan mật thiết với việc
học tập và giải quyết vấn ñề. Quá trình tìm tin ñược bắt ñầu với nhu cầu tin của người
sử dụng. ðể ñạt ñược mục tiêu như giải quyết một vấn ñề, trả lời một câu hỏi cụ thể
hoặc ñể thỏa mãn tính ham hiểu biết, người dùng tin có thể cần thông tin nhanh và
ngắn gọn hoặc thông tin ñầy ñủ và chi tiết. Trong hình 1.1. là sơ ñồ của quá trình tìm

tin. Mặc dù trông có vẻ rất ñơn giản nhưng về thực chất, quá trình tìm tin bao gồm
nhiều qui trình phức tạp. Một số qui trình là qui trình công nghệ và liên quan ñến hệ
thống tìm tin, giao diện người sử dụng…Các qui trình khác liên quan ñến bản chất và
các ñặc trưng của nội dung thông tin và người dùng tin cụ thể. Thời gian thực hiện và
mức ñộ phức tạp của quá trình tìm tin phụ thuộc vào khả năng nhận thức, trình ñộ và
nhu cầu tin của người dùng tin.
Quá trình tìm tin là một quá trình tương tác phụ thuộc vào khả năng của người
dùng tin, sự phản hồi từ hệ thống tìm tin và các quyết ñịnh của người dùng tin về các
hành ñộng tiếp theo dựa trên sự phản hồi này. Các chi tiết về nhu cầu tin ban ñầu của
người sử dụng có thể thay ñổi. Các nhu cầu tin ban ñầu thường ñược ñiều chỉnh sau
khi người tìm tin biết nhiều hơn về vấn ñề ñang tìm kiếm thông qua sự tương tác với
các hệ thống tìm tin. Vì vậy, quá trình tìm tin tiếp tục ñến khi người dùng tin có ñược
thông tin thỏa mãn nhu cầu tin ñã ñược ñiều chỉnh của mình. Công nghệ thích hợp,
chẳng hạn hệ thống tìm tin và giao diện người sử dụng thích hợp, có thể thúc ñẩy quá
trình nhưng ñó không phải là vấn ñề cơ bản nhất vì quá trình tìm tin phụ thuộc nhiều
vào người dùng tin và nhu cầu tin của người dùng tin cũng như bản chất, số lượng và
sự ña dạng của thông tin.














5



Xác đònh HTTT
thích hợp
Đặt yêu cầu tin
cho HTTT
Nhận kết quả tìm
Đánh giá
kết quả tìm
Thỏa mãn
Không thỏa mãn
Kết thúc
Yêu cầu tin
được thỏa mãn
Nhu cầu tin
Xác đònh
yêu cầu tin



6
Hình 1.1. Sơ ñồ quá trình tìm tin
1.1.3.Các dạng tìm tin
Có thể phân chia các dạng tìm tin theo các tiêu chí khác nhau như dựa vào tính chất
của thông tin ñược tra cứu, dựa vào công cụ tìm tin ñược sử dụng, dựa vào loại hình
tài liệu, dựa vào thời gian xuất bản của tài liệu, dựa vào ngôn ngữ tài liệu Trên thực
tế, ñể tìm tin một cách hiệu quả, quá trình tìm tin thường ñược thực hiện dựa trên sự
kết hợp nhiều dạng tìm tin với nhau. Dưới ñây là hai cách phân chia các dạng tìm tin

thường ñược sử dụng
.
1.1.3.1. Dựa vào tính chất của thông tin ñược tra cứu
Dựa vào tính chất của thông tin ñược tra cứu, có thể phân chia thành các dạng tìm
tài liệu và tìm thông tin dữ kiện.
Tìm tài liệu là quá trình xác ñịnh và chọn lọc các tài liệu từ các nguồn tìm tương
ứng với yêu cầu tin hoặc các dấu hiệu tìm tin cho trước như tên tác giả, tên tài liệu,
nơi xuất bản, nhà xuất bản…
Tìm thông tin dữ kiện là quá trình xác ñịnh, chọn lọc và tách ra khỏi nguồn tin
những số liệu, dữ kiện cụ thể như các số liệu thống kê, các ñặc tính, thông số kỹ thuật
của các thiết bị, vật liệu, các khái niệm khoa học…ñể ñáp ứng các yêu cầu tin.
1.1.3.2. Dựa vào công cụ tìm tin
Dựa vào công cụ tìm tin, có thể chia thành các dạng tìm tin thủ công, bán tự ñộng
và tự ñộng hóa.
Tìm tin thủ công là quá trình tìm tin dựa trên các công cụ tìm tin thủ công hay còn
gọi là công cụ tìm tin truyền thống như hệ thống mục lục, bộ phiếu tra cứu, bảng tra,
thư mục, ấn phẩm thông tin, tài liệu tra cứu…
Tìm tin bán tự ñộng là quá trình tìm tin dựa trên các công cụ tìm tin bán tự ñộng
như phiếu lỗ mép và phiếu lỗ soi.
Tìm tin tự ñộng hóa là quá trình tìm kiếm các thông tin ñược xử lý, lưu trữ và truy
cập thông qua máy tính hoặc mạng máy tính.
Trước ñây, tìm tin thủ công là dạng tìm tin phổ biến nhất trong các thư viện và cơ
quan thông tin. Ngày nay, với sự phát triển nhanh chóng của công nghệ thông tin và
viễn thông, tìm tin tự ñộng hóa ngày càng phổ biến hơn và trở thành dạng tìm tin chủ
yếu trong các thư viện và cơ quan thông tin lớn. Bên cạnh ñó, các công cụ tìm tin bán
tự ñộng hầu như không còn ñược sử dụng nữa nên dạng tìm tin bán tự ñộng ngày càng
ñược ít người biết ñến.

1.2. Hệ thống tìm tin
1.2.1. Một số khái niệm

1.2.1.1. Khái niệm hệ thống tìm tin
Khái niệm hệ thống tìm tin (HTTT) ñược ñề cập ñến trong nhiều tài liệu khác nhau.
Sau ñây là một số ñịnh nghĩa về hệ thống tìm tin.
Theo TCVN 5453-1991, hệ thống tìm tin là hệ thống ñược xây dựng nhằm tạo ñiều
kiện cho việc tìm tin.[8]
Theo D.B.Cleveland, hệ thống tìm tin là một công cụ thực hiện quá trình tìm
tin.[14]

7
Theo F.W.Lancaster, hệ thống tìm tin là tổ hợp bao gồm các tài liệu, yêu cầu tin,
các mô tả thống nhất tài liệu và yêu cầu tin, phương tiện cho phép so sánh các mô tả
này, và con người (bao gồm các chuyên gia thông tin, chuyên gia ñiều hành hệ thống
và người sử dụng hệ thống). [20]
Các tác giả cuốn chuyên khảo “Cơ sở thông tin học” của Viện thông tin VINITI
ñưa ra ñịnh nghĩa “Hệ thống tìm tin là tổ hợp các thành phần liên kết với nhau ñược
sử dụng ñể tìm trong một mảng tin nào ñó thông tin ñáp ứng yêu cầu tin ñược ñặt ra
cho hệ thống.” [24]
Trong giáo trình “Hệ thống thông tin”, V.P.Zakharov ñịnh nghĩa “Hệ thống tìm tin
là tập hợp có tổ chức các tài liệu và các phương tiện kỹ thuật ñể lưu trữ và tìm kiếm
thông tin hoặc tài liệu hoặc dữ liệu.” [33]
G.Kowalski, tác giả cuốn chuyên khảo “ Hệ thống tìm tin: Lý thuyết và ứng dụng”,
ñưa ra ñịnh nghĩa ñơn giản “Hệ thống tìm tin là một hệ thống có khả năng lưu trữ, bảo
quản và tìm kiếm thông tin” [19]
Những ñịnh nghĩa trên cho thấy thuật ngữ “hệ thống tìm tin” nói chung ñược dùng
ñể chỉ một hệ thống ñược xây dựng ñể lưu trữ và tìm kiếm thông tin ñã ñược lưu trữ.
Có nhiều loại hệ thống thông tin khác nhau, từ các hệ thống thủ công với thông tin
ñược lưu trữ trên giấy ñến các hệ thống ñược số hóa hoàn toàn. Cách tổ chức thông
tin và các kỹ thuật tìm tin trong các hệ thống tìm tin cũng khác nhau nhưng vấn ñề
chung ñối với tất cả các hệ thống tìm tin là ñảm bảo hiệu quả tìm tin của hệ thống.


1.2.1.2. Một số khái niệm liên quan

Nhu cầu tin
Nhu cầu tin là nhu cầu khách quan của người dùng tin về những thông tin cần thiết
cho công việc cụ thể của mình. [8]
Yêu cầu tin
Yêu cầu tin là nhu cầu tin của người dùng tin ñược thể hiện dưới dạng văn bản
hoặc lời. [8]
Mảng tin
Mảng tin (Information retrieval file) là tập hợp các tài liệu, dữ kiện (hoặc các thông
tin về chúng) ñược sắp xếp theo một trình tự nhất ñịnh tiện lợi cho việc tìm và xử lý
tin. [8]
Mẫu tìm
Mẫu tìm của tài liệu là nội dung cơ bản của tài liệu ñược thể hiện bằng các thuật
ngữ của ngôn ngữ tìm tin.
Mẫu tìm của một tài liệu ñược tạo lập trong quá trình xử lý tài liệu và ñược sử dụng
ñể tìm tài liệu ñó trong tập hợp nhiều tài liệu khác. Tập hợp các mẫu tìm của tài liệu là
một bộ phận không thể thiếu của mảng tin.
Quá trình thể hiện nội dung cơ bản của tài liệu bằng mẫu tìm ñược gọi là quá trình
ñánh chỉ số.
Lệnh tìm
Lệnh tìm là nội dung của yêu cầu tin ñược thể hiện bằng các thuật ngữ của ngôn
ngữ tìm tin.

8
ðiểm truy cập
ðiểm truy cập (access point) là một từ, cụm từ, mã số, tên gọi…ñược sử dụng ñể
tìm thông tin trong một hệ thống tìm tin. ðiểm truy cập có thể là giá trị của các thuộc
tính (hình thức và/hoặc nội dung) của ñối tượng ñược phản ánh trong hệ thống tìm tin.
Ví dụ, trong một hệ thống tìm tin tư liệu, ñiểm truy cập có thể là tên tác giả, nhan ñề,

ñề mục chủ ñề, từ khóa, ký hiệu phân loại…cho phép tìm kiếm và nhận dạng một biểu
ghi thư mục. Các ñiểm truy cập này ñược người xử lý tài liệu lựa chọn khi tạo lập một
biểu ghi.
ðánh chỉ số
ðánh chỉ số (Indexing) là quá trình thể hiện nội dung tài liệu và/hoặc yêu cầu tin
bằng ngôn ngữ tìm tin. [8]
Tính thích hợp
Tính thích hợp (Relevance) là mức ñộ trùng hợp giữa nội dung tài liệu với yêu cầu
tin. [8]
Tính phù hợp
Tính phù hợp (Pertinence) là mức ñộ trùng hợp giữa nội dung tài liệu và nhu cầu
tin. [8]
Tiêu chuẩn phù hợp ý nghĩa
Tiêu chuẩn phù hợp ý nghĩa là tập hợp các qui tắc nhằm xác lập một cách hình thức
mức ñộ thích hợp của tài liệu với yêu cầu tin.
Có thể chia các tiêu chuẩn phù hợp ý nghĩa thành hai nhóm chính là ñịnh lượng và
logic. Loại thứ nhất sử dụng các tiêu chí ñịnh lượng ñể ñánh giá mức ñộ giống nhau
về nội dung giữa tài liệu và yêu cầu tin (hệ số tương thích). ðiều này cho phép sắp
xếp kết quả tìm ñược theo trật tự giảm dần về mức ñộ thích hợp của tài liệu với yêu
cầu tin.
Có nhiều mô hình toán học và công thức khác nhau ñể tính hệ số tương thích. Tuy
nhiên, cách tính ñơn giản nhất là dựa trên sự trùng hợp giữa các thuật ngữ trong mẫu
tìm và lệnh tìm. Cách tính này ñược áp dụng trong tất cả các hệ thống tìm tin tư liệu
sử dụng các ngôn ngữ tìm tin phân loại, ñề mục chủ ñề và từ khoá.
Xác suất trùng hợp hoàn toàn giữa mẫu tìm và lệnh tìm trong các hệ thống tìm tin
thường rất thấp. Vì vậy, có thể phải ñánh giá mức ñộ trùng hợp một phần giữa mẫu
tìm và lệnh tìm. Nếu sự trùng hợp này ñạt ñến một mức ñộ cần và ñủ thì tài liệu tìm
ñược ñược xem là thích hợp với yêu cầu tin.
Gọi R là mức ñộ trùng hợp cần và ñủ giữa mẫu tìm và lệnh tìm ñể tài liệu tìm ñược
về cơ bản ñáp ứng ñược yêu cầu tin. R ñược biểu thị bằng tỉ lệ %. R ñược tính bằng

công thức: R= (M/N) x 100%, trong ñó:
M là số lượng các thuật ngữ của mẫu tìm và lệnh tìm trùng nhau khi tìm tin.
N là tổng số thuật ngữ có trong mẫu tìm.
Trường hợp lý tưởng nhất là khi mẫu tìm trùng hợp hoàn toàn với lệnh tìm, nghĩa
là M=N hay R=100%. Trên thực tế, với R>=25% là xem như ñạt yêu cầu.
Loại tiêu chuẩn phù hợp ý nghĩa thứ hai là tiêu chuẩn phù hợp ý nghĩa logic. Trên
thực tế, các hệ thống tìm tin sử dụng các lệnh tìm với các toán tử logic Bool ngày
càng phổ biến. Trong các hệ thống này, các yêu cầu tin ñược thể hiện bằng biểu thức
logic bao gồm một tập hợp các thuật ngữ tìm ñược liên kết với nhau bằng các toán tử

9
Bool. Các thuật ngữ tìm của biểu thức ñóng vai trò như các biến số và sẽ nhận giá trị
1 (ñúng) nếu thuật ngữ ñó ñược chứa trong tài liệu hoặc nhận giá trị 0 (sai) khi tài liệu
không chứa thuật ngữ ñó. Tài liệu ñược xem là thích hợp với yêu cầu tin nếu kết quả
tổng thể của biểu thức logic nhận giá trị ñúng. Nếu kết quả có giá trị sai thì tài liệu
không thích hợp với yêu cầu tin. Việc sử dụng các toán tử Bool ñảm bảo cho logic so
sánh mẫu tìm và lệnh tìm dễ hiểu ñối với người sử dụng. Chính sự ñơn giản và dễ
hiểu của tiêu chuẩn phù hợp ý nghĩa logic ñã giúp tiêu chuẩn này trở nên phổ biến.

1.2.2. Mục ñích của hệ thống tìm tin

Một hệ thống tìm tin ñược xây dựng ñể tìm các tài liệu hoặc thông tin ñược cộng
ñồng người sử dụng yêu cầu và phải sẵn sàng cung cấp tài liệu hoặc thông tin cần
thiết cho người sử dụng. Vì vậy, một hệ thống tìm tin bất kỳ phải tập trung vào việc
thu thập và tổ chức thông tin về một hoặc nhiều lĩnh vực kiến thức nhằm cung cấp
thông tin một cách nhanh chóng nhất khi người sử dụng yêu cầu. Trên thực tế, hệ
thống tìm tin ñóng vai trò như một cầu nối giữa các nguồn tài nguyên thông tin và
những người sử dụng thông tin.
Mục ñích chung của một hệ thống tìm tin là giảm tối ña chi phí của người sử dụng
ñể tìm thông tin cần thiết. Chi phí tìm tin có thể ñược tính bằng thời gian một người

sử dụng phải bỏ ra trong tất cả các bước của quá trình tìm tin cho ñến khi có ñược tài
liệu hoặc thông tin cần thiết. Người sử dụng có thể gặp nhiều trở ngại trong quá trình
tìm tin. Vì vậy, mục ñích của một hệ thống tìm tin là hỗ trợ tối ña ñể người sử dụng có
thể tìm ñược thông tin cần thiết một cách nhanh chóng, ñầy ñủ và chính xác.

1.2.3. Chức năng của hệ thống tìm tin và yêu cầu ñối với hệ thống tìm tin

1.2.3.1. Chức năng của hệ thống tìm tin
Một hệ thống tìm tin phải xử lý nhiều nguồn thông tin và yêu cầu tin khác nhau của
người sử dụng. Có thể chia các chức năng của một hệ thống tìm tin thành hai nhóm
chính là: 1) Phân tích nội dung và 2) Tìm tin và cung cấp kết quả tìm. Phân tích nội
dung bao gồm các chức năng liên quan ñến việc phân tích, tổ chức và lưu trữ thông
tin. Tìm tin và cung cấp kết quả tìm bao gồm các chức năng phân tích yêu cầu tin của
người sử dụng, tìm tin, chọn lọc và cung cấp kết quả tìm.
Cụ thể, các chức năng chính của một hệ thống tìm tin bao gồm:
 Phân tích nội dung các tài liệu: phân tích và trình bày nội dung chính của
tài liệu bằng các ngôn ngữ thích hợp;
 Tổ chức và lưu trữ thông tin một cách thích hợp ñể có thể tìm kiếm thông
tin theo các yêu cầu tin của người sử dụng;
 Phân tích các yêu cầu tin của người sử dụng và thể hiện các yêu cầu tin ở
dạng thích hợp với việc tìm kiếm trong hệ thống;
 Tìm trong hệ thống và lựa chọn thông tin thích hợp với yêu cầu tin;
Chức năng của một hệ thống tìm tin tư liệu ñơn giản ñược thể hiện trên sơ ñồ trong
hình 1.2.

10
Trong hình 1.2. là một hệ thống tìm tin với hai đầu vào (dành cho tài liệu và u
cầu tin) và một đầu ra để cung cấp tài liệu hoặc thơng tin theo u cầu. Ở các đầu vào
có các bộ phận đánh chỉ số tài liệu và u cầu tin. Các mẫu tìm của tài liệu cùng với
các địa chỉ lưu trữ tài liệu được đưa vào bộ nhớ của hệ thống còn các tài liệu được đưa

vào bộ phận lưu trữ tài liệu. Các lệnh tìm của từng u cầu tin được bộ xử lý đối chiếu
với mẫu tìm của tất cả các tài liệu được chứa trong bộ nhớ. Nếu mẫu tìm và lệnh tìm
tương thích (tồn phần hoặc theo tiêu chuẩn phù hợp ý nghĩa đã xác định) thì bộ xử lý
sẽ đưa ra lệnh cung cấp tài liệu được chứa trong bộ phận lưu trữ tài liệu. Bộ phận lưu
trữ tài liệu được xem như bậc thứ hai của hệ thống và thành phần này khơng hiện diện
trong các hệ thống tìm tin thư mục (chỉ có một bậc là bộ nhớ lưu trữ thơng tin về tài
liệu ). Sơ đồ này thể hiện hoạt động của một hệ thống tìm tin bất kỳ, bao gồm cả các
hệ thống truyền thống. Ví dụ, trong hệ thống tìm tin thủ cơng của một thư viện, các
bộ phận ở các đầu vào của hệ thống tương ứng các bộ phận xử lý tài liệu và tra cứu
tin, bộ nhớ tương ứng với các mục lục thủ cơng. Trong hệ thống tìm tin thủ cơng
khơng có bộ xử lý. Bộ ph

n này được thay thế bằng trí tuệ của người dùng tin hoặc
cán

bộ

tra cứu – là người thực hiện việc so sánh, đối chiếu lệnh tìm với mẫu tìm và
lựa chọn kết quả tìm được.

Tài liệu
Tài liệu
đã xử lý
Tài liệu
& đòa chỉ
Kho tài liệu
Mẫu tìm
& đòa chỉ
Bộ nhớ
Bộ xử lý

Lệnh tìm
Đòa chỉ
Yêu cầu
tin
Tài liệu


Hình 1.2. Sơ đồ tổng qt của hệ thống tìm tin

1.2.3.2. u cầu đối với hệ thống tìm tin

Hệ thống tìm tin phải hướng đến người sử dụng, nghĩa là phải chú trọng các tiện
ích cho người sử dụng. Vì vậy, hệ thống tìm tin phải đáp ứng các u cầu chức năng
sau:
- Bảo đảm khả năng tương tác giữa người thiết kế hệ thống và người sử
dụng;
- Cung cấp thơng tin với dạng thức thích hợp để có thể sử dụng ngay;
- Có phạm vi đủ rộng để bao qt tất cả các loại u cầu tin của cộng đồng
người sử dụng;

11
- Có khả năng cung cấp thông tin thích hợp và kịp thời;
- Có khả năng tương thích với những thay ñổi của môi trường;
- Phải duy trì các chuẩn ñể bảo vệ dữ liệu;
- Hệ thống phải dễ truy cập và dễ sử dụng;
- Hỗ trợ khai thác thông tin một cách hiệu quả.

1.2.4 Thành phần của hệ thống tìm tin



Thành phần của một hệ thống tìm tin cụ thể bao gồm:

1. Các mảng tin bao gồm tài liệu, thông tin về tài liệu/siêu dữ liệu, dữ kiện;
2. Các công cụ logic-ngữ nghĩa, bao gồm ngôn ngữ tìm tin, các qui tắc sử dụng
ngôn ngữ tìm tin và các tiêu chuẩn phù hợp ý nghĩa;
3. Các phương tiện kỹ thuật ñảm bảo thực hiện các chức năng của hệ thống;
4. Các yếu tố ñảm bảo cho việc khai thác hệ thống như nhân sự, tài liệu hướng
dẫn sử dụng…
Các thành phần cơ bản của hệ thống tìm tin ñược gọi là các phân hệ. Việc phân
chia thành các phân hệ rất cần thiết và hữu ích cho việc thiết kế cũng như mô tả cơ
chế vận hành của hệ thống tìm tin. Có nhiều cách chia hệ thống tìm tin thành các phân
hệ, trong ñó hai cách thường ñược sử dụng nhất là phân chia theo loại yếu tố và
phương tiện ñảm bảo hoạt ñộng của hệ thống và phân chia theo nguyên tắc chức năng.

1.2.4.1.Các phân hệ ñảm bảo hoạt ñộng của hệ thống tìm tin

Các phương tiện và yếu tố ñảm bảo việc thực hiện các chức năng của hệ thống tìm
tin ñược chia thành các phân hệ ñảm bảo hoạt ñộng của hệ thống tìm tin. Ở dạng tổng
quát, các phân hệ bao gồm bốn thành phần của hệ thống tìm tin ñược liệt kê ở trên. Ở
dạng chi tiết hơn, có thể chia thành các phân hệ như ñảm bảo ngôn ngữ, ñảm bảo thông
tin, ñảm bảo kỹ thuật, ñảm bảo công nghệ, ñảm bảo nhân sự…
Phân hệ ñảm bảo thông tin bao gồm các mảng tin (tài liệu, thông tin về tài liệu/siêu
dữ liệu, dữ kiện), các phương tiện, phương pháp mô tả và xây dựng các mảng tin.
Phân hệ ñảm bảo ngôn ngữ bao gồm các ngôn ngữ tìm tin, các qui tắc ứng dụng, các
tiêu chuẩn phù hợp ý nghĩa và các công cụ ngôn ngữ khác. Ở những giai ñoạn ñầu, khi
hệ thống tìm tin mới bắt ñầu phát triển, ñảm bảo thông tin và ñảm bảo ngôn ngữ thường
ñược nhập chung thành một phân hệ ñảm bảo thông tin-ngôn ngữ. Về sau, hai phân hệ
này ñược tách riêng mặc dù ranh giới giữa chúng không thực sự rõ ràng. Chẳng hạn, có
thể ñưa các ngôn ngữ mô tả thông tin vào phân hệ ñảm bảo ngôn ngữ cũng như vào
phân hệ ñảm bảo thông tin.

Phân hệ ñảm bảo chương trình bao gồm các thuật toán và các phần mềm (bao gồm
phần mềm hệ thống và phần mềm ứng dụng) thực hiện các chức năng của hệ thống tìm
tin với sự trợ giúp của máy tính.
Phân hệ ñảm bảo kỹ thuật bao gồm các phương tiện kỹ thuật hỗ trợ cho việc lưu trữ,
tìm và cung cấp thông tin.
Phân hệ ñảm bảo công nghệ là tập hợp và trình tự thực hiện các qui trình (tự ñộng
hóa và thủ công) và các thủ tục xử lý thông tin trong hệ thống tìm tin, bao gồm mô tả

12
các qui trình và thủ tục, các sơ ñồ thông tin-công nghệ và các tài liệu hướng dẫn nghiệp
vụ.
Phân hệ ñảm bảo nhân sự bao gồm các nhân viên thực hiện việc vận hành, khai thác
hệ thống.

1.2.4.2. Các phân hệ chức năng

Có thể phân chia hệ thống tìm tin thành các bộ phận theo chức năng với mỗi bộ phận
thực hiện một chức năng nhất ñịnh trong qui trình công nghệ như xử lý tài liệu, nhập và
ñiều chỉnh các yêu cầu tin, tìm tin, thống kê, xử lý kết quả tìm, cung cấp kết quả tìm
…Các bộ phận này ñược gọi là các phân hệ chức năng và tạo thành mô hình cấu trúc
(còn gọi là mô hình vận hành) của hệ thống tìm tin. Ví dụ, một hệ thống tìm tin tư liệu
có thể bao gồm các phân hệ chức năng cơ bản sau:
1
Phân hệ xử lý tài liệu thực hiện các chức năng xử lý tài liệu, lưu trữ và quản
trị tài liệu và mẫu tìm của tài liệu;
2
Phân hệ xử lý yêu cầu tin thực hiện các chức năng xác ñịnh yêu cầu tin, xây
dựng lệnh tìm và nhập lệnh tìm;
3
Phân hệ tìm tin có chức năng tìm và ñưa ra các kết quả tìm

4
Phân hệ xử lý và cung cấp các kết quả tìm thực hiện chức năng phân tích các
kết quả tìm, lựa chọn các kết quả thích hợp và cung cấp cho người sử dụng.

1.2.5 Các loại hệ thống tìm tin

Có thể phân loại các hệ thống tìm tin dựa trên nhiều cơ sở khác nhau. Trong mục này
sẽ ñề cập một số cách phân loại cơ bản nhất.
Dựa vào tính chất của thông tin ñược lưu trữ và cung cấp, có thể phân các hệ
thống tìm tin thành hai loại là hệ thống tìm tin tư liệu và hệ thống tìm tin dữ kiện.
Hệ thống tìm tin tư liệu là hệ thống tìm tin ñược xây dựng ñể tìm và cung cấp
thông tin về tài liệu hoặc tài liệu. Hệ thống tìm tin tư liệu ñáp ứng các yêu cầu tin
ñược ñặt ra cho hệ thống bằng cách cung cấp các mô tả thư mục của tài liệu, các tài
liệu gốc, các bản sao hoặc ñịa chỉ những nơi bảo quản các tài liệu chứa thông tin ñược
yêu cầu. ðôi khi loại hệ thống tìm tin tư liệu chỉ cung cấp các mô tả thư mục của các
tài liệu cần tìm ñược gọi là hệ thống tìm tin thư mục.
Hệ thống tìm tin dữ kiện là hệ thống tìm tin ñược xây dựng ñể lưu trữ, tìm và cung
cấp các số liệu và dữ kiện như các số liệu khoa học, kỹ thuật, kinh tế, ñặc tính của các
quá trình, hiện tượng, ñịa chỉ, tên cá nhân hoặc tổ chức…
Giữa hệ thống tìm tin tư liệu và hệ thống tìm tin dữ kiện không có sự khác biệt về
nguyên tắc xây dựng. Sự khác biệt cơ bản giữa các hệ thống tìm tin tư liệu và hệ
thống tìm tin dữ kiện là ở mức ñộ xử lý ban ñầu nội dung tài liệu ñể sau ñó có thể tìm
ñược thông tin. Trong các hệ thống tìm tin tư liệu, tài liệu ñược phân tích và mô tả ở
mức “tài liệu nói về cái gì”, còn trong các hệ thống tìm tin dữ kiện thì mô tả ở mức
“ñiều ñược ñề cập trong tài liệu cụ thể là gì”. Nói cách khác, các hệ thống tìm tin tư
liệu lưu trữ thông tin về tài liệu còn các hệ thống tìm tin dữ kiện lưu trữ các số liệu

13
hoặc dữ kiện về một ñối tượng hoặc một nhóm ñối tượng nhất ñịnh và ñược trình bày
với một hình thức riêng biệt. Các số liệu/dữ kiện này có thể ñược thu thập trực tiếp

hoặc ñược rút ra từ các tài liệu. Ví dụ, với yêu cầu tin “Vận tốc ánh sáng”, hệ thống
tìm tin tư liệu sẽ cung cấp các bài báo và sách chuyên khảo nói về vận tốc ánh sáng và
có thể chứa câu trả lời cho yêu cầu tin ñược ñặt ra, còn hệ thống tìm tin dữ kiện sẽ
cung cấp câu trả lời cụ thể là “Vận tốc ánh sáng bằng 3.000 km/giây”. Có nhiều
trường hợp các hệ thống tìm tin là hệ thống hỗn hợp, trong ñó thông tin dữ kiện ñược
sử dụng như một phương tiện hỗ trợ cho việc tìm kiếm tài liệu và ngược lại. Trong
các hệ thống tìm tin tư liệu, các văn bản cũng có thể ñược cấu trúc lại, ñược chia
thành nhiều ñoạn hoặc trường và việc xử lý, cung cấp thông tin về tài liệu có thể ñược
thực hiện ở mức ñộ các trường riêng biệt. Trên thực tế, các hệ thống tìm tin trong thư
viện chính là sự kết hợp một số hệ thống tìm tin tư liệu và tìm tin dữ kiện.
ðặc ñiểm chung lớn nhất của hệ thống tìm tin tư liệu và hệ thống tìm tin dữ kiện là
ñể ñáp ứng các yêu cầu tin ñược ñặt ra cho hệ thống, cả hai hệ thống có thể và chỉ có
thể cung cấp thông tin ñã ñược lưu trữ trong hệ thống trước ñó.

Dựa vào phương tiện lưu trữ và tìm kiếm thông tin, có thể chia thành các hệ
thống tìm tin thủ công, bán tự ñộng và tự ñộng hóa.
Trong hệ thống tìm tin thủ công, thông tin về tài liệu hoặc dữ kiện ñược lưu trữ
trong các bộ phiếu tra cứu thư mục, bộ phiếu tra cứu dữ kiện và hệ thống mục lục
truyền thống Có thể sử dụng hệ thống tìm tin thủ công ñể tìm tin một cách hiệu quả
trong các mảng tin chứa dưới 10.000 tài liệu.
Trong hệ thống tìm tin bán tự ñộng, thông tin về tài liệu ñược chứa trong các phiếu
lỗ mép hoặc phiếu lỗ soi.
Trong phiếu lỗ mép, thông tin ñược tổ chức theo tài liệu, nghĩa là thông tin về mỗi
tài liệu ñược trình bày trên một phiếu. Phiếu này ñược chia làm hai vùng là vùng giữa
và vùng xung quanh mép phiếu. Vùng giữa của phiếu chứa mô tả thư mục tài liệu.
Vùng xung quanh mép phiếu là vùng ñục lỗ theo một mã số ñã qui ñịnh. Các ñặc
trưng nội dung của tài liệu có thể ñược ghi dưới dạng các lỗ khuyết nhằm giúp cho
việc tìm tài liệu một cách dễ dàng. Việc tìm tin ñược thực hiện theo từng tập phiếu
của bộ phiếu. ðể tìm một tài liệu nào ñó, ngưòi tìm tin phải lấy một tập phiếu rồi
dùng que xiên vào lỗ tương ứng với ñặc trưng cần tìm và cho tập phiếu rơi tự do.

Những phiếu có bấm lỗ khuyết sẽ rơi xuống và ñó sẽ là kết quả lựa chọn. Nếu một ñặc
trưng ñược thể hiện bằng nhiều lỗ và nếu muốn tra cứu theo nhiều ñặc trưng thì phải
lặp lại thao tác trên với những phiếu ñã rơi xuống và ñược lựa chọn ở lần trước. Có
thể thực hiện việc lựa chọn bằng tay hoặc bằng máy chọn có bàn que xiên và bộ rung
ñiện.
Phiếu lỗ mép có thể ñược làm bằng bìa cứng, bìa mỏng hoặc giấy Bristol và có
kích thước từ 75x125mm ñến 210x297mm. Các lỗ có ñường kính từ 2,5 ñến 3mm và
khoảng cách giữa chúng là 5,6mm hoặc 6,35mm.
Thông tin trong phiếu lỗ soi ñược tổ chức theo nội dung tài liệu, nghĩa là mỗi phiếu
ứng với một từ khóa hoặc từ chuẩn ñặc trưng cho nội dung tài liệu. Mỗi lỗ tượng
trưng cho một số ñăng ký của tài liệu trong hệ thống. Việc ghi một tài liệu vào bộ nhớ
ñược thực hiện bằng cách ñục lỗ ở vị trí dành cho nó trong những phiếu ứng với các
từ khóa hoặc từ chuẩn có chứa trong mẫu tìm của tài liệu ñó. Việc tra cứu ñược thực

14
hiện bằng cách ñặt một tập các phiếu có những ñặc trưng (từ khóa hoặc từ chuẩn) cần
tìm trước một nguồn sáng. Những phiếu chứa tài liệu phù hợp với yêu cầu tin là
những phiếu có cùng vị trí ñục lỗ trên toàn bộ tập phiếu nên ánh sáng có thể xuyên
qua ñược.
Phiếu lỗ soi có thể ñược làm bằng giấy Bristol nhẹ với nhiều kích thước khác nhau.
Trên mỗi phiếu có một mạng các vị trí ñược xây dựng bằng phương pháp tọa ñộ. Mỗi
vị trí ứng với một số ñăng ký của tài liệu ñã ñược xử lý từ trước. Số lượng các vị trí
trên mỗi phiếu ứng với số lượng tài liệu trong hệ thống có mẫu tìm chứa từ khóa hoặc
từ chuẩn ñược thể hiện trên phiếu ñó. Ngoài ra, số lượng các vị trí còn phụ thuộc vào
dung lượng của mỗi phiếu. Dung lượng của mỗi phiếu có thể chứa 5.000 vị trí như
mẫu phiếu SPHINXO hoặc 14.000 vị trí như mẫu phiếu SELECTO.
Trong các hệ thống tìm tin tự ñộng hóa, việc lưu trữ và tìm kiếm thông tin ñược
thực hiện trên máy tính ñiện tử. Các thành phần cơ bản của HTTT tự ñộng hóa bao
gồm các công cụ xử lý ngữ nghĩa, các phương tiện kỹ thuật, cơ sở dữ liệu và nhân
viên làm việc với hệ thống.

Dựa vào loại ngôn ngữ tìm tin, có thể chia thành hệ thống tìm tin sử dụng ngôn
ngữ tiền kết hợp và hệ thống tìm tin sử dụng ngôn ngữ hậu kết hợp, thường ñược gọi
tắt là hệ thống tìm tin tiền kết hợp (pre-coordinate system) và hệ thống tìm tin hậu kết
hợp (post-coordinate system).
Dựa vào loại tiêu chuẩn phù hợp ý nghĩa, có thể chia thành hệ thống tìm tin với
tiêu chuẩn phù hợp ý nghĩa logic và hệ thống tìm tin với tiêu chuẩn phù hợp ý nghĩa
ñịnh lượng. Trong các hệ thống tìm tin thuộc nhóm ñầu tiên, mức ñộ phù hợp ý nghĩa
ñược xác ñịnh dựa trên việc sử dụng logic mệnh ñề ñể so sánh mẫu tìm và lệnh tìm.
Cơ sở ñể tính mức ñộ phù hợp ý nghĩa trong các hệ thống tìm tin thuộc nhóm thứ hai
là các công thức, số liệu thống kê ñược xây dựng chủ yếu dựa trên tần số xuất hiện
ñồng thời của các thuật ngữ trong mẫu tìm và lệnh tìm.




















15
CHƯƠNG 2
HỆ THỐNG CÔNG CỤ
XỬ LÝ NGỮ NGHĨA
TRONG CÁC HỆ THỐNG TÌM TIN


2.1. Khái niệm hệ thống công cụ xử lý ngữ nghĩa

Hệ thống công cụ xử lý ngữ nghĩa là tập hợp các công cụ ngôn ngữ -logic và
phương pháp ñược sử dụng ñể xử lý, trình bày, tổ chức và tìm kiếm thông tin trong hệ
thống tìm tin.
Hệ thống công cụ xử lý ngữ nghĩa bao gồm các thành phần sau:
- Ngôn ngữ tìm tin:
+ Từ vựng và cú pháp của ngôn ngữ tìm tin;
+ Các công cụ trình bày tóm tắt nội dung: từ ñiển, từ ñiển từ chuẩn, khung ñề mục,
bảng phân loại…
- Các công cụ bảo ñảm sự thống nhất giữa các ngôn ngữ khác nhau:
+ Bảng tra tương thích
+ Bảng tra chuyển ñổi
+ Các qui ñịnh
- Các công cụ thực hiện qui trình xử lý và tìm tin:
+ Các phương pháp ñánh chỉ số;
+ Các thuật toán ñánh chỉ số tự ñộng;
+ Các công cụ tìm kiếm: ngôn ngữ thể hiện yêu cầu tin; các công cụ tự ñộng gửi các
yêu cầu tin ñến các CSDL; các ngôn ngữ lệnh thống nhất
- Các tiêu chuẩn phù hợp ý nghĩa
- Các chuẩn mô tả dữ liệu (mã hoá )
- Các công cụ hỗ trợ xử lý văn bản với ngôn ngữ tự nhiên:
+ Các công cụ xử lý cú pháp dữ liệu dạng văn bản;

+ Các công cụ ngữ nghĩa và thuật toán phân loại tự ñộng tài liệu;
+ Các công cụ ngữ nghĩa và thuật toán lập biểu thức tìm tin tự ñộng;
+ Các công cụ tìm lỗi tự ñộng
- Các công cụ hỗ trợ ñảm bảo ngữ nghĩa
+ Các tài liệu hướng dẫn thực hiện
+ Qui trình lập và quản trị từ vựng trên máy tính;

2.2. Ngôn ngữ tìm tin


2.2.1. Khái niệm ngôn ngữ tìm tin

Ngôn ngữ tìm tin là ngôn ngữ nhân tạo ñược dùng ñể mô tả nội dung tài liệu hoặc
yêu cầu tin và ñể tìm tin [8]

16
Ngôn ngữ tìm tin ñược xây dựng ñể khắc phục các hạn chế của ngôn ngữ tự nhiên
trong việc diễn ñạt thông tin và tìm kiếm thông tin, bao gồm:
- Có nhiều ngôn ngữ tự nhiên và mỗi ngôn ngữ ñều có vốn từ vựng rất lớn,
trong ñó có nhiều từ không thể sử dụng ñể xử lý tài liệu và tìm tin;
- Ngôn ngữ tự nhiên có nhiều loại từ và các loại từ có giá trị thông tin khác
nhau;
- Có nhiều từ ñồng nghĩa, từ ñồng âm và ý nghĩa của các từ có thể thay ñổi
theo ngữ cảnh;
Những hạn chế nêu trên có thể ñẫn ñến tình trạng vừa thừa vừa thiếu khi sử dụng
ngôn ngữ tự nhiên ñể xử lý và tìm thông tin. ðể khắc phục các hạn chế trên, ngôn ngữ
tìm tin phải ñáp ứng các yêu cầu sau:
- Quan hệ ngữ nghĩa một-một: mỗi khái niệm phải ñược biểu ñạt bằng một
thuật ngữ và ngược lại, một thuật ngữ phải biểu ñạt một và chỉ một khái
niệm.

- Cú pháp ñược xây dựng chặt chẽ và nhất quán: chỉ có một cách biểu ñạt các
khái niệm
- Có lực ngữ nghĩa mạnh: Lực ngữ nghĩa của ngôn ngữ tìm tin là khả năng
phản ánh chính xác và ñầy ñủ nội dung của tài liệu và yêu cầu tin.
- Bảo ñảm tính khách quan của người sử dụng: Chỉ diễn ñạt ñặc trưng khách
quan của các sự vật, hiện tượng và các mối tương quan giữa chúng.
- Tính mở: bảo ñảm khả năng chỉnh sửa và bổ sung ngôn ngữ.
Ngôn ngữ tìm tin ñược xây dựng dựa trên hai thành phần cơ bản là từ vựng và cú
pháp.
Từ vựng của ngôn ngữ tìm tin là tập hợp các ñơn vị từ vựng (hay còn gọi là yếu tố
từ vựng) ñược sử dụng ñể mô tả nội dung tài liệu và/hoặc yêu cầu tin.
ðơn vị từ vựng là các từ hoặc ký hiệu ñược sử dụng ñể diễn ñạt các khái niệm.
Mỗi ñơn vị từ vựng diễn ñạt một khái niệm.
Từ vựng là thành phần chính của các ngôn ngữ tìm tin và ñóng vai trò rất quan
trọng ñối với các chuyên gia thông tin - thư viện và người dùng tin trong việc xử lý tài
liệu và tìm thông tin.
Cú pháp của ngôn ngữ tìm tin là tập hợp các mối quan hệ giữa các ñơn vị từ vựng,
các qui tắc biểu thị các mối quan hệ ñó và các qui tắc sử dụng các ñơn vị từ vựng ñể
mô tả thông tin.

2.2.2. Các loại ngôn ngữ tìm tin (NNTT)

Dựa vào cấu trúc từ vựng và qui tắc sử dụng, có thể chia NNTT thành hai loại là
NNTT tiền kết hợp và NNTT hậu kết hợp.
Ngôn ngữ tìm tin tiền kết hợp là ngôn ngữ có cấu trúc từ vựng và qui tắc sử dụng
cho phép ñánh chỉ số tài liệu bằng cách sử dụng các ñơn vị từ vựng có sẵn hoặc kết
hợp các ñơn vị từ vựng ñơn giản với nhau theo một trật tự nhất ñịnh ñể diễn tả các
khái niệm phức tạp. Với NNTT tiền kết hợp, việc kết hợp các ñơn vị từ vựng ñược
thực hiện trong quá trình ñánh chỉ số tài liệu.


17
Có hai loại NNTT tiền kết hợp là ngôn ngữ phân loại và ngôn ngữ ñề mục chủ ñề.
ðặc trưng chính của các NNTT tiền kết hợp là từ vựng có cấu trúc phân cấp một cách
hệ thống và thường ở dạng một danh mục ñược ñịnh sẵn với các ñơn vị từ vựng là các
từ, cụm từ hoặc mã số. Khi ñánh chỉ số tài liệu, người xử lý tài liệu có thể sử dụng các
ñơn vị từ vựng có sẵn hoặc kết hợp các ñơn vị từ vựng với nhau theo những qui tắc
nhất ñịnh ñể diễn tả các khái niệm phức tạp. Với cấu trúc này, NNTT tiền kết hợp có
ưu ñiểm là từ vựng có tính hệ thống và tính chính xác cao vì các ñơn vị từ vựng ñã
ñược ấn ñịnh một cách rõ ràng. Nhược ñiểm của NNTT tiền hợp là khó cập nhật, bổ
sung các khái niệm mới cho từ vựng do phải phụ thuộc vào cấu trúc của hệ thống có
sẵn. Một nhược ñiểm khác của NNTT tiền kết hợp là khó sử dụng ñối với người dùng
tin nói chung vì khi tìm tin người dùng tin không thể tự kết hợp các ñơn vị từ vựng ñể
diễn tả các khái niệm theo ý mình mà phải hoàn toàn phụ thuộc vào kết quả ñánh chỉ
số có sẵn. Vì vậy, hiệu quả tìm tin có thể bị hạn chế nếu chất lượng ñánh chỉ số không
ñảm bảo và/hoặc người dùng tin không nắm vững cấu trúc từ vựng của NNTT ñược
sử dụng ñể ñánh chỉ số tài liệu.
Ngôn ngữ tìm tin hậu kết hợp là ngôn ngữ có cấu trúc từ vựng và qui tắc sử dụng
cho phép ñánh chỉ số tài liệu bằng cách sử dụng các ñơn vị từ vựng có sẵn ñể diễn tả
các khái niệm ñơn giản và chỉ có thể kết hợp các ñơn vị từ vựng này với nhau khi tìm
tin. Như vậy, với NNTT hậu kết hợp, việc kết hợp các ñơn vị từ vựng chỉ ñược thực
hiện trong quá trình tìm tin, sau khi tài liệu ñã ñược ñánh chỉ số.
NNTT hậu kết hợp có ưu ñiểm là từ vựng có cấu trúc mềm dẻo, dễ bổ sung các ñơn
vị từ vựng ñể mô tả các khái niệm mới. Mặt khác, NNTT hậu kết hợp dễ sử dụng ñối
với người dùng tin nói chung vì cú pháp cho phép người dùng tin tự kết hợp các ñơn
vị từ vựng một cách linh hoạt khi tìm tin. Nhược ñiểm của NNTT hậu kết hợp là hiệu
quả tìm tin có thể bị hạn chế nếu người tìm tin không nắm vững chiến lược hoặc kỹ
thuật tìm tin.

2.2.3. Ngôn ngữ phân loại
2.2.3.1. Các khái niệm cơ bản

Ngôn ngữ phân loại là ngôn ngữ tìm tin chuyên dụng cho phép người sử dụng tiếp
cận tài liệu theo lĩnh vực tri thức ñược thể hiện trong nội dung tài liệu.
Ngôn ngữ phân loại ñược sử dụng ñể phân loại tài liệu. Phân loại tài liệu là sự phân
chia các tài liệu thành nhóm theo các dấu hiệu nhất ñịnh như lĩnh vực tri thức, vấn ñề,
ñối tượng hoặc theo các dấu hiệu hình thức.
Việc phân loại ñược thực hiện dựa trên sự phân chia các khái niệm. Dấu hiệu ñược
sử dụng ñể thực hiện việc phân chia các khái niệm ñược gọi là cơ sở phân loại. Các
dấu hiệu này có thể khác nhau trong các khung phân loại khác nhau.
Khung phân loại, còn gọi là hệ thống phân loại, là danh mục các ñề mục và các mã
số hay kí hiệu tương ứng phản ánh cấu trúc cấp bậc của một hệ thống phân loại khoa
học. Mỗi ñề mục trong khung phân loại có một vị trí xác ñịnh và ñược biểu diễn bằng
một mã số. Mã số có thể là số, chữ cái hoặc kết hợp giữa số và chữ cái. Mã số ñược
sử dụng thay thế cho ñề mục trong xử lý tài liệu và trong những công ñoạn khác.
Ngoài ra, mỗi khung phân loại còn sử dụng một hệ thống các ký hiệu ñể làm rõ thêm

18
ý nghĩa của các mã số hoặc ñể kết hợp các mã số nhằm mở rộng khả năng diễn tả
thông tin.
Khung phân loại phải tuân theo các nguyên tắc hình thức như sau:
- Cơ sở phân loại phải ñồng nhất trong một khung phân loại;
- Các lớp con phải loại trừ lẫn nhau;
- Các lớp con phải cân ñối;
- Các lớp con phải liên tục, không ñược gián ñoạn.
Ngôn ngữ phân loại là ngôn ngữ tiền kết hợp vì cấu trúc khung phân loại và qui tắc
sử dụng cho phép người ñánh chỉ số sử dụng các ñơn vị từ vựng có sẵn hoặc kết hợp
các ñơn vị từ vựng với nhau ñể mô tả nội dung tài liệu.

2.2.3.2. Khung phân loại phân cấp
Quan hệ cơ bản giữa các lớp phân loại là quan hệ phân cấp và cùng trực thuộc.
Quan hệ phân cấp là quan hệ trong ñó một lớp là lớp con của một một lớp khác rộng

hơn. Cùng trực thuộc là quan hệ giữa các lớp con của một lớp rộng hơn.
Giả sử K là một lớp và ñược chia thành các lớp con k
1
, k
2
, k
3
,… k
n
dựa trên một cơ
sở phân loại nào ñó. Quan hệ giữa lớp K và lớp con k
i
là quan hệ phân cấp, còn quan
hệ giữa các lớp con k
1
, k
2
, k
3
, …k
n
là quan hệ cùng trực thuộc.
Có thể phân biệt hai loại quan hệ phân cấp là quan hệ phân cấp mạnh và quan hệ
phân cấp yếu. Trong quan hệ phân cấp mạnh mỗi lớp chỉ trực thuộc môt một lớp rộng
hơn. Trong quan hệ phân cấp yếu mỗi lớp trực thuộc nhiều lớp rộng hơn.
Khung phân loại chỉ chứa quan hệ phân cấp mạnh và quan hệ cùng trực thuộc ñược
gọi là khung phân loại phân cấp.
Hình thức thể hiện ñơn giản nhất của các khung phân loại phân cấp là các sơ ñồ
hình cây, bao gồm các ñiểm (ñược gọi là ñỉnh) và các ñoạn nối một số ñỉnh với nhau.
Trong hình 2.1 là sơ ñồ hình cây thể hiện cấu trúc của khung phân loại phân cấp.

1.1.1 1.1.2 1.1.3
1.1
1.2.1 1.2.2 1.2.3
1.2
1.3.1 1.3.2 1.3.3
1.3
1

Hình 2.1. Sơ ñồ cấu trúc khung phân loại phân cấp

Khung phân loại phân cấp có các ưu ñiểm như sau:
- Thích hợp với các hệ thống mục lục thủ công. Không cần các phương tiện,
thiết bị ñặc biệt ñể xây dựng và sử dụng các mục lục;

19
- Cho phép tìm tin theo chủ ñề trong các hệ thống mục lục thủ công một cách
nhanh chóng và rẻ;
- Tốn ít chi phí lao ñộng cho việc ñánh chỉ số hơn so với ñánh chỉ số bằng khung
phân loại theo diện và ñịnh chủ ñề;
- Các lớp trong khung phân loại phân cấp ñược ñánh số bằng chữ số Ả rập và
chữ cái La tinh nên dễ hiểu ñối với các chuyên gia ở nhiều nước khác nhau.
ðiều này làm cho khung phân loại phân cấp trở nên phổ biến trên toàn thế giới.
Bên cạnh ñó, khung phân loại phân cấp cũng có các nhược ñiểm như sau:
- Không có khả năng ñánh chỉ số ña phương diện;
- Không thích hợp cho việc tìm tin theo chủ ñề hẹp;
- Do mức ñộ phân chia các khái niệm không ñủ sâu nên trong khung phân loại
có thể thiếu các lớp cho những nội dung chuyên sâu;
- Cơ chế cập nhật không thuận tiện nên khung phân loại phân cấp không phản
ánh kịp thời sự phát triển khoa học và kỹ thuật.


2.2.3.3.Khung phân loại theo diện
Cơ sở của khung phân loại theo diện là nguyên tắc phân loại cùng một tập hợp các
sự vật và hiện tượng theo nhiều dấu hiệu khác nhau. Cụ thể là thay vì xây dựng một
cây tri thức tổng hợp, có thể xây dựng một số cây nhỏ hơn cho cùng một tập hợp các
ñối tượng. Cơ sở phân loại là diện của các vấn ñề (facet). Mỗi diện bao hàm toàn bộ
các ý nghĩa tương ñương của dấu hiệu phân loại nhất ñịnh. Chẳng hạn, các thuật ngữ
chỉ các loại vật liệu khác nhau ñược tập hợp trong diện “Vật chất”, còn tập hợp các
thuật ngữ chỉ thời gian của các sự kiện, hiện tượng sẽ tạo thành diện “Thời gian”. Mỗi
thuật ngữ của diện ñược gọi là tiêu ñiểm (focus) và ñược biểu thị bằng một mã số ñể
thuận tiện cho việc phân loại.
Các ưu ñiểm chính của khung phân loại theo diện bao gồm:
- Có khả năng ñánh chỉ số ña phương diện;
- Có khả năng tập hợp vào một chỗ tất cả các phương diện của một ñề tài
hoặc một ñối tượng.
- Phân chia các khái niệm ở mức ñộ sâu;
- Dễ cập nhật các thuật ngữ mới hơn so với khung phân loại phân cấp;
- Ký hiệu phân loại ngắn gọn hơn so với ký hiệu trong các khung phân loại
phân cấp.
Nhược ñiểm chính của khung phân loại theo diện là khó xây dựng và khó bổ sung
vào khung phân loại theo chuyên ngành hẹp các thuật ngữ liên ngành mới.

2.2.3.4. Các khung phân loại tiêu biểu

Khung phân loại thập phân Dewey (Dewey Decimal Classification – DDC)
Khung phân loại DDC do nhà thư viện học người Mỹ là Melvin Dewey (1851-
1931) xây dựng và ñược xuất bản lần ñầu vào năm 1876.
Khung phân loại DDC là khung phân loại phân cấp với 10 lớp chính, kí hiệu bằng
3 chữ số Ả rập từ 000-900 và xếp theo thứ tự như sau:



20
000 Tổng hợp
100 Triết học và các khoa học liên quan
200 Tôn giáo
300 Khoa học xã hội
400 Ngôn ngữ
500 Khoa học tự nhiên
600 Khoa học ứng dụng
700 Nghệ thuật
800 Văn học
900 Lịch sử và ñịa lý
Mỗi lớp chính lại ñược chia thành 10 lớp con và mỗi lớp con lại ñược chia thành 10
lớp nhỏ tiếp theo. Ví dụ, lớp 500 ñược chia thành các lớp nhỏ hơn như sau:

500 Khoa học tự nhiên
510 Toán học
520 Thiên văn học và khoa học liên quan

590 ðộng vật học
Lớp 510 lại ñược chia thành các lớp nhỏ như sau:

510 Toán học
511 Số học
512 ðại số
513 Hình học
….
519 Xác suất và toán học ứng dụng
Khung DDC có các bảng phụ nhằm mục ñích mở rộng ký hiệu các lớp trong bảng
chính, giúp cho việc sử dụng khung phân loại linh hoạt và hiệu quả. Các bảng phụ chỉ
ñược sử dụng ñể phối hợp với bảng chính, không ñược sử dụng ñộc lập.

Khung phân loại DDC ñược cập nhật tương ñối thường xuyên và ñược sử dụng phổ
biến trong các thư viện tại nhiều nước trên thế giới.

Khung phân loại thập phân bách khoa (Universal Decimal Classification -UDC)
Khung phân loại UDC ñược xây dựng dựa trên cơ sở khung phân loại DDC và
ñược xuất bản lần ñầu vào năm 1905. Khung phân loại UDC giữ lại hầu hết các lớp
của khung DDC, riêng nội dung lớp 4-Ngôn ngữ ñược ñưa vào lớp 8, còn lớp 4 vẫn
bỏ trống. Các lớp cơ bản ñược thể hiện bằng kí hiệu số từ 0 ñến 9. Các bảng phụ ñược
mở rộng và phát triển ñể bổ sung cho bảng chính. Các dấu ñược sử dụng làm ký hiệu
cũng ñược mở rộng nhằm hỗ trợ cho việc phân loại các tài liệu có nội dung phức tạp.
Các lớp trong bảng chính của UDC bao gồm:

0 Những vấn ñề chung
1 Triết học
2 Tôn giáo

21
3 Các khoa học xã hội
4 (ðể trống)
5 Toán học. Khoa học tự nhiên
6 Khoa học ứng dụng. Kỹ thuật. Y học
7 Nghệ thuật. Thể thao
8 Ngôn ngữ. Văn học
9 ðịa lý. Lịch sử. Tiểu sử nhân vật
UDC có hai loại bảng phụ là các bảng trợ ký hiệu chung và các bảng trợ ký hiệu
chuyên ngành. Mỗi bảng trợ ký hiệu có dấu hiệu nhận dạng riêng và ñược sử dụng ñể
ghép nối với ký hiệu của bảng chính.
UDC sử dụng các dấu ký hiệu tương ñối phức tạp ñể kết hợp các ký hiệu với nhau, tạo
thành các ký hiệu phức hợp ñể phản ánh những khái niệm phức tạp.
UDC ñược cập nhật thường xuyên. Tuy nhiên, UDC có ảnh hưởng không lớn bằng

DDC ñối với các nước châu Âu và Mỹ.

Khung phân loại Thư viện Quốc hội Mỹ (Library of Congress Classification – LCC)
Khung phân loại thư viện Quốc hội Mỹ ñược xây dựng ñầu thế kỷ 20, dựa trên khung
phân loại mở rộng của Cutter (Cutter’s Expansive Classification).
Khung phân loại LCC có 21 lớp cơ bản. Khung phân loại này không có các bảng phụ
ñộc lập. Mỗi lớp cơ bản có kèm theo bảng phụ và bảng tra cứu.
Các lớp cơ bản của khung phân loại LCC bao gồm:
A Các công trình chung
B Triết học. Tâm lý học. Tôn giáo
C. Các khoa học phụ trợ cho lịch sử
D Lịch sử: lịch sử nói chung và lịch sử thế giới cổ ñại
E-F Lịch sử nước Mỹ
G ðịa lý. Bản ñồ. Nhân loại học.
H Các khoa học xã hội
J Khoa học chính trị
K Luật pháp
L Giáo dục
M Âm nhạc
N Mỹ thuật
P Ngôn ngữ và văn học
Q Khoa học
R Y học
S Nông nghiệp
T Kỹ thuật
U Quân sự
V Hàng hải
Z Thư mục. Thư viện học
Khung LCC sử dụng chữ cái La tinh cho các ký hiệu cơ bản ở bậc phân chia thứ nhất,
thứ hai và sử dụng chữ số Ả rập ở bậc thứ ba hoặc thứ tư trở ñi.

Ví dụ:

22
Q Khoa học
QA Toán học
QA101 Số học
QA152 ðại số
QA 445 Hình học

Khung phân loại hai chấm (Colon Classification – CC)
Năm 1933, nhà thư viện học người Ấn ñộ S.R. Ranganathan ñưa ra khung phân loại
hai chấm (CC) dựa trên nguyên tắc “kết hợp” và sử dụng từ diện (Facet) như một thuật
ngữ chỉ các thành phần khác nhau của một ký hiệu phân loại.
Raganathan ñưa ra 5 diện cơ bản có thể sử dụng ñể thể hiện các khía cạnh của một ñối
tượng: ñặc tính (Personality, nghĩa là vấn ñề trọng tâm hoặc ñặc trưng nhất); vật chất
(Matter); năng lượng (Energy, nghĩa là một hoạt ñộng, thao tác hoặc quá trình); không
gian (Space) và thời gian (Time). Bốn khái niệm cuối cùng là những khái niệm cơ bản
ñối với tất cả các ngành khoa học và lĩnh vực tri thức, còn khái niệm ñầu tiên - ñặc tính là
tính chất vốn có của từng ñối tượng và là tính chất tạo nên sự khác biệt giữa các hiện
tượng và sự vật.
Các lớp cơ bản của của khung phân loại hai chấm bao gồm:
A Khoa học (những vấn ñề chung)
B Toán học
C Vật lý
D Kỹ thuật
E Hóa học
F Công nghệ
G Khoa học tự nhiên (những vấn ñề chung) và sinh học
H ðịa chất
I Thực vật học

J Nông nghiệp
K ðộng vật học
L Y học
M Nghề thủ công
N Nghệ thuật
O Văn học
P Ngôn ngữ
Q Tôn giáo
R Triết học
S Tâm lý học
T Giáo dục
U ðịa lý
V Lịch sử
W Chính trị
X Kinh tế học
Y Xã hội học
Z Luật pháp

23
∆ Thuyết duy linh và khoa học thần bí
Trong khung phân loại hai chấm có chứa các bảng ñề mục chia theo diện và tiêu ñiểm.
Bảng ñề mục theo diện là tập hợp nhiều tiêu ñiểm. Các bảng ñề mục này ñược in cùng
với các lớp của bảng chính và ñược dùng ñể mở rộng hoặc chi tiết hóa các ñề mục trong
bảng chính. Các bảng ñề mục theo diện ñược chia theo năm diện cơ bản là ñặc tính, vật
chất, năng lượng, không gian, thời gian. Ranganathan ñưa ra công thức diện ñể xây dựng
ký hiệu phân loại PMETS – là 5 chữ cái ñầu tiên của các từ tiếng Anh chỉ 5 diện (P-
Personality, M- Matter, E- Energy, S- Space, T-Time). Các dấu qui ñịnh trong công thức
PMETS là dấu chấm phẩy (;) trước M, dấu hai chấm (:) trước E, dấu chấm (.) trước S,
dấu lược (‘) trước T.
Mặc dù không ñược áp dụng phổ biến nhưng khung phân loại hai chấm có ý nghĩa rất

lớn. Nguyên tắc phân loại theo diện mà khung phân loại hai chấm sử dụng ñược xem như
một bước tiến lớn trong lý thuyết phân loại và ñược áp dụng trong việc xây dựng các
ngôn ngữ tìm tin dạng từ khóa.
Tất cả các khung phân loại ñược ñề cập trên ñây có các nhược ñiểm chính như sau:
- Không có khả năng ñảm bảo ñánh chỉ số ña diện một cách tự do;
- Không có khả năng xây dựng các lớp khái niệm mới và hẹp một cách dễ dàng bằng
phương pháp kết hợp;
- Phân chia các lớp không ñủ sâu;
- Từ vựng thường lạc hậu so với thực tế.

2.2.4. Ngôn ngữ tìm tin từ khóa
2.2.4.1. Một số khái niệm

Từ khóa là từ hoặc cụm từ ổn ñịnh, ñơn nghĩa ñược sử dụng ñể mô tả nội dung chính
của tài liệu và ñể tìm tin.
Ngôn ngữ từ khóa là ngôn ngữ tìm tin hậu kết hợp có từ vựng ñược cấu thành từ các
ñơn vị từ vựng là từ khóa dựa trên ngôn ngữ tự nhiên, ñược sử dụng ñể xử lý tài liệu và
yêu cầu tin.
Ngôn ngữ từ khóa có các ưu ñiểm chính như sau:
- Cho phép kết hợp các ñơn vị từ vựng một cách linh hoạt
- Dễ sử dụng
- Cấu trúc từ vựng mềm dẻo, dễ cập nhật, bổ sung từ vựng ñể mô tả các khái niệm
mới hơn so với các khung phân loại
Các nhược ñiểm chính của ngôn ngữ từ khóa bao gồm:
- Phạm vi áp dụng hẹp: Có khả năng áp dụng chỉ trong các hệ thống tìm tin tự ñộng
hóa hoặc bán tự ñộng;
- Hiệu quả tìm tin có thể bị hạn chế do ñộ nhiễu tin hoặc mất tin nếu người sử dụng
không nắm vững cách kết hợp các ñơn vị từ vựng.
Có hai loại từ khóa là từ khóa tự do và từ khóa kiểm soát.
Từ khóa tự do là từ khóa ñược lựa chọn từ ngôn ngữ tự nhiên theo quan ñiểm của

người xử lý thông tin.
Từ khóa kiểm soát là từ khóa ñược kiểm tra bằng một phương tiện kiểm soát từ vựng,
ñược dùng ñể qui ước thống nhất cách dùng từ trong quá trình ñịnh từ khóa.

24
Từ chuẩn là các từ khóa qui ước ñược chọn lọc từ từ vựng của một ngôn ngữ tự nhiên
nào ñó theo những qui tắc nhất ñịnh, ñược sử dụng ñể xử lý nội dung tài liệu và yêu cầu
tin.
2.2.4.2. Các phương tiện kiểm soát từ khóa

Bộ từ khó
a

Bộ từ khóa là tập hợp các từ khóa ñược qui ước ñể mô tả nội dung tài liệu.
Dựa vào các lĩnh vực bao quát, có thể chia thành hai loại bộ từ khóa là ña ngành và
chuyên ngành.
Bộ từ khóa qui ước có các ưu ñiểm chính như sau:
- Có tính thống nhất cao trong cách dùng từ, tránh ñược hiện tượng ñồng
nghĩa, ña nghĩa.
- Dễ sử dụng
- Dễ xây dựng và bổ sung các từ khóa mới
Từ ñiển từ chuẩn (TðTC)
Từ ñiển từ chuẩn (thesaurus) là từ ñiển gồm các từ chuẩn, từ ñồng nghĩa và hệ thống
chỉ dẫn tham chiếu các quan hệ ngữ nghĩa quan trọng nhất giữa các từ chuẩn.
TðTC ñược bắt ñầu xây dựng trong các lĩnh vực khoa học và công nghệ vào những
năm 1960. Trong những năm 1960-1980, TðTC chủ yếu ñược áp dụng như một phương
tiện kiểm soát từ vựng trong việc ñánh chỉ số và tìm tin trong các CSDL trực tuyến. Từ
những năm 1980, TðTC bắt ñầu ñược áp dụng trong các lĩnh vực khác.
TðTC có các ñặc trưng cơ bản sau:
- TðTC ñược xây dựng theo nguyên tắc tổ hợp, trong ñó tập hợp tri thức

thuộc một lĩnh vực ñược phân tích thành các khái niệm. Mỗi khái niệm
ñược thể hiện bằng các thuật ngữ và việc kết hợp các thuật ngữ này theo
những cách khác nhau cho phép diễn tả các khía cạnh của nội dung tài
liệu.
- TðTC có tính chất chuyên ngành và thường ñược xây dựng cho một lĩnh
vực tri thức nhất ñịnh;
- TðTC có cấu trúc linh hoạt. TðTC liệt kê các từ chuẩn, các từ không
phải từ chuẩn và thể hiện rõ ràng các quan hệ ngữ nghĩa giữa các thuật
ngữ.

Các quan hệ ngữ nghĩa trong TðTC
Trong TðTC các khái niệm ñược thể hiện bằng các thuật ngữ ưu tiên hoặc không ưu tiên.
Các thuật ngữ ưu tiên ñược sử dụng ñể ñánh chỉ số và tìm tin, còn các thuật ngữ không
ưu tiên thực hiện chức năng như những dẫn nhập ñến các thuật ngữ ưu tiên.
Việc xác ñịnh và thể hiện các quan hệ ngữ nghĩa chính giữa các thuật ngữ có ý nghĩa ñặc
biệt quan trọng ñối với việc xây dựng TðTC. Các quan hệ ngữ nghĩa chính trong TðTC
là quan hệ tương ñương, phân cấp và liên ñới. Các quan hệ này ñược thể hiện bằng hệ
thống các chỉ dẫn như BT (Broader Term), NT (Narrower Term), RT (Related Term),
SN (Scope Note), UF (Use For), USE (Use).
Ví dụ:


25
MAINTENANCE
BT Maintainability (Engineering)
RT Repairing
NT Grounds maintenance

Quan hệ tương ñương
Quan hệ tương ñương là quan hệ giữa các thuật ngữ ưu tiên và không ưu tiên trong

TðTC. Quan hệ này ñược t
hể hiện bằng chỉ dẫn USE
(chỉ dẫn sử dụng cho các thuật ngữ
ưu tiên) và UF (Use For, chỉ dẫn sử dụng cho thuật ngữ không ưu tiên)
Ví dụ:

Preventive maintenance
USE MAINTENANCE
Upkeep
USE MAINTENANCE

MAINTENANCE
UF
Preventive maintenance

Upke
ep

Quan hệ phân cấp
Quan hệ phân cấp là quan hệ cơ bản trong TðTC. Chỉ dẫn BT ( Broader Term) chỉ
thuật ngữ rộng hơn và NT (Narrower Term) chỉ thuật ngữ hẹp hơn.
Ví dụ:

CAPITAL MARKETS
BT Financial markets

FINANCIAL MARKETS
NT Capital markets

Quan hệ liên ñới

Quan hệ liên ñới giữa các thuật ngữ là quan hệ tương hỗ và ñược thể hiện bằng chỉ dẫn
RT (Related Term)
Ví dụ:
MAINTENANCE
RT Repairing

Một chỉ dẫn hữu ích khác trong TðTC là chú giải - SN (Scope Note), ñược dùng ñể
xác ñịnh phạm vi sử dụng của một từ chuẩn hoặc ñể làm rõ một thuật ngữ mơ hồ. Các
chú giải không nhất thiết phải là các ñịnh nghĩa chính xác như trong từ ñiển mà có thể
tương tự như những mô tả ngắn gọn về ý nghĩa của các thuật ngữ hoặc phạm vi sử dụng
các thuật ngữ này.
Ví dụ:
CULTURAL BACKGROUND

×