Tải bản đầy đủ (.pdf) (41 trang)

HƯỚNG DẪN TÌM KIẾM & KHAI THÁC THÔNG TIN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.84 MB, 41 trang )

ĐẠI HỌC KINH TẾ QUỐC DÂN

TRUNG TÂM THÔNG TIN – THƯ VIỆN
*
*

*

TÀI LIỆU

HƯỚNG DẪN TÌM KIẾM &
KHAI THÁC THÔNG TIN

Hà nội 10-2014
1


Mục lục
Lời nói đầu
Phần I: Nguyên tắc tìm kiếm thông tin
Chương 1: Thông tin – Lưu trữ thông tin
I.
Khái niệm thông tin
II.
Xử lý thông tin
III. Lưu trữ Thông tin
3.1. Nguyên tắc lưu trữ thông tin
3.2. Lưu trữ thông tin truyền thống
3.3. Lưu trữ thông tin hiện đại
3.3.1. Lưu trữ thông tin trên máy tính điện tử
3.3.2. Tệp dữ liệu


3.3.3. Thiết bị ngoại vi lưu trữ thông tin
Bài tập Chương 1
Chương 2: Tìm kiếm thông tin
I.
Từ khóa
1. Khái niệm
2. Phân loại một số loại từ khóa
II.
Toán tử tìm kiếm thông tin
Toán tử Boolean
III. Tìm kiếm thông tin
1. Tìm kiếm cơ bản (Base search)
2. Tìm kiếm nâng cao (Advand search)
3. Một số toán tử mở rộng dùng riêng cho Google
4. Nguyên tắc tìm kiếm thông tin
IV. Máy tìm kiếm thông tin (Search engine)
1. Khái niệm Search Engine (SE)
2. Các thành phần của hệ thống máy tìm kiếm
3. Nguyên lý hoạt động của máy tìm kiếm (SE)
V.
Một số website hữu ích
Phần II: Khai thác thông tin thư viện
Chương III. Khai thác thông tin thư viện ĐH.KTQD
I.
Nguồn lực thông tin thư viện
II.
Tra cứu truyền thống
1. Tra cứu trên tủ phích
2. Tra cứu trên danh mục
III. Tra cứu hiện đại

1. Tra cứu trên phần mềm quản trị Thư viện (Libol 6.0)
2. Tra cứu trên cơ sở dữ liệu số online
Chương IV: Một số quy định đối với bạn đọc
I. Nội quy sử dụng thư viện
II. Chính sách lưu thông tài liệu
Tài liệu tham khảo

Trang
3

4
4
4
4
5
6
8
13
14
14
14
14
16
17
19
22
24
25
25
26


27
28
28
28
30
37
41
41
42

2


Lời nói đầu
Trong quá trình phát triển của mình,loài người đã tích lũy được một khối lượng kiến
thức khổng lồ. Những kiến thức đó được tích lũy, nhân rộng, phát triển và truyền đạt từ thế
hệ này sang thế hệ khác. Các thế hệ càng về sau càng được hưởng thụ nhiều kinh nghiệm và
kiến thức của thế hệ trước truyền đạt lại, làm cho cuộc sống trở nên càng ngày càng tốt đẹp
hơn.
Ngày nay chúng đang sống trong một giai đoạn xã hội hiện đại, có tốc độ phát triển
nhanh, còn được gọi là giai đoạn xã hội thông tin.Xã hội thông tin là xã hội mà bất kỳ ngành
nào đều không thể tách rời thông tin, thông tin đã trở thành một trong năm yếu tố kinh tế
(năm yếu tố: Nhân lực, Nguyên liệu, Kỹ thuật, Vốn, Thông tin). Số lượng thông tin và tốc độ
truyền tải thông tin đã biểu thị sức mạnh của một quốc gia.
Trong xã hội thông tin, hàng ngày con người phải thu nhận một lượng thông tin lớn.
Lượng thông tin tuy tăng lên rất nhiều, nhưng thời gian đủ để một người đọc sách, suy nghĩ
và nắm bắt được thông tin lại không tăng lên. Vì vậy, việc chọn lọc thông tin hữu ích, nhanh,
chínhxác cho một nhiệm vụ, một công việc cụ thể là vô cùng quan trọng.Sự phát triển của kỹ
thuật thông tin giúp người sử dụng dễ dàng tìm được thông tin mình muốn có.

Hiện nay các Thư viện của các trường Đại học có một khối lượng tài liệu lớn phục vụ
cho việc học tập, nghiên cứu của cán bộ, giáo viên và sinh viên của trường bao gồm các thể
loại từ sách, báo, tạp chí, luận án, luận văn, đề tài nghiên cứu khoa học… Các tài liệu này đã
được Thư viện xử lý kỹ thuật và sẵn sàng phục vụ bạn đọc, xong làm thế nào để có thể tìm
kiếm tài liệu nhanh, lấy được thông tin mình cần lại là ở sự thành thạo của bạn đọc khi sử
dụng công cụ Thư viện như thế nào.
Để giúp bạn đọc của Thư viện tiết kiệm thời gian, nhanh lấy được thông tin mình cần
từ Thư viện, Trung tâm Thông tin – Thư viện Đại học Kinh tế Quốc dân, xin trân trọng giới
thiệu với bạn đọc của Thư viện cuốn tài liệu “Hướng dẫn Tìm kiếm và khai thác thông tin”,
do tập thể cán bộ của Trung tâm biên soạn:
Ths. Đào Thiện Quốc - Chủ biên
Cùng tham gia biên soạn:
1. Đặng Hải Anh,
2. Ths. Bùi Thị Sen,
3. Ths. Phạm Thị Thanh Mai,
4. Ths. Hoàng Thúy Phương
5. Mai Thị Thu Hà,
6. Trần Khánh Ly,
7. Nông Mai Hoa
Trung tâm mong nhận được nhiều ý kiến đóng góp từ phía bạn đọc để Trung tâm tiếp
tục hoàn thiện tài liệu này, phục vụ tốt hơn nữa cho bạn đọc.
Chủ biên
Ths. Đào Thiện Quốc
3


PHẦN I

NGUYÊN TẮC TÌM KIẾM THÔNG TIN
Chương I:


THÔNG TIN – LƯU TRỮ THÔNG TIN
I. KHÁI NIỆM THÔNG TIN
Dữ liệu (data) là các sự kiện không có cấu trúc, không có ý nghĩa rõ ràng, cho đến khi
chúng được tổ chức theo một tiến trình tính toán nào đó.
Thông tin (Information) là một khái niệm trừu tượng được thể hiện qua các thông báo, các
biểu hiện ... đem lại một nhận thức chủ quan cho một đối tượng nhận tin. Thông tin là dữ liệu
đã được xử lý xong, mang ý nghĩa rõ ràng. Thông tin cũng có thể bị diễn đạt sai lệch, xuyên
tạc do tác động cố ý hay vô ý của con người hay sinh vật khác.
Một hệ thống thông tin (information system) là một tiến trình ghi nhận dữ liệu, xử lý nó và
cung cấp tạo nên dữ liệu mới có ý nghĩa thông tin, liên quan một phần đến một tổ chức, để
trợ giúp các hoạt động liên quan đến tổ chức.

Hình 1.1 Mô hình tổng quát hệ thống thông tin
II. XỬ LÝ THÔNG TIN
2.1. Sơ đồ tổng quát của một quá trình xử lý thông tin
Mọi quá trình xử lý thông tin bằng máy tính hay bằng con người đều được thực hiện theo
một qui trình sau :
Dữ liệu (data) được nhập ở đầu vào (input). Máy tính hay con người sẽ thực hiện quá trình
xử lý nào đó để nhận được thông tin ở đầu ra (output). Quá trình nhập dữ liệu, xử lý và xuất
thông tin đều có thể được lưu trữ (Hình 2.).

Hình 1.2 Mô hình tổng quát quá trình xử lý thông tin
2.2. Xử lý thông tin bằng máy tính điện tử
4


Thông tin là kết quả bao gồm nhiều quá trình xử lý các dữ liệu và thông tin có thể trở
thành dữ liệu mới để theo một quá trình xử lý khác tạo ra thông tin mới hơn theo ý đồ của
con người.

Con người có nhiều cách để có dữ liệu và thông tin. Người ta có thể lưu trữ thông tin
qua tranh vẽ, giấy, sách báo, hình ảnh trong phim, băng từ, ... Trong thời đại hiện nay, khi
lượng thông tin đến với chúng ta càng lúc càng nhiều thì con người có thể dùng một công cụ
hỗ trợ cho việc lưu trữ, chọn lọc và xử lý lại thông tin gọi là máy tính điện tử (computer).
Máy tính điện tử giúp con người tiết kiệm rất nhiều thời gian, công sức và tăng độ chính xác
cao trong việc tự động hoá một phần hay toàn phần của quá trình xử lý dữ liệu hay thông tin.
III. LƯU TRỮ THÔNG TIN
3.1. Nguyên tắc lưu trữ thông tin
Sau khi xử lý hình thức, nội dung tài liệu (mô tả thư mục, phân loại, đánh chỉ số, làm tóm
tắt…) phải lưu trữ các thông tin đã có.
Việc lưu trữ thông tin được thực hiện trên các vật mang tin khác nhau:
 Các bộ phiếu truyền thống (phương tiện thủ công)
 Các biểu ghi trong các tệp dữ liệu trên các đĩa từ, đĩa quang (phương tiện tự động hóa)
Mỗi tài liệu tựu trung đều có hai đặc trưng cơ bản:
 Đặc trưng hình thức, thể hiện bằng các dữ liệu thư mục như: tác giả, nhan đề, các yếu
tố xuất bản, dạng của tài liệu, v.v... Những dữ liệu này là những đặc điểm vốn có ở mỗi tài
liệu, nó cho phép mô tả tài liệu đó và nhận biết tài liệu này một cách chính xác. Và để
nhận biết được tài liệu tóm tắt chỉ cần dùng một mã số gán cho mỗi tài liệu, đó thường là
số ký hiệu nhập của tài liệu.
 Đặc trưng nội dung, được thể hiện bằng một chỉ số phân loại, một bản tóm tắt, hay tiện
lợi nhất là một bản chỉ mục, nó bao gồm các từ khóa hoặc từ chuẩn thể hiện nội dung chủ
đề của tài liệu đó. Những yếu tố dữ liệu này cho phép ta lưu trữ và tìm kiếm những thông
tin có trong tài liệu.
3.2. Lưu trữ thông tin truyền thống
Mọi hoạt động phục vụ người dùng tin, nhiều khâu trong quá trình xử lý thông tin đều
phải tiến hành trên cơ sở khai thác các bộ phiếu. Việc sử dụng các bộ phiếu có thể cho phép
ta:
 Xác định tài liệu gốc.
 Tìm tài liệu gốc theo tên tác giả, theo chủ đề hoặc theo địa danh.
 Quản lý vốn tài liệu, vì các bộ phiếu cho ta biết chi tiết vào bất cứ lúc nào cấu tạo và

thành phần của vốn tài liệu.
Các loại mục lục:
 Mục lục tác giả:
Trình bày theo thứ tự chữ cái các chỉ dẫn về tác giả hay tên tài liệu trong trường hợp tác
giả khuyết danh hay có từ 3 tác giả trở nên.
5


Mục lục tác giả cho phép trả lời câu hỏi:
 Đơn vị thông tin có tài liệu này của tác giả này hay không?
 Đơn vị thông tin có các tài liệu do tác giả này viết hay không?
 Mục lục chủ đề:
Trình bày theo thứ tự chữ cái các chỉ dẫn về các tiêu đề hay các từ chuẩn mô tả nội
dung tài liệu.
Có hai loại mục lục chủ đề:
 Mục lục chủ đề chữ cái, ở đó các điểm tiếp cận được sắp xếp theo thứ tự chữ cái như
trong từ điển.
 Mục lục chủ đề hệ thống, ở đó các chỉ dẫn được sắp xếp theo một khung phân loại có
trước hoặc theo tên, hoặc theo chỉ dẫn tương ứng với chủ đề.
 Mục lục địa lý:
Kê ra các chỉ dẫn liên quan đến tên của một đất nước, một khu vực hành chính hay
một vùng sinh thái tự nhiên mà tài liệu đề cập tới.
 Mục lục thời gian:
Trình bày các chỉ dẫn theo thời gian xuất bản của tài liệu, theo thời gian nhập của tài
liệu, hay theo số thứ tự nội dung của tài liệu.
 Mục lục xếp kho:
Sắp xếp các chỉ dẫn theo thứ tự sắp xếp các tài liệu trên giá.
 Mục lục theo loại hình tài liệu:
Cho phép tìm dễ dàng một tài liệu theo bản chất của nó, chẳng hạn như: tài liệu phát
minh sáng chế, ấn phẩm định kỳ, bản đồ, băng đĩa nhạc.

 Mục lục liên hợp:
Tập hợp theo loại hình tài liệu hay theo chủ đề các mục lục của nhiều đơn vị thông tin.
3.3. Lưu trữ thông tin hiện đại
3.3.1. Lưu trữ thông tin trên máy tính điện tử
Phương tiện lưu trữ thông tin chính là các thiết bị nhớ của máy tính điện tử là các băng từ,
đĩa từ hoặc đĩa quang. Đĩa từ lại có hai loại đĩa cứng và đĩa mềm.Ở đây thông tin được biểu
diễn dưới dạng các số nhị phân, tức là chỉ gồm hai chữ số 0 và 1. Một dãy 8 bit gọi là môt
byte biểu thị một ký tự. Bảng tương ứng giữa các ký tự với các dãy số nhị phân lập thành
một hệ thống mã. Với một hệ thống mã 8 bit, có thể biểu diễn được 256 ký tự khác nhau.
Các ký tự được mã hóa theo một hệ thống mã hóa nhất định (hệ thống mã hay dùng là mã:
ASCII - American Standard Code for Information Interchange).
Ví dụ trong hệ mã ASCII:
Số 1 có mã
00110001
Chữ A có mã
01000001
Chữ a có mã
01100001 …
3.3.2. Tệp dữ liệu
6


Máy tính điện tử lưu trữ thông tin được tổ chức và lưu trữ dưới dạng tệp dữ liệu. Các tệp
dữ liệu lại có thể cấu trúc thành các biểu ghi, mỗi biểu ghi lại gồm nhiều trường. Trường có
thể coi là đơn vị dữ liệu được lưu trữ, nó cung cấp thông tin liên quan tới một khía cạnh hay
thuộc tính của thực thể được mô tả bởi tệp dữ liệu, còn biểu ghi cho tóm tắt thông tin về một
đối tượng của thực thể.
Các tệp dữ liệu này bao gồm các biểu ghi thư mục. Biểu ghi thư mục là một dữ liệu có cấu
trúc, mà mỗi chỉ dẫn thư mục là một trường.
Ví dụ: biểu ghi tra cứu thư mục của CSDL sách bao gồm các trường sau:

 Tác giả
 Số trang
 Tên sách

 Ký hiệu phân loại

 Nơi xuất bản

 Ký hiệu kho

 Nhà xuất bản

 Tóm tắt

 Năm xuất bản

 Từ khóa

a, Tệp tuần tự
Tệp tuần tự (sequential file) là tệp được trình bày thành một dãy các biểu ghi liên tiếp. Để
đọc một biểu ghi, phải đọc lần lượt các biểu ghi trước nó.
b, Tệp truy nhập trực tiếp
Tệp truy nhập trực tiếp (direct access file) có thể coi là một bộ sưu tập các biểu ghi có
đánh số thứ tự. Nó có các tính chất sau:
 Việc tra cứu một biểu ghi được tiến hành bằng cách chỉ rõ số thứ tự của nó.
 Người nhập dữ liệu có thể thay thế, loại bỏ hoặc bổ sung dễ dàng một biểu ghi.
c, Tệp đảo
Cấu trúc tệp đảo bao gồm hai phần
 Phần thứ nhất là tệp chứa tất cả các biểu ghi thư mục của CSDL, gọi là tệp sơ cấp hay
còn gọi là tệp chủ.

 Phần thứ hai là tệp đảo kết hợp với tệp sơ cấp. Để tổ chức tệp đảo thì ở tệp sơ cấp mỗi
biểu ghi được định vị bằng một “địa chỉ”. Nhờ các “địa chỉ” này mà xuất phát từ một giá
trị của bảng đảo tóm tắt có thể xác định biểu ghi chứa các thông tin mà tóm tắt cần tìm.
“Địa chỉ” này cũng giống như số trang trong mục lục hay trong các bảng chỉ mục (index)
của một cuốn sách.
d, Từ quản lý tệp đến hệ thống quản trị dữ liệu
Khởi đầu công tác tự động hóa dữ liệu, người tóm tắt lưu trữ thông tin trên các tệp dữ liệu
và dùng các chương trình để tìm kiếm, thao tác trên các tệp dữ liệu đó. Đó là tiền thân của
các hệ thống cơ sở dữ liệu.Việc quản trị dữ liệu trên máy tính được thực hiện nhờ hai dạng
chương trình sau:
 Các hệ thống quản lý tệp
 Các hệ thống quản trị cơ sở dữ liệu.

7


Hệ thống quản trị tệp là chương trình lưu trữ, xử lý và in dữ liệu chứa trong các tệp tách
biệt. Hệ quản trị tệp lưu trữ dữ liệu trên bộ nhớ ngoài (băng từ, đĩa từ, đĩa quang) và khai
thác dữ liệu bằng các chương trình.
Chức năng cơ bản của hệ quản lý tệp và xử lý các tệp dữ liệu bao gồm:
 Tạo tệp mới
 Mở, đóng các tệp
 Xóa các tệp
Cơ sở dữ liệu là một hệ thống các thông tin có cấu trúc được lưu trữ trên các thiết bị lưu
trữ thông tin thứ cấp (như băng từ, đĩa từ ...) để có thể thỏa mãn yêu cầu khai thác thông tin
đồng thời của nhiều người sử dụng hay nhiều chương trình ứng dụng với nhiều mục đích
khác nhau.

Ưu điểm nổi bật của CSDL là:
 Giảm sự trùng lặp thông tin xuống mức thấp nhất và do đó bảo đảm được tính nhất quán

và toàn vẹn dữ liệu.
 Đảm bảo dữ liệu có thể được truy xuất theo nhiều cách khác nhau.
Khả năng chia sẻ thông tin cho nhiều người sử dụng và nhiều ứng dụng khác nhau.
3.3.3. Thiết bị ngoại vi lưu trữ thông tin
Việc sao lưu thông tin là việc làm quan trọng, cần thiết và phải tiến hành thường
xuyên, liên tục. Việc lưu trữ thông tin tốt nhất là dùng các thiết bị lưu trữ ngoại vi, như băng
từ, đĩa mèm, đĩa CD, DVD, USB, ổ cứng, thậm chí hiện nay để an toàn hơn, người ta còn
tính đến sử dụng công nghệ điện toán đám mây để lưu trữ thông tin.
a) Băng từ - Magnetic tape

8


Băng từ đặt dấu ấn trong lịch sử âm nhạc và hình ảnh.
Băng từ là một phương tiện ghi âm bằng từ tính được làm bằng một lớp phủ magnetizable
mỏng trải trên cuộn phim nhựa dài và mỏng.
Các thiết bị, định dạng đã phát triển từ những năm 1950 đáng chú ý nhất là hệ thông
Uniservo, định dạng reel-to-reel và băng cassette nhỏ gọn.
Đến nay, công nghệ này vẫn đang tiếp tục phát triển với loại băng từ có thể lưu trữ gần
200 TB dữ liệu của Sony. Băng từ đã được đưa vào phục vụ con người như một phương tiện
đáng tin cậy, giá thành hợp lí cho việc lưu trữ dữ liệu của phần lớn các máy tính trong lịch sử
trước đây.
b) Đĩa mềm 3,5 inch
Đĩa mềm 8 inch và 5,25 inch được phát triển vào thập niên 70 đã được ứng dụng vào
trong các ngành đặc thù. Nhưng đến đầu nhưng năm 1980, đĩa mềm 3,5 inch (dung lương
1,44 MB) ra đời đã đánh dấu một phương tiện lưu trữ bỏ túi hoàn hảo cho thị trường máy
tính cá nhân đang phát triển. Đĩa mềm 3,5 inch dễ dàng trong lưu trữ, cung cấp một lượng
không gian lưu trữ khá tốt. Thời điểm đó hầu hết mọi người chỉ lưu trữ tệp tin văn bản và các
chương trình ứng dụng nhỏ. Còn lưu trữ nhạc hay video trên máy tính vào thời điểm này thì
là một giấc mơi của người dùng.


Khi iMac đầu tiên được giới thiệu vào năm 1998 không được trang bị ổ đĩa mềm, Apple
đã bị chế giễu bởi nhiều chuyên gia công nghệ cao vào thời điểm đó bởi vì đĩa mềm 3,5 inch
đã rất phổ biến. Và nay lịch sử đã chứng minh Apple đã quyết định đúng khi từ bỏ đĩa mềm.
c) Đĩa compact
Những chiếc đĩa CD nhạc đầu tiên được giới thiệu vào đầu năm 1980 nhưng phải đến
những năm 1990 định dạng này mới bắt đầu thực sự cất cán. Hiện nay một số những người
đam mê âm nhạc vẫn đang còn sử dụng khá nhiều dòng sản phẩm này, những chiếc đĩa
quang này đã mang âm nhạc vào thời đại kĩ thuật số.
9


Ngoài thành công trong việc chuyển đối thế giới âm nhạc kĩ thuật số, đĩa CD cũng cho
phép người dùng dễ dàng lưu trữ và truy cập lượng dữ liệu lưu trữ khổng lồ với giá thành
thấp. Ổ ghi đĩa CD bắt đầu bùng nổ vào cuối những năm 1990 đã đẩy đĩa mềm và đĩa Zip trở
nên lỗi thời. Khả năng sao lưu với quy mô lớn đã trở nên thiết thực với người dùng bình dân.
Các phương tiện lưu trữ đĩa quang này cũng tồn tại được thời gian khá dài và dần bị đẩy lùi
bở các định dạng khá cao cấp hơn như thẻ nhớ flash giá rẻ. Mặc dù vậy đĩa quang là vẫn là
một điểm nhất quan trọng trong lịch sử các thiết bị lưu trữ.
d) Thiết bị lưu trữ lớn USB
USB (Univeral Serial Bus), là 1 chuẩn kết nối các thiết bị điện tử, chủ yếu là máy tính với
các thiết bị khác, như : chuột, bàn ... Hiện tại, các thiết bị lưu trữ lớn USB có sẵn với USB
1.1 trước đó nhưng đồng thời cũng có bus USB 2.0 nhanh hơn nhiều. USB 2.0 cho phép các
ổ đạt tốc độ truyền tải tối đa là 480 Mbit/giây (60 MB / giây). Bạn có thể cắm thiết bị USB
2.0 trên các khe USB 1.0 cũ hơn. Tuy nhiên tốc độ truyền tải dữ liệu tối đa sau đó bị giảm
xuống 12 Mbit/giây (1.5 MB / giây) hoặc thấp hơn.
Chú ý USB 3.0 tiểu chuẩn mới sẽ cho phép tốc độ truyền tải dữ liệu tối đa là 5 GB/giây (625
MB / giây). Hiện đã có một số thiết bị USB 3.0 Flash trên thị trường. Kiểu 16 GB có chi phí
khoảng 50 euro. Đối với kiểu USB 2.0 có cùng dung lượng lưu trữ, bạn chỉ phải trả một nửa
số tiền trên. Khi bạn thông thường chỉ truyền tải lượng nhỏ dữ liệu khoảng vài gigabyte, ổ

USB 2.0 Flash là thích hợp.
e) Thẻ SD- Secure Digital Card
Trong những năm 1990, một trong số những cạnh tranh về định dạng thẻ nhớ đươc đánh
dấu bằng việc ra đời của 2 sản phẩm là CompactFlash và Memory Stick. Nhưng tại thời điểm
này bởi giá thành khá cao nên cả 2 chuẩn thẻ nhớ này không được sử dụng rộng rãi.
Hiệp hội thẻ SD (SDA) được thành lập ngày 28/1/2000 bởi các tập đoàn Matsushita,
Panasonic, SanDisk, Nintendo, Toshiba…. Và đến thời điểm hiện tại sau hơn 14 năm hoạt
động thì thẻ SD đã trở thành một trong nhưng tiêu chuẩn lưu trữ.
10


Thẻ nhớ SD với thiết kế nhỏ gọn, dung lượng lớn và tốc độ cao đã trở thành phương tiện
lưu trữ cho rất nhiều sản phẩm công nghệ tại thời điểm hiện tại. Có 4 dòng sản phẩm SD bao
gồm : Hiệu suất tiêu chuẩn SDSC – Standard Capacity; Hiệu suất cao SDHC – High
Capacity; Hiệu suất mở rộng SDXC - eXtended Capacity (SDXC); và loại thẻ kết hợp đầu
vào/ ra dữ liệu SDIO.
Dòng sản phẩm SD còn được sử dụng rộng rãi trong điện tử tiêu dùng như điện thoại với
tiêu chuẩn nhỏ gọn micro SD và có khả năng lưu trữ video 4k…
f) Đĩa cứng (Hard Disk)
- HDD (Hard Disk Drive) là một trong những phương tiện lưu trữ chi phối các thiết
bị trong nhiều thập kỉ nay. Những chiếc đĩa cứng lưu trữ đầu tiên được ra vào
những năm thập niên 50 và phát triển mạnh mẽ cho đến hiện tại.
- SSD (Solid State Drive) bắt đầu được sử dụng trong laptop mặc dù cho đến năm
2009, chi phí trên đơn vị lưu trữ của SSD vẫn đắt hơn HDD nhiều lần.

- SSHD( Solid-State Hybrid Drives à một định dạng mới ra đời là ổ đĩa lai SSD hay
còn gọi là SSHD-. Bằng cách kết hợp giá thành thấp trên mỗi GB của HDD và tốc
độ ấn tượng của SSD, định dạng SSHD đã nhanh chóng trở thành thiết bị lưu trữ di
động cho người dùng tìm kiếm sự cân bằng hoàn hảo giữa chi phí và hiệu suất.
g) Lưu trữ đám mây (cloud storage)

Một phương tiện lưu trữ đáng giá khác là đám mây, sao lưu trên đám mây có lợi
thế về khoảng cách, bạn không phải lo lắng về hỏa hoạn, lũ lụt hay trộm cắp đối với
các thiết bị lưu trữ dữ liệu. Tuy nhiên, việc sao lưu trên đám mây có thể làm bạn mất
nhiều thời gian cho quá trình sao lưu cũng như phải trả chi phí lâu dài.
11


Trước sự đa dạng của các nhà cung cấp, câu hỏi đặt ra là làm thế nào để chọn
được một dịch vụ LTĐM phù hợp? Một số tiêu chí được gợi ý trong bảng so sánh sau
đây giúp người dùng dễ dàng hơn trong việc ra quyết định lựa chọn của mình: Dung
lượng cho phép lưu trữ miễn phí (FS – Free Space); Dung lượng tối đa cho phép đối
với mỗi tập tin được tải lên (MFS = Max file size); Băng thông giới hạn tải lên và tải
về trong mỗi tháng/ngày (BWL = Bandwidth limit; m = month; d = day) ; Cho phép
mã hóa dữ liệu để đảm bảo tính an toàn (Encrypt); Cho phép tạo thư mục ảo trên máy
tính để thực hiện các chức năng cơ bản như tải lên, tải về hay đồng bộ hóa (Folder =
Folder Upload/Sync); Hỗ trợcho các hệ điều hành máy tính hay thiết bị cầm tay;
Bảng : So sánh các dịch vụ lưu trữ đám mây dựa trên các tiêu chí khác nhau

Ghi chú : UnLtd = Unlimited; FS = Free Space; MFS = Max file size; BW =
Bandwidth; Folder = Folder Upload/Sync; NA = Not available; OK = Compatible; — =
Non-compatible; TBA = To be activated; iOS = iPhone, iPad, iPod; WM = Windows
Mobile; WP7 = Windows Phone 7;
Bài tập Chương 1
Câu 1: Khái niệm về thông tin, lưu trữ thông tin?
Câu 2: Khái niệm, đặc điểm, phân loại hệ thống lưu trữ thông tin?
Câu 3: Khái niệm bộ máy tra cứu? phân loại các bộ máy tra cứu ?
Câu 4: Các hình thức của mục lục phân loại truyền thồng? Ưu nhược điểm?
Câu 5: Có những phương tiện lưu trữ thông tin nào?
12



Câu 6: Hãy cho biết service FS của một số hãng: Google, Amazon, One Sky, Ubuntu,
Icloud.

13


Chương 2

TÌM KIẾM THÔNG TIN
I. TỪ KHÓA
1. Khái niệm:
Từ khoá là một từ hoặc cụm từ xác định một chủ đề, một đối tượng hoặc một khái
niệm. Khi mọi người tìm kiếm thông tin về một trang web trên công cụ tìm kiếm, họ cần
điền một số từ hoặc cụm từ trên công cụ tìm kiếm để được trả về danh sách các trang web
liên quan đến từ hoặc cụm từ họ đang tìm kiếm.
Công cụ tìm kiếm sẽ chú ý đến các từ khóa đã được đặt trong các văn bản của một
trang web.
Ví dụ:

Người tìm thông tin trên các công cụ tìm kiếm và người cung cấp thông tin ngày nay
đã trở nên quá dễ dàng thông qua các công cụ tìm kiếm, với những từ khóa liên quan tới lĩnh
vực thông tin họ cần. Mỗi bài viết, đều được xử lý với những từ khóa biểu thị cho chủ đề, nội
dung của bài.
Từ khóa tốt là từ khóa sát với bài viết của mình, có ngôn từ phổ thông và dễ hiểu.
Ngược lại Từ khóa chưa tốt là những từ khóa mà người tìm kiếm ít sử dụng khi tìm kiếm,hay
tỉ lệ tìm kiếm thông qua từ khóa đó chưa cao.
2. Phân loại một số loại từ khóa
a)
b)

c)

Từ khóa (ngôn ngữ lập trình) - trong các ngôn ngữ lập trình như Pascal, C, C++,
Basic,..., từ khóa là những từ quan trọng được dùng cho các mệnh lệnh.
Từ khóa (máy tìm kiếm) - trong các máy tìm kiếm như Google, Yahoo..., từ khóa là
những gì phải nhập vào để thực hiện công việc tìm kiếm.
Từ khóa (ngôn ngữ học) - trong ngôn ngữ học, từ khóa là một từ xuất hiện nhiều lần
trong một đoạn văn.

II. TOÁN TỬ TÌM KIẾM THÔNG TIN
Toán tử tìm kiếm giúp bạn tìm kiếm dễ dàng hơn Ngoài cách tìm kiếm thông thường, các
máy tìm kiếm chính còn cung cấp các toán tử nâng cao giúp bạn tìm ra đúng thứ mình muốn.
Toán tử Boolean
 Toán tử Boolean là gì?
- Là những từ nối đặc biệt nhằm kết hợp các từ, cụm từ tìm kiếm
- Các từ nối đặc biệt này bao gồm:
14


- AND/OR/NOT
o Ví dụ:Hạ long AND Đồ sơn
Chú ý: Toán tử được lựa chọn sẽ chi phối kết quả tìm kiếm
1, Toán tử AND:
 Toán tử AND dùng để kết hợp hai khái niệm ví dụ như:

- a AND b

hay
“Hạ long” AND “Đồ sơn“
 Toán tử AND cho phép tìm kiếm các tài liệu có chứa tất cả các từ tìm kiếm như a và

b hay “Hạ long” và “Đồ sơn”
 Toán tử AND thường được dùng để thu hẹp phạm vi tìm kiếm
2, Toán tử OR

Toán tử ORcho phép tìm kiếm tất cả các tài
liệu có chứa a hoặc b hoặc cả a và b
Ví dụ: apple OR lemon



Toán tử OR được dùng khi muốn tìm các từ
đồng nghĩa
Ví dụ: lemon OR citrus



Toán tử OR thường được dùng để mở rộng
phạm vi tìm kiếm

3, Toán tử NOT
 Toán tử NOTchỉ cho phép tìm kiếm
được các tài liệu có chứa a:
- a NOT b
“Táo Việt nam” NOT “Táo Trung quốc”
Hay: “Táo Việt nam”-“Táo Trung quốc”

15


III- TÌM KIẾM THÔNG TIN TRÊN CSDL

1. Tìm kiếm cơ bản (Base search)
Đây là phương pháp tìm kiếm tài liệu đơn giản không đòi hỏi người tìm phải có kiến thức
sâu. Người dùng chỉ cần gõ các yếu tố thông tin mình biết về tài liệu, tương ứng với các
trường trong form tìm kiếm.
Ví dụ1: Form tìm kiếm đơn giản của CSDL điện tử Emerald Insight:

Ví dụ2: Form tìm kiếm đơn giản của CSDL điện tử ScienceDirect:

- Người dùng có thể tìm kiếm thông tin tại các trường như:
 Ở tại tất cả các trường của bản ghi về tài liệu đó.
 Tại trưởng tên tác giả
 Tại trường tên nhan đề ấn phẩm …

16


2. Tìm kiếm nâng cao (Advand search)
Với phương pháp tra cứu này, người dùng cần có được kiến thức tra cứu thông tin cơ bản,
hiểu cơ bản về kiến thức toán tập hợp, từ đó để biết cách vận dụng các biểu thức toán tử
Boolean cơ bản AND, OR, NOT cho việc tìm kiếm chính xác thông tin cần .
a) Form tìm kiếm nâng cao của CSDL online Emerald Insight

b) Form tìm kiếm nâng cao của CSDL online ScienceDirect

17


Ví dụ: Tìm kiếm về lĩnh vực kinh tế Việt nam, ta kết hợp hai từ khóa “Economic” AND
“Việt nam” như sau:


Kết quả tìm như sau:

c) Form tìm kiếm nâng cao của Google: ( />Ở đây chúng ta thấy các toán tử AND, OR, NOT được ẩn dụ qua ngôn ngữ đời thường,
xong thực chất nội hàm của nó là sử dụng các toán tử Boolean AND, OR, NOT cho việc
tìm kiếm chính xác

18


Hay: ( />
3. Một số toán tử mở rộng dùng riêng cho Google:
Những toán tử dưới đây được dùng riêng cho Google vì dù sao đây cũng là cỗ máy tìm
kiếm phổ biến nhất. Bạn có thể tìm hiểu thêm về các toán tử nâng cao tại đây:
( />a. Tìm kiếm theo title Website
Với câu lệnh “site:vnexpress.net bóng đá”, kết quả nhận được sẽ là tất cả các trang web có
nội dung chứa từ “bóng đá” nằm trong website vnexpress.net
Với intitle:keyword, kết quả thu được sẽ là các trang web mà trong title của nó có chứa
từ keyword
19


b. Tìm kiếm trong địa chỉ web (URL)
Với inurl:keyword, bạn có thể thu gọn phạm vi tìm kiếm để kết quả trả về là những trang
web có chứa keyword trong địa chỉ URL.
c. Giới hạn tìm kiếm đến một domain cấp 1
Với toán tử site, Ngoài cấu trúc tìm kiếm site:domain.com.
Ta còn có site:sub-domains.com (Ví dụ : site www.vnexpress.net) và site:.net (Tìm kiếm với
tất cả các website có đuôi là .net).
d. Lấy cache gần nhất của một website
Toán tử cache sẽ trả về phiên bản gần nhất của trang web đang được lưu giữ trong cơ sở dữ

liệu của máy tìm kiếm.
ví dụ: cache:lic.neu.edu.vn
e. Tìm bài viết theo tên tác giả
Chúng tôi tin rằng bản quyền tác giả đóng vai trò ngày càng quan trọng trong thế giới
marketing hiện đại. (như Tom Anthony đã đề cập trong bài viết dưới
đây />Sử dụng toán tử inpostauthor, cho phép bạn tìm kiếm bài viết theo tên tác giả. Nếu có đầy đủ
họ tên, bạn phải để chúng trong dấu ngoặc kép.
f. Toán tử phủ định
Đặt dấu – (hay dấu âm) trước các toán tử đã học và chúng ta sẽ được toán tử nghịch đảo của
chúng. Toán tử nghịch đảo sẽ tìm ra những trang web không chứa từ hoặc cụm từ tìm kiếm.
Điều này cũng áp dụng với từ khóa. Ví dụ tìm kiếm với -“bóng đá” sẽ ra bảng kết quả chứa
tất cả những trang web không chứa từ “bóng đá”. Tương tự, -site:vietmoz.net, sẽ sinh ra
bảng kết quả chứa tất cả các trang web trên mạng ngoại trừ các trang web từ website
vietmoz.net
g. Tìm kiếm văn bản neo
Câu lệnh dưới đây dùng để lọc ra các trang web trên vietmoz.net không chứa từ “seo” trong
title:
site:vietmoz.net -intitle:seo
Toán tử inanchor sẽ trả về tất cả trang web có văn bản neo (văn bản đại diện cho link – là
dòng chữ xanh và thường được gạch chân) chứa từ khóa tìm kiếm.
20


Bảng các toán tử tìm kiếm trên Google
STT

Toán tử

1


filetype:

2

site:

3

inurl:

4

allinurl:

5

intext:

6

allintext:

7

intitle:

8

allintitle:


9

inanchor:

10 allinanchor:

Ví dụ

Giải thích
Giới hạn kết quả tìm kiếm theo
loại tập tin mở rộng (Restrict
search marketing filetype:doc search results by file type
extension)
.
Tìm kiếm trong một trang web
vietnamese site:sec.gov
hoặc tên miền
(Search within a site or domain)
Tìm kiếm từ hoặc cụm từ trong
URL
inurl:marketing
(Search for a word or phrase
within the URL)
Tìm kiếm nhiều từ trong URL
allinurl: vietnam marketing
(Search for multiple words
within the URL)
Tìm kiếm từ trong phần nội dung
intext:marketing du lịch việt thuộc trang chính của 6website.
nam

(Search for a word in the main
body text)
Tìm kiếm từ trong phần nội dung
của tất cả các trang liên quan đã
đánh chỉ mục.
allintext: văn hóa việt nam
(Search for multiple words
within the body text of indexed
pages)
Tìm kiếm từ hoặc cụm từ trong
tiêu đề trang
intitle:” văn hóa việt nam”
(Search for a word or phrase
within the page title)
Tìm kiếm tất cả các từ hoặc cụm
từ trong tiêu đề trang
allintitle: Vietnam marketing
(Search for multiple words
within the page title)
Tìm kiếm từ hoặc cụm từ trong
văn bản neo
inanchor:”Vietnam marketing”
(Search for a word or phrase
within anchor text)
Tìm kiếm tất cả các từ hoặc cụm
allinanchor: search marketing từ trong văn bản neo
(Search for multiple words
21



within anchor text)
Giới hạn kết quả tìm kiếm tại các
trang được xác lập trong phạm vi
ngày tháng đã định (ngày tháng
được xác định theo kiểu Julian.
search marketing
11 daterange:
Ví dụ: 2454833-2454863 ~
daterange:2454833-2454863
1/1/2009-1/31/2009)
Restrict search results to pages
indexed during the specified
range (requires Julian dates)
12 related:
related:www.abc.com/abc.html Display pages of similar content
13 info:
info:www.abc.com/abc.html Display info about a page
Display pages that link to the
14 link:
link:www.abc.com/abc.html
specified page
Display Google’s cached version
15 cache:
cache:www.abc.com/abc.html
of a page
16 define:
define:search marketing
Define a word or phrase
Display stock quote and
17 stocks:

stocks:goog
financial info for a specified
ticker symbol
phonebook: john smith,
madison, wi
Display a residential phone
18 phonebook:
bill withers
directory listing
608-555-1212
Display location and map of an
19 {area code}
212
area code
123 main, chicago, il
{street
Display a street map for a
20
chicago, il
address}
specified location
chicago
{mathematical 35 * 40 * 52
Do a calculation or measurement
21
expression}
520 miles in kilometers
conversion
Chuyển đổi ngày tháng kiểu Julian: />4. Nguyên tắc tìm kiếm thông tin
Việc tìm kiếm thông tin sẽ hiệu quả hơn, phục vụ tốt cho công việc của mình, khi ta nắm

được các nguyên tắc cơ bản cho việc tìm kiếm thông tin trên các SE, các CSDL online.
Các nguyên tắc cơ bản:
a, Lựa chọn từ khoá phù hợp
22


Lựa chọn đúng từ khoá là yếu tố quan trọng nhất trong việc tìm đúng thông tin cần
tìm. Hãy chọn từ khoá miêu tả chính xác nhất về thông tin bạn muốn tìm kiếm, thông tin của
từ khoá càng gần với thông tin thì kết quả càng chính xác hơn.
Lưu ý việc sử dụng các từ khóa chung chung sẽ khiến SE trả về rất nhiều kết quả
khiến bạn khó tìm được thông tin cần thiết.
Một điều cũng rất quan trọng đối với từ khoá tìm kiếm là phải gõ đúng chính tả và
chọn đúng font chữ. Bạn nên chọn font và bộ gõ Unicode vì hầu hết các tài liệu bằng tiếng
Việt trên Internet hiện nay đều dùng loại font này.
b, Gõ tiếng Việt
Với những từ khoá bằng tiếng Việt, bạn có thể sử dụng bộ gõ tiếng Việt (Vietkey,
Unikey, VietSpell…) hoặc sử dụng công cụ gõ tiếng Việt tích hợp có sẵn của SE trước ô tìm
kiếm.
Với một số công cụ, chức năng gõ tiếng Việt được tích hợp và ưu tiên bật lên. Nếu bạn
cần gõ từ khoá không dấu hoặc tiếng Anh, nhấn vào nút có chữ “V” để chuyển sang biểu
tượng “E”.
c, Chữ viết hoa
Thường thì các SE không phân biệt chữ hoa và chữ thường. Mọi ký tự đều được coi là
chữ thường. Ví dụ, "KINH TẾ", "Kinh tế" hay "kinh tế" đều cho kết quả tìm kiếm như nhau.
d, Thứ tự các từ tìm kiếm
Mặc định, SE sắp xếp kết quả theo thứ tự ưu tiên của các từ mà bạn nhập vào. Do vậy,
bạn nên đặt các từ quan trọng lên trước.
Ví dụ: Bạn cần tìm thông tin du lịch ở Hạ Long, hãy đặt “Du lịch” trước “Hạ Long”.
e, Tìm chính xác cụm từ
Trong trường hợp bạn muốn kết quả trả lại chứa chính xác cụm từ nào đó, bạn chỉ cần

cho cụm từ vào trong dấu ngoặc kép (“ ”). Phương pháp này rất hiệu quả khi bạn tìm tên
người hay địa danh “Hạ Long”, tìm tên tài liệu, tên một bài báo, những câu nói nổi tiếng…
Tuy nhiên, nếu bạn không nhớ chính xác cụm từ hay thứ tự đúng của cụm từ thì bạn
không nên dùng dấu ngoặc kép. Lúc này, bạn nên sử dụng các biện pháp tìm kiếm kết hợp.
SE cho phép sử dụng các phương pháp và các từ tìm kiếm kết hợp (gọi là toán tử) để
kết hợp các từ khóa lại với nhau.
f, Tìm kiếm nâng cao
Nếu bạn cần thông tin đòi hỏi phải thoả mãn nhiều điều kiện khác nhau, hãy sử dụng
chức năng tìm kiếm nâng cao. Tất cả các SE, CSDL online đều có chức năng tìm kiếm nâng
cao cho phép sử dựng kết hợp nhiều toán tử trong lệnh tìm kiếm để cho ra kết quả gần nhất.
23


g, Tận dụng chức năng đã lưu trong bộ nhớ cache
hiều trường hợp bạn tìm thấy kết quả cần tìm nhưng khi mở liên kết đến trang chứa
thông tin cần thiết thì không mở được hoặc mở rất chậm. Bạn hãy dùng chức năng xem bản
lưu của các SE.

SE sử dụng hệ thống máy chủ riêng lưu trữ dữ liệu đảm bảo thông tin vẫn có thể được truy
xuất ngay khi trang gốc chứa thông tin không còn tồn tại. Đặc biệt, tốc độ khi mở bằng chức
năng này nhanh hơn so với mở trang gốc và những từ khoá bạn gõ sẽ được đánh dấu, rất dễ
nhận ra.
Trên đây là những nguyên tắc cơ bản cho viêc tìm kiếm thông tin trên các CSDL hay
trên các SE. Nắm vững những nguyên tắc trên sẽ giúp bạn hiệu quả trong việc tìm kiếm
thông tin.
Bạn có thể tham khảo thêm về Google:
/>IV- MÁY TÌM KIẾM THÔNG TIN (Search engine)
1. Khái niệm Search Engine (SE)
Search Engine (SE) hay còn gọi là máy tìm kiếm là một trang Web cho phép người
dùng tìm kiếm nội dung số của các trang Web trên Internet.

Thường kỳ, máy tìm kiếm sẽ dò quét nội dung tất cả các trang Web trên Internet và cập
nhật nội dung văn bản text vào cơ sở dữ liệu khổng lồ của mình mà người dùng có thể khai
thác sau đó. Để làm việc này các máy tìm kiếm thường gửi các Web crawler, web spider
hay web robot (ví dụ googlebot của Google – Yahoo slurp của Yahoo) đến các trang cần
đánh chỉ số. Các bộ tìm kiếm này sẽ truy cập phân tích và gửi nội dung về các máy tìm kiếm.
Máy tìm kiếm sắp xếp các trang Web dựa vào nội dung HTML của trang. Việc này khác
với các thư mục Web truyền thống mà những người kiểm duyệt sắp đặt trong các mục riêng
biệt với tên site và miêu tả đi kèm.
Các công cụ tìm kiếm chính là giao diện Web tương tác với người dùng của các máy tìm
kiếm. Có thể kể đến một số công cụ tìm kiếm phổ biến sau:




Google Search
Yahoo Search
Live Search của Microsofts
24





Ask Search
Altavista

2. Các thành phần của hệ thống máy tìm kiếm
a) Bộ thu thập thông tin – Robot
Robot là một chương trình tự động duyệt qua các cấu trúc siêu liên kết để thu thập tài
liệu, đệ quy nó để nhận về tất cả tài liệu có liên kết với tài liệu này.

Về bản chất robot chỉ là một chương trình duyệt và thu thập thông tin từ các site theo
đúng giao thức web.
Những trình duyệt thông thường không được xem là robot do thiếu tính chủ động,
chúng chỉ duyệt web khi có sự tác động của con người.
b) Bộ lập chỉ mục – Index
Hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xử lý dữ liệu, thực hiện
việc phân tích, trích chọn những thông tin cần thiết
Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các từ khoá nào xuất hiện ở trang
nào, địa chỉ nào.
c) Bộ tìm kiếm thông tin – Search Engine
Search engine là cụm từ dùng chỉ toàn bộ hệ thống bao gồm bộ thu thập thông tin, bộ
lập chỉ mục & bộ tìm kiếm thông tin.
Các bộ này hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn nhau về
mặt dữ liệu nhưng độc lập với nhau về mặt hoạt động.
Search engine tương tác với user thông qua giao diện web, có nhiệm vụ tiếp nhận &
trả về những tài liệu thoả yêu cầu của user.
3. Nguyên lý hoạt động của máy tìm kiếm (SE)
Search engine điều khiển robots đi thu thập thông tin trên mạng thông qua các siêu
liên kết (hyperlink).
Khi robots phát hiện ra một website mới, nó gởi tài liệu (web page) về cho server
chính để tạo cơ sở dữ liệu chỉ mục phục vụ cho nhu cầu tìm kiếm thông tin.
Bởi thông tin trên mạng luôn thay đổi nên robots phải liên tục cập nhật các website cũ.
Mật độ cập nhật phụ thuộc vào từng hệ thống search engine.
Khi search engine nhận câu truy vấn từ user, nó sẽ tiến hành phân tích, tìm trong cơ sở
dữ liệu chỉ mục và trả về những tài liệu thoả yêu cầu

25



×