tìm kiếm văn bản theo nội dung và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (793.89 KB, 66 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀ THÔNG

HÀ THANH THỦY

TÌM KIẾM VĂN BẢN THEO NỘI DUNG VÀ ỨNG DỤNG

Luận văn thạc sĩ khoa học máy tính

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01

Thái nguyên – 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

i
LỜI CẢM ƠN
Để hoàn thành chương trình cao học, tôi đã nhận được sự hướng dẫn,
giúp đỡ và góp ý nhiệt tình của quý thầy cô trường Đại học Công nghệ thông
tin - Truyền thông, Đại học Thái Nguyên.
Trước hết, tôi xin chân thành cảm ơn quí thầy cô trường Đại học Công
nghệ thông tin - Truyền thông, đặc biệt là những thầy cô đã tận tình dạy bảo
cho tôi suốt thời gian học tập tại trường.
Tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Đặng Văn Đức người
thầy đã dành rất nhiều thời gian, tâm huyết và sự tận tình giúp đỡ, hướng dẫn
tôi trong suốt quá trình nghiên cứu để hoàn thành luận văn này.
Đồng thời, tôi xin chân thành cảm ơn Sở Giáo dục và đào tạo tỉnh Thái
Nguyên, Ban Giám hiệu trường THPT Lương Ngọc Quyến đã tạo điều kiện
giúp đỡ tôi về mọi mặt để tôi học tập và hoàn thành tốt khóa học.
Cuối cùng tôi xin chân thành cảm ơn gia đình và bạn bè, những người
đã động viên, khuyến khích tôi trong suốt quá trình học tập và nghiên cứu.
Mặc dù đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt
tình và năng lực của mình, tuy nhiên vẫn không thể tránh khỏi những thiếu
sót, tôi rất mong nhận được những đóng góp quí báu của quí thầy cô và các
bạn.
Thái Nguyên, ngày 20 tháng 6 năm 2012
Học viên

Hà Thanh Thủy

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ii
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu,
kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong
bất kỳ công trình nào khác.

Thái Nguyên, ngày 20 tháng 6 năm 2012
Học viên

Hà Thanh Thủy

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iii
DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT
Từ gốc
Giải nghĩa
CSDL
Cơ sở dữ liệu
DBMS (DataBase Management System)
Hệ quản trị Cơ sở dữ liệu
IR (Information Retrieval)
Truy tìm thông tin
IDF(Inverse Document Frequency)
Tần số xuất hiện tài liệu phù hợp
LSI(Latent Semantic Indexing)
Chỉ số hóa ngữ nghĩa ẩn
MMDBMS (Multimedia Database
Management System)
Hệ quản trị cơ sở dữ liệu đa
phương tiện
SVD(Singular Value Decomposition)
Kỹ thuật tách giá trị đơn
TF (Term Frequency)
Tần số xuất hiện thuật ngữ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iv
DANH MỤC HÌNH VẼ
Hình 1.1 Mô hình dữ liệu đa phương tiện
Hình 1.2 Hệ thống IR tiêu biểu
Hình 1.3 Tiến trình truy vấn tài liệu
Hình 1.4 Đồ thị so sánh hiệu năng
Hình 2.1 Mô tả các sự kết hợp của Boolean
Hình 2.2 Sử dụng các khái niệm cho truy vấn
Hình 2.3 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ-tài liệu
Hình 2.4 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu
Hình 2.5 Đồ thị Recall – Precision của thuật toán LSI
Hình 2.6 Mô hình khái niệm cơ bản
Hình 3.1 Sơ đồ các chức năng thành phần của dtSearch
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

v

MỤC LỤC

MỞ ĐẦU 1
CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM 4
THÔNG TIN THEO NỘI DUNG 4
1.1. Khái quát về cơ sở dữ liệu đa phương tiện 4
1.1.1 Giới thiệu 4
1.1.2 Mục tiêu chính 6
1.1.3 Mô hình dữ liệu đa phương tiện 6
1.2. Hệ thống truy tìm thông tin 8
1.2.1 Khái quát 8
1.2.2 Vấn đề truy tìm tài liệu văn bản 10
1.2.3 Phân biệt các hệ thống IR và DBMS 12
1.3. Trích chọn đặc trưng, chỉ mục và đo tính tương tự 14
1.3.1 Trích chọn đặc trưng 14
1.3.2 Chỉ số hoá cấu trúc 16
1.3.3 Đo tính tương tự 17
1.4. Xếp hạng tài liệu 17
CHƢƠNG II: MỘT SỐ KỸ THUẬT TÌM KIẾM THÔNG TIN VĂN 23
BẢN THEO NỘI DUNG 23
2.1. Mô hình tìm kiếm thông tin Bool 23
2.1.1 Truy vấn Boolean 23
2.1.2 Cấu trúc tệp chỉ mục 25
2.1.3 Chỉ mục tự động 28
2.1.4 Tổng kết về chỉ mục tự động tài liệu 31
2.2. Tìm kiếm văn bản trên cơ sở mô hình không gian vector 32
2.3. Tìm kiếm văn bản trên cơ sở kỹ thuật LSI 34
2.3.1 Ý tưởng cơ bản của LSI 34
2.3.2 Một số khái niệm cơ bản 36
2.3.3 Kỹ thuật SVD (singular value decomposition) 38

2.4. Mô hình tìm kiếm theo xác suất 41
2.4.1 Lịch sử của mô hình xác suất trong IR 41
2.4.2 Không gian biến cố 42
2.4.3 Một mô hình khái niệm 43
2.4.4 Về các khái niệm “liên quan” và “xác suất liên quan” 45
2.4.5 Nguyên tắc xếp hạng xác suất 45
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

vi
2.4.6 Mô hình nhị phân độc lập (BIM) 46
CHƢƠNG III: NGHIÊN CỨU THỬ NGHIỆM THƢ VIỆN TÌM 48
KIẾM VĂN BẢN DTSEARCH 48
3.1 Bài toán 48
3.2 Thư viện tìm kiếm văn bản DTSearch 49
3.2.1 Giới thiệu chung 49
3.2.2 Yêu cầu phần cứng 50
3.2.3 Cấu trúc các chức năng và thành phần của dtSearch 50
3.2.4 Sử dụng dtSearch trong môi trường lập trình Java 52
KẾT LUẬN 58
TÀI LIỆU THAM KHẢO 59
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

1
MỞ ĐẦU
Công nghệ thông tin trên thế giới đang phát triển rất nhanh trong giai
đoạn hiện nay. Những tiến bộ của khoa học công nghệ thông tin được áp dụng
phục vụ công tác nghiên cứu khoa học, công tác quản lý, sản xuất và phục vụ
đời sống con người hàng ngày. Càng ngày, người ta càng nhận thấy tính hiệu
quả, tiện ích của khoa học trí tuệ đã từng bước thay thế lao động thủ công,
giảm bớt thời gian lao động, tiết kiệm chi phí và tạo nên rất nhiều tiện ích

khác. Có thể khẳng định rằng: công nghệ thông tin đã mở ra một kỉ nguyên
mới, kỉ nguyên của tự động hoá và đã tạo ra một bước nhảy vọt của nền khoa
học thế giới cũng như nền văn minh nhân loại
Trong xu thế phát triển chung của xã hội cũng như định hướng của
Đảng và Nhà nước ta trong việc áp dụng công nghệ thông tin trong tất cả các
lĩnh vực đời sống, với sự phát triển mạnh mẽ của công nghệ thông tin, tất cả
các lĩnh vực đời sống trong xã hội đã tạo ra một khối lượng dữ liệu khổng lồ.
Trong rất nhiều tình huống, chúng ta phải tìm ra những thông tin cần thiết từ
kho dữ liệu khổng lồ đã có ấy. Tuy nhiên, vì khối lượng dữ liệu lớn, vì thời
gian hạn hẹp cho nên nhiều khi việc tìm kiếm dữ liệu gặp rất nhiều khó khăn.
Do đó, cần có các hệ thống tìm kiếm thông tin để hỗ trợ người dùng tìm
kiếm nhanh và hiệu quả những thông tin mà họ quan tâm. Việc tìm tòi nghiên
cứu ứng dụng những thuật toán giúp cho việc tìm kiếm dữ liệu được nhanh
chóng, tiết kiệm thời gian, có hệ thống và khoa học là một việc làm hết sức
cần thiết trong giai đoạn hiện nay.
Văn bản là một trong số các dạng của dữ liệu đa phương tiện, nó được
quan tâm từ hàng nghìn năm trước trong việc tổ chức sắp xếp và lưu trữ. Tài
liệu văn bản chiếm đa số trong mọi cơ quan tổ chức, đặc biệt là trong thư viện
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

2
và còn được sử dụng để mô tả các dạng khác của dữ liệu đa phương tiện như
video, audio, hình ảnh. Số lượng tài liệu văn bản ngày càng lớn và có vai trò
vô cùng quan trọng, vì thế việc lưu trữ, xử lý và truy tìm thủ công trước đây
không thể hoặc khó có thể thực hiện được.
Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ thuật tìm
kiếm văn bản theo nội dung trong cơ sở dữ liệu đa phương tiện nhằm đáp ứng
được những nhu cầu cấp thiết của thời đại bùng nổ thông tin điện tử.
Trên thực tế, đã có nhiều công trình nghiên cứu về vấn đề này được
công bố ở cả trong và ngoài nước. Mục tiêu luận văn với đề tài”Tìm kiếm văn

bản theo nội dung và ứng dụng” mà tôi hướng tới là nghiên cứu một số kỹ
thuật/phương pháp mới, thử đánh giá so sánh và ứng dụng vào môi trường cụ
thể.
Đối tƣợng và phạm vi nghiên cứu
Hệ thống đa phương tiện là một vấn đề phức tạp và rộng lớn, do vậy phạm vi
nghiên cứu của luận văn chỉ giới hạn trong việc sử dụng một số kỹ thuật tìm
kiếm văn bản theo nội dung, sau đó phát triển chương trình demo ứng dụng
tìm kiếm văn bản theo nội dung.
Hƣớng nghiên cứu của đề tài
- Nắm vững qui trình thiết kế CSDL đa phương tiện, trong đó CSDL văn
bản là thành phần quan trọng.
- Nghiên cứu một số kỹ thuật tìm kiếm văn bản theo nội dung như: mô hình
tìm kiếm Bool, mô hình tìm kiếm không gian vector, mô hình tìm kiếm
theo xác suất, kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn (Latent Sematic
Indexing-LSI).
- Nghiên cứu các độ đo phù hợp để đánh giá hiệu năng hệ thống
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

3
- Xây dựng thử nghiệm chương trình demo tìm kiếm văn bản theo nội dung
trên cơ sở bộ thư viện dtSearch.
Phƣơng pháp nghiên cứu
- Tổng hợp tài liệu từ nhiều nguồn khác nhau.
- Phân tích, liệt kê, so sánh, đối chiếu, trực quan, thực nghiệm,…
Cấu trúc luận văn
Ngoài phần mở đầu giới thiệu ý nghĩa của chủ đề nghiên cứu và phần
kết luận nêu lên các kết quả chính đã đạt được, luận văn gồm các chương sau
đây:
Chƣơng I: Giới thiệu tổng quan về hệ thống tìm kiếm thông tin theo nội
dung.

Chƣơng II: Một số kỹ thuật tìm kiếm thông tin văn bản theo nội dung.
Chƣơng III: Nghiên cứu thử nghiệm thư viện tìm kiếm văn bản dtSearch.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

4
CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM
THÔNG TIN THEO NỘI DUNG
1.1. Khái quát về cơ sở dữ liệu đa phƣơng tiện
1.1.1 Giới thiệu
Trên thế giới tồn tại một lượng rất lớn dữ liệu số, các dữ liệu từ tivi,
Internet, qua phương tiện truyền thông hay có được từ nhiều phương tiện khác
nhau như máy quay (video) kỹ thuật số Các dòng dữ liệu số càng ngày càng
tăng, gồm các loại dữ liệu đa phương tiện kết hợp với dữ liệu hình ảnh, âm
thanh và văn bản. Hiện nay, chúng ta đều biết Internet đang được phát triển
như thế nào. Trong quá trình trao đổi thông tin, người sử dụng có xu hướng
chủ yếu là xử lý trên kiểu dữ liệu đa phương tiện. Tầm quan trọng của việc
vận dụng thông tin sẽ dần dần thay đổi từ thông tin số tới thông tin ở dạng đa
phương tiện: dữ liệu hình ảnh, âm thanh và tài liệu văn bản. Vì thế, đa phương
tiện là thông điệp cho xã hội thông tin ngày nay.
Đa phương tiện có thể trở thành dạng giao tiếp tự nhiên, nhưng nó
không hoàn toàn tự do. Ngữ nghĩa của một thông điệp trong thông tin số và
xác thực hơn là dòng bit của hình ảnh và âm thanh. Tín hiệu hình ảnh biểu thị

cái gì, ý nghĩa của văn bản và nói gì về âm thanh là không dễ dàng lập luận
với một máy tính. Những điều thuộc về ngữ nghĩa đó cần được xử lý từ dữ
liệu thô bằng việc tổ chức, chuyển đổi, phân tích và phân lớp.
Có rất nhiều định nghĩa khác nhau về CSDL đa phương tiện: Theo
nghiên cứu EURESCOM thì CSDL đa phương tiện là một CSDL có hiệu năng
cao, sức chứa lớn với khả năng hỗ trợ các kiểu dữ liệu đa phương tiện cũng
như các kiểu dữ liệu chữ số cơ bản khác và nó có thể quản lý một khối lượng
rất lớn thông tin đa phương tiện.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

5
Dữ liệu âm thanh (audio data): Tín hiệu âm thanh bao gồm tiếng nói,
âm nhạc, tiếng động và mọi sự kết hợp các âm thanh khác nhau. Việc lưu lại
một bài diễn thuyết, một cuộc đàm thoại, các đoạn audio theo một chủ đề nào
đó có ý nghĩa rất lớn trong thực tế. Ví dụ, qua đài phát thanh chúng ta có thể
thu thập được nhiều thông tin với các chủ đề khác nhau, có thể tìm kiếm các
bài hát trên internet, thu thập các đoạn audio bài giảng trong đào tạo từ xa, học
ngoại ngữ qua các đoạn audio
Dữ liệu hình ảnh (image data): Dữ liệu ảnh có thể được dùng để lưu trữ
dấu vân tay, nhận dạng khuôn mặt trong điều tra tội phạm; ảnh thẻ trong quản
lý nhân sự; trong những yêu cầu lưu lại hình ảnh như dữ liệu ảnh cổ vật, hiện
tượng thiên nhiên, trái đất… Hơn nữa, trong y học cần có một cơ sở dữ liệu
ảnh để có thể truy vấn các triệu trứng để tìm ra những căn bệnh tương tự
không chỉ bằng văn bản mà bằng cả hình ảnh, ảnh chụp X quang, ảnh chụp cắt
lớp Trong thời gian gần đây, việc sử dụng CSDL ảnh đã mang lại hiệu quả
to lớn trong nhiều lĩnh vực khác nhau của đời sống, kinh tế và xã hội.
Dữ liệu video (video data): Video giống như một tập các hình ảnh ở các
thời điểm được sắp xếp, biểu diễn theo một chuỗi thời gian nhất định. Trên
thực tế chính là chuyển động của các điểm ảnh từ trạng thái này sang trạng
thái khác, hay là sự chuyển động của mỗi đối tượng riêng lẻ được phân tách từ

dữ liệu video. Dữ liệu video được ứng dụng nhiều trong công nghệ giải trí
(phim ảnh, clip âm nhạc ), trong đào tạo từ xa (qua những video bài giảng)
Dữ liệu văn bản (text data): Sự biểu diễn cơ bản của văn bản là cách
tiếp cận với “túi các từ” (bag – of – words). Các dữ liệu văn bản tiêu biểu như:
Các trang web, tiêu đề bài viết, các bản báo cáo, bài báo được công bố, các
ứng dụng hỗ trợ nghiên cứu, các trang tài liệu, bách khoa toàn thư, thư mục,
chép sử, thư điện tử, các bản sao xét xử của toà án, kho thư viện Điều quan
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

6
trọng là khối lượng dữ liệu văn bản ngày càng lớn và được sử dụng lưu trữ tài
liệu trong mọi cơ quan tổ chức. Vì thế, quan tâm đến xử lý văn bản là rất cần
thiết.
1.1.2 Mục tiêu chính
Theo cách nhìn trên đây ta nhận thấy cơ sở dữ liệu đa phương tiện bao
gồm năm mục tiêu chính như sau:
- Hỗ trợ các kiểu dữ liệu (Type=Structure+Operations) đa phương tiện.
- Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện.
- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả.
- Có các khả năng của hệ CSDL truyền thống.
- Có khả năng truy tìm thông tin đa phương tiện.
1.1.3 Mô hình dữ liệu đa phƣơng tiện
Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình thành
trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng.
Tầng đối tượng
Đối tượng bao gồm một hay nhiều mục media với các quan hệ không
gian và thời gian xác định, như với một đối tượng đa phương tiện là một trang
bao gồm một vài hình ảnh và âm thanh kèm theo. Nhiệm vụ mấu chốt là làm
thế nào để chỉ ra các quan hệ không gian và thời gian. Quan hệ không gian
được đặc tả bởi kích thước và vị trí cửa sổ hiển thị của mỗi mục. Phương pháp

chung đặc tả thời gian là đặc tả trên cơ sở trục thời gian, trong đó thời gian bắt
đầu và độ dài mỗi mục được xác định trên cơ sở đồng hồ chung. Phương pháp
khác là mô hình điều khiển theo sự kiện.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

7

Hình 1.1 Mô hình dữ liệu đa phương tiện
Tầng loại media
Tầng này bao gồm các loại media như văn bản, hình ảnh, audio và
video. Các loại này được suy diễn từ lớp media trừu tượng chung.
Tại mức này, các đặc trưng và thuộc tính được đặc tả. Ví dụ loại media ảnh:
kích thước, biểu đồ màu, các đối tượng chính chứa trong nó được đặc tả. Các
đặc trưng này được sử dụng trực tiếp vào tìm kiếm và tính toán khoảng cách.
Tầng khuôn mẫu media
Tầng này đặc tả khuôn mẫu, trong đó dữ liệu được lưu trữ. Thông
thường, media có nhiều khuôn mẫu, ví dụ ảnh có thể là nén hay ảnh thô. Hơn
nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau. Thông tin chứa trong tầng
này được sử dụng để giải mã, phân tích và trình diễn.
Các nhiệm vụ khác
Hình ảnh
Không gian
Thời gian
Tổng hợp
Văn bản
Âm thanh
Thô
Nén
Đa mức
xám

Màu
JPEG
JPIG
DPCM
Video
Tầng đối
tƣợng
Tầng kiểu
media
Tầng khuôn
mẫu media

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

8
Chú ý rằng, các ứng dụng khác nhau có thể cần các mô hình dữ liệu
khác nhau. Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu
được thiết kế tốt thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng
yêu cầu ứng dụng cụ thể.
Đến nay, chưa có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên.
Bởi các ứng dụng MIRS hiện nay chủ yếu là đặc thù, chỉ tập trung vào giới
hạn số đặc trưng và loại media. Rất nhiều công việc phải làm khi mô hình hóa
dữ liệu đa phương tiện để phát triển MIRS và MMDBMS (MultiMedia
DataBase Manager System).
1.2. Hệ thống truy tìm thông tin
Sự phát triển của CSDL đa phương tiện cùng với sự phát triển mạnh mẽ
của mạng máy tính làm cho hệ thống IR (Information retrieval) ngày càng
được quan tâm nhiều hơn.
1.2.1 Khái quát
Từ những năm 1940, vấn đề lưu trữ và truy tìm thông tin đã thu hút sự

chú ý của các nhà nghiên cứu. Vấn đề truy tìm đó là: chúng ta có lượng thông
tin rất lớn, yêu cầu truy tìm chính xác và nhanh chóng đang trở nên cần thiết.
Yếu tố được quan tâm là thông tin liên quan có thể bị bỏ qua khi nó chưa
được tìm đến, dần dần lặp lại nhiều lần quá trình và kết quả đó. Với sự xuất
hiện của máy tính điện tử, rất nhiều ý tưởng về việc sử dụng chúng để cung
cấp những hệ thống truy tìm thông tin nhanh chóng và thông minh. Ví dụ:
trong thư viện luôn có bài toán về truy tìm và lưu trữ thông tin, hay một số
nhiệm vụ thông thường như việc lập danh mục, việc quản lý chung và đã có
cách thực hiện đem lại kết quả tốt bằng những chiếc máy tính. Tuy nhiên, vấn
đề của hiệu quả truy tìm phần lớn vẫn chưa được giải quyết.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

9
Khi những chiếc máy tính tốc độ cao sẵn sàng cho công việc không
thuộc số hóa (non-numerical), nhiều người cho rằng một máy tính có thể đọc
toàn bộ tập hợp tài liệu để trích những tài liệu có liên quan. Nó nhanh chóng
trở nên hiển nhiên rằng, việc sử dụng ngôn ngữ tự nhiên của một tài liệu vấn
đề không chỉ là đầu vào (input) và kho lưu trữ mà còn vấn đề tri thức thuộc
đặc trưng nội dung tài liệu chưa được giải quyết. Có thể hy vọng sự phát triển
trong tương lai có thể tạo đầu vào (input) và kho ngôn ngữ tự nhiên khả thi
hơn. Nhưng việc mô tả tự động mà những phần mềm cố gắng “sao” lại quá
trình “đọc” của con người quả thực là một vấn đề hết sức khó khăn. Khó khăn
hơn, “việc đọc” bao gồm việc rút trích thông tin, cú pháp và ngữ nghĩa, từ văn
bản và sử dụng nó để quyết định xem là mỗi tài liệu có liên quan hay không
đến một yêu cầu cụ thể. Khó khăn không chỉ làm thế nào để trích thông tin mà
còn làm sao để sử dụng nó quyết định sự phù hợp.
“Sự phù hợp”, đó là khái niệm trung tâm của truy tìm thông tin. Mục
đích của một chiến lược truy tìm tự động là truy tìm tất cả các tài liệu phù hợp
ở cùng thời điểm truy tìm, có thể bao gồm một vài tài liệu không thỏa mãn.
Tìm ra các đặc trưng của tài liệu để khi tài liệu phù hợp với truy vấn, nó cho

phép tài liệu được truy tìm để trả lời truy vấn. Khi chỉ mục được làm tự động,
nó được giả thiết bằng việc đẩy văn bản của một tài liệu hoặc truy vấn vào
cùng bộ phân tích tự động, output sẽ là một biểu diễn của nội dung và nếu tài
liệu là phù hợp với truy vấn thì một thủ tục tính toán sẽ cho thấy điều này.
Truy tìm dựa trên cơ sở nội dung (Content- based retrieval): Người sử
dụng có thể chỉ rõ các điều kiện lựa chọn dựa trên những nội dung của các đối
tượng đa phương tiện. Ví dụ, người sử dụng tìm kiếm ảnh, sử dụng truy vấn
như: “Tìm tất cả các ảnh giống với ảnh này” và “Tìm tất cả các ảnh chứa ít
nhất 3 máy bay”. Các hình ảnh được thêm vào cơ sở dữ liệu, DBMS
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

10
(DataBase Manager System) phải phân tích chúng và tự động trích chọn các
đặc điểm (extract features) để đưa ra câu trả lời giống với các truy vấn. Thông
tin này có thể được sử dụng để tìm kiếm các hình ảnh thoả mãn với một truy
vấn đưa ra. Một cách tiếp cận khác, người sử dụng muốn tìm các tài liệu mà
mình quan tâm có thể sử dụng các kỹ thuật truy tìm thông tin và tìm kiếm từ
khoá. Nó vẫn không thực sự rõ ràng là làm thế nào để truy tìm các miền cụ thể
đó và các kỹ thuật tìm kiếm có thể được kết hợp hiệu quả với các truy vấn
DBMS truyền thống.
1.2.2 Vấn đề truy tìm tài liệu văn bản
Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật truy tìm
thông tin (IR). Các hệ thống IR cổ điển chủ yếu là làm việc trên văn bản (text)
và kỹ thuật IR trong hệ thống đa phương tiện rất quan trọng vì hai lý do chính
sau đây:
- Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện. Văn bản là tài
nguyên rất quan trọng đối với các cơ quan tổ chức. Cần có IR đủ tốt để sử
dụng có hiệu quả các thông tin lưu trữ trong các tài liệu.
- Văn bản được sử dụng để mô tả các phương tiện khác như video, audio, ảnh
để có thể sử dụng các kỹ thuật IR qui ước vào việc truy vấn các thông tin đa

phương tiện.
Mục đích của người sử dụng hệ truy tìm:
- Độ chính xác: Truy tìm đúng thông tin mà người sử dụng mong muốn, đúng
với truy vấn. Có thể có một vài tài liệu trong câu trả lời là không chính xác
song tất cả các câu trả lời phù hợp đều được truy vấn.
- Tốc độ truy tìm: Việc truy tìm phải được thực hiện nhanh chóng.
Nhiệm vụ chính của thiết kế hệ thống IR là để nhằm giải quyết hai vấn đề:
- Trình diễn và truy vấn tài liệu như thế nào.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

11
- So sánh tính tương đồng giữa các tài liệu và biểu diễn truy vấn ra sao.
Các mô hình truy vấn sẽ xác định hai khía cạnh này. Để nâng cao hiệu năng
truy vấn, việc xử lý ngôn ngữ tự nhiên và các kỹ thuật trí tuệ nhân tạo được áp
dụng. Vì tính nhập nhằng và tồn tại nhiều biến thể của ngôn ngữ tự nhiên, hầu
như không thể truy vấn mọi tài liệu liên quan hay loại đi mọi tài liệu không
liên quan. Do vậy, thước đo hiệu năng IR là rất quan trọng.
Một hệ thống truy tìm thông tin tiêu biểu
Một hệ thống IR tiêu biểu được minh hoạ bằng phương pháp hộp đen. Gồm ba
thành phần: input, bộ xử lý và output.
Bắt đầu với đầu vào (input), vấn đề chính ở đây là có được biểu diễn
của tài liệu và truy vấn thích hợp bằng máy tính. Có thể nói các hệ thống truy
tìm hầu hết dựa trên máy tính chỉ lưu trữ biểu diễn của tài liệu (hoặc truy vấn),
có nghĩa là một tài liệu văn bản không sử dụng nữa khi nó đã được xử lý để
đưa ra các đặc trưng. Ví dụ, một biểu diễn tài liệu có thể là một danh sách các
từ được xem là quan trọng được trích ra.

Hình 1.2 Hệ thống IR tiêu biểu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

12
Khi một hệ thống truy tìm trực tuyến (on-line), người sử dụng có khả
năng thay đổi yêu cầu trong một phiên tìm kiếm ở trạng thái truy tìm mẫu, do
đó hy vọng cải thiện được quá trình truy tìm xảy ra sau. Một thủ tục như vậy
thông thường cho phép phản hồi (Feedback).
Hơn nữa, bộ xử lý, một phần của hệ thống truy tìm có liên quan tới quá trình
truy tìm. Bộ xử lý có thể bao gồm cấu trúc thông tin theo cách thích hợp nào
đó, giống như phân loại. Trên thực tế, nó cũng bao gồm cả việc biểu diễn chức
năng truy tìm, đó là thực hiện chiến lược tìm kiếm câu trả lời cho một truy
vấn. Trong biểu đồ, các tài liệu được đặt vào một ô riêng biệt để nhấn mạnh
thực tế là không có đầu vào (input) rõ ràng nhưng có thể sử dụng trong suốt
quá trình truy tìm.
Cuối cùng, chúng ta xét đến đầu ra (output) thường là một tập trích
dẫn hoặc các tài liệu. Trong một hệ thống hoạt động đây là phần còn lại. Tuy
nhiên, một hệ thống thực nghiệm có thể cho phép thực hiện việc đánh giá.
1.2.3 Phân biệt các hệ thống IR và DBMS
Phân biệt được sự khác nhau giữa hai hệ thống truy tìm văn bản (IR) và
DBMS giúp ta hiểu rõ các kỹ thuật truy tìm văn bản.
- DBMS: Chứa các bản ghi có cấu trúc đồng nhất. Mỗi bản ghi được đặc
trưng bởi tập các thuộc tính. Các giá trị thuộc tính được gán cho bản ghi để
mô tả bản ghi này một cách rõ ràng và đầy đủ.
Truy vấn ở đây dựa trên cơ sở đối sánh chính xác giữa câu truy vấn và
các giá trị thuộc tính trong bản ghi. Mỗi bản ghi truy vấn chứa các giá trị
thuộc tính chính xác được đặc tả trong câu truy vấn (có thể cả giá trị thuộc
tính không được đề cập đến trong câu truy vấn).
- Hệ thống IR: Các bản ghi không có cấu trúc. Chúng không chứa các
thuộc tính cố định, chỉ đơn thuần là tài liệu văn bản. Các tài liệu này có thể chỉ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

13
mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) chỉ mục.
Mỗi thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ theo một
khía cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội dung văn
bản. Nhiều thuật ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ thể. Bởi
vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại diện, sử
dụng để mô tả các bản ghi lưu trữ, do vậy cần phải có nhiều cố gắng để tập
trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ khóa,
chỉ mục.
Tóm lại, các tài liệu kết quả truy vấn trong DBMS là hoàn toàn liên
quan đến câu truy vấn và có ích với người sử dụng. Nhưng trong hệ thống IR,
các tài liệu được xem là liên quan đến câu truy vấn nhưng có thể không liên
quan và không có ích với người sử dụng

Hình 1.3 Tiến trình truy vấn tài liệu
Bên phải hình 1.3 chỉ ra các tài liệu được xử lý off-line để có đại diện
(mô tả). Các đại diện này được lưu trữ cùng với các tài liệu.
Câu truy vấn
Tài liệu văn bản
Đại diện câu
truy vấn
Đại diện tài
liệu
Xử lý
Xử lý
Đối sánh
(tính toán độ
tương đồng)
Kết quả truy vấn
Đánh giá mức

độ thích hợp
phản hồi
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

14
Bên trái hình 1.3 chỉ ra quá trình truy vấn. Người sử dụng đưa ra câu
truy vấn và được xử lý on-line để có đại diện của câu truy vấn. Sau đó đối
sánh đại diện truy vấn với đại diện tài liệu. Các tài liệu được xem như tương
đồng sẽ được trình diễn cho người sử dụng. Họ đánh giá tài liệu cho lại và
quyết định tài liệu nào thực sự tương đồng với thông tin họ cần. Một hệ thống
IR tốt cần phải cho phép người sử dụng cung cấp phản hồi thích hợp cho hệ
thống. Hệ thống sử dụng thông tin này để điều chỉnh truy vấn, đại diện truy
vấn và đại diện tài liệu. Truy tìm khác tiếp theo được thực hiện trên cơ sở câu
truy vấn đại diện tài liệu đã hiệu chỉnh. Nếu cần, tiến trình phản hồi truy tìm
được thực hiện lặp vài lần. Chú ý rằng, không phải tất cả các hệ thống IR đều
có tiến trình phản hồi thích hợp.
1.3. Trích chọn đặc trƣng, chỉ mục và đo tính tƣơng tự
Các đặc trưng và thuộc tính của dữ liệu (items) trong MIRS được trích
chọn, tham số hóa và lưu trữ chung với chính các dữ liệu. Các đặc trưng và
thuộc tính của truy vấn cũng được trích chọn theo cùng cách thức nếu nó
không được xác định rõ ràng trước. Hệ thống tìm kiếm các items trong CSDL
với các thuộc tính và đặc trưng tương tự trên cơ sở thước đo tính tương tự
nhất định. Để tìm kiếm hiệu quả, các đặc trưng và thuộc tính phải được tổ
chức thành các cấu trúc có chỉ mục.
1.3.1 Trích chọn đặc trƣng
Các mục thông tin đa phương tiện trong CSDL được tiền xử lý để trích
chọn đặc trưng và thuộc tính.Trong tiến trình tìm kiếm, các đặc trưng và thuộc
tính này được tìm kiếm và so sánh thay cho chính các mục thông tin. Do vậy,
chất lượng của trích chọn đặc trưng xác định hiệu quả tìm kiếm. Nếu đặc
trưng không được tách ra từ item nào thì không thể tìm thấy chúng từ CSDL

theo đặc trưng đó. Đó là một trong sự khác biệt lớn nhất giữa MIRS và
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

15
DBMS. Trong DBMS thì mọi thuộc tính là có sẵn và đầy đủ, trong khi đó các
đặc trưng và thuộc tính phải được trích chọn theo loại truy vấn và thường là
không đầy đủ trong MIRS.Trích chọn đặc trưng phải thỏa mãn các yêu cầu
sau: Đặc trưng và thuộc tính trích chọn phải đầy đủ nhất có thể để biểu diễn
nội dung của các mục thông tin. Các đặc trưng phải được trình diễn và lưu trữ
một cách chặt chẽ, mạch lạc. Các đặc trưng phức tạp và đặc trưng lớn không
phải là mục đích của trích chọn, nó phải có khả năng tìm kiếm và so sánh
nhanh các mục thông tin với nhau. Tính toán khoảng cách giữa các đặc trưng
phải hiệu quả, nếu không thời gian đáp ứng của hệ thống rất lớn.
Tổng thể có 4 mức đặc trưng và thuộc tính như sau:
Metadata: bao gồm các thuộc tính của các đối tượng đa phương tiện như tên
tác giả, ngày tạo lập, tiêu đề đối tượng. Không mô tả hay diễn giải nội dung
của đối tượng. Các thuộc tính này được quản lý bằng kỹ thuật DBMS.
Mô tả bằng văn bản: Mô tả nội dung đối tượng bằng văn bản. Mô tả dưới hình
thức nhiều từ khóa hay văn bản thông thường. Chỉ mục và tìm kiếm trên cơ sở
mô tả bằng văn bản được quản lý bằng kỹ thuật IR. Mặc dù mô tả bằng văn
bản có hạn chế là còn tính chủ quan và chưa đầy đủ, nhưng đây vẫn là phương
pháp hay được sử dụng và hiệu quả. Nên sử dụng mô tả bằng văn bản kết hợp
với các đặc trưng khác trong ứng dụng đa phương tiện. Hiện tại, mô tả văn
bản là tiến trình bằng tay, khá vất vả. Cần phát triển các công cụ bán tự động
để hỗ trợ tiến trình này. Tri thức lĩnh vực và từ điển liệt kê luôn có ích trong
việc đem lại hiệu quả truy vấn.
Đặc trưng nội dung mức thấp: Thu thập các mẫu và thống kê đối tượng đa
phương tiện và các quan hệ không gian, thời gian giữa các phần đối tượng.
Mỗi media khác nhau có các đặc trưng nội dung mức thấp khác nhau.
Đặc trưng nội dung mức cao: Cố gắng nhận biết và hiểu đối tượng. Ngoài

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

16
nhận dạng văn bản và tiếng nói, việc nhận dạng và hiểu đoạn âm thanh và các
đối tượng nhìn là rất khó khăn. Trong ứng dụng với giới hạn số lượng đối
tượng, việc mô tả và nhận biết các đối tượng chung là rất hiệu quả. Ví dụ, dự
báo tới 95% các video có mục tiêu chính là quay người hay nhóm người. Nó
hữu ích cho các hệ thống để nhận biết và diễn giải con người. Hiện tại, tiến
trình nhận dạng và diễn giải được thực hiện bán tự động.
Việc truy vấn trên cơ sở hai loại đặc trưng nội dung mức thấp và mức
cao gọi là truy vấn trên cơ sở nội dung. Một hệ thống cần sử dụng toàn bộ bốn
mức đặc trưng sao cho hỗ trợ được các câu truy vấn mềm dẻo của người sử
dụng. Các kỹ thuật này hỗ trợ nhau để hình thành mô tả đầy đủ về đối tượng.
Ví dụ, mô tả văn bản tốt cho việc thu thập các khái niệm trừu tượng như cảm
giác (vui, buồn ) nhưng không có khả năng mô tả mẫu dữ liệu đầy đủ về các
hình dạng không đều hay texture. Mặt khác, các đặc trưng nội dung mức thấp
có thể thu thập các mẫu dữ liệu này nhưng không mô tả được các khái niệm
trừu tượng.
Khi đối tượng đa phương tiện có nhiều kiểu media, các quan hệ và
tương tác giữa các media phải được sử dụng để trích chọn đặc trưng, diễn giải
và truy tìm. Có một vài kiểu media dễ hiểu và dễ diễn giải hơn vài kiểu khác,
ta có thể sử dụng sự hiểu biết về một hay vài kiểu giúp hiểu và trích chọn đặc
trưng cho các kiểu khác. Ví dụ, nếu đối tượng đa phương tiện bao gồm rãnh
hình (video) và rãnh tiếng, ta có thể áp dụng nhận dạng tiếng nói để lấy ra tri
thức về đối tượng và sử dụng tri thức này để phân đoạn, trích chọn các đặc
trưng và đối tượng trên rãnh hình (video).
1.3.2 Chỉ số hoá cấu trúc
Sau khi trích chọn đặc trưng, chúng ta phải chỉ số hóa cấu trúc để tổ
chức các đặc trưng sao cho truy vấn được hiệu quả.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

17
Chỉ số hóa trong MIRS phải là phân cấp và nhiều mức:
 Mức cao nhất là phân lớp ứng dụng.
 Mức chỉ số hóa thứ hai hình thành trên các mức đặc trưng khác nhau.
Các đặc trưng khác nhau cần chỉ số hóa khác nhau.
 Mức thứ ba hình thành trên quan hệ không gian và thời gian giữa các
đối tượng.
1.3.3. Đo tính tƣơng tự
Truy vấn đa phương tiện trên cơ sở tính tương tự thay cho đối sánh
chính xác giữa các item truy vấn và các item trong CSDL. Tính tương tự được
tính toán trên cơ sở các đặc trưng, thuộc tính trích chọn và dưới dạng một hay
nhiều giá trị. Tuy nhiên, tương quan của kết quả truy vấn do con người quyết
định. Các kiểu đặc trưng được sử dụng để mô tả các đối tượng đóng vai trò
quan trọng để phù hợp với yêu cầu này. Thước đo tính tương tự rất phức tạp
vì quyết định của người sử dụng là chủ quan và phụ thuộc ngữ cảnh
1.4. Xếp hạng tài liệu
Một truy vấn Boolean cho một máy tìm kiếm có thể đáp ứng tới hàng
vài nghìn tài liệu phù hợp, nhưng một người sử dụng thông thường sẽ chỉ có
thể xem xét được một số lượng nhỏ các tài liệu tìm được đó. Vì thế, xếp hạng
các tài liệu phù hợp theo mức độ tương thích với người dùng là một vấn đề
quan trọng, cũng là tiêu điểm trong việc đánh giá một phương pháp truy tìm.
Chỉ qua một phần thông tin của người sử dụng được trích lọc biểu thị
qua truy vấn, hệ thống sẽ tìm kiếm và trả lời bằng một tập các tài liệu phù
hợp. Yêu cầu đó không có thuật toán cụ thể, nhưng được đảm bảo chiến lược
xếp hạng luôn ưu tiên cho những tài liệu hữu ích, tài liệu được coi là “gần”
với truy vấn hơn sẽ được xếp lên trên tài liệu khác trong danh sách tài liệu trả
lời. Trên thực tế, thuật toán xếp hạng trong hệ thống IR phần lớn dựa trên mô
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

18
hình không gian vectơ các tài liệu. Biểu diễn các truy vấn như các vectơ thuật
ngữ, thành phần vectơ nhận giá trị 1 nếu thuật ngữ xuất hiện trong truy vấn và
0 trong trường hợp ngược lại.
Biểu diễn vectơ thuật ngữ với các tài liệu sử dụng trọng số TF-IDF cho các
thành phần trong vectơ sử dụng thước đo khoảng cách cosin để xếp hạng các
tài liệu theo khoảng cách thuật ngữ với truy vấn.
Mô hình trọng số TF-IDF được chứng minh rất hữu ích trong thực tế. Trong
đó, TF (Term Frequency) là tần số xuất hiện thuật ngữ, nghĩa là mỗi thành
phần trong một vectơ thuật ngữ được tính bởi số lần thuật ngữ đó xuất hiện
trong tài liệu; IDF (Inverse Document Frequency) được tính bằng công thức
IDF = log(N/n
i
), với N là toàn bộ tài liệu trong tập hợp và n
i
là số các tài liệu
chứa thuật ngữ i. Chỉ với TF, nếu một thuật ngữ xuất hiện thường xuyên trong
các tài liệu thì nó không phải là lựa chọn tốt làm thuật ngữ chỉ mục, vì nó
không giúp phân biệt các tài liệu người sử dụng quan tâm với các tài liệu
khác, tức là số lượng tài liệu được truy hồi lớn nhưng độ chính xác không cao.
IDF giúp cải thiện vấn đề này, trọng số của thuật ngữ sẽ rất cao nếu nó xuất
hiện thường xuyên chỉ trong một vài tài liệu, tức là giúp tăng cường sự phân biệt.
Cho D
i
= (d
i1
, d
i2
, …, d
iM

) là tập hợp các tài liệu, với truy vấn Q biểu diễn như
một tài liệu. Trong đó, d
ij
là trọng số thuật ngữ j trong tài liệu i, Q(j) biểu thị
trọng số của thuật ngữ j trong truy vấn Q (i =1, 2 , N; j = 1, 2, , M). Các
trọng số d
ij
và Q(j) có thể là 1 (nếu chứa thuật ngữ) hay 0 (nếu không chứa
thuật ngữ) trong đại số quan hệ; hoặc tính bằng TF-IDF hoặc có thể bằng
nhiều cách khác. Tài liệu D
i
được đánh giá là “gần” với truy vấn Q dựa vào
thước đo sau:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

tìm kiếm văn bản theo nội dung và ứng dụng

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về