Một số kĩ thuật tìm kiếm văn bản theo nội dung

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (926.01 KB, 80 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

ĐỖ TẤT HƢNG

MỘT SỐ KỸ THUẬT TÌM KIẾM VĂN BẢN THEO NỘI DUNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2015

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

ĐỖ TẤT HƢNG

MỘT SỐ KỸ THUẬT TÌM KIẾM VĂN BẢN THEO NỘI DUNG

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƢỜI HƢỚNG DẪN KHOA HỌC

CHỦ TỊCH HỘI ĐỒNG

TS. TRƢƠNG HÀ HẢI

PGS. TS. NGÔ QUỐC TẠO

Thái Nguyên - 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii

LỜI CAM ĐOAN

Em xin cam đoan : Luận văn tha ̣c si ̃ Khoa học máy tính

“Một số kỹ

thuật tìm kiếm văn bản theo nội dung” này là công trình nghiên cứu thực
sự của cá nhân em, đƣợc thực hiện trên cơ sở nghiên cứu lý thuyết và dƣới sự
hƣớng dẫn khoa học của Tiến sĩ Trƣơng Hà Hải, Trƣờng Đại học Công nghệ
Thông tin và Truyền thông.
Em xin chiụ trách nhiê ̣m về lời cam đoan này.
Thái Nguyên, ngày 6 tháng 7 năm 2015
Tác giả

Đỗ Tất Hƣng

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iv

LỜI CẢM ƠN

Để hoàn thành luận văn, em xin chân thành cảm ơn Trƣờng Đại học
Công nghệ Thông tin và Truyền thông, Phòng Đào tạo, các thầy, cô giáo
giảng dạy lớp cao học Khoa học máy tính K12E đã quan tâm, tạo điều kiện
thuận lợi, tận tình giảng dạy và giúp đỡ em trong thời gian theo học tại
trƣờng.
Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến TS. Trƣơng Hà Hải,
ngƣời đã dành nhiều thời gian, tâm huyết hƣớng dẫn em trong suốt quá trình
nghiên cứu và hoàn thành luận văn.
Em cũng xin cảm ơn các cán bộ, giảng viên đồng nghiệp ở Trƣờng
Đại học Hùng Vƣơng đã tạo điều kiện về thời gian để em có thể học tập và
hoàn thành luận văn.
Mă ̣c dù đã cố gắ ng hế t sƣ́c hoàn thiê ̣n luâ ̣n văn, tuy nhiên luận văn vẫn
còn nhiều thiếu sót, rấ t mong sƣ̣ góp ý quý báu của quí thầy cô và các bạn đồng
nghiệp!
Xin trân trọng cảm ơn!
Thái Nguyên, ngày 6 tháng 7 năm 2015
Tác giả

Đỗ Tất Hƣng

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

v

MỤC LỤC
Trang
LỜI CAM ĐOAN ............................................................................................ iii
LỜI CẢM ƠN .................................................................................................. iv
MỤC LỤC ......................................................................................................... v
DANH MỤC BẢNG ...................................................................................... viii
DANH MỤC HÌNH VẼ ................................................................................... ix
MỞ ĐẦU ........................................................................................................... 1
CHƢƠNG I. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN ...... 4
1.1 Cơ sở dữ liệu (CSDL) đa phƣơng tiện ........................................................ 4
1.1.1 Giới thiê ̣u.................................................................................................. 4
1.1.2 Mục tiêu chính.......................................................................................... 5
1.1.3 Mô hin
̀ h dƣ̃ liê ̣u đa phƣơng tiê ̣n............................................................... 5
1.1.4 Trích chọn đặc trƣng, chỉ mục và đo tính tƣơng tự ................................. 7
1.1.5 Hệ thống tìm kiếm thông tin (IR)........................................................... 13
1.1.6 Xếp hạng tài liệu (Ranking) ................................................................... 19
1.2 Bài toán tìm kiếm văn bản ........................................................................ 23
CHƢƠNG II. MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM VĂN BẢN THEO NỘI
DUNG ............................................................................................................. 26
2.1 Mô hình Boolean ....................................................................................... 26
2.2 Mô hình tìm kiế m không gian vector ....................................................... 27
2.3 Mô hình tìm kiế m theo xác suất ................................................................ 30
2.4 Mô hình tìm kiếm dựa trên cơ sở cụm ..................................................... 30
2.5.1 Ý tƣởng cơ bản của LSI ......................................................................... 33
2.5.2 Một số khái niệm cơ bản ........................................................................ 39
2.5.3 Kỹ thuật phân tích SVD ......................................................................... 41
CHƢƠNG III. ỨNG DỤNG THỬ NGHIỆM ................................................ 55
3.1 Bài toán ..................................................................................................... 55

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vi

3.2 Chức năng của chƣơng trình thử nghiệm .................................................. 57
3.3 Hoạt động cơ bản trong chƣơng trình ....................................................... 65
3.4 So sánh các mô hình tìm kiếm .................................................................. 67
KẾT LUẬN ..................................................................................................... 69
1.

Kết luận ................................................................................................... 69

2.

Hƣớng phát triển ..................................................................................... 69

TÀI LIỆU THAM KHẢO ............................................................................... 71

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vii

DANH MỤC TỪ VIẾT TẮT
CSDL

Cơ sở dữ liệu

IDF

Inverse Document Frequency

IR

Information Retrieval

LSI

Latent Semantic Indexing

MDMS

MultiMedia DataBase Manager System

MIRS

Multimedia Information Retrieval System

SVD

Singular value decomposition

TF

Term Frequency

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

viii

DANH MỤC BẢNG
Bảng 1.1 Ma trận tài liệu - thuật ngữ .............................................................. 21
Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF .................................... 22
Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu ........................ 23
Bảng 2.1 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu ............................ 43

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ix

DANH MỤC HÌNH VẼ
Hình 1.1 Mô hình dữ liệu đa phƣơng tiện ......................................................... 6
Hình 1.2 Mô hình xử lý cho hệ thống lập chỉ mục ......................................... 11
Hình 1.3 Mô hình tổng quát tìm kiêm thông tin ............................................. 15
Hình 1.4 Tiến trình truy vấn tài liệu................................................................ 17
Hình 1.5 Hệ thống IR tiêu biểu ....................................................................... 25
Hình 2.1 Sử dụng các khái niệm cho truy vấn ................................................ 34
Hình 2.2 Các vector văn bản theo mô hình LSI .............................................. 39
Hình 2.3 Biểu diễn ma trận xấp xỉ Ak có hạng là k ........................................ 42
Hình 2.4 Biểu đồ 2-D của 16 thuật ngữ và 17 tài liệu từ tập mẫu. ................ 44
Hình 2.5 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ- tài liệu. ....... 45
Hình 2.6 Sơ đồ của SVD đƣợc giảm lƣợc của một ma trận thuật ngữ-tài liệu.. 46
Hình 2.7 Đồ thị Recall – Precision của thuật toán LSI ................................... 54

Hình 3.1 Kiến trúc mô hình tìm kiếm LSI ...................................................... 65
Hình 3.2 Giao diện cấu hình ........................................................................... 66
Hình 3.3 Giao diện tìm kiếm .......................................................................... 66
Hình 3.4 Giao diện kết quả tìm kiếm .............................................................. 67

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

1

MỞ ĐẦU
Việc tìm kiếm và lƣu trữ thông tin từ xa xƣa đã đƣợc con ngƣời chú
trọng và quan tâm. Ngày nay, với sự phát triển nhanh chóng của lĩnh vực
thông tin và Internet đã tạo ra một khối lƣợng thông tin vô cùng lớn với sự
phong phú, đa dạng và phức tạp của các loại hình nhƣ: văn bản, hình ảnh,
video, siêu văn bản, đa phƣơng tiện…Vấn đề tìm kiếm thông tin đa phƣơng
tiện hiện vẫn đƣợc các chuyên gia nghiên cứu trong việc truy tìm thông tin
phù hợp với yêu cầu của ngƣời sử dụng.
Văn bản là một trong số các dạng của dữ liệu đa phƣơng tiện. Nó đã
đƣợc quan tâm từ hàng nghìn năm trƣớc trong việc tổ chức, sắp xếp và lƣu trữ
các loại hình tài liệu. Cho đến nay, tài liệu dƣới dạng văn bản vẫn chiếm đa số
trong mọi cơ quan, tổ chức, đặc biệt là trong thƣ viện. Đồng thời, văn bản còn
đƣợc sử dụng để mô tả các dạng khác của dữ liệu đa phƣơng tiện nhƣ video,
audio, hình ảnh. Xuất phát từ nhu cầu thực tế sử dụng, số lƣợng tài liệu văn
bản dạng số hóa hiện nay ngày càng lớn và đƣợc sử dụng rất phổ biến. Vì vậy
việc lƣu trữ, xử lý và truy tìm thủ công trƣớc đây đã gặp rất nhiều khó khăn,
không thể hoặc khó có thể thực hiện và tìm kiếm đƣợc, hoặc có thể tìm kiếm
đƣợc nhƣng hiệu quả không cao. Chính vì vậy, việc tìm kiếm văn bản theo
nội dung có vai trò hết sức quan trọng.

Cùng với sự ra đời và phát triển của máy tính, các công cụ xử lý cũng
ngày càng hoàn thiện dựa trên những kỹ thuật hiện đại để phục vụ cho nhu
cầu đó. Các mô hình truy tìm thƣờng đƣợc sử dụng trong phạm vi này, đó là:
Đối sánh chính xác, không gian vector, xác suất và trên cơ sở cụm. Song,
nhƣợc điểm cơ bản của các mô hình truy tìm thông tin hiện nay là những từ
mà ngƣời tìm kiếm sử dụng, thƣờng không giống với những từ đã đƣợc đánh
chỉ mục trong thông tin tìm kiếm. Vấn đề này liên quan nhiều đến hai khía
cạnh thực tế: Thứ nhất là tính đồng nghĩa (synonymy)- cùng một thông tin
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

2

nhƣng đƣợc miêu tả bằng các từ khác nhau, phụ thuộc vào ngữ cảnh hay mức
độ cần thiết, ví dụ nhƣ: nhìn, xem, trông, thấy có cùng ý nghĩa; khía cạnh thứ
hai tính đa nghĩa (polysemy) – cùng một từ có nhiều ý nghĩa khác nhau trong
ngữ cảnh khác nhau, ví dụ nhƣ: đi (có thể là chỉ chuyển động hay chỉ sự mất
mát). Kết quả truy tìm có thể gồm những tài liệu không liên quan, đơn giản vì
những thuật ngữ xuất hiện ngẫu nhiên trong nó giống với thuật ngữ trong truy
vấn và mặt khác, những tài liệu liên quan có thể bị bỏ qua bởi không chứa
các thuật ngữ xuất hiện trong truy vấn (do tính đồng nghĩa). Một ý tƣởng thú
vị xét xem liệu việc truy tìm có thể dựa vào các khái niệm có hiệu quả hơn
là trên các thuật ngữ, đó là mô hình LSI (Latent Semantic Indexing) dựa trên
kỹ thuật phân tích ma trận SVD (singular value decomposition), là các giải
pháp hữu hiệu cho vấn đề truy tìm thông tin dựa trên cơ sở nội dung tài liệu
văn bản, tìm kiếm trên cơ sở những khái niệm (không phải trên các thuật
ngữ đơn).
Luâ ̣n văn này tập trung nghiên cứu về lớp bài toán tìm kiếm nội dung
văn bản, một số kỹ thuật tìm kiếm văn bản, cài đặt chƣơng trình mô phỏng

mô hình tìm kiếm văn bản theo nội dung dựa trên phân tích SVD và ứng dụng
vào công việc xử lý, tìm kiếm văn bản tại Trƣờng Đại học Hùng Vƣơng.
Bố cục của luận văn bao gồm các chƣơng sau:
Luận văn đƣợc trình bày thành 3 phần bao gồm: phần mở đầu, phần nội
dung và phần kết luận
Phần mở đầu: Giới thiệu khái quát về đề tài, mục tiêu, ý nghĩa khoa học
và xã hội mang lại thông qua việc giải quyết các vấn đề đƣợc nêu trong đề tài.
Phần nội dung:
Chương 1. Tổng quan về cơ sở dữ liệu đa phƣơng tiê ̣n : Giới thiệu tổng
quan về cơ sở dữ liệu đa phương tiện, xếp hạng tài liệu và bước cơ bản phục vụ

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

3

cho việc tìm kiếm thông tin. Khái quát về một hệ thống truy tìm thông tin (IR)
tiêu biểu và cụ thể là truy tìm tài liệu văn bản.
Chương 2. Mô ̣t số vấ n đề về tìm kiế m văn bản theo nô ̣i dung

: Đề cập

đến vấn đề chỉ mục tài liệu và thước đo hiệu năng. Nghiên cứu một số mô
hình tìm kiếm như: Boolean, không gian vector, mô hình truy tìm theo xác
suất, phương pháp LSI, kỹ thuật phân tích ma trận SVD.
Chương 3. Ứng dụng thử nghiệm: Cài đặt thử nghiệm một số mô hình
tìm kiếm văn bản ứng dụng cho công việc tìm kiếm văn bản tại Trường Đại
học Hùng Vương.
Phần kết luận: Trình bày kết quả mà luận văn đạt được và hướng phát

triển cho mô hình mà luận văn đã đề xuất.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

4

CHƢƠNG I
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN
1.1 Cơ sở dữ liệu (CSDL) đa phƣơng tiện [1] [4] [8]
1.1.1 Giới thiê ̣u
Dữ liệu đa phƣơng tiện đƣợc chia thành hai lớp là các dữ liệu liên tục
và các dữ liệu không liên tục. Các dữ liệu liên tục bao gồm các dữ liệu âm
thanh, video thay đổi theo thời gian. Các dữ liệu không liên tục là các dữ liệu
không phụ thuộc vào thời gian, các loại dữ liệu đặc trƣng cho dạng này là các
dữ liệu văn bản (có hoặc không có định dạng), hình ảnh tĩnh và các đối tƣợng
đồ họa. Các kiểu dữ liệu thông thƣờng của một CSDL multimedia bao gồm:
• Dữ liệu văn bản (có hoặc không có định dạng).
• Đồ họa: là các bản vẽ, minh họa đƣợc mã hóa nhƣ các tệp postscript.
• Hình ảnh: là các hình ảnh đƣợc mã hóa sử dụng các dạng thức chuẩn
nhƣ là JPEG hoặc JPG.
• Các hoạt hình.
• Âm thanh.
• Video.
Các đặc tính chung của dữ liệu đa phƣơng tiện bao gồm:
• Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hƣớng phi cấu trúc
vì vậy các tác nghiệp quản trị dữ liệu chuẩn nhƣ chỉ số hoá, tìm kiếm nội
dung, truy vấn dữ liệu thƣờng là không áp dụng đƣợc.
• Tính tạm thời: Một vài kiểu dữ liệu đa phƣơng tiện nhƣ là video, âm

thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian liên quan mật thiết đến
việc lƣu trữ, thao tác và mô tả chúng.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

5

• Có dung lƣợng lớn: các dữ liệu video và âm thanh thƣờng đòi hỏi các
thiết bị lƣu trữ lớn.
• Các ứng dụng hỗ trợ: các dữ liệu phi chuẩn có thể đòi hỏi các quy
trình xử lý phức tạp nhƣ việc sử dụng các thuật toán nén dữ liệu đối với các
ứng dụng CSDL đa phƣơng tiện.
1.1.2 Mục tiêu chính
Cơ sở dữ liệu đa phƣơng tiện bao gồm năm mục tiêu chính nhƣ sau:
- Hỗ trợ các kiểu dữ liệu đa phƣơng tiện: các phƣơng tiện (media) khác
nhau và các thao tác thông thƣờng cũng nhƣ các thao tác đặc biệt mà kiểu dữ
liệu thông thƣờng không có nhƣ tiến, lùi, dừng...
- Có khả năng quản lý số lƣợng lớn các đối tƣợng đa phƣơng tiện: đề
cập đến không gian lƣu trữ của CSDL.
- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lƣu trữ hiệu quả.
- Có các khả năng của hệ CSDL truyền thống.
- Có khả năng truy tìm thông tin đa phƣơng tiện.
1.1.3 Mô hình dữ liê ̣u đa phương tiê ̣n [1] [4]
Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình
thành trên nền tảng nguyên tắc hƣớng đối tƣợng và phân cấp đa tầng.
Tầng đối tượng
Đối tƣợng bao gồm một hay nhiều mục media với các quan hệ không
gian và thời gian xác định, nhƣ với một đối tƣợng đa phƣơng tiện là một trang

bao gồm một vài hình ảnh và âm thanh kèm theo.
Nhiệm vụ mấu chốt là làm thế nào để chỉ ra các quan hệ không gian và
thời gian. Quan hệ không gian đƣợc đặc tả bởi kích thƣớc và vị trí cửa sổ hiển
thị của mỗi mục. Phƣơng pháp chung đặc tả thời gian là đặc tả trên cơ sở trục
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

6

thời gian, trong đó thời gian bắt đầu và độ dài mỗi mục đƣợc xác định trên cơ
sở đồng hồ chung. Phƣơng pháp khác là mô hình điều khiển theo sự kiện.
Tầng loại media
Tầng này bao gồm các loại media nhƣ văn bản, hình ảnh, audio và
video. Các loại này đƣợc suy diễn từ lớp media trừu tƣợng chung.
Tại mức này, các đặc trƣng và thuộc tính đƣợc đặc tả. Ví dụ loại media
ảnh: kích thƣớc, biểu đồ màu, các đối tƣợng chính chứa trong nó... đƣợc đặc
tả. Các đặc trƣng này đƣợc sử dụng trực tiếp vào tìm kiếm và tính toán
khoảng cách.
Không gian

Thời gian

Văn bản

Thô

Đa mức
xám

Hình ảnh

Tổng hợp

Âm thanh

Video

Nén

Màu

Tầng đối
tƣợng

Tầng loại
media

Tầng
khuôn
mẫu media
JPEG

JPIG

DPCM

Hình 1.1 Mô hình dữ liệu đa phương tiện
Tầng khuôn mẫu media
Tầng này đặc tả khuôn mẫu, trong đó dữ liệu đƣợc lƣu trữ. Thông

thƣờng, media có nhiều khuôn mẫu, ví dụ ảnh có thể là nén hay ảnh thô. Hơn
nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau. Thông tin chứa trong tầng
này đƣợc sử dụng để giải mã, phân tích và trình diễn.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

7

Chú ý rằng, các ứng dụng khác nhau có thể cần các mô hình dữ liệu
khác nhau. Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu
đƣợc thiết kế tốt thì có thể bổ sung các đặc trƣng và đối tƣợng mới để đáp ứng
yêu cầu ứng dụng cụ thể.
Đến nay, chƣa có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên.
Bởi các ứng dụng MIRS hiện nay chủ yếu là đặc thù, chỉ tập trung vào giới
hạn số đặc trƣng và loại media. Rất nhiều công việc phải làm khi mô hình hóa
dữ liệu đa phƣơng tiện để phát triển MIRS và MMDBMS (MultiMedia
DataBase Manager System) lớn nhất quán.
1.1.4 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1] [4]
1.1.4.1 Trích chọn đặc trưng:
Trong các MIRS, một trong những vấn đề quan trọng nhất là trích chọn
đặc trƣng hoặc biểu diễn nôi dung (cái gì là những nét đặc trƣng hoặc nội
dung chính trong một khoản mục multimedia). Trích rút đặc trƣng có thể là
quá trình tự động hay bán tự động.
Trong tiến trình tìm kiếm, các đặc trƣng và thuộc tính này đƣợc tìm kiếm
và so sánh thay cho chính các mục thông tin. Do vậy, chất lƣợng của trích chọn
đặc trƣng xác định hiệu quả tìm kiếm. Nếu đặc trƣng không đƣợc tách ra từ
mục nào thì không thể tìm thấy chúng từ CSDL theo đặc trƣng đó. Đó là một
trong sự khác biệt lớn nhất giữa MIRS và DBMS. Trong DBMS thì mọi thuộc
tính là có sẵn và đầy đủ, trong khi đó các đặc trƣng và thuộc tính phải đƣợc

trích chọn theo loại truy vấn và thƣờng là không đầy đủ trong MIRS.
Trích chọn đặc trƣng phải thỏa mãn các yêu cầu sau:
- Đặc trƣng và thuộc tính trích chọn phải đầy đủ nhất có thể để biểu
diễn nội dung của các mục thông tin.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

8

- Các đặc trƣng phải đƣợc trình diễn và lƣu trữ một cách chặt chẽ, mạch
lạc. Các đặc trƣng phức tạp và đặc trƣng lớn không phải là mục đích của trích
chọn, nó phải có khả năng tìm kiếm và so sánh nhanh các mục thông tin với nhau.
- Tính toán khoảng cách giữa các đặc trƣng phải hiệu quả, nếu không
thời gian đáp ứng của hệ thống rất lớn.
Tổng thể có 4 mức đặc trƣng và thuộc tính nhƣ sau:
Metadata: bao gồm các thuộc tính của các đối tƣợng đa phƣơng tiện
nhƣ tên tác giả, ngày tạo lập, tiêu đề đối tƣợng. Không mô tả hay diễn giải nội
dung của đối tƣợng. Các thuộc tính này đƣợc quản lý bằng kỹ thuật DBMS.
Mô tả bằng văn bản: Mô tả nội dung đối tƣợng bằng văn bản. Mô tả
dƣới hình thức nhiều từ khóa hay văn bản thông thƣờng. Chỉ mục và tìm kiếm
trên cơ sở mô tả bằng văn bản đƣợc quản lý bằng kỹ thuật IR. Mặc dù mô tả
bằng văn bản có hạn chế là còn tính chủ quan và chƣa đầy đủ, nhƣng đây vẫn
là phƣơng pháp hay đƣợc sử dụng và hiệu quả. Nên sử dụng mô tả bằng văn
bản kết hợp với các đặc trƣng khác trong ứng dụng đa phƣơng tiện. Hiện tại,
mô tả văn bản là tiến trình bằng tay, khá vất vả. Cần phát triển các công cụ
bán tự động để hỗ trợ tiến trình này. Tri thức lĩnh vực và từ điển liệt kê luôn
có ích trong việc đem lại hiệu quả truy vấn.
Đặc trưng nội dung mức thấp: Thu thập các mẫu và thống kê đối

tƣợng đa phƣơng tiện và các quan hệ không gian, thời gian giữa các phần đối
tƣợng. Mỗi media khác nhau có các đặc trƣng nội dung mức thấp khác nhau.
- Với âm thanh, đặc trƣng mức thấp bao gồm âm lƣợng trung bình,
phân bổ tần số và tỷ lệ câm.
- Các đặc trƣng mức thấp của ảnh bao gồm phân bổ màu, texture, hình
dạng đối tƣợng và cấu trúc không gian.
- Đặc trƣng mức thấp của video bao gồm cấu trúc thời gian.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9

Lợi thế chính của việc sử dụng đặc trƣng mức thấp là có thể tự động
trích chọn chúng.
Đặc trưng nội dung mức cao: Cố gắng nhận biết và hiểu đối tƣợng.
Ngoài nhận dạng văn bản và tiếng nói, việc nhận dạng và hiểu đoạn âm thanh
và các đối tƣợng nhìn là rất khó khăn. Trong ứng dụng với giới hạn số lƣợng
đối tƣợng, việc mô tả và nhận biết các đối tƣợng chung là rất hiệu quả. Ví dụ,
dự báo tới 95% các video có mục tiêu chính là quay ngƣời hay nhóm ngƣời.
Nó hữu ích cho các hệ thống để nhận biết và diễn giải con ngƣời. Hiện tại,
tiến trình nhận dạng và diễn giải đƣợc thực hiện bán tự động.
Việc truy vấn trên cơ sở hai loại đặc trƣng nội dung mức thấp và mức
cao gọi là truy vấn trên cơ sở nội dung. Một hệ thống cần sử dụng toàn bộ bốn
mức đặc trƣng sao cho hỗ trợ đƣợc các câu truy vấn mềm dẻo của ngƣời sử
dụng. Các kỹ thuật này hỗ trợ nhau để hình thành mô tả đầy đủ về đối tƣợng.
Ví dụ, mô tả văn bản tốt cho việc thu thập các khái niệm trừu tƣợng nhƣ cảm
giác (vui, buồn...) nhƣng không có khả năng mô tả mẫu dữ liệu đầy đủ về các
hình dạng không đều hay texture. Mặt khác, các đặc trƣng nội dung mức thấp
có thể thu thập các mẫu dữ liệu này nhƣng không mô tả đƣợc các khái niệm

trừu tƣợng.
Khi đối tƣợng đa phƣơng tiện có nhiều kiểu media, các quan hệ và
tƣơng tác giữa các media phải đƣợc sử dụng để trích chọn đặc trƣng, diễn giải
và truy tìm. Có một vài kiểu media dễ hiểu và dễ diễn giải hơn vài kiểu khác,
ta có thể sử dụng sự hiểu biết về một hay vài kiểu giúp hiểu và trích chọn đặc
trƣng cho các kiểu khác. Ví dụ, nếu đối tƣợng đa phƣơng tiện bao gồm rãnh
hình (video) và rãnh tiếng, ta có thể áp dụng nhận dạng tiếng nói để lấy ra tri
thức về đối tƣợng và sử dụng tri thức này để phân đoạn, trích chọn các đặc
trƣng và đối tƣợng trên rãnh hình (video).

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

10

1.1.4.2 Chỉ mục:
Từ nội dung của các tài liệu riêng rẽ trong tập tài liệu hệ thống tìm
kiếm thông tin có nhiệm vụ tách nội dung đó thành các từ riêng biệt và tổng
hợp chúng thành một danh sách các từ riêng biệt có trong tập tài liệu. Sau khi
có đƣợc tập các từ đã đƣợc trích, ta sẽ chọn các từ để làm từ chỉ mục. Tuy
nhiên, không phải từ nào cũng đƣợc chọn làm từ chỉ mục. Các từ có khả năng
đại diện cho tài liệu sẽ đƣợc chọn, các từ này đƣợc gọi là key word, do đó
trƣớc khi lập chỉ mục sẽ là giai đoạn tiền xử lý đối với các từ trích đƣợc để
chọn ra các keyword thích hợp. Ta sẽ loại bỏ danh sách các từ ít có khả năng
đại diện cho nội dung văn bản dựa vào danh sách gọi là từ dừng (stoplist). Đối
với tiếng Anh hay tiếng Việt đều có danh sách stop list.
+ Chỉ mục tự động cho tiếng Anh:
Một quá trình đơn giản để lập chỉ mục cho tài liệu có thể đƣợc mô tả
nhƣ sau:

 Trƣớc hết, xác định tất cả các từ tạo thành tài liệu. Trong tiếng Anh, chỉ
đơn giản là tách từ dựa vào khoảng trắng.
 Loại bỏ các từ có tần số xuất hiện cao. Những từ này chiếm khoảng 4050% các từ, chúng có độ phân biệt kém do đó không thể sử dụng để đại
diện cho nội dung của tài liệu. Trong tiếng Anh, các từ này có khoảng
250 từ, do đó, để đơn giản có thể lƣu chúng vào stoplist.
 Sau khi loại bỏ các từ có trong stop list, xác định các từ chỉ mục “tốt”.
Trƣớc hết cần loại bỏ các hậu tố để đƣa về từ gốc, ví dụ các từ nhƣ:
analysis, analyzing, analyzer, analyzed, analysing có thể chuyển về từ gốc là
“analy.” Từ gốc sẽ có tần số xuất hiện cao hơn so với các dạng thông thƣờng
của nó. Nếu sử dụng từ gốc làm chỉ mục, ta có thể thu đƣợc nhiều tài liệu có
liên quan hơn là sử dụng từ ban đầu của nó.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

11

Đối với tiếng Anh, việc loại bỏ hậu tố có thể đƣợc thực hiện dễ dàng
bằng cách sử dụng danh sách các hậu tố có sẵn (Suffix List).
Sau khi có đƣợc danh sách các từ gốc, sử dụng phƣơng pháp dựa vào
tần số (frequency – based) để xác định tầm quan trọng của các từ gốc này.
Trong hệ thống chỉ mục có trọng số, trọng số của một từ đƣợc sử dụng
để xác định tầm quan trọng của từ đó. Mỗi tài liệu đƣợc biểu diễn là một
vector:
Di = (di1, di2, …, dit) trong đó dij là trọng số của từ j trong tài liệu Di.
Mô hình xử lý tổng quát của một hệ thống đƣợc trình bày nhƣ sau:
Danh sách các tài
liệu cần lập chỉ mục

Lọc các thông tin thừa, chuyển

tài liệu về dạng văn bản

Từ điển

Tách văn bản thành các từ
Danh sách
các stop word

Loại bỏ stop word
Tính trọng số và loại bỏ những
từ có trọng số thấp

Loại bỏ hậu tố
CSDL chỉ mục
thông tin

Danh sách
các hậu tố

Lập chỉ mục

Hình 1.2 Mô hình xử lý cho hệ thống lập chỉ mục
+ Chỉ mục cho tài liệu tiếng Việt
Lập chỉ mục cho tài liệu tiếng Việt cũng tƣơng tự nhƣ cho tiếng
Anh tuy nhiên có những khó khăn sau:
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

12

 Xác định ranh giới giữa các từ (đơn, láy, ghép) trong câu. Đối với tiếng
Anh điều này quá dễ dàng vì khoảng trắng chính là ranh giới phân biệt
các từ, ngƣợc lại tiếng Việt thì khoảng trắng không phải là ranh giới để
xác định các từ mà chỉ là ranh giới để xác định các tiếng (Ví dụ: từ “hợp
tác xã” - có 3 âm tiết).
 Chính tả tiếng Việt còn có một số trƣờng hợp “bất qui tắc” nhƣ sử dụng
"y" hay "i" (ví dụ "quý" hay "quí", “Địa lí” hay “Địa lý”), cách bỏ dấu
("Thuý" hay Thúy"), cách viết hoa tên riêng ("Đại học Hùng Vƣơng" hay
"Đại Học Hùng Vƣơng")... đòi hỏi quá trình hiệu chỉnh chính tả cho văn
bản cần lập chỉ mục và cho từ điển chỉ mục.
 Tồn tại nhiều bảng mã tiếng Việt đòi hỏi khả năng xử lý tài liệu ở các
bảng mã khác nhau. Cách giải quyết là đƣa tất cả về bảng mã chuẩn của
hệ thống.
 Sự phong phú về nghĩa của một từ (từ đa nghĩa – từ đa nghĩa). Một từ có
thể có nhiều nghĩa khác nhau trong những ngữ cảnh khác nhau liên quan
đến từ loại trong tiếng Việt nên việc tìm kiếm khó có đƣợc kết quả với
độ chính xác cao. Ví dụ: thiết tha, nghĩa gốc là tính từ chỉ mức độ tình
cảm gắn bó nhƣng trong một số trƣờng hợp lại là động từ chỉ hành động
“Cảnh buồn ngƣời thiết tha lòng”, thiết tha ở đây lại có nghĩa là đau xót,
cắt cứa vào lòng.
 Từ đồng nghĩa hoặc từ gần nghĩa: có nhiều từ khác nhau nhƣng lại có
cùng ý nghĩa, hoặc có nghĩa gần nhƣ nhau. Ví dụ: chết, ngã xuống, hi
sinh, qua đời,… có chung ý nghĩa là con ngƣời đã tắt thở. Do đó, việc
tìm kiếm theo từ khoá thƣờng không tìm thấy các websites chứa từ đồng
nghĩa hoặc gần nghĩa với từ cần tìm. Vì vậy, việc tìm kiếm cho ra kết
quả không đầy đủ.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

13

 Có quá nhiều từ mà mật độ xuất hiện cao nhƣng không mang ý nghĩa cụ
thể nào mà chỉ là những từ nối, từ đệm hoặc chỉ mang sắc thái biểu cảm
nhƣ những từ láy. Những từ này cần phải đƣợc xác định và loại bỏ ra
khỏi tập các mục từ. Nó giống nhƣ stop word trong tiếng Anh. Ví dụ:
tuy, và, nhƣng, thế, là, duy nhất, …
 Các văn bản có nội dung chính là một vấn đề cụ thể, một đề tài nghiên
cứu khoa học nhƣng đôi khi trọng số của các từ chuyên môn này thấp so
với toàn tập tài liệu. Vì vậy, một số thuật toán tính trọng số bỏ sót những
trƣờng hợp nhƣ vậy. Kết quả là các từ chuyên môn đó không đƣợc lập
chỉ mục.
 Trong các vấn đề trên thì vấn đề xác định ranh giới từ trong câu là quan
trọng nhất vì nó ảnh hƣởng lớn đến hiệu quả của quá trình lập chỉ mục
(nếu quá trình tách từ sai có nghĩa là nội dung của câu bị phân tích sai)
và cũng là vấn đề khó khăn nhất. Các vấn đề còn lại chỉ là thuần tuý về
mặt kỹ thuật mà hầu nhƣ chúng ta có thể giải quyết một cách triệt để.
1.1.4.3 Đo tính tương tự:
Truy vấn đa phƣơng tiện trên cơ sở tính tƣơng tự thay cho đối sánh
chính xác giữa các item truy vấn và các item trong CSDL. Tính tƣơng tự đƣợc
tính toán trên cơ sở các đặc trƣng, thuộc tính trích chọn và dƣới dạng một hay
nhiều giá trị. Tuy nhiên, tƣơng quan của kết quả truy vấn do con ngƣời quyết
định. Các kiểu đặc trƣng đƣợc sử dụng để mô tả các đối tƣợng đóng vai trò
quan trọng để phù hợp với yêu cầu này. Thƣớc đo tính tƣơng tự rất phức tạp
vì quyết định của ngƣời sử dụng là chủ quan và phụ thuộc ngữ cảnh.
1.1.5 Hệ thống tìm kiếm thông tin (IR) [5][6]
Các hệ thống tự động tìm kếm thông tin (IR) đã đƣợc phát triển để quản
lý khối lƣợng lớn tài liệu từ những năm 40 của thế kỷ XX. Chức năng chính

của hệ thống IR là lƣu trữ và quản trị khối lƣợng văn bản lớn theo cách sao
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

14

cho dễ dàng truy vấn (query) tài liệu mà ngƣời sử dụng quan tâm. Sau đây là
định nghĩa về hệ thống tìm kiếm thông tin của một số tác giả:
Salton (1989):
“Hệ thống tìm kiếm thông tin xử lý các tập tin lƣu trữ và những yêu cầu
về thông tin, xác định và tìm từ các tập tin những thông tin phù hợp với
những yêu cầu về thông tin. Việc tìm kiếm những thông tin đặc thù phụ thuộc
vào sự tƣơng tự giữa các thông tin đƣợc lƣu trữ và các yêu cầu, đƣợc đánh giá
bằng cách so sánh các giá trị của các thuộc tính đối với thông tin đƣợc lƣu trữ
và các yêu cầu về thông tin.”
Kowalski (1997):
“Hệ thống tìm kiếm thông tin là một hệ thống có khả năng lƣu trữ,
tìm kiếm và duy trì thông tin. Thông tin trong những trƣờng hợp này có thể
bao gồm văn bản, hình ảnh, âm thanh, video và những đối tƣợng đa
phƣơng tiện khác.”
Tìm kiếm thông tin là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp
giúp ngƣời sử dụng có thể tìm thấy các thông tin mình cần trong một khối
lƣợng lớn dữ liệu. Nhiệm vụ của một hệ thống tìm kiếm thông tin tƣơng tự
nhƣ nhiệm vụ tổ chức phân loại tài liệu và phục vụ việc tra cứu của một thƣ
viện. Một hệ thống tìm kiếm thông tin có hai chức năng chính: lập chỉ mục
(indexing) và tra cứu (interrogation). Lập chỉ mục là giai đoạn phân tích tài
liệu (document) để xác định các chỉ mục (term/index term) biểu diễn nội dung
của tài liệu. Việc lập chỉ mục có thể dựa vào một cấu trúc phân lớp có sẵn
(control vocabulary) nhƣ cách làm của các nhân viên thƣ viện, phân loại tài

liệu theo một bộ phân loại cho trƣớc. Các chỉ mục trong cách làm này là tồn
tại trƣớc và độc lập với tài liệu. Cách thứ hai để lập chỉ mục là rút trích các
chỉ mục từ chính nội dung của tài liệu (free text). Trong luận văn này tác giả
chỉ đề cập đến cách thứ hai này. Cuối giai đoạn lập chỉ mục nội dung của các
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

15

tài liệu có trong kho tài liệu (corpus) đƣợc biểu diễn bằng tập các chỉ mục.
Mô hình tổng quát tìm kiếm thông tin (Hình 1.3)
Mô hình gồm 4 thành phần:
 Mô hình yêu cầu: Sử dụng để biểu diễn yêu cầu của ngƣời sử dụng.
 Mô hình tài liệu: Biểu diễn trừu tƣợng tài liệu thực và nội dung của
chúng.
 Hàm ánh xạ (đối sánh): Xác định sự phù hợp của hệ thống đối với yêu cầu.
 Tri thức: Biểu diễn các tri thức để mô tả ngữ nghĩa thuộc lĩnh vực
tài liệu.
Trong đó:
D - Biểu diễn các tài liệu Docs
Q - Biểu diễn câu truy vấn Query (yêu cầu)
F- Khung mô hình hóa của D, Q và quan hệ giữa chúng
R(q, di) - Hàm đối sánh hay xếp hạng
Phù hợp với
ngƣời sử dụng
Ngƣời sử dụng

Tài liệu

Thế giới
thực

CSDL tài liệu

Hệ thống

Phù hợp
hệ thống
Các yêu cầu

Mô hình
yêu cầu

Đối sánh

Mô hình
tài liệu

Mô hình tìm
kiếm thông
tin

Tri thức
Hình 1.3 Mô hình tổng quát tìm kiếm thông tin
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

16

Quy trình của hệ tìm kiếm thông tin như sau:
 Ngƣời dùng muốn tìm một tài liệu liên quan đến một chủ đề nào đó
 Ngƣời dùng cung cấp một mô tả chủ đề đó dƣới dạng câu truy vấn
 Từ câu truy vấn này, hệ thống sẽ lọc ra những cụm từ chỉ mục
 Những cụm từ chỉ mục này sẽ đƣợc so khớp với những từ chỉ mục
của văn bản đã đƣợc xử lý
 Hệ thống sẽ trả về những văn bản có độ liên quan cao nhất.
Mục đích của IR là hiển thị một tập thông tin thỏa mãn nhu cầu của
ngƣời sử dụng. Chúng ta định nghĩa thông tin yêu cầu là câu truy vấn
(Query), thông tin tìm đƣợc là tài liệu (Document). Mục đích của hệ thống IR
là tự động tìm kiếm các tài liệu bằng cách kiểm tra độ tƣơng quan giữa câu
truy vấn và đặc trƣng của tài liệu. Kết quả thành công khi kết quả trả về của
hệ thống phù hợp với yêu cầu của câu truy vấn.
Hệ thống IR gồm các bản ghi không có cấu trúc. Chúng không chứa
các thuộc tính cố định. Nó chỉ đơn thuần là tài liệu văn bản. Các tài liệu này
có thể chỉ mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term)
chỉ mục. Mỗi thuật ngữ chỉ mục đƣợc sử dụng để mô tả nội dung văn bản chỉ
theo một khía cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội
dung văn bản. Nhiều thuật ngữ chỉ mục đƣợc gắn theo tài liệu hay văn bản cụ
thể. Bởi vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại
diện, sử dụng để mô tả các bản ghi lƣu trữ, do vậy cần phải có nhiều cố gắng
để tập trung vào phân tích nội dung của các tài liệu lƣu trữ và vấn đề sinh từ
khóa, chỉ mục.
Ở đây, sẽ không thực tế nếu coi trọng truy vấn trên cơ sở đối sánh
chính xác giữa câu truy vấn và các thuật ngữ tài liệu để tìm ra tài liệu kết
quả. Thay vì, truy vấn các mục liên quan với đủ mức độ tƣơng đồng giữa tập
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

Một số kĩ thuật tìm kiếm văn bản theo nội dung

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về