Tải bản đầy đủ (.pdf) (80 trang)

Một số kỹ thuật tìm kiếm văn bản theo nội dung

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (878.31 KB, 80 trang )

ĐẠI HỌC THÁI NGUYÊN 
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG 

ĐỖ TẤT HƯNG

 
MỘT SỐ KỸ THUẬT TÌM KIẾM VĂN BẢN THEO NỘI DUNG
 
 
 
 
 
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH 
 
 

 
 
 
 
Thái Nguyên - 2015


ĐẠI HỌC THÁI NGUYÊN 
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG 

ĐỖ TẤT HƯNG
 
 
 
 


MỘT SỐ KỸ THUẬT TÌM KIẾM VĂN BẢN THEO NỘI DUNG
 
Chuyên ngành: Khoa học máy tính 
Mã số: 60 48 01 
 
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH 
 
NGƯỜI HƯỚNG DẪN KHOA HỌC

CHỦ TỊCH HỘI ĐỒNG

TS. TRƯƠNG HÀ HẢI

PGS. TS. NGÔ QUỐC TẠO

 
Thái Nguyên - 2015


 

iii

LỜI CAM ĐOAN
 
Em  xin  cam  đoan:  Luận  văn  thạc  sĩ  Khoa  học  máy  tính “Một số kỹ
thuật tìm kiếm văn bản theo nội dung” này là công trình nghiên cứu thực 
sự của cá nhân em, được thực hiện trên cơ sở nghiên cứu lý thuyết và dưới sự 
hướng dẫn khoa học của Tiến sĩ Trương Hà Hải, Trường Đại học Công nghệ 
Thông tin và Truyền thông. 

Em xin chịu trách nhiệm về lời cam đoan này. 
 
 

Thái Nguyên, ngày 6 tháng 7 năm 2015
Tác giả 

 
 
 

Đỗ Tất Hưng 


 

iv

LỜI CẢM ƠN
 
 

Để  hoàn  thành  luận  văn,  em  xin  chân  thành  cảm  ơn  Trường  Đại  học 

Công  nghệ  Thông  tin  và  Truyền  thông,  Phòng  Đào  tạo,  các  thầy,  cô  giáo 
giảng dạy lớp cao học Khoa học máy tính K12E đã quan tâm, tạo điều kiện 
thuận  lợi,  tận  tình  giảng  dạy  và  giúp  đỡ  em  trong  thời  gian  theo  học  tại 
trường. 
 


Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến TS. Trương Hà Hải, 

người đã dành nhiều thời gian, tâm huyết hướng dẫn em trong suốt quá trình 
nghiên cứu và hoàn thành luận văn. 
  Em  cũng  xin  cảm  ơn  các  cán  bộ,  giảng  viên  đồng  nghiệp  ở  Trường 
Đại học Hùng Vương đã tạo điều kiện về thời gian để em có thể học tập và 
hoàn thành luận văn. 
 

Mặc dù đã cố gắng hết sức hoàn thiện luận văn, tuy nhiên luận văn vẫn 

còn nhiều thiếu sót, rất mong sự góp ý quý báu của quí thầy cô và các bạn đồng 
nghiệp! 
 
 
 

Xin trân trọng cảm ơn! 
Thái Nguyên, ngày 6 tháng 7 năm 2015
Tác giả 

 
 
 
 
 

Đỗ Tất Hưng 



 

v

MỤC LỤC
 

Trang 

LỜI CAM ĐOAN ......................................................................................... iii 
LỜI CẢM ƠN ............................................................................................... iv 
MỤC LỤC ..................................................................................................... v 
DANH MỤC BẢNG ................................................................................... viii 
DANH MỤC HÌNH VẼ ................................................................................ ix 
MỞ ĐẦU ....................................................................................................... 1 
CHƯƠNG I. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN ...... 4 
1.1 Cơ sở dữ liệu (CSDL) đa phương tiện ...................................................... 4 
1.1.1 Giới thiệu .............................................................................................. 4 
1.1.2 Mục tiêu chính ....................................................................................... 5 
1.1.3 Mô hình dữ liệu đa phương tiện ............................................................. 5 
1.1.4 Trích chọn đặc trưng, chỉ mục và đo tính tương tự ................................ 7 
1.1.5 Hệ thống tìm kiếm thông tin (IR) ......................................................... 13 
1.1.6 Xếp hạng tài liệu (Ranking) ................................................................. 19 
1.2 Bài toán tìm kiếm văn bản ...................................................................... 23 
CHƯƠNG II. MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM VĂN BẢN THEO NỘI 
DUNG .......................................................................................................... 26 
2.1 Mô hình Boolean .................................................................................... 26 
2.2 Mô hình tìm kiếm không gian vector  ..................................................... 27 
2.3 Mô hình tìm kiếm theo xác suất .............................................................. 30 
2.4 Mô hình tìm kiếm dựa trên cơ sở cụm  ................................................... 30 

2.5.1 Ý tưởng cơ bản của LSI ....................................................................... 33 
2.5.2 Một số khái niệm cơ bản...................................................................... 39 
2.5.3 Kỹ thuật phân tích SVD ....................................................................... 41 
CHƯƠNG III. ỨNG DỤNG THỬ NGHIỆM ............................................... 55 
3.1 Bài toán .................................................................................................. 55 


 

vi

3.2 Chức năng của chương trình thử nghiệm ................................................ 57 
3.3 Hoạt động cơ bản trong chương trình ..................................................... 65 
3.4 So sánh các mô hình tìm kiếm ................................................................ 67 
KẾT LUẬN .................................................................................................. 69 
1.  Kết luận ................................................................................................ 69 
2.  Hướng phát triển................................................................................... 69 
TÀI LIỆU THAM KHẢO ............................................................................ 71 
 


 

vii

DANH MỤC TỪ VIẾT TẮT
CSDL  

 


Cơ sở dữ liệu 

IDF    

 

Inverse Document Frequency 

IR 

 

 

Information Retrieval 

LSI   

 

Latent Semantic Indexing 

MDMS  

 

MultiMedia DataBase Manager System 

MIRS  


 

Multimedia Information Retrieval System 

SVD   

 

Singular value decomposition 

TF 

 

Term Frequency 

 


 

viii

DANH MỤC BẢNG
Bảng 1.1 Ma trận tài liệu - thuật ngữ ............................................................ 21 
Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF ................................... 22 
Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu ........................ 23 
Bảng 2.1 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu ........................... 43 



 

ix

DANH MỤC HÌNH VẼ
Hình 1.1 Mô hình dữ liệu đa phương tiện ....................................................... 6 
Hình 1.2 Mô hình xử lý cho hệ thống lập chỉ mục ........................................ 11 
Hình 1.3 Mô hình tổng quát tìm kiêm thông tin ............................................ 15 
Hình 1.4 Tiến trình truy vấn tài liệu ............................................................. 17 
Hình 1.5 Hệ thống IR tiêu biểu ..................................................................... 25 
Hình 2.1 Sử dụng các khái niệm cho truy vấn .............................................. 34 
Hình 2.2 Các vector văn bản theo mô hình LSI ............................................ 39 
Hình 2.3 Biểu diễn ma trận xấp xỉ Ak có hạng là k ...................................... 42 
Hình 2.4 Biểu đồ 2-D của 16 thuật ngữ và 17 tài liệu từ tập mẫu.  ................ 44 
Hình 2.5 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ- tài liệu. ...... 45 
Hình 2.6 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu . 46 
Hình 2.7 Đồ thị Recall – Precision của thuật toán LSI .................................. 54 
Hình 3.1 Kiến trúc mô hình tìm kiếm LSI .................................................... 65 
Hình 3.2 Giao diện cấu hình ......................................................................... 66 
Hình 3.3 Giao diện tìm kiếm  ....................................................................... 66 
Hình 3.4 Giao diện kết quả tìm kiếm ............................................................ 67 
 


 

1

MỞ ĐẦU
Việc tìm kiếm và lưu trữ thông tin từ xa xưa đã được con người chú 

trọng  và  quan  tâm.  Ngày  nay,  với  sự  phát  triển  nhanh  chóng  của  lĩnh  vực 
thông tin và Internet đã tạo ra  một khối lượng thông tin vô cùng lớn với sự 
phong  phú,  đa  dạng  và  phức  tạp  của  các  loại  hình  như:  văn  bản,  hình  ảnh, 
video, siêu văn bản, đa phương tiện…Vấn đề tìm kiếm thông tin đa phương 
tiện hiện  vẫn  được  các  chuyên  gia nghiên  cứu  trong việc  truy  tìm  thông tin 
phù hợp với yêu cầu của người sử dụng. 
Văn bản là một trong số các dạng của dữ liệu đa phương tiện. Nó đã 
được quan tâm từ hàng nghìn năm trước trong việc tổ chức, sắp xếp và lưu trữ 
các loại hình tài liệu. Cho đến nay, tài liệu dưới dạng văn bản vẫn chiếm đa số 
trong mọi cơ quan, tổ chức, đặc biệt là trong thư viện. Đồng thời, văn bản còn 
được sử dụng để mô tả các dạng khác của dữ liệu đa phương tiện như video, 
audio, hình ảnh. Xuất phát từ nhu cầu thực tế sử dụng, số lượng tài liệu văn 
bản dạng số hóa hiện nay ngày càng lớn và được sử dụng rất phổ biến. Vì vậy 
việc lưu trữ, xử lý và truy tìm thủ công trước đây đã gặp rất nhiều khó khăn, 
không thể hoặc khó có thể thực hiện và tìm kiếm được, hoặc có thể tìm kiếm 
được  nhưng  hiệu  quả  không  cao. Chính  vì  vậy,  việc tìm  kiếm  văn  bản  theo 
nội dung có vai trò hết sức quan trọng. 
Cùng với sự ra đời và phát triển của máy tính, các công cụ xử lý cũng 
ngày càng hoàn  thiện dựa trên những kỹ thuật hiện đại để phục vụ cho nhu 
cầu đó. Các mô hình truy tìm thường được sử dụng trong phạm vi này, đó là: 
Đối  sánh  chính  xác,  không  gian  vector,  xác  suất  và  trên  cơ  sở  cụm.  Song, 
nhược điểm cơ bản của các mô hình truy tìm thông tin hiện nay là những từ 
mà người tìm kiếm sử dụng, thường không giống với những từ đã được đánh 
chỉ  mục  trong  thông tin tìm  kiếm. Vấn đề  này liên quan nhiều đến hai khía 
cạnh  thực  tế:  Thứ  nhất  là  tính  đồng  nghĩa  (synonymy)-  cùng  một  thông  tin 


 

2


nhưng được miêu tả bằng các từ khác nhau, phụ thuộc vào ngữ cảnh hay mức 
độ cần thiết, ví dụ như: nhìn, xem, trông, thấy có cùng ý nghĩa; khía cạnh thứ 
hai tính đa nghĩa (polysemy) – cùng một từ có nhiều ý nghĩa khác nhau trong 
ngữ cảnh khác nhau, ví dụ như: đi (có thể là chỉ chuyển động hay chỉ sự mất 
mát). Kết quả truy tìm có thể gồm những tài liệu không liên quan, đơn giản vì 
những thuật ngữ xuất hiện ngẫu nhiên trong nó giống với thuật ngữ trong truy 
vấn và mặt khác, những tài liệu liên quan có thể bị bỏ qua bởi không chứa 
các thuật ngữ xuất hiện trong truy vấn (do tính đồng nghĩa). Một ý tưởng thú 
vị xét xem liệu việc truy tìm có thể dựa vào các khái niệm có hiệu quả hơn 
là trên các thuật ngữ, đó là mô hình LSI (Latent Semantic Indexing) dựa trên 
kỹ thuật phân tích ma trận SVD (singular value decomposition), là các giải 
pháp hữu hiệu cho vấn đề truy tìm thông tin dựa trên cơ sở nội dung tài liệu 
văn  bản,  tìm  kiếm  trên  cơ  sở  những  khái  niệm  (không  phải  trên  các  thuật 
ngữ đơn).  
Luận văn này tập trung nghiên cứu về lớp bài toán tìm kiếm nội dung 
văn  bản,  một số kỹ thuật tìm  kiếm văn bản, cài  đặt chương trình  mô phỏng 
mô hình tìm kiếm văn bản theo nội dung dựa trên phân tích SVD và ứng dụng 
vào công việc xử lý, tìm kiếm văn bản tại Trường Đại học Hùng Vương. 
Bố cục của luận văn bao gồm các chương sau:
Luận văn được trình bày thành 3 phần bao gồm: phần mở đầu, phần nội 
dung và phần kết luận 
Phần mở đầu: Giới thiệu khái quát về đề tài, mục tiêu, ý nghĩa khoa học 
và xã hội mang lại thông qua việc giải quyết các vấn đề được nêu trong đề tài. 
Phần nội dung:  
Chương 1. Tổng quan về cơ  sở dữ liệu đa phương tiện: Giới thiệu tổng
quan về cơ sở dữ liệu đa phương tiện, xếp hạng tài liệu và bước cơ bản phục vụ


 


3

cho việc tìm kiếm thông tin. Khái quát về một hệ thống truy tìm thông tin (IR)
tiêu biểu và cụ thể là truy tìm tài liệu văn bản.
Chương 2. Một số vấn đề về tìm kiếm  văn bản  theo nội  dung: Đề cập
đến vấn đề chỉ mục tài liệu và thước đo hiệu năng. Nghiên cứu một số mô
hình tìm kiếm như: Boolean, không gian vector, mô hình truy tìm theo xác
suất, phương pháp LSI, kỹ thuật phân tích ma trận SVD.  
Chương 3. Ứng dụng thử nghiệm: Cài đặt thử nghiệm một số mô hình
tìm kiếm văn bản ứng dụng cho công việc tìm kiếm văn bản tại Trường Đại
học Hùng Vương. 
Phần kết luận: Trình bày kết quả mà luận văn đạt được và hướng phát
triển cho mô hình mà luận văn đã đề xuất. 


 

4

CHƯƠNG I
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
1.1 Cơ sở dữ liệu (CSDL) đa phương tiện [1] [4] [8]
1.1.1 Giới thiệu
Dữ liệu đa phương tiện được chia thành hai lớp là các dữ liệu liên tục 
và các  dữ liệu không  liên tục. Các dữ liệu liên tục bao gồm  các  dữ liệu âm 
thanh, video thay đổi theo thời gian. Các dữ liệu không liên tục là các dữ liệu 
không phụ thuộc vào thời gian, các loại dữ liệu đặc trưng cho dạng này là các 
dữ liệu văn bản (có hoặc không có định dạng), hình ảnh tĩnh và các đối tượng 
đồ họa. Các kiểu dữ liệu thông thường của một CSDL multimedia bao gồm:  

• Dữ liệu văn bản (có hoặc không có định dạng).  
• Đồ họa: là các bản vẽ, minh họa được mã hóa như các tệp postscript.  
• Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thức chuẩn 
như là JPEG hoặc JPG.  
• Các hoạt hình.  
• Âm thanh.  
• Video.  
Các đặc tính chung của dữ liệu đa phương tiện bao gồm:  
• Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hướng phi cấu trúc 
vì  vậy  các  tác  nghiệp  quản  trị  dữ  liệu  chuẩn  như  chỉ  số  hoá,  tìm  kiếm  nội 
dung, truy vấn dữ liệu thường là không áp dụng được.  
• Tính tạm thời: Một vài kiểu dữ liệu đa phương tiện như là video, âm 
thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian liên quan mật thiết đến 
việc lưu trữ, thao tác và mô tả chúng.  


 

5

• Có dung lượng lớn: các dữ liệu video và âm thanh thường đòi hỏi các 
thiết bị lưu trữ lớn.   
•  Các  ứng  dụng  hỗ  trợ:  các  dữ  liệu  phi  chuẩn  có  thể  đòi  hỏi  các  quy 
trình xử lý phức tạp như việc sử dụng các thuật toán nén dữ liệu đối với các 
ứng dụng CSDL đa phương tiện.  
1.1.2 Mục tiêu chính
Cơ sở dữ liệu đa phương tiện bao gồm năm mục tiêu chính như sau: 
- Hỗ trợ các kiểu dữ liệu đa phương tiện: các phương tiện (media) khác 
nhau và các thao tác thông thường cũng như các thao tác đặc biệt mà kiểu dữ 
liệu thông thường không có như tiến, lùi, dừng... 

- Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện: đề 
cập đến không gian lưu trữ của CSDL. 
- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả. 
- Có các khả năng của hệ CSDL truyền thống. 
- Có khả năng truy tìm thông tin đa phương tiện.
1.1.3 Mô hình dữ liệu đa phương tiện [1] [4]
Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình 
thành trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng.  
Tầng đối tượng
Đối tượng bao gồm một hay nhiều mục media với các quan hệ không 
gian và thời gian xác định, như với một đối tượng đa phương tiện là một trang 
bao gồm một vài hình ảnh và âm thanh kèm theo. 
Nhiệm vụ mấu chốt là làm thế nào để chỉ ra các quan hệ không gian và 
thời gian. Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển 
thị của mỗi mục. Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở trục 


 

6

thời gian, trong đó thời gian bắt đầu và độ dài mỗi mục được xác định trên cơ 
sở đồng hồ chung. Phương pháp khác là mô hình điều khiển theo sự kiện. 
Tầng loại media
Tầng  này  bao  gồm  các  loại  media  như  văn  bản,  hình  ảnh,  audio  và 
video. Các loại này được suy diễn từ lớp media trừu tượng chung. 
Tại mức này, các đặc trưng và thuộc tính được đặc tả. Ví dụ loại media 
ảnh: kích thước, biểu đồ màu, các đối tượng chính chứa trong nó... được đặc 
tả.  Các  đặc  trưng  này  được  sử  dụng  trực  tiếp  vào  tìm  kiếm  và  tính  toán 
khoảng cách. 

Không gian 

Thời gian 

Văn bản 

Thô 

Đa mức 
xám 

Hình ảnh 

Tổng hợp 

Âm thanh 

Video 

Nén 

Màu 

Tầng đối
tượng 

Tầng loại 
media 

Tầng 

khuôn 
mẫu media 
JPEG 

JPIG 

DPCM 

 
Hình 1.1 Mô hình dữ liệu đa phương tiện
Tầng khuôn mẫu media
Tầng  này  đặc  tả  khuôn  mẫu,  trong  đó  dữ  liệu  được  lưu  trữ.  Thông 
thường, media có nhiều khuôn mẫu, ví dụ ảnh có thể là nén hay ảnh thô. Hơn 
nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau. Thông tin chứa trong tầng 
này được sử dụng để giải mã, phân tích và trình diễn. 


 

7

Chú  ý  rằng,  các  ứng  dụng  khác  nhau  có  thể  cần  các  mô  hình  dữ  liệu 
khác nhau. Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu 
được thiết kế tốt thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng 
yêu cầu ứng dụng cụ thể. 
Đến nay, chưa có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên. 
Bởi các ứng dụng MIRS hiện nay chủ  yếu là đặc thù, chỉ tập trung vào giới 
hạn số đặc trưng và loại media. Rất nhiều công việc phải làm khi mô hình hóa 
dữ  liệu  đa  phương  tiện  để  phát  triển  MIRS  và  MMDBMS  (MultiMedia
DataBase Manager System) lớn nhất quán. 

1.1.4 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1] [4]
1.1.4.1 Trích chọn đặc trưng:
Trong các MIRS, một trong những vấn đề quan trọng nhất là trích chọn 
đặc  trưng  hoặc  biểu  diễn  nôi  dung  (cái  gì  là  những  nét  đặc  trưng  hoặc  nội 
dung chính trong một khoản mục multimedia). Trích rút  đặc trưng có thể là 
quá trình tự  động hay bán tự  động.  
Trong tiến trình tìm kiếm, các đặc trưng và thuộc tính này được tìm kiếm 
và so sánh thay cho chính các mục thông tin. Do vậy, chất lượng của trích chọn 
đặc  trưng  xác  định hiệu  quả  tìm  kiếm.  Nếu  đặc  trưng  không  được  tách  ra  từ 
mục nào thì không thể tìm thấy chúng từ CSDL theo đặc trưng đó. Đó là một 
trong sự khác biệt lớn nhất giữa MIRS và DBMS. Trong DBMS thì mọi thuộc 
tính là có sẵn và đầy đủ, trong khi đó các đặc trưng và thuộc tính phải được 
trích chọn theo loại truy vấn và thường là không đầy đủ trong MIRS. 
Trích chọn đặc trưng phải thỏa mãn các yêu cầu sau: 
-  Đặc  trưng  và  thuộc  tính  trích  chọn  phải  đầy  đủ  nhất  có  thể  để  biểu 
diễn nội dung của các mục thông tin. 


 

8

- Các đặc trưng phải được trình diễn và lưu trữ một cách chặt chẽ, mạch 
lạc.  Các  đặc trưng phức  tạp  và đặc  trưng  lớn  không phải là  mục đích của  trích 
chọn, nó phải có khả năng tìm kiếm và so sánh nhanh các mục thông tin với nhau. 
- Tính toán khoảng cách giữa các đặc trưng phải hiệu quả, nếu không 
thời gian đáp ứng của hệ thống rất lớn. 
Tổng thể có 4 mức đặc trưng và thuộc tính như sau: 
Metadata:  bao  gồm  các  thuộc  tính  của  các  đối  tượng  đa  phương  tiện 
như tên tác giả, ngày tạo lập, tiêu đề đối tượng. Không mô tả hay diễn giải nội 

dung của đối tượng. Các thuộc tính này được quản lý bằng kỹ thuật DBMS.  
Mô tả bằng văn bản: Mô tả nội dung đối tượng bằng văn bản. Mô tả 
dưới hình thức nhiều từ khóa hay văn bản thông thường. Chỉ mục và tìm kiếm 
trên cơ sở mô tả bằng văn bản được quản lý bằng kỹ thuật IR. Mặc dù mô tả 
bằng văn bản có hạn chế là còn tính chủ quan và chưa đầy đủ, nhưng đây vẫn 
là phương pháp hay được sử dụng và hiệu quả. Nên sử dụng mô tả bằng văn 
bản kết hợp với các đặc trưng khác trong ứng dụng đa phương tiện. Hiện tại, 
mô tả văn bản là tiến trình bằng tay, khá vất vả. Cần phát triển các công cụ 
bán tự động để hỗ trợ tiến trình này. Tri thức lĩnh vực và từ điển liệt kê luôn 
có ích trong việc đem lại hiệu quả truy vấn. 
Đặc trưng nội dung mức thấp:  Thu  thập  các  mẫu  và  thống  kê  đối 
tượng đa phương tiện và các quan hệ không gian, thời gian giữa các phần đối 
tượng. Mỗi media khác nhau có các đặc trưng nội dung mức thấp khác nhau.  
-  Với  âm  thanh,  đặc  trưng  mức  thấp  bao  gồm  âm  lượng  trung  bình, 
phân bổ tần số và tỷ lệ câm.  
- Các đặc trưng mức thấp của ảnh bao gồm phân bổ màu, texture, hình 
dạng đối tượng và cấu trúc không gian.  
- Đặc trưng mức thấp của video bao gồm cấu trúc thời gian.  


 

9

Lợi  thế  chính  của việc  sử dụng đặc trưng  mức  thấp là  có thể tự động 
trích chọn chúng. 
Đặc trưng nội dung mức cao:  Cố gắng nhận biết và  hiểu đối  tượng. 
Ngoài nhận dạng văn bản và tiếng nói, việc nhận dạng và hiểu đoạn âm thanh 
và các đối tượng nhìn là rất khó khăn. Trong ứng dụng với giới hạn số lượng 
đối tượng, việc mô tả và nhận biết các đối tượng chung là rất hiệu quả. Ví dụ, 

dự báo tới 95% các video có mục tiêu chính là quay người hay nhóm người. 
Nó hữu ích cho  các hệ thống để nhận biết và diễn  giải  con người.  Hiện tại, 
tiến trình nhận dạng và diễn giải được thực hiện bán tự động. 
Việc truy vấn trên cơ sở hai loại đặc trưng nội dung mức thấp và mức 
cao gọi là truy vấn trên cơ sở nội dung. Một hệ thống cần sử dụng toàn bộ bốn 
mức đặc trưng sao cho hỗ trợ được các câu truy vấn mềm dẻo của người sử 
dụng. Các kỹ thuật này hỗ trợ nhau để hình thành mô tả đầy đủ về đối tượng. 
Ví dụ, mô tả văn bản tốt cho việc thu thập các khái niệm trừu tượng như cảm 
giác (vui, buồn...) nhưng không có khả năng mô tả mẫu dữ liệu đầy đủ về các 
hình dạng không đều hay texture. Mặt khác, các đặc trưng nội dung mức thấp 
có thể thu thập các mẫu dữ liệu này nhưng không mô tả được các khái niệm 
trừu tượng. 
Khi  đối  tượng  đa  phương  tiện  có  nhiều  kiểu  media,  các  quan  hệ  và 
tương tác giữa các media phải được sử dụng để trích chọn đặc trưng, diễn giải 
và truy tìm. Có một vài kiểu media dễ hiểu và dễ diễn giải hơn vài kiểu khác, 
ta có thể sử dụng sự hiểu biết về một hay vài kiểu giúp hiểu và trích chọn đặc 
trưng cho các kiểu khác. Ví dụ, nếu đối tượng đa phương tiện bao gồm rãnh 
hình (video) và rãnh tiếng, ta có thể áp dụng nhận dạng tiếng nói để lấy ra tri 
thức về đối tượng và sử dụng tri thức này để phân đoạn, trích chọn các đặc 
trưng và đối tượng trên rãnh hình (video). 


 

10

1.1.4.2 Chỉ mục:
Từ  nội  dung  của  các  tài  liệu  riêng  rẽ  trong  tập  tài  liệu  hệ  thống  tìm 
kiếm thông tin có nhiệm vụ tách nội dung đó thành các từ riêng biệt và tổng 
hợp chúng thành một danh sách các từ riêng biệt có trong tập tài liệu. Sau khi 

có được tập  các  từ đã  được trích, ta  sẽ chọn các từ để làm từ chỉ  mục.  Tuy 
nhiên, không phải từ nào cũng được chọn làm từ chỉ mục. Các từ có khả năng 
đại  diện  cho  tài  liệu  sẽ được  chọn,  các  từ  này  được gọi  là key  word, do  đó 
trước khi lập chỉ mục sẽ là giai đoạn tiền xử lý đối với các từ trích được để 
chọn ra các keyword thích hợp. Ta sẽ loại bỏ danh sách các từ ít có khả năng 
đại diện cho nội dung văn bản dựa vào danh sách gọi là từ dừng (stoplist). Đối 
với tiếng Anh hay tiếng Việt đều có danh sách stop list. 
+ Chỉ mục tự động cho tiếng Anh: 
Một quá trình đơn giản để lập chỉ mục cho tài liệu có thể được mô tả 
như sau:  
 Trước hết, xác định tất cả các từ tạo thành tài liệu. Trong tiếng Anh, chỉ 
đơn giản là tách từ dựa vào khoảng trắng.  
 Loại bỏ các từ có tần số xuất hiện cao. Những từ này chiếm khoảng 4050% các từ, chúng có độ phân biệt kém do đó không thể sử dụng để đại 
diện cho nội dung của tài  liệu. Trong tiếng Anh,  các từ này  có khoảng 
250 từ, do đó, để đơn giản có thể lưu chúng vào stoplist.  
 Sau khi loại bỏ các từ có trong stop list, xác định các từ chỉ mục “tốt”.  
Trước  hết  cần loại bỏ  các hậu  tố  để đưa  về  từ gốc,  ví  dụ các  từ như: 
analysis, analyzing, analyzer, analyzed, analysing có thể chuyển về từ gốc là 
“analy.” Từ gốc sẽ có tần số xuất hiện cao hơn so với các dạng thông thường 
của nó. Nếu sử dụng từ gốc làm chỉ mục, ta có thể thu được nhiều tài liệu có 
liên quan hơn là sử dụng từ ban đầu của nó.  


 

11

Đối với tiếng Anh, việc loại bỏ hậu tố có thể được thực hiện dễ dàng 
bằng cách sử dụng danh sách các hậu tố có sẵn (Suffix List).  
Sau khi có được danh sách các từ gốc, sử dụng phương pháp dựa vào 

tần số (frequency – based) để xác định tầm quan trọng của các từ gốc này.  
Trong hệ thống chỉ mục có trọng số, trọng số của một từ được sử dụng 
để  xác  định  tầm  quan  trọng  của  từ  đó.  Mỗi  tài  liệu  được  biểu  diễn  là  một 
vector:  
Di = (di1, di2, …, dit) trong đó dij là trọng số của từ j trong tài liệu Di.  
Mô hình xử lý tổng quát của một hệ thống được trình bày như sau: 

Danh sách các tài 
liệu cần lập chỉ mục 

Lọc các thông tin thừa, chuyển 
tài liệu về dạng văn bản 

Từ điển 

Tách văn bản thành các từ 
Danh sách  
các stop word 

Loại bỏ stop word 

Tính trọng số và loại bỏ những 
từ có trọng số thấp 

Loại bỏ hậu tố 
CSDL chỉ mục 
thông tin 

Danh sách 
các hậu tố 


Lập chỉ mục 

Hình 1.2 Mô hình xử lý cho hệ thống lập chỉ mục
+ Chỉ mục cho tài liệu tiếng Việt  
Lập chỉ mục cho tài liệu tiếng Việt cũng tương tự như cho tiếng 
Anh tuy nhiên có những khó khăn sau:  


 

12

 Xác định ranh giới giữa các từ (đơn, láy, ghép) trong câu. Đối với tiếng 
Anh điều này quá dễ dàng vì khoảng trắng chính là ranh giới phân biệt 
các từ, ngược lại tiếng Việt thì khoảng trắng không phải là ranh giới để 
xác định các từ mà chỉ là ranh giới để xác định các tiếng (Ví dụ: từ “hợp 
tác xã” - có 3 âm tiết). 
 Chính tả tiếng Việt còn có một số trường hợp “bất qui tắc” như sử dụng 
"y" hay "i" (ví dụ "quý" hay "quí", “Địa lí” hay “Địa lý”), cách bỏ dấu 
("Thuý" hay Thúy"), cách viết hoa tên riêng ("Đại học Hùng Vương" hay 
"Đại Học Hùng Vương")... đòi hỏi quá trình hiệu chỉnh chính tả cho văn 
bản cần lập chỉ mục và cho từ điển chỉ mục.  
 Tồn tại nhiều bảng mã tiếng Việt đòi hỏi khả năng xử lý tài liệu ở các 
bảng mã khác nhau. Cách giải quyết là đưa tất cả về bảng mã chuẩn của 
hệ thống.  
 Sự phong phú về nghĩa của một từ (từ đa nghĩa – từ đa nghĩa). Một từ có 
thể có nhiều nghĩa khác nhau trong những ngữ cảnh khác nhau liên quan 
đến từ loại trong tiếng Việt nên việc tìm kiếm khó có được kết quả với 
độ chính xác cao. Ví dụ: thiết tha, nghĩa gốc là tính từ chỉ mức độ tình 

cảm gắn bó nhưng trong một số trường hợp lại là động từ chỉ hành động 
“Cảnh buồn người thiết tha lòng”, thiết tha ở đây lại có nghĩa là đau xót, 
cắt cứa vào lòng. 
 Từ  đồng nghĩa hoặc từ gần  nghĩa: có nhiều từ  khác nhau nhưng  lại  có 
cùng ý  nghĩa, hoặc  có  nghĩa gần  như  nhau.  Ví  dụ:  chết,  ngã  xuống, hi 
sinh, qua đời,… có chung ý nghĩa là con người đã tắt thở. Do đó, việc 
tìm kiếm theo từ khoá thường không tìm thấy các websites chứa từ đồng 
nghĩa hoặc  gần  nghĩa  với từ  cần  tìm.  Vì  vậy,  việc  tìm  kiếm  cho  ra kết 
quả không đầy đủ.   


 

13

 Có quá nhiều từ mà mật độ xuất hiện cao nhưng không mang ý nghĩa cụ 
thể nào mà chỉ là những từ nối, từ đệm hoặc chỉ mang sắc thái biểu cảm 
như  những  từ  láy.  Những  từ  này  cần  phải  được  xác  định  và  loại  bỏ  ra 
khỏi  tập  các  mục  từ.  Nó  giống  như  stop  word  trong  tiếng  Anh.  Ví  dụ: 
tuy, và, nhưng, thế, là, duy nhất, … 
 Các văn bản có nội dung chính là một vấn đề cụ thể, một đề tài nghiên 
cứu khoa học nhưng đôi khi trọng số của các từ chuyên môn này thấp so 
với toàn tập tài liệu. Vì vậy, một số thuật toán tính trọng số bỏ sót những 
trường hợp như vậy. Kết quả là các từ chuyên  môn đó không được lập 
chỉ mục.  
 Trong các vấn đề trên thì vấn đề xác định ranh giới từ trong câu là quan 
trọng nhất vì nó ảnh hưởng lớn đến hiệu quả của quá trình lập chỉ mục 
(nếu quá trình tách từ sai có nghĩa là nội dung của câu bị phân tích sai) 
và cũng là vấn đề khó khăn nhất. Các vấn đề còn lại chỉ là thuần tuý về 
mặt kỹ thuật mà hầu như chúng ta có thể giải quyết một cách triệt để.   

1.1.4.3 Đo tính tương tự:
Truy  vấn  đa  phương  tiện  trên  cơ  sở  tính  tương  tự  thay  cho  đối  sánh 
chính xác giữa các item truy vấn và các item trong CSDL. Tính tương tự được 
tính toán trên cơ sở các đặc trưng, thuộc tính trích chọn và dưới dạng một hay 
nhiều giá trị. Tuy nhiên, tương quan của kết quả truy vấn do con người quyết 
định. Các kiểu đặc trưng được sử dụng để mô tả các đối tượng đóng vai trò 
quan trọng để phù hợp với yêu cầu này. Thước đo tính tương tự rất phức tạp 
vì quyết định của người sử dụng là chủ quan và phụ thuộc ngữ cảnh. 
1.1.5 Hệ thống tìm kiếm thông tin (IR) [5][6]
Các hệ thống tự động tìm kếm thông tin (IR) đã được phát triển để quản 
lý khối lượng lớn tài liệu từ những năm 40 của thế kỷ XX. Chức năng chính 
của hệ thống IR là lưu trữ và quản trị khối lượng văn bản lớn theo cách sao 


 

14

cho dễ dàng truy vấn (query) tài liệu mà người sử dụng quan tâm. Sau đây là 
định nghĩa về hệ thống tìm kiếm thông tin của một số tác giả: 
Salton (1989):
“Hệ thống tìm kiếm thông tin xử lý các tập tin lưu trữ và những yêu cầu 
về  thông  tin,  xác  định  và  tìm  từ  các  tập  tin  những  thông  tin  phù  hợp  với 
những yêu cầu về thông tin. Việc tìm kiếm những thông tin đặc thù phụ thuộc 
vào sự tương tự giữa các thông tin được lưu trữ và các yêu cầu, được đánh giá 
bằng cách so sánh các giá trị của các thuộc tính đối với thông tin được lưu trữ 
và các yêu cầu về thông tin.” 
Kowalski (1997):
“Hệ  thống  tìm  kiếm  thông tin là  một  hệ  thống  có khả năng  lưu  trữ, 
tìm kiếm và duy trì thông tin. Thông tin trong những trường hợp này có thể 

bao  gồm  văn  bản,  hình  ảnh,  âm  thanh,  video  và  những  đối  tượng  đa 
phương tiện khác.” 
Tìm kiếm thông tin là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp 
giúp  người  sử  dụng  có  thể  tìm  thấy  các  thông  tin  mình  cần  trong  một  khối 
lượng lớn dữ liệu. Nhiệm vụ  của một hệ thống  tìm  kiếm  thông tin tương tự 
như nhiệm vụ tổ chức phân loại tài liệu và phục vụ việc tra cứu của một thư 
viện. Một hệ thống tìm kiếm thông tin có hai chức năng chính: lập chỉ  mục 
(indexing) và tra cứu (interrogation). Lập chỉ mục là giai đoạn phân tích tài 
liệu (document) để xác định các chỉ mục (term/index term) biểu diễn nội dung 
của tài  liệu.  Việc lập  chỉ  mục  có  thể dựa vào  một  cấu trúc  phân  lớp  có  sẵn 
(control vocabulary) như cách làm của các nhân viên thư viện, phân loại tài 
liệu theo một bộ phân loại cho trước. Các chỉ mục trong cách làm này là tồn 
tại trước và độc lập với tài liệu. Cách thứ hai để lập chỉ mục là rút trích các 
chỉ mục từ chính nội dung của tài liệu (free text). Trong luận văn này tác giả 
chỉ đề cập đến cách thứ hai này. Cuối giai đoạn lập chỉ mục nội dung của các 


 

15

tài liệu có trong kho tài liệu (corpus) được biểu diễn bằng tập các chỉ mục. 
Mô hình tổng quát tìm kiếm thông tin (Hình 1.3)
Mô hình gồm 4 thành phần: 
 Mô hình yêu cầu: Sử dụng để biểu diễn yêu cầu của người sử dụng. 
 Mô hình tài liệu: Biểu diễn  trừu  tượng  tài liệu thực và nội dung của
chúng. 
 Hàm ánh xạ (đối sánh): Xác định sự phù hợp của hệ thống đối với yêu cầu. 
 Tri thức: Biểu diễn các tri thức để  mô tả ngữ nghĩa thuộc lĩnh vực 
tài liệu. 

Trong đó:
D - Biểu diễn các tài liệu Docs  
Q - Biểu diễn câu truy vấn Query (yêu cầu) 
F- Khung mô hình hóa của D, Q và quan hệ giữa chúng  
R(q, di) - Hàm đối sánh hay xếp hạng 
Phù hợp với  
người sử dụng 
Người sử dụng 

Tài liệu 

Thế giới 

CSDL tài liệu 

Hệ thống 

Phù hợp  
hệ thống 
Các yêu cầu 

Mô hình 
yêu cầu 

Đối sánh 

Mô hình 
tài liệu 

Mô hình tìm 

kiếm thông 
tin 

Tri thức 
 
Hình 1.3 Mô hình tổng quát tìm kiếm thông tin


 

16

Quy trình của hệ tìm kiếm thông tin như sau:
 Người dùng muốn tìm một tài liệu liên quan đến một chủ đề nào đó 
 Người dùng cung cấp một mô tả chủ đề đó dưới dạng câu truy vấn 
 Từ câu truy vấn này, hệ thống sẽ lọc ra những cụm từ chỉ mục 
 Những  cụm  từ  chỉ  mục  này  sẽ  được  so  khớp  với  những  từ  chỉ  mục 
của văn bản đã được xử lý 
 Hệ thống sẽ trả về những văn bản có độ liên quan cao nhất. 
Mục  đích  của  IR  là  hiển  thị  một  tập  thông  tin  thỏa  mãn  nhu  cầu  của 
người  sử  dụng.  Chúng  ta  định  nghĩa  thông  tin  yêu  cầu  là  câu  truy  vấn 
(Query), thông tin tìm được là tài liệu (Document). Mục đích của hệ thống IR 
là tự động tìm kiếm các tài liệu bằng cách kiểm tra độ tương quan giữa câu 
truy vấn và đặc trưng của tài liệu. Kết quả thành công khi kết quả trả về của 
hệ thống phù hợp với yêu cầu của câu truy vấn. 
Hệ  thống  IR  gồm  các  bản  ghi  không  có  cấu  trúc.  Chúng  không  chứa 
các thuộc tính cố định. Nó chỉ đơn thuần là tài liệu văn bản. Các tài liệu này 
có thể chỉ mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) 
chỉ mục. Mỗi thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ 
theo một khía cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội 

dung văn bản. Nhiều thuật ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ 
thể. Bởi vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại 
diện, sử dụng để mô tả các bản ghi lưu trữ, do vậy cần phải có nhiều cố gắng 
để tập trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ 
khóa, chỉ mục. 
Ở  đây,  sẽ  không  thực  tế  nếu  coi  trọng  truy  vấn  trên  cơ  sở  đối  sánh 
chính xác  giữa  câu truy  vấn  và các thuật  ngữ tài  liệu để  tìm  ra tài  liệu  kết 
quả. Thay vì, truy vấn các mục liên quan với đủ mức độ tương đồng giữa tập 


×