ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
ĐỖ TẤT HƯNG
MỘT SỐ KỸ THUẬT TÌM KIẾM VĂN BẢN THEO NỘI DUNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên - 2015
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
ĐỖ TẤT HƯNG
MỘT SỐ KỸ THUẬT TÌM KIẾM VĂN BẢN THEO NỘI DUNG
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
CHỦ TỊCH HỘI ĐỒNG
TS. TRƯƠNG HÀ HẢI
PGS. TS. NGÔ QUỐC TẠO
Thái Nguyên - 2015
iii
LỜI CAM ĐOAN
Em xin cam đoan: Luận văn thạc sĩ Khoa học máy tính “Một số kỹ
thuật tìm kiếm văn bản theo nội dung” này là công trình nghiên cứu thực
sự của cá nhân em, được thực hiện trên cơ sở nghiên cứu lý thuyết và dưới sự
hướng dẫn khoa học của Tiến sĩ Trương Hà Hải, Trường Đại học Công nghệ
Thông tin và Truyền thông.
Em xin chịu trách nhiệm về lời cam đoan này.
Thái Nguyên, ngày 6 tháng 7 năm 2015
Tác giả
Đỗ Tất Hưng
iv
LỜI CẢM ƠN
Để hoàn thành luận văn, em xin chân thành cảm ơn Trường Đại học
Công nghệ Thông tin và Truyền thông, Phòng Đào tạo, các thầy, cô giáo
giảng dạy lớp cao học Khoa học máy tính K12E đã quan tâm, tạo điều kiện
thuận lợi, tận tình giảng dạy và giúp đỡ em trong thời gian theo học tại
trường.
Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến TS. Trương Hà Hải,
người đã dành nhiều thời gian, tâm huyết hướng dẫn em trong suốt quá trình
nghiên cứu và hoàn thành luận văn.
Em cũng xin cảm ơn các cán bộ, giảng viên đồng nghiệp ở Trường
Đại học Hùng Vương đã tạo điều kiện về thời gian để em có thể học tập và
hoàn thành luận văn.
Mặc dù đã cố gắng hết sức hoàn thiện luận văn, tuy nhiên luận văn vẫn
còn nhiều thiếu sót, rất mong sự góp ý quý báu của quí thầy cô và các bạn đồng
nghiệp!
Xin trân trọng cảm ơn!
Thái Nguyên, ngày 6 tháng 7 năm 2015
Tác giả
Đỗ Tất Hưng
v
MỤC LỤC
Trang
LỜI CAM ĐOAN ......................................................................................... iii
LỜI CẢM ƠN ............................................................................................... iv
MỤC LỤC ..................................................................................................... v
DANH MỤC BẢNG ................................................................................... viii
DANH MỤC HÌNH VẼ ................................................................................ ix
MỞ ĐẦU ....................................................................................................... 1
CHƯƠNG I. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN ...... 4
1.1 Cơ sở dữ liệu (CSDL) đa phương tiện ...................................................... 4
1.1.1 Giới thiệu .............................................................................................. 4
1.1.2 Mục tiêu chính ....................................................................................... 5
1.1.3 Mô hình dữ liệu đa phương tiện ............................................................. 5
1.1.4 Trích chọn đặc trưng, chỉ mục và đo tính tương tự ................................ 7
1.1.5 Hệ thống tìm kiếm thông tin (IR) ......................................................... 13
1.1.6 Xếp hạng tài liệu (Ranking) ................................................................. 19
1.2 Bài toán tìm kiếm văn bản ...................................................................... 23
CHƯƠNG II. MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM VĂN BẢN THEO NỘI
DUNG .......................................................................................................... 26
2.1 Mô hình Boolean .................................................................................... 26
2.2 Mô hình tìm kiếm không gian vector ..................................................... 27
2.3 Mô hình tìm kiếm theo xác suất .............................................................. 30
2.4 Mô hình tìm kiếm dựa trên cơ sở cụm ................................................... 30
2.5.1 Ý tưởng cơ bản của LSI ....................................................................... 33
2.5.2 Một số khái niệm cơ bản...................................................................... 39
2.5.3 Kỹ thuật phân tích SVD ....................................................................... 41
CHƯƠNG III. ỨNG DỤNG THỬ NGHIỆM ............................................... 55
3.1 Bài toán .................................................................................................. 55
vi
3.2 Chức năng của chương trình thử nghiệm ................................................ 57
3.3 Hoạt động cơ bản trong chương trình ..................................................... 65
3.4 So sánh các mô hình tìm kiếm ................................................................ 67
KẾT LUẬN .................................................................................................. 69
1. Kết luận ................................................................................................ 69
2. Hướng phát triển................................................................................... 69
TÀI LIỆU THAM KHẢO ............................................................................ 71
vii
DANH MỤC TỪ VIẾT TẮT
CSDL
Cơ sở dữ liệu
IDF
Inverse Document Frequency
IR
Information Retrieval
LSI
Latent Semantic Indexing
MDMS
MultiMedia DataBase Manager System
MIRS
Multimedia Information Retrieval System
SVD
Singular value decomposition
TF
Term Frequency
viii
DANH MỤC BẢNG
Bảng 1.1 Ma trận tài liệu - thuật ngữ ............................................................ 21
Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF ................................... 22
Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu ........................ 23
Bảng 2.1 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu ........................... 43
ix
DANH MỤC HÌNH VẼ
Hình 1.1 Mô hình dữ liệu đa phương tiện ....................................................... 6
Hình 1.2 Mô hình xử lý cho hệ thống lập chỉ mục ........................................ 11
Hình 1.3 Mô hình tổng quát tìm kiêm thông tin ............................................ 15
Hình 1.4 Tiến trình truy vấn tài liệu ............................................................. 17
Hình 1.5 Hệ thống IR tiêu biểu ..................................................................... 25
Hình 2.1 Sử dụng các khái niệm cho truy vấn .............................................. 34
Hình 2.2 Các vector văn bản theo mô hình LSI ............................................ 39
Hình 2.3 Biểu diễn ma trận xấp xỉ Ak có hạng là k ...................................... 42
Hình 2.4 Biểu đồ 2-D của 16 thuật ngữ và 17 tài liệu từ tập mẫu. ................ 44
Hình 2.5 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ- tài liệu. ...... 45
Hình 2.6 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu . 46
Hình 2.7 Đồ thị Recall – Precision của thuật toán LSI .................................. 54
Hình 3.1 Kiến trúc mô hình tìm kiếm LSI .................................................... 65
Hình 3.2 Giao diện cấu hình ......................................................................... 66
Hình 3.3 Giao diện tìm kiếm ....................................................................... 66
Hình 3.4 Giao diện kết quả tìm kiếm ............................................................ 67
1
MỞ ĐẦU
Việc tìm kiếm và lưu trữ thông tin từ xa xưa đã được con người chú
trọng và quan tâm. Ngày nay, với sự phát triển nhanh chóng của lĩnh vực
thông tin và Internet đã tạo ra một khối lượng thông tin vô cùng lớn với sự
phong phú, đa dạng và phức tạp của các loại hình như: văn bản, hình ảnh,
video, siêu văn bản, đa phương tiện…Vấn đề tìm kiếm thông tin đa phương
tiện hiện vẫn được các chuyên gia nghiên cứu trong việc truy tìm thông tin
phù hợp với yêu cầu của người sử dụng.
Văn bản là một trong số các dạng của dữ liệu đa phương tiện. Nó đã
được quan tâm từ hàng nghìn năm trước trong việc tổ chức, sắp xếp và lưu trữ
các loại hình tài liệu. Cho đến nay, tài liệu dưới dạng văn bản vẫn chiếm đa số
trong mọi cơ quan, tổ chức, đặc biệt là trong thư viện. Đồng thời, văn bản còn
được sử dụng để mô tả các dạng khác của dữ liệu đa phương tiện như video,
audio, hình ảnh. Xuất phát từ nhu cầu thực tế sử dụng, số lượng tài liệu văn
bản dạng số hóa hiện nay ngày càng lớn và được sử dụng rất phổ biến. Vì vậy
việc lưu trữ, xử lý và truy tìm thủ công trước đây đã gặp rất nhiều khó khăn,
không thể hoặc khó có thể thực hiện và tìm kiếm được, hoặc có thể tìm kiếm
được nhưng hiệu quả không cao. Chính vì vậy, việc tìm kiếm văn bản theo
nội dung có vai trò hết sức quan trọng.
Cùng với sự ra đời và phát triển của máy tính, các công cụ xử lý cũng
ngày càng hoàn thiện dựa trên những kỹ thuật hiện đại để phục vụ cho nhu
cầu đó. Các mô hình truy tìm thường được sử dụng trong phạm vi này, đó là:
Đối sánh chính xác, không gian vector, xác suất và trên cơ sở cụm. Song,
nhược điểm cơ bản của các mô hình truy tìm thông tin hiện nay là những từ
mà người tìm kiếm sử dụng, thường không giống với những từ đã được đánh
chỉ mục trong thông tin tìm kiếm. Vấn đề này liên quan nhiều đến hai khía
cạnh thực tế: Thứ nhất là tính đồng nghĩa (synonymy)- cùng một thông tin
2
nhưng được miêu tả bằng các từ khác nhau, phụ thuộc vào ngữ cảnh hay mức
độ cần thiết, ví dụ như: nhìn, xem, trông, thấy có cùng ý nghĩa; khía cạnh thứ
hai tính đa nghĩa (polysemy) – cùng một từ có nhiều ý nghĩa khác nhau trong
ngữ cảnh khác nhau, ví dụ như: đi (có thể là chỉ chuyển động hay chỉ sự mất
mát). Kết quả truy tìm có thể gồm những tài liệu không liên quan, đơn giản vì
những thuật ngữ xuất hiện ngẫu nhiên trong nó giống với thuật ngữ trong truy
vấn và mặt khác, những tài liệu liên quan có thể bị bỏ qua bởi không chứa
các thuật ngữ xuất hiện trong truy vấn (do tính đồng nghĩa). Một ý tưởng thú
vị xét xem liệu việc truy tìm có thể dựa vào các khái niệm có hiệu quả hơn
là trên các thuật ngữ, đó là mô hình LSI (Latent Semantic Indexing) dựa trên
kỹ thuật phân tích ma trận SVD (singular value decomposition), là các giải
pháp hữu hiệu cho vấn đề truy tìm thông tin dựa trên cơ sở nội dung tài liệu
văn bản, tìm kiếm trên cơ sở những khái niệm (không phải trên các thuật
ngữ đơn).
Luận văn này tập trung nghiên cứu về lớp bài toán tìm kiếm nội dung
văn bản, một số kỹ thuật tìm kiếm văn bản, cài đặt chương trình mô phỏng
mô hình tìm kiếm văn bản theo nội dung dựa trên phân tích SVD và ứng dụng
vào công việc xử lý, tìm kiếm văn bản tại Trường Đại học Hùng Vương.
Bố cục của luận văn bao gồm các chương sau:
Luận văn được trình bày thành 3 phần bao gồm: phần mở đầu, phần nội
dung và phần kết luận
Phần mở đầu: Giới thiệu khái quát về đề tài, mục tiêu, ý nghĩa khoa học
và xã hội mang lại thông qua việc giải quyết các vấn đề được nêu trong đề tài.
Phần nội dung:
Chương 1. Tổng quan về cơ sở dữ liệu đa phương tiện: Giới thiệu tổng
quan về cơ sở dữ liệu đa phương tiện, xếp hạng tài liệu và bước cơ bản phục vụ
3
cho việc tìm kiếm thông tin. Khái quát về một hệ thống truy tìm thông tin (IR)
tiêu biểu và cụ thể là truy tìm tài liệu văn bản.
Chương 2. Một số vấn đề về tìm kiếm văn bản theo nội dung: Đề cập
đến vấn đề chỉ mục tài liệu và thước đo hiệu năng. Nghiên cứu một số mô
hình tìm kiếm như: Boolean, không gian vector, mô hình truy tìm theo xác
suất, phương pháp LSI, kỹ thuật phân tích ma trận SVD.
Chương 3. Ứng dụng thử nghiệm: Cài đặt thử nghiệm một số mô hình
tìm kiếm văn bản ứng dụng cho công việc tìm kiếm văn bản tại Trường Đại
học Hùng Vương.
Phần kết luận: Trình bày kết quả mà luận văn đạt được và hướng phát
triển cho mô hình mà luận văn đã đề xuất.
4
CHƯƠNG I
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
1.1 Cơ sở dữ liệu (CSDL) đa phương tiện [1] [4] [8]
1.1.1 Giới thiệu
Dữ liệu đa phương tiện được chia thành hai lớp là các dữ liệu liên tục
và các dữ liệu không liên tục. Các dữ liệu liên tục bao gồm các dữ liệu âm
thanh, video thay đổi theo thời gian. Các dữ liệu không liên tục là các dữ liệu
không phụ thuộc vào thời gian, các loại dữ liệu đặc trưng cho dạng này là các
dữ liệu văn bản (có hoặc không có định dạng), hình ảnh tĩnh và các đối tượng
đồ họa. Các kiểu dữ liệu thông thường của một CSDL multimedia bao gồm:
• Dữ liệu văn bản (có hoặc không có định dạng).
• Đồ họa: là các bản vẽ, minh họa được mã hóa như các tệp postscript.
• Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thức chuẩn
như là JPEG hoặc JPG.
• Các hoạt hình.
• Âm thanh.
• Video.
Các đặc tính chung của dữ liệu đa phương tiện bao gồm:
• Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hướng phi cấu trúc
vì vậy các tác nghiệp quản trị dữ liệu chuẩn như chỉ số hoá, tìm kiếm nội
dung, truy vấn dữ liệu thường là không áp dụng được.
• Tính tạm thời: Một vài kiểu dữ liệu đa phương tiện như là video, âm
thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian liên quan mật thiết đến
việc lưu trữ, thao tác và mô tả chúng.
5
• Có dung lượng lớn: các dữ liệu video và âm thanh thường đòi hỏi các
thiết bị lưu trữ lớn.
• Các ứng dụng hỗ trợ: các dữ liệu phi chuẩn có thể đòi hỏi các quy
trình xử lý phức tạp như việc sử dụng các thuật toán nén dữ liệu đối với các
ứng dụng CSDL đa phương tiện.
1.1.2 Mục tiêu chính
Cơ sở dữ liệu đa phương tiện bao gồm năm mục tiêu chính như sau:
- Hỗ trợ các kiểu dữ liệu đa phương tiện: các phương tiện (media) khác
nhau và các thao tác thông thường cũng như các thao tác đặc biệt mà kiểu dữ
liệu thông thường không có như tiến, lùi, dừng...
- Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện: đề
cập đến không gian lưu trữ của CSDL.
- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả.
- Có các khả năng của hệ CSDL truyền thống.
- Có khả năng truy tìm thông tin đa phương tiện.
1.1.3 Mô hình dữ liệu đa phương tiện [1] [4]
Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình
thành trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng.
Tầng đối tượng
Đối tượng bao gồm một hay nhiều mục media với các quan hệ không
gian và thời gian xác định, như với một đối tượng đa phương tiện là một trang
bao gồm một vài hình ảnh và âm thanh kèm theo.
Nhiệm vụ mấu chốt là làm thế nào để chỉ ra các quan hệ không gian và
thời gian. Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển
thị của mỗi mục. Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở trục
6
thời gian, trong đó thời gian bắt đầu và độ dài mỗi mục được xác định trên cơ
sở đồng hồ chung. Phương pháp khác là mô hình điều khiển theo sự kiện.
Tầng loại media
Tầng này bao gồm các loại media như văn bản, hình ảnh, audio và
video. Các loại này được suy diễn từ lớp media trừu tượng chung.
Tại mức này, các đặc trưng và thuộc tính được đặc tả. Ví dụ loại media
ảnh: kích thước, biểu đồ màu, các đối tượng chính chứa trong nó... được đặc
tả. Các đặc trưng này được sử dụng trực tiếp vào tìm kiếm và tính toán
khoảng cách.
Không gian
Thời gian
Văn bản
Thô
Đa mức
xám
Hình ảnh
Tổng hợp
Âm thanh
Video
Nén
Màu
Tầng đối
tượng
Tầng loại
media
Tầng
khuôn
mẫu media
JPEG
JPIG
DPCM
Hình 1.1 Mô hình dữ liệu đa phương tiện
Tầng khuôn mẫu media
Tầng này đặc tả khuôn mẫu, trong đó dữ liệu được lưu trữ. Thông
thường, media có nhiều khuôn mẫu, ví dụ ảnh có thể là nén hay ảnh thô. Hơn
nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau. Thông tin chứa trong tầng
này được sử dụng để giải mã, phân tích và trình diễn.
7
Chú ý rằng, các ứng dụng khác nhau có thể cần các mô hình dữ liệu
khác nhau. Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu
được thiết kế tốt thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng
yêu cầu ứng dụng cụ thể.
Đến nay, chưa có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên.
Bởi các ứng dụng MIRS hiện nay chủ yếu là đặc thù, chỉ tập trung vào giới
hạn số đặc trưng và loại media. Rất nhiều công việc phải làm khi mô hình hóa
dữ liệu đa phương tiện để phát triển MIRS và MMDBMS (MultiMedia
DataBase Manager System) lớn nhất quán.
1.1.4 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1] [4]
1.1.4.1 Trích chọn đặc trưng:
Trong các MIRS, một trong những vấn đề quan trọng nhất là trích chọn
đặc trưng hoặc biểu diễn nôi dung (cái gì là những nét đặc trưng hoặc nội
dung chính trong một khoản mục multimedia). Trích rút đặc trưng có thể là
quá trình tự động hay bán tự động.
Trong tiến trình tìm kiếm, các đặc trưng và thuộc tính này được tìm kiếm
và so sánh thay cho chính các mục thông tin. Do vậy, chất lượng của trích chọn
đặc trưng xác định hiệu quả tìm kiếm. Nếu đặc trưng không được tách ra từ
mục nào thì không thể tìm thấy chúng từ CSDL theo đặc trưng đó. Đó là một
trong sự khác biệt lớn nhất giữa MIRS và DBMS. Trong DBMS thì mọi thuộc
tính là có sẵn và đầy đủ, trong khi đó các đặc trưng và thuộc tính phải được
trích chọn theo loại truy vấn và thường là không đầy đủ trong MIRS.
Trích chọn đặc trưng phải thỏa mãn các yêu cầu sau:
- Đặc trưng và thuộc tính trích chọn phải đầy đủ nhất có thể để biểu
diễn nội dung của các mục thông tin.
8
- Các đặc trưng phải được trình diễn và lưu trữ một cách chặt chẽ, mạch
lạc. Các đặc trưng phức tạp và đặc trưng lớn không phải là mục đích của trích
chọn, nó phải có khả năng tìm kiếm và so sánh nhanh các mục thông tin với nhau.
- Tính toán khoảng cách giữa các đặc trưng phải hiệu quả, nếu không
thời gian đáp ứng của hệ thống rất lớn.
Tổng thể có 4 mức đặc trưng và thuộc tính như sau:
Metadata: bao gồm các thuộc tính của các đối tượng đa phương tiện
như tên tác giả, ngày tạo lập, tiêu đề đối tượng. Không mô tả hay diễn giải nội
dung của đối tượng. Các thuộc tính này được quản lý bằng kỹ thuật DBMS.
Mô tả bằng văn bản: Mô tả nội dung đối tượng bằng văn bản. Mô tả
dưới hình thức nhiều từ khóa hay văn bản thông thường. Chỉ mục và tìm kiếm
trên cơ sở mô tả bằng văn bản được quản lý bằng kỹ thuật IR. Mặc dù mô tả
bằng văn bản có hạn chế là còn tính chủ quan và chưa đầy đủ, nhưng đây vẫn
là phương pháp hay được sử dụng và hiệu quả. Nên sử dụng mô tả bằng văn
bản kết hợp với các đặc trưng khác trong ứng dụng đa phương tiện. Hiện tại,
mô tả văn bản là tiến trình bằng tay, khá vất vả. Cần phát triển các công cụ
bán tự động để hỗ trợ tiến trình này. Tri thức lĩnh vực và từ điển liệt kê luôn
có ích trong việc đem lại hiệu quả truy vấn.
Đặc trưng nội dung mức thấp: Thu thập các mẫu và thống kê đối
tượng đa phương tiện và các quan hệ không gian, thời gian giữa các phần đối
tượng. Mỗi media khác nhau có các đặc trưng nội dung mức thấp khác nhau.
- Với âm thanh, đặc trưng mức thấp bao gồm âm lượng trung bình,
phân bổ tần số và tỷ lệ câm.
- Các đặc trưng mức thấp của ảnh bao gồm phân bổ màu, texture, hình
dạng đối tượng và cấu trúc không gian.
- Đặc trưng mức thấp của video bao gồm cấu trúc thời gian.
9
Lợi thế chính của việc sử dụng đặc trưng mức thấp là có thể tự động
trích chọn chúng.
Đặc trưng nội dung mức cao: Cố gắng nhận biết và hiểu đối tượng.
Ngoài nhận dạng văn bản và tiếng nói, việc nhận dạng và hiểu đoạn âm thanh
và các đối tượng nhìn là rất khó khăn. Trong ứng dụng với giới hạn số lượng
đối tượng, việc mô tả và nhận biết các đối tượng chung là rất hiệu quả. Ví dụ,
dự báo tới 95% các video có mục tiêu chính là quay người hay nhóm người.
Nó hữu ích cho các hệ thống để nhận biết và diễn giải con người. Hiện tại,
tiến trình nhận dạng và diễn giải được thực hiện bán tự động.
Việc truy vấn trên cơ sở hai loại đặc trưng nội dung mức thấp và mức
cao gọi là truy vấn trên cơ sở nội dung. Một hệ thống cần sử dụng toàn bộ bốn
mức đặc trưng sao cho hỗ trợ được các câu truy vấn mềm dẻo của người sử
dụng. Các kỹ thuật này hỗ trợ nhau để hình thành mô tả đầy đủ về đối tượng.
Ví dụ, mô tả văn bản tốt cho việc thu thập các khái niệm trừu tượng như cảm
giác (vui, buồn...) nhưng không có khả năng mô tả mẫu dữ liệu đầy đủ về các
hình dạng không đều hay texture. Mặt khác, các đặc trưng nội dung mức thấp
có thể thu thập các mẫu dữ liệu này nhưng không mô tả được các khái niệm
trừu tượng.
Khi đối tượng đa phương tiện có nhiều kiểu media, các quan hệ và
tương tác giữa các media phải được sử dụng để trích chọn đặc trưng, diễn giải
và truy tìm. Có một vài kiểu media dễ hiểu và dễ diễn giải hơn vài kiểu khác,
ta có thể sử dụng sự hiểu biết về một hay vài kiểu giúp hiểu và trích chọn đặc
trưng cho các kiểu khác. Ví dụ, nếu đối tượng đa phương tiện bao gồm rãnh
hình (video) và rãnh tiếng, ta có thể áp dụng nhận dạng tiếng nói để lấy ra tri
thức về đối tượng và sử dụng tri thức này để phân đoạn, trích chọn các đặc
trưng và đối tượng trên rãnh hình (video).
10
1.1.4.2 Chỉ mục:
Từ nội dung của các tài liệu riêng rẽ trong tập tài liệu hệ thống tìm
kiếm thông tin có nhiệm vụ tách nội dung đó thành các từ riêng biệt và tổng
hợp chúng thành một danh sách các từ riêng biệt có trong tập tài liệu. Sau khi
có được tập các từ đã được trích, ta sẽ chọn các từ để làm từ chỉ mục. Tuy
nhiên, không phải từ nào cũng được chọn làm từ chỉ mục. Các từ có khả năng
đại diện cho tài liệu sẽ được chọn, các từ này được gọi là key word, do đó
trước khi lập chỉ mục sẽ là giai đoạn tiền xử lý đối với các từ trích được để
chọn ra các keyword thích hợp. Ta sẽ loại bỏ danh sách các từ ít có khả năng
đại diện cho nội dung văn bản dựa vào danh sách gọi là từ dừng (stoplist). Đối
với tiếng Anh hay tiếng Việt đều có danh sách stop list.
+ Chỉ mục tự động cho tiếng Anh:
Một quá trình đơn giản để lập chỉ mục cho tài liệu có thể được mô tả
như sau:
Trước hết, xác định tất cả các từ tạo thành tài liệu. Trong tiếng Anh, chỉ
đơn giản là tách từ dựa vào khoảng trắng.
Loại bỏ các từ có tần số xuất hiện cao. Những từ này chiếm khoảng 4050% các từ, chúng có độ phân biệt kém do đó không thể sử dụng để đại
diện cho nội dung của tài liệu. Trong tiếng Anh, các từ này có khoảng
250 từ, do đó, để đơn giản có thể lưu chúng vào stoplist.
Sau khi loại bỏ các từ có trong stop list, xác định các từ chỉ mục “tốt”.
Trước hết cần loại bỏ các hậu tố để đưa về từ gốc, ví dụ các từ như:
analysis, analyzing, analyzer, analyzed, analysing có thể chuyển về từ gốc là
“analy.” Từ gốc sẽ có tần số xuất hiện cao hơn so với các dạng thông thường
của nó. Nếu sử dụng từ gốc làm chỉ mục, ta có thể thu được nhiều tài liệu có
liên quan hơn là sử dụng từ ban đầu của nó.
11
Đối với tiếng Anh, việc loại bỏ hậu tố có thể được thực hiện dễ dàng
bằng cách sử dụng danh sách các hậu tố có sẵn (Suffix List).
Sau khi có được danh sách các từ gốc, sử dụng phương pháp dựa vào
tần số (frequency – based) để xác định tầm quan trọng của các từ gốc này.
Trong hệ thống chỉ mục có trọng số, trọng số của một từ được sử dụng
để xác định tầm quan trọng của từ đó. Mỗi tài liệu được biểu diễn là một
vector:
Di = (di1, di2, …, dit) trong đó dij là trọng số của từ j trong tài liệu Di.
Mô hình xử lý tổng quát của một hệ thống được trình bày như sau:
Danh sách các tài
liệu cần lập chỉ mục
Lọc các thông tin thừa, chuyển
tài liệu về dạng văn bản
Từ điển
Tách văn bản thành các từ
Danh sách
các stop word
Loại bỏ stop word
Tính trọng số và loại bỏ những
từ có trọng số thấp
Loại bỏ hậu tố
CSDL chỉ mục
thông tin
Danh sách
các hậu tố
Lập chỉ mục
Hình 1.2 Mô hình xử lý cho hệ thống lập chỉ mục
+ Chỉ mục cho tài liệu tiếng Việt
Lập chỉ mục cho tài liệu tiếng Việt cũng tương tự như cho tiếng
Anh tuy nhiên có những khó khăn sau:
12
Xác định ranh giới giữa các từ (đơn, láy, ghép) trong câu. Đối với tiếng
Anh điều này quá dễ dàng vì khoảng trắng chính là ranh giới phân biệt
các từ, ngược lại tiếng Việt thì khoảng trắng không phải là ranh giới để
xác định các từ mà chỉ là ranh giới để xác định các tiếng (Ví dụ: từ “hợp
tác xã” - có 3 âm tiết).
Chính tả tiếng Việt còn có một số trường hợp “bất qui tắc” như sử dụng
"y" hay "i" (ví dụ "quý" hay "quí", “Địa lí” hay “Địa lý”), cách bỏ dấu
("Thuý" hay Thúy"), cách viết hoa tên riêng ("Đại học Hùng Vương" hay
"Đại Học Hùng Vương")... đòi hỏi quá trình hiệu chỉnh chính tả cho văn
bản cần lập chỉ mục và cho từ điển chỉ mục.
Tồn tại nhiều bảng mã tiếng Việt đòi hỏi khả năng xử lý tài liệu ở các
bảng mã khác nhau. Cách giải quyết là đưa tất cả về bảng mã chuẩn của
hệ thống.
Sự phong phú về nghĩa của một từ (từ đa nghĩa – từ đa nghĩa). Một từ có
thể có nhiều nghĩa khác nhau trong những ngữ cảnh khác nhau liên quan
đến từ loại trong tiếng Việt nên việc tìm kiếm khó có được kết quả với
độ chính xác cao. Ví dụ: thiết tha, nghĩa gốc là tính từ chỉ mức độ tình
cảm gắn bó nhưng trong một số trường hợp lại là động từ chỉ hành động
“Cảnh buồn người thiết tha lòng”, thiết tha ở đây lại có nghĩa là đau xót,
cắt cứa vào lòng.
Từ đồng nghĩa hoặc từ gần nghĩa: có nhiều từ khác nhau nhưng lại có
cùng ý nghĩa, hoặc có nghĩa gần như nhau. Ví dụ: chết, ngã xuống, hi
sinh, qua đời,… có chung ý nghĩa là con người đã tắt thở. Do đó, việc
tìm kiếm theo từ khoá thường không tìm thấy các websites chứa từ đồng
nghĩa hoặc gần nghĩa với từ cần tìm. Vì vậy, việc tìm kiếm cho ra kết
quả không đầy đủ.
13
Có quá nhiều từ mà mật độ xuất hiện cao nhưng không mang ý nghĩa cụ
thể nào mà chỉ là những từ nối, từ đệm hoặc chỉ mang sắc thái biểu cảm
như những từ láy. Những từ này cần phải được xác định và loại bỏ ra
khỏi tập các mục từ. Nó giống như stop word trong tiếng Anh. Ví dụ:
tuy, và, nhưng, thế, là, duy nhất, …
Các văn bản có nội dung chính là một vấn đề cụ thể, một đề tài nghiên
cứu khoa học nhưng đôi khi trọng số của các từ chuyên môn này thấp so
với toàn tập tài liệu. Vì vậy, một số thuật toán tính trọng số bỏ sót những
trường hợp như vậy. Kết quả là các từ chuyên môn đó không được lập
chỉ mục.
Trong các vấn đề trên thì vấn đề xác định ranh giới từ trong câu là quan
trọng nhất vì nó ảnh hưởng lớn đến hiệu quả của quá trình lập chỉ mục
(nếu quá trình tách từ sai có nghĩa là nội dung của câu bị phân tích sai)
và cũng là vấn đề khó khăn nhất. Các vấn đề còn lại chỉ là thuần tuý về
mặt kỹ thuật mà hầu như chúng ta có thể giải quyết một cách triệt để.
1.1.4.3 Đo tính tương tự:
Truy vấn đa phương tiện trên cơ sở tính tương tự thay cho đối sánh
chính xác giữa các item truy vấn và các item trong CSDL. Tính tương tự được
tính toán trên cơ sở các đặc trưng, thuộc tính trích chọn và dưới dạng một hay
nhiều giá trị. Tuy nhiên, tương quan của kết quả truy vấn do con người quyết
định. Các kiểu đặc trưng được sử dụng để mô tả các đối tượng đóng vai trò
quan trọng để phù hợp với yêu cầu này. Thước đo tính tương tự rất phức tạp
vì quyết định của người sử dụng là chủ quan và phụ thuộc ngữ cảnh.
1.1.5 Hệ thống tìm kiếm thông tin (IR) [5][6]
Các hệ thống tự động tìm kếm thông tin (IR) đã được phát triển để quản
lý khối lượng lớn tài liệu từ những năm 40 của thế kỷ XX. Chức năng chính
của hệ thống IR là lưu trữ và quản trị khối lượng văn bản lớn theo cách sao
14
cho dễ dàng truy vấn (query) tài liệu mà người sử dụng quan tâm. Sau đây là
định nghĩa về hệ thống tìm kiếm thông tin của một số tác giả:
Salton (1989):
“Hệ thống tìm kiếm thông tin xử lý các tập tin lưu trữ và những yêu cầu
về thông tin, xác định và tìm từ các tập tin những thông tin phù hợp với
những yêu cầu về thông tin. Việc tìm kiếm những thông tin đặc thù phụ thuộc
vào sự tương tự giữa các thông tin được lưu trữ và các yêu cầu, được đánh giá
bằng cách so sánh các giá trị của các thuộc tính đối với thông tin được lưu trữ
và các yêu cầu về thông tin.”
Kowalski (1997):
“Hệ thống tìm kiếm thông tin là một hệ thống có khả năng lưu trữ,
tìm kiếm và duy trì thông tin. Thông tin trong những trường hợp này có thể
bao gồm văn bản, hình ảnh, âm thanh, video và những đối tượng đa
phương tiện khác.”
Tìm kiếm thông tin là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp
giúp người sử dụng có thể tìm thấy các thông tin mình cần trong một khối
lượng lớn dữ liệu. Nhiệm vụ của một hệ thống tìm kiếm thông tin tương tự
như nhiệm vụ tổ chức phân loại tài liệu và phục vụ việc tra cứu của một thư
viện. Một hệ thống tìm kiếm thông tin có hai chức năng chính: lập chỉ mục
(indexing) và tra cứu (interrogation). Lập chỉ mục là giai đoạn phân tích tài
liệu (document) để xác định các chỉ mục (term/index term) biểu diễn nội dung
của tài liệu. Việc lập chỉ mục có thể dựa vào một cấu trúc phân lớp có sẵn
(control vocabulary) như cách làm của các nhân viên thư viện, phân loại tài
liệu theo một bộ phân loại cho trước. Các chỉ mục trong cách làm này là tồn
tại trước và độc lập với tài liệu. Cách thứ hai để lập chỉ mục là rút trích các
chỉ mục từ chính nội dung của tài liệu (free text). Trong luận văn này tác giả
chỉ đề cập đến cách thứ hai này. Cuối giai đoạn lập chỉ mục nội dung của các
15
tài liệu có trong kho tài liệu (corpus) được biểu diễn bằng tập các chỉ mục.
Mô hình tổng quát tìm kiếm thông tin (Hình 1.3)
Mô hình gồm 4 thành phần:
Mô hình yêu cầu: Sử dụng để biểu diễn yêu cầu của người sử dụng.
Mô hình tài liệu: Biểu diễn trừu tượng tài liệu thực và nội dung của
chúng.
Hàm ánh xạ (đối sánh): Xác định sự phù hợp của hệ thống đối với yêu cầu.
Tri thức: Biểu diễn các tri thức để mô tả ngữ nghĩa thuộc lĩnh vực
tài liệu.
Trong đó:
D - Biểu diễn các tài liệu Docs
Q - Biểu diễn câu truy vấn Query (yêu cầu)
F- Khung mô hình hóa của D, Q và quan hệ giữa chúng
R(q, di) - Hàm đối sánh hay xếp hạng
Phù hợp với
người sử dụng
Người sử dụng
Tài liệu
Thế giới
CSDL tài liệu
Hệ thống
Phù hợp
hệ thống
Các yêu cầu
Mô hình
yêu cầu
Đối sánh
Mô hình
tài liệu
Mô hình tìm
kiếm thông
tin
Tri thức
Hình 1.3 Mô hình tổng quát tìm kiếm thông tin
16
Quy trình của hệ tìm kiếm thông tin như sau:
Người dùng muốn tìm một tài liệu liên quan đến một chủ đề nào đó
Người dùng cung cấp một mô tả chủ đề đó dưới dạng câu truy vấn
Từ câu truy vấn này, hệ thống sẽ lọc ra những cụm từ chỉ mục
Những cụm từ chỉ mục này sẽ được so khớp với những từ chỉ mục
của văn bản đã được xử lý
Hệ thống sẽ trả về những văn bản có độ liên quan cao nhất.
Mục đích của IR là hiển thị một tập thông tin thỏa mãn nhu cầu của
người sử dụng. Chúng ta định nghĩa thông tin yêu cầu là câu truy vấn
(Query), thông tin tìm được là tài liệu (Document). Mục đích của hệ thống IR
là tự động tìm kiếm các tài liệu bằng cách kiểm tra độ tương quan giữa câu
truy vấn và đặc trưng của tài liệu. Kết quả thành công khi kết quả trả về của
hệ thống phù hợp với yêu cầu của câu truy vấn.
Hệ thống IR gồm các bản ghi không có cấu trúc. Chúng không chứa
các thuộc tính cố định. Nó chỉ đơn thuần là tài liệu văn bản. Các tài liệu này
có thể chỉ mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term)
chỉ mục. Mỗi thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ
theo một khía cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội
dung văn bản. Nhiều thuật ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ
thể. Bởi vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại
diện, sử dụng để mô tả các bản ghi lưu trữ, do vậy cần phải có nhiều cố gắng
để tập trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ
khóa, chỉ mục.
Ở đây, sẽ không thực tế nếu coi trọng truy vấn trên cơ sở đối sánh
chính xác giữa câu truy vấn và các thuật ngữ tài liệu để tìm ra tài liệu kết
quả. Thay vì, truy vấn các mục liên quan với đủ mức độ tương đồng giữa tập