Tải bản đầy đủ (.pdf) (111 trang)

Nghiên cứu xây dựng hệ thống tìm kiếm video theo nội dung

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.3 MB, 111 trang )

Bộ GIáO DụC Và ĐàO TạO
TRƯờNG ĐạI HọC BáCH KHOA Hà NộI

LUậN VĂN THạC Sĩ KHOA HọC

NGHIÊN CứU, XÂY DựNG Hệ THốNG TìM KIếM
VIDEO THEO NộI DUNG

NGàNH: Xử Lý THÔNG TIN Và TRUYềN THÔNG

Đỗ VĂN HảI

Ngời hớng dẫn khoa học:
TS. HUỳNH QUYếT THắNG

H NI - 2006


LỜI CẢM ƠN
Em xin bày tỏ lòng biết ơn sâu sắc tới TS. Huỳnh Quyết Thắng người
thày kính mến đã hướng dẫn, chỉ dạy tận tình để em hoàn thành luận văn này.
Em xin chân thành cảm ơn các thày, cô giáo khoa Công nghệ Thông tin,
Trung tâm Bồi dưỡng và Đào tạo Sau đại học, Trường Đại học Bách khoa Hà
nội đã đón nhận và truyền thụ kiến thức cho em trong suốt quá trình học tập
vừa qua.
Tôi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những
người thân đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để
tôi hoàn thành nhiệm vụ học tập và bản luận văn này.
Hà nội, ngày 22 tháng 11 năm 2006
Học viên


Đỗ Văn Hải

i


MỞ ĐẦU
Khoảng hơn một thập kỷ gần đây, cùng với sự phát triển nhanh chóng
của công nghệ thông tin và truyền thông, các nghiên cứu về công nghệ liên
quan đến video đã đạt được những thành tựu nhất định. Hiện nay với những
phương tiện truyền thông mới cho phép kết nối Internet với tốc độ cao như:
kênh thuê riêng, xDSL,... người sử dụng có thể xem video trực tuyến trên
Internet với chất lượng cao. Cùng với đó, video số ngày càng trở nên thông
dụng trong cuộc sống như truyền thông, giáo dục đào tạo, giải trí, xuất bản,...
đã tạo nên một lượng dữ liệu khổng lồ video. Dữ liệu càng nhiều, càng phong
phú đa dạng thì con người càng khó khăn trong việc quản lý, tìm kiếm. Một
học giả nước ngoài đã từng nói “Chúng ta đang chìm ngập trong dữ liệu mà
vẫn đói tri thức”. Do vậy, một yêu cầu bức thiết được đặt ra: làm sao có thể
quản lý, tìm kiếm tự động được các đối tượng video một cách nhanh chóng và
tiện lợi? Luận văn này sẽ giải quyết được phần nào đó cho câu hỏi trên. Luận
văn sẽ tập trung vào tìm hiểu các đặc trưng cơ bản nhất của video, đưa ra một
số phương pháp trích rút các đặc trưng của video phục vụ cho việc tìm kiếm.
Việc tìm kiếm video có nhiều cấp độ, tuy nhiên trong luận văn chỉ tập trung
nghiên cứu và đưa ra một số giải pháp phục vụ cho việc tìm kiếm video ở
mức thấp.

ii


Mục lục


MỤC LỤC
LỜI CẢM ƠN .........................................................................................I
MỞ ĐẦU ...............................................................................................II
MỤC LỤC.............................................................................................III
DANH SÁCH HÌNH VẼ ..................................................................... VIII
DANH SÁCH BẢNG BIỂU ................................................................. XI
DANH MỤC CÁC TỪ VIẾT TẮT........................................................ XII
CHƯƠNG 1. TỔNG QUAN VỀ TÌM KIẾM VIDEO THEO NỘI DUNG..1
1.1 Đặt vấn đề .................................................................................................. 1
1.2 Giới thiệu sơ lược về CBVR ..................................................................... 1
1.3 Các nghiên cứu trên thế giới về CBVR ................................................... 3
1.4 Hướng nghiên cứu và nội dung của luận văn......................................... 4
Kết luận chương .............................................................................................. 7
CHƯƠNG 2. PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NỘI DUNG ÁP
DỤNG TRONG BÀI TOÁN TÌM KIẾM VIDEO THEO NỘI DUNG ........8
2.1 Đặt vấn đề .................................................................................................. 8
2.2 Tổng quan về tìm kiếm ảnh theo nội dung ............................................. 8
2.2.1 Giới thiệu.............................................................................................. 8
iii


Mục lục

2.2.2 Cơ chế tính toán chung của CBIR........................................................ 9
2.2.3 Một số đặc trưng của ảnh ................................................................... 10
2.3 Đặc tính màu sắc của ảnh....................................................................... 11
2.3.1 Không gian màu ................................................................................. 12
2.3.2 Biểu đồ màu (Color Histogram)......................................................... 17
2.3.3 Biểu đồ tương quan màu (Color Correlogram).................................. 19
2.4 Đặc trưng Entropy của ảnh.................................................................... 20

2.4.1 Đặt vấn đề........................................................................................... 20
2.4.2 Lý thuyết thông tin và hàm Entropy .................................................. 21
2.4.3 Entropy ảnh là một đặc trưng............................................................. 22
2.5 Phép đo khoảng cách .............................................................................. 23
2.5.1 Đặt vấn đề........................................................................................... 23
2.5.2 Một số tính chất của độ đo ................................................................. 23
2.5.3 Một số độ đo thông dụng ................................................................... 24
2.5.4 Các độ đo được sử dụng trong tìm kiếm ảnh theo nội dung.............. 25
2.6 Xây dựng phần mềm tìm kiếm ảnh ứng dụng trong hệ thống tìm kiếm
video................................................................................................................ 27
2.6.1 Tìm kiếm ảnh sử dụng phương pháp so sánh biểu đồ màu trong không
gian màu RGB............................................................................................. 28
2.6.2 Tìm kiếm ảnh sử dụng phương pháp so sánh biểu đồ màu trong không
gian màu CIELAB....................................................................................... 30
2.6.3 Tìm kiếm ảnh sử dụng phương pháp Entropy ................................... 32
2.6.4 Tìm kiếm ảnh kết hợp hai phương pháp Entropy và so sánh biểu đồ
màu .............................................................................................................. 37
2.7 Thử nghiệm, so sánh, đánh giá các phương pháp tìm kiếm ảnh........ 39
2.7.1 Đánh giá trong hệ thống tìm kiếm ảnh............................................... 40
iv


Mục lục

2.7.2 Cơ sở dữ liệu ảnh thử nghiệm ............................................................ 41
2.7.3 So sánh, đánh giá về tốc độ tìm kiếm ................................................ 42
2.7.4 So sánh, đánh giá về độ chính xác ..................................................... 42
2.7.5 Nhận xét ............................................................................................. 46
Kết luận chương ............................................................................................ 46
CHƯƠNG 3. PHÂN ĐOẠN VIDEO.....................................................47

3.1 Giới thiệu sơ lược phân đoạn video....................................................... 47
3.1.1 Một số khái niệm................................................................................ 47
3.1.2 Một số hình thức chuyển cảnh ........................................................... 48
3.1.3 Các hướng tiếp cận trong phân đoạn video........................................ 50
3.2 Một số phương pháp phân đoạn video.................................................. 50
3.2.1 So sánh điểm ảnh ............................................................................... 51
3.2.2 So sánh khối ....................................................................................... 52
3.2.3 So sánh biểu đồ màu .......................................................................... 53
3.2.4 Một số phương pháp khác.................................................................. 55
3.3 Đề xuất phương pháp phân đoạn video trong chuyển cảnh đột ngột 55
3.3.1 Thuật toán phát hiện chuyển cảnh đột ngột sử dụng ngưỡng đơn giản
..................................................................................................................... 56
3.3.2 Phát hiện chuyển cảnh đột ngột sử dụng cửa sổ trượt ....................... 56
3.3.3 Thuật toán cải tiến đề xuất ................................................................. 60
3.4 Xây dựng và đánh giá hệ thống ............................................................. 61
3.4.1 Các tham số đánh giá ......................................................................... 61
3.4.2 Sơ đồ hệ thống cải tiến....................................................................... 62
3.4.3 Các tham số của thuật toán ................................................................ 62
3.4.4 Kết quả thử nghiệm............................................................................ 64
v


Mục lục

3.4.5 Nhận xét ............................................................................................. 66
Kết luận chương ............................................................................................ 67
CHƯƠNG 4. TRÍCH CHỌN KHUNG HÌNH CHÍNH TRONG VIDEO.68
4.1 Đặt vấn đề ................................................................................................ 68
4.2 Một số kỹ thuật trích chọn khung hình chính hiện nay ...................... 69
4.3 Trích chọn khung hình chính bằng việc khảo sát đường sai khác tích

luỹ.................................................................................................................... 71
4.3.1 Đặt vấn đề........................................................................................... 71
4.3.2 Xây dựng được sai khác tích luỹ........................................................ 71
4.3.3 Thuật toán trích chọn khung hình chính ............................................ 72
4.4 Xây dựng phần mềm trích chọn khung hình chính ............................. 76
Kết luận chương ............................................................................................ 79
CHƯƠNG 5. XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO THEO NỘI
DUNG DỰA TRÊN PHƯƠNG PHÁP TÌM KIẾM ẢNH TRONG CÁC
KHUNG HÌNH CHÍNH.........................................................................80
5.1 Lựa chọn phương pháp xây dựng.......................................................... 80
5.2 Các mô-đun của hệ thống ....................................................................... 80
5.2.1 Mô-đun phân đoạn video ................................................................... 81
5.2.2 Mô-đun trích chọn khung hình chính................................................. 82
5.2.3 Mô-đun tìm kiếm ảnh theo nội dung.................................................. 83
5.2.4 Mô-đun cơ sở dữ liệu ......................................................................... 83
5.3 Giao diện hệ thống .................................................................................. 85

vi


Mục lục

Kết luận chương ............................................................................................ 86
KẾT LUẬN ..........................................................................................88
TÀI LIỆU THAM KHẢO ......................................................................91
PHỤ LỤC ............................................................................................96
TÓM TẮT LUẬN VĂN.........................................................................97

vii



Danh sách hình vẽ

DANH SÁCH HÌNH VẼ
Hình 1.1 Sơ đồ hệ thống tìm kiếm video nghiên cứu trong luận văn......... 6
Hình 2.1 Cơ chế hoạt động của hệ thống CBIR ......................................... 10
Hình 2.2 Không gian màu RGB................................................................... 13
Hình 2.3 Không gian màu CMY .................................................................. 14
Hình 2.4 Một số cách biểu diễn không gian màu HSV.............................. 15
Hình 2.5 Không gian màu CIELAB ............................................................ 16
Hình 2.6 Mô tả biểu đồ màu......................................................................... 18
Hình 2.7 Những ảnh khác nhau nhưng có biểu đồ màu giống nhau........ 19
Hình 2.8 Hàm Entropy trong không gian hai chiều .................................. 21
Hình 2.9 Mô tả một số hàm khoảng cách thuộc họ Ls ............................... 24
Hình 2.10 Tính và so sánh ảnh bằng biểu đồ màu cục bộ ......................... 27
Hình 2.11 Biểu đồ màu Red, Green, Blue độc lập...................................... 28
Hình 2.12 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so
sánh biểu đồ màu trong không gian màu RGB.................................. 29
Hình 2.13 Kết quả tìm kiếm ảnh dựa trên không gian màu RGB (ảnh
truy vấn bên phải) ................................................................................. 30
Hình 2.14 Biểu đồ màu trong không gian màu CIELAB .......................... 31
Hình 2.15 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so
sánh biểu đồ màu trong không gian màu CIELAB ........................... 31
Hình 2.16 Kết quả tìm kiếm ảnh dựa trên không gian màu CIELAB (ảnh
truy vấn bên phải) ................................................................................. 32
Hình 2.17 Giá trị Entropy ứng với các biểu đồ màu R, G, B.................... 33
Hình 2.18 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so
sánh Entropy.......................................................................................... 33
Hình 2.19 Kết quả tìm kiếm ảnh dựa trên phương pháp Entropy (ảnh
truy vấn bên phải) ................................................................................. 34


viii


Danh sách hình vẽ

Hình 2.20 Hai ảnh có biểu đồ màu khác nhau nhưng lại có Entropy giống
nhau ........................................................................................................ 34
Hình 2.21 Kết quả tìm kiếm ảnh dựa trên phương pháp Entropy kết hợp
với giá trị trung bình (ảnh truy vấn bên phải) ................................... 36
Hình 2.22 Kết hợp giải thuật tìm kiếm ảnh sử dụng đặc trưng Entropygiá trị trung bình và giải thuật so sánh biểu đồ màu......................... 37
Hình 2.23 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng thuật toán kết hợp
“Entropy-giá trị trung bình” và “So sánh biểu đồ màu”................. 38
Hình 2.24 Kết quả tìm kiếm ảnh dựa trên phương pháp Entropy-giá trị
trung bình kết hợp với phương pháp so sánh biểu đồ màu (ảnh truy
vấn bên phải) ......................................................................................... 39
Hình 2.25 Biểu đồ precision-recall............................................................... 41
Hình 2.26 Giá trị precision của các phương pháp khi số lượng ảnh lấy ra
khác nhau ............................................................................................... 44
Hình 2.27 Giá trị precision đối với các loại ảnh khác nhau khi lấy ra 50
ảnh .......................................................................................................... 45
Hình 3.1 Khái niệm về khung hình.............................................................. 47
Hình 3.2 Khái niệm về đoạn cơ sở và chuyển cảnh.................................... 48
Hình 3.3 Chuyển cảnh dần dần fade ........................................................... 49
Hình 3.4 Chuyển cảnh dần dần dissolve ..................................................... 49
Hình 3.5 Chuyển cảnh dần dần wipe........................................................... 50
Hình 3.6 Phát hiện chuyển cảnh bằng ngưỡng đơn giản .......................... 56
Hình 3.7 Cửa sổ truy vấn trượt với HWS=5 ............................................. 57
Hình 3.8 Cửa sổ truy vấn trượt với HWS=10 ............................................ 58
Hình 3.9 Biểu đồ biến đổi của PFC trong 200 khung hình ....................... 59

Hình 3.10 Ví dụ về trường hợp thuật toán cửa sổ trượt nhận dạng nhầm
trong phân đoạn video. ......................................................................... 60
Hình 3.11 Hệ thống phát hiện chuyển cảnh đột ngột dựa vào thuật toán
cửa sổ trượt kết hợp với ngưỡng so sánh............................................ 62
ix


Danh sách hình vẽ

Hình 3.12 Giao diện hệ thống phát hiện chuyển cảnh ............................... 64
Hình 3.13 Thuật toán cửa sổ trượt phát hiện nhầm là chuyển cảnh ....... 66
Hình 3.14 Cả hai thuật toán đều phát hiện nhầm là chuyển cảnh ........... 67
Hình 4.1 Đường cong sai khác tích luỹ........................................................ 71
Hình 4.2 Thuật toán dò tìm các điểm có độ cong lớn ................................ 73
Hình 4.3 Ví dụ về việc trích chọn khung hình chính dựa vào giải thuật
tìm các điểm có độ cong lớn trên trong sai khác tích luỹ .................. 75
Hình 4.4 Giao diện chương trình trích chọn khung hình chính ............... 77
Hình 5.1 Sơ đồ hệ thống tìm kiếm video theo nội dung trong luận văn .. 81
Hình 5.2 Mối quan hệ giữa các bảng trong cơ sở dữ liệu.......................... 85
Hình 5.3 Giao diện cửa sổ tìm kiếm video .................................................. 86

x


Danh sách bảng biểu

DANH SÁCH BẢNG BIỂU
Bảng 2.1 So sánh giữa các không gian màu................................................ 17
Bảng 2.2 Giá trị Entropy của một số ảnh ................................................... 22
Bảng 2.3 Thời gian tìm kiếm ảnh của các phương pháp........................... 42

Bảng 2.4 Giá trị precision của các phương pháp khi số lượng ảnh lấy ra
khác nhau ............................................................................................... 43
Bảng 2.5 Giá trị precision đối với các loại ảnh khác nhau khi lấy ra 50
ảnh .......................................................................................................... 45
Bảng 3.1 Kết quả thử nghiệm phân đoạn với một số loại video khác nhau
................................................................................................................. 65
Bảng 4.1 Kết quả thử nghiệm trích chọn khung hình chính với một số
video........................................................................................................ 78

xi


Danh mục các từ viết tắt

DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết
tắt

Tiếng Anh

Tiếng Việt

CBIR

Content-Based Image Retrieval

Tìm kiếm ảnh theo nội dung

CBVR


Content-Based Video Retrieval

Tìm kiếm video theo nội dung

Commission Internationale de
CIELAB l’Eclairage L*-a*-b*

Không gian màu đồng nhất
L*a*b*

Commission Internationale de
CIELUV l’Eclairage L*-u*-v*

Không gian màu đồng nhất
L*u*v*

CMY

Cyan-Magenta-Yellow color space Không gian màu CMY

HSB

Hue-Saturation-Brightness color
space

Không gian màu HSB

HSV

Hue-Saturation-Value color space


Không gian màu HSV

HWS

Half-Window Size

Kích thước nửa cửa sổ

LB

Lower Bound

Ngưỡng dưới

MPEG

Motion Picture Experts Group

Tiêu chuẩn mã hoá video

NVLV

Người viết luận văn

PFC

Pre-Frame Count

Đếm các khung hình phía

trước

RGB

Red-Green-Blue color space

Không gian màu RGB

SQL

Structure Query Language

Ngôn ngữ truy vấn có cấu trúc

UB

Upper Bound

Ngưỡng trên

xii


Chương 1. Tổng quan về tìm kiếm video theo nội dung

CHƯƠNG 1. TỔNG QUAN VỀ TÌM KIẾM VIDEO
THEO NỘI DUNG
1.1 Đặt vấn đề
Với sự phát triển nhanh chóng của máy tính cùng với đó là các chuẩn
nén hiệu quả hơn đã làm gia tăng nhanh chóng việc lưu trữ, sử dụng các đối

tượng đa phương tiện (multimedia) như: âm thanh, hình ảnh, video,... đặc biệt
là video. Tuy nhiên, chúng thường không được sắp xếp, phân loại theo một
trình tự nào và việc truy cập thường được tiến hành bằng việc xem xét tuần
tự. Để có thể tạo được những cơ sở dữ liệu video lớn chúng ta cần tự động
hoá được quá trình đánh chỉ mục, tìm kiếm trong video. Vấn đề “tìm kiếm
video theo nội dung” (Content-Based Video Retrieval – CBVR) được tập trung
nghiên cứu trong 15 năm trở lại đây. Tuy đã có khá nhiều các nghiên cứu tập
trung vào lĩnh vực này nhưng những kết quả đạt được còn hạn chế. Việc
chuyển tự động những đặc trưng cấp thấp như: màu sắc, chuyển động,... sang
các đặc trưng cấp cao mà người sử dụng mong muốn như: đối tượng, sự kiện
là rất khó khăn. Chương này sẽ chỉ ra quá trình hình thành và phát triển của
CBVR cũng như những khó khăn trong nghiên cứu lĩnh vực này.

1.2 Giới thiệu sơ lược về CBVR
Hiện nay, phần lớn cơ sở dữ liệu video số được lưu trữ dưới dạng thô và
được gán nhãn đánh chỉ mục bằng văn bản. Đó là thế hệ thứ nhất của CBVR,
trong thế hệ này các thông tin thị giác được tách ra một cách thủ công. Xác
định các thông tin ngữ nghĩa chứa trong ảnh hay video (một đối tượng, sự
vật,...), các phần của đối tượng (đôi mắt trên khuôn mặt, chiếc thuyền trên
hồ,...) hoặc các cảnh miêu tả các khái niệm (phong cảnh, trận bão,...). Thể
hiện những thông tin đó thường dựa trên mô hình quan hệ và mô hình hướng
đối tượng. Việc tìm kiếm được thực hiện thông qua việc tìm kiếm văn bản sử
1


Chương 1. Tổng quan về tìm kiếm video theo nội dung

dụng các ngôn ngữ truy vấn truyền thống như SQL. Tuy nhiên, đánh chú
thích thủ công thường tốn rất nhiều công sức và toàn bộ quá trình đó phụ
thuộc vào chủ quan của người chú thích, mà trình độ và sự cảm nhận của mỗi

người chú thích là khác nhau.
Khác với thế hệ thứ nhất, trong thế hệ thứ hai của CBVR việc đánh chỉ
mục được thực hiện dựa trên các thuộc tính như màu sắc, kết cấu, hình dạng,
các quan hệ không gian,... Các phương pháp tập trung vào việc tự động hoá
việc đánh chỉ mục và tìm kiếm dựa vào các đặc trưng đó.
Hiện nay CBVR đang bước vào giai đoạn thứ ba, tự động hoá trong việc
đánh chỉ mục và tìm kiếm video ở mức cao (mức độ ngữ nghĩa). Tuy nhiên
các kết quả thu được còn rất khiêm tốn chỉ dừng lại ở một lĩnh vực rất hẹp
nào đó [16].
Việc mô hình hoá nội dung video là một trong những công việc quan
trọng nhất trong tìm kiếm video. M.Petkovic [1] đưa ra mô hình nội dung
video dưới dạng các mức:
• Dữ liệu thô: Bao gồm các thành phần cơ bản của video như: định
dạng, số khung hình trong một giây,...
• Các thông tin thị giác mức thấp: màu sắc, hình dạng, kết cấu,...
• Các thông tin mức ngữ nghĩa: các đối tượng và sự kiện.
Quá trình trích chọn các thông tin ngữ nghĩa là quá trình phức tạp nhất,
trong khi có thể tự động hoá trích chọn các thông tin thị giác ở mức thấp thì
việc chuyển các thông tin đó lên mức cao hơn (ngữ nghĩa) là khó khăn hơn rất
nhiều. Hiện nay trên thế giới vẫn chưa có một hệ thống nào có thể được coi là
công cụ vạn năng để thực hiện công việc đó.

2


Chương 1. Tổng quan về tìm kiếm video theo nội dung

1.3 Các nghiên cứu trên thế giới về CBVR
Trước nhu cầu ngày càng lớn trong việc quản lý dữ liệu video, nhiều
nhóm nghiên cứu đã nhảy vào cuộc. Đã có nhiều thuật toán về nén dữ liệu

video số cho kết quả rất khả quan và đang được áp dụng rộng rãi. Các định
dạng file video MPEG1, MPEG2, MPEG4, WMV, MOV, ... góp phần làm
giảm đáng kể kích thước của dữ liệu video. Nhưng chúng chỉ giúp cho việc
lưu trữ nhiều hơn trong một không gian nhỏ hơn, chứ không giải quyết được
việc lưu trữ hiệu quả để tìm kiếm. Tuy nhiên, hiện nay một số nhóm đang tiến
hành việc nghiên cứu và áp dụng vào thực tế một số phương pháp lưu trữ và
tìm kiếm video dựa vào nội dung, cho thấy đây là một hướng phát triển mới
và rất có triển vọng. Sau đây là một số nhóm tiêu biểu:
• Đại học Carnegie Mellon [2]: Đang thực hiện một dự án thư viện
thông tin cho phép người dùng truy tìm video bằng ngôn ngữ tự
nhiên. Các bước xử lý để tạo nên thư viện video: phát hiện các đoạn
cơ sở bằng cách sử dụng phương pháp độ sai khác về biểu đồ màu,
trích chọn khung hình chính, nhận dạng khuôn mặt, nhận dạng chữ
viết qua video và tìm ảnh dựa vào đặc trưng biểu đồ màu trong các
không gian màu và vân khác nhau.
• Nhóm nghiên cứu của IBM [3]: Nhóm nghiên cứu của IBM đã phát
triển một hệ thống truy tìm video theo nội dung tự động và tương tác
dựa vào những đặc điểm trực quan và mô hình thống kê. Hệ thống sử
dụng IBM Cue Video để phát hiện đoạn cơ sở và lựa chọn khung
hình chính một cách tự động.
• Đại học Johns Hopkins [4]: Nhóm nghiên cứu đã phát triển một hệ
thống truy tìm tự động video dựa vào nội dung của các khung hình
video số. Mỗi khung hình chính được đánh chỉ số bởi chính đặc trưng
lược đồ màu và vân ảnh của nó.

3


Chương 1. Tổng quan về tìm kiếm video theo nội dung


• Đại học Maryland [5]: Đại học Maryland đang làm việc với những
nhà nghiên cứu từ đại học Oulu, mở rộng các phương thức được dùng
cho việc truy tìm ảnh.
• Đại học Bắc Texas [6]: Nhóm Đại học Bắc Texas trích các khung
hình từ dữ liệu video theo chu kỳ 5 giây. Những khung hình này sẽ
qua tiến trình chọn khung hình chính để bỏ đi những khung hình thừa.
Những khung hình chính sau đó sẽ được đưa vào ứng dụng UNT’s
Brighton Image Searcher, dựa vào các độ đo toán học tương ứng với
những đặc tính quan trọng của ảnh. Độ chính xác của quá trình chọn
khung hình chính tương đối khả quan.
Có thể thấy rằng hiện nay, lĩnh vực tìm kiếm video theo nội dung khá
hấp dẫn và thu hút được sự quan tâm của ngày càng nhiều nhóm nghiên cứu
vì những nhu cầu và ứng dụng thực tế của nó. Tuy nhiên những kết quả đạt
được còn hạn chế, do vậy việc nghiên cứu, phát triển tìm kiếm video theo nội
dung là một công việc cấp thiết, cần có nhiều sự đầu tư nghiên cứu nhiều hơn
nữa.

1.4 Hướng nghiên cứu và nội dung của luận văn
Như trình bày ở phần trên, trên thế giới hiện nay có rất nhiều phương
pháp tiếp cận trong việc tìm kiếm video theo nội dung. Trong luận văn này
người viết đưa ra một phương pháp tìm kiếm video dựa trên cơ chế tìm kiếm
ảnh.
Như chúng ta đã biết, video được hình thành từ các ảnh (khung hình –
frame) liên tiếp nhau, tuỳ theo các chuẩn video khác nhau mà số khung hình
trong một giây cũng khác nhau. Các khung hình liên tiếp về mặt thời gian tạo
thành một đoạn cơ sở (shot). Một video có thể gồm nhiều đoạn cở sở ghép nối
lại, chuyển từ đoạn này sang đoạn kia có thể là chuyển cảnh đột ngột hoặc
chuyển cảnh dần dần bằng việc sử dụng một số hiệu ứng khi biên tập video
4



Chương 1. Tổng quan về tìm kiếm video theo nội dung

(dissolve, fade, wipe,...). Việc phát hiện các chuyển cảnh gọi là phân đoạn
video theo thời gian (temporal video segmentation). Đây là bước đầu tiên
trong việc tự động hoá đánh chỉ mục và tìm kiếm video.
Các khung hình trong cùng một đoạn cở sở thì thường có độ tương quan
cao với nhau. Do vậy việc tóm tắt video có thể được thực hiện bằng cách biểu
diễn mỗi đoạn cơ sở chỉ bằng một vài khung hình đại diện, gọi là các khung
hình chính (key-frame). Kỹ thuật lấy ra các khung hình chính trong đoạn
video gọi là kỹ thuật trích chọn khung hình chính (key-frame extraction).
Người sử dụng thông qua việc xem các khung hình chính có thể hiểu nhanh
được nội dung của toàn bộ video. Và thông qua việc liệt kê các khung hình
chính người sử dụng cũng có thể tìm được khung hình chính có nội dung mà
mình đang tìm kiếm. Do vậy tìm được đoạn video tương ứng chứa khung hình
chính đó. Nhưng trong một cơ sở dữ liệu lớn video thì sao? Khi đó số lượng
khung hình chính là rất lớn, người sử dụng sẽ tốn nhiều thời gian để tìm kiếm
được khung hình có nội dung mà mình mong muốn. Giải pháp mà Người viết
luận văn (NVLV) đưa ra là sử dụng cơ chế tìm kiếm ảnh theo nội dung
(Content-Based Image Retrieval) để tự động hoá công việc tìm kiếm các
khung hình chính.
Do vậy, hệ thống tìm kiếm video mà NVLV xây dựng được hình thành
từ các thành phần:
• Tìm kiếm ảnh theo nội dung
• Phân đoạn video
• Trích chọn khung hình chính
Sơ đồ khối của hệ thống được trình bày trong hình 1.1.

5



Chương 1. Tổng quan về tìm kiếm video theo nội dung

Video Files

Phân đoạn

Trích chọn

Video

key-frame

Đánh chỉ mục

CSDL
Keyframe
và đoạn
Keyframes
Browser

Tìm kiếm ảnh
theo nội dung

Kết quả:
Các đoạn
Video

Hình 1.1 Sơ đồ hệ thống tìm kiếm video nghiên cứu trong luận văn
Với những phân tích như trên, luận văn gồm các nội dung chính như sau:

Chương 1: Tổng quan về tìm kiếm video theo nội dung
Trình bày các khái niệm và ý nghĩa của lĩnh vực CBVR, các nghiên cứu
về lĩnh vực này trên thế giới hiện nay, hướng nghiên cứu trong luận văn
Chương 2: Tìm kiếm ảnh theo nội dung áp dụng trong tìm kiếm video
theo nội dung
Chương này sẽ tìm hiểu một số phương pháp tìm kiếm ảnh hiện nay trên
thế giới, các đặc tính của ảnh, các không gian màu sắc, biểu đồ màu, Entropy
của ảnh. Phân tích các phương pháp lựa chọn và xây dựng ra một phương
pháp tìm kiếm phù hợp áp dụng trong bài toán tìm kiếm video theo nội dung.
6


Chương 1. Tổng quan về tìm kiếm video theo nội dung

Chương 3: Phân đoạn video
Chương này sẽ tìm hiểu, phân tích và đánh giá các phương pháp phân
đoạn video hiện nay. Đưa ra một số cải tiến nhằm nâng cao độ chính xác
trong phân đoạn
Chương 4: Trích chọn khung hình chính trong video
Trong chương này sẽ tìm hiểu một số phương pháp trích chọn khung
hình chính ứng dụng vào việc tóm tắt và đánh chỉ mục video. Việc trích chọn
khung hình chính tập trung vào giải thuật tìm các điểm có độ cong lớn trên
đường sai khác tích luỹ.
Chương 5: Xây dựng hệ thống tìm kiếm video theo nội dung dựa trên
phương pháp tìm kiếm ảnh trong các khung hình chính
Từ các lý thuyết và thử nghiệm ở các chương trước, chương này NVLV
sẽ lựa chọn và tổng hợp thành một hệ thống tìm kiếm video khá hoàn chỉnh.

Kết luận chương
Chương này đã chỉ ra mục đích ý nghĩa của hệ thống tìm kiếm video

theo nội dung cũng như những khó khăn trong nghiên cứu lĩnh vực này. Các
nghiên cứu trên thế giới hiện nay về lĩnh vực này cũng được đề cập.
Chương này cũng trình bày phạm vi nghiên cứu và cách tiếp cận của
NVLV để xây dựng hệ thống tìm kiếm video.
Chương sau sẽ tìm hiểu cơ chế tìm kiếm ảnh theo nội dung, ứng dụng
trong việc tìm kiếm video.

7


Chương 2. Tìm kiếm ảnh theo nội dung

CHƯƠNG 2. PHƯƠNG PHÁP TÌM KIẾM ẢNH
THEO NỘI DUNG ÁP DỤNG TRONG BÀI TOÁN
TÌM KIẾM VIDEO THEO NỘI DUNG
2.1 Đặt vấn đề
Như đã đề cập ở chương trước, tìm kiếm ảnh theo nội dung là một phần
của hệ thống tìm kiếm video mà NVLV xây dựng. Mặt khác, các kiến thức về
CBIR là những kiến thức rất quan trọng trong việc nghiên cứu xử lý video ở
các chương tiếp, ví dụ như: cảm thụ của con người về màu sắc, tìm kiếm
trong không gian độ đo,...

2.2 Tổng quan về tìm kiếm ảnh theo nội dung
2.2.1 Giới thiệu
Trong cơ sở dữ liệu, ảnh số đóng một vai trò rất quan trọng, đặc biệt khi
khả năng lưu trữ dữ liệu của máy tính được tăng lên một cách nhanh chóng.
Khi nhu cầu về ảnh số tăng lên với khối lượng dữ liệu lớn đòi hỏi phải có một
phương pháp hiệu quả trong việc lưu trữ và tìm kiếm ảnh. Một vấn đề đặt ra
là làm sao để có thể quản lý và sử dụng chúng một cách hiệu quả khi người sử
dụng có nhu cầu tìm kiếm thông tin mà họ cần. Hiện nay phần lớn các hệ

thống mới chỉ đáp ứng tốt nhu cầu của người dùng với loại thông tin văn bản.
Từ nhu cầu thực tiễn đã có rất nhiều cố gắng nhằm giải quyết bài toán tìm
kiếm thông tin dạng hình ảnh. Bài toán này được gọi là bài toán “tìm kiếm
ảnh theo nội dung” (Content-Based Image Retrieval - CBIR). Các yêu cầu
chính đối với bài toán này là phải tìm kiếm chính xác và trả lời trong khoảng
thời gian cho phép trên một cơ sở dữ liệu ảnh lớn.
Hiện nay, có một số hệ thống tìm kiếm ảnh dựa vào từ khoá điển hình hệ
thống tìm kiếm ảnh của Google. Việc tìm kiếm này tỏ ra khá hiệu quả với
8


Chương 2. Tìm kiếm ảnh theo nội dung

người sử dụng, tuy nhiên việc xây dựng cơ sở dữ liệu ảnh đó phải thực hiện
bằng cách đánh chú thích cho từng ảnh. Công việc này thực hiện một cách thủ
công rất mất nhiều thời gian và công sức vả lại còn phụ thuộc vào chủ quan
của người nhập chú thích cho ảnh. Ở đây NVLV đi theo hướng tự động hoá
trong việc tìm kiếm và xây dựng cơ sở dữ liệu ảnh. Để làm được điều đó phải
tự động hoá trong việc trích chọn ra các đặc trưng của ảnh và bài toán tìm
kiếm ảnh trở thành bài toán tìm kiếm các đặc trưng của ảnh. Các đặc trưng
của ảnh có thể là: màu sắc, kết cấu bề mặt, hình dạng,... Đối với con người
việc nhận biết và so sánh các đặc trưng đó được thực hiện khá dễ dàng tuy
nhiên với máy tính việc nhận biết các đặc trưng đó lại không hề đơn giản.

2.2.2 Cơ chế tính toán chung của CBIR
Việc tìm kiếm ảnh được thực hiện bằng cách: người sử dụng đưa vào hệ
thống một ảnh (từ file hoặc vẽ vào) gọi là ảnh truy vấn. Sau đó hệ thống sẽ
tìm kiếm trong cơ sở dữ liệu ảnh của mình và trả lại những ảnh giống với ảnh
truy vấn nhất. Quá trình tìm kiếm và xây dựng cơ sở dữ liệu ảnh dựa vào việc
trích chọn các đặc trưng của ảnh.

Cơ chế hoạt động của hoạt hệ thống CBIR được mô tả trong hình 2.1
[17]. Toàn bộ quá trình này bắt đầu với việc phân tích và trích chọn các đặc
trưng của ảnh được xử lý bằng các thuật toán trích chọn đặc trưng, những đặc
trưng này được lưu vào cơ sở dữ liệu. Việc sử dụng thuật toán trích chọn đặc
trưng cũng được sử dụng để lấy các đặc trưng của ảnh truy vấn. Phương pháp
đo xấp xỉ sau đó sẽ so sánh những đặc trưng của truy vấn với các đặc trưng
trong cơ sở dữ liệu. Với những ảnh có đặc trưng trong cơ sở dữ liệu được cho
là “giống” với ảnh truy vấn sẽ được gửi lại cho người sử dụng như là một kết
quả cuối cùng.

9


Chương 2. Tìm kiếm ảnh theo nội dung
Ảnh truy vấn

Trích chọn đặc trưng

Trích chọn đặc trưng

87
23
27
19
40

54
56
10
76

23

23
34
43
12
54

Phép đo xấp xỉ

86
22
26
20
40

Kết quả tìm kiếm

Hình 2.1 Cơ chế hoạt động của hệ thống CBIR

2.2.3 Một số đặc trưng của ảnh
Việc trích chọn những đặc trưng từ ảnh là mục tiêu cơ bản của hệ thống
CBIR. Những đặc trưng của ảnh được trích chọn để sử dụng trong nhiều ứng
dụng như xử lý ảnh, nhận dạng ảnh,... Hầu hết các phương pháp trích chọn
các đặc trưng của ảnh tập trung vào: màu sắc, kết cấu, hình dạng [20].
a. Đặc trưng về màu sắc [17][18]
Cho đến nay màu sắc là đặc tính hình ảnh được thể hiện nhiều nhất trong
công nghệ CBIR, đầu tiên là vì tính đơn giản của việc trích thông tin màu của
ảnh đưa ra phân tích và đã có hiệu quả thông qua biểu đồ màu. Các biểu đồ
màu miêu tả các điểm màu trên những vùng màu của ảnh.

Không gian màu RGB được sử dụng rộng rãi trong việc miêu tả màu sắc
của ảnh. Nó gồm ba thành phần màu cơ bản là đỏ (Red), lục (Green), lam
(Blue). Các màu khác được tạo ra bằng cách tổng hợp ba thành phần màu cơ
10


Chương 2. Tìm kiếm ảnh theo nội dung

bản này. Tuy nhiên không gian màu RGB biến đổi không phù hợp với cảm
nhận của mắt con người. Không gian màu CIELAB và CIELUV được nghiên
cứu phát triển để phù hợp với cảm nhận của mắt người.
Việc tính toán so sánh “khoảng cách” giữa các ảnh sử dụng đặc trưng
màu sắc có thể sử dụng các phương pháp như: mô men màu, biểu đồ màu,...
Mỗi phương pháp có những đặc điểm riêng chúng ta sẽ xem xét cụ thể ở các
phần tiếp theo.
b. Đặc trưng về hình dạng [7]
Hình dạng của đối tượng trong ảnh cũng là một đặc trưng có thể được
xét đến. Đối tượng của ảnh thể hiện nội dung ảnh nhiều nhất. Ảnh được chụp
hoặc tranh được vẽ luôn với mục đích mô tả lại các đối tượng trong đó. Việc
tách riêng các đối tượng và hình dạng của chúng trong ảnh là rất khó khăn. Và
khó hơn là so sánh các đặc trưng đó thế nào. Phương pháp này chỉ nên áp
dụng cho loại ảnh đặc biệt có đặc trưng hình dạng nổi bật, dễ phân tích.
c. Đặc trưng về kết cấu (texture) [8]
Khái niệm chung về kết cấu bề mặt là phản ánh sự biểu diễn một mẫu về
không gian có vài thuộc tính đồng đều. Vào các trường hợp đặc biệt, tính
đồng đều không thể có được từ sự biểu diễn bằng một màu đơn hoặc một độ
sáng trong vùng mà yêu cầu sự tương tác của nhiều màu, độ sáng khác nhau.
Để sử dụng kết cấu trong tìm kiếm ảnh, ta cần có các đặc tính kết cấu của một
đối tượng hoặc một vùng quan tâm đến trong ảnh cung cấp đặc tính để tìm
kiếm ảnh. Ví dụ đặc trưng kết cấu tách ra từ một cảnh của đồng cỏ thì ta có

thể phân biệt được đồng cỏ và cây cối. Trong khi nếu chỉ dùng màu sắc thì có
thể tìm kiếm không chính xác.

2.3 Đặc tính màu sắc của ảnh
Con người chỉ có khả năng cảm nhận được ánh sáng có bức xạ điện từ
với bước sóng trong khoảng 350 – 780 nanomet. Cơ quan thị giác cảm nhận
11


Chương 2. Tìm kiếm ảnh theo nội dung

được ánh sáng là do bề mặt đối tượng phát ra ánh sáng, là kết quả của sự
tương tác giữa năng lượng chiếu sáng và những phân tử của bề mặt đối tượng.
Một đối tượng màu xanh dương sẽ có bề mặt màu xanh dương khi chiếu ánh
sáng trắng vào. Nhưng đối tượng đó sẽ có màu tím khi chiếu ánh sáng đỏ vào.
Với sự phát triển mạnh mẽ của khoa học kỹ thuật, máy móc xử lý màu sắc trở
nên thông dụng. Chúng ta có các thiết bị như máy quay phim màu, thiết bị
chiếu màu và những phần mềm xử lý ảnh màu. Máy móc có thể dùng màu sắc
cho những mục đích như là con người. Đặc biệt, màu sắc thuận tiện bởi vì nó
cung cấp phép đo lường đa dạng tại mỗi điểm ảnh đơn, có thể phân lớp, phân
loại mà không cần đến những sự xử lý không gian phức tạp để đưa đến quyết
định. Do đó, việc lựa chọn mô hình màu thích hợp và sử dụng biểu đồ lượng
hoá màu thích hợp sẽ giảm bớt độ phân giải màu. Đây là các vấn đề quan
trọng trong việc tìm kiếm ảnh dựa trên màu sắc. Màu sắc thường được biểu
diễn như là các điểm trong không gian màu ba chiều gọi là các không gian
màu.

2.3.1 Không gian màu
a. Các đặc tính của không gian màu



Tính đồng nhất (uniform): Một không gian màu đồng nhất là một
không gian mà trong đó khoảng cách giữa các điểm trong không gian
màu là tương đương với khoảng cách nhận thức được giữa các điểm
đó của con người.



Tính đầy đủ (complete): Một không gian màu đầy đủ là một không
gian biểu diễn được tất cả các màu mà con người có thể cảm nhận
được.



Tính duy nhất (unique): Một không gian màu có tính duy nhất nếu hai
điểm riêng biệt trong không gian màu đại diện cho hai màu khác nhau
theo cảm nhận của con người.
12


×