Tải bản đầy đủ (.pdf) (27 trang)

Nghiên cứu kỹ thuật phân đoạn dữ liệu video trong môi trường đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.84 MB, 27 trang )


Bộ GIáO DụC V ĐO TạO Bộ QUốC PHòNG
HọC VIệN Kỹ THUậT QUÂN Sự




Lơng Xuân Cơng




nghiên cứu kỹ thuật phân đoạn dữ liệu video
trong môi trờng đa phơng tiện


Chuyên ngành: Kỹ thuật điện tử
Mã số: 62.52.70.01


tóm tắt luận án tiến sĩ kỹ thuật





H NộI - 2008

Công trình đợc hoàn thành tại Học viện Kỹ thuật Quân sự

Ngời hớng dẫn khoa học:


1. PGS.TS Đỗ Trung Tuấn
2. PGS.TS Đỗ Xuân Tiến

Phản biện 1: GS.TS Nguyễn Bình
Học viện Công nghệ Bu chính Viễn thông

Phản biện 2: PGS.TS Bạch Nhật Hồng
Trung tâm Khoa học Kỹ thuật và Công nghệ Quân sự

Phản biện 3: PGS.TS Nguyễn Hữu Giao
Cục Cơ yếu - Bộ Quốc phòng


Luận án sẽ đợc bảo vệ trớc Hội đồng chấm luận án cấp Nhà nớc
họp tại Hội trờng 1204, nhà A1 Học viện Kỹ thuật Quân sự,
(100 Hoàng Quốc Việt, Cầu Giấy, Hà Nội).
Vào hồi 08 giờ 30 ngày 14 tháng 7 năm 2008.



Có thể tìm hiểu luận án tại th viện:
- Th viện Quốc gia
- Th viện Học viện Kỹ thuật Quân sự
Danh mục các bài báo, công trình
đ công bố của tác giả
1. Đỗ Trung Tuấn, Lơng Xuân Cơng, Khun Piseth, Nguyễn Văn Tảo
(2003), Về xử lý dữ liệu video, Toàn văn các báo cáo khoa học, Hội thảo
Quốc gia lần thứ VI: Một số vấn đề chọn lọc của công nghệ thông tin và
truyền thông, Thái Nguyên, 8 - 2003, Nxb. Khoa học Kỹ thuật, tr. 454 - 459.
(Đã đợc đăng lại trên Tạp chí khoa học - Chuyên san Khoa học Tự nhiên và

Công nghệ, Đại học Quốc gia Hà Nội, T. XIX, N.3, (2003), tr. 48 - 56).
2. Lơng Xuân Cơng (2005), Giải quyết một số vấn đề của thuật toán
phân đoạn dữ liệu video, Báo cáo khoa học tại Hội thảo khoa học ứng
dụng đa phơng tiện trong truyền bá văn hoá cổ truyền, thành viên tham
gia đề tài nhánh KC .01 .14 . 05 do PGS. TS Đỗ Trung Tuấn chủ trì, 2001 -
2005, thuộc đề tài cấp nhà nớc KC .01 .14 do PGS. TSKH Nguyễn Cát Hồ
chủ trì (đã nghiệm thu năm 2006).
3. Lơng Xuân Cơng, Đỗ Xuân Tiến, Đỗ Trung Tuấn (2006), Một kỹ
thuật chỉ số hoá tự động dữ liệu video dựa trên đánh dấu vùng nền, Tạp
chí khoa học - Chuyên san Khoa học Tự nhiên và Công nghệ, Đại học
Quốc gia Hà Nội, T.XXII, N.2, tr. 01 - 11.
4. Lơng Xuân Cơng, Đỗ Xuân Tiến, Đỗ Trung Tuấn (2006), Phơng
pháp khắc phục vấn đề chuyển động của camera và đối tợng trong phát
hiện các chuyển lia video, Tạp chí Khoa học và Kỹ thuật, Học viện Kỹ
thuật Quân sự, Số 117 / IV - 2006, tr. 28 - 40.
5. Lơng Xuân Cơng, Đỗ Trung Tuấn (2006), Thuật toán cho phép nâng
cao khả năng phân đoạn dữ liệu video, Tạp chí khoa học - Chuyên san
Khoa học Tự nhiên và Công nghệ, Đại học Quốc gia Hà Nội, T.XXII, N.3,
tr. 13 - 24.
6. L
ơng Xuân Cơng, Đỗ Xuân Tiến, Đỗ Trung Tuấn (2007), Phơng
pháp phát hiện các chuyển lia phức tạp dựa trên ớc lợng chuyển động
trong các khung video, Chuyên san Các công trình nghiên cứu khoa học
- nghiên cứu triển khai Công nghệ thông tin - truyền thông, Tạp chí Bu
chính Viễn thông và Công nghệ Thông tin, Kỳ 3 / 02 - 2007, tr. 15 - 24.
7. Lơng Xuân Cơng, Đỗ Xuân Tiến, Đỗ Trung Tuấn (2007), Chuẩn bị dữ
liệu trong việc xây dựng cơ sở dữ liệu video số, Tạp chí Tin học và Điều
khiển học, Viện Khoa học và Công nghệ Việt Nam, T.23, S.2, tr. 141 - 152.

- 1 -



Mở đầu
1. Tính cấp thiết của đề ti nghiên cứu
Hiện nay, việc nghiên cứu v triển khai các cơ sở dữ liệu (CSDL) video
trên thế giới v trong nớc đang l một vấn đề thời sự. Video, khi đợc lu
trữ dới dạng các đoạn video, các băng video, l quá thô không thuận tiện
cho các yêu cầu duyệt, truy vấn v thu hồi, cần tổ chức các dữ liệu video.
Một nhiệm vụ rất khó khăn v cấp thiết l tạo ra các phơng pháp v công
cụ cho phép tự động su tập, lu trữ v thu hồi thông tin video, trên cơ sở
nội dung của nó.
Việc xây dựng CSDL video cần các kỹ thuật xử lý dữ liệu phức tạp hơn
nhiều so với các dữ liệu đa phơng tiện khác nh văn bản, âm thanh hay ảnh
tĩnh. Trong đó, chỉ số hóa v phân đoạn dữ liệu video luôn đợc xem l vấn
đề rất quan trọng. Khi phân chia dữ liệu video thnh các đơn vị cơ sở có
nghĩa nhỏ hơn, cho phép trả lời nhanh các câu hỏi tìm kiếm trên CSDL. Nh
vậy, rất cần các nghiên cứu nhằm: (i) tìm ra các phơng pháp phân đoạn dữ
liệu video mới (ii) tìm cách nâng cao hiệu quả cho các thuật toán phân đoạn
dữ liệu video.
Từ thực tế đó, đề ti nghiên cứu m luận án đã chọn l: Nghiên cứu kỹ
thuật phân đoạn dữ liệu video trong môi trờng đa phơng tiện.
2. Mục đích nghiên cứu
Nghiên cứu kỹ thuật phân đoạn dữ liệu video trong môi trờng đa phơng
tiện, nhằm đ
a ra các phơng pháp phân đoạn mới v các giải pháp nâng
cao hiệu quả phân đoạn, góp phần chỉ số hoá dữ liệu đa phơng tiện.
3. Đối tợng, phạm vi nghiên cứu
Đối tợng nghiên cứu l dữ liệu video trong các hệ thống đa phơng tiện.
Phạm vi nghiên cứu giới hạn trong các phơng pháp phân đoạn dữ liệu video
dựa trên các đặc tính hình ảnh mức thấp của video.

4. Phơng pháp nghiên cứu
Dựa trên phơng pháp mô hình hoá, sử dụng các công cụ toán học (giải
tích, thống kê) để tính toán. Sử dụng phơng pháp thực nghiệm, dùng các
kết quả xử lý dữ liệu v phân đoạn video để kiểm chứng, đánh giá các thuật
toán đã xây dựng.
5. ý nghĩa khoa học v thực tiễn
Các mô hình v phơng pháp phân đoạn dữ liệu video trình by trong
luận án góp phần hệ thống hoá lý thuyết CSDL video, cung cấp các thuật
toán v công cụ cho chuẩn bị dữ liệu trong xây dựng các CSDL video số
trong môi trờng đa phơng tiện trong thực tế.

- 2 -


6. Bố cục của luận án
Luận án gồm 4 chơng với các phần mở đầu, kết luận, danh mục (07) các
công trình v bi báo khoa học đã đợc công bố của tác giả v phần phụ lục.
Chơng 1: Tổng quan về kỹ thuật phân đoạn dữ liệu video trong môi
trờng đa phơng tiện
Nội dung chính của chơng 1 đã đợc công bố trong bi báo 1.
Chơng 2: Phân đoạn dữ liệu video
Nội dung chính của chơng 2 đã đợc công bố trong bi báo 2.
Chơng 3: Các kỹ thuật phát hiện chuyển lia video mới
Nội dung chính của chơng 3 đã đợc công bố trong các bi báo 3, 4,
5, 6, 7.
Chơng 4: Thực nghiệm phân đoạn video
Nội dung chính của chơng 4 đã đợc công bố trong bi báo 5.

Chơng 1: tổng quan về kỹ thuật phân đoạn dữ liệu
video trong môi trờng đa phơng tiện

1.1. Cơ sở dữ liệu video trong môi trờng đa phơng tiện
1.1.1. Trình tự thiết kế một hệ cơ sở dữ liệu
1.1.2. Các hệ cơ sở dữ liệu đa phơng tiện
Đa ph
ơng tiện liên quan đến thiết kế, trình diễn các loại dữ liệu tích
hợp, gồm các loại dữ liệu: (i) văn bản; (ii) ảnh tĩnh; (iii) âm thanh; v (iv)
ảnh động. Để thực hiện nhiệm vụ ny, các đề án đa phơng tiện cần đợc
thực hiện trên hạ tầng số hoá v hạ tầng truyền thông. Thông tin đa phơng
tiện liên quan đến các công nghệ yêu cầu để thao tác, truyền tải, v điều
khiển các tín hiệu âm thanh - hình ảnh qua kênh thông tin mạng.




Hình 1.1. Mô hình các mức
quản lý của hệ quản trị
CSDL đa phơng tiện

Hầu hết các ứng dụng đa phơng tiện đều gồm rất nhiều dạng dữ liệu:
Dữ liệu truyền thống (số, văn bản) kết hợp với các dạng dữ liệu giu thông
tin (hình ảnh, âm thanh, hoạt hình v video). Các đặc tính của dữ liệu đa

- 3 -


phơng tiện: không có cấu trúc; có tính không gian, thời gian; dung lợng
lớn; tổ chức dữ liệu phức tạp. Việc phát triển các hệ thống đa phơng tiện
gắn liền với một hệ CSDL đa phơng tiện v có nhiều vấn đề đặt ra khi xây
dựng chúng. Mô hình hệ quản trị CSDL đa phơng tiện, với các cấp quản
lý nh trên hình 1.1.


Hình 1.2. Các thao tác của hệ quản trị CSDL đa phơng tiện trên mạng
Một hệ quản trị CSDL đa phơng tiện luôn cần khả năng thao tác dữ liệu
trên mạng. Hình 1.2 l ví dụ một ứng dụng đa phơng tiện sử dụng các
dịch vụ của hệ quản trị CSDL để thu hồi các đối tợng từ CSDL, thao tác
v truyền tải trên mạng v trình by chúng tại trạm ngời dùng.
1.1.3. Dữ liệu video
Video đóng vai trò trung tâm trong hệ thống đa phơng tiện. Dữ liệu
video l loại dữ liệu đa phơng tiện đặc biệt với những đặc tính nổi bật:
kích thớc lớn, nội dung ngữ nghĩa trừu tợng, có tính không gian - thời
gian, yêu cầu tốc độ xử lý cao Đặc tính duy nhất của dữ liệu video, so với
các dạng dữ liệu khác, đợc tóm tắt ở bảng 1.1 [13].

Hình 1.3. Kiến trúc của
một hệ CSDL video
Bảng 1.1. So sánh dữ liệu video với
các dạng dữ liệu khác
Nội dung của dữ liệu video rất giu thông tin v có thể đợc xem xét
dới các khía cạnh: (i) nội dung ngữ nghĩa (nội dung mức cao); (ii) nội
dung hình ảnh, âm thanh (nội dung mức thấp); (iii) nội dung văn bản.
1.1.4. Kiến trúc của hệ cơ sở dữ liệu video
Hình 1.3 l kiến trúc của một hệ CSDL video điển hình.
1.1.5. Một số chức năng của hệ quản trị cơ sở dữ liệu video
Ngoi các chức năng nh các hệ quản trị CSDL truyền thống, hệ quản trị
CSDL video còn có một số chức năng riêng:

- 4 -


- Mô hình hoá dữ liệu video liên quan đến vấn đề trình by dữ liệu

video, thiết kế tóm tắt mức cao của video thô;
- Chèn dữ liệu video liên quan đến vấn đề đa dữ liệu video mới vo
một CSDL video;
- Chỉ số hoá dữ liệu video l bớc quan trọng nhất trong quá trình
chèn dữ liệu video, liên quan đến việc tổ chức dữ liệu;
- Truy vấn v thu hồi dữ liệu video liên quan đến việc trích dữ liệu
video từ CSDL, đáp ứng những điều kiện truy vấn của ngời dùng.
1.2. Mô hình hoá dữ liệu video
Mô hình hóa dữ liệu video l quá trình thiết kế việc trình by dữ liệu
video dựa trên các đặc tính, nội dung thông tin của nó v các ứng dụng m
nó sẽ đợc sử dụng. Luận án đã phân tích các yêu cầu đối với một mô hình
dữ liệu video v tổng kết một số mô hình dữ liệu video hiện có.
1.2.1. Các yêu cầu đối với một mô hình dữ liệu video
(i) Hỗ trợ trừu tợng hóa cấu trúc video nhiều mức (hình 1.5 l một cấu
trúc nhiều mức của dòng video); (ii) Hỗ trợ quan hệ không gian, thời gian
(hình 1.6 mô tả các quan hệ thời gian của các cảnh video); (iii) Hỗ trợ chú
thích video; (iv) Tính độc lập dữ liệu video.


Hình 1.5. Cấu trúc phân
cấp của một dòng video
(Chơng trình thời sự của
VTV1)






Hình 1.6. Các

quan hệ theo
thời gian của
các cảnh

- 5 -


1.2.2. Các mô hình dữ liệu video
Một số mô hình dữ liệu video điển hình đã đợc phát triển: mô hình dựa
trên phân đoạn video; mô hình dựa trên phân lớp chú thích; mô hình đối
tợng video; mô hình dữ liệu video đại số. Tóm tắt các mô hình dữ liệu
video nh trên hình 1.9.

Hình 1.9. Phân loại các mô hình dữ liệu video
1.3. Phân đoạn v tóm tắt dữ liệu video
1.3.1. Các dạng chuyển lia video
Quá trình lấy mẫu theo thời gian trên nội dung của dữ liệu video [21]
nhờ phân tích nội dung hình ảnh của video v chia nó thnh một tập đơn vị
cơ sở (các lia) gọi l phân đoạn dữ liệu video.
Sự chuyển đổi giữa các lia video (gọi tắt l chuyển lia) có thể l đột ngột
hoặc từ từ. Ví dụ một số dạng chuyển lia nh trên hình 1.10.

Hình 1.10. Ví dụ về các thay đổi cảnh đột ngột (a) v từ từ (b, c, d, e, f)
1.3.2. Phát hiện chuyển lia video
Các thuật toán phân đoạn video có thể chia thnh hai nhóm:
- Các thuật toán dựa trên nội dung video mức thấp;
- Các thuật toán dựa trên nội dung mức cao.
1.3.3. Tóm tắt video
Tóm tắt video l quá trình tóm lợc bằng hình ảnh của một chuỗi video,
đợc trình by dới dạng cô đọng, loại trừ hoặc giảm bớt tối đa sự d thừa

[59]. Tóm tắt video tập trung vo việc tìm một tập nhỏ hơn các ảnh (các
khung chính) để biểu diễn nội dung hình ảnh v thể hiện các khung chính
tới ngời dùng. Tóm tắt video rất cần quá trình phân đoạn video.

- 6 -


1.4. Một số vấn đề khác về cơ sở dữ liệu video
Luận án đề cập các vấn đề: (i) chỉ số hoá dữ liệu video; (ii) truy vấn v
thu hồi dữ liệu video; (iii) thiết kế giao diện ngời dùng.
1.5. Kết luận chơng 1
Chơng 1 đã lm rõ những đặc tính đặc biệt của dữ liệu video, một dạng
dữ liệu đa phơng tiện, từ đó đặt ra những yêu cầu riêng trong thao tác, xử
lý dạng dữ liệu ny trong môi trờng đa phơng tiện. Qua khảo sát một số
mô hình dữ liệu video hiện có, lựa chọn mô hình dữ liệu video dựa trên
phân đoạn v xác định vai trò quan trọng của việc phân đoạn dữ liệu video
v các kỹ thuật phân đoạn dữ liệu video khi xây dựng các CSDL video.
Chơng 2: phân đoạn dữ liệu video
2.1. Một số kỹ thuật cơ bản xử lý ảnh video
Về bản chất, ảnh động, video gồm một chuỗi các khung hình (ảnh) nối
tiếp, xuất hiện với một tốc độ xác định no đó, tuỳ theo các tiêu chuẩn. Do
đó, xử lý dữ liệu video, trớc hết đợc kế thừa v dựa trên các kết quả của
kỹ thuật xử lý ảnh tĩnh. Phần ny đề cập một số kỹ thuật xử lý ảnh tĩnh liên
quan đến các vấn đề trong luận án: (i) biểu diễn ảnh số; (ii) quan hệ giữa
các pixel; (iii) một số phép biến đổi ảnh; (iv) các kỹ thuật nâng cao chất
lợng ảnh; (v) các kỹ thuật phát hiện biên (kỹ thuật Gradient v Laplace).
Một số khái niệm cơ bản dùng trong phân đoạn video đợc đề cập: Mã
hoá MPEG, các khung chuẩn video nén MPEG, các ảnh DC v chuỗi DC.
Hình 2.3 l ví dụ một khung video v ảnh DC của nó.
* Một số phép đo độ lệch giữa các khung

* Đối sánh mẫu: So sánh các pixel hai ảnh ở những vị trí tơng ứng:
)],(),([),(
,
0,0
yxIyxIIId
j
NyMx
yx
iji
=

<<
==
(2.39)
trong đó kích thớc ảnh l MìN.
* Biểu đồ mu: Biểu đồ mu của ảnh đợc
tính bằng cách chia một không gian mu, ví
dụ RGB, thnh các mu ảnh riêng rẽ, gọi l
bin v đếm số pixel nằm trong mỗi bin [11],
[50]. Độ lệch giữa hai ảnh Ii v Ij trên cơ sở
biểu đồ mu của chúng Hi v Hj, biểu diễn
nh sau:

][),(
1
jk
n
k
ikji
HHIId =


=
(2.40)
biểu thị sự khác nhau trong số pixel của hai ảnh rơi trong cùng một bin.
Trong không gian mu RGB, biểu thức (2.40) có dạng:

Hình 2.3. Ví dụ một ảnh
gốc v ảnh DC của nó

- 7 -


|])()(||)()(||)()([|),( kHkHkHkHkHkHIId
b
j
b
i
g
j
g
i
r
j
n
k
r
ijiRGB
++=

(2.41)

* Biểu đồ
2

: Tính độ lệch số đo giữa hai khung nh sau:

=
+

=
K
k
ji
ji
kHkH
kHkH
0
2
2
2
))()((
))()((

(2.42)
Dùng biểu đồ mu
2

cho kết quả tốt hơn hai phép đo trên.
2.2. Phân đoạn dữ liệu video
2.2.1. Cấu trúc của một dòng video
Hình 2.4 mô tả cấu trúc phân cấp của dòng video điển hình [19]. Các

đơn vị vật lý: khung hình (frame), đoạn cơ sở (lia, shot), khung chính (key
frame). Các đơn vị logic: cảnh (scene), chuỗi video (dãy video, sequence),
phản ánh nội dung mức cao của video. Cảnh l tập hợp các lia liền kề về
không gian v thời gian. Các cảnh cùng mang đến một nghĩa tạo thnh một
hồi (episode) hoặc chuỗi Các đơn vị thô hơn l đoạn video, băng video.




Hình 2.4. Cấu trúc phân cấp
một dòng video
2.2.2. Vấn đề phát hiện chuyển lia video
Các kỹ thuật phân đoạn dữ liệu video chủ yếu dựa vo nội dung hình
ảnh của video. Chúng đo sự khác nhau giữa các khung video để phát hiện
ranh giới lia. Hầu hết các đặc tính hình ảnh - âm thanh của video có thể
dùng lm cơ sở cho phân đoạn. Ngoi ra, có thể sử dụng kết hợp một số
đặc tính với nhau. Kỹ thuật phân đoạn phân loại dựa trên: (i) các đặc tính
để so sánh, (ii) các phơng pháp so sánh, (iii) đối tợng video thực hiện
phân đoạn [27]. Nhìn chung các thuật toán phát hiện chuyển lia từ từ phức
tạp hơn so với phát hiện chuyển lia đột ngột (cắt lia).
2.2.3. Các yếu tố ảnh hởng đến hiệu quả phân đoạn
Một số yếu tố chính: tính tơng quan cao về nội dung giữa các khung
video trong cùng một lia; chuyển động của camera v đối tợng; sự thay
đổi độ sáng đột ngột; các hiệu ứng biên tập
2.3. Tóm tắt các thuật toán phân đoạn video
2.3.1. Các kỹ thuật phát hiện cắt lia
Hiện nay, hầu hết các phơng pháp phát hiện cắt lia dùng phép đo sự
khác nhau nội dung hình ảnh giữa các khung. Cặp khung có sự khác nhau

- 8 -



lớn hơn một ngỡng coi nh chứa một cắt lia. Có nhiều đặc tính v phép đo
đợc sử dụng để phát hiện cắt lia [26], [43].
* Các so sánh mức pixel
Cách đơn giản nhất để định lợng sự khác nhau giữa hai khung l so
sánh giá trị cờng độ sáng của các pixel tơng ứng. Nếu thay đổi tuyệt đối
trung bình cờng độ sáng của các pixel lớn hơn một ngỡng
cut
T thì sẽ coi
nh có một cắt lia xuất hiện giữa hai khung [51]. Với hai khung
1n
f v
n
f ,
có thể biểu diễn điều ny nh sau:




>



)(
)(
.
)()(
1
bT

aT
hw
pfpf
cut
cut
p
nn
(2.43)
Trong đó
)(pf
n
l giá trị cờng độ sáng của pixel p trong
n
f , hw. l tổng
số pixel trong khung. Có cắt lia trong trờng hợp 2.43(a), v không có
trong trờng hợp 2.43(b). Nhợc điểm của phơng pháp ny l rất nhạy với
chuyển động của camera v đối tợng.
Zhang [30] đã cải tiến bằng cách xác định số phần trăm pixel bị thay đổi
đủ lớn giữa hai khung. Tuy nhiên, tiếp cận ny vẫn nhạy với chuyển động
của camera v đối tợng.
* Các so sánh ở mức tổng thể
Để khắc phục vấn đề chuyển động của camera v đối tợng, thay vì so
sánh luân phiên từng pixel, có một số đề xuất so sánh các đặc trng tổng
thể của mỗi khung. Có thể so sánh trung bình mu của mỗi thnh phần
mu RGB [12] hoặc l so sánh các biểu đồ mu tổng thể. Mặc dù không
nhạy với chuyển động nh các so sánh mức pixel, nhng không phản ánh
đợc phân bố không gian trong khung.
Nagasaka v Tanaka [16] đề xuất so sánh các biểu đồ mức xám giữa hai
khung. Biểu đồ
)(kH

n
có đợc bằng cách đếm số pixel trong khung
n
f với
mức xám k. Theo đó sự khác nhau giữa hai biểu đồ đợc xác định:


=

=
K
k
nnn
kHkHDH
1
1
)()(
(2.44)
Trong đó K l số mức xám. Nếu
n
DH lớn hơn một ngỡng, có một cắt lia.
Các tác giả khác vẫn sử dụng biểu thức (2.44), nhng tính
)(kH
n
bằng
cách đếm số pixel với mã mu k. Họ sử dụng một mã mu 6 bit có đợc
bằng cách lấy 2 bit có ý nghĩa nhất của mỗi thnh phần mu RGB trong mã
64 mu. Để sự khác nhau giữa hai khung chứa cắt lia phản ánh rõ rng hơn,
họ sử dụng số thống kê
2


để đo sự khác nhau giữa hai phân bố đợc chia
thnh các bin mu [55].

=
+

=
K
k
kHkH
kHkH
0
2
21
2
21
2
))()((
))()((

(2.45)

- 9 -


Nhiều phép so sánh khác cũng đã đợc sử dụng: sự khác nhau giữa bin
v bin đợc xác định bởi (2.45); số thống kê
2


; sự giao nhau biểu đồ:
kw
kHkH
INT
K
k
nn
n
.
))(),(min(
1
1

=

=
(2.46)
Trong đó
hw. l số pixel trong mỗi khung. Sự khác nhau giữa hai khung
đợc xác định bởi:
nn
INTINTD

=
1 (2.47)
* Các so sánh dựa trên chia khối
Các tiếp cận chia khối dung ho hai phơng pháp trên. Zhang v cộng
sự [30] đề xuất so sánh giữa các vùng (khối) tơng ứng trong các khung
liền kề. Các khối đợc so sánh dựa trên các đặc tính thống kê bậc hai của
giá trị cờng độ của chúng, sử dụng tỷ số lân cận [40]. Nagasaka v

Tanaka [16] chia mỗi khung thnh 4ì4 vùng v so sánh các biểu đồ mu
của các vùng tơng ứng. Ueda v cộng sự [28] tăng số khối lên 48 v xác
định số đo khác nhau giữa hai khung nh l tổng số khối có khác nhau biểu
đồ lớn hơn một ngỡng đã cho
cut
T
.
* Các phơng pháp dựa trên chuyển động
Để khắc phục vấn đề chuyển động của camera v đối tợng, một số
phơng pháp kết hợp quá trình khớp khối để có đợc số đo sự giống nhau
giữa các khung dựa trên chuyển động: Các phơng pháp của Akutsu [9] v
cộng sự, Shahraray [21], Lupatini v cộng sự [26].
* Các phơng pháp dựa trên đặc trng cạnh
Zabih [45] v cộng sự đề xuất kiểm tra phân bố không gian các pixel
cạnh đi vo v đi khỏi khung gọi l tỷ số biến đổi cạnh.
2.3.2. Các kỹ thuật phát hiện chuyển lia từ từ
* Các phơng pháp dựa trên biểu đồ
Đầu tiên l kỹ thuật so sánh cặp đôi của Zhang v cộng sự [30]. Kỹ
thuật ny so sánh sự khác nhau biểu đồ dùng hai ngỡng: Ngỡng thấp
low
T

v ngỡng cao
high
T v đợc minh hoạ trên hình 2.7.

Hình 2.7. Phát hiện chuyển lia từ từ dựa trên hai ngỡng
Trên hình 2.7a, mặc dù sai lệch vợt ngỡng
low
T nhng vẫn cha phải l

một chuyển lia từ từ. Hình 2.7b l một chuyển lia từ từ đợc đánh dấu bắt
đầu tại khung
s
f v kết thúc tại khung
e
f .

- 10 -


* Các phơng pháp dựa trên đặc trng cạnh
Phơng pháp của Lienhart [41], Yu [29] mở rộng phơng pháp dùng tỷ
số biến đổi cạnh đã sử dụng phát hiện cắt lia [29] để phát hiện các chuyển
lia dạng mờ dần (fade) v chồng mờ (dissolve). Có một hớng khác l phát
hiện các chuyển đổi từ từ thông qua phân tích các lát cắt thời gian [24].
* Các phơng pháp dựa trên đờng cong sai lệch
Phơng pháp của Alattar [15] phân tích sự biến đổi theo thời gian của
sai lệch cờng độ sáng pixel trong mỗi khung, sau đó nhiều tác giả khác
cải tiến. Do đờng cong biến đổi của một chuyển lia dạng chồng mờ lý
tởng có dạng parabôn, cho nên phát hiện các chúng trở thnh vấn đề phát
hiện mẫu đờng cong ny trong một khoảng thời gian no đó.
2.3.3. Các kỹ thuật phát hiện chuyển lia thực hiện trên video dạng nén
Một số kỹ thuật phân đoạn trực tiếp trên video nén hoặc trên chuỗi video
đã đợc giải nén một phần. L. Yeo v B. Liu [36] đề xuất phân tích các
chuỗi DC để phân đoạn video nén MPEG, sử dụng để phát hiện cả hai dạng
chuyển lia từ từ v đột ngột. N. V. Pathel v cộng sự [37] đề xuất một kỹ
thuật phân đoạn chỉ sử dụng các khung I, dựa trên số thống kê
2

áp dụng

cho biểu đồ mu v cho các biểu đồ dòng v cột của các khung DC.
2.4. Kết luận chơng 2
Chơng 2 đã đa ra những vấn đề cơ bản của các kỹ thuật phân đoạn
video, đồng thời tóm tắt v đánh giá một số thuật toán phân đoạn dữ liệu
video hiện có, theo hai lớp: (i) các thuật toán phát hiện cắt lia; v (ii) các
thuật toán phát hiện chuyển lia từ từ. Từ đó đặt ra nhiều hớng cải tiến,
phát triển các kỹ thuật phân đoạn dữ liệu video mới.
Chơng 3: các Kỹ thuật phát hiện chuyển lia video mới
3.1. Kỹ thuật phát hiện cắt lia dựa trên đánh dấu vùng nền
3.1.1. Cơ sở lý thuyết
- Phân tích, đánh dấu đờng di chuyển của camera nhờ lựa chọn các
vùng đặc biệt trên các khung video.
- Vận dụng phơng pháp Tháp Gauss (Gaussian Pyramid) [1], [39] trong
nén ảnh số để phục vụ cho phát hiện ranh giới lia.
Một lia đợc thực hiện từ một hoạt động camera, cho nên theo vết di
chuyển của camera sẽ xác định đợc ranh giới lia. Thực hiện bằng cách
đánh dấu vùng nền trong các khung video. Vùng nền (VNC) đợc định
nghĩa nh hình 3.1. Kích thớc v hình dạng vùng nền VNC đợc chọn
theo kinh nghiệm. Lý do chọn VNC có dạng chữ : (i) phần đáy của một
khung thờng l phần thể hiện các đối tợng (VĐT), vùng cận cảnh; (ii)
vùng nền chữ nhật nhỏ trên đỉnh phản ánh chuyển động ngang của camera;

- 11 -


iii) hai cột trái/phải phản ánh chuyển động dọc của camera. Kết hợp vùng
đỉnh v các cột có thể vạch ra chuyển động theo hớng đờng chéo bất kỳ.

Hình 3.1. Vùng nền cố định
Hình 3.3. Ví dụ dayPixel v dPixel

Phát hiện cắt lia nhờ xác định mức độ khác nhau VNC hai khung liền
kề. Phơng pháp ny hiệu quả trên các phơng diện sau: (i) số lợng phép
so sánh giảm; (ii) giảm đợc sai sót nhờ biện pháp lọc nhiễu (3.1.3), không
nhạy với chuyển động của camera v đối tợng.

Hình 3.2. Vùng nền chuyển đổi
Kéo thẳng VNC chuyển thnh vùng nền chuyển đổi (VNCĐ) nh hình
3.2, để thuận tiện cho so sánh các vùng nền.
Vận dụng phơng pháp Tháp Gauss để chuyển một VNCĐ hai chiều
thnh một dãy các pixel (kí hiệu l dayPixel) v cuối cùng sẽ chuyển thnh
một pixel đơn (kí hiệu l dPixel). Kỹ thuật ny đợc minh họa nh trong
hình 3.3. Theo hình vẽ, một VNCĐ (13 x 5) pixel sẽ giảm theo nhiều bớc
để thnh dayPixel v sau đó thnh dPixel. Các tham số dayPixel v dPixel
đợc sử dụng trong các giai đoạn kiểm tra cho những trờng hợp cần cân
nhắc trong thuật toán. Kích thớc của VNCĐ đợc tính nh sau đây.
Giả sử kích thớc của khung l r v c; của VNCĐ l w v L; của VĐT l
h v b (trên hình 3.1). Trớc hết ớc lợng các tham số n
y l
w

,
L

v
h

,
b

. Chọn

w

bằng 10% chiều rộng của khung, tức l 10/cw =

. Giá trị ny
đợc chọn theo kinh nghiệm sử dụng các đoạn video. Kích thớc đó l đủ
lớn để bao phủ VNC v VĐT. Từ
w

, tính đợc các giá trị
khác:
wcb

=

.2
;
wrh

=

; v
hcL

+
=

.2
. Theo phơng pháp Tháp Gauss, kích
thớc VNCĐ phải nằm trong tập sau: {1, 5, 13, 29, 61, 125, }. Nh ví dụ


- 12 -


trên, sẽ giảm đợc 5 pixel xuống 1; 13 pixel xuống 5; 29 pixel xuống 13
Nói chung, phần tử thứ j (
j
s
) trong tập ny đợc tính theo:
,3,2,1;21
2
=+=

=
js
j
i
i
j
(3.1)
Bảng 3.1. Ví dụ minh họa

Giá trị thích hợp cho w l trong tập ny m gần nhất với
w

. Xác định số
gần nhất: Trớc hết tính
)6/)3((log2
2
+


+
= wj
, thay giá trị j vo công thức 3.1
tính đợc w mong muốn. Tơng tự tính đợc L. Kết quả của phơng pháp
gần đúng ny minh hoạ trên bảng 3.1. Ví dụ với c=160, nhận đợc
1610/160 ==

w , giá trị j tơng ứng l 3. Thay j vo (3.1) tính dợc giá trị
thích hợp của w l 13.
3.1.2. Thuật toán
Thuật toán sử dụng dayPixel v dPixel phát hiện ranh giới lia nh trên
hình 3.4. Giai đoạn 1 (so sánh pixel), giai đoạn 2 (so sánh dPixel) sử dụng
nhanh cho những trờng hợp rõ rng, các khung nằm trong cùng một lia.

Hình 3.4. Thuật toán phát hiện ranh giới lia
Giai đoạn 3 (so sánh dayPixel): Xác định hai khung chia sẻ bao nhiêu
phần nền chung. So sánh hai dayPixel bằng cách dịch chúng theo chiều
ngợc nhau nh trên hình 3.5. Mỗi bớc dịch l một pixel v sẽ tính đợc
số điểm khớp nhau p tơng ứng để ra quyết định về một chuyển lia.

- 13 -



Hình 3.5. Bớc dịch đầu tiên v cuối cùng của dayPixel
3.1.3. Cải tiến thuật toán để chống nhiễu
Nhiễu sẽ dẫn đến sai sót trong phân đoạn. Nếu tính thêm các vùng góc
của VNC nh trên hình 3.6, sẽ có thêm các thông tin (dPixelTrai v
dPixelPhai) để lọc nhiễu.





Hình 3.6. Lựa chọn các vùng
góc nền của khung video

Thuật toán đợc bổ sung giai đoạn 4, dùng các giá trị dPixelTrai v
dPixelPhai để lọc nhiễu, sau khi thực hiện xong giai đoạn 3 v phát hiện
hai khung i v j có khả năng l một ranh lia.
Đặt KhacTrai (KhacPhai) l các sự khác nhau của hai giá trị dPixelTrai
(dPixelPhai) giữa hai khung i v j.
(%)
2
*100
N
ji
dPixelTraidPixelTrai
KhacTrai

=
(3.4)
Trong đó N l số bit mu (ví dụ chọn N=8). Tơng tự tính đợc
KhacPhai. Từ đó xác định đợc giá trị khác nhau nhỏ nhất KhacGoc:
(
)
KhacPhaiKhacTraiKhacGoc ,min
=
(3.5)
Nếu KhacGoc lớn hơn 10% giá trị khác nhau của các dPixel có thể có

thì thực sự có ranh giới lia giữa hai khung i v j. Ngợc lại, hai khung coi
nh nằm cùng trong một lia.

- 14 -


3.2. Kỹ thuật bù chuyển động trong phát hiện chuyển lia video
3.2.1. Đặt vấn đề
Kỹ thuật phát hiện chuyển lia từ từ gặp khó khăn vì khó phân biệt chính
xác thay đổi nội dung hình ảnh trong các khung liền kề do chuyển lia với
do chuyển động của camera v đối tợng gây ra. Kỹ thuật bù chuyển động
dựa trên chia khối sẽ khắc phục vấn đề đó.
3.2.2. Phát hiện cắt lia dựa trên chia khối để bù chuyển động
Khái niệm bù chuyển động
Trên hình 3.7, nội dung hình ảnh trên các khối pixel trong phần A giữa
khung hình 831 v 832 l không thay đổi, còn phần B l thay đổi do
chuyển động của đối tợng (con ngời). Xác định đợc phần nội dung hình
ảnh chuyển dịch gọi l ớc lợng chuyển động. Khôi phục lại một ảnh tại
khung hiện hnh từ khung ảnh trớc đó cùng với các thông tin dịch chuyển
gọi l bù chuyển động.


Hình 3.7. Phần nội dung hình ảnh
thay đổi do chuyển động

Tóm tắt thuật toán

Hình 3.8. Các bớc phát hiện cắt lia
Phơng pháp đợc mô tả tóm tắt trên hình 3.8. Với mỗi cặp khung,
khung thứ nhất

1n
f đợc chia thnh một lới đều các khối. Đo sự giống
nhau giữa mỗi cặp khung nhờ so sánh đặc tính cạnh trong mỗi khối dựa
vo tính tơng quan của một hm khớp. Tiếp theo, ớc lợng chuyển động
cho mỗi khối để bù chuyển động của camera v đối tợng [4]. Nh vậy sự
khác nhau nội dung hình ảnh của cặp khung chỉ còn l kết quả của cắt lia.

- 15 -


Luận án trình by chi tiết các bớc: (i) đánh giá chuyển động dựa trên
chia khối; (ii) xác định véc tơ dịch chuyển dựa trên hm tơng quan mức
xám; (iii) mở rộng thuật toán sử dụng các đặc trng cạnh.
Hình 3.9 cho thấy đầu ra điển hình của tơng quan tiêu chuẩn hoá giữa
hai khối trong các khung liền kề về thời gian. Hình 3.10 minh hoạ thuật
toán để đo sự giống nhau cho mỗi khối giữa hai khung. Phép đo giống
nhau
n
E cho mỗi cặp khung
1n
f v
n
f có đợc bằng cách kết hợp số đo
khớp cố định của tất cả các khối.




Hình 3.9. Hm tơng quan cho
số đo sự giống nhau về nội dung

Mở rộng thuật toán sử dụng biểu đồ mu
Chỉ dùng phép đo giống nhau dựa trên tơng quan đặc tính cạnh không
phản ánh hết thay đổi nội dung hình ảnh trong khung, cần kết hợp so sánh
phân bố mu để tăng độ chính xác. Luận án áp dụng so sánh biểu đồ số
thống kê
2

. Tơng tự nh tính
n
E , số đo sự khác nhau phân bố mu của
các khối nh sau:
}{
2
in
medianC

= (3.13)
Sử dụng
n
E v
n
C phát hiện bất kỳ một sự thay đổi nội dung hình ảnh
no cùng với hai ngỡng
E
T v
C
T để phát hiện cắt lia.

Hình 3.10. Tìm số đo khớp cố định v véc tơ chuyển động


- 16 -


3.2.3. Kỹ thuật bù chuyển động trong phát hiện các chuyển lia từ từ
Phát hiện các chuyển lia từ từ bằng cách đo sự khác nhau giữa nội dung
hình ảnh các khung ở cách xa nhau về mặt thời gian v sẽ sử dụng phơng
pháp đo nh trong phát hiện cắt lia. Chỉ những nội dung ở khung trớc vẫn
xuất hiện ở khung hiện tại mới đợc so sánh. Ba bớc để phát hiện các
chuyển lia mờ dần (fade).
- Phát hiện các khung với biến đổi bằng 0 để đánh dấu điểm bắt đầu của
một rõ dần (fade-in) hoặc điểm kết thúc của một mờ dần (fade-out).
- Sử dụng phơng pháp phát hiện cắt lia để phân biệt giữa chuyển lia mờ
dần v cắt lia tới hoặc từ các ảnh thuần một mu.
- Nếu khẳng định l một chuyển lia mờ dần, xác định rõ điểm bắt đầu
của một mờ dần (fade-out) hoặc điểm kết thúc của một rõ dần (fade-in).
3.2.4. Phát hiện các chuyển lia dạng mờ dần
Kết thúc một mờ dần v bắt đầu một rõ dần đợc đánh dấu bởi một ảnh
thuần một mu. Tuy nhiên, có thể tồn tại các cắt lia tới hoặc từ một ảnh
thuần một mu.
Để xác định nếu
n
f đánh dấu kết thúc của một mờ dần hoặc nếu cặp
khung chứa một cắt lia, cần tính các số đo
n
E v
n
C . Các đặc tính cạnh
n
E
sẽ ít giống nhau. Tuy nhiên, nếu

n
f đánh dấu kết thúc của một mờ dần,
n
C
sẽ nhỏ v rất ít thay đổi nh trên hình 3.12.
Hình 3.13 l đồ thị của
n
E v
n
C trong một đoạn video chứa một cắt lia
tới ảnh thuần đen, tiếp sau l một rõ dần.


Hình 3.12. Số đo biểu đồ mu
n
C ít thay đổi trong một
chuyển lia mờ dần


Hình 3.13. Cả hai số đo
n
E
v
n
C thay đổi đáng kể trong
một cắt lia
Khi tìm thấy khung thuần một mu đánh dấu bắt đầu/kết thúc của một
chuyển lia mờ dần thì ranh giới đối diện đợc xác định chắc chắn nhờ quan

- 17 -



sát biến đổi của cờng độ pixel theo thời gian nh một mẫu parabôn. Điều
ny phản ánh bởi tỷ lệ lệch chuẩn của cờng độ pixel
n

so với đờng
thẳng xấp xỉ nh thấy trên hình 3.14 - minh hoạ
n

trong một rõ dần.
Trờng hợp một chuyển lia mờ dần tới hoặc từ một cảnh có độ tơng
phản thấp thì chỉ sử dụng độ lệch chuẩn sẽ không thể phát hiện ranh giới
một cách chính xác nh trên hình 3.15.
Cần kết hợp tuyến tính cả hai số đo
n

v giá trị trung bình
n

nh dã
trình by chi tiết trong luận án.

Hình 3.14. Tỷ lệ lệch chuẩn
cờng độ pixel theo thời gian
trong một chuyển lia mờ dần
so với đờng thẳng xấp xỉ






Hình 3.15. Độ lệch chuẩn v
độ lệch trung bình với các
chuyển lia mờ dần với cảnh
có độ tơng phản thấp
3.3. Thuật toán nhảy động
3.3.1. Vấn đề nâng cao khả năng phân đoạn dữ liệu video
Luận án đã đề cập đến các vấn đề: (i) yêu cầu đối với một thuật toán
phân đoạn; (ii) các yếu tố ảnh hởng đến kết quả phân đoạn; (iii) hớng
phát triển của các thuật toán phân đoạn.
3.3.2. Thuật toán nhảy động trong phân đoạn dữ liệu video
Đặt vấn đề
Hiện nay, các phơng pháp phân đoạn dữ liệu video dựa trên phân tích
video ton khung v đợc coi l tuyến tính. Chúng quét lần lợt ton bộ
dòng video v tính toán, so sánh tất cả các khung theo trình tự tuyến tính.
Thực tế các khung video trong cùng một lia có tính tơng quan cao, cho
nên rất nhiều phép so sánh thực sự không cần thiết. Từ nhận xét đó, có thể

- 18 -


bỏ qua nhiều phép so sánh m vẫn không ảnh hởng đến kết quả phân
đoạn. Đây l ý tởng của thuật toán nhảy động trong phân đoạn dữ liệu
video [3].
Thuật toán
Thuật toán ny tối u hoá các thuật toán tuyến tính bằng các kỹ thuật
nhảy đều v nhảy động (nhảy thích ứng). Chuỗi video mẫu dùng để phân
tích nh trên hình 3.16a.


Hình 3.16. Minh họa phơng pháp so sánh không tuyến tính
Chuỗi video ny gồm 50 khung v có 3 lia. Ranh giới giữa lia 1 v lia 2
l các khung
17
k v
18
k , chuyển lia ny l một chuyển lia dạng chồng mờ;
ranh giới giữa lia 2 v lia 3 l các khung
31
k v
32
k , chuyển lia ny l một
cắt lia. Các kỹ thuật phân đoạn trớc đây so sánh giữa các khung liền kề,
quét lần lợt ton bộ các khung nh trên hình 3.16b.
- Kỹ thuật nhảy đều: Không so sánh các khung liền kề m so sánh cách đều
một số khung (bớc nhảy d). Ví dụ d=2 nh trên hình 3.16c. Khi phát hiện
ra 2 khung
i
k v
di
k
+
nằm trong 2 lia khác nhau, sẽ so sánh tuyến tính để
xác định ranh giới lia.
- Kỹ thuật nhảy động: Bớc nhảy d nói trên phụ thuộc vo từng dòng video.
Trong kỹ thuật nhảy động, d đợc xác định động, biến đổi thích ứng để
đảm bảo tối u. Mỗi lần lặp, sẽ tính lại bớc nhảy d cho thích hợp, bằng
cách so sánh khung hiện tại với khung vừa đợc kiểm tra nh trên hình
3.16d. Nếu sự giống nhau của phép so sánh ny nhiều hơn phép so sánh
trớc thì ở phép so sánh kế tiếp, d sẽ đợc tăng lên v ngợc lại. Nếu phát

hiện 2 khung nằm ở 2 lia khác nhau, sẽ quay lại thực hiện theo xu hớng
lùi dần dùng bớc nhảy đều.

- 19 -


- Số liệu so sánh: Ví dụ một mẫu video có K khung, các thuật toán tuyến
tính cần số phép so sánh:
1

=
KN
Stt
. Thí dụ tổng số khung video K=50 thì
49=
Stt
N
. Với kỹ thuật nhảy đều, d=2 v chỉ các khung lẻ đợc so sánh, số
phép so sánh cần l
2/K . Mỗi khi phát hiện 2 khung nằm ở 2 lia khác nhau
cần thêm một phép so sánh nữa để xác định chính xác ranh giới lia. Nếu số
ranh giới lia của dòng video l r thì số phép so sánh thêm l r. Tổng số
phép so sánh l:
rKN
Sd
+= )2/(
. Thí dụ K=50; r=2 sẽ tính đợc
27=
Sd
N

. Với
kỹ thuật nhảy động, xác định
Stu
N
phức tạp hơn. Trớc hết, so sánh giữa các
khung
1
k
v
3
k
(d=2). Vì chúng nằm trong cùng một lia, nên tiếp tục so
sánh giữa các khung
3
k
v
6
k
(d=3) v sau đó so sánh giữa các khung
6
k
v
10
k
(d=4) cứ tiếp tục cho đến khi so sánh giữa các khung
15
k
v
21
k

(d=6).
Đến đây phát hiện ra 2 khung ny nằm trong 2 lia khác nhau. Nh vậy bắt
đầu trong khoảng từ khung
15
k đến
21
k , quay lại sử dụng kỹ thuật nhảy đều
với bớc nhảy d=2 để xác định đợc ranh giới lia giữa khung
17
k v
18
k . Chỉ
cần tổng số 8 phép so sánh cho một lia có 17 khung. Hon ton tơng tự,
tính đợc
20=
Stu
N
.
3.4. Kết luận chơng 3
Chơng 3 đã đa ra các đề xuất mới của luận án. So với các kỹ thuật
phát hiện chuyển lia video hiện hnh, các giải pháp mới ny đã thể hiện rõ
một số u điểm về tốc độ xử lý v độ chính xác của kết quả phân đoạn
video. Các đề xuất mới bao gồm: kỹ thuật phát hiện cắt lia video dựa trên
đánh dấu vùng nền cùng với giải pháp chông nhiễu; Kỹ thuật bù chuyển
động của camera v đối tợng; Sử dụng các kỹ thuật nhảy (nhảy đều v
nhảy động) tăng hiệu quả các thuật toán phân đoạn video hiện hnh.
Chơng 4: thực nghiệm phân đoạn video
4.1. Mục đích thực nghiệm
4.1.1. Tiêu chuẩn so sánh giữa các thuật toán
Đánh giá các thuật toán phân đoạn dữ liệu video đã đề xuất so sánh với

một số thuật toán điển hình hiện hnh, thông qua hai tiêu chí chính: (i) độ
chính xác v (ii) tốc độ tính toán. Độ chính xác của một thuật toán thể hiện
ở các tham số: Số lia phát hiện đúng, số lia phát hiện nhầm, số lia bỏ sót.
Tốc độ tính toán thể hiện qua thời gian cần để thực hiện phân đoạn video
trên một đối tợng dữ liệu (file video). Đánh giá, so sánh các thuật toán khi
chúng cùng thực hiện trên một hệ thống v với cùng một đối tợng dữ liệu.
4.1.2. Phơng pháp thực nghiệm
Phơng pháp lựa chọn ngỡng

- 20 -


Do chỉ giới hạn ở mục đích chính của thực nghiệm v do trong thực tế
các giá trị ngỡng phụ thuộc vo từng video, cho nên phơng pháp chọn
ngỡng sử dụng l thủ công v đây l sự lựa chọn hợp lý.
Đánh giá kết quả thực nghiệm
Kết quả phân đoạn dữ liệu video đợc đánh giá thông qua các tiêu chí:
- Số lần thực hiện phân đoạn trên các file video, số loại file video;
- Số lia video phát hiện chính xác, phát hiện nhầm, bỏ sót;
- Thời gian thực hiện của các thuật toán.
4.2. Phần mềm PhanDoanVideo06
4.2.1. Chức năng, nhiệm vụ của phần mềm
Phần mềm PhanDoanVideo06 đợc xây dựng dựa trên các thuật toán
phân đoạn m luận án đã đề xuất. Nó thu nhận dòng video từ các đầu vo
camera, card TV v lu lại dới dạng các file AVI. Khi thể hiện lại các file
AVI, phần mềm sẽ tự động phát hiện ranh giới lia.
Phần mềm phân đoạn v so sánh kết quả theo các phơng pháp:
- Dựa trên thuật toán quét tuyến tính;
- Dựa trên thuật toán đánh dấu vùng nền VNC;
- Kết hợp chia khối trên vùng nền dạng hình (VNC);

- Dựa trên thuật toán nhảy động;
- Phát hiện chuyển lia dạng mờ dần dựa trên bù chuyển động.
4.2.2. Cấu trúc của phần mềm
4.2.3. Hoạt động của chơng trình
Giao diện chính của chơng trình nh trên hình 4.2.

Hình 4.2. Giao diện chính của chơng trình
Phần mềm hiển thị các tham số về lia video, các khung video, thời gian
tính toán Kết quả phân đoạn đợc hiển thị v kiểm tra lại bằng nhiều
cách: xem ranh giới lia, tách khung hình, xem biểu đồ mu, xem danh sách
các lia, tách khung chính của lia.

- 21 -


Biểu đồ mu các khung
509
k v
510
k nằm ở ranh giới lia nh trên hình 4.3.
Mn hình tách các khung của file video giúp kiểm tra lại kết quả phân đoạn
nh trên hình 4.4.

Hình 4.3. So sánh biểu đồ mu của
các khung ranh giới lia

Hình 4.4. Mn hình tách
các khung video
4.3. Các thuật toán chính
4.3.1. Thuật toán phát hiện ranh giới lia quét tuyến tính

Tuỳ theo kích thớc khung m chia lới (chia khối) trên khung hình v
tính trung bình mu cho từng ô lới (khối) (hình 4.5). Thuật toán (hình 4.6)
đã đợc mô tả chi tiết trong luận án.
Phần mềm kết hợp phơng pháp chia khối với đánh dấu vùng nền của
khung video dạng hình (VNC), nh trên hình 4.7.

Hình 4.5. Chia lới các khối
cho ton bộ khung hình


Hình 4.7. Chia lới cho
VNC của khung hình

Hình 4.6. Lu đồ thuật toán phát hiện
ranh giới lia quét tuyến tính

- 22 -


4.3.2. Thuật toán phát hiện ranh giới lia quét không tuyến tính
Thuật toán đã đợc trình by chi tiết trong luận án.
4.4. Một số kết quả chơng trình
Các kết quả sau đợc thực hiện trên file video dạng AVI, không nén,
kích thớc khung hình (160ì120) pixel, 24 bit mu. Ví dụ file
HaNoi29_thu.avi thực tế có 14 lia với 1301 khung, 13 chuyển lia (cắt lia).
Sử dụng thuật toán tuyến tính, phát hiện đúng 11 cắt lia (hình 4.9) v đã
bỏ sót mất 2 cắt lia: giữa các khung
598
k v
599

k ;
909
k v
910
k (hình 4.10), thời
gian xử lý l 148 giây.
Sử dụng phơng pháp đánh dấu vùng nền VNC, phát hiện đúng 11 cắt
lia, phát hiện nhầm thêm 2 chuyển lia (thực sự không có): giữa các khung
168
k v
169
k ;
192
k v
193
k (hình 4.11). V bỏ sót mất 2 cắt lia: giữa các khung
198
k v
199
k ;
598
k v
599
k . Nhng thời gian xử lý trên cùng file video
HaNoi29_thu.avi giảm đợc 13 giây so với thuật toán tuyến tính.

Hình 4.9. Kết quả phát hiện lia bằng
thuật toán tuyến tính




Hình 4.10. Hai cắt lia bỏ sót
khi phân đoạn dùng thuật toán
tuyến tính



Hình 4.11. Hai cắt lia phát hiện
nhầm khi phân đoạn dùng
đánh dấu VNC

×