Tải bản đầy đủ (.pdf) (24 trang)

DSpace at VNU: Phân đoạn dữ liệu video và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (502.32 KB, 24 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

ĐỖ XUÂN HIẾU

PHÂN ĐOẠN DỮ LIỆU VIDEO VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – Năm 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

ĐỖ XUÂN HIẾU

PHÂN ĐOẠN DỮ LIỆU VIDEO VÀ ỨNG DỤNG

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC : PGS.TS. ĐỖ TRUNG TUẤN

Hà Nội - 2015


i


LỜI CẢM ƠN
Tôi xin cảm ơn các Thầy, Cô giáo ở Khoa Công nghệ thông tin, Phòng Đào tạo,
Trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội đã giảng dạy và truyền thụ
cho tôi những kiến thức quý báu trong suốt thời gian tôi học tập và nghiên cứu tại
trƣờng.
Tôi xin gửi lời cảm ơn chân thành nhất tới PGS. TS. Đỗ Trung Tuấn, ngƣời
thầy đã cho tôi những định hƣớng, tận tình chỉ bảo giúp đỡ, cho tôi những ý kiến rất
quý báu để tôi hoàn thành luận văn tốt nghiệp này.
Tôi cũng xin tỏ lòng biết ơn về sự động viên giúp đỡ của gia đình và bạn bè,
đồng nghiệp, những ngƣời luôn quan tâm sát cánh bên tôi và là nguồn động viên
khích lệ, tạo cho tôi có đƣợc những điều kiện tốt nhất trong suốt quá trình học tập
của mình.
Tôi xin chân thành cảm ơn!

Hà Nội, tháng 04 năm 2015
Học viên
Đỗ Xuân Hiếu


ii

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng tôi. Tất cả tài
liệu tham khảo đã chỉ rõ trong trích dẫn và danh mục tài liệu tham khảo. Các kết
quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong các công
trình nào khác.

Tác giả


Đỗ Xuân Hiếu


iii
MỤC LỤC
LỜI CẢM ƠN ....................................................................................................... i
LỜI CAM ĐOAN ................................................................................................ ii
DANH MỤC CÁC TỪ VIẾT TẮT .................................................................... vi
DANH MỤC HÌNH VẼ .................................................................................... vii
MỞ ĐẦU ..............................................................................................................1
1. Tính cấp thiết của đề tài............................................................................1
2. Mục tiêu của đề tài....................................................................................2
3. Nội dung của đề tài ...................................................................................2
4. Bố cục .......................................................................................................2
CHƢƠNG 1. .........................................................................................................3
TỔNG QUAN VỂ DỮ LIỆU VIDEO ..................................................................3
1.1. Khái niệm tổng quan .................................................................................3
1.1.1. Khung hình .........................................................................................4
1.1.2. Đoạn cơ sở ..........................................................................................4
1.1.3. Một số hình thức chuyển cảnh ............................................................5
1.1.4. Một số dạng video ..............................................................................6
1.1.5. Các định dạng video ...........................................................................7
1.2. Chuẩn nén MPEG ......................................................................................9
1.2.1. Giới thiệu chuẩn nén MPEG ..............................................................9
1.2.2. Cấu trúc ảnh của MPEG ...................................................................10
1.2.3. Cấu trúc dòng bit của MPEG............Error! Bookmark not defined.
1.3. Chuẩn nén ITU-T ....................................Error! Bookmark not defined.
1.3.1. Chuẩn H.261 .....................................Error! Bookmark not defined.
1.3.2. Chuẩn H.263 .....................................Error! Bookmark not defined.
1.3.3. Chuẩn H.264 .....................................Error! Bookmark not defined.

1.4. Một số đặc trƣng của video .....................Error! Bookmark not defined.
1.4.1. Color .................................................Error! Bookmark not defined.


iv
1.4.2. Bề mặt ...............................................Error! Bookmark not defined.
1.4.3. Hình dáng .........................................Error! Bookmark not defined.
1.4.4. Chuyển động .....................................Error! Bookmark not defined.
1.5. Kết luận ...................................................Error! Bookmark not defined.
Chƣơng 2 ............................................................Error! Bookmark not defined.
CÁC KỸ THUẬT PHÂN ĐOẠN VIDEO .........Error! Bookmark not defined.
2.1. Bài toán phân đoạn video ........................Error! Bookmark not defined.
2.1.1. Các hƣớng tiếp cận trong phân đoạn videoError! Bookmark not
defined.
2.1.2. Một số phƣơng pháp phân đoạn .......Error! Bookmark not defined.
2.1.3. Các yếu tố để xác định phƣơng pháp phân đoạnError!
not defined.

Bookmark

2.2.Phân đoạn video bằng kỹ thuật so sánh điểm ảnhError! Bookmark not
defined.
2.2.1. So sánh giữa hai điểm ảnh ở hai khung hình liên tiếp .............. Error!
Bookmark not defined.
2.2.2. Sự biến thiên cƣờng độ điểm ảnh theo thời gian sử dụng nhãn Error!
Bookmark not defined.
2.2.3. Ƣu nhƣợc điểm của phƣơng pháp so sánh điểm ảnh................ Error!
Bookmark not defined.
2.3. Phân đoạn video bằng kỹ thuật so sánh khốiError!
defined.


Bookmark

not

2.3.1. So sánh khối dựa trên thống kê ........Error! Bookmark not defined.
2.3.2. So sánh khối dựa trên không gian màuError!
defined.

Bookmark

not

2.3.3. So sánh khối dựa vào sự khác nhau của biểu đồ màu .............. Error!
Bookmark not defined.
2.3.4. So sánh khối dựa vào việc lấy mẫu trên miền không gian và thời
gian ....................................................................Error! Bookmark not defined.
2.3.5. Ƣu nhƣợc điểm của phƣơng pháp so sánh khốiError!
not defined.

Bookmark


v
2.4. Phân đoạn video bằng kỹ thuật biểu đồ màuError!
defined.

Bookmark

not


2.4.1. So sánh biểu đồ màu toàn cục ..........Error! Bookmark not defined.
2.4.2. So sánh biểu đồ màu cục bộ .............Error! Bookmark not defined.
2.4.3. Ƣu nhƣợc điểm của phƣơng pháp so sánh biểu đồ màu........... Error!
Bookmark not defined.
2.5. Phân đoạn video bằng kỹ thuật phát hiện chuyển liaError!
not defined.

Bookmark

2.5.1. Thuật toán phát hiện chuyển lia........Error! Bookmark not defined.
2.5.2. Phát hiện chuyển lia đột ngột ...........Error! Bookmark not defined.
2.5.3. Phát hiện chuyển lia dần dần ............Error! Bookmark not defined.
2.5.4. Ƣu nhƣợc điểm của phƣơng pháp phát hiện chuyển lia ........... Error!
Bookmark not defined.
2.6. Kỹ thuật phân đoạn trên cơ sổ cửa sổ trƣợtError!
defined.

Bookmark

not

2.6.1. Phƣơng pháp tiếp cận .......................Error! Bookmark not defined.
2.6.2. Thuật toán .........................................Error! Bookmark not defined.
2.6.3. Ƣu nhƣợc điểm của phƣơng pháp phân đoạn bằng cửa sổ trƣợt
...........................................................................Error! Bookmark not defined.
2.7. Kết luận ...................................................Error! Bookmark not defined.
Chƣơng 3. ...........................................................Error! Bookmark not defined.
THỰC NGHIỆM VÀ ĐÁNH GIÁ .....................Error! Bookmark not defined.
3.1. Đặt bài toán ..............................................Error! Bookmark not defined.

3.1.1. Bài toán .............................................Error! Bookmark not defined.
3.1.2. Môi trƣờng thực nghiệm và các thành phần cài đặt ................. Error!
Bookmark not defined.
3.2. Thuâ ̣t toán phân đoạn ..............................Error! Bookmark not defined.
3.2.1. Thuâ ̣t toán .........................................Error! Bookmark not defined.
3.2.2. Công cụ chƣơng trình .......................Error! Bookmark not defined.
3.3. Giao diện chƣơng trình ............................Error! Bookmark not defined.


vi
3.3.1. Lựa chọn video cần phân đoạn .........Error! Bookmark not defined.
3.3.2. Kết quả phân đoạn ............................Error! Bookmark not defined.
3.4. Đánh giá kết quả phân đoạn ....................Error! Bookmark not defined.
3.5. Kết luận ...................................................Error! Bookmark not defined.
KẾT LUẬN ........................................................Error! Bookmark not defined.
Kết quả đã đạt đƣợc của luận văn ...............Error! Bookmark not defined.
Hƣớng nghiên cứu tiếp theo và kiến nghị ..Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ..................................................................................11
Tiếng Việt ...................................................................................................11
Tiếng Anh ...................................................................................................11

DANH MỤC CÁC TỪ VIẾT TẮT
AVI

Audio Video Interleave

CSDL

Cơ sở dữ liệu


DCT

Discrete Cosine Transform

DV

Digital Video

DVD

Digital Video Disc

MPEG

Moving Picture Experts Group

NTSC

National Television Standard Committee

PAL

Phase Alternating Lines

SECAM

Sequential Color with Memory

ISO-IEC


International

Organization

for

Standardization International Electrotechnical Commission
JPEG

Joint Picture Experts Group

MJPEG

Motion JPEG

ITU-T

International Telecommunication Union


vii
DDL

Data definition language

GOP

Group of picture

AVC


Advanced Video Coding

VCEG

Video Coding Experts Group

GOB

Group of Block

CPU

Central Processing Unit


viii

DANH MỤC HÌNH VẼ
Hình 1.1. Cấ u trúc phân cấp của dữ liệu video ...........................................................3
Hình 1.2 : Khung hình .................................................................................................4
Hình 1.3 : Đoạn cơ sở .................................................................................................4
Hình 1.4. Chuyển cảnh đột ngột..................................................................................5
Hình 1.5 : Cắt cứng .....................................................................................................5
Hình 1.6 : Fade in ........................................................................................................5
Hình 1.7 : Fade out ......................................................................................................6
Hình 1.8 : Chồng mờ ...................................................................................................6
Hình 1.9: Một số loại Wipe cơ bản .............................................................................6
Hình 1.10 : Cấu trúc GOP .........................................Error! Bookmark not defined.
Hình 1.11 : Cấu trúc GOP khép kín ..........................Error! Bookmark not defined.

Hình 1.12 : Kiến trúc dòng dữ liệu của MPEG .........Error! Bookmark not defined.
Bảng 1.1 : Mô tả kiểu CIF và QCIF ..........................Error! Bookmark not defined.
Hình 1.13 : Biểu đồ màu ...........................................Error! Bookmark not defined.
Hình 1.14 : Biểu đồ thể hiện 4 loại ảnh cơ bản .........Error! Bookmark not defined.
Hình 1.15 : Các thao tác Camera ..............................Error! Bookmark not defined.
Hình 2.1 So sánh 2 điểm ảnh ở 2 khung hình kích thƣớc (X×Y) liên tiếp ....... Error!
Bookmark not defined.
Hình 2.2 Ảnh hƣởng của chớp sáng ..........................Error! Bookmark not defined.
Hình 2.3 Các cửa sổ cơ sở .........................................Error! Bookmark not defined.
Hình 2.4 Sự sai khác của lƣợc đồ màu(mức xám) trong phát hiện chuyển lia đột
ngột ............................................................................Error! Bookmark not defined.
Hình 2.5 Sự sai khác của lƣợc đồ màu(mức xám) trong phát hiện chuyển lia dần dần
...................................................................................Error! Bookmark not defined.
Hình 2.6 Giao của hai biểu đồ màu (mức xám) ........Error! Bookmark not defined.
Hình 2.7 Phát hiện chuyển lia dần dần dựa trên 2 ngƣỡngError!
defined.

Bookmark

not

Hình 2.8 Thuật toán phát hiện chuyển lia .................Error! Bookmark not defined.


ix
Hình 2.9 Đạo hàm bậc nhất của HD[i]......................Error! Bookmark not defined.
Hình 2.10 Đạo hàm bậc hai của HD[i]......................Error! Bookmark not defined.
Hình 2.11 Phát hiện chuyển lia dạng Fade ở video không nén và video nén ... Error!
Bookmark not defined.
Hình 2.12 Phát hiện chuyển lia dạng Dissolve ở video không nén và video nén

...................................................................................Error! Bookmark not defined.
Hình 2.13. Cửa sổ trƣợt .............................................Error! Bookmark not defined.
Hình 2.14. Ví dụ về thuật toán cửa sổ trƣợt ..............Error! Bookmark not defined.
Hình 2.15. Sự biến đổi của giá trị PFC [25] .............Error! Bookmark not defined.
Hình 3.1. Một số file trong thƣ viện AForge.NET ..Error! Bookmark not defined.
Hình 3.2. Thuâ ̣t toán phân đoạn video .....................Error! Bookmark not defined.
Hình 3.3. Thƣ mục chƣơng trin
̀ h ...............................Error! Bookmark not defined.
Hình 3.4. Các chƣơng triǹ h liên quan .......................Error! Bookmark not defined.
Hình 3.5. Một đoạn mã C ..........................................Error! Bookmark not defined.
Hình 3.6. Lựa chọn tệp video cần phân đoạn ............Error! Bookmark not defined.
Hình 3.7. Lựa chọn phân đoạn bằng Camera ............Error! Bookmark not defined.
Hình 3.8. Kết quả phân đoạn .....................................Error! Bookmark not defined.
Hình 3.9. Kết quả phân đoạn dƣới dạng các icon .....Error! Bookmark not defined.
Hình 3.10. Kết quả phân đoạn video bằng phần mềm Pinnacle Studio ............ Error!
Bookmark not defined.
Hình 3.11. Thuật toán cửa sổ trƣợt phát hiện nhầm chuyển cảnhError! Bookmark
not defined.
Bảng 1.1 : Mô tả kiểu CIF và QCIF ........................Error! Bookmark not defined.4


1

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Hiện nay, phần lớn lƣợng thông tin mà con ngƣời tiếp thu đƣợc từ thế giới
bên ngoài là ở dạng thông tin thị giác, vì vậy các nghiên cứu về dạng thông tin
này đều ít nhiều mang đến những lợi ích thiết thực cho cuộc sống. Với sự phát
triển của khoa học công nghệ hiện nay, thông tin thị giác mà con ngƣời nhận
đƣợc đã đuợc số hóa dƣới hai dạng là ảnh số và video số.

Khái niệm video xuất hiện vào những năm đầu của thế kỷ XX và ngày
càng đƣợc ứng dụng nhiều trong thực tế, tuy nhiên phải đến những năm cuối
của thế kỷ XX video số mới thực sự phát triển. Cho đến khi có sự ra đời và
phát triển của mạng máy tính và c á c t h i ế t b ị s ố việc xử lý dữ liệu video đƣợc
số hoá trên máy tính tỏ ra khá hiệu quả. Dữ liệu video đã đƣợc đƣa vào rất nhiều
ứng dụng trong thực tế nhƣ : đào tạo điện tử dựa vào mạng máy tính, hỗ trợ đào
tạo trực tuyến, hệ thống hội thảo trực tuyến, hệ thống mô phỏng, giám sát, video
theo yêu cầu… Vấn đề nâng cao hiệu quả và chất lƣợng thao tác, xử lý với dữ
liệu video đang ngày càng đƣợc quan tâm.
Trong đa phƣơng tiện dữ liệu video khác với c á c l o ạ i dữ liệu khác bởi
hai yếu tố là thời gian và không gian. Hơn thế nữa, dung lƣợng và định dạng
phi cấu trúc của dữ liệu video số đ ã t ạ o ra không ít khó khăn trong quá trình
quản lý, truy xuất dữ liệu video. So với ảnh số có tính chất tĩnh, video là dữ
liệu động theo trục thời gian. Video đƣợc biểu diễn một cách liên tục thành một
chuỗi với tốc độ nhất định. Một đoạn video có chất lƣợng tốt có khoảng 25 đến
30 khung hình (frames) trên một giây theo chuẩn NTSC.
Chính đặc tính liên tục và lƣợng dữ liệu lớn đã làm cho dữ liệu video trở
nên thách thức hơn khi xử lý và tha o tác . Nói cách khác, khi lƣợng thông tin
nhiều hơn, đặc biệt là có kèm theo thời gian và s ự chuyển động, t h ì lại có
thêm nhiều cách để phân tích các nội dung trong video. Hơn nữa, nội dung của
dữ liệu video lại có dạng phân cấp đƣợc chia thành các đoạn, cảnh, khung hình
và cả các đối tƣợng kèm theo hành động. Những hệ thống tìm kiếm video
hiệu quả đòi hỏi phân tích và chỉ mục đƣợc tất cả các yếu tố này.
Trong quá trình nỗ lực tìm kiếm lời giải cho bài toán x ử l ý liệu video,
thì bài toán phân đoạn video đã xuất hiện. Để có thể truy vấn, chỉ mục, tìm
kiếm nội dung video, thì t rƣ ớc hế t video phải đƣợc phân c hi a một cách thích
hợp và có ý nghĩa về mặt nội dung. Sự phân đoạn và miêu tả đặc điểm bằng tay
là cách thủ công, tốn nhiều thời gian, phụ thuộc vào kỹ năng và sự hiểu biết của
ngƣời thực hiện.



2
Trong một hệ thống xử lý dữ liệu video, bƣớc quan trọng đầu tiên là phân
đoạn dữ liệu video theo thời gian. Bƣớc này nhằm mục đích phân chia dòng
video liên tục thành các đơn vị cơ sở có ý nghĩa đó là các lia (shot), các cảnh
(scene) hay một dãy cảnh quay.
Chính vì vậy, việc nghiên cứu về phân đoạn video là rất cần thiết cho
một hệ thống xử lý dữ liệu video và nó ngày càng trở nên cấp thiết hơn khi nhu
cầu sử dụng dữ liệu video ngày càng gia tăng. Xuất phát từ đó tôi lựa chọn đề tài
"Nghiên cứu một số kỹ thuật phân đoạn video và ứng dụng".
Trƣớc hết, việc mô tả nội dung của dữ liệu video bằng các văn bản thuần túy
là một điều hết sức khó khăn. Video có dung lƣợng rất lớn, lại chứa thông tin lặp lại
nhiều lần, các khung hình gần nhau có nội dung rất giống nhau. Do đó, việc thao tác
với tất cả các khung hình thật không hiệu quả. Vì vậy cần phải có phƣơng pháp
đúng đắn để xử lý dữ liệu video.
2. Mục tiêu của đề tài
Tìm hiểu một số kỹ thuật phân đoạn dữ liệu video trong môi trƣờng đa
phƣơng tiện, đề xuất một số cải tiến và xây dựng một ứng dụng cụ thể sử dụng các
kỹ thuật đã tìm hiểu.
3. Nội dung của đề tài
 Tổng quan về dữ liệu video.
 Tìm hiểu một số kỹ thuật phân đoạn video.
 Triển khai chƣơng trình thử nghiệm phân đoạn video nhằm tìm ra các phân
đoạn có ngữ cảnh phù hợp.
Các phƣơng pháp phân đoạn dữ liệu video trình bày trong luận văn góp phần
hệ thống hóa lý thuyết CSDL video, cung cấp các thuật toán và công cụ để chuẩn bị
cho việc xây dựng CSDL video số trong môi trƣờng đa phƣơng tiện và đƣợc ứng
dụng trong thực tế.
4. Bố cục
Luận văn gồm 3 chƣơng với các phần mở đầu, kết luận, các công trình và bài

báo khoa học đã đƣợc công bố:
 Chƣơng 1: Tổng quan về dữ liệu video trong môi trƣờng đa phƣơng
tiện, đƣa ra một cái nhìn chung nhất về video.
 Chƣơng 2: Các kỹ thuật phân đoạn video.
 Chƣơng 3: Thực nghiệm chƣơng trình phân đoạn video
Cuối luận văn là kết luận và danh mục các tài liệu tham khảo.


3

CHƢƠNG 1.
TỔNG QUAN VỀ DỮ LIỆU VIDEO
1.1. Khái niệm tổng quan
Ngày nay, với sự phát triển mạnh mẽ của khoa học công nghệ và các thiết bị
số đã mang lại những thành tựu và ứng dụng rất lớn trong cuộc sống. Trong đó, sự
phát triển của đa phƣơng tiện cũng nhƣ các thiết bị truyền thông cũng đã mang lại
nhiều ứng dụng thiết thực trong đời sống. Tuy nhiên, nhƣ vậy vẫn là chƣa đủ, vẫn
cần nhiều hơn nữa các nghiên cứu liên quan đến khía cạnh này. Trong đó việc xử
lý video đƣợc đặt lên hàng đầu, bởi vì những đặc tính khó xử lý của video.
Video là một chuỗi các ảnh tĩnh liên tục theo không gian và thời gian hoặc
cả hai nhằm mô phỏng sự chuyển động [1,2]. Sau đó, hàng loạt các nghiên cứu
khác liên quan đến việc mô tả chuyển động theo thời gian đƣợc triển khai và đã có
những ứng dụng đáng kể.
Video đƣợc hình thành từ các ảnh (khung hình - frame) liên tiếp nhau, tuỳ
theo các chuẩn video khác nhau mà số khung hình trong một giây cũng khác nhau.
Các khung hình liên tiếp về mặt thời gian tạo thành một đoạn cơ sở (shot). Một
video có thể gồm nhiều đoạn cở sở ghép nối lại, có sự chuyển đổi từ đoạn này sang
đoạn kia có thể là chuyển cảnh đột ngột hoặc chuyển cảnh dần dần bằng việc sử
dụng một số hiệu ứng khi biên tập video (dissolve, fade, wipe,...).


Hình 1.1. Cấ u trúc phân cấp của dữ liệu video


4

Trong cấu trúc phân cấp trên thì khung hình và các lia là đơn vị vật lý. Các
khái niệm cảnh (scene) và chuỗi (sequence) là các đơn vị logic của dòng video. Một
cảnh gồm các lia liên quan về không gian và liền kề về thời gian, cùng mô tả một
nội dung ngữ nghĩa hoặc một tình tiết. Trong khi một số các cảnh cùng đƣa đến một
ý nghĩa, gọi là chuỗi (sequence) [1].
1.1.1. Khung hình
Một đoạn video gồm một chuỗi các ảnh tĩnh liên tiếp nhau tạo nên sự
chuyển động. Mỗi ảnh tĩnh đó đƣợc gọi là một khung hình (frame). Để đoạn video
có thể tạo cảm giác chuyển động, các khung hình phải đƣợc quay với tốc độ phù
hợp. Vì mắt ngƣời chỉ có thể nhận đƣợc 24 hình/giây, nên nếu nhƣ trong một giây,
lần lƣợt 24 hình hoặc nhiều hơn đƣợc phát thì mắt sẽ không nhận ra đƣợc sự rời rạc
giữa những khung hình, mà chỉ thấy những cảnh liên tục.
A

A

A

Khung hình thứ i-1

B

B

B


C

Khung hình thứ i

C

C

Khung hình thứ i +1

Hình 1.2 : Khung hình

Khung hình là đơn vị cơ bản nhất của dữ liệu video. Theo chuẩn của hệ
NTSC thì một giây có 30 khung hình, vậy một phút có 1800 khung hình, một giờ có
60x1800 = 108000 khung hình. Có thề thấy rằng số lƣợng khung hình cho một đoạn
video thƣờng là rất lớn, cần phải có một đơn vị cấp cao hơn cho video số [5].
1.1.2. Đoạn cơ sở
Đoạn cơ sở, hay lia (shot) là một chuỗi các khung hình liên tiếp nhau theo
thời gian mô tả một hành động liên tục.
A

A

Đoạn cơ sở thứ i

A

B


B

B

Đoạn cơ sở thứ i+1

C

C

C

Đoạn cơ sở thứ i+2

Chuyển cảnh
Hình 1.3 : Đoạn cơ sở

Một đoạn video có nhiều đoạn cơ sở, mà cũng có thể chỉ là một đoạn cơ sở.
Những đoạn cơ sở đại diện cho toàn bộ đoạn video, và truy xuất đến chúng cùng coi


5
nhƣ là truy xuất đến chính đoạn video. Tổ chức những đoạn video ở mức độ đoạn
cơ sở là thích hợp nhất cho việc duyệt và truy tìm thông tin dựa vào nội dung.
1.1.3. Một số hình thức chuyển cảnh
Scene (cảnh) là các đơn vị logic của dòng video, một cảnh gồm các shot (lia)
liên quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa
hoặc một tình tiết.
Chuyển cảnh là sự chuyển đổi đƣa ngƣời xem từ một lia này sang lia khác.
Có hai loại khác nhau của quá trình chuyển đổi có thể xảy ra giữa các chuyển

cảnh [2]:
 Chuyến cảnh đột ngột (abrupt scene change hay cut): Xảy ra khi có
sự chuyển đổi đột ngột giữa các khung hình trong một đoạn khi
camera dừng và khởi động hoặc có sự chuyển đổi nhanh giữa cảnh
này sang cảnh khác.
A

A

A

B

B

B

Hình 1.4. Chuyển cảnh đột ngột

 Chuyển cảnh thay đổi dần dần (gradual scene change): Khác với
chuyển cảnh đột ngột các khung hình thay đổi dần dần. Việc thay đổi
này là do một số hiệu ứng khi biên tập video: Cắt cứng (Cut),Fade
in/out, chồng mờ (dissolve), wipe…làm thay đổi màu, không gian
của khung hình.
 Cắt cứng: là sự biến đổi đột ngột từ giữa hai cảnh, xảy ra giữa hai
khung hình. Ví dụ: có sự chuyển đổi đột ngột giữa A và B.
A

A


A

B

B

B

Hình 1.5 : Cắt cứng

 Fade: là sự biến đổi dần dần giữa một cảnh và một ảnh trong đó cảnh
sau xuất hiện mờ dần đi (fade out) hoặc là sự biến đổi dần giữa một
ảnh và một cảnh phim trong đó các cảnh sau xuất hiện rõ dần lên
(fade in).
A

A

A

A

Hình 1.6 : Fade in

A

A


6


A

A

A

A

A

A

Hình 1.7 : Fade out

 Chồng mờ: là sự biến đổi dần dần từ cảnh cũ sang cảnh mới trong
đó cảnh cũ đƣợc fade out và cảnh mới đƣợc fade in, các cảnh xuất
hiện có sự chồng chéo lên nhau. Ví dụ có sự chuyển đổi dần dần giữa
hai cảnh A và cảnh B, nhƣng trong quá trình chuyển đổi có sự chồng
chéo giữa A và B.

A

AB

AB

AB

AB


B

Hình 1.8 : Chồng mờ

 Wipe: là hiện tƣợng cảnh chạy theo một đƣờng trên màn hình, trong
khi đó cảnh mới xuất hiện phía sau đƣờng đó.

Hình 1.9: Một số loại Wipe cơ bản

1.1.4. Một số dạng video

1.1.4.1. Video tương tự [2,30]
NTSC Video: Đây là dạng Video tƣơng tự với 525 dòng trên một khung
hình, 30 khung hình trong một giây, quét cách dòng, chia làm hai trƣờng (mỗi
trƣờng 262.5 dòng), có 20 dòng cho thông tin điều khiển tại thời điểm bắt đầu
mỗi trƣờng.
PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25 khung
hình trong một giây, quét cách dòng. Khung gồm hai trƣờng chẵn lẻ, mỗi trƣờng
bao gồm 312.5 dòng.


7

1.1.4.2. Video số
Tín hiệu video số : Đƣợc lƣu trữ dƣới dạng số, đƣợc lấy mẫu và lƣợng tử
hóa. Tín hiệu video số là một thông tin 3 chiều gồm 2 chiều không gian và 1 chiều
thời gian hay còn đƣợc gọi là một chuỗi ảnh số với mỗi ảnh số là một ảnh đƣợc lấy
mẫu và lƣợng tử hóa [5].
Các chuẩn video số : việc trao đổi giừa các ứng dụng và các sản phẩm video

số đã đƣa ra các chuẩn video số. Các chuẩn này bao gồm :
 Chuẩn nén : dùng để trao đổi thông tin trong dạng nén của video.
 Chuẩn các độ phân giải hiển thị : đƣợc dùng trong công nghiệp máy
tính.
 Chuẩn studio số : đƣợc dùng trong ngành công nghiệp ti vi.
 Chuẩn về giao tiếp mạng đƣợc dùng trong công nghiệp truyền thông.
Nhƣợc điểm của video số: Video số yêu cầu dung lƣợng để lƣu trữ lớn và
băng thông rộng để truyền tải trên mạng Internet. Với tín hiệu TV chất lƣợng tốt chỉ
cần 1440 điểm ảnh trên một dòng, 1050 dòng cho một frame độ sáng, 720 điểm trên
một dòng và 525 dòng trên một khung hình. Bởi vì mỗi giây có 30 frame và 8
bit/pixel nên kết quả cuối cùng là xấp xĩ 545 Mps. Đây là một yêu cầu quá lớn. Do
vậy mà hiên nay các phƣơng pháp nén video để giảm kích thƣớc khi truyền tải và
lƣu trữ đã đƣợc nghiên cứu và đƣa ra ứng dụng thực tế .
Ƣu điểm của video số: Tuy có mặt hạn chế về bộ nhớ lƣu trữ nhƣng video số
lại có nhiều ƣu điểm và đƣợc ứng dụng rộng rãi trong thực tế. Video tuần tự cung
cấp một số hoạt động tƣơng tác nhƣ là : chọn kênh, chỉnh tới lui hay là quay chậm
trên băng video. Ngoài ra để hiển thị tín hiệu theo chuẩn này trên một hệ máy dùng
chuẩn khác ta cần có một bộ chuyển đổi tín hiệu đắt tiền. Với tín hiệu số không cần
phải chuyển đổi các tín hiệu này. Ngoài ra còn có thể chỉnh sửa, tạo các hiệu ứng
trên video số. Video số không chỉ có vai trò giải trí mà nó còn cung cấp nhiều thông
tin quan trọng trong nhiều lĩnh vực nhƣ là các ảnh giám sát quân sự, điều khiển giao
thông, và rút trích thông tin từ các dữ liệu ảnh và video [26].
1.1.5. Các định dạng video
Sự chuẩn hóa của video tƣơng tự trong những năm đầu của thập niên
1950 (NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh
chuyển động xuất hiện hầu nhƣ khắp nơi, với các thiết bị vô tuyến đƣợc dùng
rộng rãi cho mục đích giải trí, các hệ thống ứng dụng công nghệ nhƣ phát hiện
chuyển động tiếp tục đƣợc phát triển.



8
Trong quá trình xử lý và truy xuất video cần hiểu rõ về các định dạng
chuẩn của video. Ví dụ: để tạo ra một video sử dụng trên Intermet thì cần phải
thiết lập các tham số nén đảm bảo tệp video theo đúng định dạng và mục đích
sử dụng. Ngoài các yếu tố kỹ thuật, việc xác định định dạng của video còn
phụ thuộc vào các yếu tố kinh nghiệm của ngƣời xử lý. MPEG, AVI cho
Windows, MOV cho QuickTime là các định dạng đƣợc sử dụng rộng rãi [27],
ngoài ra còn một số định dạng khác cũng hay đƣợc sử dụng.

1.1.5.1. Định dạng AVI
Đây là định dạng phổ biến đƣợc thiết kế để dùng trong môi trƣờng
Windows. Định dạng này rất linh hoạt, có thể sử dụng rất nhiều thuật toán nén
video đƣợc phát triển từ trƣớc đến nay để tạo ra các sản phẩm video theo mục đích
sử dụng.

1.1.5.2. Định dạng MOV
QuickTime Movie (*.mov) là định dạng đƣợc Apple phát triển. Các phần
mềm soạn thảo video thƣờng cung cấp các mã nén theo chuẩn QuickTime sử
dụng trên môi trƣờng hệ điều hành Windows và Mac. Định dạng QuickTime đƣợc
xây dựng từ nhiều thuật toán nén ảnh và âm thanh trong môi trƣờng Mac.
QuickTime cũng là định dạng đƣợc rất nhiều phần mềm ứng dụng hỗ trợ. Không
những thế, nó còn đƣợc cài đặt trong nhiều chíp xử lý của hệ thống máy Mac.

1.1.5.3. MPEG-4 Video File
Định dạng MPEG-4(*.mp4) là một tiêu chuẩn đƣợc phát triển bởi Moving
Picture Experts Group, đƣợc sử dụng trên rất nhiều điện thoại và các thiết bị chơi
video (còn gọi là thiết bị chơi MP4). Định dạng MPEG-4 sử dụng một định dạng
nén riêng biệt cho video và audio. Video đƣợc nén với kiểu mã hóa video MPEG-4
còn âm thanh thì đƣợc nén theo kiểu mã hóa AAC.


1.1.5.4. Real Media File
Real Media (*.rm) là định dạng đƣợc phát triển bởi RealNetworks. Real Media
chứa cả thông tin về video (RealVideo) và âm thanh (RealAudio) và thƣờng đƣợc
dùng để truyền tải các tập tin đa phƣơng tiện thông qua Internet. Tập tin RM có thể
đƣợc chơi bằng chƣơng trình RealPlayer.

1.1.5.5. DVD Video Object File
Định dạng VOB chủ yếu liên quan đến DVD Video Movie File. Một tập tin
VOB thƣờng chứa các luồng đa công (multiplex) gồm: video, âm thanh và phụ đề.
Có thể dùng VLC để chơi file VOB.


9

1.1.5.6. Định dạng WMV
WindowsMedia Video là một định dạng file chính hay gặp hàng ngày. File
Windows Media chứa video đƣợc mã hóa theo bộ codec Windows Media Video và
âm thanh đƣợc mã hóa theo codec Windows Media Audio codec.

1.2. Chuẩn nén MPEG
1.2.1. Giới thiệu chuẩn nén MPEG
Năm 1988, chuẩn nén MPEG đƣợc lập tại JTC về công nghệ thông tin.
Nhiệm vụ của nhóm chuẩn này là thể hiện mã hóa các hình động, âm thanh liên kết,
và tổ hợp của chúng trong lƣu trữ và tìm kiếm trên các phƣơng tiện số. Các phƣơng
tiện sô đƣợc xem là thiết bị lƣu trữ thông thƣờng, nhƣ : CD-ROM, thiết bị băng, đĩa
quang, các kênh truyền ISDN, mạng LAN. Ban đầu có ba nhóm, để mã hóa hình
động và âm thanh liên kết với (i) 1.5 Mbps; (ii) 10 Mbps; và (iii) 40 Mbps, ứng với
MPEG-1, 2, 3 [1,13].
 Tiêu chuẩn đầu tiên đƣợc nhóm MPEG đƣa ra vào năm 1991 theo
chuẩn ISO/IEC 11172 là MPEG-1, mục tiêu của MPEG-1 mã video

chất lƣợng VHS, 360x280 pixel, 30 fps, lƣu lƣợng khoảng 1.5 Mbps.
Tỉ lệ 1.5 Mbps đƣợc chọn do thông lƣợng thiết bị CDROM .
 Tiêu chuẩn thứ 2 : MPEG-2 đƣợc đƣa ra vào năm 1994 theo chuẩn
ISO/IEC 13818, chuẩn nén này đƣa ra nhiều công cụ mã hoá khác
nhau, gọi là “Profiles” đƣợc tiêu chuẩn hoá và có thể sử dụng để phục
vụ nhiều mục đích khác nhau.
 Tiêu chuẩn tiếp theo mà MPEG đƣa ra là MPEG-4, đƣợc đƣa ra vào
năm 1999 theo chuẩn ISO/IEC 14496, đã tạo ra một phƣơng thức
thiết lập và tƣơng tác mới với truyền thông nghe nhìn trên mạng
Internet, tạo ra một phƣơng thức tiếp cận nội dung video trên cơ sở
nội dung và hƣớng đối tƣợng (content/object-based).
 MPEG-7: Mô tả các nội dung đa phƣơng tiện, chứ không phải là một
chuẩn cho nén và mã hoá audio/ảnh động nhƣ MPEG-1, MPEG-2
hay MPEG-4. MPEG-7 sử dụng ngôn ngữ đánh dấu mở rộng XML
để lƣu trữ các siêu dữ liệu, kèm theo timecode để gắn thẻ cho các sự
kiện, hay đồng bộ các dữ liệu. MPEG-7 bao gồm 3 bộ chuẩn (i) Bộ
các sơ đồ đặc tả (Description Schemes) và các đặc tả (Description);
(ii) Ngôn ngữ xác định DDL (Description Definition Language) để
định nghĩa các sơ đồ đặc tả; (iii) Sơ đồ mã hoá quá trình đặc tả.


10
Các chuẩn MPEG có ba phần chính:(i) MPEG video; (ii) MPEG âm thanh; (iii)
MPEG hệ thống. MPEG hệ thống có nhiệm vụ đồng bộ hóa và dồn kênh trên các
dòng bit nén hỗn hợp âm thanh và video. Ngoài ra có thêm phần 4 mô tả các thủ tục
cho phép quyết định đặc tính của dòng bit đƣợc nén và cho phép đáp ứng các yêu
cầu do ba phần kia thiết lập.
Điều quan trọng nhất của chuẩn MPEG là việc mô tả cấu trúc dòng bit đƣợc mã
hóa, nên bộ giải mã theo chuẩn này có thể giải mã dòng bit. Các chuẩn không mô tả
cách tạo dòng bit, mà dành cho việc thiết kế, cài đặt.

Các chuẩn MPEG-1, MPEG-2 đƣợc dùng rộng rãi trong ứng dụng đa phƣơng
tiện. Việc kết hợp MPEG-4 và MPEG-7 sẽ tạo ra các giải pháp lý tƣởng cho các
dịch vụ streaming media và các hệ thống lƣu trữ trong thời gian tới.
1.2.2. Cấu trúc ảnh của MPEG
MPEG định nghĩa các loại ảnh khác nhau để cân nhắc giữa hiệu quả mã hóa
và truy cập nội dung video, trong đó có sử dụng thuật toán dự đoán bù trừ chuyển
động.
“Thuật toán bù chuyển động [30] là một thuật toán sử dụng trong nén video,
mô tả ảnh dƣới dạng một biến đổi tác động lên một ảnh tham chiếu và thu về kết
quả là một ảnh mới đƣợc thiết lập. Ảnh tham chiếu có thể xuất hiện trƣớc hay sau
ảnh đƣợc tái lập và cũng có thể là ảnh đƣợc thiết lập từ tham chiếu khác nữa”.
Các loại ảnh đó nhƣ sau [1]:
1. Ảnh loại I (Intra-picture) : Là ảnh đƣợc mã hóa riêng, tƣơng tự nhƣ
việc mã hóa ảnh tĩnh trong JPEG. Ảnh I chứa đựng dữ liệu để tái tạo
lại toàn bộ hình ảnh vì chúng đƣợc tạo thành bằng thông tin của chỉ
một ảnh và để dự báo cho ảnh B,P. Ảnh I cho phép truy cập ngẫu
nhiên, tuy nhiên cho tỷ lệ nén thấp nhất.
2. Ảnh loại P (Predicted-picture) : Là ảnh đƣợc mã hóa có bù chuyển
động từ ảnh I hoặc ảnh P phía trƣớc. Ảnh P có hệ số nén cao hơn ảnh
I và có thể sử dụng làm một ảnh so sánh cho việc bù chuyển động
cho các ảnh P và B khác.
3. Ảnh loại B ( Bi-directional predicted picture) : Là ảnh đƣợc mã hóa
sử dụng bù chuyển động từ các ảnh I hoặc P ở phía trƣớc và ở phía
sau. Ảnh B cho tỷ lệ nén cao nhất.
Ảnh I đƣợc gọi là ảnh tham chiếu, ảnh P và B đƣợc gọi chung là ảnh dự đoán.
Việc tổ chức ba loại ảnh I, P, B trong xâu video là linh hoạt. Việc lựa chọn ảnh


11


TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]. Đỗ Trung Tuấn(2010), Cơ sở dữ liệu đa phƣơng tiện, Học viện Công
nghệ Bƣu chính Viễn thông.
[2]. Lƣơng Xuân Cƣơng, Đỗ Trung Tuấn (2006), “Thuật toán cho phép nâng
cao khả năng phân đoạn dữ liệu video”, Tạp chí khoa học ĐHQGHN,
KHTN&CN T.XXII Số 3,2006.
[3]. Nguyễn Trung Hiếu (2014), “Một số ki ̃ thuâ ̣t phân đoạn dữ liệu đa
phƣơng tiện và dữ liệu video”, Luận văn Thạc sĩ Công nghệ thông tin và
truyền thông, Học viện Công nghệ Bƣu chính viễn thông .
Tiếng Anh
[4]. Akutsu. A, Tonomura. Y and Ohba. Y (1991), Video browsing using
brightness data, in Proc. SPIE-IST VCIP91, vol. 1606,pp. 990-989
[5]. Borko Furht, Stephen W. Smoliar, HongJiang Zhang (1995), Video and
Image Processing in Multimedia Systems, Kluwer Academic Publisher,
Boston/Dordrecht/London, XII, 376p.
[6]. Boreczky. J and Rowe. L A (1996), Comparison of video shot boundary
detection techniques, in IS&T/SPIE proceedings: Storage and Retrieval for
Images and Video Databases IV, volume 2670, pages 170-179, February
1996.
[7]. Dailianas. A, Allen. RB, England. P(1995), Comparison of automatic
video segmentation algorithms, In: SPIE Conference on Integration Issues in
Large Commercial Media Delivery Systems, vol. 2615, Philadelphia, PA,
October 1995. p. 2–16.
[8]. Gulrukh Ahanger, Dan Benson, T.D.C. Little (1995), Video Query
Formulation, MCL Technical Report 01-09-1995
[9]. Kasturi. R, Jain. R (1993), Dynamic vision, in Computer Vison:
Principles Hardcover, Kasturi. R and Jain. R, IEEE Computer Society Press,
Washington DC, p. 469-480
[10]. Kikukawa. T, Kawafuchi. S (1992), Development of an automatic



12
summary editing system for the audio-visual resources, Transactions on
Electronics and Information J75-A, 204-212
[11]. Lawrence. S, Ziou. D, Auclair-Fortier MF, Wang S, Motion insensitive
detection of cuts and gradual transitions in digital videos, Technical Report
266, DMI, University of Sherbrooke, Canada, May 2001.
[12]. M. Petkovic, W. Jonker, Content-Based Video Retrieval: A Database
Perspective, Kluwer Academic Publishers, Boston, Monograph, ISBN 1-

4020-7617-7, 168p hardcover, 2003.
[13]. MPEG, MPEG standards, chiariglione.org. Retrieved 2014-07-24.
[14]. Nagasaka. A, Tanaka. Y (1991), Automatic Video Indexing and Full
Video Search for Object Appearances, Visual Database Systems, vol-II, pp.
113-127
[15]. Nagasaka. A, Tanaka. Y (1995), Automatic video indexing and fullvideo search for object appearances, in: Knuth. E, Wegner. L M (Eds),
Visual Database Systems II, Elsevier, Amsterdam, 1995, pp. 113-127
[16]. O’ Toole, Colin, Smeaton, Alan F. and Murphy, Noel and Marlow,
Seán (1999), Evaluation of Automatic Shot Boundary Detection on a Large
Video Test Suite, In CIR 1999-The Challenge of Image Retrieval: 2nd UK
Conference on Image Retrieval 25-26 February 1999, Newcastle upon Tyne,
UK 05/1999
[17]. Ren. W, Sharma. M, Singh. S (2001), Automated video segmentation,
In: International Conference on Information, Communication, and Signal
Processing, Singapore, October-2001.
[18]. Tamura. H, Mori. S, and Yamawaki. T (1978), Texture features
corresponding to visual perception, IEEE Trans. On Sys., Man. and Cyb.
SMC-8(6).
[19]. Taniguchi. Y, Akutsu. A, Tonomura. Y (1997), Panorama excerpts:

extracting and packing panoramas for video browsing, In: ACM
International Conference on Multimedia, Seattle, WA, November 1997.


13
[20]. Wang. J, Yang. W J, and Acharya. R (1997), Color clustering
techniques for color-content-based image retrieval from image databases, in
Proc. IEEE Conf. on Multimedia Computing and Systems.
[21]. Xiong. W, Lee JCM(1998), Efficient scene change detection and
camera motion annotation for video classification, Journal of Computer
Vision and Image Understanding 1998;71(2), p.166–181.
[22]. Yong Rui, Thomas S, Huang (1999), Image Retrieval: Current
Techniques, Promising Direction, and Open Issues, In IDEL, Retrieved 0107-1999, p. 43
[23]. Zhao. W, Wang. J, Bhat. D, Sakiewics. K, Nandhakumar. N, Chang.
W(1999), Improving color based video shot detection, In: IEEE International
Conference on Multimedia Computing and Systems, vol. 2, Florence, Italy,
June 1999. p. 752–756.
[24]. Zhang. H J, Kankanhalli. A, Smoliar. S W(1993), Automatic
partitioning of full-motion video, Multimedia Systems, p.10-28.
[25]. S.M.M Tahaghoghi et al. (2005), Video Cut Detection using Frame
Windows, Proceedings of the Twenty-eight Australasian conference on
Computer Science, pp. 193-199.
Danh mục website tham khảo:
[26].

CCIR-601,

/>
2015
[27]. Video Formatting, />[28]. Aforge.NET Library, />[29]. Codec, />[30]. />[31]. />



×