Tải bản đầy đủ (.pdf) (79 trang)

nghiên cứu một số kỹ thuật phân đoạn video

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.41 MB, 79 trang )


Số hóa bởi Trung tâm Học liệu

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
VÀ TRUYỀN THÔNG


NGUYỄN ĐÌNH TRUNG


NGHIÊN CỨU MỘT SỐ KỸ THUẬT
PHÂN ĐOẠN VIDEO


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH




Thái Nguyên, 2014

Số hóa bởi Trung tâm Học liệu

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
VÀ TRUYỀN THÔNG


NGUYỄN ĐÌNH TRUNG


NGHIÊN CỨU MỘT SỐ KỸ THUẬT
PHÂN ĐOẠN VIDEO

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. NGUYỄN THỊ HỒNG MINH


Đã chỉnh sửa theo ý kiến của hội đồng.
Thái Nguyên, 2014

Số hóa bởi Trung tâm Học liệu

LỜI CAM ĐOAN
Tôi xin cam đoan Những nội dung trong luận văn “NGHIÊN CỨU MỘT SỐ KỸ
THUẬT PHÂN ĐOẠN VIDEO” là do tôi thực hiện dƣới sự hƣớng dẫn trực tiếp
của Cô TS. Nguyễn Thị Hồng Minh.
Mọi tham khảo dùng trong luận văn đều đƣợc trích dẫn rõ ràng tên tác giả, tên
công trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
trách nhiệm hoàn toàn.

Thái Nguyên, tháng 05 năm 2014
Nguyễn Đình Trung















Số hóa bởi Trung tâm Học liệu

LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành nhất tới TS. Nguyễn Thị Hồng Minh, Cô đã
cho tôi những định hƣớng, tận tình chỉ bảo giúp đỡ tôi những ý kiến rất quý báu
để tôi hoàn thành luận văn tốt nghiệp này.
Tôi xin cảm ơn Trƣờng Đại Học Công Nghệ Thông tin và Truyền thông - Đại
Học Thái Nguyên đã hết sức tạo điều kiện cho tôi trong quá trình học, làm và
hoàn thành khóa luận này.
Xin chân thành cảm ơn quý Thầy Cô trong khoa Sau đại học Trƣờng Đại học
Công nghệ Thông tin và Truyền thông – ĐH Thái Nguyên đã nhiệt tình giảng
dạy, trang bị cho tôi những kiến thức quý báu trong suốt thời gian học tập tại
trƣờng.
Tôi xin tỏ lòng biết ơn sâu sắc tới các thầy cô, bạn bè đã dìu dắt, giúp đỡ tôi tiến
bộ trong suốt quá trình làm khóa luận tốt nghiệp.
Xin gửi lời cảm ơn tới gia đình, những ngƣời bạn của tôi đã động viên, giúp đỡ
tôi trong suốt quá trình học tập và hoàn thành luận văn.













Số hóa bởi Trung tâm Học liệu

MỤC LỤC
PHẦN MỞ ĐẦU 8
I. Lý do chọn đề tài 8
II. Mục tiêu nghiên cứu 10
III. Nội dung nghiên cứu 10
IV. Phƣơng pháp nghiên cứu 10
Chƣơng 1 KHÁI QUÁT VỀ VIDEO VÀ BÀI TOÁN PHÂN ĐOẠN 12
1.1. Khái quát về video 12
1.1.1. Video là gì 12
1.1.1.2. Chuyển Cảnh 12
1.1.2. Các ứng dụng Video 13
1.1.2.1. Video tƣơng tự 15
1.1.2.2. Video số 16
1.1.3. Các chuẩn video 16
1.1.3.1. Định dạng AVI 17
1.1.3.2. Định dạng MOV 17
1.1.3.3. Các định chuẩn MPEG 19

1.1.3.4. Chuẩn ITU-T 23
1.1.4. Một số đặc trƣng của video 33
1.1.4.1. Màu sắc 33
1.1.4.2. Kết cấu 33
1.1.4.3. Hình dáng 35
1.1.4.4. Chuyển động 35
1.2. Bài toán phân đoạn Video 36
1.2.1. Bài toán 36
1.2.2. Phân loại các phƣơng pháp phân đoạn 36
1.2.3. Các yếu tố chính để xác định phƣơng pháp phân đoạn 37
Chƣơng 2 MỘT SỐ KỸ THUẬT PHÂN ĐOẠN VIDEO 38
2.1. Phân đoạn video bằng kỹ thuật phát hiện đối tƣợng từ trên xuống 38
2.2. Phân đoạn và theo vết các vùng Video 39
2.3. Phân đoạn Video bằng kỹ thuật trừ ảnh và phát hiện chuyển cảnh trong Video 41
2.3.1. Các kỹ thuật trừ ảnh 43
2.3.1.1. Trừ ảnh dựa vào điểm ảnh 43
2.3.1.2. Trừ ảnh phân khối 45
2.3.2. Phƣơng pháp biểu đồ màu. 45
2.3.2.1. Biểu đồ toàn cục 48
2.3.2.2. Biểu đồ cục bộ 48
2.3.3. Trừ ảnh dựa vào đặc trƣng 53
2.3.3.1. Đặc trƣng là cạnh 55
2.3.3.2. Đặc trƣng là vectơ chuyển động 55
2.3.4. Phƣơng pháp thống kê 61
2.3.5. Phát hiện chuyển cảnh 64
2.3.5.1. Đối với kỹ thuật phát hiện cắt cảnh 65
2.3.5.2. Đối với các kỹ thuật phát hiện chuyển cảnh dần dần 65
Chƣơng 3 CHƢƠNG TRÌNH THỬ NGHIỆM 67
3.1. Bài toán 68
3.2. Phân tích, lựa chọn công cụ 68


Số hóa bởi Trung tâm Học liệu

3.3. Một số kết quả thực hiện chƣơng trình 68
PHẦN KẾT LUẬN 71
TÀI LIỆU THAM KHẢO Error! Bookmark not defined.


Số hóa bởi Trung tâm Học liệu

DANH MỤC CÁC KÝ HIỆU VÀ VIẾT TẮT
AVI
Audio Video Interleave
BLOB
Binary Large Object
CATV
Cable Television
CBT
Computer Based Training
CDMA
Code Division Multiple Access
CSDL
Cơ sở dữ liệu
CCIR
Consultative Committee for International Radio
DBMS
Database Management System
DBS
Direct Broadcast Satellite
DCT

Discrete Cosine Transform
DV
Digital Video
DVD
Digital Video Disc
HDTV
High Definition TV
IEC
International Electrotechnical Commission
IMA
Interactive Multimedia Association
ISO
International Organization for Standardization
ISO-IEC
International Organization for Standard –
International Electrotechnical Commission
ITU-T
International Telecommunication Union
JPEG
Joint Picture Experts Group
MACE
Macintosh Audio Compression and Expansion
codec

Số hóa bởi Trung tâm Học liệu

MOV
Quick Time Movie File Extension
MPEG
Moving Picture Experts Group

NTSC
National Television Standard Committee
OVID
Object Video Information Database
PAL
Phase Alternation Line
PES
Packetised Elementary Streams
RGB
Red, Green, Blue
RLE
Run Leng Encoding
TV
Television
VCD
Video Compact Disc
VDBMS
Video Database Management System
VIMSYS
Visual Information Management System
VOD
Video On Demand
VODM
Video Object Description Model
VSDG
Video Semantic Directed Graph
WBT
Web Based Training
WMA
Windows Media Audio

WMV
Windows Media file with Audio/Video
YUV
Sơ đồ mã hoá hình ảnh màu phân cách độ chói
(Y) và hai tín hiệu màu: đỏ trừ Y (U) và xanh
trừ Y (V).


Số hóa bởi Trung tâm Học liệu

DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Cấu trúc phân cấp của video Error! Bookmark not defined.
Hình 1.2: Cắt cứng Error! Bookmark not defined.
Hình 1.3: Fade in Error! Bookmark not defined.
Hình 1.4: Fade out Error! Bookmark not defined.
Hình 1.5: Chồng mờ Error! Bookmark not defined.
Hình 1.6: Wipe Error! Bookmark not defined.
Hình 1.7: push sang trái Error! Bookmark not defined.
Hình 1.8: Một số loại wipe cơ bản Error! Bookmark not defined.
Hình 1.9: Sơ đồ giải nén MPEG–1 (ISO/IEC 11172)Error! Bookmark not defined.
Hình 1.10: Sơ đồ nén dữ liệu âm thanh Error! Bookmark not defined.
Hình 1.11: Mô hình hệ thống giải mã MPEG 2 Error! Bookmark not defined.
Hình 1.12: Mô hình nén và giải nén theo từng lớp của MPEG 4 Error! Bookmark
not defined.
Hình 1.13: Các ảnh rất khác nhau nhƣng có cùng biểu đồ màu Error! Bookmark not
defined.
Hình 1.14: Biểu đồ thể hiện 4 loại ảnh cơ bản Error! Bookmark not defined.
Hình 1.15: Các thao tác camera 35
Hình 2.1. Khám phá và khai thác cấu trúc các đối tƣợng ảnh………………………… 36
Hình 2.2. Sơ đồ ứng dụng kỹ thuật trừ ảnh vào phân đoạn video . Error! Bookmark not

defined.
Hình 2.3. Các cửa sổ cơ sở trong thuật toán so sánh thực Error! Bookmark not
defined.
Hình 2.4. Chênh lệch biểu đồ, * cắt cảnh, chồng mờ Error! Bookmark not defined.
Hình 2.5. So sánh biểu đồ của hai ảnh Error! Bookmark not defined.
Hình 2.6. a.Ví dụ một ảnh màu, b.Biểu đồ màu của ảnh a Error! Bookmark not
defined.
Hình 2.7. So sánh cặp a. chênh lệch biểu đồ liên tiếp, b. chênh lệch biểu đồ tích lũy
Error! Bookmark not defined.
Hình 2.8. Phát hiện chuyển cảnh dần dần bằng kỹ thuật so sánh cặp Error! Bookmark
not defined.
Hình 2.9. Phát hiện chuyển cảnh dần dần bằng kỹ thuật phát hiện cạnh Error!
Bookmark not defined.
Hình 2.10. Ma trận 3 thành phần mở rộng khác nhau có kích thƣớc 3*3, 5*5, 13*13
Error! Bookmark not defined.
Hình 2.11. a. Phân số thay đổi cạnh P, b.Độ chênh lệch của P qua các khung hình
Error! Bookmark not defined.
Hình 2.12. Phát hiện chuyển cảnh dần dần bằng phƣơng pháp phát hiện cạnh a.fade out
rồi fade in, b.chồng mờ Error! Bookmark not defined.
Hình 2.13. Phân số thay đổi cạnh vào và ra của các khung hình Error! Bookmark not
defined.
Hình 2.14. Phân số thay đổi cạnh của các khung hình Error! Bookmark not defined.
Hình 2.15. Phát hiện chuyển cảnh dần dần Error! Bookmark not defined.
Hình 2.16. Mẫu vectơ cho các di chuyển camera Error! Bookmark not defined.
Hình 2.17. Các hiệu ứng camera với luồng vectơ khuếch đại Error! Bookmark not
defined.
Hình 2.18. Sơ đồ khối thuật toán phát hiện chuyển cảnh 65
Hình 2.19. Kết quả phát hiện cắt cảnh. Error! Bookmark not defined.

Số hóa bởi Trung tâm Học liệu


Hình 2.20. Kết quả phát hiện cắt cảnh bằng các kỹ thuật cải tiến từ hƣớng tiếp cận so
sánh biểu đồ (HistDiff) Error! Bookmark not defined.
Hình 3.1. Giao diện phát hiện chuyển cảnh 69
Hình 3.2. Nội dung file lƣu kết quả phân đoạn 69
DANH MỤC CÁC BẢNG
Bảng 1.1. Các tiêu chuẩn của Video số 16
Bảng 1.2. Một số ràng buộc của MPEG-1 Error! Bookmark not defined.
Bảng 1.3. Mô tả kiểu CIF và QCIF 32
Bảng 2.1. So sánh các kỹ thuật trừ ảnh với việc phát hiện biên tập video 65

Số hóa bởi Trung tâm Học liệu

PHẦN MỞ ĐẦU
I. Lý do chọn đề tài
Hiện nay, phần lớn lƣợng thông tin mà con ngƣời tiếp thu đƣợc từ thế giới
bên ngoài là ở dạng thông tin thị giác, vì vậy các nghiên cứu về dạng thông
tin này đều ít nhiều mang đến những lợi ích thiết thực cho cuộc sống. Với
trình độ khoa học kỹ thuật hiện nay, thông tin thị giác đuợc số hóa dƣới hai
dạng là ảnh số và video số.
Video ra đời vào những năm đầu của thế kỷ XX và phát triển khá mạnh mẽ,
nhƣng phải đến những thập kỷ cuối của thế kỷ XX video số mới phát triển.
Với sự ra đời và phát triển mạnh của máy tính và các hệ thống viễn thông,
việc xử lý dữ liệu video đƣợc số hoá trên máy tính tỏ ra khá hiệu quả. Dữ
liệu video số đã đƣợc đƣa vào rất nhiều ứng dụng trong thực tế nhƣ đào tạo
điện tử dựa vào máy tính, hỗ trợ đào tạo trên mạng, hệ thống mô phỏng,
giám sát, video theo yêu cầu… Vấn đề nâng cao hiệu quả và chất lƣợng của
thao tác, xử lý với dữ liệu video đang đƣợc nhiều nhà nghiên cứu, triển
khai ứng dụng quan tâm
Thông tin video khác với dữ liệu dạng văn bản cũng nhƣ dữ liệu ảnh

số bởi hai yếu tố là thời gian và không gian. Hơn thế nữa, dung lƣợng và
định dạng phi cấu trúc của dữ liệu video số gây ra một số khó khăn trong
quản lý, truy xuất, tái sử dụng và biên soạn các đoạn video thành tài liệu
video. So với ảnh số có tính chất tĩnh, video là dữ liệu động với trục thời
gian. Ảnh video đƣợc biểu diễn một cách liên tục trên một tốc độ nhất định.
Một ảnh video có chất lƣợng tốt bao gồm 25 đến 30 khung hình (frame)
trên một giây. Bên cạnh đó, ảnh video cần lƣợng lƣu trữ lớn và băng thông
rộng. Kích thƣớc một giờ video MPEG -1 là hơn 500MB.
Chính đặc tính liên tục và lƣợng dữ liệu lớn làm cho video trở nên thách
thức hơn khi xử lý và quản lý. Nói cách khác, khi nhiều thông tin hơn, đặc

Số hóa bởi Trung tâm Học liệu

biệt là theo thời gian và chuyển động, ta lại có thêm nhiều cơ hội để phân
tích các nội dung trực quan trong ảnh video. Hơn nữa, mặc dù video là
phƣơng tiện truyền thông liên tục, nội dung chứa trong nó có dạng phân
cấp theo tự nhiên. Một đoạn phim video đƣợc chia thành các câu chuyện,
shot, frame/đoạn, cảnh, khung hình và cả các đối tƣợng kèm theo hành
động. Những hệ thống tìm kiếm video hiệu quả đòi hỏi phân tích và chỉ
mục đƣợc tất cả các yếu tố này.
Trong quá trình nỗ lực tìm kiếm lời giải cho bài toán truy vấn dữ liệu ảnh,
video, thì bài toán phân đoạn video xuất hiện một cách tự nhiên. Để có thể
truy vấn các đoạn video, thì các video phải đƣợc phân đoạn một cách thích
hợp trong một thể thống nhất có ý nghĩa. Sự phân đoạn và miêu tả đặc điểm
bằng tay là cách thủ công, tốn nhiều thời gian, phụ thuộc vào kỹ năng và sự
hiểu biết của ngƣời thực hiện, hơn nữa có khả năng bị giới hạn chỉ ở các
thuộc tính tƣơng đƣơng.
Trong quá trình chỉ số hoá dữ liệu video, bƣớc quan trọng đầu tiên là phân
đoạn dữ liệu video theo thời gian. Bƣớc này nhằm mục đích phân chia
dòng video liên tục thành các đơn vị cơ sở có ý nghĩa đó là các lia (shot),

các cảnh (scene) hay một dãy cảnh quay.
Một kịch bản điển hình trong tạo chỉ mục và tìm kiếm nội dung video đƣợc
biểu diễn trong hình 1 dƣới đây. Trƣớc tiên, các video và ảnh đầu vào đƣợc
phân đoạn thành các đơn vị theo không gian và thời gian thích hợp. Các
đặc trƣng trực quan sau đó đƣợc rút ra từ các đơn vị này để tạo chỉ mục và
tóm lƣợc, cuối cùng những video và ảnh này đƣợc đƣa ra và tìm kiếm dựa
trên các cấu trúc và đặc trƣng ở trên.

Số hóa bởi Trung tâm Học liệu


Hình 1. Quá trình phân đoạn và tìm kiếm ảnh video
Chính vì vậy, việc nghiên cứu về phân đoạn Video là rất cần thiết cho một hệ
thống dữ liệu video và nó ngày càng trở nên cấp thiết hơn khi nhu cầu sử dụng
video ngày càng gia tăng. Xuất phát từ hoàn cảnh đó chúng tôi lựa chọn đề tài
"Nghiên cứu một số kỹ thuật phân đoạn video".
II. Mục tiêu nghiên cứu
Mục tiêu của đề tài là tập trung nghiên cứu một số kỹ thuật phân đoạn
video, đề xuất một số cải tiến và xây dựng một ứng dụng thực tế sử dụng
kỹ thuật cải tiến đã đƣợc nghiên cứu.
III. Nội dung nghiên cứu
Tổng quan về dữ liệu video.
Nghiên cứu các kỹ thuật phân đoạn video và đề xuất cải tiến
Triển khai ứng dụng thử nghiệm phân đoạn video nhằm tìm ra các phân
đoạn có ngữ cảnh phù hợp theo mục đích tìm kiếm
IV. Phƣơng pháp nghiên cứu
Tổng hợp các thông tin liên quan, lựa chọn các cách tiếp cận đã đƣợc
áp dụng thành công, tiến hành cài đặt thử nghiệm cho với các kỹ thuật đƣợc đề

Số hóa bởi Trung tâm Học liệu


xuất. Đánh giá kết quả, từ đó sẽ tiến hành nghiên cứu sâu hơn về giải pháp cải
tiến.
Các tƣ liệu và thông tin liên quan chủ yếu đƣợc thu thập, tổng hợp từ
các nguồn sau:
+ Các tạp chí khoa học chuyên ngành trong và ngoài nƣớc, internet
+ Trao đổi với các đồng nghiệp cùng lĩnh vực nghiên cứu.
Tiến hành nghiên cứu và tìm các ứng dụng có liên quan đến đề tài đặt
ra.
Trao đổi thông qua seminar hoặc tham gia báo cáo tại các hội thảo
khoa học nhằm nâng cao khả năng nghiên cứu, cách trình bày bài báo cáo khoa
học là kiểm chứng đánh giá các kết quả nghiên cứu.

Số hóa bởi Trung tâm Học liệu

Chƣơng 1
KHÁI QUÁT VỀ VIDEO VÀ BÀI TOÁN PHÂN ĐOẠN
1.1. Khái quát về video
1.1.1. Video là gì
Ngày nay, không ai có thể phủ nhận các thành tựu mà ngành công nghệ thông tin
mang lại. Trong đó, đa phƣơng tiện là một khía cạnh quan trọng với nhiều ứng
dụng thiết thực nhằm làm cho xã hội ngày càng phát triển hơn, văn minh hơn.
Nhƣng với sự phát triển không ngừng nhƣ hiện nay của công nghệ thông tin, nhƣ
thế vẫn là chƣa đủ. Vẫn cần nhiều hơn nữa các nghiên cứu liên quan đến khía
cạnh này. Trong đó phải kể đến một lĩnh vực rất quan trọng của đa phƣơng tiện,
đó là Video và xử lý video.
Video là sự tái tạo ảnh tự nhiên theo không gian và thời gian hoặc cả hai, thực
chất là một dãy ảnh liên tục theo thời gian nhằm mô phỏng sự chuyển động. Việc
dùng ảnh liên tục để mô tả chuyển động theo thời gian đã xuất hiện gần 2 thế kỉ
nay. Năm 1834 nhà toán học William George Horner đã phát minh ra cách mô tả

này. Sau đó, hàng loạt các nghiên cứu khác đƣợc triển khai và đã có những ứng
dụng đáng kể. Năm 1887, khi Hannubal Good phát minh ra phim ảnh thì vấn đề
ảnh chuyển động đƣợc quan tâm đặc biệt vì những lợi ích kinh tế mà nó mang
lại. Năm 1895, một hệ thống camera/Projector với các chuẩn phim (35mm chiều
rộng, 24 khung hình trên giây) đƣợc phát triển bởi Louis Lumiére.
1.1.1.1. Một số khái niệm cơ bản
Trƣớc hết chúng ta cùng tìm hiểu để có cái nhìn cơ bản về video. Video là
tập hợp các khung hình, mỗi khung hình là một ảnh. Shot (lia) là đơn vị cơ
sở của video. Một lia là một đơn vị vật lý của dòng video, gồm các chuỗi
các khung hình liên tiếp, không thể chia nhỏ hơn, ứng với một thao tác
camera đơn.

Số hóa bởi Trung tâm Học liệu

Scene (cảnh) là các đơn vị logic của dòng video, một cảnh gồm các lia liên
quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ
nghĩa hoặc một tình tiết [8].
Cấu trúc phân cấp của video đƣợc thể hiện trên hình 1.1.
Khi phim đƣợc chiếu, các khung hình lần lƣợt đƣợc hiển thị ở tốc độ nhất
định. Tốc độ thƣờng thấy ở các định dạng video khác nhau là 30 và 25
hình/s. Nhƣ vậy một giờ video sẽ có số khung hình tƣơng ứng là 108000
hoặc là 90000. Dù là video ở định dạng nào thì nó cũng có dung lƣợng rất
lớn và nếu xử lý với tất cả các khung hình thì thật không hiệu quả.
Phân đoạn là quá trình phân tích và chia nội dung hình ảnh video thành các
đơn vị cơ sở gọi là các lia (shot). Việc lấy mẫu chính là chọn gần đúng một
khung video đại diện cho mỗi lia (hoặc nhiều hơn tùy theo mức độ phức tạp
của nội dung hình ảnh của lia) và đƣợc gọi là các khung-khóa [8].
Khung – khóa là khung hình đại diện mô tả nội dung chính của shot.

Hình 1.1: Cấu trúc phân cấp của video

1.1.1.2. Chuyển Cảnh
Chuyển cảnh là sự chuyển đổi đƣa ngƣời xem từ một lia này sang lia khác.
Có hai loại khác nhau của quá trình chuyển đổi có thể xảy ra giữa các
chuyển cảnh: chuyển cảnh đột ngột (không liên tục), còn gọi là cắt cứng,

Số hóa bởi Trung tâm Học liệu

hoặc chuyển cảnh dần dần (liên tục), chẳng hạn nhƣ fade, chồng mờ, wipe,
push [26][27]. Những quá trình chuyển đổi có thể đƣợc quy định nhƣ sau:
Cắt cứng: là sự biến đổi đột ngột từ lia này sang cảnh khác, nó xảy ra
giữa hai khung hình (hình 1.2).

Hình 1.2: Cắt cứng
Fade: là sự xuất hiên dần dần giữa một ảnh và một cảnh ảnh (fade in)
(hình 1.3), hoặc là sự biến mất dần giữa một cảnh và một ảnh phim
(fade out) (hình 1.4).

Hình 1.3: Fade in

Hình 1.4: Fade out
Chồng mờ: là sự biến đổi dần dần từ cảnh cũ sang cảnh mới trong đó
cảnh cũ đƣợc fade out và cảnh mới đƣợc fade in.

Hình 1.5: Chồng mờ
Wipe: là hiện tƣợng cảnh chạy theo một đƣờng trên màn hình, trong khi
đó cảnh mới xuất hiện phía sau đƣờng đó.

Số hóa bởi Trung tâm Học liệu



Hình 1.6: Wipe
push: là hiện tƣợng cảnh tiếp theo xuất hiện đẩy cảnh hiện tại ra khỏi
màn hình theo hƣớng sang trái, phải, lên trên, xuống dƣới.

Hình 1.7: push sang trái

corner to corner

side to side

centre – out

boundery - in
Hình 1.8: Một số loại wipe cơ bản
1.1.2. Các ứng dụng Video
1.1.2.1. Video tƣơng tự
NTSC Video: Đây là dạng Video tƣơng tự với 525 dòng trên một khung hình, 30
khung hình trong một giây, quét cách dòng, chia làm hai trƣờng (mỗi trƣờng
262.5 dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu
mỗi trƣờng.
PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25 khung hình
trong một giây, quét cách dòng. Khung gồm hai trƣờng chẵn lẻ, mỗi trƣờng bao
gồm 312.5 dòng.

Số hóa bởi Trung tâm Học liệu

1.1.2.2. Video số
Một số tiêu chuẩn của Video số lấy theo tiêu chuẩn CCI.

CCIR

601525/60
NTSC
CCIR
601625/50
PAL/SECAM
CIF
QCIF
Độ phân giải
độ chói
720x480
360x576
352x288
176x144
Độ phân giải
màu sắc
360x480
360x576
176x144
88x72
Lấy mẫu màu
4:2:2
4:2:2
4:2:0
4:2:0
Số trƣờng /s
60
50
30,15,10,7.5
30,15,10,7.5
Cách quét

Cách dòng
Cách dòng
Liên tục
Liên tục
Bảng 1.1. Các tiêu chuẩn của Video số
1.1.3. Các chuẩn video
Sự chuẩn hóa của video tƣơng tự trong những năm đầu của thập niên 1950
(NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh chuyển
động xuất hiện hầu nhƣ khắp nơi, với các thiết bị vô tuyến đƣợc dùng rộng rãi
cho mục đích giải trí, các hệ thống ứng dụng công nghệ nhƣ phát hiện chuyển
động tiếp tục đƣợc phát triển.
Vào năm 1990, các tổ chức về chuẩn hóa nhƣ tổ chức ISO-IEC (International
Organization for Standard – International Electrotechnical Commission) đã đƣa
ra chuẩn MJPEG cho video kĩ thuật số, tổ chức chuẩn ITU-T đã đƣa ra chuẩn
H.261 và một số các chuẩn liên quan khác. Đi kèm với nó là các thiết bị tin học
giá rẻ đã tạo nên sự phát triển bùng nổ cho các ứng dụng đa phƣơng tiện.
Trong quá trình soạn thảo, xử lý và kết xuất video cần hiểu rõ về các định chuẩn
video. Ví dụ: để tạo ra một video sử dụng trên Intermet chúng ta cần phải thiết
lập các tham số nén đảm bảo tệp video theo đúng định dạng và mục đích sử
dụng. Ngoài các yếu tố kỹ thuật, việc xác định định dạng của video còn phụ
thuộc vào các yếu tố kinh nghiệm của ngƣời xử lý. MPEG, AVI cho Windows,
MOV cho QuickTime là các định dạng đƣợc sử dụng rộng rãi. Trong phần này

Số hóa bởi Trung tâm Học liệu

chúng ta làm rõ các định chuẩn với mục đích sử dụng, các kỹ thuật nén, kích cỡ,
thời gian xử lý nén và giải nén.
1.1.3.1. Định dạng AVI
Đây là định dạng phổ biến đƣợc thiết kế để dùng trong môi trƣờng
Windows Error! Reference source not found Định dạng này rất linh

hoạt, có thể sử dụng rất nhiều thuật toán nén video đƣợc phát triển từ trƣớc
đến nay để tạo ra các sản phẩm video theo mục đích sử dụng.
Mã nén âm thanh cho chuẩn AVI
+ Intel Indeo 5.10 (Intel indeo 5.03): đƣợc sử dụng cho các định dạng Video
phân tán trên mạng Internet, cho các máy tính có bộ xử lý MMX hoặc
bộ xử lý từ Pentium II trở lên. Mã nén có đặc trƣng: có lựa chọn nén
nhanh, điều khiển các khung hình chính mềm dẻo, điều chỉnh độ sắc,
các hiệu ứng hiển thị lại, và cuối cùng tạo ra các tệp video có dữ liệu
giảm đáng kể.
Kiểu nén này cho phép ngƣời xử lý video có thể điều chỉnh để tạo ra các
video dùng cho các băng thông khác nhau.
Ví dụ: có thể điều chỉnh để tạo ra video dùng cho modem 56Kb, 28,8Kb
hay đƣờng cáp mạng Mã nén này đƣợc thiết kế để làm việc cùng với
mã nén âm thanh Intel Audio.
+ Intel Indeo Video Raw R1.1: đƣợc sử dụng tốt nhất cho việc thu các tín hiệu
video làm dữ liệu video nguồn sử dụng cho soạn thảo video, với thiết bị
thu Intel Video. Mã nén này cung cấp các hình ảnh chất lƣợng cao. Các
tệp video dùng lựa chọn Intel Indeo Video Raw R1.1, có kích cỡ nhỏ
hơn các tệp video chƣa đƣợc nén. Ở định dạng này màu sắc của hình
ảnh video đã đƣợc chuyển từ không gian mầu RGB thành không gian
mầu YUV.
+ Intel Indeo Video Interactive: là kiểu nén tƣơng tự nhƣ định dạng 5.10 nhƣng
có một số hỗ trợ mở rộng nhƣ đặc tính trong suốt, nhiều đối tƣợng
chuyển động và các hiệu ứng hiển thị lại trong video.

Số hóa bởi Trung tâm Học liệu

+ Microsoft RLE: dùng để nén các khuôn hình mà nội dung là các vùng mầu
đồng nhất có kích cỡ lớn và số lƣợng mầu không nhiều, màu phẳng (các
ảnh không có chiều sâu). Ví dụ: khi xử lý các video phim hoạt hình, sử

dụng kiểu nén này tỏ ra khá hữu hiệu. Kiểu nén này có mã nén độ dài 8
bit dùng thuật toán nén RLE và chất lƣợng video cao.
+ Microsoft Video 1: sử dụng kỹ thuật nén mất thông tin theo phƣơng pháp nén
không gian màu. Mã nén này có nhiều tham số có thể thay đổi nhƣ: số
mầu trên khuôn hình của video (8 bit hay 24 bit mầu), chất lƣợng video,
số khung hình chính Chuẩn nén này có thể tạo ra các tệp video sử
dụng cho các chƣơng trình đào tạo từ xa hay các tệp video sử dụng cho
mạng tốc độ thấp.
+ Indeo (R) Video R3:2: sử dụng để nén video 24 bit dùng cho đĩa CD. Tỷ lệ
nén tốt, chất lƣợng hình ảnh cao và tốc độ hiển thị nhanh hơn so với
kiểu nén Microsoft Video 1. Cho kết quả tốt nhất nếu sử dụng mã nén
Indeo Video trên dữ liệu video nguồn mà trƣớc đó dữ liệu này không bị
nén với tỷ lệ cao bằng các kỹ thuật nén mất thông tin. Các tệp video
đƣợc nén bằng kỹ thuật nén Indeo (R) video R3:2 có chất lƣợng tƣơng
đƣơng với các tệp video sử dụng kỹ thuật nén Cinepak.
+ Cinepak Code By Radius: sử dụng để nén video 24 bit dùng cho CD-ROM
hoặc cho mục đích tải về từ Web. Đây là kiểu nén đạt đƣợc tỷ lệ nén
cao hơn và tốc độ giải nén nhanh hơn so với mã nén Microsoft Video 1.
Chúng ta có thể đặt tham số chất lƣợng hình ảnh. Các tệp video sau khi
xử lý có thể hiển thị lại trên đƣờng truyền có tốc độ 30 Kb/giây. Kỹ
thuật mã bằng Cinepak tạo ra sản phẩm video có tốc độ giải nén rất
nhanh nhƣng khi nén mất rất nhiều thời gian. Kỹ thuật nén này phù hợp
cho việc chuyển một đoạn video thành kết quả cuối cho ngƣời sử dụng.




Số hóa bởi Trung tâm Học liệu

Mã nén âm thanh cho Windows

+ Intel Audio Software codec: sử dụng cho nhạc và lời nói trên Internet. Tỷ lệ
nén tối đa là 8:1. Mã nén này đƣợc thiết kế để làm việc với chƣơng trình
Intel Video Software.
+ TrueSpeech: sử dụng cho nói chuyện trên mạng Internet với tốc độ truyền
thấp.
+ Microsoft GSM 6.10: sử dụng cho điện thoại trên Internet ở châu Âu.
+ MS-ADPCM: sử dụng để tạo các tệp âm thanh có chất lƣợng cao ghi trên đĩa
CD-ROM. Kiểu nén này đƣợc sử dụng rộng rãi.
+ Microsoft IMA ADPCM: sử dụng tạo các tệp âm thanh cho các sản phẩm đa
phƣơng tiện. Mã nén này dựa trên mã nén ADPCM đƣợc phát triển bởi
IMA.
+ Lucent Technologies SX8300P: sử dụng cho giao tiếp trên Internet tốc độ
thấp.
+ Elemedia TM AX2400P: sử dụng tạo các tệp âm nhạc chất lƣợng cao trên
Internet.
+ Voxware Audio Codecs: sử dụng cho các tệp âm thanh dạng tiếng nói trên
Internet tốc độ thấp.
1.1.3.2. Định dạng MOV
Các phần mềm soạn thảo video thƣờng cung cấp các mã nén theo chuẩn
QuickTime sử dụng trên môi trƣờng hệ điều hành Windows và Mac Error!
Reference source not found Định dạng QuickTime đƣợc xây dựng từ
nhiều thuật toán nén ảnh và âm thanh trong môi trƣờng Mac. QuickTime
cũng là định dạng đƣợc rất nhiều phần mềm ứng dụng hỗ trợ. Không những
thế, nó còn đƣợc cài đặt trong nhiều chíp xử lý của hệ thống máy Mac.
Mã nén video cho chuẩn QuickTime
+ Cinepak: đƣợc sử dụng để nén video 24 bit. Các tệp sử dụng mã nén này để
dùng cho CD-ROM và Web video. Mã nén có tỷ lệ nén cao và tốc độ

Số hóa bởi Trung tâm Học liệu


giải nén nhanh. Cinepak dùng thuật toán nén không đối xứng các tệp
video có kích cỡ nhỏ nhƣng thời gian nén rất lâu. Cho kết quả tốt nhất
nếu dùng Cinepak để tạo tệp video.
+ Sorenson Video: đƣợc sử dụng để nén video 24 bit. Các tệp sử dụng mã nén
này để dùng cho CD-ROM và Web video. Nó cũng giống nhƣ mã nén
Cinepak nhƣng là mã nén mới thiết kế để nén với chất lƣợng cao. Mã
nén này cho hình ảnh tốt hơn, kích cỡ tệp video nhỏ hơn so với mã
Cinepak vì vậy nó phù hợp cho việc tạo các tệp video cuối cùng chứ
không phù hợp cho soạn thảo.
+ Planar RGB: sử dụng hiệu quả cho các khuôn hình có vùng màu đặc nhƣ các
tệp hình động (hoạt hoạ). Nó sử dụng thuật toán nén RLE kết hợp với
kỹ thuật tạo mã hình động.
+ Motion JPEGA and Motion JPEG: đƣợc dùng cho mục đích chuyển mã
video giữa các thiết bị. Ví dụ: chuyển các tệp video trong hệ thống máy
tính, các đoạn video trên băng ra các thiết bị khác của mày tính nhƣ đĩa
CD thông qua thiết bị thu video. Mã nén Motion JPEGA and Motion
JPEG đƣợc hỗ trợ nhiều trong các chíp có trên các thiết bị thu video do
đó tốc độ xử lý rất nhanh.
+ Photo - JPEG: dùng để nén một chuỗi các ảnh tĩnh có màu sắc biến đổi dần
(các đƣờng biên không rõ nét). Đây là kiểu nén mất thông tin nhƣng có
thể đặt đƣợc tham số nén để ảnh có chất lƣợng rất cao. Mã nén Photo-
JPEG là kiểu nén đối xứng - thời gian nén gần bằng thời gian giải nén,
nhƣng thời gian nén là khá nhiều so với thời gian thực của video. Các
ảnh đã đƣợc nén theo kiểu này thì không nên dùng làm nguồn để soạn
thảo vì nó đã bị mất thông tin. Tuy nhiên với tỷ lệ nén không cao nhƣng
cho chất lƣợng ảnh tốt nên có thể dùng để lƣu trữ hoặc để di chuyển
giữa các hệ thống máy tính. Rất nhiều phần mềm cho phép nén dữ liệu
video đã đƣợc cứng hoá sử dụng định dạng JPEG.

Số hóa bởi Trung tâm Học liệu


+ H.261, H.263: sử dụng tạo các video cho hội thảo, có tỷ lệ nén cao. Không
nên sử dụng chuẩn này cho soạn thảo video thông thƣờng.
+ Component video: đƣợc sử dụng cho thu video chất lƣợng cao để tạo và lƣu
trữ video nguồn hay tạo các đoạn video trung gian cho xử lý. Mã nén
này có tỷ lệ nén rất thấp do đó các tệp video chiếm rất nhiều không gian
đĩa.
+ Graphics: đƣợc sử dụng cho việc nén và tạo video với chất lƣợng cao, có độ
sâu màu 8 bít. Mục tiêu của mã nén là để nén các ảnh động (một chuỗi
các ảnh) nhƣng đôi khi cũng có thể sử dụng cho nén video. Mã nén này
không đạt đƣợc tỷ lệ nén cao. Nó chỉ thích hợp cho các tệp video lƣu trữ
và xem lại trên đĩa cứng, không phù hợp với các tệp video trên CD-
ROM.
+ Video: đƣợc sử dụng cho việc thu và nén các tín hiệu video có nguồn ở dạng
tín hiệu tƣơng tự. Mã nén này tạo ra các tệp video có chất lƣợng cao và
sử dụng tốt cho lƣu trữ trên ổ đĩa cứng hoặc trên đĩa CD-ROM. Nó hỗ
trợ cả hai loại nén theo không gian và theo thời gian cho video 16 bit
mầu.
+ Animation: đƣợc sử dụng cho việc nén các khuôn hình có vùng màu có kích
cỡ lớn, nhƣ các khuôn hình cho phim hoạt hình. Mã nén này có các
tham số cho phép thay đổi tỷ lệ nén. Với tỷ lệ nén là 100%, video không
bị nén. Nếu tỷ lệ dƣới 100% tệp video bị nén ở dạng mất thông tin. Mã
nén hình động dựa trên lý thuyết nén của hãng Apple và thuật toán nén
RLE.
+ DV–PAL và DV–NTSC: dùng để tạo các tệp video với định dạng PAL,
NTSC phục vụ in ra băng theo các hệ trên hoặc ngƣợc lại lấy từ băng
vào máy tính thông qua card thu video số. Chuẩn nén này rất hữu dụng
cho việc chuyển dữ liệu video từ hệ thống máy tính này sang hệ thống
máy tính khác hoặc từ thiết bị này sang thiết bị khác.


Số hóa bởi Trung tâm Học liệu

Đối với các thiết bị phần cứng hỗ trợ soạn thảo Video thƣờng có các mã
nén riêng đƣợc viết bởi nhà sản xuất thiết bị phần cứng.
Mã nén âm thanh cho chuẩn QuickTime
Đối với hệ thống Mac ngƣời ta thƣờng sử dụng các mã nén âm thanh sau:
+ mLaw 2:1: sử dụng cho việc chuyển các tệp âm thanh với các ứng dụng trên
các máy trạm. Tại đó mLaw là định dạng âm thanh chuẩn, mLaw đƣợc
sử dụng cho điện thoại số ở Bắc Mỹ và Nhật Bản.
+ 16-bit Big Endian và 16-bit Little Endian: sử dụng cho các phần cứng và
phần mềm chuyên dụng để nén âm thanh. Âm thanh đã đƣợc nén bằng
mã nén này thƣờng không tốt cho soạn thảo.
+ 24–bit Integer và 32–bit Integer: sử dụng cho âm thanh 24 bit hoặc 32 bit.
Mã nén này đƣợc sử dụng tốt cho các phần cứng và phần mềm chuyên
dụng. Nó là sản phẩm cuối do đó các tệp video chứa mã nén này không
nên dùng để soạn thảo.
+ IMA 4:1: sử dụng cho các tệp âm thanh tại các trạm. IMA 4:1 đƣợc phát triển
bởi IMA sử dụng mã ADPCM.
+ 32–bit Floating và 64–bit Floating: sử dụng trong các thiết bị phần cứng và
phần mềm chuyên dụng nhƣng thƣờng không sử dụng cho soạn thảo
Video.
+ ALaw 2:1: giống mLaw nhƣng đƣợc sử dụng cho điện thoại số ở châu Âu.
+ QDesign Music Codec: sử dụng để nén các tệp âm thanh chất lƣợng cao
dùng trên Internet. Chất lƣợng của nó tƣơng đƣơng các tệp âm thanh
trên CD-ROM có định dạng 16 bit, 44.1 kHz. Các tệp âm thanh đƣợc
nén theo mã này có thể nghe trực tiếp bằng đƣờng Internet có tốc độ
28.8 Kb/giây.
+ Qualcomm PureVoice: đƣợc thiết kế để tạo các tệp âm thanh tốt nhất ở tần số
8 kHz. Cơ sở của mã nén này dựa trên thuật toán nén chuẩn của
Telephone CDMA.

×