Tải bản đầy đủ (.pdf) (70 trang)

Tái tạo video dựa vào kỹ thuật nội suy bù chuyển động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1005.53 KB, 70 trang )

LỜI CẢM ƠN
Để hoàn tất một luận văn thạc sĩ yêu cầu sự tập trung, sự cố gắng và độc
lập nghiên cứu. Bản thân tôi sau những năm tháng học tập vất vả và nghiên cứu
cũng đã cố gắng để hồn thành được luận văn này. Tơi ln ghi nhận những sự
đóng góp giúp đỡ nhiệt tình của những người bên cạnh mình, sự ủng hộ, sự hỗ
trợ của gia đình bạn bè giúp tơi có thêm động lực để hồn thành luận tốt nghiệp,
nhân đây tơi muốn gửi lời cảm ơn nhất tới họ.
Lời cảm ơn trân trọng đầu tiên tôi muốn dành tới TS Nguyễn Thị Hồng
Minh, đã hướng dẫn tơi trong suốt q trình làm luận văn, nhờ sự định hướng
của cô giúp tôi tự tin nghiên cứu những vấn đề mới và giải quyết bài toán một
cách khoa học.
Tôi xin trân trọng cảm ơn Ban giám hiệu trường Đại học công nghệ thông
tin, Đại học Thái nguyên, khoa CNTT đã tạo các điều kiện cho chúng tơi được
học tập và làm khóa luận một cách thuận lợi.
Lời cảm ơn sâu sắc muốn được gửi tới các thầy cô giáo đã dạy dỗ và mở ra
cho chúng tôi thấy chân trời tri thức mới, hướng dẫn chúng tôi cách khám phá
và làm chủ công nghệ mới.
Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CHK11D-KHMT đã
cùng tôi đi qua những tháng ngày miệt mài học tập, cùng chia sẻ những niềm
vui nỗi buồn, động viên tơi đi qua những khó khăn, để tơi vững bước vượt qua
những vất vả, quyết tâm hoàn thành luận văn này.
Tuy nhiên do thời gian có hạn, mặc dù đã nỗ lực cố gắng hết mình nhưng
chắc rằng luận văn khó tránh khỏi những thiếu sót. Rất mong được sự chỉ bảo,
góp ý tận tình của Q thầy cơ và các bạn.

1


Mục lục
Lời cảm ơn ............................................ 1
Phần mở đầu ........................................... 6


Chương 1: Khái quát về video và bài toán tái tạo
video ................................................. 8
1.1. Kh¸i qu¸t vỊ video ............................. 8
1.1.1. Mét sè khái niệm cơ bản ..................... 8
1.1.1.1. Các dạng video ......................... 9
1.1.1.2. Một số định chuẩn video ............... 10
1.1.2. Video và các thao tác video ............. 26
1.1.2.1 Các hiệu ứng biên tập video ........... 276
1.1.2.2. Một số thuộc tính đặc tr-ng cđa video 287
1.1.2.2.1. Mµu(Color) ......................... 287
1.1.2.2.2. KÕt cÊu (Texture) .................. 298
1.1.2.2.3. Hình dáng (Shape) .................. 308
1.1.2.2.4. Chuyển động (Motion) ............... 309
1.2. Bài toán tái tạo video ........................ 30
Chương 2: Một số vấn đề trong tái tạo video .......... 33
2.1. Trích rút video ............................... 33
2.1.1. Kỹ thuật trừ ảnh xác định trong video .... 33
2.1.2. Trừ ảnh dựa vào điểm ảnh ............... 34
2.1.3. Trừ ảnh phân khối ...................... 36
2.1.4. Trừ ảnh dựa vào biểu đồ ................ 38
2.2. Một số kỹ thuật tái tạo video ............... 44
2.2.1. Kỹ thuật nội suy không gian .............. 50
2.2.3. Kü tht néi suy bï chun ®éng .......... 52
Chương 3: Chương trình thử nghiệm .................... 57
3.1. Đặt vấn đề .................................... 57
3.2. Phân tích, lựa chọn công cụ ................... 57
2


3.3. Một số giao diện của ch-ơng trình ............. 58

Phần kết luận ........................................ 60
Danh mục tài liệu tham khảo ......................... 671

Danh mơc h×nh vÏ
Hình 1.1 : Cấu trúc phân cấp video ................................................................... 8
Hình 1.2 : Minh họa chuyển đổi giữa các lia ..................................................... 9
3


Hình 1.3 :Sơ đồ giải nén MPEG-1(ISO/IEC 11172)......................................... 18
Hình 1.4 : Sơ đồ nén dữ liệu âm thanh ............................................................. 18
Hình 1.5 : Mơ hình hệ thống giải mã MPEG-2................................................. 20
Hình 1.6 : Mơ hình nén và giải nén theo từng lớp của MPEG-4....................... 23
Hình 1.7 : Một số wipe cơ bản ........................................................................ 27
Hình 1.8 : Các ảnh rất khác nhau nhưng có cùng biểu đồ màu ........................ 28
Hình 1.9 : Biểu đồ thể hiện 4 loại ảnh cơ bản ................................................. 28
Hình 1.10 : Các thao tác camera ..................................................................... 29
Hình 1.11 : Mơ hình chung của phép cộng ảnh ................................................ 30
Hình 1.12 : Ánh xạ các đặc trưng .................................................................... 31
Hình 2.1 : Quá trình phân đoạn video .............................................................. 34
Hình 2.2 : Các cửa sổ cơ sở trong thuật toán so sánh thực .............................. 37
Hình 2.3 : Chênh lệch biêt đồ, * cắt cảnh,---- chồng mờ .................................. 38
Hình 2.4 : So sánh biểu đồ màu giữa hai ảnh ................................................... 39
Hình 2.5 : So sánh các cặp a, Chênh lệch biểu đồ liên tiếp b, Chênh lệch biêt đồ
tích lũy ...................................................................................................... 42
Hình 2.6 : Phát hiện chuyển cảnh dần dần bằng kỹ thuật so sánh cặp ............. 43
Hình 2.7 : Biểu diễn giá trị fc(x,y)bằng nội suy song tuyến ............................... 49
Hình 2.8 : Ảnh tịn tiến di chuyển dx, dy ............................................................ 51
Hình 2.9 : Nội suy sinh khung trung gian f(n1, n2, t) ......................................... 53
Hình 2.10 : Mơ tả nội suy theo thời gian ......................................................... 54

Hình 2.11 : tái tạo cảnh theo ba bước (1) hình ảnh gốc I0 và I1 được kéo giãn để
tạo ra những hình ảnh song song I^0 và I^1. (2)I^S được tạo ra bằng cách

4


phối hợp hai hình ảnh kéo giãn( trung gian).(3) I^S được co lại để tạo thành
IS ............................................................................................................... 55
Hình 3.1 : Giao diện module trích rút video ..................................................... 58
Hình 3.2 : Giao din module tỏi to video........................................................ 59

Phần Mở đầu
Video ra đời vào những năm đầu của thế kỷ XX và phát triển khá mạnh
mẽ, nhưng phải đến cuối thập kỷ XX video số mới phát triển. Với sự ra đời và
phát triển mạnh của máy tính và hệ thống viễn thơng, dữ liệu video đã được số
hố và đưa vào xử lý trên hệ thống máy tính. Việc xử lý dữ liệu video được số
5


hố trên máy tính tỏ ra khá hiệu quả. Kết quả là dữ liệu video số đã được đưa
vào rất nhiều ứng dụng trong thực tế như truyền hình, đào tạo điện tử dựa vào
máy tính, hỗ trợ đào tạo trên mạng, hệ thống mô phỏng, video theo yêu cầu.
Video là phương tiện thơng tin đại chúng có độ phân giải cao và nội dung
thông tin rất phong phú. Tuy nhiên vì nhiều nguyên nhân như: chất lượng thiết
bị thu nhận video, do chuyển động của đối tượng… làm thiếu khuyết các khung
hình trong video, ảnh hưởng đến nội dung, chất lượng của video. Do đó cần tái
tạo các khung hình bị thiếu khuyết trong video. Hiện nay có rất nhiều cơng trình
nghiên cứu để tái tạo các khung hình bị thiếu khuyết trong video và đã đạt được
những kết quả nhất định. Tuy nhiên việc sử dụng kỹ thuật nội suy bù chuyển
động để tái tạo khung hình bị thiếu khuyết trong video vẫn chưa có nhiều sự đầu

tư, nghiên cứu chun sâu. Xuất phát trong hồn cảnh đó luận văn lựa chọn đề
tài: Tái tạo video dựa vào k thut ni suy bự chuyn ng.
Để đạt đ-ợc mục tiêu đề ra, luận văn tập trung
nghiên cứu một số vấn đề cơ bản sau đây:
"Nghiên cứu tổng quan về video". Phần này trình
bày một số khái niệm và các vấn đề cơ bản trong xử lý
và tái tạo video.
"Nghiên cứu một số kỹ thuật trích rút và tái tạo
video". Phần này trình bày các nghiên cứu về kỹ thuật
trừ ảnh và lọc ảnh, các -u và nh-ợc điểm của từng kỹ
thuật trong việc xác định cảnh của video và trích rút
khung hình đặc tr-ng trong mỗi cảnh của video để l-u
trữ. Phần này cũng trình bày các nghiên cứu về các kỹ
thuật tạo lập khung hình trung gian trong việc tái
tạo đoạn video từ các khung hình đại diện dựa vào kỹ
thuật nội suy bù chuyển động.
"Nghiên cứu và ứng dụng kỹ thuật tái tạo video".
Đ-a ra một số ứng dụng kỹ thuật tái tạo video. Cài
6


đặt và thử nghiệm và đánh giá kỹ thuật tái tạo video
dựa vào kỹ thuật nội suy bù chuyển động để khôi phục
lại các khung hình bị thiếu khuyết từ những khung
hình đà trích rút.
Trên cơ sở các mục tiêu đặt ra, cấu trúc của luận
văn bao gồm 3 ch-ơng:
Chương 1: Khái quát về video và bài toán tái tạo
video
Chương 2: Một số vấn đề trong tái tạo video.

Chương 3: Ch-ơng trình thử nghiệm

Chương 1
7


kháI quát về video và bài toán táI tạo video
1.1. Khái quát về video
1.1.1. Một số khái niệm cơ bản
Video là tập hợp các khung hình (frames), mỗi
khung hình là một ảnh. Shot (hay lia) là đơn vị cơ sở
của video. Một lia là một đơn vị vật lý của dòng
video, gồm các chuỗi các khung hình liên tiếp, không
thể chia nhỏ hơn, ứng với một thao tác camera đơn.
Scene (cảnh) là các đơn vị logic của dòng video,
một cảnh gồm các lia liên quan về không gian và liền
kề về thời gian, cùng mô tả một nội dung ngữ nghĩa
hoặc một tình tiết. Khi phim đ-ợc chiếu, các khung
hình lần l-ợt đ-ợc hiển thị ở tốc độ nhất định. Tốc
độ th-ờng thấy ở các định dạng video khác nhau là 25
hoặc 30 hình/s. Nh- vậy, một giờ video sẽ có số l-ợng
khung hình t-ơng ứng là 90000 hoặc là 1080000.
Cấu trúc phân cấp của video đ-ợc thể hiện trên
hình d-ới đây.

Hình 1.1: Cấu trúc phân cấp video
Phân đoạn video là quá trình phân tích và chia
nội dung hình ảnh video thành các đơn vị cơ sở gọi là
các lia (shot). Việc lấy mẫu chính là chọn gần đúng
một khung video đại diện cho mỗi lia (hoặc nhiều hơn

tuỳ theo mức độ phức tạp của nội dung hình ảnh của
8


lia) và đ-ợc gọi là các khung khoá. Khung khoá là
khung hình đại diện mô tả nội dung chính của shot.
Quá trình phân đoạn dữ liệu video tiến hành, phát
hiện sự chuyển đổi từ lia này sang lia khác hay chính
là sự phát hiện ranh giới giữa các lia (đó chính là
đo sự khác nhau giữa các khung hình liền kề). Trong
hình d-ới đây minh họa về sự chuyển đổi giữa các lia:

Hình 1.2: Minh hoạ về sự chuyển đổi giữa các lia
1.1.1.1.Cỏc dng video
1.1.1.1.1.Video tng t
NTSC Video: õy l dạng Video tương tự với 525 dòng trên một khung hình,
30 khung hình trong một giây, qt cách dịng, chia làm hai trường (mỗi trường
262.5 dịng), có 20 dịng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu
mỗi trường.
PAL Video: Dạng Video này có 625 dịng trên một khung hình, 25 khung hình
trong một giây, quét cách dòng. Khung gồm hai trường chẵn lẽ, mỗi trường bao
gồm 312.5 dòng.
1.1.1.1.2.Video số
Một số tiêu chuẩn của Video số lấy theo tiêu chuẩn CCI.

Độ phân giải
độ chói

CCIR


CCIR

601525/60

601625/50

NTSC

PAL/SECAM

720x480

360x576

9

CIF

QCIF

352x288

176x144


Độ phân giải

360x480

360x576


176x144

88x72

Lấy mẫu màu

4:2:2

4:2:2

4:2:0

4:2:0

Số trường /s

60

50

30,15,10,7.5

30,15,10,7.5

Cách quét

Cách dòng

Cách dòng


Liên tục

Liên tục

màu sắc

Bảng 1. 1: Các tiêu chuẩn của Video số
1.1.1.2.Một số định chuẩn video
Sự chuẩn hóa của video tương tự trong những năm đầu của thập niên 1950
(NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh chuyển
động xuất hiện hầu như khắp nơi, với các thiết bị vơ tuyến được dùng rộng rãi
cho mục đích giải trí, các hệ thống ứng dụng cơng nghệ như phát hiện chuyển
động tiếp tục được phát triển.
Vào năm 1990, các tổ chức về chuẩn hóa như tổ chức ISO-IEC (International
Organization for Standard – International Electrotechnical Commission) đã đưa
ra chuẩn MJPEG cho video kĩ thuật số, tổ chức chuẩn ITU-T đã đưa ra chuẩn
H.261 và một số các chuẩn liên quan khác. Đi kèm với nó là các thiết bị tin học
giá rẻ đã tạo nên sự phát triển bùng nổ cho các ứng dụng đa phương tiện.
Trong quá trình soạn thảo, xử lý và kết xuất video cần hiểu rõ về các định chuẩn
video. Ví dụ: để tạo ra một video sử dụng trên Intermet chúng ta cần phải thiết
lập các tham số nén đảm bảo tệp video theo đúng định dạng và mục đích sử
dụng. Ngồi các yếu tố kỹ thuật, việc xác định định dạng của video còn phụ
thuộc vào các yếu tố kinh nghiệm của người xử lý. MPEG, AVI cho Windows,
MOV cho QuickTime là các định dạng được sử dụng rộng rãi. Trong phần này
chúng ta làm rõ các định chuẩn với mục đích sử dụng, các kỹ thuật nén, kích cỡ,
thời gian xử lý nén và giải nén.

10



1.1.1.2.1.Định dạng AVI
Đây là định dạng phổ biến được thiết kế để dùng trong môi trường Windows.
Định dạng này rất linh hoạt, có thể sử dụng rất nhiều thuật tốn nén video được
phát triển từ trước đến nay để tạo ra các sản phẩm video theo mục đích sử dụng.
a) Mã nén âm thanh cho chuẩn AVI
+ Intel Indeo 5.10 (Intel indeo 5.03): được sử dụng cho các định dạng Video
phân tán trên mạng Internet, cho các máy tính có bộ xử lý MMX hoặc
bộ xử lý từ Pentium II trở lên. Mã nén có đặc trưng: có lựa chọn nén
nhanh, điều khiển các khung hình chính mềm dẻo, điều chỉnh độ sắc,
các hiệu ứng hiển thị lại, và cuối cùng tạo ra các tệp video có dữ liệu
giảm đáng kể.
 Kiểu nén này cho phép người xử lý video có thể điều chỉnh để tạo ra
các video dùng cho các băng thơng khác nhau.
 Ví dụ: có thể điều chỉnh để tạo ra video dùng cho modem 56Kb,
28,8Kb hay đường cáp mạng... Mã nén này được thiết kế để làm việc
cùng với mã nén âm thanh Intel Audio.
+ Intel Indeo Video Raw R1.1: được sử dụng tốt nhất cho việc thu các tín hiệu
video làm dữ liệu video nguồn sử dụng cho soạn thảo video, với thiết bị
thu Intel Video. Mã nén này cung cấp các hình ảnh chất lượng cao.
Các tệp video dùng lựa chọn Intel Indeo Video Raw R1.1, có kích cỡ
nhỏ hơn các tệp video chưa được nén. Ở định dạng này màu sắc của
hình ảnh video đã được chuyển từ không gian mầu RGB thành không
gian mầu YUV.
+ Intel Indeo Video Interactive: là kiểu nén tương tự như định dạng 5.10
nhưng có một số hỗ trợ mở rộng như đặc tính trong suốt, nhiều đối
tượng chuyển động và các hiệu ứng hiển thị lại trong video.
+ Microsoft RLE: dùng để nén các khn hình mà nội dung là các vùng mầu
đồng nhất có kích cỡ lớn và số lượng mầu không nhiều, màu phẳng
11



(các ảnh khơng có chiều sâu). Ví dụ: khi xử lý các video phim hoạt
hình, sử dụng kiểu nén này tỏ ra khá hữu hiệu. Kiểu nén này có mã nén
độ dài 8 bit dùng thuật toán nén RLE và chất lượng video cao.
+ Microsoft Video 1: sử dụng kỹ thuật nén mất thông tin theo phương pháp
nén không gian màu. Mã nén này có nhiều tham số có thể thay đổi như:
số mầu trên khn hình của video (8 bit hay 24 bit mầu), chất lượng
video, số khung hình chính... Chuẩn nén này có thể tạo ra các tệp video
sử dụng cho các chương trình đào tạo từ xa hay các tệp video sử dụng
cho mạng tốc độ thấp.
+ Indeo (R) Video R3:2: sử dụng để nén video 24 bit dùng cho đĩa CD. Tỷ lệ
nén tốt, chất lượng hình ảnh cao và tốc độ hiển thị nhanh hơn so với
kiểu nén Microsoft Video 1. Cho kết quả tốt nhất nếu sử dụng mã nén
Indeo Video trên dữ liệu video nguồn mà trước đó dữ liệu này khơng bị
nén với tỷ lệ cao bằng các kỹ thuật nén mất thông tin. Các tệp video
được nén bằng kỹ thuật nén Indeo (R) video R3:2 có chất lượng tương
đương với các tệp video sử dụng kỹ thuật nén Cinepak.
+ Cinepak Code By Radius: sử dụng để nén video 24 bit dùng cho CD-ROM
hoặc cho mục đích tải về từ Web. Đây là kiểu nén đạt được tỷ lệ nén
cao hơn và tốc độ giải nén nhanh hơn so với mã nén Microsoft Video 1.
Chúng ta có thể đặt tham số chất lượng hình ảnh. Các tệp video sau khi
xử lý có thể hiển thị lại trên đường truyền có tốc độ 30 Kb/giây. Kỹ
thuật mã bằng Cinepak tạo ra sản phẩm video có tốc độ giải nén rất
nhanh nhưng khi nén mất rất nhiều thời gian. Kỹ thuật nén này phù hợp
cho việc chuyển một đoạn video thành kết quả cuối cho người sử dụng.
b) Mã nén âm thanh cho Windows
+ Intel Audio Software codec: sử dụng cho nhạc và lời nói trên Internet. Tỷ lệ
nén tối đa là 8:1. Mã nén này được thiết kế để làm việc với chương
trình Intel Video Software.

12


+ TrueSpeech: sử dụng cho nói chuyện trên mạng Internet với tốc độ thấp.
+ Microsoft GSM 6.10: sử dụng cho điện thoại trên Internet ở châu Âu.
+ MS-ADPCM: sử dụng để tạo các tệp âm thanh có chất lượng cao ghi trên
đĩa CD-ROM. Kiểu nén này được sử dụng rộng rãi.
+ Microsoft IMA ADPCM: sử dụng tạo các tệp âm thanh cho các sản phẩm đa
phương tiện. Mã nén này được dựa trên mã nén ADPCM được phát
triển bởi IMA.
+ Lucent Technologies SX8300P: sử dụng cho giao tiếp trên Internet với tốc
độ thấp.
+ Elemedia TM AX2400P: sử dụng tạo ra các tệp âm nhạc có chất lượng cao
trên Internet.
+ Voxware Audio Codecs: sử dụng cho các tệp âm thanh dạng tiếng nói trên
Internet tốc độ thấp.
1.1.1.2.2.Định dạng MOV
Các phần mềm soạn thảo video thường cung cấp các mã nén theo chuẩn
QuickTime sử dụng trên môi trường hệ điều hành Windows và Mac Error!
Reference source not found.. Định dạng QuickTime được xây dựng từ nhiều
thuật toán nén ảnh và âm thanh trong môi trường Mac. QuickTime cũng là định
dạng được rất nhiều phần mềm ứng dụng hỗ trợ. Không những thế, nó cịn được
cài đặt trong nhiều chíp xử lý của hệ thống máy Mac.
a) Mã nén video cho chuẩn QuickTime
+ Cinepak: được sử dụng để nén video 24 bit. Các tệp sử dụng mã nén này để
dùng cho CD-ROM và Web video. Mã nén có tỷ lệ nén cao và tốc độ
giải nén nhanh. Cinepak dùng thuật tốn nén khơng đối xứng các tệp
video có kích cỡ nhỏ nhưng thời gian nén rất lâu. Cho kết quả tốt nhất
nếu dùng Cinepak để tạo tệp video.


13


+ Sorenson Video: được sử dụng để nén video 24 bit. Các tệp sử dụng mã nén
này để dùng cho CD-ROM và Web video. Nó cũng giống như mã nén
Cinepak nhưng là mã nén mới thiết kế để nén với chất lượng cao. Mã
nén này cho hình ảnh tốt hơn, kích cỡ tệp video nhỏ hơn so với mã
Cinepak vì vậy nó phù hợp cho việc tạo các tệp video cuối cùng chứ
không phù hợp cho soạn thảo.
+ Planar RGB: sử dụng hiệu quả cho các khn hình có vùng màu đặc như các
tệp hình động (hoạt hoạ). Nó sử dụng thuật toán nén RLE kết hợp với
kỹ thuật tạo mã hình động.
+ Motion JPEGA and Motion JPEG: được dùng cho mục đích chuyển mã
video giữa các thiết bị. Ví dụ: chuyển các tệp video trong hệ thống máy
tính, các đoạn video trên băng ra các thiết bị khác của mày tính như đĩa
CD... thơng qua thiết bị thu video. Mã nén Motion JPEGA and Motion
JPEG được hỗ trợ nhiều trong các chíp có trên các thiết bị thu video do
đó tốc độ xử lý rất nhanh.
+ Photo - JPEG: dùng để nén một chuỗi các ảnh tĩnh có màu sắc biến đổi dần
(các đường biên không rõ nét). Đây là kiểu nén mất thơng tin nhưng có
thể đặt được tham số nén để ảnh có chất lượng rất cao. Mã nén PhotoJPEG là kiểu nén đối xứng - thời gian nén gần bằng thời gian giải nén,
nhưng thời gian nén là khá nhiều so với thời gian thực của video. Các
ảnh đã được nén theo kiểu này thì khơng nên dùng làm nguồn để soạn
thảo vì nó đã bị mất thông tin. Tuy nhiên với tỷ lệ nén không cao nhưng
cho chất lượng ảnh tốt nên có thể dùng để lưu trữ hoặc để di chuyển
giữa các hệ thống máy tính. Rất nhiều phần mềm cho phép nén dữ liệu
video đã được cứng hoá sử dụng định dạng JPEG.
+ H.261, H.263: sử dụng tạo các video cho hội thảo, có tỷ lệ nén cao. Khơng
nên sử dụng chuẩn này cho soạn thảo video thông thường.


14


+ Component video: được sử dụng để thu các video chất lượng cao để tạo và
lưu trữ video nguồn hay tạo các đoạn video trung gian cho xử lý. Mã
nén này có tỷ lệ nén rất thấp do đó các tệp video chiếm rất nhiều không
gian đĩa.
+ Graphics: được sử dụng cho việc nén và tạo video với chất lượng cao, có độ
sâu màu 8 bit. Mục tiêu của mã nén là để nén các ảnh động (một chuỗi
các ảnh) nhưng đơi khi cũng có thể sử dụng cho nén video. Mã nén này
không đạt được tỷ lệ nén cao. Nó chỉ thích hợp cho các tệp video lưu
trữ và được xem lại trên đĩa cứng, không phù hợp với các tệp video trên
CD-ROM.
+ Video: được sử dụng cho việc thu và nén các tín hiệu video có nguồn ở dạng
tín hiệu tương tự. Mã nén này tạo ra các tệp video có chất lượng cao và
sử dụng tốt cho lưu trữ trên ổ đĩa cứng hoặc trên đĩa CD-ROM. Nó hỗ
trợ cả hai loại nén theo khơng gian và thời gian cho video 16 bit mầu.
+ Animation: được sử dụng cho việc nén các khn hình có vùng màu có kích
cỡ lớn, như các khn hình cho phim hoạt hình. Mã nén này có các
tham số cho phép thay đổi tỷ lệ nén. Với tỷ lệ nén là 100%, video
không bị nén. Nếu tỷ lệ dưới 100% tệp video bị nén ở dạng mất thơng
tin. Mã nén hình động dựa trên lý thuyết nén của hãng Apple và thuật
toán nén RLE.
+ DV–PAL và DV–NTSC: dùng để tạo các tệp video với định dạng PAL,
NTSC phục vụ in ra băng theo các hệ trên hoặc ngược lại lấy từ băng
vào máy tính thơng qua card thu video số. Chuẩn nén này rất hữu dụng
cho việc chuyển dữ liệu video từ hệ thống máy tính này sang hệ thống
máy tính khác hoặc từ thiết bị này sang thiết bị khác.
Đối với các thiết bị phần cứng hỗ trợ soạn thảo Video thường có các mã nén
riêng được viết bởi nhà sản xuất thiết bị phần cứng.

b) Mã nén âm thanh cho chuẩn QuickTime
15


Đối với hệ thống Mac người ta thường sử dụng các mã nén âm thanh sau:
+ mLaw 2:1: sử dụng cho việc chuyển các tệp âm thanh với các ứng dụng trên
các máy trạm. Tại đó mLaw là định dạng âm thanh chuẩn, mLaw được
sử dụng cho điện thoại số ở Bắc Mỹ và Nhật Bản.
+ 16-bit Big Endian và 16-bit Little Endian: sử dụng cho các phần cứng và
phần mềm chuyên dụng để nén âm thanh. Âm thanh đã được nén bằng
mã nén này thường không tốt cho soạn thảo.
+ 24–bit Integer và 32–bit Integer: sử dụng cho âm thanh 24 bit hoặc 32 bit.
Mã nén này được sử dụng tốt cho các phần cứng và phần mềm chuyên
dụng. Nó là sản phẩm cuối do đó các tệp video chứa mã nén này không
nên dùng để soạn thảo.
+ IMA 4:1: sử dụng cho các tệp âm thanh tại các trạm. IMA 4:1 được phát
triển bởi IMA sử dụng mã ADPCM.
+ 32–bit Floating và 64–bit Floating: sử dụng trong các thiết bị phần cứng và
phần mềm chuyên dụng nhưng thường không sử dụng cho Video.
+ ALaw 2:1: giống mLaw nhưng được sử dụng cho điện thoại số ở châu Âu.
+ QDesign Music Codec: sử dụng để nén các tệp âm thanh chất lượng cao
dùng trên Internet. Chất lượng của nó tương đương các tệp âm thanh
trên CD-ROM có định dạng 16 bit, 44.1 kHz. Các tệp âm thanh được
nén theo mã này có thể nghe trực tiếp bằng đường Internet có tốc độ
28.8 Kb/giây.
+ Qualcomm PureVoice: được thiết kế để tạo các tệp âm thanh tốt nhất ở tần
số 8 kHz. Cơ sở của mã nén này dựa trên thuật toán nén chuẩn của
Telephone CDMA.
+ MACE 3:1 and MACE 6:1: để tạo các tệp âm thanh thông thường cho hệ
điều hành Mac. Nó dựa trên thuật tốn nén âm thanh MACE. Mã nén

MACE 3:1 có tỷ lệ nén thấp hơn mã nén MACE 6:1 nhưng có chất
lượng cao hơn.
16


1.1.1.2.3.Các định chuẩn MPEG
Chuẩn nén video MPEG được phát triển bởi MPEG, hiện đang được sử
dụng rộng rãi trong các sản phẩm video. MPEG đứng đầu trong việc ứng
dụng trong truyền hình số, mã và giải mã HDTV, CD, DVD, video hội nghị,
video cho Internet và các ứng dụng khác. MPEG được sử dụng rộng rãi như
vậy chính là nhờ khả năng nén hiệu quả, làm giảm đáng kể kích cỡ tệp video.
Thông qua xử lý nén bằng MPEG, các video có thể truyền hiệu quả trên
mạng. Cơ sở của chuẩn nén MPEG là sử dụng thuật toán biến đổi cosin rời
rạc DCT với việc phân chia khn hình ảnh thành các khối và đánh giá
chuyển động. Các đặc điểm chi tiết về kỹ thuật của chuẩn MPEG được tổ
chức ISO và IEC cơng nhận. Có ba định dạng Video theo chuẩn MPEG là
MPEG1, MPEG2, MPEG4 chính thức trở thành định dạng chuẩn quốc tế.
a) Chuẩn Video MPEG-1
MPEG1 đã được hoàn thiện vào năm 1991, với nhiều ưu điểm như: tối ưu hoá
khi làm việc với độ phân giải 352x240 điểm ảnh, 30 hình/giây cho hệ NTSC và
độ phân giải 352x288 điểm ảnh, 25 hình/giây. Chuẩn này cố định độ phân giải
nên thường gây ra một số lỗi nếu độ phân giải đặt không đúng. Tuy nhiên,
trường hợp đặc biệt MPEG1 có chế độ làm việc với độ phân giải rất cao
4095x4095, phát 60 hình/giây. MPEG1 thơng thường làm việc tối ưu với tốc
độ 1,5 Mb/giây cho các ứng dụng. MPEG1 sử dụng cho các ứng dụng có chế
độ quét hình tuần tự. Nó khơng trực tiếp làm việc với các ứng dụng video sử
dụng chế độ quét xen dòng như ứng dụng truyền hình. MPEG1 có chất lượng
tương đương với chất lượng truyền hình. Video MPEG-1 sử dụng làm định
dạng chuẩn cho các sản phẩm video CD. MP3 là chuẩn nén âm thanh được sử
dụng trong MPEG-1.

Mã nén cho cho các tín hiệu âm thanh theo chuẩn 3 lớp:
 Lớp 1 MP1 (MPEG1 Audio Layer 1)
 Lớp 2 MP2 (MPEG1 Audio Layer 2)
17


 Lớp 3 MP3 (MPEG1 Audio Layer 3)
MPEG1 được thiết kế theo chuẩn ISO/IEC 11172, phân định địa chỉ của các
kênh dữ liệu âm thanh và hình ảnh, kết hợp với thời gian. Đây là chức năng
quan trọng vì từ dạng dữ liệu này sẽ được chuyển đổi thành các kờnh d liu
phự hp.
Âm thanh

Bộ giải mÃ
âm thanh

Âm thanh đÃ
giải mÃ

Luồng

Lư u trữ
Media số

Bộ giải mÃ
đặc trư ng
media

Bộ điều
khiển

đồng hồ

Bộ giải mÃ
hệthống

Video

Bộ giải mÃ
video

Video đÃ
giải mÃ

Hỡnh 1.3 S gii nén MPEG–1 (ISO/IEC 11172)
Theo sơ đồ này chúng ta thấy rằng, thông qua các địa chỉ được lưu trữ trong
chuẩn MPEG1, khi giải nén sẽ xác định chính xác các kênh âm thanh và video.
Thuật toán nén cho chuẩn MPEG1 có khả năng nén cao. Đầu tiên chuyển video
từ khơng gian mầu RGB về không gian mầu YUV, sử dụng thuật tốn nén
khơng gian mầu để giảm dữ liệu video. Sau đó dùng thuật nén theo thời gian
chuyển động bằng cách phân chia video thành các dãy, lựa chọn các khung
hình. Phân chia khn hình thành các macro block và block. Dùng giải thuật
DCT nén không gian ảnh. Nén không gian dữ liệu một lần nữa bằng giải thuật
nén không mất thông tin.

18


Tín hiệu
âm thanh


Bản đồ

Bộ lư ợ ng tử
và mà hoá

Đ óng gói
khung

Dòng bit
đà mà hoá

Mô hình
tâm lý âm học

Dữ liệu lƯ thc

Hình 1.4 Sơ đồ nén dữ liệu âm thanh
Đầu vào là các tín hiệu âm thanh, dựa theo bản đồ, lọc và lấy ra các mẫu đặc
trưng. Mơ hình tâm lý - âm học là quá trình tập hợp dữ liệu và điều khiển việc
lượng tử hoá và mã hố để tạo ra khối các khn hình. Khối các khn hình là
các gói chuẩn (cơ sở) được mã hố.
Ứng dụng của MPEG1:
 Phân phối video: Một ứng dụng rộng khắp của MPEG1 hiện nay đó
là việc phân phối video thường là phim. Các video theo chuẩn
MPEG1 có chất lượng tốt, kích cỡ nhỏ. Phim được chuyển thành
dạng MPEG1, ghi trên đĩa CD-ROM và đang được các hãng phân
phối trên tồn thế giới.
 Video cơng cộng: các trạm video cơng cộng hướng dẫn người sử dụng
các thông tin cần thiết của một hệ thống nào đó. Nó thường được đặt
tại các nhà ga, ngân hàng, siêu thị... Các video này được đặt trên đĩa

cứng hoặc CD-ROM với định chuẩn MPEG1. MPEG1 đảm bảo
chất lượng, kích cỡ nhỏ do đó có thể dễ dàng sử dụng trong các ứng
dụng này.
 Dịch vụ video thông qua đường truyền điện thoại: Hệ thống này đang
được thử nghiệm ở nhiều nước tiên tiến như Nhật Bản, Mỹ. Thông qua
đường truyền điện thoại, máy điện thoại để bàn có màn hình hoặc hệ
19


thống điện thoại di động, người sử dụng có thể đặt các chương trình
video xem trực tiếp trên máy điện thoại hay có thể đàm thoại và thấy
được hình ảnh của nhau. Dịch vụ này bị giới hạn về băng thơng do đó
người ta sử dụng định chuẩn video MPEG1.
 Thư viện video: Các thư viện dữ liệu video hiện nay đang được thay
thế dần các băng video bằng dữ liệu video số theo chuẩn MPEG1. Ưu
điểm của các đĩa CD theo chuẩn MPEG1 là dễ hiển thị, dễ truy cập,
khơng gian lưu trữ nhỏ, chất lượng hình ảnh tốt. Hiện nay rất nhiều thư
viện của các trường đại học, viện nghiên cứu, trung tâm... đang chuyển
dần sang sử dụng dữ liệu video số.
Sau đây là một số ràng buộc đối với MPEG-1:
Số pixel lớn nhất trên một dòng

720

Số dòng lớn nhất trên một ảnh

576

Số ảnh trong một giây


30

Số MB trên một ảnh

396

Số MB trên một giây

9900

Tốc độ bit tối đa

1.86 Mbps

Kích thước bộ đệm giải nén tối đa

376.832 bits

Bảng 1. 2: Một số ràng buộc của MPEG-1
b) Chuẩn Video MPEG-2
MPEG2 đã hoàn thành vào tháng 11/1994. MPEG2 ban đầu được phát
triển trên cơ sở các kỹ thuật nén tốt nhất của MPEG1 nhưng phần mã hoá
được mở rộng hơn. Các mã này được áp dụng cho các ảnh có không gian mầu
YUV với thành phần Y:U:V là 4:2:2. Tuy nhiên MPEG2 vẫn không được
triển khai trong các ứng dụng video. Đến tháng 4/1997, MPEG-2 đưa thêm
các mã phân định nhiều kênh âm thanh. Một số thuật toán nén âm thanh được
áp dụng trong phần này khơng cịn bị lệ thuộc vào các thuật toán được áp
20



dụng trong MPEG1. Chuẩn này đã được tổ chức ISO công nhận và được sử
dụng làm chuẩn video cho truyền hình số. Mã nén MPEG2 có thể đáp ứng
kỹ thuật quét xen dòng của video. Mục tiêu của định chuẩn này là nâng chất
lượng của video lên cao hơn chuẩn MPEG1 do đó yêu cầu về đường truyền
cũng cao hơn, từ 5-20 Mb/giây. MPEG2 bao gồm Profiles và Levels.
Profiles định rõ dịng bit và độ phân giải của khơng gian mầu, Levels xác
định độ phân giải ảnh và tốc độ bit lớn nhất của mỗi Profiles. Các Profiles và
Levels được sử dụng phổ biến hiện này gọi là Main Profiles, Main Levels ký
hiệu (MP@ML). Chúng có độ phân giải video 720x480 với tốc độ 30
hình/giây, tốc độ bít là 15 Mb/giây cho video hệ NTSC. HDTV sử dụng độ
phân giải 1920x1080, 30 hình/giây, tốc độ bít là 80 Mb/giây gọi l Main
Profiles, High Levels (MP@HL) MPEG2.
Dữ liệu
Video
Dữ liệu
âm thanh

Bộ mà hoá
Video

Bộ mà hoá
âm thanh

Bộ
đóng gói

Bộ
đóng gói

Video PES


 m thanh PES

Bộ
trộn
luồng
chư ¬ng
tr×nh


trén
lng
vËn
chun

lng
ch­ ¬ng tr×nh

lng
vËn chun

Hình 1.5 Mơ hình hệ thống giải mã MPEG2
Theo mơ hình, này MPEG2 đánh địa chỉ phối hợp một hoặc nhiều luồng
dữ liệu của video và âm thanh thành một luồng đơn thống nhất. Các dữ liệu
trên luồng dữ liệu này được tổ chức phù hợp nhất cho việc lưu trữ và phát
video. Việc tổ chức này dựa vào hai lớp chính: luồng chương trình và luồng
vận chuyển.
Luồng chương trình là việc phối hợp một hoặc nhiều gói tin cơ bản PES
có nhịp độ cơ sở thơng thường (hai hoặc bốn nhịp một) trong các luồng dữ
21



liệu đơn thành một luồng dữ liệu thống nhất. Các gói tin luồng chương trình
có độ lớn khác nhau và như vậy thời gian truyền gói tin là khác nhau. Trong
q trình truyền các gói tin, nến phát hiện có một gói tin bị mất thì hệ thống
sẽ u cầu truyền lại tồn bộ các gói tin (vì luồng chương trình khơng xác
định gói tin nào phải được truyền lại). Luồng chương trình được thiết kế cho
việc sử dụng trong hệ thống đường truyền rất ít lỗi. Nó phù hợp với các ứng
dụng có dùng phần mềm để xử lý.
Luồng vận chuyển là việc phối hợp một hoặc nhiều gói tin cơ bản PES
cùng với một hoặc nhiều nhịp độ cơ sở độc lập thành một luồng dữ liệu đơn
thống nhất. Các gói tin luồng vận chuyển có độ lớn bằng nhau là 188byte và
như vậy thời gian truyền gói tin là như nhau. Trong q trình truyền các gói
tin, nếu phát hiện có một gói tin bị mất thì hệ thống khơng u cầu truyền lại
tồn bộ các gói tin mà chỉ yêu cầu truyền lại gói tin bị mất (vì luồng vận
chuyển đánh chỉ số cho các gói tin). Luồng vận chuyển được thiết kế cho việc
sử dụng trong hệ thống đường truyền có nhiều lỗi.
Ứng dụng của MPEG2:
 Video theo yêu cầu: VOD là một ứng dụng cơ bản về video. Tuy
nhiên, hầu hết các ứng dụng của VOD là phim. Ban đầu trong các
khách sạn, bệnh viện và cuối cùng là ở trong gia đình. Tất cả chúng
đều được tương tác qua ti vi. Dịch vụ này cho phép người sử dụng đặt
các chương trình phim theo ý thích, và có thể xem bất kể thời gian nào.
Các ứng dụng VOD sử dụng định chuẩn video MPEG2.
 Truyền hình cáp CATV: sử dụng chuẩn video MPEG2 để nén, giải
nén và phân phối video. Đây là chuẩn video có chất lượng rất cao, u
cầu băng thơng rộng.
 Hệ thống phát hình trực tiếp qua vệ tinh DBS: sử dụng chuẩn
MPEG2 cho việc phát hình trực tiếp. Lợi thế của hệ thống này là bất


22


kể tại đâu và bất kể thời gian nào chúng ta cũng có thể bắt đuợc tín
hiệu truyền hình.
 Truyền hình chất lượng cao HDTV: Mỹ và một số nước khác sử dụng
MPEG2 làm chuẩn video cho truyền hình chất lượng cao.
 Một số ứng dụng khác: MPEG2 sử dụng trong các phầm mềm của
các thiết bị video như: băng Video chất lượng cao, đĩa video số chất
lượng cao DVD, video hội nghị và trong các máy quay video số.
c) Chuẩn Video MPEG-4
MPEG4 là chuẩn ISO/IEC được phát triển bởi MPEG. Nhóm này cũng
đã phát triển chuẩn MPEG1 và MPEG2. Các chuẩn này cho phép phát hành
video trên CD-ROM và truyền hình số. MPEG4 là kết quả tổng hợp của hàng
trăm nhà nghiên cứu và kỹ sư trên toàn thế giới. MPEG4 được hoàn thành
vào tháng 10/1998 và trở thành chuẩn quốc tế từ tháng 1/1999. Cuối năm
1999, phiên bản 2 của MPEG4 ra đời. Định dạng này mềm dẻo, u cầu tốc
độ đường truyền thấp và khơng có độ phân giải video chuẩn.
Nén hình ảnh trong MPEG4 sử dụng kỹ thuật nén đối tượng cơ bản với
việc phân lớp và lưu các thông tin đối tượng. Mỗi lớp lưu mã nén về nội dung
của một chuỗi các ảnh (bao gồm: đường viền, quỹ đạo chuyển động, kết cấu bề
mặt). Khi giải nén, thông qua nội dung được lưu trong các lớp để xây dựng lại
từng phần của đoạn video.

23


MÃ hoá /Giải mÃ

2


2
MÃ hoá /Giải mÃ

2
2
MÃ hoá /Giải mÃ

Hỡnh 1.6 Mơ hình nén và giải nén theo từng lớp của MPEG4
Theo mơ hình nén và giải nén theo từng lớp của MPEG4, video được
nén trên 3 lớp với tỷ lệ giảm kích cỡ (khơng gian) là 2 lần trên từng lớp. Trên
các lớp ngồi, những thơng tin về nội dung của một chuỗi hình ảnh cịn lưu tỷ
lệ giảm khơng gian của lớp so với lớp trên đó. Khi giải nén dựa vào tỷ lệ này
cùng với các thông tin về đường viền, quỹ đạo chuyển động, kết cấu bề mặt
của đối tượng trong video để phục hồi lại đoạn video gốc.
Như vậy, dựa vào tỷ lệ giảm kích cỡ khơng gian video, chúng ta có thể
điều chỉnh tốc độ phát hình cũng như kích cỡ của tệp video cho phù hợp với
băng thơng.
Ứng dụng của MPEG4: do có tính mềm dẻo MPEG4 đã được triển
khai trong ba lĩnh vực chính:
 Truyền hình số.
 Các ứng dụng đồ hoạ tương tác.
 Ứng dụng đa phương tiện tương tác.
Chuẩn kỹ thuật của MPEG4 được thống nhất cho sản xuất, phân phối các sản
phẩm video cho cả ba lĩnh vực trên.
d) Chuẩn Video MPEG-7
24


Được thừa nhận thành tiêu chuẩn quốc tế tháng 7/2001.MPEG-7 đề xuất

cho việc tìm kiếm, chọn lựa, quản lý và phân tích thơng tin đa phương tiện,
khơng tập trung vào một ứng dụng cụ thể, không phải là một tiêu chuẩn mã hóa
thực sự cho Audio, Video hay multimedia.MPEG-7 cũng là một dạng phát triển
lên từ phiên bản của MPEG-1 và nó đang được phát triển.
MPEG-7 cung cấp một tập hợp đầy đủ các cơng cụ chuẩn hóa để mơ tả nội
dung của đa phương tiện. Cả người dùng và hệ thống tự động xử lý hệ âm thanh
thực đều thuộc phạm vi của MPEG-7.
1.1.1.2.4.Chuẩn ITU-T
Ngoài ra, tổ chức chuẩn ITU-T cũng đưa ra một số chuẩn cho Video như sau:
a) Chuẩn H.120:
H.120 là chuẩn đầu tiên cho việc mã hóa video kĩ thuật số. được đưa ra vào
những năm 1984. H.120 chạy với tốc độ 1544kbit/s cho hệ NTSC và 2048 cho
hệ PAL.
b) Chuẩn Video H.261
H.261 được phát triển cho dịch vụ truyền hình hội nghị và Video phone qua
ISDN ở tốc độ px64kbps/s (p=1, 2, …,30), H.261 làm cơ sở cho các chuẩn nén
sau này như MPEG 1, 2. H.261 sử dụng dạng thức trung gian CIF (Common
Intermediate Format) với các tốc độ bit thấp hơn, nó sử dụng dạng có tốc độ nhỏ
hơn ¼ là QCIF (Quadrature). Với tốc độ 30 khung hình/s thì tốc độ dữ liệu của
CIF là 37.3 Mbps, QCIF là 9.35 Mbps. Tốc độ càng thấp thì càng giảm số
khung hình/s.
Tín hiệu video được phân thành các lớp, mỗi lớp đều có các header để định
nghĩa các tham số được sử dụng bởi bộ mã hóa khi tạo dịng bit. Lớp ảnh được
phân thành các nhóm khối GOB (Group of Block), các GOB bao gồm các MB
(MacroBlock). MB là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín hiệu Y và hai
khối 8x8 của tín hiệu sắc.

25



×