Tải bản đầy đủ (.doc) (100 trang)

Luận văn - Xử lí âm thanh và hình ảnh hoàn chỉnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.97 MB, 100 trang )

Luận văn
Xử lí âm thanh và hình
ảnh hoàn chỉnh
1
MỤC LỤC
DANH MỤC HÌNH VẼ, BẢNG BIỂU 6
CÁC THUẬT NGỮ VIẾT TẮT 11
CHƯƠNG I: GIỚI THIỆU 15
Hình 1.1: Hình ảnh và video nén để truyền hình ảnh và lưu trữ 16
1.1. Nhu cầu cần thiết của việc nén hình ảnh và video: 16
1.2. Tính khả thi của việc nén hình ảnh và video: 17
1.2.1. Dư thừa thống kê: 17
1.2.1.1. Không gian Redundancy 17
1.2.1.2 Thời gian dự phòng 19
Hình 1.4: Phổ công suất điển hình của một tín hiệu phát sóng truyền hình 22
Hình 1.5: (a) khung 21, và (b) khung hình 22 "Hoa hậu Mỹ" 23
1.2.1.3. Mã hóa Dự phòng 23
1.2.2. Dự phòng PSYCHOVISUAL 25
Hình 1.6 Mô hình hai đơn vị xếp tầng của hệ thống thị giác của con người
(HVS) 25
1.2.2.1. Mặt nạ chói 26
Hình 1.7: Một đối tượng thống nhất với màu xám mức I1 với nền tảng là màu
xám ở mức I2 27
Hình 1.8 Cầu Burrard ở Vancouver. (a) hình ảnh gốc (lịch
sự Shi của Minhuai). (b) Hình ảnh đồng nhất bị
hỏng bởi nhiễu phụ trắng Gaussian 29
1.2.2.2. Kết cấu mặt nạ 29
2
Hình 1.9 Giáng sinh tại Winorlia. (a) Bản gốc. (b)-bit lượng tử hóa. (c) Cải
thiện lượng IGS với bốn bit 30
1.2.2.3 Tần số mặt nạ 31


1.2.2.4 Mặt nạ thời gian 33
1.2.2.5 Mặt nạ màu 33
1.2.2.6. Chắn màu và ứng dụng của nó trong việc nén Video 36
1.2.2.7. Tóm tắt: Độ nhạy vi phân 37
Hình 1.10: Mức độ nhạy cảm so với tần số không gian. (Sửa đổi từ Van Ness và
Bouman[1967] và Mullen[1985].) 38
1.3. Đo lường chất lượng hình ảnh 38
1.3.1 Đo lường chất lượng chủ quan 39
Hình 1.11. Hệ thống xử lý âm thanh hình ảnh 41
1.3.2. Mục tiêu chất lượng đo lường: 41
1.3.2.2 Mục tiêu đo lường chất lượng: 43
1.4 Kết quả lý thuyết thông tin 46
1.4.1 Dữ liệu ngẫu nhiên (ENTROPY) 47
Entropy là một khái niệm rất quan trọng trong lý thuyết thông tin và truyền
thông. Vì vậy trong hình ảnh và video nén. Đầu tiên chúng ta xác định nội
dung thông tin của một nguồn biểu tượng. Sau đó chúng ta định nghĩa
Entropy là nội dung thông tin trung bình chỗ mỗi một biểu tượng, cho mỗi
nguồn rời rạc 47
1.4.1.1 Biện pháp thông tin 47
1.4.1.1. Đơn vị đo lường thông tin 47
1.4.1.2 Thông tin trung bình trong mỗi kí hiệu 48
1.4.2 Thuyết mã hóa nguồn Shannon 48
3
1.4.3 Mã hóa định kênh nhiễu của shannon 49
1.4.4. Định lý mã hóa nguồn của shannon 50
1.4.5 Định lý truyền tải thông tin 51
1.5 TÓM TẮT 51
1.6. Các bài tập 52
CHƯƠNG 11: KHỐI KẾT HỢP 53
11.1. Không chồng chéo, cách đều nhau, kích thước cố định, khối kết hợp nhỏ

hình chữ nhật 54
Hình 11.1. Khối kết hợp 55
11.2. Tiêu chí kết hợp 56
Hình 11.2. Cửa sổ tìm kiếm và cửa sổ tương quan 57
11.3. Thủ tục tìm kiếm 58
11.3.1. Tìm kiếm đầy đủ 58
11.3.2. Tìm kiếm Logarít 58
Hình 11.3: (a) 2-D lôgarít tìm kiếm thủ tục. tại điểm (j, k+2), (j+2, k+2), (j+2,
k+4), và (j+1, k+4). Được tìm thấy để cung cấp cho sự khác nhau tối thiểu trong
các bước 1, 2, 3, và 4, tương ứng lôgarít tìm kiếm thủ tục. (b) A 2-D lôgarít tìm
kiếm thủ tục tại điểm (j, k-2), (j +2, k-2), và (j +2, k-1) được tìm thấy để cung
cấp cho sự khác nhau tối thiểu trong các bước 1, 2, 3, và 4, tương ứng 60
Hình 11.4 thủ tục tìm kiếm ba bước. Điểm (j +4, k-4), (j +4, k-6), và (j +5,k-7)
cung cấp cho tối thiểu sự khác nhau trong các bước 1, 2 và 3, tương ứng 61
11.3.3. Ba bước tìm kiếm đơn giản 61
11.3.4. Hướng tìm kiếm liên hợp 61
Hình 11.5: Hướng tìm kiếm liên hợp 62
11.3.5. Lấy mẫu con trong cửa sổ tương quan 62
4
11.3.6. Đa phân giải khối kết hợp 63
Hình 11.6: một ví dụ về lấy mẫu con 2 x 2 trong khối ban đầu và cửa sổ tương
quan cho tìm kiếm một cách nhanh chóng 64
Hình 11.7 Gaussian cấu trúc kim tự tháp 65
11.3.7. Ngưỡng phù hợp với nhiều độ phân giải 65
Hình 11.8: Sơ đồ chặn cho phù hợp với ngưỡng ba cấp độ phân giải 67
Bảng 11.1: Các tham số được sử dụng trong những thí nghiệm này 67
Hình 11.10: Khung thứ 20 của chuỗi “Tàu hỏa” 71
Hình 11.11: Khung thứ 20 của chuỗi “Bóng đá” 72
Bảng 11.2: Kết quả thí nghiệm 72
11.4. Kết hợp chính xác 73

11.5 Giới hạn với kỹ thuật kết hợp khối 74
Hình 11.12. Khung 21 tái tạo của "Hoa hậu Mỹ" trình tự bằng cách sử dụngmột
cách giải mã H.263 75
11.6. Những cải tiến mới 76
11.6.1. Cấu trúc khối kết hợp 76
Hình 11.13: Kết hợp khối phân cấp 77
Bảng 11.3: Các Kết quả thí nghiệm (II) 77
Bảng 11.4: Các tham số được sử dụng trong khớp khối theo thứ tự 3 mức 78
Hình 11.14: Một phần của bức ảnh với các điểm ảnh được xử lý trong cả 3 mức
80
11.6.2. Khớp khối đa lưới 80
Hình 11.15: Cấu trúc phân cấp 3 mức khác nhau 81
Hinh 11.16 : Sơ đồ của nhiều khối kết hợp 83
5
Hình 11.18 : Khung hình thứ 20 của chuỗi “ vườn hoa” 87
11.6.3 Đoán trước sự thay đổi lĩnh vực chia nhỏ gói dữ liệu 87
Hình 11.20: Khung hình thứ 20 của sự phối hợp chuỗi “bàn đánh bóng bàn” 90
11.6.4. Sự thích ứng vùng phủ các khối 91
Hình 11.21: Sự chổng chéo của các khối thích ứng 92
11.7 Tổng kết 93
11.8 - Bài tập 96
DANH MỤC HÌNH VẼ, BẢNG BIỂU
DANH MỤC HÌNH VẼ, BẢNG BIỂU 6
6
CÁC THUẬT NGỮ VIẾT TẮT 11
CHƯƠNG I: GIỚI THIỆU 15
Hình 1.1: Hình ảnh và video nén để truyền hình ảnh và lưu trữ 16
1.1. Nhu cầu cần thiết của việc nén hình ảnh và video: 16
1.2. Tính khả thi của việc nén hình ảnh và video: 17
1.2.1. Dư thừa thống kê: 17

1.2.1.1. Không gian Redundancy 17
1.2.1.2 Thời gian dự phòng 19
Hình 1.4: Phổ công suất điển hình của một tín hiệu phát sóng truyền hình 22
Hình 1.5: (a) khung 21, và (b) khung hình 22 "Hoa hậu Mỹ" 23
1.2.1.3. Mã hóa Dự phòng 23
1.2.2. Dự phòng PSYCHOVISUAL 25
Hình 1.6 Mô hình hai đơn vị xếp tầng của hệ thống thị giác của con người
(HVS) 25
1.2.2.1. Mặt nạ chói 26
Hình 1.7: Một đối tượng thống nhất với màu xám mức I1 với nền tảng là màu
xám ở mức I2 27
Hình 1.8 Cầu Burrard ở Vancouver. (a) hình ảnh gốc (lịch
sự Shi của Minhuai). (b) Hình ảnh đồng nhất bị
hỏng bởi nhiễu phụ trắng Gaussian 29
1.2.2.2. Kết cấu mặt nạ 29
Hình 1.9 Giáng sinh tại Winorlia. (a) Bản gốc. (b)-bit lượng tử hóa. (c) Cải
thiện lượng IGS với bốn bit 30
1.2.2.3 Tần số mặt nạ 31
7
1.2.2.4 Mặt nạ thời gian 33
1.2.2.5 Mặt nạ màu 33
1.2.2.6. Chắn màu và ứng dụng của nó trong việc nén Video 36
1.2.2.7. Tóm tắt: Độ nhạy vi phân 37
Hình 1.10: Mức độ nhạy cảm so với tần số không gian. (Sửa đổi từ Van Ness và
Bouman[1967] và Mullen[1985].) 38
1.3. Đo lường chất lượng hình ảnh 38
1.3.1 Đo lường chất lượng chủ quan 39
Hình 1.11. Hệ thống xử lý âm thanh hình ảnh 41
1.3.2. Mục tiêu chất lượng đo lường: 41
1.3.2.2 Mục tiêu đo lường chất lượng: 43

1.4 Kết quả lý thuyết thông tin 46
1.4.1 Dữ liệu ngẫu nhiên (ENTROPY) 47
Entropy là một khái niệm rất quan trọng trong lý thuyết thông tin và truyền
thông. Vì vậy trong hình ảnh và video nén. Đầu tiên chúng ta xác định nội
dung thông tin của một nguồn biểu tượng. Sau đó chúng ta định nghĩa
Entropy là nội dung thông tin trung bình chỗ mỗi một biểu tượng, cho mỗi
nguồn rời rạc 47
1.4.1.1 Biện pháp thông tin 47
1.4.1.1. Đơn vị đo lường thông tin 47
1.4.1.2 Thông tin trung bình trong mỗi kí hiệu 48
1.4.2 Thuyết mã hóa nguồn Shannon 48
1.4.3 Mã hóa định kênh nhiễu của shannon 49
1.4.4. Định lý mã hóa nguồn của shannon 50
8
1.4.5 Định lý truyền tải thông tin 51
1.5 TÓM TẮT 51
1.6. Các bài tập 52
CHƯƠNG 11: KHỐI KẾT HỢP 53
11.1. Không chồng chéo, cách đều nhau, kích thước cố định, khối kết hợp nhỏ
hình chữ nhật 54
Hình 11.1. Khối kết hợp 55
11.2. Tiêu chí kết hợp 56
Hình 11.2. Cửa sổ tìm kiếm và cửa sổ tương quan 57
11.3. Thủ tục tìm kiếm 58
11.3.1. Tìm kiếm đầy đủ 58
11.3.2. Tìm kiếm Logarít 58
Hình 11.3: (a) 2-D lôgarít tìm kiếm thủ tục. tại điểm (j, k+2), (j+2, k+2), (j+2,
k+4), và (j+1, k+4). Được tìm thấy để cung cấp cho sự khác nhau tối thiểu trong
các bước 1, 2, 3, và 4, tương ứng lôgarít tìm kiếm thủ tục. (b) A 2-D lôgarít tìm
kiếm thủ tục tại điểm (j, k-2), (j +2, k-2), và (j +2, k-1) được tìm thấy để cung

cấp cho sự khác nhau tối thiểu trong các bước 1, 2, 3, và 4, tương ứng 60
Hình 11.4 thủ tục tìm kiếm ba bước. Điểm (j +4, k-4), (j +4, k-6), và (j +5,k-7)
cung cấp cho tối thiểu sự khác nhau trong các bước 1, 2 và 3, tương ứng 61
11.3.3. Ba bước tìm kiếm đơn giản 61
11.3.4. Hướng tìm kiếm liên hợp 61
Hình 11.5: Hướng tìm kiếm liên hợp 62
11.3.5. Lấy mẫu con trong cửa sổ tương quan 62
11.3.6. Đa phân giải khối kết hợp 63
9
Hình 11.6: một ví dụ về lấy mẫu con 2 x 2 trong khối ban đầu và cửa sổ tương
quan cho tìm kiếm một cách nhanh chóng 64
Hình 11.7 Gaussian cấu trúc kim tự tháp 65
11.3.7. Ngưỡng phù hợp với nhiều độ phân giải 65
Hình 11.8: Sơ đồ chặn cho phù hợp với ngưỡng ba cấp độ phân giải 67
Bảng 11.1: Các tham số được sử dụng trong những thí nghiệm này 67
Hình 11.10: Khung thứ 20 của chuỗi “Tàu hỏa” 71
Hình 11.11: Khung thứ 20 của chuỗi “Bóng đá” 72
Bảng 11.2: Kết quả thí nghiệm 72
11.4. Kết hợp chính xác 73
11.5 Giới hạn với kỹ thuật kết hợp khối 74
Hình 11.12. Khung 21 tái tạo của "Hoa hậu Mỹ" trình tự bằng cách sử dụngmột
cách giải mã H.263 75
11.6. Những cải tiến mới 76
11.6.1. Cấu trúc khối kết hợp 76
Hình 11.13: Kết hợp khối phân cấp 77
Bảng 11.3: Các Kết quả thí nghiệm (II) 77
Bảng 11.4: Các tham số được sử dụng trong khớp khối theo thứ tự 3 mức 78
Hình 11.14: Một phần của bức ảnh với các điểm ảnh được xử lý trong cả 3 mức
80
11.6.2. Khớp khối đa lưới 80

Hình 11.15: Cấu trúc phân cấp 3 mức khác nhau 81
Hinh 11.16 : Sơ đồ của nhiều khối kết hợp 83
Hình 11.18 : Khung hình thứ 20 của chuỗi “ vườn hoa” 87
10
11.6.3 Đoán trước sự thay đổi lĩnh vực chia nhỏ gói dữ liệu 87
Hình 11.20: Khung hình thứ 20 của sự phối hợp chuỗi “bàn đánh bóng bàn” 90
11.6.4. Sự thích ứng vùng phủ các khối 91
Hình 11.21: Sự chổng chéo của các khối thích ứng 92
11.7 Tổng kết 93
11.8 - Bài tập 96
CÁC THUẬT NGỮ VIẾT TẮT
Từ viết tắt Nghĩa Tiếng Anh Nghĩa Tiếng Việt
MAD Mean Administrative Delay (Series E) Thời gian trễ quản
MSE Maintenance Sub-Entities (Series M) Các thực thể bảo
PSNR Peak Signal to Noise Ratio Tỉ số tín hiệu đỉnh trên
nhiễu
ITU-T International Telecommunication
Union Telecommunication
Standardization Bureau
Ban tiêu chuẩn hóa viễn
thông trong Liên minh viễn
thông quốc tế
SNR signal-to-noise ratio
Nhiễu tạp âm
HDTV High-definition television Truyền hình độ nét cao
11
VLSI Very Large Scale Integration Tích hợp quy mô rất lớn
ATSC Australian Telecommunications
Standardisation Committee
Ủy ban tiêu chuẩn hóa Úc

FCC Federal Communications Commission Hội Đồng Truyền Thông
Liên Bang
DTV Digital Television Truyền hình số
DBS Direct Broadcast Satellite Vệ tinh quảng bá trực tiếp
VOD Video on Demand Video theo yêu cầu
CD Call Deflection Đổi hướng cuộc gọi
TV Television Truyền hình
WWW World Wide Web Internet
IEEE Institute of Electrical and Electronic
Engineers
Viện kỹ thuật điện và điện
tử
CRC Cyclic redundancy check Mã phát hiện lỗi
LLC logical link control Điều khiển liên kết logic
MPEG Motion Picture Experts
Group(ISO/IEC)
Nhóm các chuyên gia về
hình ảnh động
PCM Pulse-code modulation Điều xung mã
DPCM Differential pulse-code modulation Điều chế xung mã vi phân
DM Delta modulation Điều chế delta
DCT Data Calling Tone Âm báo cuộc gọi dữ liệu
JPEG Joint Photographic Experts Group Nhóm liên hợp các chuyên
12
(ISO) gia đồ họa
RL Return Loss Suy hao quay trở về
WT Working Text (DSL Forum) Đề mục làm việc (diễn đàn
DSL
DFD Displaced Frame Difference Sự khác nhau về khung
thay thế

SNHC Synthetic-Natural Hybrid Coding Mã hoá lai nhân tạo - tự
nhiên
CIF Common Intermediate Format Dạng trung gian chung
HVS Human visual system Hệ Thống Hình Ảnh Của
Con Người
AWGN Additive white gaussian noise Nhiễu trắng Gauss bổ sung
IGS Identify Graphic Subrepertoire (Series
T, X)
Nhận dạng siêu danh mục
đồ họa
RGB Red-green-blue Mô Hình Màu
CRT Cathode Ray Tube Ống tia cathode
NTSC National Television System
Committee
Uỷ ban hệ thống truyền
hình quốc gia
SECAM système electronique couleur avec
memoire
Tiêu chuẩn tín hiệu truyền
hình (625 dòng, 50 Hz,
13
220 V) dùng ở Pháp, các
nước đông Âu, Liên xô cũ
và một số nước Châu Phi.
CCIR International Radio Consultative
Committee
Tiền thân của tổ chức ITU-
T
RMSE Root mean square Error (Series E) Lỗi trung bình toàn
phương

14
CHƯƠNG I: GIỚI THIỆU
Nén dữ liệu hình ảnh và video đề cập đến một quá trình mà trong đó lượng dữ
liệu sử dụng mà tiêu biểu là hình ảnh và video được nén xuống để đáp ứng yêu cầu về
tốc độ bít (thấp hơn hoặc bằng giá trị tốc độ bít tối đa), trong khi chất lượng của tái tạo
hình ảnh và video đáp ứng 1 yêu cầu dành cho 1 ứng dụng nào đó và độ phức tạp tính
toán ở mức phải chăng dành cho 1 ứng dụng. Các sơ đồ khối trong hình 1.1 mô tả các
chức năng của nén dữ liệu hình ảnh và video trong truyền dẫn hình ảnh và lưu trữ.
Việc nén dữ liệu ảnh và video được tìm thấy được cho là cần thiết dành cho các ứng
dụng quan trọng bởi vì 1 lượng lớn dữ liệu sẽ làm phức tạp hóa cho các ứng dụng này
và các ứng dụng khác mà nó rất thường xuyên rất lớn và vượt quá khả năng của phần
cứng ngày nay bất chấp những tiến bộ nhanh chóng trong lĩnh vực chất bán dẫn, máy
tính và các ngành công nghiệp liên quan khác. Cần phải chú ý là thông tin và dữ liệu là
2 khái niệm rất gần nhau nhưng lại khác nhau. Mô tả dữ liệu thông tin và có thể đo
được số lượng. Trong bối cảnh của hình ảnh số và video, dữ liệu thường được đo bằng
số lượng các đơn vị nhị phân (bits). Trông tin được định nghĩa như là kiến thức (sự
hiểu biết), các sự kiện và các tin tức theo từ điển tiếng Anh quốc tế Cambridge. Trong
khi dữ liệu là sự biểu thị của kiến thức, các sự kiện và các tin tức thì thông tin là kiến
thức, sự kiện và tin tức. Tuy nhiên, thông tin cũng có thể đo lường, định lượng.
Tỷ lệ bít (tốc độ mã hóa), là 1 tham số quan trọng trong nén hình ảnh và video và
thường được thể hiện theo 1 đơn vị là bits/sec, điều này rất tiện dụng trong truyền
thông hình ảnh. Trong thực tế, ví dụ như trong mục 1.1 về việc giả video (1 trường
hợp của truyền hình ảnh) sử dụng tốc độ bít trong thuật ngữ bits/sec hoặc bps. Trong
ứng dụng lưu trữ hình ảnh, tốc độ bít thường được biểu diễn bằng 1 đơn vị là bits/pixel
(bpp). Thuật ngữ pixel là 1 từ viết tắt của các phần tử ảnh và đôi khi được gọi là PEL.
Trong mã hóa nguồn thông tin, tốc độ bít đôi khi được thể hiện bằng 1 đơn vị là
bit/symbol (bit/ký tự). Trong mục 1.4.2, khi thảo luận về định lý mã hóa nguồn không
nhiễu, chúng ta xem xét tốc độ bít trên phương diện độ dài trung bình của các từ mã
theo đơn vị bit/symbol. Yêu cầu về chất lượng của việc tái tạo hình ảnh và video phụ
15

thuộc vào từng ứng dụng. Trong chẩn đoán y học và 1 số đo lường khoa học, chúng ta
có thể cần việc tái tạo hình ảnh và video để nhân bản hình ảnh và video gốc. Nói theo
cách khác, cơ chế bảo quản thông tin được cho phép. Đây là kỹ thuật nén không tổn
thất. Trong các ứng dụng như ảnh động và ti vi, cho phép có 1 lượng thông tin nhât
định bị mất mát . Đây là kỹ thuật nén có tổn thất. Từ định nghĩa, người ta có thể thấy
nén dữ liệu hình ảnh và âm thanh bao gồm 1 số khái niệm cơ bản như thông tin, dữ
liệu, chất lượng hình ảnh của hình ảnh và video và độ phức tạp tính toán. Chương này
đề cập đến 1 số khái niệm cơ bản trong nén hình ảnh và video. Đầu tiên, thảo luận về
sự cần thiết cũng như tính khả thi của nén dữ liệu hình ảnh và video. Việc thảo luận
xung quanh việc sử dụng 1 số dư thừa tồn tại trong dữ liệu hình ảnh và video, và nhận
thức trực quan về cơ quan thị giác của con người. Từ đó chất lượng của việc tái tạo
hình ảnh và video là 1 trong những mối quan tâm chính, để các biện pháp chủ quan
cũng như khách quan về chất lượng hình ảnh được giải quyết. Từ đó, chúng ta trình
bày 1 số kết quả lý thuyết thông tin cơ bản để thấy rằng nó đóng vai trò chủ chốt trong
nén hình ảnh và video.
Hình 1.1: Hình ảnh và video nén để truyền hình ảnh và lưu trữ.
1.1. Nhu cầu cần thiết của việc nén hình ảnh và video:
Không cần phải nói, thị giác đóng tầm quan trọng sống còn giúp con người
nhận thức, nhận biết, và hiểu thế giới xung quanh. Với sự tiến bộ to lớn của công nghệ
tiên tiến, đặc biệt là ở quy mô sự tích hợp mạch cỡ lớn (VLSI), và hơn bao giờ hết
video được sử dụng rộng rãi trong cuộc sống hàng ngày. Ví dụ như videophony, hội
nghị truyền hình, truyền hình độ nét cao (HDTV), và đĩa video kỹ thuật số (DVD)…
Video như là một chuỗi các khung hình video, tuy nhiên, liên quan đến một số
lượng lớn dữ liệu. Chúng ta hãy xem xét một ví dụ minh họa. Giả sử hiện nay việc
chuyển đổi modem mạng điện thoại (PSTN) có thể hoạt động với tốc độ bit tối đa là
56.600 bit mỗi giây. Giả sử mỗi khung hình video có độ phân giải là 288 và 352 (288
dòng và 352 điểm ảnh trên mỗi dòng), đó là so sánh với một hình ảnh truyền hình bình
thường và được gọi là định dạng trung gian phổ biến (CIF). Ba màu cơ bản RGB (đỏ,
16
xanh lá cây, xanh dương) được đại diện cho 1 pixel với 8 bit, và tỷ số khung hình

trong truyền tải là 30 khung hình mỗi giây để cung cấp một đoạn video chuyển động
liên tục. Sau đó tỷ số bit yêu cầu là 288 x 352 x 8 x 3 x 30 = 72.990.720 bps. Do đó, tỷ
số giữa tỷ số bit yêu cầu và tốc độ bit lớn nhất có thể là khoảng 1289. Nghĩa là chúng
ta phải nén dữ liệu video ít nhất 1289 lần để thực hiện việc truyền tải được mô tả trong
ví dụ này.
Với các dịch vụ video ngày càng phức tạp như phim 3D, trò chơi 3D và video
chất lượng cao như HDTV, việc nén dữ liệu video là cần thiết. Nó trở thành một công
nghệ cho phép thu hẹp khoảng cách giữa số lượng lớn yêu cầu của dữ liệu video và
khả năng hạn chế của phần cứng.
1.2. Tính khả thi của việc nén hình ảnh và video:
Trong phần này chúng ta sẽ thấy rằng việc nén hình ảnh và video không chỉ là
một điều cần thiết cho sự phát triển nhanh chóng của truyền thông hình ảnh kỹ thuật
số, mà nó cũng khả thi. Tính khả thi của nó thuộc về hai kiểu dư thừa, ví dụ, dư thừa
thống kê và dư thừa tâm lí thị giác. Bằng cách loại bỏ các dư thừa, chúng ta có thể nén
hình ảnh và video.
1.2.1. Dư thừa thống kê:
Dư thừa thống kê có thể được phân loại thành hai loại: dư thừa interpixel và dư
thừa mã hóa. Dư thừa interpixel nghĩa là điểm ảnh của một khung hình ảnh và các
điểm ảnh của một nhóm các hình ảnh kế tiếp hoặc khung video không phải là thống kê
độc lập. Ngược lại, chúng là tương quan với mức độ khác nhau.(Lưu ý rằng sự khác
biệt và mối quan hệ giữa hình ảnh và chuỗi video được thảo luận trong Chương 10, khi
chúng ta bắt đầu thảo luận về nén video). Mối tương quan interpixel được gọi là dư
thừa interpixel( trong điểm ảnh ). Dư thừa Interpixel có thể được chia thành hai loại,
dư thừa không gian và dư thừa thời gian. Bằng cách mã hóa dư thừa, dư thừa thống kê
liên quan đến kỹ thuật mã hóa.
1.2.1.1. Không gian Redundancy
Không gian dự phòng đại diện cho mối tương quan thống kê giữa các điểm ảnh
trong một khung hình ảnh. Do đó nó còn được gọi là intraframe dự phòng. Nó cũng
được biết rằng đối với hầu hết đúng mẫu TV tín hiệu tự tương quan bình thường hệ số
cùng một hàng (hoặc một cột) với một sự thay đổi một điểm ảnh là rất gần với giá trị

tối đa là 1. Đó là, các giá trị cường độ của các điểm ảnh cùng một hàng (hoặc một cột)
có tự tương quan rất cao (Gần với tự tương tối đa) với những điểm ảnh dọc theo cùng
17
một hàng (hoặc tương tự cột), nhưng thay đổi bởi một điểm ảnh. Điều này không có gì
đáng ngạc nhiên bởi vì cường độ giá trị thay đổi liên tục từ điểm ảnh cho điểm ảnh
trong một khung hình ảnh ngoại trừ các khu vực cạnh. Điều này được thể hiện trong
hình 1.2. Hình 1.2 (a) là một hình ảnh bình thường - một cậu bé và một cô gái trong
công viên, và có độ phân giải 883 x 710. Cường độ hồ sơ dọc theo dòng 318 và 262
cột được mô tả trong hình 1.2 (b) và (c), tương ứng. Để tham khảo dễ dàng, vị trí của
các 318 dòng và 262 cột hình ảnh được hiển thị trong hình 1.2 (d). Đó là, trục thẳng
đứng đại diện cho giá trị cường độ, trong khi trục ngang cho biết vị trí pixel trong hàng
hoặc cột. Hai lô (thể hiện trong hình 1.2 (b) và 1.2 (c)) chỉ ra các giá trị cường độ
thường xuyên thay đổi dần dần từ một trong những điểm ảnh khác dọc theo hàng một
và cùng một cột. Nghiên cứu về các tính chất thống kê của tín hiệu video có thể được
truy trở lại những năm 1950. Biết Kretzmer thiết kế mà chúng ta phải nghiên cứu và
hiểu dự phòng để loại bỏ sự dư thừa, một số thiết bị thử nghiệm như một
autocorrelator hình ảnh và một probabiloscope để đo lường một số thống kê số lượng
tín hiệu truyền hình và xuất bản tác phẩm xuất sắc của mình (Kretzmer, 1952). Ông
thấy rằng tự tương trong cả hai hướng ngang và thẳng đứng trưng bày các hành vi
tương tự, như thể hiện trong hình 1.3. Tự tương quan chức năng của một số hình ảnh
phức tạp khác nhau được đo. Nó được tìm thấy rằng các hình ảnh, hình dạng của tự
tương quan đường cong dao động từ nhiều tuyến tính để phần nào theo cấp số
nhân.Đối xứng trung tâm đối với các trục thẳng đứng và phân phối hình chuông, tuy
nhiên, vẫn giống nhau. Khi các điểm ảnh thay đổi trở nên nhỏ, nó đã được tìm thấy
rằng tự tương quan cao. Tự tương quan này "địa phương" có thể cao 0,97-0,99 cho
một hoặc hai điểm ảnh thay đổi.Đối với hình ảnh rất chi tiết, nó có thể được từ 0,43
đến 0,75. Nó cũng được tìm thấy rằng tự tương quan không có hướng ưa thích. Biến
đổi Fourier của tự tương quan, quang phổ điện, được biết đến như một quan trọng
chức năng trong nghiên cứu hành vi thống kê. Hình 1.4 cho thấy một quang phổ năng
lượng điển hình của truyền hình tín hiệu (Fink, 1957; Connor và cộng sự, 1972). Đó là

thông báo rằng quang phổ khá bằng phẳng cho đến khi 30 kHz cho một tín hiệu truyền
hình phát sóng. Ngoài phổ tần số dòng này bắt đầu giảm với tốc độ khoảng 6 dB cho
mỗi quãng tám. Điều này cho thấy nồng độ nặng của các tín hiệu video tần số thấp,
xem xét danh nghĩa của một băng thông 5 MHz. Không gian dư thừa hàm ý rằng giá
trị cường độ của một điểm ảnh có thể được đoán tối đa láng giềng pixels. Nói cách
khác, nó không phải là cần thiết để đại diện cho mỗi điểm ảnh trong một khung hình
ảnh độc lập. Thay vào đó, người ta có thể dự đoán một điểm ảnh từ các nước láng
giềng. Đoán trước mã hóa, cũng được biết đến như mã hóa khác biệt, dựa trên quan sát
này và được thảo luận trong Chương 3. Trực tiếp hậu quả của sự công nhận của sự dư
18
thừa không gian là bằng cách loại bỏ một số lượng lớn dự phòng (hoặc sử dụng các
mối tương quan cao) trong một khung hình ảnh, chúng tôi có thể tiết kiệm rất nhiều dữ
liệu đại diện cho khung, do đó đạt được nén dữ liệu.
1.2.1.2 Thời gian dự phòng
Thời gian dự phòng là có liên quan với mối tương quan thống kê giữa các điểm
ảnh từ tiếp khung hình trong một hình ảnh thời gian hoặc chuỗi video. Vì vậy, nó cũng
được gọi là interframe dự phòng.
Hãy xem xét một chuỗi hình ảnh thời gian. Đó là, một máy ảnh là cố định trong
thế giới 3-D và phải mất hình ảnh của một cảnh như thời gian trôi qua. Miễn là khoảng
thời gian giữa hai hình ảnh liên tiếp là đủ ngắn, tức là, những hình ảnh được đông đủ,
chúng ta có thể tưởng tượng rằng sự giống nhau giữa hai khung hình láng giềng mạnh
mẽ. Hình 1.5 (a) và (b) chương trình, tương ứng, 21 và 22 khung hình của "Hoa hậu
Mỹ" trình tự.
19
Hình 1.2 : (a) Một bức ảnh của "Boy và Girl," hồ sơ cá nhân Cường độ (b) cùng hàng
318, (c) Cường độ hồ sơ dọc theo cột 262, (d) Vị trí của dòng 318 và 262 cột.
20
Hình 1.2: (tiếp theo)
Hình 1.3: Tự tương quan theo chiều ngang đối với một số hình ảnh.(Sau khi Kretzmer,
1952.)

21
Trình tự 21 và 22 khung hình của "Hoa hậu Mỹ". Các khung hình có độ phân giải
176x 144. Trong số tổng cộng 25.344 điểm ảnh, chỉ có 3,4% thay đổi giá trị màu
xám của nó hơn 1% giá trị màu xám tối đa (255trong trường hợp này) từ khung 21 đến
khung 22. Điều này khẳng định một sự quan sát được thực hiện trong (Mounts, 1969).
Cho một tín hiệu điện thoại truyền hình giống như với chuyển động trung
bình trong cảnh, trung bình, ít hơn 10% các điểm ảnh thay đổi giá trịmàu xám của
nó giữa hai khung hình liên tiếp bởi một số lượng 1% tín hiệu cao điểm. Tương
quan interframe cao đã được báo cáo (Kretzmer, năm 1952). Có, tự tương
quan giữa hai khung liền kề được đo trong hai bộ phim hình ảnh chuyển động điển
hình. Các mối tương quan tự động đo là 0,80 và 0,86.
Tóm lại, điểm ảnh trong khung hình kế tiếp thường phải chịu một sự tương
đồng hoặc tương quan mạnh mẽ. Kết quả là, chúng ta có thể dự đoán một
khung từ khung lân cận dọc theo chiều thời gian. Điều này được gọi là interframe mã
hóa dự đoán và được thảo luận trong Chương 3. Do đó, chính xác hơn hiệu quả
hơn interframe dự đoán mã hóa đề án, đã được phát triển từ
Hình 1.4: Phổ công suất điển hình của một tín hiệu phát sóng truyền hình.
(Phỏng Fink, D.G., Cẩm nang kỹ thuật tivi, McGraw-Hill, New York, 1957.)
22
Hình 1.5: (a) khung 21, và (b) khung hình 22 "Hoa hậu Mỹ"
năm 1980, sử dụng phân tích chuyển động.Nghĩa là, nó cho rằng những thay đổi từmột
khung hình tiếp theo chủ yếu là do chuyển động của một số đối tượng trong khung
hình. Lấy thông tin chuyển động này,vào xem xét, chúng tôi đề cập đến phương
pháp như chuyển động bồi thường mã hóa tiên đoán. Chèn cả tương quan và chuyển
động bù vào mã hóa tiên đoán được đề cập chi tiết trong Chương 10.
Loại bỏ một số lượng lớn của sự dư thừa theo thời gian dẫn đến một lượng lớn
dữ liệu được nén. Hiện nay tất cả các tiêu chuẩn video quốc tế mã
hóa đã thông qua chuyển bù dự báo mã hóa, mà đã là một yếu tố quan trọng để tăng
cường sử dụng video số trong các phương tiện truyền thông kỹ thuật số.
1.2.1.3. Mã hóa Dự phòng.

Như chúng ta đã thảo luận, dự phòng interpixel là có liên
quan với mối tương quan giữa các điểm ảnh. Đó là, một số thông tin liên kết với các
điểm ảnh là không cần thiết. Psychovisual dự phòng , được thảo
luận trong phần tiếp theo, liên quan đến các thông tin đó là psychovisually dự
phòng, nghĩa là, mà HVS không phải là độ nhạy. Do đó, nó cho thấy rằng cả hai dư
thừa interpixel và psychovisual bằng cách nào đó liên kết với một số thông tin chứa
trong hình ảnh và video. Loại bỏ những dư thừa, hoặc sử dụng những mối tương
quan này bằng cách sử dụng các bit ít hơn để miêu tả cho thông tin kết quả trong hình
ảnh và video nén dữ liệu. Nó có nghĩa là, sự thừa mã hóa là khác nhau. Nó không có
gì để làm với khả năng dự phòng thông tin, nhưng với các đại diện tức là, thông
tin, mã hóa riêng của mình. Để xem điều này, chúng ta hãy xem ví dụ sau đây.
23
Một ví dụ minh họa được cho bởi trong Bảng 1.1.Cột đầu tiên liệt kê các biểu
tượng riêng biệt mà cần phải được mã hóa. Cột thứ hai có xác suất xuất hiện của 5 ký
hiệu.Cột thứ ba danh sách mã số 1, một bộ các Từ mã thu được bằng cách sử
dụng đồng hình có độ dài từ mã dài. (Mã này được gọi là các mã nhị phân ngẫu nhiên.)
Cột thứ 4 cho thấy 2 mã, trong đó mỗi từ mã có chiều dài thay đổi.Vì vậy,mã 2 được
gọi là mã có độ dài thay đổi. Lưu ý rằng các ký hiệu với một xác suất xảy ra
cao hơn được mã hóa với chiều dài ngắn hơn. Đó là, chúng tôi sẽ khảo sát mà một
trong những cung cấp một chiều dài trung bình ngắn hơn từ mã.Rõ ràng là chiều
dài trung bình của từ mã trong mã 1 L
avg,1
, Ba bit. Chiều dài trung bình của Từ
mã trong mã 2, L
avg, 2
, Có thể được tính toán như sau.
Vì vậy, kết quả là mã 2 với mã hóa biến chiều dài là hữu hiệu hơn mã số
1 với mã hóa nhị phân tự nhiên.
Từ ví dụ này, chúng ta có thể thấy rằng đối với cùng một bộ các ký hiệu mã
số khác nhau có thể thực hiện khác nhau. Một số có thể có hiệu quả hơn hơn những

người khác. Đối với cùng một lượng thông tin, mã 1 có chứa số dự phòng. Đó là, một
số thông tin trong mã 1 là không cần thiết và có thể được loại bỏ mà không có bất kỳ
ảnh hưởng nào. Mã hóa Huffman và mã hóa số học, kỹ thuật mã hóa độ dài thay đổi sẽ
được thảo luận trong chương 5
Từ việc nghiên cứu mã hóa dự phòng, nó là rõ ràng rằng chúng ta nên tìm cách
để hiệu quả hơn kỹ thuật mã hóa để nén các dữ liệu hình ảnh và video.
24
1.2.2. Dự phòng PSYCHOVISUAL
Trong khi dự phòng interpixel vốn đã nằm trong dữ liệu ảnh và video, dự phòng
psychovisual xuất phát từ các đặc tính của hệ thống thị giác của con người (HVS).
Được biết, HVS cảm nhận thế giới bên ngoài một cách khá phức tạp.Phản
ứng của nó để kích thích thị giác không phải là một hàm tuyến tính về cường độ
của một số thuộc tính kích thích của các yếu tố vật lý, chẳng hạn như cường độ và màu
sắc. HVS cảm nhận được sự khác nhau từ các cảm biến máy ảnh. Trong HVS, thông
tin thị giác không được biết giống nhau, một số thông tin có thể quan
trọng hơn so với các thông tin khác. Điều này chỉ ra rằng nếu chúng ta áp dụng dữ
liệu ít hơn để đại diện cho sự cảm nhận kém quan trọng hơn sẽ không bị ảnh hưởng
tới thông tin thị giác. Trong ý nghĩa này, chúng ta thấy rằng một số thông tin hình
ảnh là dư thừa psychovisually. Việc loại bỏ các loại dự phòng psychovisual là để nén
dữ liệu
Để hiểu kiểu loại dự phòng này, chúng ta hãy nghiên cứu một số đặc tính của
HVS. Chúng tôi có thể mô hình hóa hệ thống thị giác của con người như một dòng
thác của hai đơn vị (Lim, 1990), như mô tả trong hình 1.6
Hình 1.6 Mô hình hai đơn vị xếp tầng của hệ thống thị giác của con người (HVS).
Đầu tiên là đơn vị xử lý mức thấp chuyển đổi ánh sáng tới thành tín hiệu trung
tính. Thứ hai là một đơn vị xử lý mức cao, mở rộng thông tin từ tín hiệu trung tính.
Trong khi nhiều nghiên cứu đã được khám phá ở mức xử lý thấp và mức xử lý cao vẫn
còn đang được mở rộng. Đơn vị xử lý mức thấp được biết là một hệ thống phi tuyến
(khoảng chừng logarit như hình dưới đây). Trong một phần chính của một vấn để tồn
tại, chúng tôi sẽ hạn chế thảo luận, chủ yếu liên quan đến kết quả nén video. Đó là,

một khía cạnh của HVS liên quan chặt chẽ đến nén ảnh và video được thảo luận trong
mục này. Đó là mặt nạ chói, mặt nạ kết cấu, mặt nạ tần số, mặt nạ thời gian và mặt nạ
25

×