Tải bản đầy đủ (.doc) (61 trang)

phân tích phương pháp biến đổi cosin rời rạc để nén ảnh trong truyền hình kỹ thuật số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.35 MB, 61 trang )

LỜI MỞ ĐẦU
Truyền hình nói chung đã và đang đáp ứng được rất nhiều nhu cầu thiết yếu
của con người như : giải trí, giáo dục, văn hóa, chính trị, nghệ thuật…Cùng với sự
phát triển khoa học kĩ thuật, truyền hình đã liên tục được cải tiến từ những hệ thồng
truyền hình sơ khai,truyền hình đen trắng, truyền hình màu và truyền hình số ra đời
đã có một sự phát triển nhảy vọt về chất bằng việc số hoá tín hiệu truyền hình. Công
nghệ truyền hình số ra đời có nhiều ưu điểm hơn hẳn so với truyền hình tương tự
như: tính chống nhiễu cao, chất lượng âm thanh, hình ảnh tốt và đồng đều, dàn
dựng được nhiều kỹ xảo phức tạp mà truyền hình tương tự không thể thực hiện
được. Nhất là trong các yêu cầu về truyền dẫn, phát, lưu trữ dữ liệu, tín hiệu truyền
hình từ ảnh đen trắng, ảnh đen trắng lồng tiếng, ảnh mầu có lồng tiếng và việc
quảng bá đòi hỏi phải ghép các tín hiệu thành phần thành tín hiệu của một kênh duy
nhất. Sau đó, nhu cầu về các dịch vụ truyền hình đa chức năng (multimedia) và
tương tác hai chiều giữa trung tâm phát hình và người sử dụng đòi hỏi độ rộng kênh
truyền phải lớn mà dải thông của các kênh thông tin hạn chế. Do vậy để đáp ứng
nhu cầu về truyền dẫn và lưu giữ thông tin ngày càng tăng trưởng mạnh mẽ theo
hàm mũ, bên cạnh việc nghiên cứu và áp dụng các công nghệ thông tin mới thì việc
áp dụng các kỹ thuật nén dữ liệu cũng đóng vai trò quyết định.
Trong những năm gần đây, có rất nhiều các phương pháp đã và đang được
nghiên cứu rộng rãi để thực hiện nén ảnh. Tất cả đều với một mục đích chung là
làm thế nào để biểu diễn một ảnh với ít bit nhất để có thể tối thiểu hoá dung lượng
kênh truyền và không gian lưu trữ trong khi vẫn giữ được tính trung thực của ảnh.
Điều này tương đương với việc biểu diễn ảnh có độ tin cậy cao nhất với tốc độ bit
nhỏ nhất.Để hiểu sâu hơn về lĩnh vực nén dữ liệu đặc biệt là nén ảnh số, em đã chọn
đề tài:"PHÂN TÍCH PHƯƠNG PHÁP BIẾN ĐỔI COSIN RỜI RẠC ĐỂ NÉN
ẢNH TRONG TRUYỀN HÌNH KỸ THUẬT SỐ" làm đề tài bảo vệ tốt nghiệp.
Nội dung đề tài gồm 3 chương là:
+Chương I: Tổng quan về truyền hình kỹ thuật số và vấn đề nén ảnh số.
+Chương II: Quá trình nén ảnh số dựa trên phép biến đổi cosin rời rạc.
1
+Chương III: Mô phỏng biến đổi cosine rời rạc hai chiều (DCT2-D) trong


quá trình nén ảnh số.
Trong quá trình làm đồ án em đã hết sức cố gắng tìm hiểu cùng với sự hướng
dẫn tận tình của TS. Lê Quốc Vượng em đã hoàn thành đề tài kịp thời gian quy
định. Tuy nhiên do thời gian có hạn, sự hiểu biết còn hạn chế, đồ án của em mới chỉ
dừng lại ở những khái quát cơ bản và chắc chắn không tránh khỏi những sai sót.
Kính mong nhận được sự chỉ bảo, góp ý chân thành của các thầy, các cô.
Em xin chân thành cảm ơn!
Sinh viên
Nguyễn Văn Chiến
2
CHƯƠNG I
TỔNG QUAN VỀ TRUYỀN HÌNH SỐ
VÀ VẤN ĐỀ NÉN ẢNH SỐ
1.1 Tổng quan về truyền hình số
1.1.1 Hệ thống truyền hình số
Truyền hình số là tên gọi một hệ thống truyền hình mới mà tất cả các thiết bị
kỹ thuật từ Studio cho đến máy thu đều làm việc theo nguyên lý kỹ thuật số. Trong
đó, một hình ảnh quang học do camera thu được qua hệ thống ống kính, thay vì
được biến đổi thành tín hiệu điện biến thiên sẽ được biến đổi thành một dãy tín hiệu
nhị phân (dãy các số 0 và 1) nhờ quá trình biến đổi tương tự số (Analog - Digital).
Quá trình số hoá tín hiệu phải trải qua 3 công đoạn: lấy mẫu, lượng tử hoá, số hoá.
Tín hiệu video theo chuẩn OIRT có tần số nhỏ hơn hoặc bằng 6 MHz, để đảm bảo
tần số lấy mẫu phải lớn hơn hoặc bằng 12 MHz, với số hoá 8 bit/s để truyền tải đầy
đủ thông tin 1 tín hiệu video thành phần với độ phân giải tiêu chuẩn thì tốc độ bit
phải lớn hơn 200 bit/s. Với truyền hình độ phân giải cao (HDTV) tốc độ bit phải lớn
hơn 1 Gbit/s. Dung lượng này quá lớn các kênh truyền hình thông thường không có
khả năng truyền tải.
Nguyên lý cấu tạo của hệ thống và các thiết bị truyền hình kỹ thuật số được
đưa ra như sau:
Hình 1.1 Sơ đồ cấu trúc tổng quát của hệ thống truyền hình kỹ thuật số

Đầu vào của thiết bị truyền hình số sẽ tiếp nhận tín hiệu truyền hình tương tự.
Trong thiết bị mã hoá (biến đổi A/D), tín hiệu hình sẽ được biến đổi thành thiết bị
truyền hình số, các tham số và đặc trưng của tín hiệu này được xác định từ hệ thống
3
Biến
đổi A/D
Biến
đổi
D/A
Mã hóa
nguồn
Giải mã
hóa
nguồn
Mã hoá
kênh
Giải mã
hoá kênh
Điều
chế
Giải
điều
chế
Kênh
thông tin
Thiết bị phát
Thiết bị thu
Tín hiệu truyền
hình analog
Tín hiệu truyền

hình analog
truyền hình được lựa chọn. Tín hiệu truyền hình số được đưa tới thiết bị phát. Sau
đó tín hiệu truyền hình số được đưa tới bên thu qua kênh thông tin. Tại bên thu tín
hiệu truyền hình số được biến đổi ngược lại với quá trình xử lý tại phía phát. Bộ
giải mã tín hiệu truyền hình thực hiện biến đổi tín hiệu truyền hình số thành tín hiệu
truyền hình tương tự. Hệ thống truyền hình số sẽ trực tiếp xác định cấu trúc mã hoá
và giải mã tín hiệu truyền hình.
Khi truyền qua kênh thông tin, tín hiệu truyền hình số được mã hoá kênh. Mã
hoá kênh đảm bảo chống các sai sót cho tín hiệu trong kênh thông tin. Thiết bị mã
hoá kênh phối hợp đặc tính của tín hiệu số với kênh thông tin. Khi tín hiệu truyền
hình số được truyền đi theo kênh thông tin, các thiết bị biến đổi trên được gọi là bộ
điều chế và giải điều chế.
Tại bên thu, tín hiệu truyền hình số được biến đổi ngược lại với quá trình xử
lý tại phía phát. Giải mã tín hiệu truyền hình thực hiện biến đổi tín hiệu truyền hình
số thành tín hiệu truyền hình tương tự. Hệ thống truyền hình số sẽ trực tiếp xác định
cấu trúc mã hóa và giải mã tín hiệu truyền hình.
1.1.2 Đặc điểm của hệ thống truyền hình kỹ thuật số
Thiết bị truyền hình số dùng trong chương trình truyền hình là thiết bị nhiều
kênh. Ngoài tín hiệu truyền hình, còn có các thông tin kèm theo là các kênh âm
thanh và các thông tin phụ như các tín hiệu điện báo, thời gian chuẩn, tần số kiểm
tra, hình ảnh tĩnh…Tất cả các tín hiệu này được ghép vào các khoảng trống của
đường truyền nhờ bộ ghép kênh.
Truyền tín hiệu truyền hình số được thực hiện khi có sự tương quan giữa các
kênh tín hiệu, thông tin đồng bộ sẽ được truyền đi để đồng bộ các tín hiệu đó. Để
kiểm tra tình trạng của thiết bị truyền hình số sử dụng các thiết bị đo kiểm tra như
đối với truyền hình tương tự, thông qua đo kiểm tra tín hiệu chuẩn.
a. Yêu cầu về băng tần
Tín hiệu số yêu cầu về băng tần rộng hơn rất nhiều so với tín hiệu tương tự. Ví
dụ đối với tín hiệu tổng hợp yêu cầu tần số lấy mẫu phải bằng 4f
sc

như đối với hệ
NTSC là 14,4 MHz. Nếu thực hiện mã hoá 8 bit/mẫu, tốc độ dòng bít sẽ là 115,2
Mbit/s, độ rộng băng tần khoảng 58 MHz. Trong khi đó tín hiệu tương tự cần 1
băng tần 4,2 MHz. Biện pháp khắc phục sẽ là nén tín hiệu.
b. Tỷ lệ tín hiệu trên tạp âm (S/N)
Nhiễu tạp âm trong hệ thống tương tự có tính chất cộng các nguồn nhiễu thành
phần gây ra, vì vậy luôn nhỏ hơn tỷ lệ S/N của khâu có tỷ lệ thấp nhất.
4
Đối với tín hiệu số nhiễu là các bít lỗi được khắc phục bằng mạch sửa lỗi. Khi
có quá nhiều bít lỗi, sự ảnh hưởng của nhiễu được làm giảm bằng cách che lỗi, tỷ số
S/N của hệ thống sẽ giảm rất ít hoặc không đổi trừ trường hợp tỷ lệ lỗi quá lớn làm
cho mạch sửa lỗi mất tác dụng khi đó dòng bít không còn ý nghĩa tin tức.
Ý nghĩa: tính chất này của hệ thống số đặc biệt có ích cho việc sản xuất chương
trình truyền hình với các chức năng biên tập phức tạp cần nhiều lần đọc và ghi. Việc
truyền tín hiệu qua nhiều chặng cũng được thực hiện rất thuận lợi với tín hiệu số mà
không làm suy giảm chất lượng hình.
c. Méo phi tuyến
Tín hiệu số không bị ảnh hưởng của méo phi tuyến trong quá trình ghi và
truyền. Cũng như đối với tỷ lệ S/N tính chất này rất quan trọng trong quá trình ghi
đọc nhiều lần.
d. Chồng phổ (Aliasing)
Một tín hiệu số được lấy mẫu theo cả chiều ngang và chiều dọc nên có khả năng
xảy ra chồng phổ theo cả 2 hướng. Theo chiều dọc chồng phổ trong hệ thống tương
tự và số là như nhau. Độ lớn của méo chồng phổ theo chiều ngang phụ thuộc vào
thành phần tần số vượt quá tần số lấy mẫu giới hạn Nyquist. Để ngăn ngừa hiện
tượng chồng phổ theo chiều ngang có thể thực hiện bằng cách sử dụng tần số lấy
mẫu bằng 2 lần tần số cao nhất trong hệ thống tương tự.
e. Giá thành và độ phức tạp
Các thiết bị số hiện nay có xu hướng nhỏ gọn dễ sử dụng và giá thành rẻ. Nâng
cao tính tương thích và tích hợp nhiều công nghệ cao trong 1 sản phẩm.

f. Xử lý tín hiệu
Tín hiệu số có thể được chuyển đổi và xử lý tốt các chức năng mà hệ thống
tương tự không làm được hoặc gặp nhiều khó khăn. Có thể thao tác các công việc
phức tạp mà không làm giảm chất lượng hình ảnh. Khả năng này được tăng cường
nhờ khả năng lưu trữ các bít trong bộ nhớ và có thể đọc ra với tốc độ cao. Công việc
tín hiệu số có thể thực hiện dễ dàng là: sửa lỗi gốc thời gian, chuyển đổi tiêu chuẩn,
dựng hậu kỳ, giảm độ rộng băng tần.
g. Khoảng cách giữa các trạm truyền hình đồng kênh
Tín hiệu số cho phép các trạm truyền hình đồng kênh thực hiện ở 1 khoảng
cách gần nhau hơn nhiều so với hệ thống tương tự mà không bị nhiễu. Một phần vì
tín hiệu số ít chịu ảnh hưởng của nhiễu đồng kênh, một phần là do khả năng thay
5
thế xung hoá và xung đồng bộ bằng các từ mã nơi mà hệ thống tương tự gây ra
nhiễu lớn nhất.
h. Hiện tượng bóng ma (Ghosts)
Hiện tượng này xảy ra trong hệ thống tương tự do tín hiệu truyền đến máy thu
theo nhiều đường. Việc tránh nhiễu đồng kênh của hệ thống số cũng làm giảm đi
hiện tượng này trong truyền hình quảng bá.
1.1.3 Cấu trúc và tiêu chuẩn lấy mẫu
A. Các cấu trúc lấy mẫu:
A1. Cấu trúc trực giao

Hình 1.2 Cấu trúc trực giao
Các mẫu được sắp xếp trên các dòng kề nhau, thẳng hàng theo chiều đứng. Cấu
trúc này được cố định theo dòng và theo 2 ảnh (2 mành)
Trong trường hợp này tần số lấy mẫu thoả mãn định lý Nyquist, do đó tốc độ bit
sử dụng rất lớn.
A2. Cấu trúc ‘quincunx’ mành

Hình 1.3 Cấu trúc ‘quincunx’ mành

6
Dòng 1,mành 2
Dòng 2,mành 2
Dòng 2,mành 1
Dòng 1,mành 1
Dòng 1,mành 2
Dòng 2,mành 2
Dòng 2,mành 1
Dòng 1,mành 1
Các mẫu trên các dòng kề nhau thuộc 1 mành xếp thẳng hàng theo chiều đứng
(trực giao), nhưng các mẫu thuộc mành 1 lại dịch đi một nửa chu kỳ lấy mẫu so với
các mẫu mành thứ 2.
Phân bố phổ tần của các cấu trúc quincunx mành rất có ý nghĩa đối với mành 1,
nó cho phép giảm tần số lấy mẫu theo dòng. Phổ tần cấu trúc nói trên của mành 2 so
với phổ mành 1 bị dịch và có thể lồng với phổ tần cơ bản, gây ra méo ở các chi tiết
ảnh (khi hình ảnh có các sọc hoặc các đường thẳng đứng)
A3. Cấu trúc ‘quincunx’ dòng
Hình 1.4 Cấu trúc ‘quincunx’ dòng
Các mẫu trên các dòng kề nhau của 1 mành sẽ lệch nhau nửa chu kỳ lấy mẫu,
các mẫu trên dòng của 2 mành kế tiếp sẽ lệch nhau nửa chu kỳ lấy mẫu.
Cấu trúc này không xảy ra trường hợp lồng các phổ biên với phổ chính và
không bị méo. Điều này cho phép sử dụng tần số lấy mẫu nhỏ hơn 25% tần số
Nyquist, tiết kiệm được độ rộng của tín hiệu số.
Tuỳ theo cấu trúc lấy mẫu sẽ xuất hiện loại méo ảnh đặc trưng. Với cấu trúc
trực giao độ phân giải ảnh sẽ giảm. Đối với cấu trúc ‘quincunx’ mành sẽ xuất hiện
nhấp nháy các điểm ảnh. Cấu trúc ‘quincunx’ dòng sẽ xuất hiện các vòng tròn theo
chiều ngang (méo đường biên).
Như vậy cấu trúc trực giao có nhiều ưu điểm hơn, nó cho chất lượng ảnh cao
nhất vì đối với mắt người độ phân giải giảm còn dễ chấp nhận hơn 2 loại méo kể
trên.

B. Các tiêu chuẩn lấy mẫu
Có nhiều tiêu chuẩn lấy mẫu tín hiệu video số thành phần, điểm khác nhau chủ
yếu ở tỷ lệ giữa tần số lấy mẫu và phương pháp lấy mẫu tín hiệu chói và các tín hiệu
màu, trong đó bao gồm: tiêu chuẩn 4:4:4; 4:2:2; 4:2:0; 4:1:1. Các định dạng số
video có nén chỉ lấy mẫu cho các dòng tích cực của video.
B1. Tiêu chuẩn 4:4:4
Mẫu tín hiệu chỉ được lấy đối với các phần tử tích cực của tín hiệu video. Với
hệ PAL màn hình sẽ được chia làm 625
×
720 điểm (pixel)
7
Dòng 1,mành2
Dòng 2,mành 2
Dòng 2,mành 1
Dòng 1,mành 1
Hình 1.5 Tiêu chuẩn 4:4:4
Các tín hiệu chói Y, tín hiệu màu (C
R
, C
B
) được lấy mẫu tại tất cả các điểm lấy
mẫu trên dòng tích cực của tín hiệu video. Cấu trúc lấy mẫu là cấu trúc trực giao, vị
trí lấy mẫu minh hoạ như hình trên.
Tiêu chuẩn 4:4:4 có khả năng khôi phục hình ảnh chất lượng tốt nhất trong số
các tiêu chuẩn, thuận tiện cho việc xử lý tín hiệu. Tiêu chuẩn này có thể dùng trong
trường hợp xử lý tín hiệu chói và tín hiệu màu R, G, B. Nó có thể được dùng trong
studio nhằm rời rạc hoá tín hiệu. Tuy nhiên tiêu chuẩn này sẽ đòi hỏi tốc độ bit rất
cao. Các tổ chức tiêu chuẩn quốc tế đã thống nhất về chỉ tiêu tần số lấy mẫu cho
truyền hình số theo tiêu chuẩn này với tên gọi CCIR-601.
Với chuẩn 4:4:4 tốc độ dòng dữ liệu (ví dụ cho hệ PAL) được tính như sau:

+ Khi lấy mẫu 8 bit: (720 + 720 + 720) x 576 x 8 x 25 = 249 Mbit/s
+ Khi lấy mẫu 10 bit: (720 + 720 + 720) x 576 x 10 x 25 = 311 Mbit/s
B2. Tiêu chuẩn 4:2:2
Điểm đầu lấy mẫu toàn bộ 3 tín hiệu: chói Y và tín hiệu màu (C
R
, C
B
). Điểm kế
tiếp chỉ lấy mẫu tín hiệu chói Y, còn 2 tín hiệu màu không lấy mẫu. Khi giải mã
màu suy ra từ màu của điểm ảnh trước.
Điểm sau nữa là lấy mẫu đủ 3 tín hiệu Y, C
R
, C
B

Tuần tự như thế cứ 4 lần lấy mẫu tín hiệu chói Y, thì 2 lần lấy mẫu C
R
, 2 lần lấy
mẫu C
B
tạo nên cơ cấu 4:2:2

8
Điểm lấy mẫu tín hiệu chói Y
Điểm lấy mẫu màu đỏ C
R
Điểm lấy mẫu màu lam C
B
Điểm lấy mẫu tín hiệu chói Y
Điểm lấy mẫu màu đỏ C

R
Điểm lấy mẫu màu lam C
B
Hình 1.6 Tiêu chuẩn 4:2:2
Đối với hệ PAL tốc độ dòng dữ liệu theo chuẩn này được tính như sau:
+ Khi lấy mẫu 8 bit: (720 + 360 + 360) x 576 x 8 x 25 = 166 Mbit/s
+ Khi lấy mẫu 10 bit: (720 + 360 + 360) x 576 x 10 x 25 = 207 Mbit/s
Tiêu chuẩn 4:2:2 là tiêu chuẩn cơ bản của truyền hình số. Chất lượng hình ảnh của
tiêu chuẩn này cao hơn sau 4:4:4. Nó cho phép xử lý tín hiệu 1 cách thuận lợi.
B3. Tiêu chuẩn 4:2:0
Theo chuẩn này tín hiệu Y được lấy mẫu tại tất cả các điểm ảnh của dòng, còn
tín hiệu màu thì cứ cách 1 điểm sẽ lấy mẫu cho 1 tín hiệu màu. Tín hiệu hiệu màu
được lấy xen kẽ, nếu hàng chẵn lấy mẫu cho tín hiệu màu C
R
, thì dòng lẻ sẽ lấy mẫu
cho tín hiệu hiệu màu C
B
Đối với hệ PAL tốc độ dòng dữ liệu theo chuẩn này được tính như sau:
+ Khi lấy mẫu 8 bit: (720 + 360)
×
576
×
8
×
25 = 124,4 Mbit/s
+ Khi lấy mẫu 10 bit: (720 + 360)
×
576
×
10

×
25 = 155,5 Mbit/s
Hình 1.7 Tiêu chuẩn 4:2:0
B4. Tiêu chuẩn 4:1:1
Điểm ảnh đầu lấy mẫu đủ Y, C
R
, C
B
Ba điểm ảnh tiếp theo chỉ lấy Y không lấy mẫu C
R
, C
B

Khi giải mã màu của 3 điểm ảnh sau phải suy ra từ điểm ảnh đầu. Tuần tự như
thế cứ 4 lần lấy mẫu Y, một lần lấy mẫu C
B.
9
Điểm lấy mẫu tín hiệu chói Y
Điểm lấy mẫu màu đỏ C
R
Điểm lấy mẫu màu lam C
B
Hình1.8 Tiêu chuẩn 4:1:1
Đối với hệ PAL tốc độ dòng dữ liệu theo chuẩn này được tính như sau:
+ Khi lấy mẫu 8 bit: (720 + 180 + 180)
×
576
×
8
×

25 = 124,4 Mbit/s
+ Khi lấy mẫu 10 bit: (720 + 180 + 180)
×
576
×
10
×
25 = 155,5 Mbit/s
Tiêu chuẩn này cho chất lượng hình ảnh tương đối thấp, thường được dùng cho
điện thoại truyền hình.
Nhận xét:
Ta nhận thấy rằng, với các tiêu chuẩn khác nhau thì tốc độ dòng bit khác nhau.
Với tiêu chuẩn cho tốc độ dòng bít thấp thì giá phải trả đó là giảm chất lượng hình
ảnh. Phương pháp này không được áp dụng rộng rãi trong truyền hình nhất là trong
truyền hình số. Có một phương pháp làm giảm tốc độ dòng bít mà vẫn đảm bảo chất
lượng hình ảnh truyền đi đó là giảm lượng dư thừa thông tin trong tín hiệu (hình
ảnh) cần truyền hay chính là nén ảnh.
1.1.4 Ảnh số
a. Giới thiệu
Đứng trên góc độ cảm nhận thị giác, ảnh là một sự vật đại diện cho người, sinh
vật hay một đồ vật nào đó… Đứng trên góc độ kỹ thuật thì ảnh được nhận biết
thông qua hệ thống thị giác hai chiều. Ảnh động như đã thấy trệ truyền hình, phim
ảnh là tập hợp của rất nhiều ảnh tĩnh liên tiếp. Khi một ảnh được số hóa thì nó trở
thành ảnh số và ảnh số này lại là một tập của các phần tử ảnh nhỏ được gọi là điểm
ảnh “ pixel”. Ta có các loại ảnh:
+ Ảnh Index: Ảnh được biểu diễn bởi hai ma trận, một ma trận dữ liệu ảnh X
và một ma trận màu (còn gọi là bản đồ màu) map. Ma trận dữ liệu có thể thuộc kiểu
uint8, uint16 hoặc double. Ma trận màu là một ma trận kich thước m x 3 gồm các
thành phần thuộc kiểu double có giá trị trong khoảng [0 1]. Mỗi hàng của ma trận
xác định thành phần red, green, blue của một màu trong tổng số m màu được sử

dụng trong ảnh. Giá trị của một phần tử trong ma trận dữ liệu ảnh cho biết màu của
điểm ảnh đó nằm ở hàng nào trong ma trận màu.
10
Điểm lấy mẫu tín hiệu chói Y
Điểm lấy mẫu màu đỏ C
R
Điểm lấy mẫu màu lam C
B
+ Ảnh grayscale: Mỗi ảnh được biểu diễn bởi một ma trận hai chiều, trong
đó giá trị của mỗi phần tử cho biết độ sang (hay mức xám) của điểm ảnh đó. Ma
trận này có thể một trong các kiểu uint8, uint16 hoặc double. Ảnh biểu diễn theo
kiểu này còn gọi là ảnh „trắng đen‟.
+ Ảnh nhị phân: Ảnh được biểu diễn bởi một ma trận hai chiều thuộc kiểu
logical. Mỗi điểm ảnh chỉ có thể nhận một trong hai giá trị là 0 (đen) hoặc 1 (trắng)
+ Ảnh RGB: Còn gọi là ảnh “truecolor” do tính trung thực của nó. Ảnh này
được biểu diễn bởi một ma trận ba chiều kích thước m x n x 3, với m x n là kích
thước ảnh theo pixels. Ma trận này định nghĩa các thành phần màu red, green, blue
cho mỗi điểm ảnh, các phần tử của nó có thể thuộc kiểu uint8, uint16 hoặc double.
b. Biểu diễn ảnh số
Đối với ảnh đen trắng thì ảnh được biểu diễn bằng một hàm cường độ sáng hai
chiều f(x,y), trong đó x,y là các giá trị tọa độ không gian và giá trị f tại một điểm
(x,y) sẽ tỉ lệ với độ sáng ( hoặc mức xám) của ảnh tại điểm này.
Một ảnh số là một ảnh f(x,y) được gián đoạn theo không gian và độ sáng. Một
ảnh số được xem như một ma trận với hang và cột biểu diễn một điểm trong ảnh và
giá trị điểm ma trận tương ứng mức xám tại điểm đó. Các phần tử của một dãy số
như thế được gọi là các điểm ảnh (pixel).
Kích thước của một ảnh số thay đổi theo mục đích sử dụng.

Hình 1.9 Biểu diễn ảnh số
Ví dụ một ảnh có chất lượng ảnh truyền hình đen trắng sẽ có kích thước 512 x 512

với 128 mức xám.
11
c/ Quan hệ giữa các pixel
c1. Các điểm ảnh lân cận
Mỗi điểm ảnh p tại tọa độ (x,y) sẽ có 4 điểm ảnh được gọi là lân cận theo
chiều ngang và dọc, đó là các điểm (x +1,y),(x −1,y),(x,y +1)(x,y −1) . Tập hợp 4
điểm lân cận trên được ký hiệu là N4(p). Mỗi điểm lân cận nằm cách điểm (x,y) 1
đơn vị, 4 điểm ảnh lân cận với điểm (x,y) theo đường chéo ký hiệu là ND(p) , đó là
các điểm: (x +1,y +1),(x +1,y −1),(x −1,y +1)(x −1,y −1). Tập hợp 8 điểm N4(p) và
ND(p) được gọi là 8 điểm lân cận: N8(p). Trong trường hợp khi điểm p nằm ở biên
của ảnh, các điểm lân cận có thể nằm bên ngoài ảnh.
c2. Mối liên kết (connectivity)
Mối liên kết giữa các điểm ảnh là khái niệm quan trọng, cho phép xác định các
giới hạn của chi tiết hay các vùng trong một ảnh. Hai điểm ảnh có sự liên kết với
nhau nếu chúng là các điểm lân cận và giá trị mức xám của chúng đáp ứng 1 tiêu
chuẩn nào đó (thí dụ nếu chúng giống nhau). Ví dụ, đối với ảnh nhị phân, hai điểm
ảnh có liên kết, khi chúng năm trong bộ 4 lân cận và có giá trị giống nhau.
Cho V là tập các mức xám dùng để định nghĩa mối liên kết, ví dụ trong ảnh đen
trắng, giá trị các mức xám thay đổi từ 0-255, thì V có thể là 1 tập bất kỳ trong số
255 giá trị này.
Khả năng tạo thành các phần khác nhau cho nhiều thành phần liên kết tách rời
nhau của một ảnh là rất quan trọng trong tự động phân tích ảnh. Ngoài ra, nghiên
cứu các đặc điểm này của các pixel trong ảnh truyền hình sẽ cho phép tạo ra các
thuật toán loại bỏ các thành phần dư thừa trong pixel trong các tiêu chuẩn nén video
và xử lý ảnh.
1.2 Kỹ thuật nén ảnh số
Trong tất cả các dạng tín hiệu thì tín hiệu truyền hình chiếm dải tần lớn nhất
cho một kênh thông tin. Tín hiệu số thành phần (số hóa 8 bit) có tốc độ bit bằng
216Mbit/s. Dải phổ cần thiết để truyền tín hiệu này phải có bề rộng không dưới
(3/4)x216=162MHz. Trong sudio, truyền tín hiệu bằng cáp, rắc rối chất lượng cao

và với khoảng cách ngắn việc nén dải tần chỉ mang tính kinh tế, việc truyền tín hiệu
có thể thực hiện mà không cần nén. Song sẽ rất khó khăn, thậm chí không thể thực
hiện được việc truyền tín hiệu video số qua vệ tinh với độ rộng tải tần một kênh
27MHz hoặc qua hệ thống truyền hình quảng bá trên mặt đất với tiêu chuẩn
7÷8MHz cho một kênh truyền hình tiêu chuẩn. Do vậy nén tín hiệu video là công
đoạn không thể thiếu để khắc phục được những khó khăn trên.
12
1.2.1 Cơ sở nén ảnh
Nén về cơ bản là một quá trình trong đó lượng số liệu (data) biểu diễn lượng
thông tin của một ảnh được giảm bớt bằng cách loại bỏ những số liệu dư thừa
trong tín hiệu video. Các chuỗi ảnh truyền hình có nhiều thành phần ảnh giống
nhau. Vậy tín hiệu truyền hình có chứa nhiều dữ liệu dư thừa, ta có thể bỏ qua
mà không làm mất thông tin hình ảnh. Đó là các phần xóa dòng, xóa mành, vùng
ảnh tĩnh hoặc chuyển động rất chậm, vùng ảnh nền giống nhau, mà ở đó các
phần tử liên tiếp giống nhau hoặc khác nhau rất ít. Thường thì chuyển động
trong ảnh truyền hình có thể được dự báo, do đó chỉ cần truyền các thông tin về
chuyển động. Các phần tử lân cận trong ảnh thường giống nhau, do đó chỉ cần
truyền thông tin biến đổi. Các hệ thống nén sử dụng đặc tính này của tín hiệu
video và các đặc trưng của mắt người (là kém nhạy với sai số trong hình ảnh có
nhiều chi tiết và các phần tử chuyển động
 Sự dư thừa về mặt không gian (spatial redundancy): Các điểm ảnh kề nhau
trong một mành có nội dung gần giống nhau.
 Sự dư thừa về mặt thời gian (temporal redundancy): Các điểm ảnh có cùng vị
trí ở các mành kề nhau rất giống nhau.
 Sự dư thừa về mặt cảm nhận của con người: Mắt người nhạy cảm hơn với
các thành phần tần số thấp và ít nhạy cảm với sự
thay đổi nhanh, tần số cao. Do vậy, có thể coi nguồn hình ảnh là nguồn có nhớ
(memory source). Nén ảnh thực chất là quá trình sử dụng các phép biến đổi để loại
bỏ đi các sự dư thừa và loại bỏ tính có nhớ của nguồn dữ liệu, tạo ra nguồn dữ liệu
mới có lượng thông tin nhỏ hơn. Đồng thời sử dụng các dạng mã hoá có khả năng

tận dụng xác suất xuất hiện của các mẫu sao cho số lượng bít sử dụng để mã hoá
một lượng thông tin nhất định là nhỏ nhất mà vẫn đảm bảo chất lượng theo yêu cầu.
Hệ thống nén video gồm 3 thành phần cơ bản như sau:
Hình 1.10 Mô hình hệ thống nén video
13
Mã hoá video Giải mã video
Xử lý
kênh
Biểu
diễn
thuận
lợi
Lượng
tử hoá
Gán
từ

Giải
từ

Giải
lượng
tử hoá
Biểu
diễn
thuận
lợi
Video
Nguồn
tin

Ở tầng đầu tiên của bộ mã hoá video, tín hiệu video được trình bày dưới dạng
thuận tiện để nén có hiệu quả nhất. Sự biểu diễn có thể chứa nhiều mẩu thông tin để
mô tả tín hiệu hơn là chính tín hiệu nhưng hầu hết các thông tin quan trọng chỉ tập
trung trong 1 phần nhỏ của sự mô tả này. Trong cách biểu diễn có hiệu quả chỉ có
phần nhỏ dữ liệu là cần thiết để truyền cho việc tái tạo lại tín hiệu video.
Bước thứ 2 của bộ mã hoá là lượng tử hoá giúp rời rạc hoá thông tin được biểu
diễn. Để truyền tín hiệu video qua 1 kênh số những thông tin biểu diễn được lượng
tử hoá thành 1 số hữu hạn các mức.
Bước thứ 3 là gán từ mã. Các từ mã này là 1 chuỗi bit dùng để biểu diễn các
mức lượng tử. Các quá trình sẽ ngược lại trong bộ giải mã video.
Mỗi quá trình sẽ cố gắng loại bỏ phần dư trong tín hiệu video và tận dụng sự
giới hạn trong hệ thống nhìn của mắt người. Nhờ bỏ đi các phần tử dư thừa, các
thông tin giống nhau hay có liên quan đến nhau sẽ không được truyền đi. Những
thông tin không ảnh hưởng đến khả năng nhìn của mắt cũng sẽ không được truyền
đi.
1.2.2 Các phương pháp nén ảnh
Các thuật toán nén có thể phân làm hai loại: Nén không tổn thất (lossless
compression) và nén có tổn thất (lossy compression).
 Thuật toán nén không tổn thất, không làm suy giảm, tổn hao dữ liệu: Do
vậy, ảnh khôi phục hòan toàn chính xác với ảnh nguồn.
 Các thuật toán nén có tổn thất chấp: nhận loại bỏ một số thông tin không
quan trọng như các thông tin không quá nhạy cảm với cảm nhận của con người để
đạt được hiệu suất nén cao hơn. Do vậy, ảnh khôi phục chỉ rất gần chứ không phải
là ảnh nguyên thủy.
Đối với nén có tổn thất, chất lượng ảnh là mội yếu tố vô cùng quan trọng.
Tuỳ theo yêu cầu ứng dụng mà các mức độ loại bỏ khác nhau được sử dụng, cho
mức độ chất lượng theo yêu cầu.
1.2.3 Một số phương pháp mã hóa dùng trong kỹ thuật nén
a. Lý thuyết thông tin_Entropy
Entropy là phép đo trung bình nội dung thông tin của một ảnh được lấy mẫu

theo các giá trị nhị phân. Entropy xác định số lượng bit trung bình tối thiểu cần thiết
để biểu diễn một phần tử ảnh. Trong công nghệ nén không tổn hao, entropy là giới
hạn dưới của tỉ số bit/pixel. Tín hiệu video được nén với tỉ số bit/pixel nhỏ hơn
entropy của ảnh, thì một số thông tin ảnh sẽ bị mất và quá trình nén có tổn hao.
14
Entropy biểu diễn bằng biểu thức thống kê sau:

( ) ( ) ( ) ( ) ( )
2
1 1
log
N N
i i i i
i i
H x P x I x P x P x
= =
= = −
∑ ∑
(1.1)
Trong đó:
I(xi) - lượng thông tin vủa phần tử ảnh xi (được tính bằng bit).
p(xi) - xác xuất xuất hiện của phần tử ảnh xi.
Ví dụ: Xét 2 block, mỗi block có 8*8= 64 pixel. Block ảnh 1 gồm 63 phần tử có giá
trị “0” và một phần tử giá trị “1”. Block ảnh 2 bao gồm 32 phần tử giá trị “0” vμ 32
phần tử giá trị “1”. Theo biểu thức trên ta có entropy của block ảnh 1 là:

( )
1 2 2
63 63 1 1
log log 0,116

64 64 64 64
H x = − − =
bit/phần tử. (1.2)
Entropy của block ảnh 2 là:

( )
2 2 2
32 32 32 32
log log 1,0
64 64 64 64
H x = − − =
bit/phần tử (1.3)
Như vậy số lượng bit trung bình tối thiểu để truyền một phần tử ảnh đối với
block ảnh 1 là 0,116bit/pixel và đối với block ảnh 2 là 1bit/pixel. Tức là ảnh 2 chứa
lượng thông tin nhiều hơn ảnh 1.
“Entropy” của nguồn tin quy định giới hạn dưới tốc độ bit tại đầu ra bộ mã
hoá. Phương pháp mã hoá nào có độ dài mã trung bình (số bit trung bình cần để mã
hoá một mẫu) càng gần giá trị H thì phương pháp mã hoá đó càng hiệu quả.
b. Mã hóa loạt dài RLC (Run length coding)
Sự liên tiếp lặp đi lặp lại các điểm ảnh trong ảnh số xuất hiện là do sự tương
quan giữa các điểm ảnh, đặc biệt đối với ảnh 2 mức. Từ sự lặp đi lặp lại này 1
phương pháp nén đã được xây dựng trên cơ sở sử dụng số lần lặp lại của các điểm
ảnh, phương pháp này gọi là phương pháp RLC. RLC tách chuỗi các giá trị giống
nhau và biểu điễn như là 1 tổng. Khi giãn giá trị này tạo lại số lần biểu diễn tổng.
Kỹ thuật này chỉ có thể áp dụng cho các chuỗi symbols tuyến tính. Do đó khi áp
dụng cho ảnh 2 chiều, hình ảnh được tách thành 1 chuỗi các dòng quét.
Có 2 cách để mã hoá RLC:
+ Tạo ra những từ mã cho mỗi độ dài chạy và kết hợp với symbol nguồn.
+ Sử dụng 1 số độ dài chạy và 1 symbol nguồn nếu như symbol nguồn không phải
là 1 số hay 1 ký tự đặc biệt để chỉ ra cho mỗi symbol nguồn.

15
RLC được dùng với các kỹ thuật khác như các chuẩn nén JPEG, MPEG sẽ cho
kết quả nén tốt. RLC được dùng cho các hệ số lượng tử hoá tốt hơn là dùng trực tiếp
cho số liệu ảnh.
c. Mã SHANNON-FANO
Theo lý thuyết thông tin của Shannon thì tỷ lệ nén tốt nhất mà chúng ta có thể
đạt được chính là entropy nguồn. Vào cuối năm 1940 Shannon và fano đã tìm ra 1
phương pháp nén mới dựa trên xác suất xuất hiện của những symbol nguồn bên
trong 1 lượng thông tin. Về cơ bản phương pháp này sử dụng những từ mã có độ dài
thay đổi để mã hoá các symbol nguồn thông qua xác suất của chúng. Với những
symbol có xác suất xuất hiện càng lớn thì từ mã dùng để mã hóa chúng càng ngắn.
Các bước mã hoá Shannon-Fano:
+ B1: Sắp xếp các symbol nguồn với xác suất xuất hiện của chúng theo thứ tự giảm
dần.
+ B2: Chia tập đã sắp xếp đó thành 2 phần sao cho tổng xác suất xuất hiện của các
symbol ở mỗi phần xấp xỉ nhau.
+ B3: Mã sử dụng bit 0 để mã hoá cho các symbol trong phần 1 và bit 1 để mã hoá
cho các symbol trong phần 2.
+ B4: Quay trở lại bước 2 và tiếp tục làm cho tới khi mỗi phần chỉ còn lại 1 symbol
d. Mã HUFFMAN
Với mỗi nguồn tin tồn tại 1 cách mã hoá với độ dài trung bình của mỗi từ mã
gần với lượng entropy của nguồn tin.
Mã Huffman tạo ra độ dài trung bình của từ mã ngắn nhất đối với tập symbol
nguồn và kết hợp với xác suất của chúng. Mã Huffman thuộc loại mã entropy hoặc
mã thống kê. Mã Hufman dùng VLC (Variable length coding) sử dụng ít bit để mã
hoá các giá trị ít xảy ra do đó tốc độ bit giảm đáng kể.
Độ dài trung bình của từ mã Hufman giới hạn trên bởi:
H + P + log(
e
elog

2
) = H + P + 0,086 (1.4)
Trong đó H là lượng entropy nguồn, P là xác suất của tất cả các symbol như
nguồn.
Các bước mã hoá Huffman:
+ B1: Liệt kê xác suất của các symbol nguồn và tạo ra các nút bằng cách cho
những xác suất này thành các nhánh của cây nhị phân.
16
+ B2: Lấy 2 nút tới xác suất nhỏ nhất từ tập nút tạo ra 1 xác suất mới bằng tổng các
xác suất đó.
+ B3: Tạo ra 1 nút mẹ với các xác suất mới và đánh dấu 1 nút con mới bằng tổng
các xác suất đó.
+ B4: Tạo tiếp tập nút bằng cách thay thế 2 nút với xác suất nhỏ nhất cho nút mới.
Nếu tập nút chỉ chứa 1 nút thì kết thúc, ngược lại quay lại bước 2.
Hình 1.11 Cây mã Huffman
Cây mã Huffman là cây nhị phân có các nhánh được gán cho các giá trị 0 hoặc
1. Gốc của cây là nút gốc, các điểm rẽ nhánh gọi là nút nhánh. Điểm kết thúc của 1
nhánh gọi là nút lá. Mỗi nút lá được gán tương ứng với 1 phần tử mã hoá. Từ 1 nút
nhánh khi rẽ thành 2 nhánh mới thì nhánh bên trái được gán giá trị 0, nhánh bên
phải gán giá trị 1 (có thể ngược lại). Từ mã của 1 symbol được xác định bằng cách
đi từ nút gốc đến nút lá tương ứng với symbol đó. Các bit của cá00c từ mã được tập
hợp từ các giá trị tương ứng của nhánh phải đi qua
e. Mã hoá dự đoán (Predictive coding)
Như đã nói, nguồn ảnh chứa một lượng thông tin rất lớn. Nếu mã hoá trực
tiếp nguồn tin này theo PCM, tốc độ dòng bit thu được sẽ rất cao. Mặt khác, nguồn
ảnh lại chứa đựng sự dư thừa và tính “có nhớ”: giữa các điểm ảnh lân cận có mối
quan hệ tương hỗ với nhau.
Mã hoá dự đoán được xây dựng dựa trên nguyên tắc cơ bản như sau:
 Lợi dụng mối quan hệ tương hỗ này, từ giá trị các điểm ảnh lân cận,
theo một nguyên tắc nào đó có thể tạo nên một giá trị gần giống điểm ảnh hiện

hμnh. Giá trị này được gọi là giá trị “dự báo”.
 Loại bỏ đi tính “có nhớ” của nguồn tín hiệu bằng một bộ lọc đặc biệt
17
Nút gốc (8)
Nút lá a (4)
Nút lá b (2)
Nút lá c (1)
Nút nhánh (4)
Nút nhánh (2)
Nút lá d (1)
0
0
0
1
1
1
có đáp ứng đầu ra là hiệu giữa tín hiệu vào s(n) và giá trị dự báo của nó.
 Thay vì lượng tử hoá trực tiếp các mẫu điểm ảnh, mã hoá dự đoán
lượng tử và mã hoá các “sai số dự báo” tại đầu ra bộ lọc.
”Sai số dự báo” là sự chênh lệch giữa giá trị dự báo và giá trị thực của mẫu
hiện hành. Do nguồn “sai số dự báo”(error prediction source) là nguồn không có
nhớ và chứa đựng lượng thông tin thấp, nên số bit cần để mã hoá sẽ giảm đi rất
nhiều.
Phương pháp tạo điểm ảnh dựa trên tổng giá trị của điểm dự đoán và sai số
dự báo gọi là “điều chế xung mã vi sai (DPCM)”.
Mã hoá dự đoán đóng một vai trò vô cùng quan trọng trong các chuẩn nén như:
MPEG, JPEG, JBIG nhằm tạo một hiệu suất nén cao.
f. Mã hoá chuyển đổi (Transform coding)
Trong phương pháp mã hoá chuyển đổi, tính có nhớ của nguồn tín hiệu được
loại bỏ đi bằng một phép biến đổi. Một khối các điểm ảnh được chuyển sang miền

tần số theo một ma trận biến đổi phù hợp. Từ khối N giá trị mẫu điểm lân cận nhau
s = {s(n),s(n+1), , s(n-N+1)}, thu được khối N hệ số c = (c1, c2, , cN).
Phép biến đổi này có tính thuận nghịch, các hệ số này hoàn toàn có thể hồi phục
thành giá trị tín hiệu ban đầu bằng phép chuyển đổi ngược.
So với nguồn giá trị thực của điểm ảnh, nguồn các hệ số là không có nhớ.
Mặt khác, thông tin của nguồn ảnh tập trung phần lớn ở các thành phần tần số thấp,
nên trong khối các hệ số, thông tin cũng tập trung tại một số ít các hệ số chuyển đổi
ci.
Do vậy sẽ giảm được lượng bit nếu mã hoá các hệ số nμy thay cho việc mã
hoá trực tiếp các mẫu. Số lượng bit mã hoá còn có thể giảm hơn nữa nếu lợi dụng
đặc điểm của mắt người không nhạy cảm với sai số ở tần số cao. Bởi vậy,có thể sử
dụng bước lượng tử thô cho các hệ số ứng với tần số cao mà không làm giảm sút
chất lượng ảnh khôi phục.
Hình vẽ sau đây minh hoạ quá trình mã hoá chuyển đổi cho ảnh số:
18
Hình1.12 Quá trình mã hóa chuyển đổi hai chiều
Hình1.13 quá trình giải mã chuyển đổi hai chiều
Ảnh số được chia thành các khối cỡ pxq. Các khối này sẽ được chuyển đổi
sang miền tần số. Các hệ số biến đổi sẽ được lượng tử hoá và mã hoá. Quá trình giải
mã sẽ áp dụng phép biến đổi ngược đối với các hệ số để hồi phục ảnh ban đầu.
Trong mã hoá chuyển đổi, một điều vô cùng quan trọng là phải chọn được phép
biến đổi phù hợp có khả năng giảm tối đa mối quan hệ tương hỗ giữa các điểm ảnh
trong cùng một khối.
Bản thân phép biến đổi trong mã hoá chuyển đổi không nén dữ liệu. Song
nếu lượng tử hoá các hệ số, rất nhiều hệ số tần số cao sẽ quy tròn về giá trị 0. Việc
lựa chọn bảng lượng tử và số bit mã hoá cho các hệ số cũng rất quan trọng do phần
lớn hiệu suất nén dữ liệu tập trung trong quá trình này. Cuối cùng, mã hoá entropy
được chọn để giảm tối đa tốc độ dòng bít.
1.2.4 Các tiêu chuẩn nén ảnh
a. Chuẩn JPEG

a1.Khái quát
JPEG (Joint photographic Expert Group) là tên của một tổ chức nghiên cứu về
các chuẩn nén cho ảnh đa tần liên tục (trước đây là ISO) được thành lập vào năm
1982. Năm 1986 JPEG chính thức được thiết lập nhờ sự phức hợp giữa nhóm
19
ISO/IEC và ITV. Tiêu chuẩn này có thể được ứng dụng cho nhiều lĩnh vực: lưu trữ
ảnh, fax màu, truyền ảnh báo chí, ảnh cho y học, camera số…
a2. Mục đích của JPEG
Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu, thực hiện bởi
4 mode mã hóa đó là:
-Mã hóa tuần tự: Ảnh được mã hóa theo kiểu quét từ trái qua phải, từ trên
xuống dưới dựa trên khối DCT.
-Mã hóa lũy tiến: Ảnh được mã hóa bằng kiểu quét phức hợp theo chế độ phân
giải không gian cho các ứng dụng trên các kiểu băng hẹp và do đó thời gian truyền
dẫn có thể dài.
-Mã hóa không tổn thất: Ảnh được đảm bảo khôi phục chính xác cho mỗi giá
trị mẫu của nguồn. Thông tin không cần thiết sẽ bị cắt bỏ cho nên cho hiệu quả nén
thấp hơn so với phương pháp có tổn thất.
-Mã hóa phân cấp: Ảnh được mã hóa ở chế độ phân giải không gian phức hợp,
để cho những ảnh có phân giải thấp có thể được truy xuất và hiển thị mà không cần
giải nén như những ảnh có độ phân giải trong không gian cao hơn.

a3. Mã hóa và giải mã JPEG

Hình 1.14 Sơ đồ khối mã hóa và giải mã JPEG
Quá trình mã hoá và giải mã là 2 quá trình ngược nhau. Đặc trưng dùng
trong quá trình mã hoá cho ra dòng số liệu sau khi nén và sau đó được đưa tới phần
20
DCT Lượng tử
hoá

Mã hoá
entropy
Số liệu
ảnh nén
Bảng lượng
tử
Bảng mã hoá
Số liệu
ảnh nén
Giải mã
entropy
Giải lượng tử IDCT
Bảng mã hoá Bảng lượng
tử
Block 88
Block 88
giãn (giải nén). Ở bộ giải nén, bộ mã hoá entropy biến đổi dòng bit được nén thành
1 bảng zig-zag mới có các hệ số DCT. Các hệ số này được nhân với các hệ số giải
lượng tử hoá và đưa đến quá trình biến đổi DCT ngược (Iverse DCT). Đầu ra ta có
1 khối 8
×
8 pixel có thể không tạo lại 1 ảnh chính xác tín hiệu gốc vì thông tin bị
mất trong quá trình mã hoá (nén có tổn hao)
a4. Đặc điểm của M-JPEG
Theo quan điểm coi ảnh động là 1 chuỗi liên tiếp các ảnh tĩnh thì khi đó tiêu
chuẩn JPEG được áp dụng cho việc nén ảnh động và được gọi là M-JPEG.
Vì nén M-JPEG chỉ thực hiện trong mỗi ảnh, điều đó dẫn đến hiệu quả (tỷ số
nén) thấp.
Đặc điểm của nén M-JPEG:
-Tín hiệu 48Mbit/s (hệ số nén 3,5) cho kết quả ảnh rất tốt.

-Tín hiệu 36Mbit/s (hệ số nén 4,6) cho kết quả có nhiễu với mực độ
chất lượng nhất định.
-Tín hiệu 24Mbit/s (hệ số nén 7) cho kết quả có nhiễu nhìn thấy, chất
lượng ảnh khôi phục không dùng đủ cho mục đích chuyên dùng.
Trường hợp nén với tỷ số cao sẽ xuất hiện các ô vuông trên ảnh khôi phục,
đó là các đặc trưng của các hệ số DCT. Nếu mã hóa nhiều lần thì hiệu ứng trên sẽ
tăng lên. Các thiết bị sử dụng phương pháp nén theo định dạng M-JPEG không thể
sử dụng cho truyền dẫn, phát sóng vì tốc độ dòng bit sau nén còn tương đối cao.
b. Chuẩn nén MPEG
b1. Khái quát chuẩn nén MPEG
Chuẩn MPEG (Moving Picture Expert Group) là chuỗi các chuẩn nén video
với mục đích là mã hóa tín hiệu hình ảnh và âm thanh cho DSM (Digital Storage
Media) ở tốc độ bit từ 1,5 tới 50Mbit/s và được biết đến như là MPEG-1, MPEG-2,
MPEG-4…Các chuẩn MPEG tiến tới tối ưu hóa cho những ứng dụng video động và
các đặc điểm của nó cũng bao gồm một thuật toán cho việc nén dữ liệu audio với tỷ
lệ vào khoảng từ 5:1 cho tới 10:1.
-Chuẩn MPEG-1: Tiêu chuẩn nén một ảnh động có kích thước 320x240 và tốc
độ bit còn từ 1Mbit/s đến 1,5Mbit/s dùng cho ghi hình trên băng từ và đĩa quang
(CD), đồng thời truyền dẫn trong các mạng (mạng máy tính…)
-Chuẩn MPEG-2: Tiêu chuẩn nén được sử dụng cho các ứng dụng cao hơn với
tốc độ còn ≤ 10Mbit/s để truyền tín hiệu truyền hình số thông thường. Chuẩn
MPEG-2 cũng cho phép mã hóa video với hàng loạt các ứng dụng đòi hỏi có thể
21
phân tích ảnh theo các cách khác nhau như thông tin video trên mạng ISDN sử dụng
ATM.
-MPEG-3: Tiêu chuẩn nén tín hiệu số xuống còn ≤ 50Mbit/s để truyền tín hiệu
truyền hình có độ phân giải cao. Năm 1992, tiêu chuẩn MPEG-3 được kết hợp với
MPEG-2 dùng cho truyền hình thông thường và truyền hình có độ phân giải cao và
có tên chung là MPEG-2.
-MPEG-4: Chuẩn này dành cho nén hình ảnh video với ít khung hình và yêu

cầu làm tươi chậm. Tốc độ dữ liệu yêu cầu là 9÷40Kbit/s. MPEG-4 hoàn thiện vào
thánh 10/1998 nhằm mục đích phát triển các tiêu chuẩn mã hóa mới với tốc độ bit
rất thấp.
-MPEG-7: Chuẩn này được đề nghị vào thánh 10/1998 và kế hoạch trở thành
chuẩn quốc tế vào tháng 9/2001. MPEG-7 sẽ là chuẩn mô tả thông tin của rất nhiều
loại đa phương tiện. Mô tả này sẽ kết hợp với chính nội dung của nó cho phép khả
năng tìm kiếm nhanh và hiệu quả theo yêu cầu người dùng. MPEG được gọi chính
thức là “Giao thức mô tả nội dung đa phương tiện”.
Tiêu chuẩn MPEG là sự kết hợp giữa nén trong ảnh và nén liên ảnh. Tức là
phương pháp nén có tổn hao dựa trên biến đổi DCT và bù chuyển động.
Tiêu chuẩn MPEG không biểu diễn cấu trúc bộ mã hóa một cách chính xác,
chỉ đặc trưng chính xác các thuật toán nén và kích thước dòng số liệu. Cấu trúc một
hệ thống MPEG cơ bản bao gồm 3 phần chính:
-Bộ đồng bộ và dồn kênh tín hiệu Audio và Video
-Hệ thống Video
22
b2. Nguyên lý nén MPEG:
-Nguyên lý hoạt động:
+Cách hoạt động của bộ mã hóa, phụ thuộc vào loại hình ảnh, là mã hóa tại
thời điểm đang xét. Ta thấy rằng nén MPEG là sự kết hợp giữa nén trong ảnh và
nén liên ảnh. Dạng thức đầu vào là Rec-601 4:2:2 hoặc 4:2:0 được nén liên ảnh
trước tạo ra được ảnh khác biệt ở đầu ra bộ cộng. Ảnh này sau đó lại được nén trong
ảnh qua các bước: biến đổi DCT, lượng tử hóa, mã hóa. Cuối cùng ảnh này được
trộn cùng với vector chuyển động đưa đến bộ khuếch đại đệm sẽ thu được ảnh đã
nén.
+Tốc độ bit của tín hiệu video được nén không cố định, phụ thuộc vào nội
dung ảnh đang xét. Ngược lại, tại đầu ra bộ mã hóa, dòng bit phải cố định để xác
định tốc độ cho dung lượn kênh truyền. Do đó tại đầu ra bộ mã hóa phải có bộ nhớ
đệm đủ lớn. Bộ mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm. Khi số liệu
trong bộ nhớ đệm gần bằng dung lượng cực đại, thì các hệ số biến đổi DCT được

lượng tử hóa ít chính xác hơn. Trong trường hợp ngược lại, có nghĩa là bộ nhớ đệm
chứa số liệu quá ít, thì việc lượng tử hóa các hệ số sẽ tăng lên.
23
Điều khiển tốc độ bit
Khuếch
đại đệm
Video
nén
4:2:2
4:2:0
DCT
Lượng tử
hoá
Mã hoá
entropy
Trộn
Σ
Ảnh dự
đoán
Σ
Giải lượng
tử hoá
IDCT
Ảnh so
sánh
Xác định
vectơ chuyển
động
+
-

+
+
Vectơ chuyển động
Video
Điều khiển nhóm
ảnh
Bảng lượng tử
CHƯƠNG II
QUÁ TRÌNH NÉN ẢNH DỰA TRÊN
BIẾN ĐỔI COSIN RỜI RẠC (DCT)
2.1 Nguyên lý chung của nén ảnh dựa trên các phép biến đổi
Hình 2.1 Quá trình nén ảnh bằng các phương pháp biến đổi
2.1.1 Khối định dạng khối và cấu trúc khối ( khối tiền xử lý)
Trước khi thực hiện biến đổi DCT cả ảnh được chia thành các khối lớn riêng
biệt không chồng lên nhau (MB - Marco Block). Mỗi MB bao gồm 4 block các mẫu
tín hiệu chói
Y
U
và 2; 4 hoặc 8 block các mẫu tín hiệu số màu (
R
C
,
B
C
). Số các
block của tín hiệu màu phụ thuộc vào tiêu chuẩn của tín hiệu video.
Các block có cùng kích thước mỗi block là 1 ma trận điểm ảnh 8
×
8 được lấy
từ màn hình theo chiều từ trái sang phải, từ trên xuống dưới. Kích thước block là

8x8 được chọn bởi hai lý do:
+ Thứ nhất, qua việc nghiên cứu cho thấy hàm tương quan suy giảm rất nhanh khi
khoảng cách giữa các pixel vượt quá 8.
+ Thứ hai, là sự tiện lợi cho việc tính toán và thiết kế phần cứng. Nói chung độ
phức tạp về tính toán sẽ tăng nếu kích thước block tăng.
24
Bảng
trọng số
Bảng
Huffman
VLCRLC
Quét
zig-zag
Lượng tử hoá
Biến đổi
Định dạng khối và
cấu trúc khối
Bộ đệm
Lựa chọn tốc
độ dòng bit ra
ảnh nén
Hệ số
cân bằng
Mã DPCM
hệ số DC
Điều khiển đệm
Xác định khối
Phân lớp năng
lượng khối
VLC

RLC
Khối
DCT được
lượngtử
Khối 88
các
điểm
chói
ảnh gốc
Cấu trúc MB phụ thuộc vào loại ảnh quét. Nếu quét liên tục thì các block bao
gồm các mẫu từ các dòng liên tục. Ngược lại trong trường hợp quét xen kẽ, trong 1
block chỉ có các mẫu của 1 nửa ảnh.
Việc chia ảnh thành các ảnh con (block,MB) sẽ thực sự có ý nghĩa cho bước chuyển
vị tiếp theo.
2.1.2 Khối phép biến đổi
Một số phép biến đổi ảnh được sử dụng:
a. Biến đổi Fourier:
Biến đổi Fourier – FT (Fourier Transform) là một phép biến đổi thuận nghịch,
nó cho phép sự chuyển đổi thuận – nghịch giữa thông tin gốc (miền không gian
hoặc thời gian) và tín hiệu được xử lý (được biến đổi). Tuy nhiên ở một thời điểm
bất kỳ chỉ tồn tại một miền thông tin được thể hiện. Nghĩa là tín hiệu trong miền
không gian không có sự xuất hiện thông tin về tần số và tín hiệu sau biến đổi
Fourier không có sự xuất hiện thông tin về thời gian. FT cho biết thông tin tần số
của tín hiệu, cho biết những tần số nào có trong tín hiệu, tuy nhiên nó không cho
biết tần số đó xuất hiện khi nào trong tín hiệu. Nếu như tín hiệu là ổn định
(stationary – có các thành phần tần số không thay đổi theo thời gian) thì việc xác
định các thành phần tần số xuất hiện khi nào trong tín hiệu là không cần thiết.
Phép biến đổi FT thuận và nghịch được định nghĩa như sau:
(2.1)
(2.2)

Phép biến đổi FT cũng có thể được áp dụng cho tín hiệu không ổn định (non-
stationary) nếu như chúng ta chỉ quan tâm đến thành phần phổ nào có trong tín hiệu
mà không quan tâm đến nó xuất hiện khi nào trong tín hiệu. Tuy nhiên, nếu thông
tin về thời gian xuất hiện của phổ trong tín hiệu là cần thiết, thì phép biến đổi FT
không có khả năng đáp ứng được yêu cầu này, đây cũng là hạn chế của phép biến
đổi này. Để có biến đổi Fourier rời rạc –DFT (Discrete Fourier Transform) thì ở
phép tích phân trong biểu thức toán học của biến đổi FT, ta thay bằng phép tổng và
tính toán nó với các mẫu hữu hạn.
25

×