Tải bản đầy đủ (.docx) (13 trang)

Thảo luận Truyền thông đa phương tiện đề tài Nén video.Các chuẩn MPEG.Nén video và audio theo MPEG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (285.41 KB, 13 trang )

Bộ Công Thương
TRƯỜNG ĐẠI HỌC KINH TẾ KỸ THUẬT CÔNG NGHIỆP
KHOA CÔNG NGHỆ THÔNG TIN
o0o
Giảng viên hướng dẫn : Ths:Trần Bích Thảo
Nhóm 5 Lớp ĐH Tin 3A-Nam Định
Sinh viên thực hiện :
Khương Hoàng Hà
Đỗ Ngọc Hậu
Câu hỏi: Nén video.Các chuẩn MPEG.Nén video và audio theo MPEG
Nam Định 04/10/2012

Truyền
thông đa
phương
tiện
VIDEO DATA
II- MỘT SỐ KHÁI NIỆM THUẬT NGỮ
1- Một số khái niệm
+Dữ liệu Video : là dữ liệu kết hợp cả hình ảnh động và âm thanh động trong cùng một
file
+Video camera
Có hai loại camera video – analog và digital
- analog video camera : Video camera chuyển đổi ảnh nó “nhìn thấy” nhờ thấu kính.
Ánh sáng và cường độ màu thu được từ thấu kính sẽ chuyển thành điện thế, ảnh của
vật thay đổi theo thời gian cường độ màu và ánh sáng phát ra trên các phần của sự
vật . Vì vậy tín hiệu thu được từ video loại này được coi là tín hiệu analog vì nó tương
tự như cường độ ánh sáng . Hình ảnh thu được từ Video camera loại này được ghi lên
băng từ
- Digital video
Video số về nguyên tắc đó là dữ liệu tạo ra từ từ giá trị màu của các điểm ảnh (pixel) .Nói


chung dữ liệu video tạo ra từ camera số có chất lượng tốt hơn analog video tạo ra. Lý do
vì chúng ta có thể thay đổi đọ phân giải ảnh. Trong khi đó về nguyên tắc vedeo tương tự
có độ phân giải không hạn chế , song xét cho cùng ảnh chúng ta nhìn thấy lại bị giới hạn
bởi thiết bị.
+ Một số ưu điểm của video số :
- Dễ edit, dễ sửa lỗi để đổi nâng cao chất lượng
- Có thể tạo ra dạng mới vmail- một dạng email có gửi kèm video, dễ truyền giữa các
máy tính.
- Dễ tích hợp text, audio, image.
- Có thể chứa trên các thiết bị có dung lượng lớn dễ bảo quản như CD-ROM, DVD trong
khi đó analog video lưu trữ trên băng từ rất khó bảo quản.
- Video số được ứng dụng trong nhiều lĩnh vực như camera cảnh giới (surveillance
camera, movie camera,…).
Ví dụ với camera cảnh giới người ta thu chỉ 5 ảnh/s khi đó ta có
5x 640x480 x12bit=18,438,000 bit/s tương đương với 2.3 triệu byte/s nếu lưu vài ngày
để kiểm tra thì dung tích chứa sẽ rất lớn.
2- Thiết bị hiển thị
- Thiết bị dùng để hiển thị dữ liệu video phổ biến hiện nay là tivi (television) vì vậy ta tìm
hiểu một số thông tin về nó.
- Tỉ lệ chuẩn giữa chiều rộng và chiều cao của màn hình tivi là :w/h= 4/3 (aspect rate), tỉ lệ
này do Thomas Edison đưa ra từ 1930. Do yêu cầu về chất lượng của một số loại hình dịch vụ
như phim, phim màn ảnh rộng người ta đã chọn các tỉ lệ khác như :

- Trên thế giới hiện hiện dang sử dụng các hệ thống truyền hình sau NTSC ở châu Mỹ ; PAL và
SECAM ở châu Âu và các khu vực khác trên thế giới
- Để người nhận ra sự chuyển động của ảnh các ảnh trên màn hình cần phải làm tươi hay
thay đổi với tốc đô nào đó. Người ta gọi là refresh rate. Để thấy được ảnh chuyển động trơn
tốc độ làm tươi tối thiểu là 15 fps (frame per scond); các camera và project lấy tốc độ 16 fps,
công nghiệp làm phim lấy 24 fps; NTSC lấy 30 fps; và PAL , SECAM lấy 25 fps;
- Ảnh được tạo trên màn hình nhờ các đường quét (scan line), do tỉ lệ chiều rộng và chiều cao

của màn hình là 4/3 do đó số điểm trên mỗi đường phụ thuộc vào số đường quét trên màn
hình. Ví dụ màn hình có 483 đường khi đó số pixel trên mỗi đường là 4/3 x 843= 640 pixel.
II -NÉN DỮ LIỆU VIDEO
1- nguyên tắc nén video
- Để nén dữ liệu video người ta dựa vào hai nguyên tắc :
-vứt bỏ dữ liệu dư thừa về không gian (spatial redundancy) mà nó có trên mỗi ảnh
- Vứt bỏ dữ liệu dư thừa theo thời gian (temporal redundancy) , điều xảy ra do các ảnh video
cạnh nhau tương đối giống nhau.
+ Bỏ dữ liệu dư thừa theo không gian
Thực chất bỏ bớt các phần giống nhau trên một ảnh
+ Bỏ dữ liệu dư thừa theo thời gian
Thực chất bỏ bớt các phần giống nhau trên các ảnh cạnh nhau (sử dụng ảnh I,B, P)
2- Một số phương pháp nén trực quan đơn giản dữ liệu video
a/ phương pháp Subsampling
Bộ mã hóa (encoder )chọn ra các ảnh khác nhau và viết nó vào dòng nén (compressed
stream) cách làm này cho hệ số nén bằng 2. Bộ giải mã đưa vào các ảnh và nhân nó lên
thành hai ảnh.
b/ Differencing (mã các điểm khác nhau):
ảnh được so với ảnh đứng trước nó, nếu sự khác nhau giữa chúng nhỏ (một số ít điểm), khi
đó bộ mã chỉ mã các điểm khác nhau bằng cách viết 3 số vào dòng nén cho mỗi điểm, gồm tọa
độ điểm ảnh và giá trị khác nhau của hai điểm ảnh . Nếu sự khác nhau giữa hai ảnh là lớn ,
trên ảnh hiện thời người ta ghi dòng ra nguyên dạng . Nếu sự sai khác giữa cường độ điểm
ảnh trong ảnh trước và ảnh hiện thời nhỏ hơn ngưỡng nào đó, điểm được coi là không khác
nhau.
c/ Block Differencing (mã các khối khác nhau)
Đây là phương pháp tốt hơn phương pháp differencing, ảnh được chia thành nhiều khối ,
trong mỗi khối B của ảnh hiện thời được so với khối P tương ứng ở ảnh đứng trước nó. Nếu
hai khối khác nhau nhiều hơn số nào đó , thì B được nén bằngg cách ghi lai tọa độ ảnh của
khối, tiếp theo là các giá trị của các điểm ảnh hoặc phần sai khác của các điểm ảnh vào dòng
nén. Ưu điểm của tọa độ khối nhỏ hơn ghi tọa độ điểm ảnh và tọa độ khối chỉ ghi một lần, Ở

bên trong giá trị của tất cả các điểm ảnh, ngay cả khi các điểm ảnh không thay đổi cũng phải
viết vào dòng ra. Mặc dù các các giá trị này được coi là khác nhau nên chúng nhỏ. Do đó
phương pháp này làm nhỏ rất nhiều kích thước khối.
d/ Motion Compensation( bù chuyển động):
Chúng ta biết rằng sự khác nhau giữa các ảnh liên tiếp trong film (movie) rất nhỏ vì nó là
kết quả của chuyển động của camera quay hoặc giữa hai ảnh, đặc tính này được khai thác để
làm tốt hơn cho việc nén ảnh. Nếu bộ mã hóa phát hiện ra rằng phần P của ảnh trước đó
chuyển đến vị trí khác trong ảnh hiện thời , thì P có thể nén bằng cách ghi tiếp theo 3 trường
(item) vào dòng nén, vị trí trước của nó, vị trí hiện thời và thông tin để xác định các biên của
P. Phần sau chúng ta sẽ nói đến bù chuyển động dựa vào(Manning 98)
Về nguyên tắc một phần có thể có mẫu bất kỳ . Trong thực tế chúng ta giới hạn các khối có
kíchd thước như nhau (có thể hình vuông, chữ nhật), bộ mã hóa sẽ scan lần lượt các khối
trên ảnh hiện thời. Với mỗi khối B nó đi tìm trên ảnh trước đó khối C giống hệt (nếu nén
không mất thông tin) hoặc gần giống(nếu nén có mất dữ liệu). Phát hiện ra khối như thế, bộ
mã hóa sẽ viết vào dòng ra sự sai khác giá vị trí hiện thời và vị trí đã gặp trước đó. Sự sai
khác này cho ở dạng
(Cx − Bx, Cy − By) = (Δx,Δy).Nó được gọi là vecto dịch chuyển
Ví dụ: Trong hình này mặt trời và các cây di chuyển về bên phải(do camera chuyển động),
trong khi đó câu bé di chuyển một khoảng cách khác về bên trái. (đó là cảnh chuyển động)
Bù chuyển động rất hiệu quả nếu object dịch chuyển nhưng không thay đổi tỷ lệ hoặc không
quay. Sự thay đổi nhanh cường độ sáng(illuminate) từ ảnh này sang ảnh khác cũng làm giảm
hiệu quả của phương pháp này. Nói chung bù chuyển động cũng là kỹ thuật nén làm mất dữ
liệu.
e/ Frame Segmentation( phân đoạn ảnh):
Ảnh hiện thời được phân chia thành các khối không chồng nhau nonoverlapping blocks) , các
khối có thể là vuông hay chữ nhật, sau đó ta coi rằng chuyển động trong video chủ yếu theo
đường ngang (horizontal), như vậy các khối ngang sẽ làm giảm số vecto chuyển động không
làm giảm tỉ lệ nén. Kích thước khối là quan trọng vì khối lớn sẽ làm giảm cơ hội tìm ra cái
giống nó, khối quá nhỏ thì có quá nhiều vecto chuyển động, trong thực tế người ta lấy kích
thước là bội mũ của 2 để tiện sử lý trong phần mềm như 2,4,8,16

f/ Search Threshold (tìm theo ngưỡng):
Mỗi khối B trong ảnh hiện thời trước tiên được so với bản sao C trong ảnh trước nó, nếu
chúng giống nhau hoặc sự khác nhau giữa chúng dưới ngưỡng qui định khi đó bộ mã hóa coi
như khối không có chuyển động.
- Block Search (tìm khối)
Đây là quá trình mất nhiều thời gian do vậy khi thiết kế thuật toán cần lưu ý. Nếu khối B hiện
thời trong ảnh hiện thời, lúc đó cần tìm trong ảnh trước khối giống hoặc gần giống với B. Việc
tìm kiếm được hạn chế trong một vùng nhỏ (gọi là vùng tìm kiếm) quanh khối B, vùng này
được xác định bởi tham số di chuyển cực đại dx, dy . các tham số này ấn định khoảng cách
tính bằng pixel theo chiều ngang và chiều thẳng đứng cực đại giữa khối B và khối bất kỳ
giống B trong ảnh trước.Nếu B là hình vuông cạnh b, thì vùng tìm kiếm chứa (b + 2dx)(b +
2dy) pixel và sẽ có (2dx+1)(2dy +1) hình khác nhau, chồng nhau bxb hình vuông. Số khối cần
tuyển chọn (candidate) trong vùng này tỉ lệ với dxdy. Hình dưới đây minh họa vùng tìm kiếm.
- Distortion measure (Đo độ sai khác)
Đây là phần quan trọng đối với bộ mã hóa, độ đo sai lệch cho phép chọn khối thích hợp nhất
với khối B, nó phải đơn giản , nhanh và tin cậy. Có một vài cách chọn dẽ đề cập ở section 4.14
Độ sai khác tuyệt đối trung bình ( mean absolutw error) được tính trung bình theo sự sai
khác tuyệt đối giữa Bij trong khối B và điểm tương ứng Cij trong khối tuyển chọn C
(candidate block C)
Độ đo này được tính cho mỗi khối trong số (2dx+1)(2dy +1) khối khác nhau và b xb khối cần
lựa chọn (candidate) có giao. Nếu độ đo của khối C
k
nhỏ hơn ngưỡng thì nó được coi là giống
B
Trái lại sẽ không có khối nào giống B và B được mã không bù chuyển động.
Một cách tự nhiên phát sinh câu hỏi ở đây là điều gì sẽ xảy ra khi khối trong ảnh hiện thời
không trùng với với khối nào trong ảnh trước . Câu trả lời là chúng ta hãy tưởng tượng
camera dịch lia từ trái qua phải , đối tượng mới được đưa vào từ bên phải trong thời gian lia,
khôi bên phải của ảnh có thể chứa các đối tượng không có trong ảnh trước.
- Độ sai khác trung bình bình phương ( mean square difference) là cho ở dạng:

- Độ đo PDC (Pel difference Classification (PDC)
- Pel ở đây được coi là điểm ảnh , tương đương pixel
- Độ đo PDC nó phân loại sự sai khác theo các diểm ảnh, cụ thể là sai khác theo hàng , sau đó
sai khác theo cột
Tín hiệu video sau khiđược số hoá 8 bit có tốcđộ 216 Mb/s.Để có thể truyềntrong một
kênh truyền hình thông thường, tín hiệu video số cần phảiđược nén trongkhi vẫn phảiđảm
bảo chất lượng hìnhảnh.
Nénvideo trong những năm 1950được thực hiện bằng công nghệ tương tự với tỷ số nén
thấp. Ngày nay công nghệ nén đã đạt được những thành tựu cao hơn bằngviệc chuyển đổi tín
hiệu video từ tương tự sang số. Công nghệ nén số (DigitalCompressed)đòi hỏi năng lực tính
toán nhanh. Song ngày nay với sự phát triển củacông nghệ thông tin,điều này không còn
trở ngại.
Như chúng ta biết tín hiệu video có dải phổ từ 0 – 6 MHz, tuy nhiên trong nhiềutrường
hợp năng lượng phổ chủ yếu tập trungở miền tần số thấp và chỉ có rất ít thôngtin
chứađựngở miền tần số cao.
Đối với tín hiệu video số, số lượng bitđược sử dụngđể truyền tải thông tinđối
với mỗi miền tần số khác nhau, có nghĩa là: miền tần số thấp, nơi chứađựng nhiềuthông
tin,được sử dụng số lượng bít lớn hơn và miền tần số cao, nơi chứađựng ítthông tin,được
sử dụng số lượng bít ít hơn. Tổng số bít cần thiếtđể truyền tải thôngtin về hìnhảnh sẽ giảm
một cáchđáng kể và dòng dữ liệuđược “nén ” mà chất lượnghìnhảnh vẫnđảm bảo. Thực chất
của kỹ thuật “nén video số” là loại bỏ đ i các thôngtin dư thừa. Cácthông tin dư thừa trong
nén video số thường là:
+Độ dư thừa không gian giữa các pixel;
+Độ dư thừa thời gian do cácảnh liên tiếp nhau;
+Độ dư thừa do các thành phần màu biểu diễn t ừng pixel có độtương quan cao;
+Độ dư thừa thống kê do các kí hiệu xuất hiện trong dòng bít với xác suất xuất
hiện khôngđều nhau;
+Độ dư thừa tâm lý thị giác (các thông tin nằm ngoài khả năng cảm nhận của
mắt).vv…
Như vậy, mụcđích của nén tín hiệu video là :

-Giảm tốcđộ dòng bít của tín hiệu gốc xuống một giá trị nhấtđịnhđủđểcó
thể tái tạoảnh khi giải nén;
-Giảm dung lượng dữ liệu trong lưu trữ cũng như giảm băng thông cần thiết.
Tiết kiệm chi phí trong lưu trữ và truyền dẫn dữ liệu trong khi vẫn duy trì
chất lượng ảnh ở mức chấp nhận đựơc.
Vớinguyên nhân và mụcđích của việc nén tín hiệuđược trình bày như ở trên,
ngày nay có nhiều các chuẩn nénđã rađời như: JPEG, M-JPEG, MPEG, DV… Trong
đó chuẩn nén MPEG được s ửdụng nhiều trong nén video trong truyền hình với thành
công của chuẩn nén video MPEG-2 trong truyền hình số và chuẩn nén MPEG-4 trong
truyền hình trên mạng Internet
II- Họ chuẩn nén MPEG
MPEG -viết tắt của Moving Pictures Experts Group , nó là tên gọi chỉ nhóm chuyên gia thực
hiện dự án nén dữ liệu media. Dự án này được bắt đầu từ năm1988. Kết quả dự án đã được
thừa nhận là chuẩn ISO (International Standardization Organization) và chuẩn IEC
(International Electrotechnical Committee). Thực chất Mpeg là kỹ thuật nén dữ liệu video, nó
được sử dụng để nén ảnh và âm thanh số và đồng bộ hai loại dữ liệu này.
Để có cái nhìn hệ thống về họ chuẩn Mpeg , chúng ta hãy xem xét các phiên bản của họ chuẩn
Mpeg. Cho đến nay đã có các phiên bản sau :
-Mpeg-1 :phát triển chuẩn nén dữ liệu multimedia (video, audio) dựa trên mục tiêu là tương
tác với CD và thiết bị digital audio broadcasting. Chuẩn này đã rất thành công trong lĩnh vực
thương mại trong thời gian qua. Đến nay người ta vẫn dùng Mpeg-1 cho dữ liệu video và
được kết hợp với kỹ thuật nén audio MP3.
- Mpeg -2 được dành chủ yếu mục tiêu truyền hình số ( digital television). Các kỹ thuật của
nó đáp ứng cho việc nén cởi nén và đồng bộ dữ liệu video trong lĩnh vực truyền hình.
- Mpeg-3 : với mục tiêu nén dữ liệu multimedia tương tác với các đĩa quang có mật độ ghi
cao như HDVD ( High-Definition/Density DVD ). Nhưng kết quả thu được không khác biệt
nhiều với Mpeg-2 , nên người ta bỏ phiên bản này.
- Mpeg-4 với mục tiêu nhằm vào nén, cởi nén dữ liệu multimedia có tốc độ thấp , cỡ vài
nghìn bit trên giây. Nó nhằm vào các thiết bị xử lý multimedia nhỏ, thiết bị cầm tay như video
telephones , mobile phone , thiết bị di chuyển nhanh (các thiết bị multimedia đặt trên xe ) nén

, cởi nén và truyền nhanh các đoạn video ngắn. Một đặc điểm quan trọng của Mpeg-4 là
người ta đã đưa quan điểm xử lý object vào trong quá trình xử lý dữ liệu nhờ đó nó đặt được
nền tảng cho các lĩnh vực liên quan phát triển trong tương lai.
Các chuẩn của Mpeg có vai trò rất quyết định đến tốc độ truy cập dữ liệu.
Chuẩn Mpeg-1 có đốc độ 1.5 Mbit/s . Mpeg-2 có tốc độ thấp nhất 10 Mbit/s. Mpeg -4 nhằm
vào các thiết bị nhỏ , thiết bị cầm tay nên tốc độ truy cập chỉ đạt tối đa 64 Kbit/s . Để hiểu
nguyên lý làm việc của họ chuẩn Mpeg chúng ta sẽ xem xét kỹ thuật nén Mpeg-1.
1- Chuẩn Mpeg-1
Mpeg-1 được thực chất cho dữ liệu video . tài liệu của chuẩn được mô tả trong tài liệu
IS1172-2.của tổ chức ISO.
Dưới đây chúng ta sẽ tìm hiểu một số kỹ thuật sử dụng trong Mpeg-1
a - Tỷ lệ nén video của Mpeg-1
Để có thể sử dụng dữ liệu video, Mpeg-1 cần phải đạt tỉ lệ nén bao nhiêu ?
Để dễ hiểu ta xét ví dụ sau :
- Giả sử ảnh video có độ phân giải 360×288
- Độ sâu của ảnh (depth) 24bit/pixel;
- Tốc độ làm tươi ảnh (refresh rate) 24 frame/s
- dữ liệu âm thanh : tốc độ lấy mẫu 44 KHz ; phân giải 16bit/sample; mode stereo.
Khi đó tốc độ đọc phần dữ liệu ảnh là :360×288×24×24 = 59,719,680 bits/s; Tốc độ đọc dữ
liệu âm thanh : 2×44,000×16 = 1,408,000 bits/s.
Như vậy để đọc cả âm và hình cần tốc độ khoảng 61.1 Mbit/s. Nếu đọc với tốc độ 1,5 Mbit/s
thì hệ số nén cần đạt lớn hơn 40 lần. Ở đây chúng ta chưa tính đến thời gian giải nén. Điều
nay giải thích vì sao Mpeg-1 phải có tỉ lệ nén cao, tốc độ giải nén nhanh.
Lưu ý rằng tốc độ đọc vật lý của các ổ đĩa CD là 150 Kbps – đây là tốc độ cơ bản , kí hiệu là x,
b- Mpeg-1 nén dữ liệu nhờ kỹ thuật chuyển đổi không gian màu
Mỗi ảnh trong dãy ảnh video được chuyển từ không gian màu RGB sang không gian màu Y,
Cb, Cr trong đó Y ứng với thành phần aluminance , Cb, Cr ứng với Chrominance hai thành
phần này tương ứng hue (sắc màu) và saturate (độ đậm nhạt). Dựa vào đặc điểm mắt người
không nhạy cảm với sự thay đổi của Cb, Cr , Mpeg-1 lấy độ phân giải của Cb, Cr bằng nửa độ
phân giải của Y.

c- Mpeg-1 nén dữ liệu và tạo thành các gói (packet)
Mỗi gói được bắt đầu bằng code gồm 32 bit, tiếp theo là header và kết thúc gói bằng mã
endcode 32 bit. ở giữa header và end ode có chứa một số gói.Mỗi gói chứa dữ liệu nén hoặc
audio hoặc video. Kích thước của mỗi gói được xác định trước bởi bộ mã Mpeg (MPEG
encoder theo yêu cầu lưu trữ hoặc thiết bị truyền đi) , điều này giải thích vì sao một packet
không cần đầy đủ các ảnh video, nó có thể là phần nào đó của audio, phần nào đó của ảnh
video.Hình H15 dưới đây mô tả cấu trúc dữ liệu nén của Mpeg-1
d - Mpeg-1 giải nén audio và ảnh động riêng biệt
Bộ giải mã Mpeg-1 nhằm khôi phục lại dữ liệu video , nó gồm 3 lớp (layer).
Lớp giải mã ảnh video, lớp giải mã audio và lớp data system. Lớp data system có nhiệm vụ
đọc và phân tích dữ liệu trong phần header của các gói , các đường dẫn dẫn đến các gói khác,
đồng bộ dữ liệu đã giải nén ở các buffer.
e - Mpeg-1 sử dụng 3 loại ảnh I ,P,B để nén
- Ảnh I (Intra frame, key frame) có thể coi là ảnh gốc, với ảnh này khi giải mã nó không cần
lấy thông tin từ ảnh khác;
- Anhr P (predicted picture ) là ảnh khi giải nén nó phải sử dụng thông tin từ các ảnh trước
nó, thường nó là nén của ảnh I.
- Ảnh B (Bi –directionaly frame ) là ảnh mà khi giải nén nó phải dùng cả ảnh đứng trước và
ảnh sau nó. Ảnh B là ảnh có tỉ lệ nén cao nhất.
Từ khái niệm ảnh I,B,P chúng ta dễ thấy rằng trật tự các ảnh trên đĩa CD khác với trật tự xuất
hiện của các ảnh . Trong hình H2 , dãy số ằm ngang là thứ tự ảnh trên đĩa CD, cột số bên phải
là thứ thự ảnh khi play.
Khi nén Mpeg sử dụng ba kiểu ảnh I,P, B . Các ảnh này được xếp thành từng nhóm, các nhóm
có thể tổ chức thành loại nhóm đóng hoặc nhóm mở (open group, closed group).Nhóm đóng
là nhóm mà khi khôi phục ảnh nó chỉ sử dụng các ảnh trong nhóm, nhóm mở là nhóm có thể
sử dụng ảnh ở ngoài nhóm để khôi phục lại ảnh. Các anh I,P,B ở đầu vào được sắp xếp theo
một trật tự nào đó, sau khi giải nén ta được dãy ảnh mới để hiển thị. Nói chung trật tự hiển
thị khác với trật tự vào. Một vùng của ảnh đang xét khi giải mã có thể phải dùng đến các ảnh
trước, ảnh sau trong nhóm hoặc ngoài nhóm.
f - Mpeg-1 sử dụng phép biến đổi cosin trong quá trình nén

Mỗi ảnh được Mpeg-1 chia thành các khối cơ bản – gọi là macroblock . Khối cơ bản có kích
thước 16 x16, khối này có cùng thành phần luminance.
Mỗi macroblock lại được chia thành 4 khối 8 x 8 (block) và hai khối 8 x 8 cho thành phần
chrominance. Các khối này sẽ được biến đổi cosin để lượng hóa và mã hóa.
Quá trình lượng hóa và mã hóa của Mpeg -1 tương tự như Jpeg .
Khi mã hóa Mpeg và Jpeg khác nhau ở bảng mã và cách làm trong về số nguyên . Mpeg sử
dụng cách làm tròn về số nguyên gần nhất,
g - Mpeg-1 tổ chức ảnh thành các slice
Mỗi ảnh trong Mpeg được tổ chức thành các slice, mỗi slice gồm một số macroblock liền kề
nhau có cùng mức xám, tiêu chuẩn này áp dụng cho các thành phần luminance. Khái niệm
slice tương ứng với một vùng rộng của ảnh gồm các macroblock có cùng mức xám.
SƠ ĐỒ CỦA BỘ MÃ HOÁ VÀ GIẢI MÃ DÙNG MPEG-2
Sơ đồ bộ mã hoá và giải mã MPEG 2 được trình bày trên hình 2.
Mã hoá MPEG-2
Quá trình mã hoá cho P pictures và B pictures được giải thích như sau:
Dữ liệu từ các khối ảnh (macroblocks) cần được mã hoá sẽ được đưa đến cả bộ trừ (Subtractor) và bộ đoán chuyển động
(Motion Estimator). Bộ đoán chuyển động sẽ so sánh các khối ảnh mới được đưa vào này với các khối ảnh đã được đưa
vào trước đó và được lưu lại như là các ảnh dùng để tham khảo (Reference Picture). Kết quả là bộ đoán chuyển động sẽ
tìm ra các khối ảnh trong ảnh tham khảo gần giống nhất với khối ảnh mới này. Bộ đoán chuyển động sau đó sẽ tính toán
vector chuyển động (Motion Vector), vector này sẽ đặc trưng cho sự dịch chuyển theo cả hai chiều dọc và ngang của khối
ảnh mới cần mã hoá so với ảnh tham khảo. Chúng ta lưu ý rằng vector chuyển động có độ phân giải bằng một nửa do thực
hiện quét xen kẽ.
Bộ đoán chuyển động cũng đồng thời gửi các khối ảnh tham khảo này mà chúng thường được gọi là các khối tiên đoán
(Predicted macroblock) tới bộ trừ để trừ với khối ảnh mới cần mã hoá (thực hiện trừ từng điểm ảnh tương ứng tức là Pixel
by pixel). Kết quả là ta sẽ được các sai số tiên đoán (Error Prediction) hoặc tín hiệu dư, chúng sẽ đặc trưng cho sự sai khác
giữa khối ảnh cần tiên đoán và khối ảnh thực tế cần mã hoá.
Tín hiệu dư hay sai số tiên đoán này sẽ được biến đổi DCT, các hệ số nhận được sau biến đổi DCT sẽ được lượng tử hoá
để làm giảm số lượng các bits cần truyền. Các hệ số này sẽ được đưa tới bộ mã hoá Huffman, tại đây số bits đặc trưng cho
các hệ số tiếp tục được làm giảm đi một
cách đáng kể. Dữ liệu từ đầu ra của mã hoá Huffman sẽ được kết hợp với vector chuyển động và các thông tin khác (thông

tin về I, P, B pictures) để gửi tới bộ giải mã.
Hình 2. Sơ đồ bộ mã hoá và giải mã dùng MPEG
Đối với trường hợp P-pictures, các hệ số DCT cũng được đưa đến bộ giải mã nội bộ (nằm ngay trong bộ mã hoá). Tín hiệu
dư hay sai số tiên đoán được biến đổi ngược lại dùng phép biến đổi IDCT và được cộng thêm vào ảnh đứng trước để tạo
nên ảnh tham khảo (ảnh tiên đoán). Vì dữ liệu ảnh trong bộ mã hoá được giải mã luôn nhờ vào bộ giải mã nội bộ ngay
chính bên trong bộ mã hoá, do đó ta có thể thực hiện thay đổi thứ tự các bức ảnh và dùng các phương pháp tiên đoán như
đã trình bày ở trên.
Giải mã MPEG-2
Quá trình khôi phục lại ảnh tại bộ giải mã là hoàn toàn ngược lại. Từ luồng dữ liệu nhận được ở đầu vào, vector chuyển
động được tách ra và đưa vào bộ bù chuyển động (Motion Compensator), các hệ số DCT được đưa vào bộ biến đổi ngược
IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian. Đối với P pictures và B pictures, vector chuyển động
sẽ được kết hợp với các khối tiên đoán (predicted macroblock) để tạo thành các ảnh tham khảo.
2 - Chuẩn MPEG-4
MPEG-4 là chuẩn mới cho dữ liệu audiovisual data.Tuy nhiên nén video và audio vẫn là đặc
điểm nổi trội của Mpeg -4 .Phần này mô tả những nét chính về MPeg4.
Mpeg-4 được bắt đầu từ 5/1991.Năm 1999 công bố chuẩn phiên bản đầu tiên.Năm 2003
Mpeg-4 ISO và IEC công nhận quốc tế . Tài liệu chuẩn mang mã số ISO/IEC 14496.
Dưới đây là một số đặc trưng quan trọng của Mpeg-4 :
a- Có các công cụ (Tools) cơ bản để truy cập dữ liệu multimedia. Nhờ các công cụ này, người
ta có thể indexing, linking , quering,browsing,delivering file, deleting file
b- Có thể kết nối, thay đổi và Edit các bitstream trên các file nén mà không cần cởi nén.
c- Cho phép lai ghép dữ liệu tự nhiên và nhân tao. các cảnh quay từ camera , cùng với text,
các cảnh nhân tạo có thể tổng hợp thành một cảnh mới và nén chung với nhau.
d- Cho phép truy cập trực tiếp hay còn gọi là truy cập random vào dữ liệu
điều này rất quan trọng , làm cho quá trình xử lý hiệu quả.
e. Nén hiệu quả ; do yêu cầu của loại thiết bị mà mpeg-4 phục vụ cho nên nó đỏi hỏi tỉ lệ nén
phải cao, nó phải dùng hòa các yếu tố chất lượng, tốc độ, dung tích nhớ
f. Cùng lúc có thể làm việc với nhiều dòng dữ liệu ( data streams)
g. Rất mạnh trong xử lý lỗi . Do nó phải phục vụ trong điều kiện truyền thông ví dụ nhiễu,
đường truyền bị sự cố tất cả đều có thể sinh ra lỗi.

h. Có khả năng điều chỉnh tốt .Các dòng dữ liệu có thể ở các độ phân giải khác nhau, tốc độ
khác nhau khi giải nén mpeg-4 cho phép đưa về độ phân giải thấp, tốc độ thấp.

×