Tải bản đầy đủ (.docx) (25 trang)

Tổng hợp các câu hỏi thi Xử lý dữ liệu đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (581.3 KB, 25 trang )

TỔNG HỢP CÁC CÂU HỎI THI
MÔN: XỬ LÝ DỮ LIỆU ĐA PHƯƠNG TIỆN – ĐH BÁCH KHOA HÀ NỘI
Câu số 1: Phương pháp SBC (Câu 1 – Đề 1 vs Câu 2 – Đề 4 vs Câu 1 – Đề 5)
1. Trình bày sơ đồ nguyên lý phương pháp mã hóa dải tần (Subband Coding – SBC) (Câu
1,1 – Đề 1) (Câu 1,1 – Đề 5). Giải thích vai trò của băng lọc số (Digital Filter Banks) trong
nguyên lý giảm tần số lấy mẫu và nội suy của phương pháp này (Subsampling and
Interpolation with Band pass Filters) (Câu 2,1 – Đề 4).
Trả lời:
Xét sơ đồ nguyên lý của phương pháp mã hóa dải tần con (Subband Coding – SBC) trong
trường hợp tín hiệu 1 chiều rời rạc.

Phương pháp mã hóa SBC bao gồm các bước sau: Subband và Coding
Quá trình subband được thực hiện như sau:
• Lọc phân tích: tín hiệu ban đầu được đưa qua các bộ lọc nhằm chia tín hiệu thành các
thành phần tín hiệu ứng với các dải tần không bị chồng nhau.
• Tín hiệu của các các dải tần sau khi đi qua bộ lọc được giảm tần số lấy mẫu đi M lần (M là
số dải tần chia tín hiệu).
Quá trình Coding: là quá trình thực hiện lượng tử hóa và mã hóa riêng trên các dải tần số. Quá
trình này đòi hỏi phương pháp lượng tử hóa và mã hóa, thực hiện phân phối dòng bit dựa trên
tín chất của dòng tín hiệu sau bộ lọc. Đây là bước mang lại hiệu quả nén cho toàn bộ quá trình
mã hóa SBC. Trong đó, phân phối bit là việc phân chia số bit hiện có cho mã hóa từng dải, dựa
theo tín hiệu của từng dải do trong từng dải, lượng thông tin là khác nhau. Phân phối bit ảnh
hưởng lớn đến khôi phục dữ liệu sau quá trỉnh giải nén.
Giải thích vai trò của băng lọc số trong giảm tần số lấy mẫu và nội suy của phương pháp
SBC:
Vai trò của băng lọc số (Digital Filter Banks): Băng lọc số trong phương pháp SBC giúp phân
tách tín hiệu nguồn ban đầu thành các tín hiệu trên các băng tần khác nhau, phục vụ cho việc
mã hóa. Trong quá trình giải mã, băng lọc số sẽ kết hợp các tín hiệu trên các băng tần khác
nhau để có thể khôi phục được tín hiệu ban đầu.
Việc giảm tần số lấy mẫu của tín hiệu sau bộ lọc làm phổ tín hiệu rộng ra, trải hết trên trục tần
số, nên số mẫu lúc này cũng giảm theo. Giảm tần số lấy mẫu được thực hiện dựa trên định lý


lấy mẫu Nyquist và hệ quả của định lý Nyquist. Tỷ lệ giảm tần số lấy mẫu phụ thuộc vào tỷ lệ
giữa dải thông của bộ lọc với dải tần tín hiệu vào
2. Trình bày và giải thích sơ đồ mã hóa SBC dùng trong nén ảnh JPEG-2000 như thế nào?
(Câu 1,2 – Đề 1). Giải thích kỹ thuật xử lý đa phân giải được áp dụng như thế nào trong
sơ đồ này (Câu 2,2 – đề 4)


Trả lời: (Câu này không rõ ý hỏi của câu hỏi, nên chỉ làm tạm thời).
Trong nén ảnh JPEG-2000, sơ đồ mã hóa SBC được sử dụng là sơ đồ kỹ thuật băng lọc thông
thấp thông cao:

Đầu vào của sơ đồ là tín hiệu gốc ban đầu, được cho qua 2 bộ lọc thông thấp – thông cao, sau
quá trình này sẽ thu được 2 dải tần con tương ứng với hai bộ lọc, tín hiệu tương ứng hai dải tần
con này sẽ được lấy mẫu xuống hai lần. Quá trình này sẽ được tiếp tục với hai băng tần con
này, tùy thuộc vào ứng dụng mà người thiết kế có thể sử dụng bao nhiêu băng lọc.
Kỹ thuật xử lý đa phân giải được áp dụng trong sơ đồ: Trong sơ đồ này, quá trình subsampling
hay còn gọi là giảm tần số lấy mẫu đi 2 lần chính là quá trình xử lý đa phân giải. Xét với ảnh,
việc giảm tần số lấy mẫu chính là giảm độ phân giải, tùy thuộc vào số lượng băng lọc mà có
thể xác định các độ phân giải khác nhau. Ví dụ: Ảnh ban đầu có độ phân giải NxN pixels, trước
hết áp dụng bộ lọc theo chiều ngang cho từng dòng của dữ liệu ảnh với một bộ lọc thông thấp
và một bộ lọc thông cao, sau đó giảm tần số lấy mẫu ở đầu ra của 2 bộ lọc đi 2 lần, ta được 2
ảnh mới có kích thước (NxN)/2. Tiếp theo, áp dụng 2 bộ lọc thông thấp và thông cao theo
chiều dọc của 2 ảnh mới, ở đầu ra của 2 bộ lọc tiếp tục giảm tần số lấy mẫu đi 2 lần, ta thu
được 4 ảnh có kích thước N/2 x N/2 pixels.
3. Trình bày và giải thích sơ đồ mã hóa SBC dùng trong mã hóa âm thanh dải rộng như thế
nào? (Câu 1,3 – Đề 1) (Câu 2,3 – đề 4)
Trả lời:
Sơ đồ mã hóa SBC dùng trong mã hóa âm thanh



Đặc điểm của các khối chức năng trong sơ đồ mã hóa (sơ đồ a), và sơ đồ giải mã (sơ đồ b).
Đầu vào của sơ đồ mã hóa là tín hiệu gốc ban đầu, đầu ra của sơ đồ là các dòng bit.
• Khối Time/Frequency Mapping: Đây là khối được sử dụng để chia tín hiệu đầu vào thành
các dải tần con (subband), khối này thường là các băng lọc với nhiều bộ lọc có đáp ứng tần
số khác nhau. Đối với âm thanh dải rộng, kỹ thuật băng lọc thông dải được sử dụng, bao
gồm M băng lọc thông dải, sau khi tín hiệu đi qua M băng lọc sẽ thu được M dải tần tương
ứng với từng bộ lọc. Sau đó thực hiện giảm tần số lấy mẫu của mỗi băng tần con đi M lần.
• Khối Psychoacoustic Model: khối này đầu vào là tín hiệu gốc và tín hiệu sau khi đã được
chia thành các subbands. Khối này được sử dụng để tính toán các hiệu ứng che của tín hiệu
đưa vào dựa trên mô hình cảm thụ âm thanh của con người. Tín hiệu này được đưa vào
khối này được tính toán để tìm ra các thành phần tần số có năng lượng nhỏ dưới ngưỡng
nghe và các thành phần tần số bị che bởi các thành phần tần số trên các dải tần khác. Từ đó
tính ra ngưỡng che cho mỗi dải tần và đưa tới khối lượng tử hóa để tiến hành lượng tử. Độ
rộng về thời gian của khối tín hiệu đưa vào khối Psychoacoustic Model để tiến hành phân
tích càng lớn ta thu được hiệu quả nén càng cao.
• Khối lượng tử hóa và mã hóa (Quantizer and Coding): Khối có đầu vào là các subband
được chia sau khi tín hiệu gốc đi qua băng lọc và các hiệu ứng che được tính toán từ khối
Psychoacoustic Model. Nhiệm vụ của khối này là tiến hành lượng tử hóa tín hiệu trên các
subbands một cách phù hợp sao cho số bit sử dụng cho mỗi subband là ít nhất (nhưng vẫn
phải đảm bảo chất lượng của tín hiệu) và sau đó mã hóa tín hiệu trên các subband với
phương pháp mã hóa như Huffman, mã hóa đại số… Ngoài ra, mỗi subband đều có
ngưỡng nghe riêng, khối lượng tử hóa làm nhiệm vụ lượng tử tín hiệu của mỗi subband với
đủ số bit để duy trì khoảng cách giữa nhiễu do lượng tử và ngưỡng nghe của mỗi subband.
Như vậy ta có thể giảm được số bit cần để lượng tử hóa mỗi mẫu tín hiệu của subband tùy
thuộc vào ngưỡng che của subband tương ứng nhờ vậy ta có thể tăng được hiệu quả nén dữ
liệu.
• Khối Frame Packing: Dữ liệu sau khi ta lượng tử và mã hóa được đưa vào khối này để
đóng gói thành các frame và chuyển đi trong hệ thống mạng.
4. Tại sao có sự khác nhau khi áp dụng SBC cho mã hóa ảnh và mã hóa âm thanh dải rộng.
(Câu 1,4 – Đề 1). Tại sao có sự khác nhau khi áp dụng SBC cho mã hóa ảnh JPEG – 2000

và mã hóa âm thanh dải rộng MP3. (Câu 2,4 – Đề 4) (Câu 1,3 – Đề 5)
Trả lời: (Về bản chất câu hỏi đều giống nhau, nên sẽ trả lời chung ý thứ nhất cho cả câu).


Sự khác nhau khi áp dụng SBC cho mã hóa ảnh và mã hóa âm thanh dải rộng.
• Trong nén âm thanh dải rộng, băng lọc được sử dụng là băng lọc thông dải có nhiều bộ lọc
với đáp ứng tần số khác nhau, còn trong nén ảnh sử dụng băng lọc thông thấp – thông cao.
• Nén âm thanh dải rộng có khối tính toán các hiệu ứng che, nén ảnh không có khối chức
năng này và cũng không cần thiết.
• Nén ảnh loại bỏ các thành phần tần số chứa ít thông tin ngay sau quá trình lọc, còn nén âm
thanh dải rộng loại bỏ các thành phần tần số dựa theo ngưỡng nghe.
• Nén ảnh sau đó sử dụng mã hóa dự đoán DPCM và lượng tử hóa vô hướng (Scalar
Quantization). Trong nén âm thanh dải rộng, lượng tử hóa sao cho số bit sử dụng cho mỗi
subband là ít nhất rồi mã hóa tín hiệu dựa trên các subband bằng phương pháp mã hóa
Huffman, mã hóa đại số…
• Nén ảnh không cần có khối frame packing do không cần đóng gói dữ liệu sau lượng tử và
mã hóa thành các frame.
• Có sự khác nhau là do: ảnh và âm thanh có bản chất vật lý khác nhau và cách con người
cảm nhận hình ảnh và âm thanh là khác nhau. Ảnh là thông tin về vật thể hay quang cảnh
được chiếu sáng mà con người quan sát và cảm nhận được bằng mắt và hệ thống thần kinh
thị giác. Trong khi đó âm thanh là các dao động cơ học của các nguyên tử, phân tử hoặc
các hạt vật chất lan truyền trong không gian, được cảm nhận trực tiếp qua tai người bởi sự
va đập vào màng nhĩ, làm rung màng nhĩ và kích hoạt hệ thống thần kinh thính giác. Và
con người nhạy cảm với âm thanh hơn so với hình ảnh.
Câu số 2: Phương pháp mã hóa dự đoán
1. Trình bày sơ đồ nguyên lý phương pháp mã hóa dự đoán DPCM và vai trò của bộ dự
đoán (predictor). (Câu 1,1 – Đề 2). Hãy cho biết tỷ số nén và mức độ tổn hao phụ thuộc
vào các khối xử lý như thế nào trong sơ đồ này? (câu 2,1-Đề 3).
Trả lời:
+ Trình bày sơ đồ nguyên lý phương pháp mã hóa DPCM và vai trò của bộ dự đoán.

Sơ đồ nguyên lý của phương pháp mã hóa dự đoán DPCM. (Ở đây là trình bày sơ đồ nguyên lý
nên chắc chỉ cần vẽ sơ đồ và nêu vai trò cơ bản của các khối chức năng trong đó)

Trong sơ đồ này, có các khối chức năng:
• Bộ lấy mẫu: là quá trính rời rạc hóa tín hiệu tương tự, đây là bước chuyển tín hiệu mang
thông tin dạng liên tục thành tín hiệu mang thông tin rời rạc, bằng phương pháp lấy mẫu
(Sampling) sao cho tín hiệu rời rạc phải mang đầy đủ thông tin của tín hiệu tương tự, để tái
tạo được thông tin một cách trung thực ở đầu thu.
• Bộ dự đoán (Predictor):
Bộ dự đoán được sử dụng để tính toán dự đoán ra các mẫu tín hiệu theo mẫu tại thời điểm
trước (tín hiệu tham chiếu). Trong quá trình dự đoán sẽ có sai số dự đoán (Predictor error).
Cần phải phân biệt giữa sai số dự đoán và sai số lượng tử hóa.
o Sai số dự đoán (prediction error) chỉ sự chênh lệch giữa giá trị dự đoán và giá trị
thực. Nó không làm tổn thất thông tin dẫn đến làm suy giảm chất lượng của ảnh.
Giá trị sai số này quyết định tốc độ bit giảm đi nhiều hay ít, tức là ảnh hưởng đến


hiệu suất nén.
Sai số lượng tử hóa (quantization error) là sai số đặc trưng cho sự tổn thất dữ liệu
dẫn đến làm suy giảm chất lượng ảnh phục hồi.
• Bộ mã hóa (Encoder): là quá trình mã hóa các sai số dự đoán.
+ Hãy cho biết tỷ số nén và mức độ tổn hao phụ thuộc vào các khối xử lý như thế nào
trong sơ đồ này?
Tỷ số nén phụ thuộc vào khối dự đoán vì: quá trình dự đoán mẫu hiện tại dựa trên mẫu trước
đó, do đó, dự đoán càng chính xác thì mức độ sai khác giữa giá trị mẫu thực với giá trị mẫu dự
đoán càng nhỏ nên sẽ cần số lượng bit để mã hóa sai số dự đoán nên tốc độ bit sẽ giảm hoặc
ngược lại, quá trình dự đoán khiến cho sai số dự đoán lớn sẽ ảnh hưởng đến số bit cần để mã
hóa sai số dự đoán này là lớn và tốc độ dòng bit sẽ lớn. Vì vậy, tỷ số nén phụ thuộc vào khối
dự đoán.
Mức độ tổn hao sẽ phụ thuộc vào khối lượng tử hóa (trong sơ đồ nên viết gộp lấy mẫu và

lượng tử hóa làm 1) vì: quá trình lượng tử hóa là quá trình rời rạc hóa các mẫu về miền số
nguyên, do đó, nếu dữ liệu ban đầu là số thực sau khi qua khối lượng tử hóa sẽ được làm tròn
thành số nguyên. Do đó, sự tổn hao phụ thuộc vào khối lượng tử hóa.
2. Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong nén ảnh video? Giải
thích sơ đồ mã hóa DPCM trong nén video. (Câu 1,2) – Đề 2)
Trả lời:
+ Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong nén ảnh video
Dựa trên khái niệm mặt phẳng ảnh (frame) TV chuẩn bao gồm 2 trường, mỗi trường gồm các
dòng được quét chẵn/lẻ của frame ảnh. Ảnh truyền hình được dự đoán là những dòng ảnh đơn
thuần (không chứa đựng tín hiệu âm thanh). Từ phương pháp quét, có các phương pháp dự
đoán trong nén ảnh video như sau:
• Dự đoán Intrafield (Intrafield Prediction): Chỉ sử dụng các điểm ảnh (pixel) thuộc một
½ frame ảnh (hay còn gọi là một mảnh) để tạo dự đoán. Dự đoán trong mảnh không tận
dụng được quan hệ giữa các điểm ảnh lân cận nhau theo chiều đứng nên có thể cho sai số
dự đoán cao.
• Dự đoán Intraframe (Intraframe Prediction): Với sự hỗ trợ của một bộ nhớ mảnh, dự
đoán trong ảnh sử dụng tất cả các điểm ảnh (pixel) thuộc cả hai mảnh của mọt khung để
tạo dự đoán. Như vậy sẽ lợi dụng được quan hệ tương hỗ của các điểm ảnh lân cận theo cả
phương ngang và phương đứng nên dự đoán chính xác hơn, cho sai số dự đoán nhỏ hơn.
• Dự đoán interfield (Interfield Prediction): phương pháp tạo dự đoán này sử dụng cả khung
hiện tại và khung tham chiếu. Dự đoán liên mảnh chỉ sử dụng một mảnh của mỗi khung ở
các khung khác nhau.
• Dự đoán interframe (Interframe Prediction): phương pháp này sử dụng cả hai mảnh của
mỗi khung ở khung hiện tại và khung tham chiếu để dự đoán.
o






a: Dự báo trong mảnh (Intrafield)b: Dự báo trong ảnh (Intraframe)
c: Dự báo liên mảnh (Interfield) d: Dự báo liên ảnh (Interframe
+ Giải thích sơ đồ mã hóa trong nén ảnh video
Do đặc điểm nén ảnh video chia ra làm 2 loại là intraframe và interframe nên mã hóa dự đoán


DPCM trong nén ảnh video cũng chia thành 2 loại:
• Mã hóa dự đoán DPCM Intraframe video
Intraframe được nén như nén ảnh tĩnh (ví dụ theo chuẩn JPEG), trong quá trình nén
intraframe thì mã hóa dự đoán DPCM thường được sử dụng để dự đoán và mã hóa các
thành phần 1 chiều DC của mỗi khối điểm ảnh trong một intraframe. Cụ thể như sau: ảnh
ban đầu được chia thành các block có kích thước 8x8 pixels, mỗi block sẽ được biến đổi
DCT, kết quả sau biến đổi DCT là ma trận có kích thước 8x8, sau đó các ma trận này được
lượng tử hóa dựa trên bảng lượng tử hóa. Kết quả sau lượng tử hóa sẽ là ma trận có kích
thước 8x8 với các giá trị là số nguyên. Thành phần 1 chiều DC chính là giá trị đầu tiên bên
trái của ma trận này. Các giá trị thành phần 1 chiều DC của mỗi block sẽ được mã hóa dự
đoán DPCM.
• Mã hóa dự đoán DPCM Interframe video.
Interframe là chuỗi các frame có mối quan hệ về mặt thời gian, do đó việc mã hóa
interframe giúp giảm độ dư thừa về mặt thời gian. Các frame liên tiếp nhau trong mỗi
chuỗi frame nhìn chung khá giống nhau. Do đó ta có thể sử dụng đặc điểm này để dự đoán.
Để tái hiện sự lặp lại tương tự giữa các frame người ta sử dụng khái niệm “bù chuyển
động” là sự đo lường sự sai khác giữa mối khối điểm ảnh giữa các khung hình. Việc khôi
phục ảnh chính là việc sử dụng vector chuyển động giữa các khối ảnh tương tự giữa khung
hiện tại và khung tham chiếu với sai số chuyển động (phần sai lệch nhỏ nhất giữa hai ảnh).
3. Hãy cho biết bộ dự đoán DPCM được áp dụng như thế nào trong nén ảnh theo chuẩn
JPEG (Câu 2 , 2)– Đề 3).
Trả lời:
Trong nén ảnh JPEG, bộ dự đoán DPCM được sử dụng để mã hóa các thành phần 1 chiều DC.
Ở đây thành phần 1 chiều DC là dữ liệu của phần tử đầu tiên của mỗi block sau lượng tử hóa

được quét zig-zag. Việc sử dụng DPCM chính là tìm ra sự sai khác giữa giá trị của thành phần
1 chiều DC của block hiện tại với giá trị của thành phần 1 chiều DC của block trước đó. Dữ
liệu sau quá trình DPCM sẽ được mã hóa Huffman.
4. Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong mã hóa tiếng nói
thoại? Giải thích sơ đồ mã hóa DPCM trong mã hóa tiếng nói thoại. (Câu 1, 3 – Đề 2)
Trả lời: (Câu này khó trình bày quá!!!)
+ Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong quá trình mã hóa
tiếng nói thoại: Do tính chất của âm thanh tiếng nói thoại, độ tương quan giữa các mẫu tín
hiệu là tương đối lớn. Do đó, người ta áp dụng phương pháp dự đoán DPCM dựa trên dự đoán
mẫu tín hiệu hiện tại dựa trên các mẫu tín hiệu tại thời điểm trước đó. Cụ thể, trong mã hóa
tiếng nói thoại, người ta thường sử dụng phương pháp DPCM dựa trên dự đoán tuyến tính
(Linear Prediction).
+ Giải thích sơ đồ mã hóa DPCM trong mã hóa tiếng nói thoại:

(Vẽ lại hình ảnh trong slide 13 – chapter 3: sơ đồ DPCM tuyến tính)


Giải thích:
Mẫu tín hiệu x[n] đầu vào, bộ dự đoán dự đoán mẫu p[n] dựa trên các mẫu trước đó. Bộ lượng
tử hóa tiến hành lượng tử hóa sự sai khác giữa x[n] và p[n] chính là d[n]. Sai số dự đoán d[n]
sẽ được mã hóa và truyền đi trên kênh truyền, đồng thời được kết hợp với p[n] làm đầu vào để
bộ dự đoán tiến hành dự đoán các mẫu sau đó.
5. Hãy giải thích sơ đồ mã hóa dự đoán được áp dụng trong quá trình nén video, và trình
bày một thuật toán dự đoán trong nén video theo MPEG-1 (Câu 2,3 – Đề 3)
Trả lời:
Sơ đồ mã hóa dự đoán được áp dụng trong quá trình nén video (Theo t, sơ đồ với yêu cầu của
câu hỏi này mình sẽ sử dụng sơ đồ ở slide 12 – chapter 3) vì: trong nén video thì DPCM được
sử dụng trong nén thành phần 1 chiều DC ở intraframe và nén sự sai khác giữa các block ở
frame hiện tại với block của frame tham chiếu. Do đó, sử dụng sơ đồ dạng Closed – Prediction
là hợp lý. Việc trình bày thì sẽ giải thích quá trình thực hiện sẽ giải thích dựa trên 2 quá trình

trong nén video: nén intraframe và nén interframe.
• Nén intraframe: Dữ liệu đầu vào của sơ đồ này là thành phần 1 chiều DC của khối điểm
ảnh sau khi được biến đổi DCT. Thành phần 1 chiều của khối (block) hiện tại sẽ được so
sánh với thành phần 1 chiều của khối (block) trước đó. Sự sai khác của hai thành phần 1
chiều sẽ được mã hóa.
• Nén interframe: Dữ liệu đầu vào của sơ đồ này là khối điểm ảnh (block) của các frame.
Nếu khối điểm ảnh ở frame hiện tại được tìm thấy ở frame tham chiếu, ta sẽ tìm được sự
sai khác giữa hai khối điểm ảnh này đó là một block mới là hiệu của 2 block được nêu ở
trên. Block sai khác này sẽ được biến đổi DCT, lượng tử hóa và cũng được mã hóa DPCM
thành phần một chiều tương tự như nén intraframe. Ngoài ra, sự sai khác về vị trí giữa hai
block của frame hiện tại và frame tham chiều cũng được mã hóa dựa theo nguyên tắc của
mã hóa DPCM.
+ Trình bày một thuật toán dự đoán trong nén video theo chuẩn MPEG-1 (thật sự thì cái
này nó quá chung chung, không hiểu là nên nêu phần nào cả vì nó có nhiều thứ: thuật toán ước
lượng chuyển động, thuật toán so sánh khối,.. Nếu nói thuật toán dự đoán thì không hiểu là nên
nêu về cái gì… Bó tay!!!) Đây là 1 ý, có thể chém theo cái này, hoặc nêu hẳn quá trình thực
hiện ước lượng chuyển động và bù chuyển động
MPEG-1 là sự phối hợp của các kỹ thuật ước lượng chuyển động và bù chuyển động. Về bản
chất thì, dự đoán bù chuyển động ở MPEG-1 chính là khối tiên đoán trong dự đoán DPCM.
Tuy nhiên về mặt tính toán, độ phức tạp của giải thuật, dự đoán chuyển động sẽ tốn chi phí
cao, nhưng bù lại, độ chính xác dự đoán lại cao hơn nhiều so với các giải thuật dự đoán
DPCM.
6. Nén ảnh theo chuẩn JPEG, phương pháp mã hóa dự đoán DPCM được kết hợp với
phương pháp mã hóa dựa trên phép biến đổi DCT như thế nào? (Câu 1,4 – Đề 2)
Trả lời:
Theo chuẩn nén ảnh JPEG, mỗi ảnh được chia thành các block có kích thước 8x8 pixels, mỗi
block này qua phép biến đổi DCT. Đây là quá trình biến đổi tập các giá trị pixel của ảnh trong
miền không gian sang một tập các giá trị khác trong miền tần số sao cho các hệ số trong tập giá
trị mới này có tương quan giữa các điểm ảnh gần nhau nhỏ hơn. Nhiệm vụ của quá trình biến
đổi DCT là tập trung năng lượng vào một số ít các hệ số biến đổi tương ứng với vùng tần số

thấp, dẫn đến có thể cho các hệ số vùng tần số cao về gần 0 hoặc bằng 0 mà không ảnh hưởng
đáng kể đến chất lượng ảnh. Mỗi block sau khi qua biến đổi DCT sẽ là một ma trận 8x8 hệ số
thực, hệ số đầu tiên của ma trận này được gọi là thành phần 1 chiều DC, các hệ số còn lại được
gọi là hệ số xoay chiều AC.
Phương pháp mã hóa dự đoán DPCM được sử dụng trong chuẩn JPEG chính là việc mã hóa dự
đoán các thành phần 1 chiều DC của mỗi block hiện tại so với thành phần 1 chiều DC của


block trước đó.
7. Hãy giải thích nguyên lý bộ dự đoán được áp dụng trong nén ảnh JPEG khác với bộ dự
đoán được áp dụng trong nén video theo chuẩn MPEG như thế nào? Và tại sao? (Câu 2,4
– Đề 3)
Trả lời:

Câu số 3: Nén video số (Đề 3)
1. Trình bày các phương pháp nén ảnh video số. Nén video theo chuẩn MPEG và các chuẩn
H26x dựa trên phương pháp nào? Tại sao? Xét sơ đồ nén video số theo chuẩn MPEG-1,
hãy giải thích vai trò của khối ước lượng chuyển động và bù chuyển động trong quá trình
nén video? (Câu 1,1 – Đề 3)
Trả lời:
Quá trình nén ảnh video gồm các kỹ thuật chủ yếu:
• Nén ảnh video không dùng kỹ thuật ước lượng chuyển động và bù chuyển động. Phương
pháp này ứng dụng để nén intraframe. Nén chuỗi ảnh video bằng cách nén liên tiếp các ảnh
độc lập như JPEG với điều kiện đảm bảo tốc độ khung hình -> tỷ số nén không cao.
• Nén ảnh video dùng kỹ thuật ước lượng và bù chuyển động. Phương pháp này dùng để nén
interframe (các mặt phẳng ảnh cùng 1 cảnh). Dự đoán giữa các frame kết hợp kỹ thuật bù
chuyển động. Các frame liên tiếp trong cùng 1 cảnh của video có sự tương quan cao theo
thời gian. Sự tương quan thể hiện bởi sự dịch chuyển của các đối tượng trong cùng 1 cảnh.
Do đó, thay vì mã hóa toàn bộ ảnh, người ta chỉ mã hóa vector chuyển động và ảnh sai số
dự đoán -> tỷ số nén cao.

2. Giả thiết video số được nén theo chuẩn MPEG-1 có: 352x240 pixels, 30 frame/s, hệ màu
YcrCb, cấu trúc số hóa 4:2:2, đạt được tốc độ dòng bit sau nén là 1,2 Mbps. Hãy tính tỷ
số nén dòng dữ liệu trong trường hợp này. Tại sao cấu trúc số hóa 4:2:2 hoặc 4:2:0 vẫn
cho phép đảm bảo chất lượng video số? (Câu 1,2 – Đề 3)
Trả lời:
Với hệ màu YcrCb có cấu trúc số hóa là 4:2:2 => cần 16 bit để mã hóa cho một pixel. Do đó
tốc độ dòng bit trước nén là:
352x240 pixels x 16 bit/pixel x 30 frame/s = 40.55 Mbit/s.
Vậy tỷ số nén dòng bit là: 40.55 : 1.2 = 34:1.
Cấu trúc số hóa 4:2:2 hoặc 4:2:0 vẫn cho phép đảm bảo chất lượng video số vì: trong nén video
số, không gian màu RGB được chuyển đổi sang không giản màu YcrCb hoặc YUV theo các
cấu trúc số hóa 4:2:2, 4:2:0,… Các cấu trúc số hóa này giúp giảm kích thước của dữ liệu video
số trong quá trình lưu trữ và truyền tải dữ liệu. Ngoài ra, theo kết quả nghiên cứu về độ cảm
thụ của mắt người thì mắt người nhạy cảm với sự thay đổi của độ chói hơn là sự thay đổi về
màu sắc. Do đó, việc sử dụng không gian màu YcrCb hoặc YUV vẫn tạo ra độ cảm thụ tốt mà
lại tăng hiệu quả nén. Vì vậy, các cấu trúc số hóa này được sử dụng trong nén video và cho
phép đảm bảo chất lượng video số.
3. Biết các tham số trong cấu trúc số liệu của video số trên là n = 12, và m = 3 trong đó n là
số frame trong một GOP và m là khoảng cách dự đoán trong kỹ thuật mã hóa dự đoán
theo chuẩn MPEG, hãy cho biết các tham số này ảnh hưởng đến chất lượng video như
thế nào. Trong trường hợp này, hãy cho biết thời gian tối đa để nén một frame I, để nén
frame P là bao nhiêu?
Trả lời:
Các tham số trong cấu trúc số liệu của video số theo chuẩn MPEG-1 là n và m, trong đó:
N: số frame trong một GOP
M: khoảng cách dự đoán.


Theo chuẩn nén video MPEG-1, có 3 loại frame là: frame I (Intraframe) là frame bắt đầu của 1
GOP, frame P: frame dự đoán, frame B: frame dự đoán nội suy hai chiều.

Các tham số trong cấu trúc số liệu của video số ảnh hưởng đến chất lượng video, vì kích thước
của GOP khác nhau sẽ thu được các chất lượng khác nhau, nói cách khác, kích thước của GOP
ảnh hưởng tới tốc độ ghi dữ liệu (bit rate). Do đó, người thiết kế có thể tùy chỉnh chất lượng
video dựa trên tùy chỉnh kích thước của GOP sao cho thích hợp với ứng dụng.
Theo bài ra, n = 12, m = 3, ta có thể biểu diễn chuỗi các frame trong GOP này như sau:
• N = 12 => có 12 frame trong 1 GOP
• M=3 => giữa frame I và frame P hoặc giữa hai frame P liên tiếp sẽ có 2 frame B.
IBBPBBPBBPBB
Với tốc độ khung hình là 30 frame/s, tức là 1 giây sẽ có 3 frame I, và 7 frame P.
 Để nén 1 frame I mất tối đa 1/3 giây.
 Để nén 1 frame P mất 1/3 : 3 = 1/9 giây
Câu số 4: Xử lý dữ liệu đa phương tiện và nén âm thanh (Đề 4)
1. Hãy cho biết vấn đề xử lý dữ liệu đa phương tiện trong truyền thông đa phương tiện gồm
các kỹ thuật xử lý chủ yếu gì? Tại sao? (Câu 1,1 – Đề 4)
Trả lời:
2. Hãy cho biết tại sao phương pháp nén âm thanh hiện nay thường được chia thành 2 loại
chính: mã hóa nén tiếng nói thoại và mã hóa âm thanh dải rộng. (Câu 1,2 – Đề 4)
Trả lời:
3. Tại sao các chuẩn nén của ITU (ví dụ G728, G729,…, GSM) thường được dùng trong các
dịch vụ VOIP hơn là chuẩn nén âm thanh MP3 hiện nay? Trình bày nguyên lý phương
pháp mã hóa tiếng nói CELP. Xét ví dụ tiếng nói được mã hóa theo chuẩn G.729, hãy xác
định tỷ số nén dòng cụ thể trong trường hợp này. (Câu 1,3 – Đề 4)
Trả lời:
• Các chuẩn nén của ITU (ví dụ G728, G729,…, GSM) thường được dùng trong các
dịch vụ VOIP hơn là chuẩn nén âm thanh MP3 hiện nay vì:
Tín hiệu âm thanh được chia thành 2 loại theo 2 dải tần là:
- Âm thanh dải tần cơ sở: là tiếng nói thoại có dải tần từ 30Hz đến 4kHz.
- Âm thanh dải tần rộng: là tiếng hát, âm nhạc,… có dải tần từ 100Hz đến 20kHz.
Theo đó, dữ liệu truyền trong các dịch vụ VOIP chủ yếu là tiếng nói thoại có một số đặc
điểm khi số hóa như sau:

- Giới hạn dải phổ trong khoảng 4kHz.
- Tần số lấy mẫu Fs = 8kHz.
- Lượng tử hóa giá trị: được mã hóa bởi 8 bit.
- Tốc độ cần thiết: 8*8 = 64kbps.
Mặt khác, các chuẩn nén của ITU như GSM là chuẩn nén dành riêng cho âm thanh thoại sử
dụng phương pháp mã hóa lai: kết hợp xử lý và phân tích tiếng nói dựa trên mô hình phát
âm của con người và mã hóa tín hiệu dạng sóng. Âm thanh khi được nén theo chuẩn GSM
thường có tần số lấy mẫu là 8kHz, có tốc độ bit cần thiết thấp, nằm trong khoảng 6,5 đến
13kbps. Âm thanh thoại được nén theo chuẩn GSM có yêu cầu thấp hơn về băng thông
đường truyền, do đó, chuẩn nén này thường được sử dụng nhiều hơn trong dịch vụ VOIP.
Ngoài ra, chuẩn MP3 là một trong những chuẩn nén âm thanh dựa trên phương pháp SBC
được sử dụng chủ yếu trong mã hóa âm thanh dải rộng. Do đó, phương pháp này được xây
dựng dựa trên mô hình cảm thụ âm thanh thính giác con người. Âm thanh khi được nén






theo chuẩn MP3 có thể lấy tần số lấy mẫu là 32kHz, 44.1 kHz, 48kHz… tốc độ bit rất đa
dạng (32kbps, 48kbps…). Do đó MP3 không thích hợp sử dụng trong các ứng dụng VOIP.
Phương pháp mã hóa CELP:
Bên phát và bên thu đều có một bảng mã (codebook) lưu trữ các tín hiệu kích thích tương
ứng với một tập tham số đầu vào của tín hiệu tiếng nói thoại.
Tại bên phát, tiếng nói nguồn sẽ được cho qua bộ phân tích tín hiệu để thu được các tham
số đặc trưng cho tiếng nói. Các tham số này sẽ được đem so sánh với một danh sách tín
hiệu kích thích trong codebook để tìm ra tín hiệu có khả năng tạo dạng sóng giống tín hiệu
ban đầu nhất, khi đó, bên phát sẽ chỉ gửi đi những số thứ tự của tín hiệu kích thích tìm ra
được ở trên.
Tại bên thu, khi nhận được số thứ tự của dạng sóng trên sẽ đem tín hiệu kích thích đã lưu

trữ sẵn để tái tạo lại tiếng nói ban đầu.
Trong CELP có khái niệm codebook: đây là một tập các vector (hay từ mã) kích thích và
mỗi vector có độ dài cố định. Các vector này được tạo thành từ các dãy nhiễu Gauss.
Xét ví dụ tiếng nói được mã hóa theo chuẩn G.729, xác định tỷ số nén tốc độ dòng cụ thể
trong trường hợp này: (không chắc chắn đúng!!!)
- Xét với tín hiệu tiếng nói: Tần số lấy mẫu 8kHz, cần 8 bit để lượng tử hóa một mẫu.
Suy ra, tốc độ dòng là: 8*8 = 64kbps.
- Theo chuẩn G.729 (Slide 15 – Chương 4 – Truyền thông đa phương tiện): tốc độ dòng
là: 8kbps.
- Vậy tỷ số nén trong trường hợp này là: 64:8 = 8:1

Câu số 5: Đề 1
Xét dữ liệu video số theo chuẩn MPEG-1, có các tham số sau:
- Ảnh video: 352x240 pixels, 30 frame/s, hệ màu YcrCb, cấu trúc số hóa 4:2:2
- Audio: 2 channels, 48k sample/s, 16 bits/sample
1. Hãy tính dung lượng dữ liệu video trên đã giải nén cần cho 10 phút thể hiện.
Trả lời:
(Ở câu hỏi này, theo t có hai hướng suy nghĩ).
• Dung lượng dữ liệu cho 10 phút thể hiện chính bằng tổng dung lượng của video và audio.
Nhưng dung lượng video ở đây vẫn được tính với cấu trúc số hóa 4:2:2. Dung lượng ảnh
video cho 10 phút là: 352x240x30x16x10x60 = 2.83 Gbyte. Dung lượng audio là:
2x48x1000x16x10x60 = 0.107 Gbyte. Dung lượng video là: 2.83 + 0.107 = 2.937 Gbytes.
• Do ở đây là dữ liệu video đã giải nén, tức là hiển thị nên hệ màu sẽ là RGB chứ không phải
YcrCb nữa (cái này cô giáo rất hay đề cập). Do đó dung lượng ảnh video là:
352x240x30x24x10x60 = 4.25 Gbytes. Vậy dung lượng video sẽ là: 4.25 + 0.107 = 4.357
Gbyte.
2. Giả thiết video số này được nén theo chuẩn MPEG-1, đạt được tốc độ dòng bit sau nén là
1,2 Mbit/s với tham số cấu trúc số liệu video là: n = 15 và m = 3, trong đó n là số frame
trong một GOP và m là khoảng cách dự đoán trong kỹ thuật mã hóa theo chuẩn MPEG.
Hãy tính tỷ số nén tốc độ dòng bit đạt được trong trường hợp này?

Trả lời (chưa liên quan đến n = 15 và m = 3)
Tốc độ dòng bit trước nén theo là:
352x240x30x16 = 40.55 Mbit/s
Tỷ số nén dòng bit là: 40.55:1.2 = 34:1
3. Tỷ số nén sẽ thay đổi thế nào trong hai trường hợp sau đây:
+ Cấu trúc số hóa là: 4:2:0
+ Tham số cấu trúc số liệu là: n = 10, m = 2


Trả lời
+ Với cấu trúc số hóa là 4:2:0 => cần 12 bit để mã hóa 1 pixel.
Tốc độ dòng bit trước nén là: 352x240x30x12 = 30.42 Mbit/s
Tỷ số nén dòng bit là: 30.42 : 1.2 = 25 : 1.
+ Với tham số cấu trúc số liệu là n = 10, m = 2. Nhận thấy tham số n giảm (từ 15 xuống 10),
tức là trong chuỗi frame sẽ có nhiều frame I hơn => tốc độ dữ liệu sau nén tăng (có thể là tăng
lên 15/10=3/2=1.5 lần) => tỷ số nén giảm (có thể là giảm 1.5 lần)
Câu số 6: Chuẩn MPEG-1 (Câu 2 – Đề 6)
1. Hãy giải thích quá trình xử lý dữ liệu trong sơ đồ nén video theo chuẩn MPEG-1 dưới
đây. Sơ đồ này có yêu cầu xử lý thời gian thực như thế nào?

Trả lời:
+ Quá trình xử lý dữ liệu trong sơ đồ mã hóa video theo chuẩn MPEG-1
Đầu vào của sơ đồ này chuỗi các frame video, đầu ra của sơ đồ chính là chuỗi dòng bit sau
khi mã hóa. Ta sẽ đi vào phân tích cụ thể quá trình xử lý như sau:
Đầu vào là chuỗi các frame ảnh, nếu frame ảnh đầu vào là frame I, thì frame này sẽ được mã
hóa toàn bộ giống như mã hóa ảnh JPEG, tức là, các khối điểm ảnh có kích thước 8x8 pixels sẽ
được biến đổi DCT, được lượng tử hóa, và được mã hóa. Vector chuyển động = 0, frame này
sẽ được lưu vào bộ nhớ làm frame tham chiếu cho các frame sau.
Nếu frame đầu vào là frame P, frame này sẽ được đánh giá chuyển động cùng với frame tham
chiếu I đã được lưu trước đó để tìm ra vector chuyển động và vector chuyển động này sẽ được

mã hóa trực tiếp. Frame P này cũng được khôi phục bằng cách sử dụng vector chuyển động và
frame tham chiếu, sau khi khôi phục sẽ được lưu lại bộ nhớ để sử dụng làm frame tham chiếu
cho frame B.
Nếu frame đầu vào là frame B, thì frame này cũng được đánh giá chuyển động dựa trên 2
frame tham chiếu I và P hoặc 2 frame P. Sau khi xác định được 2 vector chuyển động của
frame B hiện tại với 2 frame tham chiếu thì 2 vector này cũng được mã hóa trực tiếp. Để khôi
phục lại frame B, người ta cũng sử dụng vector chuyển động và frame tham chiếu, đây chính là
khối bù chuyển động.
+ Sơ đồ này yêu cầu xử lý thời gian thực như thế nào?


Trong sơ đồ nén video theo chuẩn MPEG-1, khối “Điều chỉnh” có thể điều chỉnh được sai số
lượng tử hóa gây ra bởi khối “Lượng tử hóa”. Ngoài ra, khối “Điều chỉnh” cũng có thể điều
chỉnh kích thước bộ đệm lưu trữ tạm thời. Từ 2 nhiệm vụ cơ bản đó của khối “Điều chỉnh” ta
có thể tùy chỉnh thay đổi chất lượng video. Đây chính là yếu tố xử lý thời gian thực trong nén
video theo chuẩn MPEG-1.
2. Hãy chỉ ra trong sơ đồ nén video trên kỹ thuật mã hóa dự đoán được áp dụng trong nén
Intraframe và nén Interframe như thế nào? Trình bày một giải thuật đánh giá ước lượng
chuyển động trong sơ đồ nén video trên đây.
Trả lời:
Trong sơ đồ trên, kỹ thuật mã hóa dự đoán được áp dụng trong nén Intraframe và Interframe
như sau:
• Trong nén Intraframe: Mã hóa dự đoán thành phần 1 chiều DC trong nội bộ các khối của
Intraframe.
• Trong nén Interframe: Tìm ra sự sai khác giữa các khối điểm ảnh của các frame kề nhau,
hay nói cách khác là dự đoán chuyển động của block của frame hiện tại với block của
frame tham chiếu.
Trình bày một giải thuật đánh giá ước lượng chuyển động trong sơ đồ nén video theo
chuẩn MPEG-1. Ở đây sẽ có nhiều thuật toán được sử dụng để đánh giá chuyển động tức là
tìm vector chuyển động. Nhưng nguyên tắc chung thì sẽ tìm block của frame tham chiếu có chỉ

số MAE (Mean Absolute Error) nhỏ nhất với block của frame hiện tại. Sẽ trình bày 2 thuật
toán là: TTS và 2D-LOG (có thể chọn 1 trong 2 để trình bày).
- Giải thuật tìm kiếm loga 2 chiều 2D-LOG (2-D Logarithmic Search): giải thuật này có 2 cách
tiếp cận:
• Hướng tiếp cận thứ nhất được đưa ra bởi Jain, với ý tưởng chính là tính toán và so sánh
MAE của 5 nút hàng xóm lân cận để tìm ra MAE nhỏ nhất. Hàm loga (chia 2) được thực
hiện theo 2 trường hợp: điểm gần giống nhất nằm ở trung tâm 5 điểm (hình bên phải) và
điểm gần giống nhất nằm ở biên của vùng tìm kiếm (hình bên trái).



Hướng tiếp cận thứ 2 là tính toán và so sánh MAE của 9 nút, thực hiện lặp
lại hai bước sau cho tới khi vùng tìm kiếm có kích thước là 1 pixel.
o Bước 1: Tìm 1 vị trí trong 9 vị trí có chỉ số MAE nhỏ nhất.
o Bước 2: Tạo vùng tìm kiếm mới có kích thước bằng một nửa kích
thước của vùng tìm kiếm cũ và có vị trí trung tâm là vị trí tìm
được ở bước 1.


-

Hình 2.12: Hướng tiếp cận thứ 2 của thuật toán 2D-LOG
Giải thuật tìm kiếm ba bước TSS (Three Step Search): giải thuật này được thực hiện qua ba
bước sau:
• Bước 1: Xác định kích thước bước dịch ban đầu, kiểm tra 9 điểm.
• Bước 2: Giảm kích thước dựa trên tiêu chuẩn MAD, kiểm tra 8 điểm.
• Bước 3: Lặp lại bước trên, xác định điểm có MAD nhỏ nhất.


Câu số 7: Đồng bộ

1. (Câu 3 – Đề 6): Trình bày các mô hình đồng bộ dữ liệu đa phương tiện và cho biết hiện
nay những mô hình nào thường được áp dụng trong truyền đa phương tiện trên mạng IP.
Trả lời:
Các mô hình đồng bộ DỮ LIỆU ĐPT (chưa xét đến audio/video hay j hết): 6 mô hình
•Mô hình dòng thời gian (Timeline): Các hành động được xác định bởi thời điểm bắt đầu,
thực hiện đồng bộ bám theo thời gian tồn tại của đối tượng. (hình chap9 slide 11)
Mô hình sử dụng 1 dòng thời gian tổng thể. Đồng bộ bám liên tục theo dòng thời gian, vì vậy
yêu cầu cần phải có đồng bộ đồng hồ. Mô hình này cho chất lượng cao nhưng có các yêu cầu
chi phí cao.
•Mô hình điểm tham chiếu (Reference point) : Trong mô hình này thì các thời điểm tham
chiếu hay điểm đồng bộ được xác định bên trong thời gian tồn tại của đối tượng đa phương
tiện, tại thời điểm đó thực hiện đồng bộ thời gian giữa các dòng dữ liệu đa phương tiện để trình
diễn (player).
Mô hình sẽ dùng nhãn thời gian đánh dấu bên trong các đối tượng tại các thời điểm cần đồng
bộ.
•Mô hình phân cấp (Hierarchic): thực hiện theo cơ chế phân cấp thứ tự các đối tượng đồng
bộ theo hình cây. Tuy nhiên nếu thời điểm cần đồng bộ không phải là điểm bắt đầu hay kết
thúc của đối tượng mà là nằm ở giữa thì các đối tượng có thể bị phân mảnh.
•Đồng bộ dựa trên sự kiện (Event based): Thực hiện đồng bộ dựa trên các sự kiện bắt đầu
hoặc kết thúc của một đối tượng. Ở đây các hành động, thao tác được bắt đầu và kết thúc tại
những thời điểm xác định. Ví dụ: trong một ứng dụng tương tác, việc ấn một nút, kích hoạt


một menu sẽ làm hiển thị lên màn hình một ảnh và chơi một đoạn audio số…
•Đồng bộ audio-video thời gian thực tại nơi nhận : Mô hình này sẽ thiết lập lại quan hệ thời
gian giữa các gói dữ liệu audio – video để trình diễn liên tục, cảm thụ trung thực tại nơi nhận
so với nguồn. Kĩ thuật này bao gồm:
+ Điều độ trình diễn hướng thời gian
+ Điều độ trình diễn dựa trên bộ đệm dữ liệu nhận
•Tích hợp audio–video: sự kết hợp, bổ sung vào hệ thống hiện có các loại dữ liệu, các ứng

dụng và trình diễn thể hiện đa phương tiện (tích hợp trong định dạng file, vào định dạng Web,
tích hợp vào CSDL…).
Hiện nay những mô hình thường được áp dụng trong truyền thông đa phương tiện trên
mạng IP là:
2. (Câu 2 – Đề 2): Xét nguyên tắc đồng bộ audio – video được biểu diễn trong hình dưới đây.
Hình (Slide 17 – Chương 9)
2.1.
Giải thích nguyên tắc trên đây theo mô hình đồng bộ nào? Tại sao dòng audio
được coi là chủ?
Trả lời:
Đây là mô hình Đồng bộ audio -video thời gian thực tại nơi nhận, sử dụng kĩ thuật
đồng bộ theo dòng audio.
Dòng audio được coi là chủ vì (không chắc lắm):
+ Dòng audio là chủ (principle jet) vì con người nhạy cảm với âm thanh hơn so với
hình ảnh. Dòng video (slave jet) được đồng bộ theo dòng audio.
+ Tại các điểm đồng bộ: nhãn thời gian của gói tin của dòng video được so sánh với
nhãn thời gian của gói tin dòng audio. Nếu một frame video bị trễ quá giới hạn sẽ bị
loại bỏ.
2.2.

Hãy giải thích nguyên tắc đồng bộ audio – video và ý nghĩa của các tham số jitter,
skew trong sơ đồ thời gian trên.
Trả lời:
Nguyên tắc đồng bộ: âm thanh và hình ảnh được truyền theo 2 dòng khác nhau (tốc độ
2 dòng dữ liệu có bản chất và yêu cầu hoàn toàn khác nhau), cần phải được xác lập
đồng bộ audio-video tại nơi nhận đảm bảo thời gian thực.Vấn đề ở đây là thiết lập lại
quan hệ thời gian giữa các gói dữ liệu audio-video để trình diễn liên tục, cảm thụ trung
thực tại nơi nhận so với nguồn.
Ý nghĩa các tham số: (xem slide chap9 page 17)
+ Jitter (độ trễ biến thiên) : là sự khác nhau tức thời về thời gian trễ các dòng videoaudio

+ Skew: độ lệch về thời gian giữa 2 dòng audio và video

2.3.

-

Thế nào là hiệu ứng che (masking effects) trong mô hình cảm thụ âm thanh. Hãy
cho biết tại sao các phương pháp mã hóa tiếng nói thoại không xét đến hiệu ứng
che? Hãy trình bày nguyên tắc mã hóa âm thanh dải rộng dựa trên hiệu ứng che
như thế nào?
Trả lời:
Hiệu ứng che: Hiểu là âm lớn át âm bé, âm mạnh át âm yếu.
Có 3 loại hiệu ứng che:
Threshold in quiet: ngưỡng che về biên độ âm – ngưỡng im lặng
Frequency masking: Che về tần số.
Temporal masking : Che về thời gian.
Phương pháp mã hóa tiếng nói thoại không xét đến hiệu ứng che Vì:


-

Nguyên tắc mã hóa âm thanh dải rộng dựa trên hiệu ứng che.
Bộ mã hóa chi phổ tần số (20Hz đến 20kHz) thành 32 dải nhỏ (sub-band). Mỗi sub-band giữa 1
phần nhỏ của phổ.

Câu số 8: (Câu 2 – Đề 5):
Xét sơ đồ khung của phương pháp nén ảnh dựa trên phép biến đổi trong hình sau (Hình ảnh
trong slide 6 – Chương 6)
1. Hãy cho biết chức năng, nhiệm vụ của từng khối trong sơ đồ này.
Trả lời:

Trong sơ đồ khung này chia ra làm 2 phần: phía trên là nén, phía dưới là giải nén.
Xét phần nén trong sơ đồ bao gồm có 3 khối chức năng:
• Khối T hay còn gọi là khối Transform: đây là khối thực hiện biến đổi dữ liệu ảnh gốc sang
một miền không gian khác.
• Khối Q hay còn gọi là khối Quantization: là khối lượng tử hóa thực hiện biến đổi miền dữ
liệu số thực sau biến đổi sang miền số nguyên. Đây là khối quyết định sự mất mát thông tin
trong quá trình nén.
• Khối E hay còn gọi là khối Encode: là khối mã hóa dựa trên các phương pháp mã hóa như
VLC (Variable Length Coding), …
2. Phân tích các đặc điểm cho yêu cầu kỹ thuật nén dựa trên phép biến đổi và cho biết hiện
nay kỹ thuật này đã được dùng trong các chuẩn nén nào đối với nén ảnh, nén video, nén
audio? Phương pháp nén dựa trên phép biến đổi có ảnh hưởng như thế nào đến chất
lượng bộ mã hóa nén dữ liệu (Coder) trong truyền thông đa phương tiện.
Trả lời:

Câu số 9: (Câu 3 – Đề 5):
Hãy giải thích quá trình xử lý dữ liệu trong sơ đồ nén ảnh theo chuẩn JPEG dưới đây và trình bày thuật
toán xử lý dữ liệu của khối đầu tiên trong sơ đồ này. (Hình ảnh trong slide 32 – Chương 6)
Trả lời:
Từ sơ đồ nén ảnh theo chuẩn JPEG (slide 32 – chapter 6). Ta đi giải thích chức năng của mỗi khối chức
năng như sau:
- Color Converter: Đây là khối thực hiện biến đổi không gian màu từ RGB sang YcrCb (hoặc
YUV) tức là: tăng thành phần độ chói Y, giảm các thành phần màu sắc U, V (do mắt người
nhạy cảm với độ sáng hơn màu sắc).
- Level Offset: Đây là khối thực hiện việc xử lý dữ liệu cho các thành phần của hệ màu YUV
(hoặc YcrCb). Các tín hiệu màu U, V có biên độ cực đại là (giá trị nhị phân trong hệ thống lấy
mẫu 8 bit), còn tín hiệu Y có một khoảng cực đại từ 0 đến 255 giá trị. Để đơn giản cho việc
thiết kế bộ mã hóa DCT, tín hiệu Y được dịch xuống dưới bằng cách trừ 128 từng giá trị của
mỗi điểm ảnh (pixel) trong khối để có khoảng cực đại của tín hiệu tương tự như của các tín
hiệu U và V. Ở phần giải mã DCT, giá trị 128 sẽ được cộng vào các thành phần độ chói.

- Khối 8x8 DCT: đây là khối thực hiện chia ảnh thành các khối có kích thước 8x8 pixel. Nhằm
mục đích giảm thời gian tính toán cũng như là tăng khả năng chính xác khi thực hiện tính toán.
Do các điểm ảnh lân cận có độ tương quan cao, do đó phép biến đổi DCT cho từng khối nhỏ sẽ
tập trung năng lượng vào một số ít các hệ số biến đổi, việc loại bỏ một số mức năng lượng thấp
trong khối chỉ tạo ta mất mát thông tin cục bộ giúp nâng cao chất lượng hình ảnh.


-

Khối Uniform Quantization: Đây là khối lượng tử hóa, thực hiện chuyển đổi giá trị của mỗi
khối 8x8 pixels từ miền số thực sang số nguyên, do kết quả sau khi biến đổi DCT là miền
không gian số thực. Việc thực hiện lượng tử hóa là điểm mấu chốt trong việc xác định độ mất
mát thông tin của các quá trình nén. Ngoài ra, khối lượng tử hóa giúp việc xác định năng lượng
được tập trung chủ yếu ở miền tần số thấp, các dữ liệu ở miền tần số cao của mỗi khối sau
lượng tử hóa sẽ có giá trị bằng 0 nên việc loại bỏ các thành phần không cần thiết này sẽ dễ
dàng hơn.
- Sau lượng tử hóa: mỗi khối điểm ảnh 8x8 pixels sẽ có 2 thành phần là: thành phần 1 chiều DC
và thành phần xoay chiều AC.
• Thành phần 1 chiều DC là giá trị trung bình của các thành phần khác trong ma trận sau
lượng tử hóa. Thành phần 1 chiều này sẽ được thực hiện mã hóa dự đoán DPCM với các
thành phần 1 chiều của các khối điểm ảnh khác.
• Thành phần xoay chiều AC là giá trị của các thành phần khác trong ma trận sau lượng tử
hóa. Ma trận này sẽ được thực hiện quét Zig – Zag nhằm mục tích tăng hiệu năng tính
toán. Thông thường các hệ số tương ứng tần số cao có giá trị bằng 0 nên khi quét Zig zag
sẽ tạo ra nhiều dãy hệ số 0 liên tiếp. Sau đó, sử dụng các thuật toán mã hóa có độ dài thay
đổi VLC (ví dụ Huffman, …) để mã hóa các thành phần này.
+ Trình bày thuật toán xử lý ở khối đầu tiên của sơ đồ:
Trong khối đầu tiên là khối Color Converter: đây là khối thực hiện việc chuyển đổi hệ màu RGB sang
hệ màu YUV hoặc YcrCb.
- Đối với hệ màu YUV, thuật toán biến đổi giá trị của mỗi điểm ảnh như sau:

• Y = 0.299*R + 0.587*G + 0.144*B
• U = -0.147*R – 0.289*G + 0.436*B = 0.492* (B – Y)
• V = 0.615*R – 0 .515*G – 0.100*B = 0.877* (R – Y)



1.Sơ đồ nguyên lý phương pháp mã hóa DPCM và vai trò bộ dự đoán
Sơ đồ nguyên lý

Điều xung mã sai phân (DPCM – Differentical Pulse Code Modulation) là phương pháp nén dữ liệu có
mất mát thông tin. Cơ sở của phương pháp này dựa trên mã hóa dự đoán, thường đước sử dụng đối với
các tín hiệu lấy mẫu có độ tương quan mạnh (nghĩa là hai mẫu gần nhau là khá tương tự nhau), có quan
hệ lân cận giữa các mẫu, như tín hiệu ảnh video, tín hiệu tiếng nói… Như vậy sẽ có nhiều lợi ích khi mã
hóa sự khác nhau giữa các mẫu kế cận thay cho mã hóa giá trị tuyệt đối của mỗi mẫu.
Nguyên tắc của mã hóa dự đoán :
Mã hóa sự sai khác giữa các mẫu : mẫu dự đoán theo thời điểm trước và mẫu hiện tại.
Giá trị mẫu được giải mã dựa trên sự sai khác và giá trị dự đoán ở thời điểm trước nó.
Như vậy có thể thấy rằng thay vì truyền đi toàn bộ thông tin của các mẫu, ta chỉ truyền đi sự sai lệch giữa
các mẫu. Điều này cho phép đạt được hiệu quả nén cao hơn nhiều so với việc mã hóa và truyền đi giá trị
của từng mẫu riêng biệt.

Tín hiệu đầu vào được đi qua bộ lấy mẫu để tiến hành lấy mẫu tín hiệu,sau đó được mã hóa ở bộ mã hóa
(mã hóa sự sai khác giữa các mẫu thông qua các mẫu trước nó dựa vào bộ dự đoán),sau đó được truyền
đi.Phía nhận sẽ giải mã lại tín hiệu bằng bộ giải mã ,dựa vào bộ dự đoán khôi phục lại tín hiệu ban đầu
Vai trò của bộ dự đoán:
Do độ tương quan giữa các mẫu tín hiệu như tín hiệu tiếng nói, tín hiệu video,... là khá lớn nên có thể thực
hiện dự đoán một cách gần đúng một giá trị mẫu nào đó từ một số mẫu trước đó.
Bộ dự đoán được sử dụng để tính toán dự đoán ra các mẫu tín hiệu theo mẫu tại thời điểm trước (tín hiệu
tham chiếu).
Trong quá trình dự đoán sẽ có sai số dự đoán(Pridection error). Cần phân biệt giữa sai số dự đoán và sai

số lượng tử. Hai khái niệm này có bản chất khác nhau :


Sai số dự đoán (prediction error) chỉ là sự chênh lệch giữa giá trị dự đoán và giá trị thực. Nó không làm
tổn thất thông tin dẫn đến suy giảm chất lượng ảnh. Giá trị sai số này quyết định tốc độ bit giảm đi nhiều
hay ít, tức ảnh hưởng đến hiệu suất nén.
Sai số lượng tử (quantization error) là sai số đặc trưng cho sự tổn thất dữ liệu dẫn đến làm suy giảm chất
lượng ảnh phục hồi.
2.Bộ dự đoán được thực hiện thế nào khi áp dụng DPCM trong nén ảnh video.Giải thích sơ đồ mã hóa
DPCM trong nén video
Phương pháp DPCM dùng trong nén ảnh video:



Mã hóa dự đoán DPCM Intraframe video
Mã hóa dự đoán DPCM Interframe video


a: Dự báo trong mảnh (Intrafield)b: Dự báo trong ảnh (Intraframe)
c: Dự báo liên mảnh (Interfield) d: Dự báo liên ảnh (Interframe
a. Dự đoán Intrafield (Intrafield Prediction):
Chỉ sử dụng các điểm thuộc nửa ảnh (một mảnh) để tạo dự đoán. Dự đoán trong mảnh không tận dụng
được quan hệ giữa các điểm ảnh lân cận nhau theo chiều đứng nên có thể cho sai số dự đoán cao.
b. Dự đoán Intraframe (Intraframe Prediction):
Với sự hỗ trợ của một bộ nhớ mảnh, dự đoán trong ảnh sử dụng tất cả các điểm thuộc cả hai mảnh của
một khung để tạo dự đoán. Như vậy sẽ lợi dụng được quan hệ tương hỗ của các điểm lân cận theo cả
Phương ngang và Phương đứng nên dự đoán chính xác hơn, cho sai số dự đoán nhỏ hơn.
c. Dự đoán Interfield (Interfield prediction):
Phương pháp tạo dự đoán này sử dụng cả khung hiện hành và khung tham chiếu khác. Dự đoán liên mảnh
chỉ sử dụng một mảnh (chẵn hoặc lể) ở các khung khác nhau.

d. Dự đoán interframe (Interframe prediction):
Phương pháp này sử dụng cả hai mảnh ở các ảnh kề nhau.
3. Bộ dự đoán được thực hiện thế nào khi áp dụng DPCM trong mã hóa tiếng nói.Giải thích sơ đồ mã hóa
DPCM trong mã hóa tiếng nói thoại


Bộ dự đoán được thực hiện thế nào khi áp dụng DPCM trong mã hóa tiếng nói:dự đoán các mẫu tín hiệu
theo mẫu tại thời điểm trước (tín hiệu tham chiếu).
Sơ đồ mã hóa DPCM trong mã hóa tiếng nói thoại

Giải thích:Mẫu x(n) đầu vào,bộ dự đoán dự đoán mẫu x’(n),bộ lượng tử hóa tiến hành lượng tử hóa sự sai
khác giữa x(n) và x’(n),đầu ra là d’(n).d’(n) được mã hóa và truyền đi trên kênh truyền,đồng thời được kết
hợp với x’(n) làm đầu vào để bộ dự đoán tiến hành dự đoán các mẫu sau đó.
4. Nén ảnh theo chuẩn Jpeg,phương pháp DPCM được kết hợp với phương pháp mã hóa dựa trên biến đổi
DCT như thế nào ?
DPCM dùng trong JPEG để mã hóa thành phần DC ..
Từng thành phần DC của mỗi block được mã hóa DPCM sau đó mã hóa Huffman
DiffDC(blocki) = DC(blocki) – DC(blocki–1)


Bài 2:
1.
- Mô hình trong ảnh là mô hình đồng bộ theo dòng audio. Dòng dữ liệu audio có vai trò là chủ
(principle jet) vì dòng video (slave jet) được đồng bộ theo dòng audio.
2.
-

Nguyên tắc: Dòng dữ liệu audio có vai trò là chủ (principle jet), dòng video (slave jet) được đồng

-


bộ theo dòng audio.
Tại các điểm đồng bộ: nhãn thời gian của gói tin của dòng video được so sánh với nhãn thời gian
của gói tin dòng audio. Nếu một frame video bị trễ quá giới hạn sẽ bị loại bỏ.

Cảm thụ độ lệch giữa audio và video:
-

Vùng đồng bộ (in synchronization): độ lệch cho phép từ -80 ms đến +80 ms
Vùng mất đồng bộ (out synchronization): độ lệch từ -160 ms đến +160 ms
Vùng trung gian (transient): độ lệch khoảng +80 đến +160 và -160 đến -80
- Độ rung trễ ‘jitter’: sự khác nhau tức thời về thời gian giữa các dòng video – audio
- Độ lệch ‘skew’: độ lệch về thời gian giữa hai dòng audio – video
- Độ trễ điểm đầu cuối ‘end – to – end delay’ được định nghĩa là toàn bộ thời gian trễ từ
khi âm thanh,hình ảnh được hình thành ở điểm nguồn,được truyền qua mạng đến điểm
đích thể hiện.

3.Thế nào là hiệu ứng che
Hiệu ứng che là hiện tượng khi 1 hoặc 1 số âm thanh tuy tồn tại trong không gian (vẫn nằm trong
dải tần số mà con người cảm nhận được) nhưng tai ta không nghe thấy do 1 số lý do nhất định (biên độ
nhỏ hoặc bị âm thanh khác lấn át) hiện tượng này được gọi là che hoàn toàn. Một trường hợp khác của
hiệu ứng che là che một phần khi đó âm thanh bị che không biến mất hoàn toàn mà vẫn có thể cảm nhận
được tuy nhiên với một biên độ thấp hơn (âm thanh trở nên bé hơn). Các giá trị của hiệu ứng che chủ yếu
được xác định dựa trên thực nghiệm và có giá trị không giống nhau đối với từng người. Có 3 hiệu ứng che
là :
- Ngưỡng nghe (Threshold in Quiet)
- Che về mặt tần số (Frequency masking)
- Che về mặt thời gian (Temporal masking)
Tại sao các phương pháp mã hóa tiếng nói thoại ko xét đến hiệu ứng che:
Bởi vì tai người không cảm nhận được những âm thanh bị che đi bởi các âm thanh khác có năng lượng

lớn hơn một mức nhất định).Tiếng nói thoại trong khoảng 300-3kHz,đại loại là ta không thể nghe thấy
những âm thanh đã bị che.(???)
Giải thích nguyên tắc mã hóa âm thanh dải rộng dựa trên hiệu ứng che:
Nén âm thanh tiếng nói kết hợp với mô hình cảm nhận âm thanh là phương pháp giảm lượng dữ liệu cần
thiết khi số hóa các tín hiệu âm thanh. Cơ sở chính của phương pháp nén này đó là một số tín hiệu âm
thanh có khả năng gây kích thích mạnh lên não bộ và khiến não bộ bỏ qua không xử lí những tín hiệu âm
thanh nhất định khác. Nói cách khác, một âm thanh có thể che lấp những âm thanh khác, vì vậy ta có thể


lợi dụng điểm này và bỏ qua không mã hóa những âm thanh đó. Ta có thể kể ra đây một vài ví dụ là
AAC, ATRAC….

Hình 2.5 Sơ đồ quá trình nén mã hóa
Trong hình 2.5 ở trên ta có thể thấy các bước chính của quá trình nén. Tín hiệu đầu vào được chia
ra thành nhiều dải tần số khác nhau, trải rộng trên khắp phổ tần số. Sau khi thực hiện xong việc
phân chia, ta có thể xử lí từng dải tần số đó một cách riêng rẽ, dựa vào các đặc điểm của quá trình
cảm nhận âm thanh của cơ quan thính giác của con người và từ ảnh hưởng che của các dải tần số
xung quanh, từng dải sẽ có 1 ngưỡng nghe mới nhất định. Nếu như dải nào có cường độ thấp hơn
ngưỡng nghe đó thì ta có thể loại bỏ nó đi (vì dải này đã bị che bởi các dải lân cận và tai người
không thể cảm nhận được nó nữa).
Đối với những dải có cường độ cao hơn ngưỡng nghe mới thì quá trình mã hóa sẽ được thực hiện. Tín
hiệu có cường độ càng cao thì con người sẽ càng cảm nhận được nó một các rõ ràng, vì vậy nó sẽ được
mã hóa bởi nhiều bit hơn so với những tín hiệu có cường độ thấp.


×