Đề thi và đáp án môn xử lý dữ liệu đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (754.31 KB, 33 trang )

TỔNG HỢP CÁC CÂU HỎI THI
Câu số 1: Phương pháp SBC (Câu 1 – Đề 1 vs Câu 2 – Đề 4 vs Câu 1 – Đề 5)
1. Trình bày sơ đồ nguyên lý phương pháp mã hóa dải tần (Subband

Coding – SBC) (Câu 1,1 – Đề 1) (Câu 1,1 – Đề 5). Giải thích vai trò của
băng lọc số (Digital Filter Banks) trong nguyên lý giảm tần số lấy mẫu
và nội suy của phương pháp này (Subsampling and Interpolation with
Band pass Filters) (Câu 2,1 – Đề 4).
Trả lời:
Xét sơ đồ nguyên lý của phương pháp mã hóa dải tần con (Subband
Coding – SBC) trong trường hợp tín hiệu 1 chiều rời rạc.

Phương pháp mã hóa SBC bao gồm các bước sau: Subband và Coding
Quá trình subband được thực hiện như sau:
• Lọc phân tích: tín hiệu ban đầu được đưa qua các bộ lọc nhằm chia
tín hiệu thành các thành phần tín hiệu ứng với các dải tần không bị
chồng nhau.
• Tín hiệu của các các dải tần sau khi đi qua bộ lọc được giảm tần số lấy
mẫu đi M lần (M là số dải tần chia tín hiệu).
Quá trình Coding: là quá trình thực hiện lượng tử hóa và mã hóa riêng
trên các dải tần số. Quá trình này đòi hỏi phương pháp lượng tử hóa và
mã hóa, thực hiện phân phối dòng bit dựa trên tín chất của dòng tín hiệu
sau bộ lọc. Đây là bước mang lại hiệu quả nén cho toàn bộ quá trình mã
hóa SBC. Trong đó, phân phối bit là việc phân chia số bit hiện có cho mã
hóa từng dải, dựa theo tín hiệu của từng dải do trong từng dải, lượng
thông tin là khác nhau. Phân phối bit ảnh hưởng lớn đến khôi phục dữ
liệu sau quá trỉnh giải nén.
Giải thích vai trò của băng lọc số trong giảm tần số lấy mẫu và nội suy
của phương pháp SBC:
Vai trò của băng lọc số (Digital Filter Banks): Băng lọc số trong phương
pháp SBC giúp phân tách tín hiệu nguồn ban đầu thành các tín hiệu trên

các băng tần khác nhau, phục vụ cho việc mã hóa. Trong quá trình giải
mã, băng lọc số sẽ kết hợp các tín hiệu trên các băng tần khác nhau để có
thể khôi phục được tín hiệu ban đầu.
Việc giảm tần số lấy mẫu của tín hiệu sau bộ lọc làm phổ tín hiệu rộng
ra, trải hết trên trục tần số, nên số mẫu lúc này cũng giảm theo. Giảm tần
số lấy mẫu được thực hiện dựa trên định lý lấy mẫu Nyquist và hệ quả
của định lý Nyquist. Tỷ lệ giảm tần số lấy mẫu phụ thuộc vào tỷ lệ giữa
dải thông của bộ lọc với dải tần tín hiệu vào
2. Trình bày và giải thích sơ đồ mã hóa SBC dùng trong nén ảnh JPEG2000 như thế nào? (Câu 1,2 – Đề 1). Giải thích kỹ thuật xử lý đa phân
giải được áp dụng như thế nào trong sơ đồ này (Câu 2,2 – đề 4)
Trả lời: (Câu này không rõ ý hỏi của câu hỏi, nên chỉ làm tạm thời).
Trong nén ảnh JPEG-2000, sơ đồ mã hóa SBC được sử dụng là sơ đồ kỹ
thuật băng lọc thông thấp thông cao:

Đầu vào của sơ đồ là tín hiệu gốc ban đầu, được cho qua 2 bộ lọc thông
thấp – thông cao, sau quá trình này sẽ thu được 2 dải tần con tương ứng
với hai bộ lọc, tín hiệu tương ứng hai dải tần con này sẽ được lấy mẫu
xuống hai lần. Quá trình này sẽ được tiếp tục với hai băng tần con này,
tùy thuộc vào ứng dụng mà người thiết kế có thể sử dụng bao nhiêu
băng lọc.
Kỹ thuật xử lý đa phân giải được áp dụng trong sơ đồ: Trong sơ đồ này,
quá trình subsampling hay còn gọi là giảm tần số lấy mẫu đi 2 lần chính
là quá trình xử lý đa phân giải. Xét với ảnh, việc giảm tần số lấy mẫu
chính là giảm độ phân giải, tùy thuộc vào số lượng băng lọc mà có thể
xác định các độ phân giải khác nhau. Ví dụ: Ảnh ban đầu có độ phân
giải NxN pixels, trước hết áp dụng bộ lọc theo chiều ngang cho từng
dòng của dữ liệu ảnh với một bộ lọc thông thấp và một bộ lọc thông cao,

sau đó giảm tần số lấy mẫu ở đầu ra của 2 bộ lọc đi 2 lần, ta được 2 ảnh
mới có kích thước (NxN)/2. Tiếp theo, áp dụng 2 bộ lọc thông thấp và
thông cao theo chiều dọc của 2 ảnh mới, ở đầu ra của 2 bộ lọc tiếp tục
giảm tần số lấy mẫu đi 2 lần, ta thu được 4 ảnh có kích thước N/2 x N/2
pixels.
3. Trình bày và giải thích sơ đồ mã hóa SBC dùng trong mã hóa âm thanh
dải rộng như thế nào? (Câu 1,3 – Đề 1) (Câu 2,3 – đề 4)
Trả lời:
Sơ đồ mã hóa SBC dùng trong mã hóa âm thanh

Đề chỉ yêu cầu trình bày sơ đồ MÃ HÓA thôi, sơ đồ giải mã ko cần nêu
Đặc điểm của các khối chức năng trong sơ đồ mã hóa (sơ đồ a), và sơ đồ
giải mã (sơ đồ b). Đầu vào của sơ đồ mã hóa là tín hiệu gốc ban đầu, đầu
ra của sơ đồ là các dòng bit.
• Khối Time/Frequency Mapping: Đây là khối được sử dụng để chia tín
hiệu đầu vào thành các dải tần con (subband), khối này thường là các
băng lọc với nhiều bộ lọc có đáp ứng tần số khác nhau. Đối với âm
thanh dải rộng, kỹ thuật băng lọc thông dải được sử dụng, bao gồm
M băng lọc thông dải, sau khi tín hiệu đi qua M băng lọc sẽ thu được
M dải tần tương ứng với từng bộ lọc. Sau đó thực hiện giảm tần số
lấy mẫu của mỗi băng tần con đi M lần.
• Khối Psychoacoustic Model: khối này đầu vào là tín hiệu gốc và tín
hiệu sau khi đã được chia thành các subbands. Khối này được sử
dụng để tính toán các hiệu ứng che của tín hiệu đưa vào dựa trên mô

hình cảm thụ âm thanh của con người. Tín hiệu này được đưa vào
khối này được tính toán để tìm ra các thành phần tần số có năng
lượng nhỏ dưới ngưỡng nghe và các thành phần tần số bị che bởi các

thành phần tần số trên các dải tần khác. Từ đó tính ra ngưỡng che cho
mỗi dải tần và đưa tới khối lượng tử hóa để tiến hành lượng tử. Độ
rộng về thời gian của khối tín hiệu đưa vào khối Psychoacoustic
Model để tiến hành phân tích càng lớn ta thu được hiệu quả nén càng
cao.
• Khối lượng tử hóa và mã hóa (Quantizer and Coding): Khối có đầu
vào là các subband được chia sau khi tín hiệu gốc đi qua băng lọc và
các hiệu ứng che được tính toán từ khối Psychoacoustic Model.
Nhiệm vụ của khối này là tiến hành lượng tử hóa tín hiệu trên các
subbands một cách phù hợp sao cho số bit sử dụng cho mỗi subband
là ít nhất (nhưng vẫn phải đảm bảo chất lượng của tín hiệu) và sau đó
mã hóa tín hiệu trên các subband với phương pháp mã hóa như
Huffman, mã hóa đại số… Ngoài ra, mỗi subband đều có ngưỡng
nghe riêng, khối lượng tử hóa làm nhiệm vụ lượng tử tín hiệu của
mỗi subband với đủ số bit để duy trì khoảng cách giữa nhiễu do
lượng tử và ngưỡng nghe của mỗi subband. Như vậy ta có thể giảm
được số bit cần để lượng tử hóa mỗi mẫu tín hiệu của subband tùy
thuộc vào ngưỡng che của subband tương ứng nhờ vậy ta có thể tăng
được hiệu quả nén dữ liệu.
• Khối Frame Packing: Dữ liệu sau khi ta lượng tử và mã hóa được đưa
vào khối này để đóng gói thành các frame và chuyển đi trong hệ
thống mạng.
4. Tại sao có sự khác nhau khi áp dụng SBC cho mã hóa ảnh và mã hóa
âm thanh dải rộng. (Câu 1,4 – Đề 1). Tại sao có sự khác nhau khi áp
dụng SBC cho mã hóa ảnh JPEG – 2000 và mã hóa âm thanh dải rộng
MP3. (Câu 2,4 – Đề 4) (Câu 1,3 – Đề 5)
Trả lời: (Về bản chất câu hỏi đều giống nhau, nên sẽ trả lời chung ý thứ
nhất cho cả câu).
Sự khác nhau khi áp dụng SBC cho mã hóa ảnh và mã hóa âm thanh dải
rộng.

• Trong nén âm thanh dải rộng, băng lọc được sử dụng là băng lọc
thông dải có nhiều bộ lọc với đáp ứng tần số khác nhau, còn trong
nén ảnh sử dụng băng lọc thông thấp – thông cao.

•
•

•

•
•

Nén âm thanh dải rộng có khối tính toán các hiệu ứng che, nén ảnh
không có khối chức năng này và cũng không cần thiết.
Nén ảnh loại bỏ các thành phần tần số chứa ít thông tin ngay sau quá
trình lọc, còn nén âm thanh dải rộng loại bỏ các thành phần tần số
dựa theo ngưỡng nghe.
Nén ảnh sau đó sử dụng mã hóa dự đoán DPCM và lượng tử hóa vô
hướng (Scalar Quantization). Trong nén âm thanh dải rộng, lượng tử
hóa sao cho số bit sử dụng cho mỗi subband là ít nhất rồi mã hóa tín
hiệu dựa trên các subband bằng phương pháp mã hóa Huffman, mã
hóa đại số…
Nén ảnh không cần có khối frame packing do không cần đóng gói dữ
liệu sau lượng tử và mã hóa thành các frame.
Có sự khác nhau là do: ảnh và âm thanh có bản chất vật lý khác nhau
và cách con người cảm nhận hình ảnh và âm thanh là khác nhau. Ảnh
là thông tin về vật thể hay quang cảnh được chiếu sáng mà con người
quan sát và cảm nhận được bằng mắt và hệ thống thần kinh thị giác.
Trong khi đó âm thanh là các dao động cơ học của các nguyên tử,

phân tử hoặc các hạt vật chất lan truyền trong không gian, được cảm
nhận trực tiếp qua tai người bởi sự va đập vào màng nhĩ, làm rung
màng nhĩ và kích hoạt hệ thống thần kinh thính giác. Và con người
nhạy cảm với âm thanh hơn so với hình ảnh.

Câu số 2: Phương pháp mã hóa dự đoán
1. Trình bày sơ đồ nguyên lý phương pháp mã hóa dự đoán DPCM và vai

trò của bộ dự đoán (predictor). (Câu 1,1 – Đề 2). Hãy cho biết tỷ số nén
và mức độ tổn hao phụ thuộc vào các khối xử lý như thế nào trong sơ
đồ này? (câu 2,1-Đề 3).
Trả lời:
+ Trình bày sơ đồ nguyên lý phương pháp mã hóa DPCM và vai trò
của bộ dự đoán.
Sơ đồ nguyên lý của phương pháp mã hóa dự đoán DPCM. (Ở đây là
trình bày sơ đồ nguyên lý nên chắc chỉ cần vẽ sơ đồ và nêu vai trò cơ bản
của các khối chức năng trong đó)

Trong sơ đồ này, có các khối chức năng:
• Bộ lấy mẫu: là quá trính rời rạc hóa tín hiệu tương tự, đây là bước
chuyển tín hiệu mang thông tin dạng liên tục thành tín hiệu mang
thông tin rời rạc, bằng phương pháp lấy mẫu (Sampling) sao cho tín
hiệu rời rạc phải mang đầy đủ thông tin của tín hiệu tương tự, để tái
tạo được thông tin một cách trung thực ở đầu thu.
• Bộ dự đoán (Predictor):
Bộ dự đoán được sử dụng để tính toán dự đoán ra các mẫu tín hiệu
theo mẫu tại thời điểm trước (tín hiệu tham chiếu). Trong quá trình
dự đoán sẽ có sai số dự đoán (Predictor error). Cần phải phân biệt
giữa sai số dự đoán và sai số lượng tử hóa.

o Sai số dự đoán (prediction error) chỉ sự chênh lệch giữa giá trị
dự đoán và giá trị thực. Nó không làm tổn thất thông tin dẫn
đến làm suy giảm chất lượng của ảnh. Giá trị sai số này quyết
định tốc độ bit giảm đi nhiều hay ít, tức là ảnh hưởng đến hiệu
suất nén.
o Sai số lượng tử hóa (quantization error) là sai số đặc trưng cho
sự tổn thất dữ liệu dẫn đến làm suy giảm chất lượng ảnh phục
hồi.
• Bộ mã hóa (Encoder): là quá trình mã hóa các sai số dự đoán.
+ Hãy cho biết tỷ số nén và mức độ tổn hao phụ thuộc vào các khối xử
lý như thế nào trong sơ đồ này?
Tỷ số nén phụ thuộc vào khối dự đoán vì: quá trình dự đoán mẫu hiện
tại dựa trên mẫu trước đó, do đó, dự đoán càng chính xác thì mức độ sai
khác giữa giá trị mẫu thực với giá trị mẫu dự đoán càng nhỏ nên sẽ cần
số lượng bit để mã hóa sai số dự đoán nên tốc độ bit sẽ giảm hoặc ngược
lại, quá trình dự đoán khiến cho sai số dự đoán lớn sẽ ảnh hưởng đến số
bit cần để mã hóa sai số dự đoán này là lớn và tốc độ dòng bit sẽ lớn. Vì
vậy, tỷ số nén phụ thuộc vào khối dự đoán.
Mức độ tổn hao sẽ phụ thuộc vào khối lượng tử hóa (trong sơ đồ nên
viết gộp lấy mẫu và lượng tử hóa làm 1) vì: quá trình lượng tử hóa là

quá trình rời rạc hóa các mẫu về miền số nguyên, do đó, nếu dữ liệu ban
đầu là số thực sau khi qua khối lượng tử hóa sẽ được làm tròn thành số
nguyên. Do đó, sự tổn hao phụ thuộc vào khối lượng tử hóa.
2. Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong nén
ảnh video? Giải thích sơ đồ mã hóa DPCM trong nén video. (Câu 1,2) –
Đề 2)
Trả lời:
+ Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong

nén ảnh video
Dựa trên khái niệm mặt phẳng ảnh (frame) TV chuẩn bao gồm 2 trường,
mỗi trường gồm các dòng được quét chẵn/lẻ của frame ảnh. Ảnh truyền
hình được dự đoán là những dòng ảnh đơn thuần (không chứa đựng tín
hiệu âm thanh). Từ phương pháp quét, có các phương pháp dự đoán
trong nén ảnh video như sau:
• Dự đoán Intrafield (Intrafield Prediction): Chỉ sử dụng các điểm ảnh
(pixel) thuộc một ½ frame ảnh (hay còn gọi là một mảnh) để tạo dự
đoán. Dự đoán trong mảnh không tận dụng được quan hệ giữa các
điểm ảnh lân cận nhau theo chiều đứng nên có thể cho sai số dự đoán
cao.
• Dự đoán Intraframe (Intraframe Prediction): Với sự hỗ trợ của một bộ
nhớ mảnh, dự đoán trong ảnh sử dụng tất cả các điểm ảnh (pixel)
thuộc cả hai mảnh của mọt khung để tạo dự đoán. Như vậy sẽ lợi
dụng được quan hệ tương hỗ của các điểm ảnh lân cận theo cả
phương ngang và phương đứng nên dự đoán chính xác hơn, cho sai
số dự đoán nhỏ hơn.
• Dự đoán interfield (Interfield Prediction): phương pháp tạo dự đoán
này sử dụng cả khung hiện tại và khung tham chiếu. Dự đoán liên
mảnh chỉ sử dụng một mảnh của mỗi khung ở các khung khác nhau.
• Dự đoán interframe (Interframe Prediction): phương pháp này sử
dụng cả hai mảnh của mỗi khung ở khung hiện tại và khung tham
chiếu để dự đoán.
+ Giải thích sơ đồ mã hóa trong nén ảnh video
Do đặc điểm nén ảnh video chia ra làm 2 loại là intraframe và interframe
nên mã hóa dự đoán DPCM trong nén ảnh video cũng chia thành 2 loại:
• Mã hóa dự đoán DPCM Intraframe video
Intraframe được nén như nén ảnh tĩnh (ví dụ theo chuẩn JPEG), trong

quá trình nén intraframe thì mã hóa dự đoán DPCM thường được sử
dụng để dự đoán và mã hóa các thành phần 1 chiều DC của mỗi khối
điểm ảnh trong một intraframe. Cụ thể như sau: ảnh ban đầu được
chia thành các block có kích thước 8x8 pixels, mỗi block sẽ được biến
đổi DCT, kết quả sau biến đổi DCT là ma trận có kích thước 8x8, sau
đó các ma trận này được lượng tử hóa dựa trên bảng lượng tử hóa.
Kết quả sau lượng tử hóa sẽ là ma trận có kích thước 8x8 với các giá
trị là số nguyên. Thành phần 1 chiều DC chính là giá trị đầu tiên bên
trái của ma trận này. Các giá trị thành phần 1 chiều DC của mỗi block
sẽ được mã hóa dự đoán DPCM.
• Mã hóa dự đoán DPCM Interframe video.
Interframe là chuỗi các frame có mối quan hệ về mặt thời gian, do đó
việc mã hóa interframe giúp giảm độ dư thừa về mặt thời gian. Các
frame liên tiếp nhau trong mỗi chuỗi frame nhìn chung khá giống
nhau. Do đó ta có thể sử dụng đặc điểm này để dự đoán. Để tái hiện
sự lặp lại tương tự giữa các frame người ta sử dụng khái niệm “bù
chuyển động” là sự đo lường sự sai khác giữa mối khối điểm ảnh
giữa các khung hình. Việc khôi phục ảnh chính là việc sử dụng vector
chuyển động giữa các khối ảnh tương tự giữa khung hiện tại và
khung tham chiếu với sai số chuyển động (phần sai lệch nhỏ nhất
giữa hai ảnh).
3. Hãy cho biết bộ dự đoán DPCM được áp dụng như thế nào trong nén
ảnh theo chuẩn JPEG (Câu 2 , 2)– Đề 3).
Trả lời:
Trong nén ảnh JPEG, bộ dự đoán DPCM được sử dụng để mã hóa các
thành phần 1 chiều DC. Ở đây thành phần 1 chiều DC là dữ liệu của
phần tử đầu tiên của mỗi block sau lượng tử hóa được quét zig-zag. Việc
sử dụng DPCM chính là tìm ra sự sai khác giữa giá trị của thành phần 1
chiều DC của block hiện tại với giá trị của thành phần 1 chiều DC của
block trước đó. Dữ liệu sau quá trình DPCM sẽ được mã hóa Huffman.

4. Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong mã
hóa tiếng nói thoại? Giải thích sơ đồ mã hóa DPCM trong mã hóa tiếng
nói thoại. (Câu 1, 3 – Đề 2)
Trả lời: (Câu này khó trình bày quá!!!)
+ Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong
quá trình mã hóa tiếng nói thoại: Do tính chất của âm thanh tiếng nói

thoại, độ tương quan giữa các mẫu tín hiệu là tương đối lớn. Do đó,
người ta áp dụng phương pháp dự đoán DPCM dựa trên dự đoán mẫu
tín hiệu hiện tại dựa trên các mẫu tín hiệu tại thời điểm trước đó. Cụ thể,
trong mã hóa tiếng nói thoại, người ta thường sử dụng phương pháp
DPCM dựa trên dự đoán tuyến tính (Linear Prediction).
+ Giải thích sơ đồ mã hóa DPCM trong mã hóa tiếng nói thoại:
(Vẽ lại hình ảnh trong slide 13 – chapter 3: sơ đồ DPCM tuyến tính)
Giải thích:
Mẫu tín hiệu x[n] đầu vào, bộ dự đoán dự đoán mẫu p[n] dựa trên các
mẫu trước đó. Bộ lượng tử hóa tiến hành lượng tử hóa sự sai khác giữa
x[n] và p[n] chính là d[n]. Sai số dự đoán d[n] sẽ được mã hóa và truyền
đi trên kênh truyền, đồng thời được kết hợp với p[n] làm đầu vào để bộ
dự đoán tiến hành dự đoán các mẫu sau đó.
5. Hãy giải thích sơ đồ mã hóa dự đoán được áp dụng trong quá trình
nén video, và trình bày một thuật toán dự đoán trong nén video theo
MPEG-1 (Câu 2,3 – Đề 3)
Trả lời:
Sơ đồ mã hóa dự đoán được áp dụng trong quá trình nén video (Theo t,
sơ đồ với yêu cầu của câu hỏi này mình sẽ sử dụng sơ đồ ở slide 12 –
chapter 3) vì: trong nén video thì DPCM được sử dụng trong nén thành
phần 1 chiều DC ở intraframe và nén sự sai khác giữa các block ở frame
hiện tại với block của frame tham chiếu. Do đó, sử dụng sơ đồ dạng

Closed – Prediction là hợp lý. Việc trình bày thì sẽ giải thích quá trình
thực hiện sẽ giải thích dựa trên 2 quá trình trong nén video: nén
intraframe và nén interframe.
• Nén intraframe: Dữ liệu đầu vào của sơ đồ này là thành phần 1 chiều
DC của khối điểm ảnh sau khi được biến đổi DCT. Thành phần 1
chiều của khối (block) hiện tại sẽ được so sánh với thành phần 1 chiều
của khối (block) trước đó. Sự sai khác của hai thành phần 1 chiều sẽ
được mã hóa.
• Nén interframe: Dữ liệu đầu vào của sơ đồ này là khối điểm ảnh
(block) của các frame. Nếu khối điểm ảnh ở frame hiện tại được tìm
thấy ở frame tham chiếu, ta sẽ tìm được sự sai khác giữa hai khối
điểm ảnh này đó là một block mới là hiệu của 2 block được nêu ở
trên. Block sai khác này sẽ được biến đổi DCT, lượng tử hóa và cũng
được mã hóa DPCM thành phần một chiều tương tự như nén

intraframe. Ngoài ra, sự sai khác về vị trí giữa hai block của frame
hiện tại và frame tham chiều cũng được mã hóa dựa theo nguyên tắc
của mã hóa DPCM.
+ Trình bày một thuật toán dự đoán trong nén video theo chuẩn
MPEG-1 (thật sự thì cái này nó quá chung chung, không hiểu là nên nêu
phần nào cả vì nó có nhiều thứ: thuật toán ước lượng chuyển động,
thuật toán so sánh khối,.. Nếu nói thuật toán dự đoán thì không hiểu là
nên nêu về cái gì… Bó tay!!!) Đây là 1 ý, có thể chém theo cái này, hoặc
nêu hẳn quá trình thực hiện ước lượng chuyển động và bù chuyển động
MPEG-1 là sự phối hợp của các kỹ thuật ước lượng chuyển động và bù
chuyển động. Về bản chất thì, dự đoán bù chuyển động ở MPEG-1 chính
là khối tiên đoán trong dự đoán DPCM. Tuy nhiên về mặt tính toán, độ
phức tạp của giải thuật, dự đoán chuyển động sẽ tốn chi phí cao, nhưng
bù lại, độ chính xác dự đoán lại cao hơn nhiều so với các giải thuật dự

đoán DPCM.
6. Nén ảnh theo chuẩn JPEG, phương pháp mã hóa dự đoán DPCM được

kết hợp với phương pháp mã hóa dựa trên phép biến đổi DCT như thế
nào? (Câu 1,4 – Đề 2)
Trả lời:
Theo chuẩn nén ảnh JPEG, mỗi ảnh được chia thành các block có kích
thước 8x8 pixels, mỗi block này qua phép biến đổi DCT. Đây là quá trình
biến đổi tập các giá trị pixel của ảnh trong miền không gian sang một tập
các giá trị khác trong miền tần số sao cho các hệ số trong tập giá trị mới
này có tương quan giữa các điểm ảnh gần nhau nhỏ hơn. Nhiệm vụ của
quá trình biến đổi DCT là tập trung năng lượng vào một số ít các hệ số
biến đổi tương ứng với vùng tần số thấp, dẫn đến có thể cho các hệ số
vùng tần số cao về gần 0 hoặc bằng 0 mà không ảnh hưởng đáng kể đến
chất lượng ảnh. Mỗi block sau khi qua biến đổi DCT sẽ là một ma trận
8x8 hệ số thực, hệ số đầu tiên của ma trận này được gọi là thành phần 1
chiều DC, các hệ số còn lại được gọi là hệ số xoay chiều AC.
Phương pháp mã hóa dự đoán DPCM được sử dụng trong chuẩn JPEG
chính là việc mã hóa dự đoán các thành phần 1 chiều DC của mỗi block
hiện tại so với thành phần 1 chiều DC của block trước đó.
7. Hãy giải thích nguyên lý bộ dự đoán được áp dụng trong nén ảnh
JPEG khác với bộ dự đoán được áp dụng trong nén video theo chuẩn

MPEG như thế nào? Và tại sao? (Câu 2,4 – Đề 3)
Trả lời:

Câu số 3: Nén video số (Đề 3)
1. Trình bày các phương pháp nén ảnh video số. Nén video theo chuẩn

MPEG và các chuẩn H26x dựa trên phương pháp nào? Tại sao? Xét sơ
đồ nén video số theo chuẩn MPEG-1, hãy giải thích vai trò của khối
ước lượng chuyển động và bù chuyển động trong quá trình nén video?
(Câu 1,1 – Đề 3)
Trả lời:
Quá trình nén ảnh video gồm các kỹ thuật chủ yếu:
• Nén ảnh video không dùng kỹ thuật ước lượng chuyển động và bù
chuyển động. Phương pháp này ứng dụng để nén intraframe. Nén
chuỗi ảnh video bằng cách nén liên tiếp các ảnh độc lập như JPEG với
điều kiện đảm bảo tốc độ khung hình -> tỷ số nén không cao.
• Nén ảnh video dùng kỹ thuật ước lượng và bù chuyển động. Phương
pháp này dùng để nén interframe (các mặt phẳng ảnh cùng 1 cảnh).
Dự đoán giữa các frame kết hợp kỹ thuật bù chuyển động. Các frame
liên tiếp trong cùng 1 cảnh của video có sự tương quan cao theo thời
gian. Sự tương quan thể hiện bởi sự dịch chuyển của các đối tượng
trong cùng 1 cảnh. Do đó, thay vì mã hóa toàn bộ ảnh, người ta chỉ
mã hóa vector chuyển động và ảnh sai số dự đoán -> tỷ số nén cao.
2. Giả thiết video số được nén theo chuẩn MPEG-1 có: 352x240 pixels, 30
frame/s, hệ màu YcrCb, cấu trúc số hóa 4:2:2, đạt được tốc độ dòng bit
sau nén là 1,2 Mbps. Hãy tính tỷ số nén dòng dữ liệu trong trường hợp
này. Tại sao cấu trúc số hóa 4:2:2 hoặc 4:2:0 vẫn cho phép đảm bảo chất
lượng video số? (Câu 1,2 – Đề 3)
Trả lời:
Với hệ màu YcrCb có cấu trúc số hóa là 4:2:2 => cần 16 bit để mã hóa cho
một pixel. Do đó tốc độ dòng bit trước nén là:
352x240 pixels x 16 bit/pixel x 30 frame/s = 40.55 Mbit/s.
Vậy tỷ số nén dòng bit là: 40.55 : 1.2 = 34:1.
Cấu trúc số hóa 4:2:2 hoặc 4:2:0 vẫn cho phép đảm bảo chất lượng video
số vì: trong nén video số, không gian màu RGB được chuyển đổi sang

không giản màu YcrCb hoặc YUV theo các cấu trúc số hóa 4:2:2, 4:2:0,…
Các cấu trúc số hóa này giúp giảm kích thước của dữ liệu video số trong
quá trình lưu trữ và truyền tải dữ liệu. Ngoài ra, theo kết quả nghiên
cứu về độ cảm thụ của mắt người thì mắt người nhạy cảm với sự thay
đổi của độ chói hơn là sự thay đổi về màu sắc. Do đó, việc sử dụng
không gian màu YcrCb hoặc YUV vẫn tạo ra độ cảm thụ tốt mà lại tăng
hiệu quả nén. Vì vậy, các cấu trúc số hóa này được sử dụng trong nén
video và cho phép đảm bảo chất lượng video số.
3. Biết các tham số trong cấu trúc số liệu của video số trên là n = 12, và m
= 3 trong đó n là số frame trong một GOP và m là khoảng cách dự đoán
trong kỹ thuật mã hóa dự đoán theo chuẩn MPEG, hãy cho biết các
tham số này ảnh hưởng đến chất lượng video như thế nào. Trong
trường hợp này, hãy cho biết thời gian tối đa để nén một frame I, để
nén frame P là bao nhiêu?
Trả lời:
Các tham số trong cấu trúc số liệu của video số theo chuẩn MPEG-1 là n
và m, trong đó:
N: số frame trong một GOP
M: khoảng cách dự đoán.
Theo chuẩn nén video MPEG-1, có 3 loại frame là: frame I (Intraframe) là
frame bắt đầu của 1 GOP, frame P: frame dự đoán, frame B: frame dự
đoán nội suy hai chiều.
Các tham số trong cấu trúc số liệu của video số ảnh hưởng đến chất
lượng video, vì kích thước của GOP khác nhau sẽ thu được các chất
lượng khác nhau, nói cách khác, kích thước của GOP ảnh hưởng tới tốc
độ ghi dữ liệu (bit rate). Do đó, người thiết kế có thể tùy chỉnh chất
lượng video dựa trên tùy chỉnh kích thước của GOP sao cho thích hợp
với ứng dụng.
Theo bài ra, n = 12, m = 3, ta có thể biểu diễn chuỗi các frame trong GOP

này như sau:
• N = 12 => có 12 frame trong 1 GOP
• M=3 => giữa frame I và frame P hoặc giữa hai frame P liên tiếp sẽ có 2
frame B.
IBBPBBPBBPBB
Với tốc độ khung hình là 30 frame/s, tức là 1 giây sẽ có 3 frame I, và 7
frame P.

 Để nén 1 frame I mất tối đa 1/3 giây.

 Để nén 1 frame P mất 1/3 : 3 = 1/9 giây

Câu số 4: Xử lý dữ liệu đa phương tiện và nén âm thanh (Đề 4)
1. Hãy cho biết vấn đề xử lý dữ liệu đa phương tiện trong truyền thông

đa phương tiện gồm các kỹ thuật xử lý chủ yếu gì? Tại sao? (Câu 1,1 –
Đề 4)
Trả lời:
Các vấn đề:
• Thu nhận và số hóa tín hiệu
• Các phép biến đổi:
• Lượng tử hóa
• Mã hóa/Nén
• Truyền tín hiệu qua mạng
• Đồng bộ dữ liệu đa phương tiện

Còn để trả lời tại sao cần các kĩ thuật trên thì nêu mục đích của từng kĩ
thuật.
2. Hãy cho biết tại sao phương pháp nén âm thanh hiện nay thường được

chia thành 2 loại chính: mã hóa nén tiếng nói thoại và mã hóa âm
thanh dải rộng. (Câu 1,2 – Đề 4)
Trả lời:
Câu này chắc lập cái bảng phân biệt đặc điểm khác nhau giữa 2 loại âm
thanh: thoại vs. Hi-Fi. Nếu giải thích kiểu nôm na thì dễ ợt, còn dùng từ
chuyên môn thì quá khó. giông kiểu ảnh đen trắng vs ảnh màu vậy =))
3. Tại sao các chuẩn nén của ITU (ví dụ G728, G729,…, GSM) thường
được dùng trong các dịch vụ VOIP hơn là chuẩn nén âm thanh MP3
hiện nay? Trình bày nguyên lý phương pháp mã hóa tiếng nói CELP.
Xét ví dụ tiếng nói được mã hóa theo chuẩn G.729, hãy xác định tỷ số
nén dòng cụ thể trong trường hợp này. (Câu 1,3 – Đề 4)
Trả lời:
• Các chuẩn nén của ITU (ví dụ G728, G729,…, GSM) thường được
dùng trong các dịch vụ VOIP hơn là chuẩn nén âm thanh MP3 hiện
nay vì:
Tín hiệu âm thanh được chia thành 2 loại theo 2 dải tần là:
- Âm thanh dải tần cơ sở: là tiếng nói thoại có dải tần từ 30Hz đến
4kHz.

Âm thanh dải tần rộng: là tiếng hát, âm nhạc,… có dải tần từ
100Hz đến 20kHz.
Theo đó, dữ liệu truyền trong các dịch vụ VOIP chủ yếu là tiếng nói
thoại có một số đặc điểm khi số hóa như sau:
- Giới hạn dải phổ trong khoảng 4kHz.
- Tần số lấy mẫu Fs = 8kHz.
- Lượng tử hóa giá trị: được mã hóa bởi 8 bit.
- Tốc độ cần thiết: 8*8 = 64kbps.
Mặt khác, các chuẩn nén của ITU như GSM là chuẩn nén dành riêng
cho âm thanh thoại sử dụng phương pháp mã hóa lai: kết hợp xử lý

và phân tích tiếng nói dựa trên mô hình phát âm của con người và mã
hóa tín hiệu dạng sóng. Âm thanh khi được nén theo chuẩn GSM
thường có tần số lấy mẫu là 8kHz, có tốc độ bit cần thiết thấp, nằm
trong khoảng 6,5 đến 13kbps. Âm thanh thoại được nén theo chuẩn
GSM có yêu cầu thấp hơn về băng thông đường truyền, do đó, chuẩn
nén này thường được sử dụng nhiều hơn trong dịch vụ VOIP.
Ngoài ra, chuẩn MP3 là một trong những chuẩn nén âm thanh dựa
trên phương pháp SBC được sử dụng chủ yếu trong mã hóa âm
thanh dải rộng. Do đó, phương pháp này được xây dựng dựa trên mô
hình cảm thụ âm thanh thính giác con người. Âm thanh khi được nén
theo chuẩn MP3 có thể lấy tần số lấy mẫu là 32kHz, 44.1 kHz,
48kHz… tốc độ bit rất đa dạng (32kbps, 48kbps…). Do đó MP3 không
thích hợp sử dụng trong các ứng dụng VOIP.
• Phương pháp mã hóa CELP:
Bên phát và bên thu đều có một bảng mã (codebook) lưu trữ các tín
hiệu kích thích tương ứng với một tập tham số đầu vào của tín hiệu
tiếng nói thoại.
Tại bên phát, tiếng nói nguồn sẽ được cho qua bộ phân tích tín hiệu
để thu được các tham số đặc trưng cho tiếng nói. Các tham số này sẽ
được đem so sánh với một danh sách tín hiệu kích thích trong
codebook để tìm ra tín hiệu có khả năng tạo dạng sóng giống tín hiệu
ban đầu nhất, khi đó, bên phát sẽ chỉ gửi đi những số thứ tự của tín
hiệu kích thích tìm ra được ở trên.
Tại bên thu, khi nhận được số thứ tự của dạng sóng trên sẽ đem tín
hiệu kích thích đã lưu trữ sẵn để tái tạo lại tiếng nói ban đầu.
Trong CELP có khái niệm codebook: đây là một tập các vector (hay từ
-

mã) kích thích và mỗi vector có độ dài cố định. Các vector này được

tạo thành từ các dãy nhiễu Gauss.
• Xét ví dụ tiếng nói được mã hóa theo chuẩn G.729, xác định tỷ số nén
tốc độ dòng cụ thể trong trường hợp này: (không chắc chắn đúng!!!)
- Xét với tín hiệu tiếng nói: Tần số lấy mẫu 8kHz, cần 8 bit để lượng
tử hóa một mẫu. Suy ra, tốc độ dòng là: 8*8 = 64kbps.
- Theo chuẩn G.729 (Slide 15 – Chương 4 – Truyền thông đa
phương tiện): tốc độ dòng là: 8kbps.
- Vậy tỷ số nén trong trường hợp này là: 64:8 = 8:1

Câu số 5: Đề 1
Xét dữ liệu video số theo chuẩn MPEG-1, có các tham số sau:
- Ảnh video: 352x240 pixels, 30 frame/s, hệ màu YcrCb, cấu trúc số hóa
4:2:2
- Audio: 2 channels, 48k sample/s, 16 bits/sample
1. Hãy tính dung lượng dữ liệu video trên đã giải nén cần cho 10 phút thể
hiện.
Trả lời:
(Ở câu hỏi này, theo t có hai hướng suy nghĩ).
• Dung lượng dữ liệu cho 10 phút thể hiện chính bằng tổng dung
lượng của video và audio. Nhưng dung lượng video ở đây vẫn được
tính với cấu trúc số hóa 4:2:2. Dung lượng ảnh video cho 10 phút là:
352x240x30x16x10x60 = 2.83 Gbyte. Dung lượng audio là:
2x48x1000x16x10x60 = 0.107 Gbyte. Dung lượng video là: 2.83 + 0.107
= 2.937 Gbytes.
• Do ở đây là dữ liệu video đã giải nén, tức là hiển thị nên hệ màu sẽ là
RGB chứ không phải YcrCb nữa (cái này cô giáo rất hay đề cập). Do
đó dung lượng ảnh video là: 352x240x30x24x10x60 = 4.25 Gbytes. Vậy
dung lượng video sẽ là: 4.25 + 0.107 = 4.357 Gbyte.
2. Giả thiết video số này được nén theo chuẩn MPEG-1, đạt được tốc độ
dòng bit sau nén là 1,2 Mbit/s với tham số cấu trúc số liệu video là: n =

15 và m = 3, trong đó n là số frame trong một GOP và m là khoảng cách
dự đoán trong kỹ thuật mã hóa theo chuẩn MPEG. Hãy tính tỷ số nén
tốc độ dòng bit đạt được trong trường hợp này?
Trả lời

Tốc độ dòng bit trước nén theo là:
352x240x30x16 = 40.55 Mbit/s
Tỷ số nén dòng bit là: 40.55:1.2 = 34:1
3. Tỷ số nén sẽ thay đổi thế nào trong hai trường hợp sau đây:
+ Cấu trúc số hóa là: 4:2:0
+ Tham số cấu trúc số liệu là: n = 10, m = 2
Trả lời
+ Với cấu trúc số hóa là 4:2:0 => cần 12 bit để mã hóa 1 pixel.
Tốc độ dòng bit trước nén là: 352x240x30x12 = 30.42 Mbit/s
Tỷ số nén dòng bit là: 30.42 : 1.2 = 25 : 1.
+ Với tham số cấu trúc số liệu là n = 10, m = 2. Nhận thấy tham số n giảm (từ 15
xuống 10), tức là trong chuỗi frame sẽ có nhiều frame I hơn => tốc độ dữ liệu
sau nén tăng (có thể là tăng lên 15/10=3/2=1.5 lần) => tỷ số nén giảm (có thể là
giảm 1.5 lần)

Câu số 6: Chuẩn MPEG-1 (Câu 2 – Đề 6)
1. Hãy giải thích quá trình xử lý dữ liệu trong sơ đồ nén video theo

chuẩn MPEG-1 dưới đây. Sơ đồ này có yêu cầu xử lý thời gian thực
như thế nào?

Trả lời:
+ Quá trình xử lý dữ liệu trong sơ đồ mã hóa video theo chuẩn MPEG1

Đầu vào của sơ đồ này chuỗi các frame video, đầu ra của sơ đồ chính là
chuỗi dòng bit sau khi mã hóa. Ta sẽ đi vào phân tích cụ thể quá trình xử
lý như sau:
Đầu vào là chuỗi các frame ảnh, nếu frame ảnh đầu vào là frame I, thì
frame này sẽ được mã hóa toàn bộ giống như mã hóa ảnh JPEG, tức là,
các khối điểm ảnh có kích thước 8x8 pixels sẽ được biến đổi DCT, được
lượng tử hóa, và được mã hóa. Vector chuyển động = 0, frame này sẽ
được lưu vào bộ nhớ làm frame tham chiếu cho các frame sau.
Nếu frame đầu vào là frame P, frame này sẽ được đánh giá chuyển động
cùng với frame tham chiếu I đã được lưu trước đó để tìm ra vector
chuyển động và vector chuyển động này sẽ được mã hóa trực tiếp.
Frame P này cũng được khôi phục bằng cách sử dụng vector chuyển
động và frame tham chiếu, sau khi khôi phục sẽ được lưu lại bộ nhớ để
sử dụng làm frame tham chiếu cho frame B.
Nếu frame đầu vào là frame B, thì frame này cũng được đánh giá chuyển
động dựa trên 2 frame tham chiếu I và P hoặc 2 frame P. Sau khi xác
định được 2 vector chuyển động của frame B hiện tại với 2 frame tham
chiếu thì 2 vector này cũng được mã hóa trực tiếp. Để khôi phục lại
frame B, người ta cũng sử dụng vector chuyển động và frame tham
chiếu, đây chính là khối bù chuyển động.
+ Sơ đồ này yêu cầu xử lý thời gian thực như thế nào?
Trong sơ đồ nén video theo chuẩn MPEG-1, khối “Điều chỉnh” có thể
điều chỉnh được sai số lượng tử hóa gây ra bởi khối “Lượng tử hóa”.
Ngoài ra, khối “Điều chỉnh” cũng có thể điều chỉnh kích thước bộ đệm
lưu trữ tạm thời. Từ 2 nhiệm vụ cơ bản đó của khối “Điều chỉnh” ta có
thể tùy chỉnh thay đổi chất lượng video. Đây chính là yếu tố xử lý thời
gian thực trong nén video theo chuẩn MPEG-1.
2. Hãy chỉ ra trong sơ đồ nén video trên kỹ thuật mã hóa dự đoán được
áp dụng trong nén Intraframe và nén Interframe như thế nào? Trình

bày một giải thuật đánh giá ước lượng chuyển động trong sơ đồ nén
video trên đây.
Trả lời:
Trong sơ đồ trên, kỹ thuật mã hóa dự đoán được áp dụng trong nén
Intraframe và Interframe như sau:
• Trong nén Intraframe: Mã hóa dự đoán thành phần 1 chiều DC trong
nội bộ các khối của Intraframe.

Trong nén Interframe: Tìm ra sự sai khác giữa các khối điểm ảnh của
các frame kề nhau, hay nói cách khác là dự đoán chuyển động của
block của frame hiện tại với block của frame tham chiếu.
Trình bày một giải thuật đánh giá ước lượng chuyển động trong sơ đồ
nén video theo chuẩn MPEG-1. Ở đây sẽ có nhiều thuật toán được sử
dụng để đánh giá chuyển động tức là tìm vector chuyển động. Nhưng
nguyên tắc chung thì sẽ tìm block của frame tham chiếu có chỉ số MAE
(Mean Absolute Error) nhỏ nhất với block của frame hiện tại. Sẽ trình
bày 2 thuật toán là: TTS và 2D-LOG (có thể chọn 1 trong 2 để trình bày).
Giải thuật tìm kiếm loga 2 chiều 2D-LOG (2-D Logarithmic Search): giải
thuật này có 2 cách tiếp cận:
• Hướng tiếp cận thứ nhất được đưa ra bởi Jain, với ý tưởng chính là
tính toán và so sánh MAE của 5 nút hàng xóm lân cận để tìm ra MAE
nhỏ nhất. Hàm loga (chia 2) được thực hiện theo 2 trường hợp: điểm
gần giống nhất nằm ở trung tâm 5 điểm (hình bên phải) và điểm gần
giống nhất nằm ở biên của vùng tìm kiếm (hình bên trái).
•

-

•

Hướng tiếp cận thứ 2 là tính toán và so sánh MAE của 9
nút, thực hiện lặp lại hai bước sau cho tới khi vùng tìm
kiếm có kích thước là 1 pixel.
o Bước 1: Tìm 1 vị trí trong 9 vị trí có chỉ số MAE
nhỏ nhất.
o Bước 2: Tạo vùng tìm kiếm mới có kích thước bằng
một nửa kích thước của vùng tìm kiếm cũ và có vị
trí trung tâm là vị trí tìm được ở bước 1.

-

Hình 2.12: Hướng tiếp cận thứ 2 của thuật toán 2D-LOG
Giải thuật tìm kiếm ba bước TSS (Three Step Search): giải thuật này được
thực hiện qua ba bước sau:
• Bước 1: Xác định kích thước bước dịch ban đầu, kiểm tra
9 điểm.
• Bước 2: Giảm kích thước dựa trên tiêu chuẩn MAD, kiểm
tra 8 điểm.
• Bước 3: Lặp lại bước trên, xác định điểm có MAD nhỏ
nhất.

Câu số 7: Đồng bộ
1. (Câu 3 – Đề 6): Trình bày các mô hình đồng bộ dữ liệu đa phương tiện

và cho biết hiện nay những mô hình nào thường được áp dụng trong
truyền đa phương tiện trên mạng IP.
Trả lời:

Các mô hình đồng bộ DỮ LIỆU ĐPT (chưa xét đến audio/video hay j hết): 6
mô hình
•Mô hình dòng thời gian (Timeline): Các hành động được xác định bởi thời
điểm bắt đầu, thực hiện đồng bộ bám theo thời gian tồn tại của đối tượng.
(hình chap9 slide 11)
Mô hình sử dụng 1 dòng thời gian tổng thể. Đồng bộ bám liên tục theo dòng
thời gian, vì vậy yêu cầu cần phải có đồng bộ đồng hồ. Mô hình này cho chất
lượng cao nhưng có các yêu cầu chi phí cao.
•Mô hình điểm tham chiếu (Reference point) : Trong mô hình này thì các thời
điểm tham chiếu hay điểm đồng bộ được xác định bên trong thời gian tồn tại
của đối tượng đa phương tiện, tại thời điểm đó thực hiện đồng bộ thời gian

giữa các dòng dữ liệu đa phương tiện để trình diễn (player).
Mô hình sẽ dùng nhãn thời gian đánh dấu bên trong các đối tượng tại các thời
điểm cần đồng bộ.
•Mô hình phân cấp (Hierarchic): thực hiện theo cơ chế phân cấp thứ tự các đối
tượng đồng bộ theo hình cây. Tuy nhiên nếu thời điểm cần đồng bộ không
phải là điểm bắt đầu hay kết thúc của đối tượng mà là nằm ở giữa thì các đối
tượng có thể bị phân mảnh.
•Đồng bộ dựa trên sự kiện (Event based): Thực hiện đồng bộ dựa trên các sự
kiện bắt đầu hoặc kết thúc của một đối tượng. Ở đây các hành động, thao tác
được bắt đầu và kết thúc tại những thời điểm xác định. Ví dụ: trong một ứng
dụng tương tác, việc ấn một nút, kích hoạt một menu sẽ làm hiển thị lên màn
hình một ảnh và chơi một đoạn audio số…
•Đồng bộ audio-video thời gian thực tại nơi nhận : Mô hình này sẽ thiết lập lại
quan hệ thời gian giữa các gói dữ liệu audio – video để trình diễn liên tục, cảm
thụ trung thực tại nơi nhận so với nguồn. Kĩ thuật này bao gồm:
+ Điều độ trình diễn hướng thời gian
+ Điều độ trình diễn dựa trên bộ đệm dữ liệu nhận

•Tích hợp audio–video: sự kết hợp, bổ sung vào hệ thống hiện có các loại dữ
liệu, các ứng dụng và trình diễn thể hiện đa phương tiện (tích hợp trong định
dạng file, vào định dạng Web, tích hợp vào CSDL…).
2. (Câu 2 – Đề 2): Xét nguyên tắc đồng bộ audio – video được biểu diễn

trong hình dưới đây.
Hình (Slide 17 – Chương 9)
2.1.
Giải thích nguyên tắc trên đây theo mô hình đồng bộ nào? Tại sao
dòng audio được coi là chủ?
Trả lời:
Đây là mô hình Đồng bộ audio -video thời gian thực tại nơi nhận, sử
dụng kĩ thuật đồng bộ theo dòng audio.
Dòng audio được coi là chủ vì (không chắc lắm):
+ Dòng audio là chủ (principle jet) vì con người nhạy cảm với âm thanh
hơn so với hình ảnh. Dòng video (slave jet) được đồng bộ theo dòng
audio.
+ Tại các điểm đồng bộ: nhãn thời gian của gói tin của dòng video được
so sánh với nhãn thời gian của gói tin dòng audio. Nếu một frame video
bị trễ quá giới hạn sẽ bị loại bỏ.
2.2.

Hãy giải thích nguyên tắc đồng bộ audio – video và ý nghĩa của
các tham số jitter, skew trong sơ đồ thời gian trên.

Trả lời:
Nguyên tắc đồng bộ: âm thanh và hình ảnh được truyền theo 2 dòng
khác nhau (tốc độ 2 dòng dữ liệu có bản chất và yêu cầu hoàn toàn khác
nhau), cần phải được xác lập đồng bộ audio-video tại nơi nhận đảm bảo

thời gian thực.Vấn đề ở đây là thiết lập lại quan hệ thời gian giữa các
gói dữ liệu audio-video để trình diễn liên tục, cảm thụ trung thực tại
nơi nhận so với nguồn.
Ý nghĩa các tham số: (xem slide chap9 page 17)
+ Jitter: độ trễ biến thiên, là sự khác nhau tức thời về thời gian trễ các
dòng video-audio
+ Skew: độ lệch về thời gian giữa 2 dòng audio và video
2.3.

Thế nào là hiệu ứng che (masking effects) trong mô hình cảm thụ
âm thanh. Hãy cho biết tại sao các phương pháp mã hóa tiếng nói
thoại không xét đến hiệu ứng che? Hãy trình bày nguyên tắc mã
hóa âm thanh dải rộng dựa trên hiệu ứng che như thế nào?
Trả lời:
Nguyên tắc đồng bộ: âm thanh và hình ảnh được truyền theo 2 dòng
khác nhau (tốc độ 2 dòng dữ liệu có bản chất và yêu cầu hoàn toàn khác
nhau), cần phải được xác lập đồng bộ audio-video tại nơi nhận đảm bảo
thời gian thực.Vấn đề ở đây là thiết lập lại quan hệ thời gian giữa các
gói dữ liệu audio-video để trình diễn liên tục, cảm thụ trung thực tại
nơi nhận so với nguồn.
Ý nghĩa các tham số: (xem slide chap9 page 17)
+ Jitter: độ trễ biến thiên, là sự khác nhau tức thời về thời gian trễ các
dòng video-audio
+ Skew: độ lệch về thời gian giữa 2 dòng audio và video

Câu số 8: (Câu 2 – Đề 5):
Xét sơ đồ khung của phương pháp nén ảnh dựa trên phép biến đổi trong
hình sau (Hình ảnh trong slide 6 – Chương 6)
1. Hãy cho biết chức năng, nhiệm vụ của từng khối trong sơ đồ này.
Trả lời:

Trong sơ đồ khung này chia ra làm 2 phần: phía trên là nén, phía dưới là
giải nén.
Xét phần nén trong sơ đồ bao gồm có 3 khối chức năng:

Khối T hay còn gọi là khối Transform: đây là khối thực hiện biến đổi
dữ liệu ảnh gốc sang một miền không gian khác.
• Khối Q hay còn gọi là khối Quantization: là khối lượng tử hóa thực
hiện biến đổi miền dữ liệu số thực sau biến đổi sang miền số nguyên.
Đây là khối quyết định sự mất mát thông tin trong quá trình nén.
• Khối E hay còn gọi là khối Encode: là khối mã hóa dựa trên các
phương pháp mã hóa như VLC (Variable Length Coding), …
2. Phân tích các đặc điểm cho yêu cầu kỹ thuật nén dựa trên phép biến
đổi và cho biết hiện nay kỹ thuật này đã được dùng trong các chuẩn
nén nào đối với nén ảnh, nén video, nén audio? Phương pháp nén dựa
trên phép biến đổi có ảnh hưởng như thế nào đến chất lượng bộ mã
hóa nén dữ liệu (Coder) trong truyền thông đa phương tiện.
•

Trả lời:

Câu số 9: (Câu 3 – Đề 5):
Hãy giải thích quá trình xử lý dữ liệu trong sơ đồ nén ảnh theo chuẩn JPEG
dưới đây và trình bày thuật toán xử lý dữ liệu của khối đầu tiên trong sơ đồ
này. (Hình ảnh trong slide 32 – Chương 6)
Trả lời:
Từ sơ đồ nén ảnh theo chuẩn JPEG (slide 32 – chapter 6). Ta đi giải thích chức
năng của mỗi khối chức năng như sau:
- Color Converter: Đây là khối thực hiện biến đổi không gian màu từ RGB
sang YcrCb (hoặc YUV) tức là: tăng thành phần độ chói Y, giảm các

thành phần màu sắc U, V (do mắt người nhạy cảm với độ sáng hơn màu
sắc).
- Level Offset: Đây là khối thực hiện việc xử lý dữ liệu cho các thành phần
của hệ màu YUV (hoặc YcrCb). Các tín hiệu màu U, V có biên độ cực đại
là (giá trị nhị phân trong hệ thống lấy mẫu 8 bit), còn tín hiệu Y có một
khoảng cực đại từ 0 đến 255 giá trị. Để đơn giản cho việc thiết kế bộ mã
hóa DCT, tín hiệu Y được dịch xuống dưới bằng cách trừ 128 từng giá trị
của mỗi điểm ảnh (pixel) trong khối để có khoảng cực đại của tín hiệu
tương tự như của các tín hiệu U và V. Ở phần giải mã DCT, giá trị 128 sẽ
được cộng vào các thành phần độ chói.

Khối 8x8 DCT: đây là khối thực hiện chia ảnh thành các khối có kích
thước 8x8 pixel. Nhằm mục đích giảm thời gian tính toán cũng như là
tăng khả năng chính xác khi thực hiện tính toán. Do các điểm ảnh lân
cận có độ tương quan cao, do đó phép biến đổi DCT cho từng khối nhỏ
sẽ tập trung năng lượng vào một số ít các hệ số biến đổi, việc loại bỏ một
số mức năng lượng thấp trong khối chỉ tạo ta mất mát thông tin cục bộ
giúp nâng cao chất lượng hình ảnh.
- Khối Uniform Quantization: Đây là khối lượng tử hóa, thực hiện chuyển
đổi giá trị của mỗi khối 8x8 pixels từ miền số thực sang số nguyên, do
kết quả sau khi biến đổi DCT là miền không gian số thực. Việc thực hiện
lượng tử hóa là điểm mấu chốt trong việc xác định độ mất mát thông tin
của các quá trình nén. Ngoài ra, khối lượng tử hóa giúp việc xác định
năng lượng được tập trung chủ yếu ở miền tần số thấp, các dữ liệu ở
miền tần số cao của mỗi khối sau lượng tử hóa sẽ có giá trị bằng 0 nên
việc loại bỏ các thành phần không cần thiết này sẽ dễ dàng hơn.
- Sau lượng tử hóa: mỗi khối điểm ảnh 8x8 pixels sẽ có 2 thành phần là:
thành phần 1 chiều DC và thành phần xoay chiều AC.
• Thành phần 1 chiều DC là giá trị trung bình của các thành phần khác

trong ma trận sau lượng tử hóa. Thành phần 1 chiều này sẽ được thực
hiện mã hóa dự đoán DPCM với các thành phần 1 chiều của các khối
điểm ảnh khác.
• Thành phần xoay chiều AC là giá trị của các thành phần khác trong
ma trận sau lượng tử hóa. Ma trận này sẽ được thực hiện quét Zig –
Zag nhằm mục tích tăng hiệu năng tính toán. Thông thường các hệ số
tương ứng tần số cao có giá trị bằng 0 nên khi quét Zig zag sẽ tạo ra
nhiều dãy hệ số 0 liên tiếp. Sau đó, sử dụng các thuật toán mã hóa có
độ dài thay đổi VLC (ví dụ Huffman, …) để mã hóa các thành phần
này.
+ Trình bày thuật toán xử lý ở khối đầu tiên của sơ đồ:
Trong khối đầu tiên là khối Color Converter: đây là khối thực hiện việc chuyển
đổi hệ màu RGB sang hệ màu YUV hoặc YcrCb.
- Đối với hệ màu YUV, thuật toán biến đổi giá trị của mỗi điểm ảnh như
sau:
• Y = 0.299*R + 0.587*G + 0.144*B
• U = -0.147*R – 0.289*G + 0.436*B = 0.492* (B – Y)
• V = 0.615*R – 0 .515*G – 0.100*B = 0.877* (R – Y)
-

Đề thi và đáp án môn xử lý dữ liệu đa phương tiện

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về