Tải bản đầy đủ (.pptx) (50 trang)

Bài 2 dữ liệu đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.31 MB, 50 trang )

DỮ LIỆU ĐA PHƯƠNG TIỆN
Bài 2
PGS.TS. Đặng Văn Đức

Hà Nội - 2005/14
Bài 2: Dữ liệu đa phương tiện
Nội dung

Các loại dữ liệu đa phương tiện

Dữ liệu văn bản

Dữ liệu âm thanh

Dữ liệu hình ảnh

Dữ liệu video

Một vài tính chất chung của dữ liệu đa phương tiện

Kết luận
dvduc-2005/142/48
Bài 2: Dữ liệu đa phương tiện
1. Nhắc lại các loại dữ liệu đa phương tiện
dvduc-2005/14
image
Once upon a time, there was a little
a
u
d
i


o
text
video
3/48
Bài 2: Dữ liệu đa phương tiện
2. Dữ liệu văn bản

Văn bản thuần túy

Sử dụng mã ASCII 7 bit, 8 bit

Các mã EBCDIC, Unicode

Item trong văn bản có thể là ký tự hay từ

Văn bản thuần túy không có thuộc tính
cố định như bản ghi trong CSDL.

Văn bản có cấu trúc

Phần lớn văn bản là có cấu trúc: Tiêu đề, chương, mục, đoạn.

File Header

Chuẩn văn bản: SGML, ODA, PDF, OpenXML, LaText,…

Nén văn bản

Mã hóa Huffman, mã hóa số học


Mã hóa loạt dài (Run-length)

Mã hóa LZW…
dvduc-2005/144/48
Bài 2: Dữ liệu đa phương tiện
2.1 Mã hóa Huffman

Gán ít bít hơn cho các ký tự xuất hiện thường xuyên hơn
trong văn bản.

Quy tắc gán các bít (mã) cho các biểu tượng (ký tự) gọi là
codebook. Codebook được biểu diễn trong bảng.

Ví dụ mã hóa Huffman

Tệp văn bản chứa 1.000 ký tự, bao gồm các ký tự e, t, x và z

Xác xuất các ký tự xuất hiện trong văn bản lần lượt là: 0.8, 0.16,
0.02, 0.02

Codebook:
1 e
01 t
001 x
000 z

Vậy, cần bao nhiêu bytes?
dvduc-2005/14
David Albert Huffman
(1925–1999)

5/48
Bài 2: Dữ liệu đa phương tiện
Mã hóa Huffman

Thuật toán tìm codebook
1. Liệt kê các ký tự theo thứ tự xác suất xuất hiện trong văn bản.
2. Lập cây mà cành của nó là hai ký tự có xác suất nhỏ nhất, gán
nhãn 1 và 0 cho chúng.
3. Loại bỏ hai ký tự vừa được sử dụng khỏi danh sách và bổ xung
ký tự mới có xác suất bằng tổng xác suất các cành của chúng.
4. Lặp lại bước 2 với danh sách mới cho đến khi hình thành gốc
cây.

Duyệt từ đỉnh đến lá của cây (các giá trị 1 và 0) để có từ
mã (codeword).

Lưu trữ cây nhị phân (Huffman).
dvduc-2005/146/48
Ví dụ mã hóa Huffman
dvduc-2005/14Bài 2: Dữ liệu đa phương tiện7/48
Giải nén mã Huffman

Dựng lại cây Huffman từ Codebook

Giải mã dựa vào cây Huffman
1. Khởi động con trỏ pNode để trỏ đến gốc cây
2. Lặp
a. Lấy từng bit trong dòng dữ liệu nén

Nếu (bit==1) thì gán Node bên cành phải cho pNode


Ngược lại, gán Node bên cành trái cho pNode.
c. Nếu pNode là nút lá của cây thì

Lấy ký tự tương ứng trong nút lá

Đặt lại gốc cây Huffman vào con trỏ pNode.
Cho đến khi xử lý toàn bộ các bit trong dòng dữ liệu nén.
Bài 2: Dữ liệu đa phương tiệndvduc-2005/148/48
Bài 2: Dữ liệu đa phương tiện

Run – Length (RLE)

Ví dụ:

Dãy văn bản “eeeeeeetnnnnnnnn”

Mã hóa với ký tự đặc biệt @: @e7t@n8

Khi nào nén RLE có hiệu quả?
2.2 Mã hóa loạt dài
Sc X C
Sc – Ký tự đặc biệt
X – Ký tự lặp
C – Số đếm ký tự lặp
dvduc-2005/149/32
Bài 2: Dữ liệu đa phương tiện
2.3 Mã hóa LZW

Do Jacov Zi, Abraham Lempel và Terry Welch đề xuất

(LZW – Lempel Ziv Welch)

Ý tưởng mã hóa

LZW thay thế các chuỗi ký tự bởi các mã mà không cần thực hiện
phân tích trước các chuỗi ký tự vào.

LZW thực hiện xây dựng từ điển câu (nhóm của một hay nhiều ký
tự) từ dòng ký tự vào.

Trong khi RLE làm việc ở mức ký tự thì LZW làm việc ở mức câu.

Thí dụ: Tệp có 10.000 ký tự

Mã hóa bằng ASCII 8 bít: cần đến 80.000 bít.

Giả sử tệp có 2.000 từ (câu), trong đó có 500 từ (câu) khác nhau

Cần 9 bít để mã hóa hay cần 18.000 bít cho toàn bộ tệp

Tỷ lệ nén đến 4.4 lần

LZW áp dụng cho cả nén ảnh.
dvduc-2005/1410/48
3. Dữ liệu âm thanh

Tín hiệu âm thanh

Tính chất cơ bản của tín hiệu âm thanh


Tần số dao động con người có thể nghe được: 20-20000 Hz

Biên độ của âm thanh:

Từ ngưỡng nghe: 0.000283 dyne/cm2 của sóng hình sin 1 Khz (0 dB)

Đến ngưỡng đau: Biên độ rất lớn do vậy nó được biểu diễn bằng dB để dễ
tính toán. Nếu ngưỡng nghe được là 0 dB làm tham chiếu thì ngưỡng đau
trong khoảng 100-120 dB.
Bài 2: Dữ liệu đa phương tiện
Amplitute
Time
dvduc-2005/1411/48
Dữ liệu âm thanh

Tiến trình âm thanh số:

Điều chế xung mã (Pulse Code Modulation - PCM)

Các bước biểu diễn âm thanh số

Lọc: Để loại bỏ những tần số không mong muốn (giữ lại tiếng nói
từ 50 Hz đến 10 KHz, âm nhạc từ 20 Hz đến 20 kHz).

Lấy mẫu: Chuyển đổi thời gian liên tục thành giá trị rời rạc

Lượng tử hóa: Chuyển đổi giá trị mẫu (âm lượng) liên tục thành
giá trị rời rạc


Mã hóa: Biểu diễn giá trị đã lượng tử hóa dưới dạng số.
dvduc-2005/14Bài 2: Dữ liệu đa phương tiện13/48
Bài 2: Dữ liệu đa phương tiện
3.1 Số hóa tín hiệu âm thanh
(a) tín hiệu gốc dạng tương tự,
(b) xung mẫu,
(c) giá trị lấy mẫu và lượng tử hóa,
(d) dãy số sau khi số hóa.
0
2
4
6
8
001
011
101
100
010
001
011
011
110
Time
Amplitude
(a)
(b)
(c)
(d)
dvduc-2005/1414/48
Bài 2: Dữ liệu đa phương tiện

Biến đổi âm thanh số sang tương tự
0
2
4
6
8
001
011
101
100
010
001
010
010
100
Time
Amplitude
(c)
(b)
(a)
(a) dãy số
(b) các tín hiệu bước
(c) tín hiệu sau khi đi qua
bộ lọc thông thấp
dvduc-2005/1415/48
Xác định tốc độ lấy mẫu

Mức độ chính xác của tín hiệu số phụ thuộc vào

Tốc độ (rate) lấy mẫu


Tổng số mức lượng tử hóa

Tốc độ lấy mẫu phụ thuộc vào tần số cực đại của tín
hiệu lấy mẫu và tuân thủ định lý Nyquist:

Nếu tín hiệu tương tự chứa thành phần tần số đến f Hz thì tốc
độ lấy mẫu phải ít nhất là 2f Hz.

Thực tế tần số lấy mẫu lớn hơn 2f Hz một chút.

Với tần số nghe được 20 kHz, tiếng nói 3.1 kHz thì:
Bài 2: Dữ liệu đa phương tiện
Application
No. of
channels
Sampling rate
Bits per
sample
CD-audio 2 44,100 kHz 16
DAT (Digital Audio Tape) 2 48,000 kHz 16
Digital telephone 1 8,000 kHz 8
dvduc-2005/1416/48
Xác định tổng số mức lượng tử hóa

Khái niệm lỗi (nhiễu) lượng tử hóa:

Hiệu số lớn nhất giữa các giá trị mẫu đã lượng tử hóa với các
giá trị tín hiệu tương tự tương ứng (bước lượng tử hóa).


Tổng số mức lượng tử hóa càng lớn thì nhiễu càng nhỏ

Nếu Q là tổng số bước lượng tử hóa, thì tổng số bít b cần biểu
diễn một mẫu sẽ là

Chất lượng tín hiệu số so với tín hiệu tương tự gốc được đo bởi
signal-to-noise ratio (SNR), tính bằng dB. Với S-cường độ tín
hiệu cực đại, N-nhiễu lượng tử hóa thì:

Nếu bước lượng tử hóa là q, thì N=q và S=2bq. Ta có:
Nếu sử dụng thêm 1 bít để biểu diễn mẫu thì tỷ lệ SNR tăng 6 dB.
Bài 2: Dữ liệu đa phương tiệndvduc-2005/1417/48
Qb
2
log
=
)/(log20
10
NSSNR
=
bbSNR 62log20
10
≈=
Xác định tổng số mức lượng tử hóa

Nhiễu lượng tử hóa phải nhỏ hơn ngưỡng nghe để
không nghe thấy nhiễu.

Ngưỡng đau trong khoảng 100-120 dB, do vậy SNR phải
~100 dB để không thể nghe thấy nhiễu lượng tử hóa.


Với CD-audio: để có SNR= (100-120) dB thì cần 17 bít/mẫu
(6 dB x 17 = 102 dB ). Thực tế sử dụng 16 bit và SNR=96 dB.
Bài 2: Dữ liệu đa phương tiện
Application
Sampling rate
(kHz)
Bits per
sample
SNR (dB)
CD-audio 44,100 16 96
DAT (Digital
Audio Tape)
48,000 16 96
Digital telephone 8,000 8 48
dvduc-2005/1418/48
Bài 2: Dữ liệu đa phương tiện
3.2 Nén âm thanh

Các loại nén cơ sở

Lượng tử hóa phi tuyến

Mã hóa dự báo

Sử dụng tính chất lọc

Kỹ thuật lượng tử hóa tuyến tính

Kích thước các bước lượng tử hóa

sử dụng trong tiến trình ADC là như
nhau, không quan tâm đến cường
độ tín hiệu.

SNR tăng ở vùng với biên độ tín
hiệu cao hơn, nhưng chất lượng
cảm nhận âm thanh không tăng vì
con người nhậy cảm với các thành
phần biên độ thấp.
Q(X) Hàm lượng tử hóa đều
(bậc thang)
dvduc-2005/1419/48
Bài 2: Dữ liệu đa phương tiện
Nén âm thanh

Lượng tử hóa phi tuyến

Kích thước bước lượng tử hóa tăng theo hàm loga với biên độ
tín hiệu

Sử dụng bước lượng tử hóa nhỏ hơn khi biên độ tín hiệu thấp
hơn và ngược lại.
dvduc-2005/1420/48
Cường độ tín hiệu

ớc
lượ
ng
tử
hóa

Bài 2: Dữ liệu đa phương tiện
Nén âm thanh

Thực tế: Áp dụng lượng tử hóa đều cho tín hiệu phi tuyến

Khái niệm Companding:

Tiến trình biến đổi tín hiệu tuyến tính sang tín hiệu phi tuyến

Các hàm biến đổi hay được sử dụng:

x: Biên độ tín hiệu vào gốc

y: Biên độ tín hiệu sau biến đổi

A và µ là các hằng số

µ-law (CCITT):

Với chuẩn điện thoại: µ = 255

A-law (Châu Âu):

Với chuẩn điện thoại: A=87.6
dvduc-2005/1421/48
A
1
x0 ,
ln1
≤≤

+
=
A
Ax
y
1
A
1
,
ln1
)ln(1
≤≤
+
+
=
x
A
Ax
y
)1ln(
)1ln(
µ
µ
+
+
=
x
y
Bài 2: Dữ liệu đa phương tiện
4. Dữ liệu hình ảnh


Ảnh (Image)?

Là chân dung hay biểu diễn một người, động vật hay vật thể
đuwọc chụp, vẽ, chạm trổ hay cách nào đó để nhìn thấy được
(Dictionary.com)

Màu là gì? (không có định nghĩa hình thức)

Màu là phân bổ bước sóng λ (red: 400 nm, violet: 700 nm) hay
tần số f của sóng điện từ

Là thuộc tính quan sát vật thể, kết quả từ việc vật thể phát ra,
truyền hay phản xạ ánh sang đến mắt người.
dvduc-2005/1422/48
Bài 2: Dữ liệu đa phương tiện
4.1 Màu

Ánh sáng (hay màu) mà con người nhận biết là dải tần
hẹp trong quang phổ điện từ
dvduc-2005/1423/48
Bài 2: Dữ liệu đa phương tiện
Màu

Tính chất ánh sáng

Màu được tạo bởi nhiều bước
sóng

Mắt người nhạy cảm với bước

sóng trội (nhận biết màu).

Cần có mô hình màu (không
gian màu):

Ánh xạ dạng sóng vào bộ ba
phần tử số để biểu diễn ba tính
chất vật lý: bước sóng gốc
(màu), độ tinh khiết và cường
độ/độ chói.
Bước sóng (nm)
Ánh sáng hấp thụ bởi tế bào hình nón
dvduc-2005/1424/48
Bài 2: Dữ liệu đa phương tiện
4.2 Mô hình màu

Mô hình màu?

Là mô hình toán học trừu tượng mô tả cách biểu diễn màu mà
con người có thể nhận biết bởi bộ các chữ số (3 hay 4 giá trị)
hay bởi các thành phần màu.

Là phương pháp định nghĩa màu.

Thí dụ

Mô hình RGB

Mô hình HSV


Mô hình YUV, YCbCr

Mô hình CMYK,

Nhận xét

Không có mô hình màu nào là đầy đủ cho biểu diễn mọi khía
cạnh của màu

Sử dụng các mô hình màu khác nhau cho các mục đích cụ thể
khác nhau.
dvduc-2005/1425/48

×