Tải bản đầy đủ (.pdf) (32 trang)

slide môn học cơ sở thông tin số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (702.72 KB, 32 trang )

Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Layout

1

Introduction to Information Theory
Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Mọi nguồn thông tin tạo ra các bản tin một cách ngẫu nhiên, tức là
đầu ra của nguồn thông tin được đặc trưng, hay được mô tả bởi các
khái niệm và thông số thống kê.
Có hai loại nguồn: nguồn rời rạc và nguồn liên tục.
Nguồn rời rạc là nguồn chỉ tạo ra một tập hợp hữu hạn các bản tin
(còn gọi là bộ ký hiệu), và được ký hiệu là L {x1 , . . . , xL }.


L

pk = P(X = xk ),

pk = 1

1 ≤ k ≤ L,
k=1

Nguổn rời rạc không nhớ (DMS): các ký hiệu tạo ra độc lập thống
kê với nhau.
Nếu các ký hiệu có phụ thuộc thống kê, ví dụ như bộ chữ cái tiếng
Việt hay tiếng Anh, chúng ta có thể xây dựng mô hình toán học của
nguồn dựa vào tính chất dừng thống kê của nguồn (hàm mật độ
phân bố xác suất đồng thời của các dãy ký hiệu là không thay đổi
với mọi dịch chuyển về thời gian).


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Nguồn tương tự tạo ra các bản tin x(t) là một thể hiện cụ thể của
một quá trình ngẫu nhiên X (t). Khi X (t) là quá trình có băng tần
hữu hạn, tức là Φxx (f ) = 0 với |f | ≥ W , chúng ta có thể chuyển
đầu ra của nguồn tương tự thành một nguồn rời rạc tương đương
theo định lý lấy mẫu Shannon:



s(t) =
n=−∞

n
2W

sin[2πW (t − n/2W )]
2πW (t − n/2W )]

Như vậy, đầu ra của nguồn được đặc trưng thống kê bởi hàm mật
độ phân bố xác suất đồng thời p(x1 , . . . , xm ) với mọi m ≥ 1,
Xn = X (n/2W ).
Các mẫu {X (n/2W )} từ nguồn dừng tương tự nói chung là liên tục
theo độ lớn (biên độ).


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Layout

1

Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Giả thiết chúng ta quan sát được đầu ra của một nguồn thông tin Y
một ký hiệu yj , tức là Y = yj và chúng ta muốn xác định lượng
thông tin mà sự kiện Y = yj cung cấp về sự kiện X = xi , tức là xi
được đưa vào đầu vào của kênh hay xi đã được nguồn tạo ra.
Khi X và Y là độc lập thống kê, sự kiện Y = yj không cung cấp
một chút thông tin nào về sự kiện X = xi .
Lượng tin tương hỗ/Mutual information giữa xi và yj được định
nghĩa là:
I (xi ; yj ) = log

P(X = xi |Y = yj )
P(xi |yj )
= log
P(xi )
P(xi )



Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Khi sự kiện Y = yj khẳng định chắc chắn sự xuất hiện của sự kiện
X = xi , chúng ta có lượng tin riêng/self-information của sự kiện
X = xi :
1
= − log P(xi ) = I (xi )
I (xi ; yj ) = log
P(xi )
Sự kiện có xác suất xuất hiện càng cao thì càng chứa/mang ít thông
tin và ngược lại.
Dễ dàng chúng ta thấy I (xi ; yj ) = I (yj ; xi )
Lượng tin có điều kiện/conditional self-information:
I (xi |yj ) = log

1
= − log P(xi |yj ),
P(xi |yj )

I (xi ; yj ) = I (xi ) − I (xi |yj )


Introduction to Information Theory

Mô hình toán học của nguồn thông tin

Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Lượng tin tương hỗ trung bình và entropy
Lượng tin tương hỗ trung bình/average mutual information giữa X
và Y :
n

m

I (X ; Y ) =

P(xi , yj )I (xi ; yj )
i =1 j=1

I (X ; Y ) = 0 khi X và Y là độc lập thống kê và I (X ; Y ) ≥ 0.
Lượng tin trung bình/average self-information:
n

I (X ) = H(X ) =

n

P(xi )I (xi ) = −
i =1

P(xi ) log P(xi )
i =1


Entropy của nguồn rời rạc sẽ cực đại khi các ký hiệu có cùng xác
suất.


Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Introduction to Information Theory

Lượng tin tương hỗ trung bình và entropy

Lượng tin có điều kiện trung bình được gọi là entropy có điều kiện:
n

m

H(X |Y ) =

P(xi , yj ) log
i =1 j=1

1
P(xi |yj )

Khi nhìn dưới góc độ đầu vào kênh là X và đầu ra kênh là Y ,
H(X |Y ) được gọi là độ bất định/equivocation, là lượng thông tin
trung bình còn lại về X (chưa nhận được, chưa chắc chắn ở phía
thu) khi phía thu đã nhận được Y .



Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Introduction to Information Theory

Lượng tin của biến ngẫu nhiên liên tục
Nếu X và Y là hai biến ngẫu nhiên với hàm mật độ phân bố đồng
thời pdf p(x, y ) và các hàm mật độ phân bố độc lập là p(x) và p(y ),
lượng tin tương hỗ trung bình giữa X và Y được định nghĩa là:




I (X ; Y ) =

p(x)p(y |x) log
−∞

−∞

p(y |x)p(x)
dxdy
p(x)p(y )

Entropy/entropy vi sai/differential entropy của biến ngẫu nhiên liên
tục X (không mang ý nghĩa là lượng tin riêng của biến ngẫu nhiên

liên tục):


p(x) log p(x)dx

H(X ) = −
−∞

Entropy có điều kiện trung bình của X khi đã nhận được Y :




−∞

−∞

H(X |Y ) = −

p(x, y ) log p(x|y )dxdy


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Lượng tin của biến ngẫu nhiên liên tục


I (X ; Y ) = H(X ) − H(X |Y ) = H(Y ) − H(Y |X )
Trong một số trường hợp, X là rời rạc và Y là liên tục:
n

p(y ) =

p(y |xi )P(xi )
i =1

I (xi ; y ) = log
n

p(y |xi )
p(y |xi )P(xi )
= log
p(y )P(xi )
p(y )


I (X ; Y ) =

p(y |xi )P(xi ) log
i =1

−∞

p(y |xi )
dy
p(y )



Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Layout

1

Introduction to Information Theory
Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Chúng ta xét việc mã hoá đầu ra của nguồn thông tin, tức là quá
trình biểu diễn các bản tin của nguồn thành một dãy các ký hiệu nhị
phân.

H(X ) biểu diễn lượng thông tin trung bình mà nguồn tạo ra khi tạo
ra một bản tin bất kỳ.
Đo lường độ hiệu quả của việc mã hoá bằng cách so sánh số lượng
ký hiệu nhị phân trung bình dùng để mã hoá cho một bản tin (một
ký hiệu của nguồn) với H(X ).


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Mã hoá nguồn rời rạc không nhớ (DMS)

Một nguồn DMS tạo ra mỗi ký hiệu trong khoảng thời gian τs giây.
Bộ ký hiệu của nguồn là xi , i = 1, 2, . . . , L với xác suất P(xi ).
Lượng thông tin trung bình của mỗi ký hiệu là H(X ) và tốc độ tạo
thông tin của nguồn là H(X )/τs :
L

H(X ) = −

P(xi ) log2 P(xi ) ≤ log2 L
i =1


Introduction to Information Theory


Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Mã hoá nguồn rời rạc không nhớ (DMS)
Mã hoá với từ mã có độ dài cố định
Số lượng ký hiệu nhị phân để mã hoá duy nhất từng ký hiệu của
nguồn là
R = log2 L or R = ⌊log2 L⌋ + 1
Khi L không phải là luỹ thừa của 2 và L nhỏ, hiệu suất lập mã có
thể tăng lên khi mã hoá đồng thời từng khối J ký hiệu của nguồn.
Ta có N ≥ J log2 L hoặc N = ⌊J log2 L⌋ + 1.
Nếu J đủ lớn, hiệu suất lập mã, tính theo công thức JH(X )/N, có
thể tiến sát dần tuỳ ý tới 1.
Nếu chúng ta muốn giảm tốc độ bit R bằng cách mã hoá không dug
nhất, chúng ta có thể chọn 2N − 1 khối J ký hiệu có xác suất cao
nhất và mã hoá duy nhất chúng, phần còn lại LJ − (2N − 1) khối J
ký hiệu sẽ mã hoá thành một từ mã duy nhất.


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Mã hoá nguồn rời rạc không nhớ (DMS)


Định lý mã hoá nguồn 1
Gọi X là một nguồn DMS có entropy hữu hạn H(X ).
Các khối J ký hiệu được mã hoá thành các từ mã nhị phân có độ
dài N.
Với mọi ǫ > 0, xác suất giải mã sai Pe có thể giảm nhỏ tuỳ ý khi J
đủ lớn, với điều kiện sau được thoả mãn
R=

N
≥ H(X ) + ǫ
J

Trái lại, nếu (R < H(X )), Pe sẽ tăng ngẫu nhiên tới 1 khi J đủ lớn.


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Mã hoá nguồn rời rạc không nhớ (DMS)

Mã hoá với từ mã có độ dài thay đổi
Khi các ký hiệu của nguồn có xác suất không giống nhau thì sử
dụng từ mã có độ dài thay đổi sẽ có hiệu quả cap hơn.
Các ký hiệu có xác suất xuất hiện lớn hơn sẽ được gán từ mã có độ
dài nhỏ hơn. Kiểu mã hoá này được gọi là mã hoá entropy.
Chúng ta mong muốn có bộ mã mà giải mã duy nhất và giải mã

ngay lập tức/instantaneously decodable.
Điều kiện prefix: không có từ mã nào là phần đầu (prefix) của một
từ mã khác trong cùng bộ mã.


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Mã hoá nguồn rời rạc không nhớ (DMS)

Mục tiêu của chúng ta la tìm ra một thuật toán mã hoá duy nhất
với các từ mã có độ dài thay đổi và hiệu quả cao (tối thiểu hoá
¯ = L nk P(ak )).
R
k=1
Bất đẳng thức Kraft: điều kiện cần vả đủ để tồn tại một bộ mã
nhị phân có tính prefix là Lk=1 2−nk ≤ 1.
Định lý mã hoá nguồn 2: gọi X là một nguồn DMS có entropy
hữu hạn H(X ) và các ký hiệu là xk , 1 ≤ k ≤ L, với xác suất tương
ứng pk . Có thể xây dựng được một bộ mã nhị phân có tính prefix và
¯ that satisfies
có độ dài trung bình thoả mãn điều kiện R
¯ < H(X ) + 1.
H(X ) ≤ R



Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Mã hoá nguồn rời rạc không nhớ (DMS)
Thuật toán Huffman
Thuật toán là tối ưu theo nghĩa độ dài trung bình của bộ mã là tối
thiểu, bộ mã có tính prefix, giải mã duy nhất và ngay lập tức.
Letter
x1
x2
x3
x4
x5
x6
x7

Hình: Ví dụ về thuật toán Huffman

pk
0.35
0.3
0.2
0.10
0.04
0.005
0.005

H(X ) =
2.11

Self-Info
1.5146
1.7370
2.3219
3.3219
4.6439
7.6439
7.6439
¯ = 2.21
R

Code
00
01
10
110
1110
11110
11111


Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Introduction to Information Theory


Mã hoá nguồn dừng rời rạc
Entropy của khối các biến ngẫu nhiên X1 , X2 , . . . , Xk được định
nghĩa là:
k

H(X1 , . . . , Xk ) =

H(Xi |X1 , . . . , Xi −1 )
i =1

Chúng ta định nghĩa lượng thông tin trung bình có trong một ký
hiệu của nguồn dừng rởi rạc là entropy của một ký hiệu khi số lượng
ký hiệu là vô hạn (k → ∞):
1
H(X1 , . . . , Xk )
k→∞ k

H∞ (X ) = lim Hk (X ) = lim
k→∞

Chúng ta có thể mã hoá J ký hiệu của nguồn bằng thuật toán
Huffman, và chúng ta có:
¯J < H(X1 , . . . , XJ )+1,
H(X1 , . . . , XJ ) ≤ R

¯ < HJ (X )+ 1
HJ (X ) ≤ R
J


Sử dụng thuật toán Huffman yêu cầu phải biết hàm mật độ phân bố
xác suất đồng thời của khối J ký hiệu, hiếm khi có trong thực tế.


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Thuật toán Lempel-Ziv
Trong thực tế, các thông số thống kê của nguồn thông tin là chúng
ta không biết trước, và việc tính hay ước lượng hàm mật độ phân
bố xác suất đồng thời hay các xác suất các ký hiệu là rất khó.
Khi đó việc sử dụng thuật toán Huffman cho các nguồn trong thực
tế (có nhớ) là khó và không thực tế (tất nhiên vẫn có giải pháp).
Thuật toán Lempel-Ziv không phụ thuộc vào tính chất thống kê của
nguồn.
Dãy các ký hiệu đầu vào (đầu ra của nguồn thông tin) được chia
thành từng khối (phrase), mội khối mới xuất hiện khi khối này khác
một trong các khối đã xuất hiện (khối A) chỉ ở duy nhất một ký
hiệu cuối cùng.
Từ mã của khối mới sẽ là vị trí của khối A trong từ điển và chèn
vào say ký hiệu cuối cùng.


Introduction to Information Theory

Mô hình toán học của nguồn thông tin

Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Thuật toán Lempel-Ziv

1
2
3
4
5
6
7
8
9
10

Dictionary Location
0001
0010
0011
0100
0101
0110
0111
1000
1001
1010

Content

1
0
10
11
01
00
100
111
010
1000

Codeword
00001
00000
00010
00011
00101
00100
00110
01001
01010
01110

Bảng: Ví dụ về thuật toán Lempel-Ziv


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin

Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Layout

1

Introduction to Information Theory
Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao


Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Nguồn tương tự tạo ra các bản tin x(t) là một thể hiện cụ thể của
quá trình ngẫu nhiên X (t). Khi X (t) là quá trình ngẫu nhiên dừng
và có băng thông hạn chế, định lý lấy mẫu cho phép chúng ta biểu
diễn X (t) qua các mẫu bằng cách lẫy mẫu với tốc độ Nyquist.
Các mẫu được lượng tử hoá theo mức với R = ⌊log2 L⌋ bit/mẫu.
Sau đó chúng ta có thể dùng thuật toán Huffman để mã hoá các
mẫu nếu biết xác suất các mẫu.
Lượng tử hoá các mẫu tín hiệu mang lại hiệu quả nén, nhưng tạo ra
sai lệch lên tín hiệu, và đây là điều chúng ta xét trong phần này.



Introduction to Information Theory

Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Hàm tốc độ tạo tin-sai lệch
Khái niệm "sai lệch" có nghĩa là so sánh sự khác nhau giữa các mẫu
của nguồn {xk } với các giá trị lượng tử hoá {˜
xk }.
Bình phương sai lệch:
d(xk , x˜k ) = (xk − x˜k )2
Tổng quát:
d(xk , x˜k ) = |xk − x˜k |p
˜ n:
Sai lệch giữa dãy n mẫu Xn và dãy n các giá trị lượng tử X
˜ n) = 1
d(Xn , X
n

n

d(xk , x˜k )
k=1


Introduction to Information Theory


Mô hình toán học của nguồn thông tin
Đo lường thông tin
Mã hoá nguồn rời rạc – Mã hoá không tổn hao
Mã hoá nguồn liên tục – Mã hoá có tổn hao

Hàm tốc độ tạo tin-sai lệch
Đầu ra của nguồn là một quá trình ngẫu nhiên, các mẫu của nó là
˜ n ) là một biến ngẫu nhiên:
các giá trị ngẫu nhiên, và do đó d(Xn , X
˜ n )] = 1
D = E [d(Xn , X
n

n

E [d(xk , x˜k )]
k=1

Với nguồn không nhớ có biên độ liên tục, tốc độ tối thiểu (bit/mẫu)
cần thiết để biểu diễn đầu ra của nguồn với sai lệch không vượt quá
D được gọi là hàm tốc độ-sai lệch:
R(D) =

min

˜
p(˜
x |x):E [d(X,X)]≤D


˜
I (X, X)


×