Tải bản đầy đủ (.pdf) (36 trang)

Entropy cực đại và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (314.02 KB, 36 trang )

Entropy Cực Đại Và Ứng Dụng
Ngày 7 tháng 6 năm 2013
LỜI CẢM ƠN
Em xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Thạc sỹ Trần Thiện
Thành Khoa Toán Trường Đại học Khoa Học Huế đã chỉ bảo và hướng dẫn tận
tình cho em trong suốt quá trình thực hiện khoá luận này.
Em xin gửi lời cảm ơn và biết ơn sâu sắc tới các thầy, cô đã dạy dỗ em trong
suốt quá trình học tập tại trường Đại học Khoa Học. Những kiến thức các thầy,
cô dạy em là hành trang để em vững bước vào đời.
Em cũng xin chân thành cảm ơn các thầy, cô, anh, chị trong Khoa Toán đã
tạo điều kiện, giúp đỡ và động viên tinh thần cho em trong quá trình làm khoá
luận.
Và cuối cùng, con xin gửi lời cảm ơn và biết ơn vô hạn tới bố, mẹ, những
người thân yêu của em, đã nuôi nấng, dạy dỗ và luôn động viên, làm chỗ dựa tinh
thần cho em trong cuộc sống cũng như trong học tập.
Mặc dù đã cố gắng, nhưng với kiến thức và thời gian còn hạn chế nên không
thể tránh khỏi những thiếu sót. Em mong nhận được sự chỉ bảo của quý thầy cô
và ý kiến đóng góp của bạn bè để khóa luận của em được hoàn thiện hơn.
Xin chân thành cảm ơn !
Huế, ngày 16 tháng 05 năm 2012
Sinh viên
Nguyễn Thị Thu Mơ
1]
Mục lục
LỜI CẢM ƠN 1
MỤC LỤC 2
LỜI MỞ ĐẦU 3
1 Entropy, Entropy Tương Đối Và Thông Tin Tương Hỗ 6
1.1 Entropy của biến ngẫu nhiên . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1 Định nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Entropy của một số phân phối thường dùng . . . . . . . . . 9


1.2 Entropy đồng thời và Entropy điều kiện . . . . . . . . . . . . . . . . 11
1.3 Entropy tương đối và thông tin tương hỗ . . . . . . . . . . . . . . . 16
2 Một Số Kết Quả Của Entropy Cực Đại 23
2.1 Nguyên Lý Entropy Cực Đại . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.1 Định Lý Cơ Bản Về Entropy Cực Đại . . . . . . . . . . . . . 23
2.1.2 Một Số Định Lý Mở Rộng Khác . . . . . . . . . . . . . . . . 27
2.2 Ứng Dụng Về Entropy Cực Đại . . . . . . . . . . . . . . . . . . . . . 30
2.2.1 Bài toán con xúc xắc . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2 Bài toán Berger’s Burges . . . . . . . . . . . . . . . . . . . . . 31
KẾT LUẬN 34
TÀI LIỆU THAM KHẢO 35
2
MỤC LỤC
LỜI MỞ ĐẦU
Lịch sử Entropy được bắt đầu trong nhiệt động học sau đó được nhà toán
học, vật lý Claude Elwood Shannon mở rộng và giới thiệu trong bài báo "A Math-
ematical theory of Communication" vào năm 1948 thông qua khái niệm trung gian
là "độ bất định". Trong dự đoán khả năng xảy ra trước khi nhận được thông tin.
Sau khi nhận thông tin nếu độ bất định giảm đi thì có thể coi lượng thông tin
nhận được là bằng mức độ giảm đi của độ bất định. Nếu dự đoán đoán càng nhiều
tình huống có thể xảy ra thì độ bất định trong dự báo càng lớn.
Entropy cực đại và phương pháp tiếp cận dự đoán phân bố xác suất lần đầu
tiên được đề xuất bởi Jaynes, và kể từ đó đã được sử dụng trong nhiều lĩnh vực
của khoa học máy tính và thống kê học, đặc biệt là xử lý ngôn ngữ tự nhiên, và
gần đây hơn trong mô hình môi trường sống của loài .
Trước khi trình bày về mô hình về mô hình entropy cực đại chúng ta xem
xét ví dụ sau: Xét một quá trình ngẫu nhiên gieo con xúc xắc cân đối đồng chất.
Quan sát 1000 lần thử thống kê xác suất xuất hiện từng mặt ta có:
6


i=1
p(i) = 1. (1)
(2)
trong đó p(i) là xác suất xuất hiện của mặt có i chấm. Bây giờ ta muốn ước lượng
phân phối xác suất của các mặt.
Chúng ta có thể đưa ra nhiều phân phối xác suất thỏa mãn phương trình
(1). Chẳng hạn p(1) = 1 và tất cả các mặt khác có xác suất xuất hiện đều bằng 0
nghĩa là mặt xuất hiện luôn luôn là mặt 1.
Giả sử vì một lý do nào đó con xúc xắc bị lệch 2 mặt là 1 và 4. Trong 1000
lần gieo thử ta quan sát thấy rằng số lần xuất hiện của các mặt 1 và mặt 4 chiếm
50% trên tổng số lần tung.
Lúc đó ta có ràng buộc sau:
p(1) + p(4) =
1
2
. (3)
Vì phân phối xác suất tuân theo phương trình (1) nên ta có:
3]
MỤC LỤC
p(2) + p(3) + p(5) + p(6) =
1
2
. (4)
Một lần nữa có nhiều phân phối xác suất phù hợp với các ràng buộc trên
chẳng hạn p(1) =
1
3
, p(4)=
1
6

và p(2) =
1
2
, các mặt 3, 5, 6 có xác suất xuất hiện là
0. Có rất nhiều kết quả thỏa mãn yêu cầu của bài toán.
Bây giờ chúng ta có thể ước lượng phân phối xác suất của các mặt thông
qua 2 ràng buộc sau.
6

i=1
p(i) = 1
p(1) + p(4) =
1
2
.
Trong trường hợp không có thông tin nào khác hay không có thêm ràng buộc
nào khác, lựa chọn hợp lý nhất cho phân phối xác suất của các mặt là đều nhất
có thể, phụ thuộc vào các ràng buộc.
Giả sử chúng ta kiểm tra lại dữ liệu nhiều lần, và lần này nhận thấy số điểm
bình quân của các mặt là 4, 7 điểm.
Chúng ta có thể kết hợp thông tin này vào mô hình của chúng ta như một ràng
buộc thứ 3 của bài toán:
6

i=1
ip(i) = 4, 7.
Chúng ta có thể tìm được các phân phối xác suất đều hơn ứng với các ràng
buộc trên, nhưng bây giờ việc lựa chọn các phân phối xác suất không còn dễ dàng
nữa khi chúng ta thêm những ràng buộc phức tạp, chúng ta gặp phải khó khăn
nhất định câu hỏi đặt ra là làm thế nào để tìm được một phân phối xác suất đều

nhất hay độ bất định là lớn nhất phụ thuộc vào tập các ràng buộc mà chúng ta
đã biết.
Phương pháp entropy cực đại sẽ trả lời cho ta câu hỏi đó chúng ta sẽ chứng
minh bài toán trong những phần sau. Nguyên lý rất đơn giản cho một tập các ràng
buộc, lựa chọn một phân phối xác suất mà nó phù hợp với tất cả các ràng buộc
của bài toán và đều nhất có thể.
Phân phối xác suất tìm được phải thỏa mãn các ràng buộc quan sát từ thực nghiệm
mà không cần đưa thêm bất kỳ một giả thiết nào khác.
4]
MỤC LỤC
Trong bài khóa luận này em tập trung trình bày, giới thiệu các định nghĩa
liên quan đến Entropy của biến ngẫu nhiên, Entropy của một số phân phối, các
định lý cơ bản về Entropy cực đại và ứng dụng nguyên lý Entropy cực đại để giải
quyết một số bài toán cơ bản. Khóa luận được chia làm 2 chương.
Chương 1: Trong chương này em sẽ giới thiệu tổng quan về Entropy cũng
như các mối quan hệ giữa chúng.
Chương 2: Sẽ tập trung giới thiệu nguyên lý Entropy cực đại, một số định lý
về Entropy cực đại và bài toán ứng dụng.
5]
Chương 1
Entropy, Entropy Tương Đối
Và Thông Tin Tương Hỗ
1.1 Entropy của biến ngẫu nhiên
1.1.1 Định nghĩa
Cho X là biến ngẫu nhiên rời rạc với không gian mẫu Ω(X) = {x
1
, x
2
, , x
n

, }
và hàm mật độ xác suất p(x
i
) = p(X = x
i
). Entropy được định nghĩa là:
H(X) = −


i=1
p(x
i
)logp(x
i
).
Ta có thể ký hiệu:
H(p(x)) = H(p) = H(X).
Một cách tương tự chúng ta có định nghĩa entropy của biến ngẫu nhiên liên
tục với hàm mật độ xác suất p(x) là :
H(X) = −


−∞
p(x)logp(x)dx.
Trong thông tin việc chọn cơ số logarit tương ứng với việc chọn đơn vị đo thông
tin. Nếu cơ số 2 được sử dụng thì các đơn vị đó ký hiệu là bit, cơ số e thì ký hiệu
là nat, cơ số 10 thì ký hiệu là Hartley. Các đơn vị đo thông tin có thể chuyển đổi
qua lại lẫn nhau dựa vào phép đổi cơ số của logarit. Trong phần này trừ khi có
quy định riêng chúng ta quy ước rằng tất cả logarit là cơ số 2.
6

CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Entropy của một biến ngẫu nhiên là thước đo sự "bất định" của biến ngẫu
nhiên, nó đo lường số lượng thông tin trung bình để mô tả biến ngẫu nhiên.
Quy ước: Ta có xlogx → 0 khi x → 0 nên quy ước 0log0 = 0.
Ví dụ 1.1.1.
Giả sử X ∼ Bernoulli(p). Thì khi đó entropy của X là:
H(X) = −
n

i=1
p(x
i
)logp(x
i
)
= −plogp −(1 −p)log(1 −p).
Chẳng hạn nếu p =
1
2
thì H(X) = 1.
Nhận xét: H(X) đạt cực đại tại p =
1
2
vì tập chỉ có 2 phần tử nên xác suất
xuất hiện các giá trị lúc này là bằng nhau, nên độ bất định lúc này lớn nhất.
Khi p = 0 hoặc p = 1. Khi đó xác suất lúc này luôn nhận giá trị 0 hoặc 1 đây
là một biến cố chắc chắn nên lúc này không có độ bất định lượng thông tin trung
bình lúc này là 0.
Ví dụ 1.1.2. Giả sử phân phối xác suất các mặt xuất hiện khi gieo con xúc xắc
được cho bởi:

P (X = 1) =
1
2
, P (X = 2) =
1
4
, P (X = 3) = 0
P (X = 4) = 0, P (X = 5) =
1
8
, P (X = 6) =
1
8
.
Entropy là:
H(X) = −

x∈{1,2,3,4,5,6}
p(x)logp(x)
= −

1
2
log
1
2
+
1
4
log

1
4
+ 0log0 + 0log0 +
1
8
log
1
8
+
1
8
log
1
8

= 1, 75.
Thông thường trong thông tin bài toán này chúng ta cần ít nhất 3bit nhưng phân
phối xác suất là không đều nhau và bằng cách tính Entropy chúng ta biết được
rằng chỉ cần 1,75 bit là có tể mã hóa thông tin trên, nó cho chúng ta biết chính
xác lượng bit cần thiết để mã hóa thông tin.
7]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Ví dụ 1.1.3. Giả sửX ∼ U(a, b) với:
p(x) =



1
b−a
nếu x ∈ (a, b)

0 nếu ngược lại
H(X) = −

b
a
1
b −a
log
1
b −a
dx
= −

a
b −a
log
1
b −a

b
b −a
log
1
b −a

= log(b −a).
Nếu X là phân phối rời rạc thì lúc đó 0 < P (x
i
) < 1 suy ra −P (x
i

)logP (x
i
) > 0
với ∀i nên H(X) ≥ 0. Nếu X là liên tục, thì do hàm mật độ có thể nhận giá trị lớn
hơn 1 nên H(X) có thể âm.
Chẳng hạn ta xét ví dụ sau:
Ví dụ 1.1.4. Giả sử X là đại lượng ngẫu nhiên có hàm mật độ xác định bởi:
f(x) =



3x
2
nếu 0 < x < 1
0 nếu ngược lại
H(X) = −

1
0
3x
2
log3x
2
dx = −

x
3
log3x
2
|

1
0


1
0
x
3
2
xln2
dx

= −log
2
3 +
1
3ln2
 −1, 1.
Bổ đề 1.1.5. Cho 2 hàm phân phối xác suất p(x
i
) và q(x
i
) rời rạc trên tập
{x
1
, x
2
, , x
n
} với q(x

i
) > 0 với ∀i. Khi đó ta có:

n

i=1
p(x
i
)logp(x
i
) ≤ −
n

i=1
p(x
i
)logq(x
i
)
.
Nếu tổng hội tụ. Dấu "=" xảy ra nếu và chỉ nếu p(x
i
) = q(x
i
) với ∀i.
Chứng minh:
Ta luôn có log(x) ≤ x −1 với x > 0 và dấu "=" xảy ra khi x=1.
8]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Đặt x =

q(x
i
)
p(x
i
)
suy ra log(
q(x
i
)
p(x
i
)
) ≤
q(x
i
)
p(x
i
)
− 1, và dấu "=" xảy ra khi p(x
i
) = q(x
i
)
với ∀i.

n

i=1

p(x
i
)log
q(x
i
)
p(x
i
)

n

i=1
(q(x
i
) −p(x
i
)) = 0
⇔ −
n

i=1
p(x
i
)logp(x
i
) ≤ −
n

i=1

p(x
i
)logq(x
i
), Dấu "=" xảy ra khi p(x
i
) = q(x
i
) với ∀ i (đpcm).
1.1.2 Entropy của một số phân phối thường dùng
1. Cho X có phân phối chuẩn N(µ, σ
2
) với hàm mật độ xác suất p(x) =
1

2πσ
2
e

(x−µ)
2

2
thì Entropy của X là:
H(X) = −

R
p(x)logp(x)dx = −

R

1

2πσ
2
e

(x−µ)
2

2
log
1

2πσ
2
e

(x−µ)
2

2
dx
=

R
1

2πσ
2
e


(x−µ)
2

2
(
1
2
log(2πσ
2
) +
(x − µ)
2

2
)dx
=
1
2
(1 + log(2πσ
2
)).
2. Cho X có phân phối mũ Exp(λ) với p(x) =
1
λ
e

x
λ
thì Entropy của X là:

H(X) = −


0
p(x)logp(x)dx = −


0
1
λ
e

x
λ
log(
1
λ
e

x
λ
)dx
=


0
1
λ
e


x
λ
(logλ +
x
λ
)dx
=


0
1
λ
e

x
λ
logλdx +


0
x
λ
1
λ
e

x
λ
dx
= 1 + logλ.

3. Cho X có phân phối Laplace với phương sai 2λ
2
và p(x) =
1

e

|x|
λ
lúc đó En-
tropy của X là:
H(X) = −

R
p(x)logp(x)dx = −

R
1

e

|x|
λ
log(
1

e

|x|
λ

)dx
=

R
1

e

|x|
λ
(log2λ +
| x |
λ
)dx
=

R
1

e

|x|
λ
log2λdx +

R
| x |
λ
1


e

|x|
λ
dx
= log2λ +
1
λ

R
| x |
1

e

|x|
λ
dx
= 1 + log2λ.
9]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
4. Cho X có phân phối Logictic với p(x) =
2
b
(e
(x−µ)
b
+ e

(x−µ)

b
)
2
lúc đó Entropy của
X là:
Đặt y =e
(x−µ)
b
ta có:


R
p(x)logp(x)dx = −

R
2
b
(y +
1
y
)
2
log
2
b
(y +
1
y
)
2

dx
= −

R
2
b
(y +
1
y
)
2
log
2
b
(y
2
+ 1)
2
y
2
dx
= −

R
2
b
(y +
1
y
)

2
(log2(y
2
+ 1)
2
− logby
2
)dx
= −

R
2
b
(y +
1
y
)
2
log2(y
2
+ 1)
2
dx +

R
2
b
(y +
1
y

)
2
logby
2
dx
= logb + 2 −log2.
5. Giả sử X có phân phối hình học Geometry(p) với xác suất p.
Lúc đó ta có P (X = k) = pq
k−1
với (q = 1 - p), k = 1,2,
Entropy của X có dạng:
H(X) = −


i=1
p(x
i
)logp(x
i
)
= −


k=1
pq
k−1
logpq
k−1
= −p



k=1
q
k−1
logpq
k−1
= −p



k=1
q
k−1
logq
k−1
+


k=1
q
k−1
logp

= −p



k=1
(k − 1)q
k−1

logq +


k=1
q
k−1
logp

.
Từ 2 tổng chuỗi:


n=0
r
n
=
1
1 − r



n=0
nr
n
=
r
(1 − r)
2
.
Ta được:

10]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
H(X) = −p

qlogq
(1 − q)
2
+
logp
1 − q

= −p

qlogq
p
2
+
logp
p

= −
qlogq + plogp
p
=
H(p)
p
bit.
6. Giả sử X có phân phối Cauchy với:
p(x) =
1

Π
1
λ
2
+ x
2
.
Với −∞ < x < ∞ và λ > 0.
H(X) =


−∞
1
Π
1
λ
2
+ x
2
log
1
Π
1
λ
2
+ x
2
dx
= log(4Πλ).
1.2 Entropy đồng thời và Entropy điều kiện

Định nghĩa 1. Entropy đồng thời H(X, Y ) của biến ngẫu nhiên 2 chiều rời rạc
với hàm mật độ đồng thời p(x, y) được định nghĩa là:
H(X, Y ) = −

x∈X

y∈Y
p(x, y) log p(x, y).
Nếu (X,Y) là biến ngẫu nhiên 2 chiều liên tục với hàm mật độ đồng thời p(x,y)
thì:
H(X, Y ) = −

R
p(x, y)logp(x, y)dxdy.
Chúng ta cũng có thể định nghĩa entropy điều kiện của biến ngẫu nhiên như
sau:
Định nghĩa 2. Entropy của Y = y
j
(j = 1, , m) với điều kiện X = x
i
(i = 1, , n)
là:
H(Y | X = x
i
) = −
m

j=1
p(y
j

| x
i
)logp(y
j
| x
i
).
11]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Khi đó Entropy của Y với điều kiện X là:
H(Y | X) =

x∈X
p(x)H(Y | X = x)
= −

x∈X

y∈Y
p(x, y)logp(y | x).
Entropy điều kiện biến ngẫu nhiên 2 chiều liên tục là:
H(Y | X) = −

R
p(x, y)logp(y | x)dxdy.
Với p(y | x) =
p(x,y)
p(x)
.
Ví dụ 1.2.1. Giả sử X{trời nắng,mưa} của thành phố huế trong một ngày và

Y {trời nóng, lạnh} phân phối đồng thời P (X, Y ) được cho bởi:
P(nắng, nóng) =
1
2
P(mưa, nóng) =
1
4
P(nắng, lạnh) =
1
4
P(mưa lạnh) = 0.
Lúc đó ta có :
H(X, Y ) = −

x∈X

y∈Y
p(x, y) log p(x, y)
= −[
1
2
log
1
2
+
1
4
log
1
4

+
1
4
log
1
4
+ 0log0]
=
3
2
.
H(Y | X) = −

x∈X

y∈Y
p(x, y)logp(y | x)
=

x∈X

y∈Y
p(x, y)log
p(x)
p(x, y)
=
1
2
log
3

4
1
2
+
1
4
log
3
4
1
4
+
1
4
log
1
4
1
4
+ 0
=
1
2
(log
3
2
+
1
2
log3).

12]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Ví dụ 1.2.2. Giả sử X và Y là hai đại lượng ngẫu nhiên có hàm mật độ đồng thời
xác định bởi:
f(x, y) =



3x nếu 0 < y < x < 1
0 nếu ngược lại
Tìm Entropy H(X,Y), H(Y | X):
Ta có:
H(X, Y ) = −

1
0

x
0
3xlog3xdxdy
= −

1
0

x
0
3x(log3 + logx)dxdy = −

1

0

x
0
(3xlog3 + 3xlogx)dxdy
= −

1
0
dx(3xylog3 + 3xylogx)|
x
0
= −

1
0
(3x
2
log3 + 3x
2
logx)dx
= −x
3
log3|
1
0


1
0

3x
2
logxdx = −log3 +

1
0
3x
2
logxdx
= log3 +
1
3
ln2.
Vậy H(X, Y) =
1
3
ln2 − log3.
Ta có H(Y | X) = −

R
p(x, y)logp(y | x)dx =

1
0

x
0
3xlogp(y | x)dxdy.
Mà ta có p(y | x) =
p(x,y)

p(x)
=
1
x
.
Suy ra:
H(Y | X) = −

1
0

x
0
3xlog
1
x
dxdy =

1
0

x
0
3xlogxdxdy =
3
2
x
2
log3x|
1

0


1
0
3x
2ln2
=
3
2
log3 −
3
4ln2
.
Vậy H(Y | X) =
3
2
log3 −
3
4ln2
.
Ví dụ 1.2.3. Gải sử (X,Y) có phân phối đồng thời là:
13]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Y \ X 1 2 3 4
1 0.125 0,0625 0.03125 0,03125
2 0,0625 0.125 0.03125 0,03125
3 0,0625 0,0625 0,0625 0,0625
4 0,25 0 0 0
Suy ra ta có phân phối biên duyên của X là(

1
2
,
1
4
,
1
8
,
1
8
) và phân phối biên duyên
của Y là (
1
4
,
1
4
,
1
4
,
1
4
) và entropy của X là H(X) =
7
4
và entropy của Y là H(Y) = 2
bài toán đặt ra là tìm H(X | Y ) và H(X, Y ).
Ta có:

H(X, Y ) =
4

x=1
4

y=1
p(x, y)logp(x, y)
= −2
1
8
log
1
8

1
4
log
1
4
− 6
1
16
log
1
16
− 4
1
32
log

1
32
=
27
8
.
Vậy H(X, Y ) =
27
8
.
Ta có:
H(X | Y ) =
4

i=1
P (Y = i)H(X | Y = i)
= P (Y = 1)H(X | Y = 1) + P (Y = 2)H(X | Y = 2)
+ P (Y = 3)H(X | Y = 3) + P (Y = 4)H(X | Y = 4)
=
1
4
H(
1
2
,
1
4
,
1
8

,
1
8
) +
1
4
H(
1
4
,
1
2
,
1
8
,
1
8
)
+
1
4
H(
1
4
,
1
4
,
1

4
,
1
4
) +
1
4
H(1, 0, 0, 0)
=
1
4
×
7
4
+
1
4
×
7
4
+
1
4
× 2 +
1
4
× 0
=
11
8

.
VậyH(Y | X) =
11
8
.
Tương tự ta cũng có H(Y | X) =
13
8
.
Định lý 1.2.4. H(X, Y ) ≤ H(X) + H(Y ). Đẳng thức xảy ra khi X , Y độc lập.
Chứng minh:
Ta có
14]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
P (x
i
) =

L
j=1
p(x
i
, y
j
) , và P (y
i
) =

M
i=1

p(x
i
, y
j
).
H(X) = −

M
i=1
p(x
i
)logp(x
i
) = −

M
i=1

L
j=1
p(x
i
, y
j
)logp(x
i
).
H(Y ) = −

L

j=1
p(y
j
)logp(y
j
) = −

M
i=1

L
j=1
p(x
i
, y
j
)log(y
j
).
Suy ra H(X) + H(Y ) = −

M
i=1

L
j=1
p(x
i
, y
j

)[logp(x
i
) + logp(y
j
)].
Do đó H(X) + H(Y ) = −

M
i=1

L
j=1
p(x
i
, y
j
)[logp(x
i
)p(y
j
)].
Đặt q(x
i
, y
j
) = p(x
i
)p(y
j
).


M

i=1
L

j=1
p(x
i
, y
j
)logq(x
i
, y
j
) ≥ −
M

i=1
L

j=1
p(x
i
, y
j
)logp(x
i
, y
j

)( Theo bổ đề 1.1.5).
Dấu ” = ” xảy ra nếu và chỉ nếu p(x
i
, y
j
) = q(x
i
, y
j
) = p(x
i
)p(y
j
) hay X,Y độc
lập.
Mặt khác :
H(X, Y ) = −
M

i=1
L

j=1
p(x
i
, y
j
)logp(x
i
, y

j
)
Từ những điều trên ta có H(X, Y ) ≤ H(X) + H(Y ) và dấu ” = ” xảy ra nếu và chỉ
nếu X,Y độc lập.
Định lý 1.2.5. (Mối quan hệ giữa entropy đồng thời và entropy điều kiện):
H(X, Y ) = H(X) + H(Y | X) = H(Y ) + H(X | Y )
Chứng minh: Ta có.
H(X, Y ) = −

x∈X

y∈Y
p(x, y)logp(x, y)
= −

x∈X

y∈Y
p(x, y)logp(x)p(y | x)
= −

x∈X

y∈Y
p(x, y)logp(x) −

x∈X

y∈Y
p(x, y)logp(y | x)

= H(X) + H(Y | X).
Do H(X, Y ) = H(Y, X) nên ta có đpcm.
15]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Định lý 1.2.6. Gỉa sử X
1
, X
2
, , X
n
có hàm mật độ đồng thời p(x
1
, x
2
, , x
n
)
khi đó ta sẽ có:
H(X
1
, X
2
, , X
n
) =
n

i=1
H(X
i

| X
i−1
, , X
1
).
Chứng minh:
Ta có:
H(X
1
, X
2
) = H(X
1
) + H(X
2
| X
1
)
H(X
1
, X
2
, X
3
) = H(X
1
) + H(X
2
, X
3

| X
1
)
= H(X
1
) + H(X
2
| X
1
) + H(X
3
| X
2
, X
1
)

Bằng phương pháp quy nạp lúc đó ta có:
H(X
1
, X
2
, , X
n
) = H(X
1
) + H(X
2
| X
1

) + + H(X
n
| X
n−1
, , X
1
)
=
n

i=1
H(X
i
| X
i−1
, , X
1
).
Tính Chất: H(Y | X) = H(X | Y )nhưng H(X)−H(X | Y ) = H(Y )−H(Y | X).
Điều này luôn đúng vì theo định lý 1.2.2 ta có:
H(X, Y ) = H(X) + H(Y | X) = H(Y ) + H(X | Y ).
1.3 Entropy tương đối và thông tin tương hỗ
Trong phần này chúng tôi giới thiệu hai khái niệm liên quan là entropy tương
đối và thông tin tương hỗ. Entropy tương đối là độ đo khoảng cách giữa hai phân
phối, D(p||q) với p là phân phối "thực" và q là một phân phối bất kỳ.
Định nghĩa 3. Entropy tương đối hay khoảng cách Kull back - Leibler giữa hai
hàm phân phối xác suất p(x) và q(x) được định nghĩa là:
D(p||q) =

x∈X

p(x) log
p(x)
q(x)
.
Trong trường hợp phân phối liên tục thì:
16]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
D(p||q) =

R
p(x)log
p(x)
q(x)
dx.
Trong định nghĩa trên chúng ta quy ước 0log
0
q
= 0 và p log
p
0
= ∞.
Tính chất: D(p||q) ≥ 0 và dấu "=" xảy ra nếu và chỉ nếu p(x) = q(x).
Chứng minh:
Ta có:
D(p||q) =

R
p(x)log
p(x)
q(x)

dx
≥ −log

R
p(x)
q(x)
p(x)
dx (Theo Bất Đẳng Thức của Jensen’s)(1)
≥ 0
Suy ra D(p||q) ≥ 0. Theo Bất Đẳng Thức Jensen’s ở (1) dấu "=" xảy ra nếu và
chỉ nếu p(x) = q(x). Vì vậy D(p||q) = 0 nếu và chỉ nếu p(x) = q(x) (đpcm).
Chú ý: Entropy tương đối không phải là một khoảng cách thực sự giữa hai
phân phối xác suất vì nó không có tính đối xứng và không thỏa mãn bất đẳng thức
tam giác, mặc dù vậy ta có thể coi Entropy tương đối như một "khoảng cách" giữa
hai phân phối xác suất.
Ví dụ 1.3.1. Giả sử biến ngẫu nhiên X nhận 2 giá tri 0 và 1 và xét 2 phân phối
p và q trong X với p(0) = 1 − r , p(1) = r và q(0) = 1 − s , q(1) = s.
Khi đó:
D(p||q) =

x∈X
p(x)log
p(x)
q(x)
= (1 − r)log
1 − r
1 − s
+ rlog
r
s

.
Và ta có:
D(q||p) =

x∈X
q(x)log
q(x)
p(x)
= (1 − s)log
1 − s
1 − r
+ slog
s
r
.
17]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Nếu r=s khi đó D(p||q) = D(q||p) = 0.
Nếu r =
1
2
và s =
1
4
khi đó chúng ta có:
D(p||q) =
1
2
log
1

2
3
4
+
1
2
log
1
2
1
4
= 1 −
1
2
log3
= 0, 2075.

D(q||p) =
3
4
log
3
4
1
2
+
1
4
log
1

4
1
2
=
3
4
log3 − 1
= 0, 1887.
Chú ý: D(p||q) = D(q||p).
Định nghĩa 4. Entropy tương đối có điều kiện D(p(y | x)||q(y | x)) của biến ngẫu
nhiên được xác định bởi:
D(p(y | x)||q(y | x)) =

x∈X
p(x)

y∈Y
p(y | x)log
p(y | x)
q(y | x)
.
Định lý 1.3.2.
D(p(x, y)||q(x, y)) = D(p(x)||q(x)) + D(p(y | x)||q(y | x)).
Chứng minh:
Ta có:
p(x, y) = p(x)p(y | x).
Suy ra:
D(p(x, y)||q(x, y)) =

x∈X


y∈Y
p(x, y)log
p(x, y)
q(x, y)
=

x∈X

y∈Y
p(x, y)log
p(x)p(y | x)
q(x)q(y | x)
=

x∈X

y∈Y
p(x, y)log
p(x)
q(x)
+

x∈X

y∈Y
p(x, y)log
p(y | x)
q(y | x)
= D(p(x)||q(x)) + D(p(y | x)||q(y | x)).

18]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Bây giờ chúng ta đưa vào khái niệm thông tin tương hỗ, thông tin tương hỗ là
độ đo lượng thông tin của một biến ngẫu nhiên có chứa thêm một biến ngẫu nhiên
khác.Nó làm giảm bớt tính "bất định" của một biến ngẫu nhiên dựa vào thông tin
của một biến ngẫu nhiên khác.
Định nghĩa 5. Xét hai biến ngẫu nhiên X và Y với hàm mật độ xác suất đồng
thời p(x,y) và hàm mật độ xác suất biên duyên p(x) và p(y).
Thông tin tương hổ I(X;Y) là độ đo cho ta biết biến ngẫu nhiên này chứa bao
nhiêu thông tin về biến ngẫu nhiên khác. Nó được tính bởi Entropy tương đối giữa
phân phối đồng thời và tích số của phân phối biên duyên p(x).p(y) nghĩa là:
I(X; Y ) =

x∈X

y∈Y
p(x, y)log
p(x, y)
p(x).p(y)
= D(p(x, y)||p(x).p(y)).
Trong trường hợp liên tục ta có:
I(X; Y ) =

R

R
p(x, y)log
p(x, y)
p(x)p(y)
.

Định nghĩa 6. Thông tin tương hổ có điều kiện của biến ngẫu nhiên ,biến số X
và Y cho Z được định nghĩa là:
I(X; Y | Z) = H(X | Z) − H(X | Y, Z).
Định lý 1.3.3.
I(X; Y ) = H(X) −H(X | Y ) = H(Y ) − H(Y | X)
I(X; Y ) = H(X) + H(Y ) −H(X, Y )
I(X; Y ) = I(Y ; X)
I(X; X) = H(X).
Chứng minh:
Ta có.
p(x, y) = p(y)p(x | y).
19]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Suy ra:
I(X; Y ) =

x,y
p(x, y)log
p(x, y)
p(x).p(y)
=

x,y
p(x, y)log
p(x | y)
p(x)
= −

x,y
p(x, y)logp(x) +


x,y
p(x, y)logp(x | y)
= −

x∈X
p(x)logp(x) − (−

x,y
p(x, y)logp(x | y))
= H(X) − H(X | Y ).
Thông tin tương hỗ I(X;Y) làm giảm độ bất định của X so với Y.
Bằng phép đối xứng ta cũng có:
I(X; Y ) = H(Y ) −H(Y | X).
mà theo định lý 1.2.1 ta có : H(X, Y ) = H(X) + H(Y | X)nên ta có:
I(X; H) = H(X) + H(Y ) −H(X, Y ).
cuối cùng chúng ta có:
I(X, X) = H(X) − H(X | X) = H(X).
Do đó thông tin tương hỗ của biến ngẫu nhiên với chính nó là entropy của biến
ngẫu nhiên đó. Đây là lý do entropy đôi khi được gọi là tự thông tin.
Tính chất: I(X; Y ) ≥ 0. Dấu "=" xảy ra nếu và chỉ nếu X và Y độc lập.
Chứng minh:
Ta có:
H(X, Y ) = H(X) + H(Y | X) ≤ H(X) + H(Y ), dấu "=" xảy ra khi X,Y độc lập
(Theo định lý 1.2.4 và 1.2.5).
Suy ra: H(Y | X) ≤ H(Y ) hay H(Y ) − H(Y | X) ≥ 0, dấu "=" xảy ra khi X,Y
độc lập.
Vậy
I(X; Y ) = H(Y ) −H(Y | X) ≥ 0, dấu "=" xảy ra khi X,Y độc lập.
20]

CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
Ví dụ 1.3.4. Gải sử (X,Y) có phân phối đồng thời là:
X \ Y 0 1
0 1/3 1/3
1 0 1/3
Tính:
a) H(X), H(Y)
b) H(X | Y), H(Y | X)
c) H(X,Y)
d) H(Y) - H(Y | X)
e) I(X; Y)
Giải:
a)
H(X) = −

x∈{0,1}
p(x)logp(x) = −
2
3
log
2
3

1
3
log
1
3
= log3 −
2

3
= 0, 9183.
H(Y ) = −

y∈{0,1}
p(x)logp(x) = −
1
3
log
1
3

2
3
log
2
3
= 0, 9183.
b)
H(X | Y ) =

x

y
p(x, y)log
p(y)
p(x, y)
=
1
3

log
1
3
1
3
+
1
3
log
2
3
1
3
+ 0 +
1
3
log
2
3
1
3
=
2
3
log2 +
1
3
log1 =
2
3

.
H(Y | X) =

x

y
p(x, y)log
p(x)
p(x, y)
=
1
3
log
2
3
1
3
+
1
3
log
2
3
1
3
+ 0 +
1
3
log
1

3
1
3
=
2
3
log2 +
1
3
log1 =
2
3
.
21]
CHƯƠNG 1. ENTROPY, ENTROPY TƯƠNG ĐỐI VÀ THÔNG TIN TƯƠNG HỖ
c)
H(X, Y ) =

x

y
p(x, y)logp(x, y)
= −[
1
3
log
1
3
+
1

3
log
1
3
+ 0log0 +
1
3
log
1
3
]
= log3.
d)
H(Y ) − H(Y | X) = log3 −
2
3

2
3
= log3 −
4
3
.
e)
I(X; Y ) =

x

y
p(x, y)log

p(x, y)
p(x)p(y)
=
1
3
log
1
3
2
3
1
3
+
1
3
log
1
3
2
3
2
3
+ 0 +
1
3
log
1
3
1
3

2
3
=
2
3
log
3
2
+
1
3
log
3
4
= log3 −
4
3
.
22]
Chương 2
Một Số Kết Quả Của
Entropy Cực Đại
2.1 Nguyên Lý Entropy Cực Đại
Nguyên lý Entropy cực đại là phương pháp giải các bài toán mà chúng ta thiếu
thông tin về chúng, nguyên lý rất đơn giản dựa vào các tập ràng buộc, chúng ta
lựa chọn một phân phối xác suất mà nó phù hợp với tất cả các ràng buộc của bài
toán và đều nhất có thể hay tính bất định là lớn nhất, mà không cần đưa thêm
bất kỳ một ràng buộc nào khác.
2.1.1 Định Lý Cơ Bản Về Entropy Cực Đại
Định lý 2.1.1. Cho p có hàm mật độ xác suất rời rạc trên tập hữu hạn {x

1
, , x
n
}.
Khi đó:
H(p) ≤ log n.
Dấu "=" chỉ xảy ra nếu và chỉ nếu p có phân phối đều tức là p(x
i
) =
1
n
với ∀i .
Định Lý này cho thấy Entropy đạt cực đại khi xác suất xuất hiện các giá trị là
bằng nhau.
Định lý 2.1.2. Cho p có hàm mật độ xác suất liên tục trên R với phương sai σ
2
khi đó:
H(p) ≤
1
2

1 + log(2πσ
2
)

.
23
CHƯƠNG 2. MỘT SỐ KẾT QUẢ CỦA ENTROPY CỰC ĐẠI
Dấu"=" chỉ xảy ra nếu và chỉ nếu p là phân phối chuẩn với phương sai σ
2

.
Định lý 2.1.3. Cho p có hàm mật độ xác suất liên tục X trên (0, ∞) với kỳ vọng
λ. Khi đó ta có:
H(p) ≤ 1 + log λ.
Dấu "=" chỉ xảy ra nếu và chỉ nếu p có phân phối mũ Exp(λ).
Để chứng minh 3 định lý trên chúng ta thông qua các bổ đề sau:
Bổ đề 2.1.4. Nếu x > 0 và y ≥ 0 thì khi đó:
y − ylogy ≤ x −ylogx. (2.1)
Dấu"=" chỉ xảy ra nếu và chỉ nếu x = y.
Chứng minh:
• Nếu y = 0 thì (2.1) luôn đúng vì 0log0 = 0.
• Nếu y > 0 thì:
(2.1) ⇔ 1 − logy ≤
x
y
− logx
⇔ logx − logy ≤
x
y
− 1
⇔ log
x
y

x
y
− 1(2.2).
Bất phương trình (2.2) là luôn đúng vì ta luôn có nếu t > 0 thì log t ≤ t −1. Và
dấu "=" chỉ xảy ra nếu và chỉ nếu t = 1. Vậy phương trình (2.1) luôn đúng và dấu
"=" chỉ xảy ra nếu và chỉ nếu x = y (đpcm)

Bổ đề 2.1.5. Cho p(x) và q(x) là hàm mật độ xác suất liên tục trên R và giả sử
q(x) > 0 với ∀x.
Nếu:


R
p(x)logq(x) = H(q).
Thì H(p) ≤ H(q) hay −

R
p(x)logp(x)dx ≤ −

R
p(x)logq(x)dx.
(Nếu các tích phân tồn tại). Dấu"=" xảy ra nếu và chỉ nếu p(x) = q(x) với ∀x.
24]

×