Lý thuyết Thông tin
Người soạn Hồ Văn Quân - Khoa CNTT - ĐH Bách Khoa Tp.HCM 18
BÀI 4 LƯỢNG TIN
4.1 Lượng tin
4.2 Lượng tin trung bình
Vấn đề cơ bản của truyền thông là việc tái sinh tại một điểm hoặc chính xác hoặc
gần đúng một thông báo được chọn tại một điểm khác.
(Claude Shannon 1948)
4.1 Lượng tin
Để so sánh định lượng các tin tức với nhau người ta đưa ra khái niệm lượng đo tin tức
(measure of information) hay nói tắt là lượng tin. Vậy lượng tin của một tin được định nghĩa
như thế nào? Chúng ta thấy một tin đối với người nhận đều mang hai nội dung, một là
độ bất ngờ của tin, hai là ý nghĩa của tin. Để có thể so sánh các tin với nhau, chúng ta có
thể lấy một trong hai hoặc cả hai tính chất trên làm thước đo. Nhưng khía cạnh ngữ nghĩa
của tin chỉ có ý nghĩa đối với chúng ta, con người, chứ không có ý nghĩa đối với các hệ
thống truyền tin (HTTT), cụ thể hơn nó không ảnh hưởng gì đến các vấn đề cơ bản của một
HTTT như tốc độ hay độ chính xác, hay nói cách khác nó không liên quan gì đến bài toán
kỹ thuật. Trong khi đó, khía cạnh quan trọng nằm ở chỗ tin (hay thông báo) thật sự là một
cái được chọn từ một tập các tin (tập các khả năng) có thể. Và hệ thống được thiết kế để
hoạt động cho mỗi khả năng được lựa chọn, chứ không phải dành cho cái mà thực sự được
lựa chọn vì điều này là không biết trước tại thời điểm thiết kế. Theo khía cạnh này (khía
cạnh kỹ thuật) thì chúng ta thấy nếu số tin trong tập tin càng nhiều thì sẽ mang lại một
“lượng tin” càng lớn khi nhận được một tin (giả sử các tin là bình đẳng như nhau về khả
năng xuất hiện). Vì vậy gợi ý cho chúng ta có thể định nghĩa khái niệm lượng tin dựa trên số
tin (hay số khả năng) có trong tập. Bây giờ chúng ta xét trong trường hợp tổng quát các tin
có thể có xác suất xuất hiện không như nhau. Xét một tin x giả sử có xác suất xuất hiện là
p(x), thì chúng ta có thể xem tin này như là một tin trong một tập có 1/p(x) tin với các tin có
xác suất xuất hiện như nhau. Nếu p(x) càng nhỏ thì 1/p(x) càng lớn và vì vậy “lượng tin” khi
nhận được tin này cũng sẽ càng lớn. Vậy chúng ta thấy “lượng tin” của một tin tỉ lệ thuận
với số khả năng của một tin và tỉ lệ nghịch với xác suất xuất hiện của tin đó. Đồng thời
chúng ta cũng thấy xác suất xuất hiện của một tin tỉ lệ nghịch với độ bất ngờ khi nhận được
một tin. Thật vậy nếu xác suất xuất hiện của tin càng nhỏ thì độ bất ngờ khi nhận được tin
đó các lớn. Nếu kí hiệu dấu ↑ là tỉ lệ thuận và ↓ là tỉ lệ nghịch thì chúng ta có sơ đồ sau
“lượng tin“ ↑ số khả năng ↑ độ bất ngờ ↓ xác suất
Để khẳng định lại lý luận trên chúng ta lấy một ví dụ. Xét một tin trong một HTTT, nếu nó
có khả năng được lựa chọn càng thấp thì thời gian mà nó chiếm trong HTTT càng ít và nếu
được lựa chọn nó sẽ mang lại cho bên nhận một độ bất ngờ rất lớn. Vì vậy để sự truyền tin
đạt hiệu quả cao chúng ta không thể đối đãi các tin như nhau nếu chúng xuất hiện ít nhiều
khác nhau. Điều này giúp chúng ta thấy hợp lý và chắc chắn hơn trong việc dùng độ bất ngờ
hay xác suất làm thước đo thông tin trong kỹ thuật. Một tin có xác suất xuất hiện càng
nhỏ thì có độ bất ngờ càng lớn và vì vậy có lượng tin càng lớn.
Đến đây một vấn đề khác lại xuất hiện. Đó là chúng ta phải xác định hàm để biểu diện
lượng tin theo độ bất ngờ hay xác suất. Cụ thể xét một nguồn A = {a
1
, a
2
,…, a
m
} với các xác
suất xuất hiện là p(a
i
) i = 1, , m. Giả sử kí hiệu lượng tin trong mỗi tin a
i
là I(a
i
). Vậy
hàm f dùng để biểu thị lượng tin phải thoã mãn những điều kiện gì? Chúng ta sẽ lần lượt liệt
kê và lý giải các điều kiện mà hàm f phải thõa:
Lý thuyết Thông tin
Người soạn Hồ Văn Quân - Khoa CNTT - ĐH Bách Khoa Tp.HCM 19
1. Phản ánh được các tính chất thống kê của tin tức. Ví dụ có hai nguồn K, L với số
tin tương ứng là k, l (giả thuyết đều là đẳng xác suất). Nếu k > l, thì độ bất ngờ khi
nhận một tin bất kỳ của nguồn K phải lớn hơn độ bất ngờ khi nhận một tin bất kỳ của
nguồn L, vậy
f(k) > f(l)
2. Hợp lý trong tính toán. Giả thiết hai nguồn độc lập K và L với số tin tương ứng là k
và l. Cho việc nhận một cặp k
i
và l
j
bất kỳ đồng thời là một tin của nguồn hỗn hợp KL.
Số cặp k
i
l
j
mà nguồn này có là k*l. Độ bất ngờ khi nhận được một cặp như vậy phải
lớn hơn độ bất ngờ khi nhận được một k
i
hay l
j
riêng lẻ. Cụ thể hơn lượng tin khi
chúng ta nhận được cặp k
i
l
j
phải bằng tổng lượng tin của khi nhận được k
i
và l
j
. Vì vậy
chúng ta phải có:
f(kl) = f(k) + f(l)
3. Khi nguồn chỉ có một tin, lượng tin chứa trong tin duy nhất đó phải bằng không.
f(1) = 0
Với những điều kiện trên đưa chúng ta đến việc chọn hàm logarit để làm thước đo tin
tức.
Định nghĩa
Lượng đo thông tin của một tin được đo bằng logarit của độ bất ngờ của tin hay
nghịch đảo xác suất xuất hiện của tin đó.
I(x) =
)(log
)(
1
log xp
xp
−= (2.1)
Ví dụ một nguồn A = {a
1
, a
2
,…, a
m
} có m kí hiệu với các xác suất xuất hiện tương ứng
là p(a
1
), p(a
2
), …, p(a
m
), thì lượng tin chứa trong mỗi kí hiệu a
i
bất kỳ là I(a
i
) = –log p(ai)
Lượng tin chứa trong một dãy x = a
1
a
2
… a
n
với a
i
∈ A là:
I(x) =
∑
=
−=−
n
i
i
axp
1
)log()(log (2.2)
Trong trường hợp m kí hiệu của nguồn đẳng xác suất với nhau tức p(a
i
) = 1/m thì
I(a
i
) = m
ap
i
log
)(
1
log = (2.3)
Nếu x = a
1
a
2
… a
n
với a
i
∈ A
I(x) = n logm
(Lượng tin của x bằng n lần lượng tin của một kí hiệu.)
Chú ý, nếu các tin của nguồn có xác suất xuất hiện không độc lập thống kê với nhau
thì lượng tin chứa trong một dãy kí hiệu của nguồn không những phụ thuộc vào xác suất
xuất hiện từng tin mà còn tùy thuộc vào xác suất có điều kiện. Đây chính là trường hợp của
nguồn có nhớ (source with memory).
Đơn vị của lượng tin
Đơn vị của lượng tin tùy thuộc vào cách chọn cơ số của logarit. Nếu cơ số là 2 thì đơn
vị là bits (cho các kí số nhị phân); nếu cơ số là e thì đơn vị là nats (cho đơn vị tự nhiên), nếu
cơ số là 10 thì đơn vị là Hartley.
4.2 Lượng tin trung bình
Lượng tin riêng của một tin a
i
∈ A chỉ có ý nghĩa đối với chính tin đó mà thôi, chứ
không phản ánh được giá trị tin tức của nguồn A. Nói một cách khác nó, I(a
i
), chỉ mới đánh
Lý thuyết Thông tin
Người soạn Hồ Văn Quân - Khoa CNTT - ĐH Bách Khoa Tp.HCM 20
giá được về mặt tin tức của một tin khi nó đứng riêng rẽ chứ không đánh giá được về mặt tin
tức của tập hợp (nguồn) có chứa tin đó. Mà điều này trong thực tế lại được con người quan
tâm hơn, tức là chúng ta quan tâm đến giá trị tin tức của một tập hợp hơn là giá trị tin tức
của một tin riêng rẻ. Từ đó dẫn đến khái niệm lượng tin trung bình.
Định nghĩa
Lượng tin trung bình của một nguồn tin A là lượng tin trung bình chứa trong
một kí hiệu bất kỳ của nguồn tin. Nó thường được kí hiệu là I(A) và được tính bằng
công thức sau
∑
∑
∈
−=
∈
=
Aa
apap
Aa
aIapAI
i
ii
i
ii
)(log)()()()(
Đây là một thông số thông kê cơ bản rất quan trọng của mỗi nguồn tin. Nó được sử dụng rất
nhiều trong các ứng dụng sau này.
Ví dụ 4.1
Cho một nguồn tin U bao gồm 8 tin U = {u
0
, u
1
, u
2
, u
3
, u
4
, u
5
, u
6
, u
7
}, với các xác suất
xuất hiện như sau:
p(u
0
) p(u
1
) p(u
2
) p(u
3
) p(u
4
) p(u
5
) p(u
6
) p(u
7
)
1/4 1/4 1/8 1/8 1/16 1/16 1/16 1/16
Hãy cho biết lượng tin riêng của mỗi tin và lượng tin trung bình của nguồn này trong đơn vị
bits.
Giải
Lượng tin riêng của mỗi tin là
I(u
0
) I(u
1
) I(u
2
) I(u
3
) I(u
4
) I(u
5
) I(u
6
) I(u
7
)
2 2 3 3 4 4 4 4
Lượng tin trung bình của nguồn là I(U) = (1/4) × 2 + (1/4) × 2 + (1/8) × 3 + (1/8) × 3 +
(1/16) × 4 + (1/16) × 4 + (1/16) × 4 + (1/16) × 4 = 2,75 bits.
Điều này nói lên một ý nghĩa quan trọng rằng, chúng ta có thể biểu diễn mỗi tin trong
nguồn U bằng một chuỗi có chiều dài trung bình là 2,75 bits. Nó sẽ tốt hơn so với trong
trường hợp chúng ta không chú ý đến cấu trúc thông kê của nguồn. Lúc đó chúng ta sẽ biểu
diễn mỗi tin trong 8 tin của nguồn bằng các chuỗi có chiều dài là 3 bits.
Tiếp tục hãy tính lượng tin có chứa trong bảng tin u
(1)
= u
0
u
2
u
1
u
4
u
0
u
5
.
Áp dụng công thức chúng ta có I(u
(1)
) = I(u
0
) + I(u
2
) + I(u
1
) + I(u
4
) + I(u
0
) + I(u
5
) = 2 +
3 + 2 +4 + 2 + 4 = 17 bits. Trong trường hợp không đến xác suất xuất hiện của mỗi tin thì
chúng ta sẽ biểu diễn bảng tin u
(k)
bằng một chuỗi có chiều dài 18 bits tức là dài hơn 1 bits.