Tải bản đầy đủ (.doc) (11 trang)

Tin học cơ sở - Chương 6 pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (245.88 KB, 11 trang )

Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh
CHƯƠNG 6: BIỂU DIỄN THÔNG TIN TRONG MÁY TÍNH
6.1. CÁC DẠNG DỮ LIỆU
Để xử lý, lưu trữ và truyền thông tin cần phải tìm cách tổ chức và biểu diễn (thể
hiện) thông tin trong MTĐT một cách hợp lý. Như đã biết, dữ liệu là hình thức
biểu diễn thông tin. Như vậy đối với máy tính, dữ liệu chính là các thông tin đã
được mã hoá dưới dạng nhị phân. Dữ liệu - thông tin được máy tính xử lý có
thể có các dạng khác nhau.
Máy tính có thể tính toán trên các số, có thể xử lý thông tin chữ, có thể xử lý
những thông tin đa phương tiện (multimedia) như âm thanh và hình ảnh. Máy
tính còn có thể xử lý tri thức (knowledge).
Thông tin về một đối tượng có thể rất phức tạp và có thể được thể hiện bằng
nhiều dữ liệu có kiểu khác nhau. Ví dụ thông tin về một cán bộ có thể có tên,
nơi sinh là văn bản; ngày sinh, lương là số, ảnh chân dung là ảnh,
Hình 6.1. Phân loại các dạng dữ liệu
Để lưu trữ trong MTĐT cả dữ liệu số, phi số và tri thức đều được mã hóa bằng
các mã nhị phân. Theo nghĩa đó, mọi dữ liệu dù là bản chất có khác nhau
nhưng đều được số hoá. Sự phân biệt theo sơ đồ ở Hình 6.1 nặng về ý nghĩa
sử dụng hơn là cách biểu diễn. Dưới đây ta sẽ trình bày chi tiết hơn các lớp dữ
liệu. Trong trường hợp biểu diễn thông tin không quá phức tạp ta sẽ giới thiệu
về cách biểu diễn.
6.2. DỮ LIỆU KIỂU SỐ
Người ta thường dùng hai cách biểu diễn số là số dấu phẩy tĩnh và số dấu
phẩy động.
6.2.1. Biểu diễn số dấu phẩy tĩnh (fixed point number)
Với kiểu biểu diễn số dấu phẩy tĩnh, người ta chọn một độ rộng n bit nào đó
cho một số. Trong n bit này, bit đầu tiên dùng để mã dấu của số theo cách bit 0
dùng để mã dấu dương, bit 1 dùng để mã dấu âm. Trong n-1 bit còn lại, lấy
một số bit cho phần nguyên và phần còn lại cho phần lẻ. Ví dụ trong dãy 16 bit
42
Dữ liệu


Dữ liệu
Dữ liệu số
Dữ liệu số
Dữ liệu phi số
Dữ liệu phi số
Tri thức
Tri thức
Số dấu
phẩy tĩnh
Số dấu
phẩy tĩnh
Số dấu
phẩy động
Số dấu
phẩy động
Văn
bản
Văn
bản
Hình
ảnh
Hình
ảnh
Âm
thanh
Âm
thanh
Luật
Luật
Sự kiện

Sự kiện
Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh
như trên Hình 6.2 sau nếu ta dùng 7 bit cho phần nguyên và 8 bit cho phần lẻ
và một bit cho dấu thì biểu diễn sau thể hiện số 1100101,11011011
0 1 1 0 0 1 0 1 1 1 0 1 1 0 1 1
Hình 6.2. Biểu diễn dấu phẩy tĩnh
Do với mỗi kiểu biểu diễn đã chọn, vị trí dấu phẩy mang tính quy ước nằm ở
một vị trí cố định nên kiểu biểu diễn này gọi là kiểu dấu phẩy tĩnh.
Trên thực tế đa số các môi trường xử lý quy ước dấu phẩy đứng sau ô cuối
cùng có nghĩa là chỉ áp dụng chế độ dấu phẩy tĩnh cho số nguyên. Độ dài của
biểu diễn tuỳ thuộc vào nhu cầu. Các số nguyên thường dùng chủ yếu có các
loại độ dài 8 bit, 16 bit và 32 bit.
Số nguyên không thể dùng trong tính toán gần đúng được.
6.2.2. Biểu diễn số dấu phẩy động (floating point number)
Biểu diễn dấu phẩy tĩnh không đáp ứng được một số nhu cầu, đặc biệt trong
tính toán gần đúng. Đối với các bài toán tính gần đúng người ta có thể chấp
nhận những sai số là lớn về tuyệt đối nhưng tỷ số của sai số trên giá trị thực
của số là nhỏ (sai số tương đối). Mặt khác cách biểu diễn số trong dấu phẩy
tĩnh không đủ mềm dẻo để thể hiện các số quá lớn hoặc quá bé. Đã từ lâu, khi
có nhu cầu tính toán gần đúng trên máy tính người ta thường dùng một loại
biểu diễn số khác là biểu dấu phẩy động. Trong dạng này, số phải được phân
tích trong dạng mũ hay còn là dạng nửa logarit như sau:
x = ± m
x
10
±
Px

trong đó m
x

gọi là phần định trị, còn ±P
x
gọi là phần bậc.
Ví dụ: 3,14 = 0,314 x 10
1
, - 0.0012 = - 0.12 x 10
-2
Phân tích của một số ra dạng mũ là không duy nhất, nhưng nếu kèm thêm điều
kiện phần định trị phải nằm giữa 1 và 10
-1
thì phân tích luôn duy nhất. Phân tích
về dạng như thế gọi là dạng chuẩn. Như vậy, phần định trị không có phần
nguyên nên chỉ phải biểu diễn phần lẻ của nó. Hơn nữa trong dạng chuẩn, chữ
số đầu tiên của phần định trị phải khác 0. Trong hệ đếm cơ số 2 nó phải là 1.
bi u di n m t s trong m t vùngĐể ể ễ ộ ố ộ
nh n bit ng i ta s d nh m t ph nớ ườ ẽ à ộ ầ
bi u di n ph n đ nh tr v m t vùngể ễ ầ ị ị à ộ
bi u di n ph n b c.ể ễ ầ ậ
43
Vị trí dấu phẩy
Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh
±
Phần định trị
±
Phần bậc
Hình 6.3. Biểu diễn dấu phẩy động
Nguyên tắc mã dấu của phần định trị và phần bậc cũng giống như trong trường
hợp số dấu phẩy tĩnh. Như vậy ví trí dấu phẩy thực sự của số là do phần bậc
định ra trên phần định trị. Chính vì vậy người ta gọi kiểu biểu diễn số này là
biểu diễn dấu phẩy động.

Biểu diễn dấu phẩy động thực chất là biểu diễn chấp nhận sai số làm tròn. Để
dễ hình dung, ta minh họa trên hệ thập phân. Ví dụ, phần định trị của một số
trong hệ đếm cơ số 10 chỉ được dùng 6 vị trí còn phần bậc chỉ được dùng 2
chữ số. Khi đó số -56234566 sẽ có biểu diễn là:-0,562345.10
2
. Sai số tuyệt đối
là 66 còn sai số tương đối là 0,000001
Ưu điểm dễ thấy của kiểu biểu diễn dấu phẩy động là ta có thể biểu diễn được
các số rất lớn hoặc rất bé. Với 9 ngăn dành cho chữ số trong kiểu nguyên ta
chỉ có thể biểu diễn được các số không quá 10
9
. Trong khi đó với kiểu biểu
diễn dấu phẩy động như trên với 3 ngăn dành cho phần bậc ta có thể biểu diễn
các số lớn tới 0,999999.10
99
hoặc các số dương nhỏ tới 0,1.10
-99
. Giá phải trả
cho ưu điểm này chính là sai số làm tròn. Phần định trị càng ngắn thì sai số
làm tròn càng lớn.
6.3. DỮ LIỆU PHI SỐ
6.3.1. Mã hoá chữ và dữ liệu kiểu văn bản
Đơn vị cơ sở của dữ liệu văn bản là chữ. Ở đây khái niệm chữ cần được hiểu
theo nghĩa rộng, không chỉ là các chữ cái Latinh mà kể cả chữ số, các dấu
chính tả, các dấu toán học, các ký hiệu để trình bày. Mặt khác không phải dân
tộc nào cũng dùng chữ latinh nên đối với một số dân tộc có thể có những chữ
riêng. Ví dụ chữ Trung hoa có đến hơn 60 nghìn chữ.
Để đỡ gây nhầm lẫn giữa khái niệm chữ theo nghĩa chữ cái thông thường
(letter) với "chữ" dùng trong văn bản nói chung kể cả văn bản máy tính, từ đây
trở đi chúng ta sẽ dùng thuật ngữ ký tự (character) với ý nghĩa là một ký hiệu

dùng trong văn bản.
Nếu dùng một vùng nhớ k bit để mã hoá một chữ thì chỉ có thể biểu diễn được
tối đa là 2
k
ký tự vì chỉ có thể tạo được đúng 2
K
các mã nhị phân khác nhau.
Điều này giải thích tại sao người Mỹ chỉ cần 7 bit để mã cho các chữ của họ;
để có thêm các mặt chữ châu Âu, chữ Hy Lạp và một số ký hiệu trình bày cũng
chỉ cần 8 bit; trong khi đó người Trung Hoa hay người Nhật phải dùng các mã
16 bit.
Các văn bản được hình dung như một chuỗi ký tự. Nội dung một cuốn sách,
một bài thơ được đưa vào máy tính là những ví dụ cụ thể về thông tin văn bản.
Hầu hết các máy tính và môi trường lập trình hiện nay đều sử dụng một byte
để mã hoá một chữ. Trong thời gian tới hầu như chắc chắn sẽ phải dùng bộ
mã UNICODE cho văn bản. Với bộ mã này mỗi chữ sẽ tốn 2 byte.
Bài đọc thêm: Bảng mã dùng trong MTĐT
Trước đây, để lưu trữ và xử lý thông tin trong MTĐT người ta đã xây dựng một số bảng mã:
44
Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh
Mã BCD - 4 bit (Binary Coded Decimal)
Lúc đầu người ta muốn dùng các chữ số hệ thập phân qua hệ nhị phân nên người ta đã mã
hoá mỗi chữ số hệ thập phân bằng 4 bit theo bảng dưới đây:
Chữ số thập
phân
0 1 2 3 4 5 6 7 8 9
Mã BCD 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001
Bảng 6.1. Bảng mã BCD
Mã EBCDIC (Extended Binary Coded Decimal Interchange Code)
Sau này người ta đã mở rộng mã BCD 4 bit thành mã BCD 6 bit để có thể mã cả các chữ

latinh. Với 6 bit chỉ có thể biểu diễn được tới 64 ký tự. Do còn phải biểu diễn chữ số, các dấu
chính tả và dấu phép toán nên không đủ chỗ cho cả chữ hoa và chữ thường, vì thế trong mã
BCD 6 bit chỉ có mã cho các chữ latinh in.
Với việc dùng máy tính có cấu trúc bộ nhớ địa chỉ hoá theo byte, bảng mã BCD đã được mở
rộng thành bảng mã 8 bit. Tuy nhiên bảng này không dùng hết 256 chỗ. Đây là bộ mã thịnh
hành trong thập kỷ 70 của thế kỷ 20 và được nhiều nước sử dụng với các máy tính đương
thời.
45
Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh
Ký tự Mã Ký tự Mã Ký tự Mã
A
B
C
D
E
F
G
H
I
1100 0001
1100 0010
1100 0011
1100 0100
1100 0101
1100 0110
1100 0111
1100 1000
1100 1001
J
K

L
M
N
O
P
Q
R
110 10001
1101 0010
1101 0011
1101 0100
1101 0101
1101 0110
1101 0111
1101 1000
1101 1001
-
S
T
U
V
U
X
Y
Z
1110 0001
1110 0010
1110 0011
1110 0100
1110 0101

1110 0110
1110 0111
1110 1000
1110 1001
Bảng 6.2. Bảng mã EBCDIC
Mã ASCII
Bảng chữ được sử dụng nhiều để xử lý thông tin trên MTĐT là bảng chữ ASCII (American
Standard Codes for Information Interchange) - bộ mã chuẩn của Mỹ để trao đổi thông tin.
Mỗi ký tự ban đầu được mã bằng 7 bit. Sau này bảng mã ASCII được mở rộng thành bảng 8
bit với 256 mã khác nhau để có thể chứa thêm một số chữ cái của các quốc gia khác cũng như
một số ký tự dùng để trình bày. Với 256 ký tự, mỗi ký tự được mã bằng một dãy 8 bit (một
byte). Bảng 6.3 trình bày bộ mã ASCII. Các ký tự từ 0 đến 31 là các mã điều khiển có tên riêng
với ý nghĩa điều khiển được quy ước trước. Ví dụ, ký tự số 2 STX (Start of Text) báo bắt đầu
vùng văn bản trong dòng dữ liệu truyền thông, ký hiệu số 7 (Bell) để gây một tiếng chuông, ký
hiệu thứ 10 CR (Carriage Return) dùng để điều khiển điểm làm việc của máy in hay màn hình
về đầu dòng. Các ký tự từ 32 đến 127 là các ký tự gốc của bảng mã ASCII. Các ký tự từ 128
đến 255 có thể thay đổi tuỳ theo nhu cầu sử dụng. Có rất nhiều bộ mặt chữ cho vùng này mà
Bảng 6.3 là một ví dụ.
Trong bảng, mỗi ô có số thứ tự của ký tự và mặt chữ tương ứng, mã nhị phân của ký tự được
ghép từ 5 bit của hàng và 3 bit của cột trong bảng. Ví dụ mã nhị phân của chữ H là 01001000.
000 001 010 011 100 101 110 111
00000 0 NUL 1 SOH 2 STX 3 EXT 4 EOT 5 6 7 BEL
00001 8 BS 9 HT 10 LF 11 VT 12 FF 13 CR 14 15
00010 16 17DC1 18DC2 19DC3 20DC4 21 22 23
00011 24 25 26 27 28 29 30 31
00100 32 33 ! 34 " 35 # 36 $ 37 % 38 & 39 '
00101 40 ( 41 ) 42 * 43 + 44, 45 - 46. 47 /
00110 48 0 49 1 50 2 51 3 52 4 53 5 54 6 55 7
00111 56 8 57 9 58 : 59 ; 60 < 61 = 62 > 63 ?
01000 64 @ 65 A 66 B 67 C 68 D 69 E 70 F 71 G

01001 72 H 73 I 74 J 75 K 76 L 77 M 78 N 79 O
01010 80 P 81 Q 82 R 83 S 84 T 85 U 86 V 87 W
01011 88 X 89 Y 90 Z 91 [ 92 \ 93 ] 94 ^ 95 _
01100 96 ` 97 a 98 b 99 c 100 d 101 e 102 f 103 g
01101 104 h 105 i 106 j 107 k 108 l 109 m 110 n 111 o
01110 112 p 113 q 114 r 115 s 116 t 117 u 118 v 119 w
01111 120 x 121 y 122 z 123 { 124 | 125 } 126 ~ 127
10000 128 129 130 131 132 133 134 † 135 ‡
46
Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh
000 001 010 011 100 101 110 111
10001 136 ˆ 137 ‰ 138 Š 139 ‹ 140 141 142 143
10010 144 145 ‘ 146 ’ 147“ 148” 149 • 150 – 151—
10011 152 153 154 š 155 › 156 157 158 159
10100 160 161 Ă 162 Â 163 Ê 164 Ô 165 Ơ 166 Ư 167 Đ
10101 168 ă 169 â 170 ê 171 ô 172 ơ 173 ư 174 đ 175 ¯
10110 176 ° 177 ± 178 ² 179 ³ 180 ´ 181 à 182 ả 183 ã
10111 184 á 185 ạ 186 º 187 ằ 188 ẳ 189 ẵ 190 ắ 191 ¿
11000 192 À 193 Á 194 Â 195 Ã 196 Ä 197 Å 198 ặ 199 ầ
11001 200 ẩ 201 ẫ 202 ấ 203 ậ 204 è 205 Í 206 ẻ 207 ẽ
11010 208 é 209 ẹ 210 ề 211 ể 212 ễ 213 ế 214 ệ 215 ì
11011 216 ỉ 217 Ù 218 Ú 219 Û 220 ĩ 221 í 222 ị 223 ò
11100 224 à 225 ỏ 226 õ 227 ó 228 ọ 229 ồ 230 ổ 231 ỗ
11101 232 ố 233 ộ 234 ờ 235 ở 236 ỡ 237 ớ 238 ợ 239 ù
11110 240 ð 241 ủ 242 ũ 243 ú 244 ụ 245 ừ 246 ử 247 ữ
11111 248 ứ 249 ự 250 ỳ 251 ỷ 252 ỹ 253 ý 254 ỵ 255 ÿ
Bảng 6.3. Bảng mã ASCII
Về mã tiếng Việt
Vào thời kỳ đầu khi mới có MTĐT, Việt Nam sử dụng các bộ mã sẵn có trên các máy tính do
đó không thể hiện được chữ Việt. Từ khi máy vi tính được sử dụng rộng rãi, đã xuất hiện nhu

cầu lập bảng mã tiếng Việt trên cơ sở sửa đổi bảng mã ASCII. So với bộ chữ latinh, tiếng Việt
có rất nhiều chữ riêng như ă, â, ư, ơ, ê, đ. Mỗi chữ này còn có thêm các dấu thanh trong cả
dạng chữ thường và chữ in. Với chữ o sẽ phải có thêm các mặt chữ như ò ó ỏ ọ õ ò ó ỏ ọ õ.
Tổng cộng có tới 134 mặt chữ không có trong bộ chữ latinh. Phần mở rộng của bảng chữ
ASCII chỉ có thêm 128 chữ. Vì vậy về mặt nguyên tắc nếu không muốn hy sinh các mã điều
khiển và các mã chữ trong bảng ASCII phần gốc, không thể đưa toàn bộ chữ Việt vào bảng mã
ASCII. Có một số giải pháp được sử dụng như hy sinh một số chữ ít dùng trong bảng mã
ASCII để lấy chỗ cho chữ Việt, hay hy sinh một số chữ in có dấu ít dùng (ví dụ ẫ). Đã có rất
nhiều công ty hay tổ chức tạo các bộ mã tiếng Việt riêng của mình. Cho tới nay đã có tới 40 bộ
mã khác nhau trong đó các bộ mã hay dùng nhất là TCVN1572-93, VNI, Tình trạng loạn mã
dẫn đến văn bản soạn ở mã này không đọc được trên mã khác. Tới năm 1993, Bộ Khoa học
Công nghệ và Môi trường đã ban hành chuẩn Quốc gia TCVN 5712-1993. Thực chất chuẩn
này gồm 3 bộ mã riêng biệt. Chuẩn TCVN 5712 đã góp phần chấm dứt thời kỳ cát cứ về mã
chữ Việt. Tuy vậy chuẩn này không giải quyết được cơ bản vấn đế thiếu chỗ trong bộ mã 8 bit.
Sau đây là bộ mã TCVN 5712-3, 1993, một số chỗ bôi đen thực ra vẫn có mặt chữ nhưng với
mục đích giới thiệu mã tiếng Việt nên chúng ta sẽ không giới thiệu ở đây:
000 001 010 011 100 101 110 111
00000 0 1 2 3 4 5 6 7
00001 8 9 10 11 12 14 14 15
00010 16 17 18 19 20 21 22 23
00011 24 25 26 27 28 29 30 31
00100 32 33 ! 34 " 35 # 36 $ 37 % 38 & 39 '
00101 40 ( 41 ) 42 * 43 + 44, 45 - 46. 47 /
00110 48 0 49 1 50 2 51 3 52 4 53 5 54 6 55 7
00111 56 8 57 9 58 : 59 ; 60 < 61 = 62 > 63 ?
01000 64 @ 65 A 66 B 67 C 68 D 69 E 70 F 71 G
01001 72 H 73 I 74 J 75 K 76 L 77 M 78 N 79 O
01010 80 P 81 Q 82 R 83 S 84 T 85 U 86 V 87 W
47
Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh

000 001 010 011 100 101 110 111
01011 88 X 89 Y 90 Z 91 [ 92 \ 93 ] 94 ^ 95 _
01100 96 ` 97 a 98 b 99 c 100 d 101 e 102 f 103 g
01101 104 h 105 i 106 j 107 k 108 l 109 m 110 n 111 o
01110 112 p 113 q 114 r 115 s 116 t 117 u 118 v 119 w
01111 120 x 121 y 122 z 123 { 124 | 125 } 126 ~ 127
10000 128 129 130 131 132 133 134 135
10001 136 137 138 139 140 141 142 143
10010 144 145 146 147 148 149 150 151
10011 152 153 154 155 156 157 158 159
10100 160 161 Ă 162 Â 163 Ê 164 Ô 165 Ơ 166 Ư 167 Đ
10101 168 ă 169 â 170 ê 171 ô 172 ơ 173 ư 174 đ 175
10110 176 177 178 179 180 181 à 182 ả 183 ã
10111 184 á 185 ạ 186 187 ằ 188 ẳ 189 ẵ 190 ắ 191
11000 192 193 194 195 196 197 198 ặ 199 ầ
11001 200 ẩ 201 ẫ 202 ấ 203 ậ 204 è 205 206 ẻ 207 ẽ
11010 208 é 209 ẹ 210 ề 211 ể 212 ễ 213 ế 214 ệ 215 ì
11011 216 217 218 219 220 ĩ 221 í 222 ị 223 ò
11100 224 225 ỏ 226 õ 227 ó 228 ọ 229 ồ 230 ổ 231 ỗ
11101 232 ố 233 ộ 234 ờ 235 ở 236 ỡ 237 ớ 238 ợ 239 ù
11110 240 241 ủ 242 ũ 243 ú 244 ụ 245 ừ 246 ử 247 ữ
11111 248 ứ 249 ự 250 ỳ 251 ỷ 252 ỹ 253 ý 254 ỵ 255
Bảng 6.4. Bảng mã TCVN 5712-3
Bộ mã UNICODE - Giải pháp toàn cầu
So với Việt Nam thì một số nước như Trung Quốc hay Nhật bản vấn đề mã còn nan giải hơn.
Bộ chữ của Trung Quốc có tới 6 vạn chữ. Bộ chữ Kangi của Nhật bản về cơ bản là bộ chữ
Hán của Trung quốc, ngoài ra để có thể sử dụng được máy tính có chữ latinh, người Nhật
buộc phải tạo ra bộ chữ có thể đánh vần được trên cơ sở chữ Hán và vẫn không bỏ được chữ
latinh. Có lẽ vì thế mà ngay từ thập kỷ 80 của thế kỷ 20, người Nhật đã đề xuất ra một dự án
xây dựng một bảng mã toàn cầu trong đó mỗi nước có thể sử dụng các trang bảng mã nhiều

byte. Nếu mặt chữ nào có ở một nơi thì không cần định nghĩa ở nơi khác. Dự án này sau được
mở rộng thành một dự án quốc tế gọi là UNICODE. Đầu thập kỷ 90 của thế kỷ 20, tổ chức tiêu
chuẩn thế giới ISO đã thoả thuận với tổ chức UNICODE cùng thống nhất một bộ mã toàn cầu.
Chuẩn ISO 10646 sử dụng luôn bộ mã UNICODE làm bộ mã chung. Trong UNICODE đã sẵn
có cho tất cả chữ Việt kể cả chữ có dấu thanh. Nhận thức được việc sử dụng bộ mã UNICODE
là một trong những giải pháp giải quyết tận gốc vấn đề mã chữ Việt và hội nhập với nền CNTT
thế giới. Tháng 9/2001 Bộ Khoa học Công nghệ và Môi trường đã giao cho Uỷ ban tiêu chuẩn
và chất lượng chuẩn bị để phê chuẩn bộ mã quốc gia trên cơ sở UNICODE. Bộ mã này được
chính thức sử dụng từ ngày 01/01/2003.
6.3.2. Hình ảnh
Hình ảnh cũng có thể xử lý bằng máy tính. Khác với hình ảnh thông thường,
hình ảnh trong máy tính được mã hoá dưới dạng nhị phân. Có rất nhiều kiểu
mã hoá ảnh trong đó hai kiểu thông dụng
nhất.
Kiểu thứ nhất là ảnh bitmap (nghĩa là bản
đồ các bit) thể hiện ảnh như một lưới điểm.
Như vậy mỗi điểm sẽ phải nằm trong một
hàng và một cột nào đó trong lưới, ngoài ra
màu của điểm cũng được mã hoá. Các ảnh
48
Hình 6.4. Ảnh bitmap
Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh
khí tượng do các vệ tinh chụp gửi về, ảnh phong cảnh, chân dung đều có thể
thể hiện theo kiểu này. Ta cũng có thể đưa một ảnh bất kỳ vào máy dưới dạng
bitmap bằng máy quét ảnh (scanner), máy quay video số (digital video camera)
hay máy chụp ảnh số (digital camera) Nói chung, dữ liệu ảnh này là dữ liệu
lớn. Vì vậy, người ta thường sử dụng các kỹ thuật nén ảnh khác nhau trước
khi đưa vào máy, sự khác nhau là ở cách tổ chức để nén được ảnh mà vẫn
giữ được chất lượng và thể hiện được các hiệu ứng ảnh. Còn lúc hiển thị để
xem thì ảnh sẽ được khôi phục dưới dạng bitmap. Ảnh thể hiện theo từng điểm

gọi là ảnh raster.
Kiểu thứ hai thể hiện ảnh theo cách vẽ. Kiểu này chỉ phù hợp với các ảnh có
thành phần là các điểm rời rạc, các đường hoặc hình thể hiện bằng các đường
biên như bản vẽ kiến trúc, các bản vẽ kỹ thuật, bản đồ. Cách lưu trữ là lưu
thông tin về các thành phần của ảnh. Đối với một đoạn thẳng thì chỉ lưu toạ độ
các đầu mút, đối với một hình tròn thì chỉ
lưu toạ độ tâm và bán kính Vì thế các ảnh
này thường gọn gàng và dễ phóng to thu
nhỏ (vì chỉ dùng các phép biến đổi toạ độ). Các ảnh kiểu này gọi là ảnh vector.
6.3.3. Âm thanh
Âm thanh cũng có thể được xử lý bằng máy tính. Cũng có nhiều phương pháp
mã hoá âm thanh. Có thể mã hoá bằng cách xấp xỉ dao động sóng âm bằng
một chuỗi các byte thể hiện biên độ dao dộng tương ứng theo từng khoảng
thời gian bằng nhau. Dĩ nhiên các đơn vị thời gian này cần phải đủ nhỏ để
không làm nghèo âm thanh. Đơn vị thời gian này gọi là chu kỳ lấy mẫu. Hình
6.5 minh hoạ cách lưu trữ xấp xỉ sóng âm, theo đó sẽ lưu lại dãy các giá trị
sau:
(-4 -3 2 3 5 4 3 3 5 7 8 6 -1-4-6-6-6-7-6-3 2 5 5 4 3-1 )
Hình 6.5. Số hoá âm thanh
Khi phát, một mạch điện sẽ khôi phục lại sóng âm với một sai khác chấp nhận
được. Một cách khác là phân tích dao động âm thanh thành tổng các dao động
49
Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh
điều hoà (các dao động hình sin với tần số và biên độ khác nhau) và chỉ lưu lại
các đặc trưng về tần số và biên độ.
Việc số hoá âm thanh cũng được thực hiện nhờ các thiết bị chuyên dụng.
Xử lý âm thanh trên máy tính gồm những việc sau:
• Thu và mã hoá âm thanh
• Biên tập (sửa chữa, ghép, cắt)
• Phân tích (tìm các đặc trưng để nhận dạng tiếng nói). Một số máy tính

đã có thể nghe được các lệnh đơn giản. Các máy điện thoại di động
hiện nay đã có khả năng nhận dạng tiếng nói.
• Tổng hợp tiếng nói. ở mức độ đơn giản máy tính có thể đọc văn bản
thành lời.
6.3.4. Về dữ liệu tri thức
Người ta đang cố gắng làm máy tính thông minh hơn bằng cách tạo cho máy
khả năng suy luận. Muốn vậy, ta phải cung cấp cho máy các sự kiện và các
quy luật suy luận. Ví dụ, để máy có thể tìm được quan hệ họ hàng ta đưa vào
các quy luật sau:
• Nếu A là anh em với B và A là con C thì B cũng là con C
• Nếu A là con B và B là con C thì A là cháu C
• Nếu là cháu B và B là anh em với C thì A cũng là cháu C
Nếu ta đưa vào các sự kiện:
• Ngọc là chị Phượng
• Hùng là em An
• Lê là con Ngọc
• An là con Lê
thì máy có thể rút ra kết luận An là cháu Phượng.
Hai nhóm thông tin này gọi là tri thức, nhóm thứ nhất được gọi là luật suy diễn,
nhóm thứ hai gọi là sự kiện. Dữ liệu tri thức trình bày ở đây cho thấy một khía
cạnh xử lý thông tin với một mục đích rõ nét hơn. Có nhiều cách biểu diễn tri
thức (knowledge representation). Tuy nhiên đó là những vấn đề chuyên môn
sâu nên ta sẽ không nghiên cứu ở đây.
6.4. BIỂU DIỄN THÔNG TIN TRONG MÁY TÍNH
Đối với bộ nhớ trong, các thông tin sau khi mã hoá dưới dạng nhị phân được
đưa vào bộ nhớ theo quy ước: Mỗi ngăn của ô nhớ sẽ lưu giữ một trong hai
trạng thái được quy ước là một trong hai bit 0 hoặc 1.
Với đĩa từ, người ta không ghi mã hoá bit 0 hay 1 theo chiều của từ thông của
các vùng nhiễm từ. Vấn đề là khi đọc, đầu đọc trên nguyên tắc cảm ứng từ chỉ
có thể cảm nhận được các trạng thái khác nhau qua sự biến thiên của từ

trường. Nếu dùng chiều của từ thông để mã hoá thì không thể phân biệt được
các bit giống nhau đứng liền nhau. Thông thường các bit được ghi theo kiểu
50
Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh
điều tần. Các bit được thể hiện qua các kiểu biến thiên của từ trường chứ
không phải chiều của từ thông một vùng nhiễm từ trên đĩa. Thực ra cách ghi
trên đĩa từ khá phức tạp vì người ta không những chỉ ghi dữ liệu mà còn có
các thông tin về địa chỉ và các thông tin đồng bộ giúp cho việc đọc thông tin
được chính xác.
6.5. TRUYỀN TIN GIỮA CÁC MÁY TÍNH
Người ta muốn truyền các bit từ máy này đến máy khác và cách đơn giản nhất
là phân biệt các bit bằng điện áp, ví dụ điện áp 5 v để thể hiện bit 1, điện áp -5
v thể hiện bit 0. Thực tế không bao giờ có thể truyền và nhận các tín hiệu dưới
dạng các xung vuông (Hình 6.6a) mà bao giờ khi chuyển từ mức điện áp nọ
đến mức điện áp kia cũng có những giai đoạn điện áp nhận những giá trị trung
gian (Hình 6.6b). Không những thế còn rất nhiều ảnh hưởng khác làm tín hiệu
lúc nhận khác với tín hiệu mức thu như sự suy yếu tín hiệu làm biên độ thay
đối (Hình 6.6c), hình dạng tín hiệu thay đổi - bị méo (Hình 6.6d) và đương cong
tín hiệu không trơn như lúc đầu do nhiễu (Hình 6.6e). Những vấn đề này cần
được khắc phục bằng các mạch vật lý.
Hình 6.6. Tín hiệu truyền
Thể hiện các bit bằng mức
điện áp chỉ là một cách điều
chế tín hiệu mà ta gọi là
điều biên. Còn có các
51
a) Tín hiệu mong muốn
b) Tín hiệu truyền
d) Tín hiệu bị méo
e) Tín hiệu bị nhiễu

c) Tín hiệu bị suy giảm
Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh
phương pháp điều chế tín hiệu khác gọi là điều tần theo đó, các bit thể hiện
bằng sự thay đổi tần số của tín hiệu và phương pháp điều pha theo đó các bit
được thể hiện bằng pha của tín hiệu hình sin.
Hình 6.7 minh hoạ một số phương pháp điều chế tín hiệu: a) băng tần cơ sở
(tín hiệu nhị phân); b) điều biên, bit 0 thể hiện biên độ là 0, bit 1 được thể hiện
biên độ khác 0; c)
điều tần, bit 0 được thể hiện bằng tần số thấp, bit 1 thể hiện bằng tần số cao;
d) điều pha, bit 0 tương ứng với pha - π/2, bit 1 ứng với pha π/2.
Người ta cũng kết hợp cả nhiều cách điều chế để có thể tăng tốc độ truyền tin.
Một trong các thiết bị cho phép truyền tin giữa các máy qua mạng điện thoại là
modem. Tên "modem" có nguồn gốc từ cặp từ "modulation - demodulation"
nghĩa là điều chế và giải điều chế. Các dữ liệu truyền ra từ một máy tính sẽ
được modem điều chế thành tín hiệu tương tự và gửi đi theo đường điện thoại.
Modem nhận sẽ giải điều chế từ tín hiệu tương tự thành các bit chuyển cho
máy tính nhận. Một cách mã hoá để truyền trong modem là kết hợp điều biên
và điều pha cho phép có thể truyền tin với tốc độ cao hơn tần số của sóng
mang.
Câu hỏi
1. Đúng hay sai khi nói rằng: Dữ liệu có hai loại là số và phi số? Giải thích
câu trả lời.
2. Trong Tin học Số được viết theo quy cách nào?
3. Hãy liệt kê các bộ mã thông dụng hiện nay.
4. Hãy trình bày cách mã hoá dữ liệu các dạng: hình ảnh, âm thanh, tri
thức.
5. Quá trình truyền tin giữa các máy tính diễn ra như thế nào?
52
Hình 6.7. Điều chế tín hiệu

×