Tải bản đầy đủ (.ppt) (64 trang)

Bài tập lớn môn kiến trúc máy tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.29 MB, 64 trang )






Cao Văn Cường

Đào Duy Lợi

Nguyễn Thùy Linh

Nguyễn Thị Huyền Thương

Vũ Thị Thúy

Phạm Văn Tuyền




N i Dungộ
N i Dungộ

Cách biểu diễn ký tự trong máy tính.

Tổng quan về bộ mã ASCII chuẩn, mở
rộng.

Tổng quan bộ mã Unicode.

Tổng quan TCVN3


.





1.Cách biểu diễn ký tự trong máy
tính

Nguyên tắc chung

Một số định nghĩa




1.Cách biểu diễn ký tự trong máy tính
1.Cách biểu diễn ký tự trong máy tính
Nguyên tắc chung:

Các ký tự cũng cần được chuyển
đổi thành chuỗi bit nhị phân gọi
là mã ký tự.

Số bit dùng cho mỗi ký tự theo
các mã khác nhau là khác nhau.






1.Cách biểu diễn ký tự trong máy tính
1.Cách biểu diễn ký tự trong máy tính
Một số định nghĩa
Một số định nghĩa
:
:
-
Bảng mã: Một tập hợp nhiều kí tự khác nhau
.

Ví dụ:


Bảng mã chuẩn ASCII (American Standard Code
for Information Interchange) - Mã chuẩn Hoa kỳ
trong Trao đổi Thông tin) bao gồm 128 kí tự, phần
lớn là các kí số, kí tự tiếng Anh, những ký tự đặc biệt
và thông dụng như các dấu cộng, trừ, phần trăm

Unicode là một bảng mã chuẩn khác, gồm có hàng
ngàn các kí tự gồm tiếng Anh và quốc tế bao gồm cả
các kí tự Việt nam. Cũng có một vài bảng mã tiếng
Việt (không chuẩn) như TCVN-ABC, VNI, VISCII,
chúng chỉ có tối đa là 256 kí tự




1.Cách biểu diễn ký tự trong máy tính

1.Cách biểu diễn ký tự trong máy tính
-
Mã: Một số nguyên dương đại diện cho một kí tự trong
một bảng mã. Mã của một kí tự thay đổi tùy theo bảng mã.

Ví dụ: trong bảng mã tiếng Việt TCVN-ABC, kí tự "ầ" có
mã C7. Trong bảng tiếng Việt VISCII, "ầ" có mã là A5.
Trong bảng Unicode, "ầ" có mã là 1EA7 (=7847 thập
phân).
* Lưu ý là mã của một kí tự cho thấy vị trí của kí tự trong
bảng mã.

Ví dụ: trong bảng Unicode, "ầ" nằm ở vị trí 7847 . Mỗi kí
tự Unicode chỉ được "gắn" một mã duy nhất. Ví dụ, trong
Unicode, bạn không thể tìm thấy kí tự "ầ" tại bất kỳ chổ
nào khác ngoài vị trí 7847. Các máy tính chỉ biết một kí tự
qua mã của nó. Ví dụ, khi bạn đánh Unicode dùng một bộ
gõ tiếng Việt và bạn muốn nhập chữ "ầ", bộ gõ tìm cách
gửi mã 1EA7 (sau khi đã được mã hóa dưới dạng nhị
phân) đến bộ xử lý trung ương của máy tính.




1.Cách biểu diễn ký tự trong máy tính
1.Cách biểu diễn ký tự trong máy tính
- Chu i bit:ỗ M t chu i các s nh phân, nh ộ ỗ ố ị ư
01100001. Do máy vi tính ch " c" c s nh ỉ đọ đượ ố ị
phân, d li u ph i c chuy n i thành các chu i ữ ệ ả đượ ể đổ ỗ
bit tr c khi c nh p vào máy. M i kí s trong ướ đượ ậ ỗ ố

m t s th p l c phân luôn c bi u di n b ng ộ ố ậ ụ đượ ể ễ ằ
b n 4 s nh phân. ố ố ị

Ví d :ụ

16 2 16 2 2
16 2 16 2 2
6 0110 ;1 0001 ;F 1111 ;
61 01100001 ;7 0111 ;7F 01111111
= = =
= = =




1.Cách biểu diễn ký tự trong máy tính
1.Cách biểu diễn ký tự trong máy tính
-
Mã hóa (encoding): Cách biểu diễn một kí tự trong
dạng một chuỗi bit. Tùy theo cách mã hóa, một kí tự
có thể được biểu diễn khác nhau.
- Giải mã: Sau khi hệ điều hành nhận được một kí tự
(ví dụ đọc từ một file) đã được mã hóa, nó phải giải
mã để lấy lại mã gốc của kí tự trong bảng mã trước
khi vào font file để tìm cấu hình và thể hiện kí tự
trên màn hình. Một font file chỉ dùng các mã gốc
chứ không dùng dạng đã mã hóa.






2.Tổng quan về bộ mã
ASCII

2.1.Bộ mã ASCII chuẩn

Khuyết điểm

2.2Bộ mã ASCII mở rộng

Ưu điểm

Khuyết điểm




2.Tổng quan về bộ mã ASCII
2.Tổng quan về bộ mã ASCII

Do ANSI (American National Standard Institute)
thiết kế

ASCII là bộ mã được dùng để trao đổi thông tin
chuẩn của Mỹ. Lúc đầu chỉ dùng 7 bit (128 ký tự)
sau đó mở rộng cho 8 bit và có thể biểu diễn 256 ký
tự khác nhau trong máy tính

Bộ mã 8 bit → mã hóa được cho = 256 kí tự, có

mã từ

Bao gồm:
– 128 kí tự chuẩn có mã từ
– 128 kí tự mở rộng có mã từ
8
2
16 16
00 FF÷
16 16
00 ÷7F
16 16
80 FF÷




2.1.Bộ mã ASCII chuẩn
2.1.Bộ mã ASCII chuẩn

Bảng mã ASCII: 7-bit, cho phép 128 mã ( ). Còn
có tên khác là ISO 646-IRV. ASCII là bộ mã đầu
tiên lúc máy tính được phát minh.

Mã cho phép: từ đến

Mã nhỏ nhất: 0, dùng cho kí tự NUL (null: trống
trơn, không có gì).

Mã lớn nhất ( ).


Được dùng cho phím DEL (delete-xoá).

(lưu ý: mặc dù đơn vị dữ liệu là 8 bit, chỉ có 7 bit
cuối được dùng, )
7
2
10 2
127 , 01111111= =
16
7F
16
7F
16
00




2.1.Bộ mã ASCII chuẩn
2.1.Bộ mã ASCII chuẩn

95 kí tự hiển thị được: có mã từ
– 26 chữ cái hoa Latin 'A' ÷ 'Z' có mã từ


– 26 chữ cái thường Latin 'a' ÷ 'z' có mã
từ

– 10 chữ số thập phân '0' ÷ '9' có mã từ

16 16
30 39÷
16 16
20 7E÷
16 16
41 5A÷
16 16
61 7A÷




2.1.Bộ mã ASCII chuẩn
2.1.Bộ mã ASCII chuẩn

95 ký tự hiển thị được:
– Các dấu câu: . , ? ! : ; …
– Các dấu phép toán: + - * / …
– Một số kí tự thông dụng: #, $, &,
@,
– Dấu cách (mã là )
16
20




2.1.Bộ mã ASCII chuẩn
2.1.Bộ mã ASCII chuẩn


33 mã điều khiển: mã từ

dùng để mã hóa cho các chức
năng
điều khiển
16 16
00 1F÷
16
7F




Bảng mã ASCII chuẩn
Bảng mã ASCII chuẩn
click
PDF Document




2.1.Bộ mã ASCII chuẩn
2.1.Bộ mã ASCII chuẩn

Khuyết điểm:
- Chỉ có 128 kí tự được cho phép.
Mọi người cần nhiều mã hơn,
nhất là sau khi hệ DOS và máy
tính cá nhân xuất hiện. Vì vậy,
người ta phải nghĩ ra bộ mã ANSI.





2.2Bộ mã ASCII mở rộng
2.2Bộ mã ASCII mở rộng

Được định nghĩa bởi:
– Nhà chế tạo máy tính
– Người phát triển phần mềm


Bảng mã ANSI : 8-bit, là bảng mã ASCII mở rộng; cho phép
256 mã ( ).
- Các tên khác: ISO-8859-1, LATIN-1.
- Mã cho phép: từ
-Mã nhỏ nhất: , dùng cho kí tự NUL.
- Mã lớn nhất ( )
(lưu ý: tất cả 8 bit trong đơn vị dữ liệu được dùng)
8
2
16 16
00 FF÷
10 16
255 FF=
10 2
255 , 11111111= =
16
0





2.2Bộ mã ASCII mở rộng
2.2Bộ mã ASCII mở rộng

Lưu ý: 128 kí tự đầu tiên (các mã từ )
giống nhau trong ASCII và ANSI

Ví dụ:
– Bộ mã ký tự mở rộng của IBM: được dùng trên
máy tính IBM-PC.
– Bộ mã ký tự mở rộng của Apple: được dùng
trên máy tính Macintosh.
– Các nhà phát triển phần mềm tiếng Việt cũng
đã thay đổi phần này để mã hoá cho các ký tự
riêng của chữ Việt, ví dụ như bộ mã
TCVN 5712.
16 16
00 7F÷




2.2Bộ mã ASCII mở rộng
2.2Bộ mã ASCII mở rộng

Ưu điểm:
- Số lượng mã cho phép đã được tăng đến
256. Do đó, bây giờ bảng mã có chỗ cho

các kí tự khác bên cạnh tiếng Anh.

Khuyết điểm:
- Vẫn chưa đủ chỗ cho các kí tự quốc tế.
(Trung Quốc, Hàn Quốc, Ä Rập, Do
Thái ,quá nhiều!) Vì vậy, người ta phát
minh ra Unicode 16-bit.




Bảng mã ASCII mở rộng
Bảng mã ASCII mở rộng

click
PDF Document





3. Bộ mã Unicode

3.1 Xây dựng bộ ký tự Unicode

3.1.1Lập kho ký tự đa ngữ toàn cầu

3.1.2. Phân bổ điểm mã cho các ký tự đã được nhận vào
kho


3.1.3. Xác định cách biểu diễn tương đương cho các ký tự

3.1.4. Xác định cách biểu diễn các điểm mã trong máy tính

3.2. Kiến trúc Unicode

3.2.1 Unicode xét theo tập ký tự

3.2.2 Các kho chữ đã được đưa vào Unicode

3.2.3 Unicode, xét theo các cách mã hoá khác nhau

3.2.4 Unicode xét theo định dạng chuyển đồi Unicode UTF

3.3. Khái niệm ký tự




3. Bộ mã Unicode
3. Bộ mã Unicode
3.1 Xây dựng bộ ký tự Unicode
Bước vào thời đại xử lý thông tin toàn cầu, cách nghĩ
và cách giải quyết vấn đề theo tư duy của bộ mã 8-
bit không còn thích hợp nữa do mang nhiều yếu tố
áp đặt của kỹ thuật lên thực tế.
Cách tiếp cận cần được đảo ngược lại: phải từ thực
tế ngôn ngữ các nước rồi mới đi đến cách biểu diễn
kỹ thuật trong máy tính, thay cho cách nghĩ từ góc
độ kỹ thuật chiếu sang ngôn ngữ như trước đây (từ

cách mã trong máy tính rồi mới tới cách biểu diễn
ký tự của ngôn ngữ). Người ta cần làm ra mô hình
cho thế giới thực để từ đó mới chiếu vào trong máy
tính, tạo ra mô hình biểu diễn trong máy tính mô
phỏng cho thực tế.




3. Bộ mã Unicode
3.1. Xây dựng bộ ký tự Unicode
3.1.1Lập kho ký tự đa ngữ toàn cầu:
Xây dựng được bộ ký tự đa ngữ cho toàn thế
giới từ đó tìm cách tạo lập mã vào đưa vào
trong máy tính.
Xác lập một loạt tiêu chuẩn cho việc chọn lựa
chữ đưa vào bộ ký tự đa ngữ quốc tế này, yêu
cầu quan trọng nhất là đảm bảo không có sự
trùng lặp về hình dạng của các chữ trong tập
ký tự này.
Số chữ đã được thống nhất công nhận thuộc
vào bộ ký tự đa ngữ quốc tế đã là trên 90.000
và trong tương lai sẽ còn tăng lên trên 120.000.




3. Bộ mã Unicode
3. Bộ mã Unicode
3.1. Xây dựng bộ ký tự Unicode

3.1. Xây dựng bộ ký tự Unicode
3.1.2. Phân bổ điểm mã cho các ký tự đã được nhận vào kho:
Đặt cho từng chữ đó một mã số duy nhất gọi là điểm mã(codepoint)
để phân biệt và tham chiếu tới từng hình chữ đó. Điểm mã như
số thứ tự của một phần tử trong một danh sách, đóng vai trò đại
diện cho chữ đó trong các hoạt động xử lý bên trong của máy
tính.
*Xuất hiện vấn đề khái niệm về ký tự (character) được mở rộng để
bao quát cho cả xử lý của con người và của máy tính. Bây giờ, ký
tự không còn đơn thuần là hình chữ, còn là những cách biểu
diễn khác nhau cho một con số được máy tính xử lý. Do đó, ký tự
được hiểu một cách trừu tượng độc lập với cách hiểu của con
người và máy tính. Để phân biệt các ký tự, người ta cần đặt tên
phân biệt cho chúng, bên cạnh mối tương ứng giữa ký tự đó với
giá trị điểm mã và hình chữ trong font chữ




3. Bộ mã Unicode
3. Bộ mã Unicode
3.1. Xây dựng bộ ký tự Unicode
3.1. Xây dựng bộ ký tự Unicode
3.1.3.Xác định cách biểu diễn tương đương cho các ký tự:
Việc một ký tự có nhiều cách biểu diễn trongmột ngôn
ngữ là điều tương đối phổ biến trên thế giới, nhất là với
các chữ khác chữ tiếng Anh. Chẳng hạn, trong nhiều
ngôn ngữ, một hình chữ có thể được tạo ra bằng cách
ghép nhiều hình chữ có sẵn, thuật ngữ chuyên môn
gọi là tổ hợp ký tự. Giới hạn lại những thành phần sinh

của một ngôn ngữ, chúng ta có một tập sinh nhỏ cùng
các quy tắc để làm phát sinh ra tập lớn các dạng biểu
diễn tạm thời của chữ trong câu. Và đó là hình thái
mà nhiều ngôn ngữ trên thế giới sử dụng, khác với chữ
tiếng Anh.

×