DỮ LIỆU ĐA PHƯƠNG TIỆN
Part 1: Thu nhận, biểu diễn và xử lý
GV: TS Đinh Đồng Lưỡng
Nội dung
Giới thiệu
Dữ liệu văn bản
Dữ liệu ảnh
Dữ liệu âm thanh
Dữ liệu video
Thu nhận và biểu diễn dữ liệu
Quá trình thu nhận, xử lý, biểu diễn
Minh họa: Audio
Minh họa: hệ thống ĐPT
Thiết bị mã hóa: ADC
Thiết bị mã hóa gồm có bộ lọc khử răng cưa AAF (AntiAliasing Filter) and và thiết bị số hóa (ADC)
Bộ lọc AAF loại bỏ những thành phần tần số cao từ tín hiệu.
Sample and Hold lấy mẫu tín hiệu sau lọc và giữ giá trị của
biên độ giữa các mẫu trong thời gian lấy mẫu
Quá trình lượng tử chuyển mẫu lấy được về dạng nhị phân.
Lượng tử hóa ( Quantization)
Lượng tử hóa là quá trình biến đổi giá trị tương tự sang dạng
nhị phân
Lấy mẫu
Lượng tử
Thiết bị giải mã: DAC
Thiết bị giải mã dùng để chuyển đổi dữ liệu số thành tín hiệu
tương tự thông qua việc sử dụng thiết bị số hóa ngược và bộ
lọc thông thấp.
Quá trình số hóa
DỮ LIỆU VĂN BẢN ( TEXT DATA)
Tạo ra – Lưu trữ - Hiển thị
Dữ liệu văn bản: Phân loại
Văn bản không định dạng (ví dụ: plain text) cho phép tạo ra
trang văn bản chỉ gồm những ký tự có kích thước cố định từ
tập hợp hữu hạn của các ký tự.
Văn bản định dạng (ví dụ, rich text (RTF)) cho phép tạo ra
trang văn bản là tập hợp của những ký tự với nhiều kiểu, kích
thước và màu sắc khác nhau.
Siêu văn bản là tập hợp của các tài liệu có liên kết. Mỗi tài
liệu là một văn bản định dạng.
Dữ liệu văn bản: Biểu diễn
Dữ liệu văn bản thường được biểu diễn dựa trên các loại
mã thông dụng
− Mã ASCII (American Standard Code for Information
Interchange): 8 bit
− Unicode: 16 bit
− Mã EBCDI (Extendend Binary Coded Decimal
Interchange): 8 bit
− Mã BAUDOT: Sử dụng nhiều trong ngành bưu điện
Bảng mã ASCII
8 bit, 256 trạng thái ( 33 ktự điều khiển, 95 ký tự thường, ký tự mở rộng)
Mã BAUDOT
Mã Unicode
UTF và UCS
Unicode Transformation Format (UTF)
UTF-8: 8 bit, độ dài từ mã thay đổi và tương thích với ACSII
UTF-16: 16 bit, độ dài từ mã thay đổi
UTF-32: 32 bit, độ dài từ mã cố định
Universal Character Set (UCS)
UCS-2 là tập con của UTF-16
UCS-4 tương đương với UTF-32
UTF-8 và UTF-16 là bảng mã được sử dụng rộng rãi nhất
(XML, HTML, Microsoft đều khuyến nghị sử dụng UTF-8 or
UCS-2/UTF-16 cho các ứng dụng)
Các mã khác
Các mã số học:
Mã nhị phân: là mã trọng số.
Mã quá 3: được tạo từ mã nhị phân tương ứng và cộng thêm 3.
Mã Gray: Hai tổ hợp kế cận khác nhau một bit
Mã thập phân hóa BCD (Binary Code Decimal) : dùng 4 bit để
biểu diễn số thập phân và các loại khác của BCD: BCD5421,
BCD2421, BCD5121, ….
DỮ LIỆU ẢNH-VIDEO
Tạo ra – Lưu trữ - Hiển thị
Quá trình tạo ảnh
Cảm biến quang (CCD:Charge Coupled Device)
light -> electric charge -> number
Biểu diễn ảnh
Digitization = Sampling + Quantization
Lấy mẫu và lượng tử hóa
Ảnh gốc
Lấy mẫu
Cường
độ ánh
sáng của
đường
quét
ngang
Lượng
tử
hóa
Biểu diễn ảnh
Ảnh tương tự trên cảm biến
Ảnh sau khi lấy mẫu và lượng tử hóa
Độ phân giải trong không gian của ảnh
Độ phân giải theo mức xám