Tải bản đầy đủ (.pdf) (96 trang)

Giáo trình truyền thông và đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.59 MB, 96 trang )

Chương 1
Tổng quan về truyền thông đa phương tiện
và dữ liệu đa phương tiện


Mục đích:
Giới thiệu các khái niệm cơ bản về dữ liệu đa phương tiện, xử lý và truyền thông đa
phương tiện, về các ứng dụng và phân loại hệ thống đa phương tiện. Những thách thức
trong phát triển các hệ thống đa phương tiện.
Yêu cầu:
Sinh viên nắm vững:
– Các khái niệm cơ bản về phương tiện, xử lý và truyền thông đa phương tiện.
– Các ứng dụng và phân loại hệ thống đa phương tiện (Multimedia system).
– Những thách thức trong phát triển các hệ thống đa phương tiện.


Nội dung:
1. Các khái niệm.
2. Các ứng dụng đa phương tiện
3. Phân loại các hệ thống đa phương tiện.
4. Những thách thức của xử lý và truyền thông đa phương tiện.
1. Các khái niệm
Trước khi định nghĩa tính toán và truyền thông đa phương tiện, chúng ta tìm hiểu về
các kiểu phương tiện truyền thông.
Phương tiện (media) đề cập tới các kiểu thông tin hay các kiểu mang thông tin như
dữ liệu chữ số, hình ảnh, âm thanh và video. Có nhiều cách để xếp loại phương tiện
truyền thông. Nói chung, các cách xếp loại dựa trên các định dạng vật lý và các mối quan
hệ của phương tiện truyền thông với thời gian. Trong tài liệu môn học này, chúng ta xếp
loại phương tiện truyền thông trên cơ sở chiều thời gian của phương tiện truyền thông.
Với cách phân loại này, có 2 loại phương tiện truyền thông: phương tiện tỉnh (static
media) và phương tiện động (dynamic media)


Phương tiện tỉnh không có chiều thời gian, nội dung và ý nghĩa không phụ thuộc
vào thời gian trình bày. Phương tiện tỉnh bao gồm chữ số (alphanumeric), đồ hoạ
(graphics), hình ảnh tỉnh (still images).
Phương tiện động (Dynamic media) có chiều thời gian, ý nghĩa và sự chính xác phụ
thuộc vào tốc độ mà nó được trình bày. Phương tiện động bao gồm âm thanh (audio),
hình ảnh động (animation), phim (video). Ví dụ: Để nhận biết sự chuyển động liên tục,
video phải được phát lại 25/30 ảnh (frames) trong một giây. Tương tự như vậy, khi ta
phát lại một tin nhắn thoại hoặc âm nhạc đã được ghi âm, chỉ với một tốc độ phát lại tự
nhiên hoặc hợp lý. Phát lại ở tốc độ chậm hoặc nhanh hơn sẽ làm biến dạng ý nghĩa hay
chất lượng của âm thanh. Vì phương tiện truyền thông này phải được phát lại một cách
liên tục với một tốc độ cố định. Phương tiện động còn được gọi là phương tiện liên tục
(continuous media) hoặc phương tiện đẳng thời (isochronous media).
Hệ thống đa phương tiện (Multimedia system): Không có định nghĩa đã được thừa
nhận cho các hệ thống đa phương tiện. Theo quan điểm ngôn ngữ học, một hệ thống có
khả năng thao tác nhiều hơn một phương tiện truyền thông được gọi là hệ thống đa
phương tiện. Định nghĩa này làm cho hệ thống đa phương tiện hữu ích hơn, đầy thử
thách, và thú vị. Vì vậy, khi chúng ta nói thông tin đa phương tiện (multimedia
information), chúng có nghĩa là sự kết hợp của nhiều loại phương tiện truyền thông với ít
nhất một phương tiện liên tục. Theo định nghĩa này, một hệ thống máy tính có khả năng
thao tác dữ liệu chữ số và đồ họa có thể được gọi là hệ thống đa phương tiện.
Trong môn học này, chúng ta định nghĩa hệ thống đa phương tiện là hệ thống có khả
năng thao tác ít nhất một phương tiện truyền thông động dạng số (digital form) cũng như
phương tiện truyền thông tỉnh. Do đó một hệ thống máy tính được sử dụng để điều khiển
phát lại âm thanh hoặc video tương tự (analog) không thuộc hệ thống đa phương tiện theo
định nghĩa của chúng ta.
Chức năng chính của hệ thống đa phương tiện gồm: Thu / chụp (capture), tạo ra
(generate), lưu trữ (store), tìm kiếm / truy xuất (retrieve), xử lý (process), truyền
(transmit), trình bày (present).
Ta phân biệt hai mặt của hệ thống đa phương tiện:
– Xử lý đa phương tiện (multimedia computing): Tập trung vào các chức năng

xử lý thông tin đa phương tiện như tìm kiếm, nhận dạng (recognition) và làm nổi
bật (enhancement).
– Truyền thông đa phương tiện (communication): Tập trung vào các chức năng
truyền thông tin đa phương tiện như thu / chụp, truyền và trình bày.
Sự phân biệt này không rõ ràng vì có một số chức năng có thể có trong cả hai. Ví dụ
như nén dữ liệu là chức năng của xử lý nhưng nó thường được dùng trong mục đích
truyền thông tin. nó cũng có thể được lập luận rằng mục đích của tất cả các xử lý đa
phương tiện là cho các hoạt động trình bày và truyền thông tin hiệu quả.
Các hệ thống đa phương tiện tập trung giải quyết vấn đề: Làm sao truyền dữ liệu đa
phương tiện từ một máy tính đến máy tính khác, làm sao để trình bày dữ liệu đến người
sử dụng. Nó không cần phải xử lý dữ liệu đa phương tiện. Các hệ thống này được gọi là
hệ thống đa phương tiện thế hệ thứ nhất .
Trong lĩnh vực công nghệ tiên tiến, các qui trình xử lý như: So sánh, tìm kiếm, tái tạo
hình ảnh thời gian thực (real-time image restoration), nhận dạng âm thanh và hình ảnh
(audio and image recognition), được sử dụng trong các hệ thống đa phương tiện. Các hệ
thống này được gọi là hệ thống đa phương tiện thế hệ thứ hai.Vì vậy, các khía cạnh tính
toán đa phương tiện sẽ được phát triển hơn nữa. Tương lai công nghệ đa phương tiện sẽ
là sự tích hợp của xử lý và truyền thông.
Trong các tài liệu và các phương tiện truyền thông, từ đa phương tiện được dùng như
một danh từ, nó bị quá tải và dùng để chỉ nhiều loại phương tiện truyền thông, công nghệ,
hệ thống và các ứng dụng xử lý các phương tiện khác nhau. Trong tài liệu môn học này,
đa phương tiện được dùng như một tỉnh từ - Vì vậy, chúng ta sẽ nói thông tin đa phương
tiện, hệ thống đa phương tiện, dữ liệu đa phương tiện, truyền thông đa phương tiện, ứng
dụng đa phương tiện, và v.v…Thông tin đa phương tiện đề cập đến các thông tin được
chuyển tải bằng nhiều loại phương tiện truyền thông. Đôi khi thông tin đa phương tiện và
dữ liệu đa phương tiện được dùng thay chổ cho nhau.
Trong định nghĩa hệ thống đa phương tiện, chúng ta nhấn mạnh đến việc tất cả các
phương tiện phải được biểu diễn dạng số vì các lý do sau đây:
Ưu điểm của biểu diễn dạng số (digital form):
– Một là: Máy tính điện tử chỉ thao tác với dữ liệu dạng số. Ở dạng số hình ảnh, âm

thanh và video được thao tác (xử lý, truyền, biểu diễn) dễ dàng bởi máy tính. Dữ
liệu đa phương tiện dạng số có thể được tích hợp với các kiểu dữ liệu số khác và có
thể chia sẻ các tài nguyên dùng chung cho tính toán và mạng (máy tính và mạng
máy tính). Mặt khác, khi tất cả các phương tiện truyền thông được biểu diễn dạng
số, chúng ta có thể dùng cùng thiết bị lưu trữ, máy tính và mạng để thao tác tất cả
các kiểu phương tiện truyền thông.
– Hai là: Dễ dàng thực hiện các tương tác với phương tiện truyền thông dạng số
bằng máy tính điện tử.
– Ba là: Nếu an ninh truyền thông tin được yêu cầu, ta dễ mã hoá tín hiệu số hơn là
mã hoá tín hiệu tương tự.
– Bốn là: Hệ thống số có độ tin cậy cao hơn, chống nhiểu tốt hơn hệ thống tương tự.
Ở dạng số, Biên độ tín hiệu tương tự là liên tục trong một phạm vi nhất định - các
giá trị tín hiệu bị thay đổi nếu có nhiểu hoặc giao thoa. Các lỗi gây ra do nhiễu
hoặc giao thoa được tích lũy từ tầng này đến tầng khác. Không dễ dàng sửa chữa
các lổi kiểu này. Ở dạng số nhị phân, chỉ có 2 mức tin hiệu: cao (1) và thấp (0).
Nếu lỗi gây ra bởi giao thoa hoặc nhiễu dưới một ngưỡng nhất định (phân nửa biên
độ của tín hiệu), tín hiệu vẫn có thể được ghi nhận một cách chính xác. Hơn nữa, ở
từng tầng xử lý kỹ thuật số hoặc trạm truyền tin, các biện pháp "làm sạch" tín hiệu
kỹ thuật số được dùng để phục hồi lại tín hiệu gốc và lỗi này không được tích lũy.


2. Các ứng dụng đa phương tiện.
Con người có nhiều giác quan, việc sử dụng dữ liệu đa phương tiện trong máy tính
sẽ làm gia tăng hiệu quả truyền thông khi có sự tham gia của hai hoặc nhiều giác quan.
Mục đích của tính toán và truyền thông đa phương tiện là mô phỏng cách truyền thông
của con người và giúp con người trong việc tổ chức và quản lý một lượng lớn thông tin
với các kiểu phương tiện truyền thông khác nhau.
Khi giao tiếp với nhau, con người sử dụng nhiều giác quan đặc biệt là thính giác và
thị giác. Hiệu quả của truyền thông đa phương tiện là nhờ vào sự tham gia của thính giác
và thị giác. Con người đã cố gắng để phát triển ngành viễn thông và các hệ thống xử lý

thông tin để giải quyết các vấn đề: băng thông (bandwidth), độ trung thực (fidelity) và
hiệu quả (effectiveness) trong giao tiếp với nhau.
Trong lĩnh vực viễn thông: Hơn một trăm năm qua các phương tiện truyền thông
như: Điện tín, điện thoại, Fax, phát thanh và truyền hình đã được phát minh và sử dụng
rộng rãi. Gần đây, các hệ thống điện thoại có hình, hội thảo truyền hình từ xa đã phát
triển và mang lại hiệu quả rất lớn trong truyền thông.
Trong lĩnh vực xử lý thông tin: Một cách truyền thống, các hệ thống xử lý thông
tin bằng máy tính chỉ đề cập tới kiểu dữ liệu là chữ số. 10 năm gần đây các loại dữ liệu
như: đồ hoạ, audio và video được tích hợp trong các hệ thống xử lý thông tin. Cùng với
phát triển công nghệ số, các bộ xử lý nhanh, mạng tốc độ cao, thiết bị lưu trữ dung lương
lớn và các giải thuật xử lý tín hiệu mới là cho sự khác biệt giữa viễn thông, tính toán và
quảng bá thông tin càng ngày càng vị thu hẹp

Hợp nhất giữa viễn thông, tính toán và
quảng bá thông tin hướng tới một hệ thống đa phương tiện tương tác và hiệu quả.
2.1. Xem phim theo yêu cầu:
Thông thường, ta xem các chương trình truyền hình và chiếu phim một cách thụ
động (không thể tương tác và điều khiển thời gian để xem các chương trình đó). Dịch vụ
Video / Movie on Demand (VOD / MOD) được phát triển để vượt qua các giới hạn nêu
trên và cung cấp cho người dùng những tiện ích khác. Trong VOD, nhiều bộ sưu tập
video được lưu trữ trên các máy chủ video (video server). Người sử dụng / khách hàng
truy cập các video này thông qua mạng tốc độ cao. Thách thức của VOD là làm sao có
thể cung cấp cho một số lượng lớn người xem đồng thời với giá cả hợp lý. Chú ý: Một số
hệ thống VOD không dễ dàng tương tác bởi vì nó đang được nghiên cứu, thử nghiệm, và
đôi khi những bản video sao chép lậu được đưa vào hệ thống.
Các ưu điểm của VOD:
– Có thể xem phim mà không cần đến rạp. Tivi được kết nối đến máy chủ video
thông qua mạng. Chúng ta chỉ cần chọn phim thông qua một giao diện trên màn
hình.
– Máy chủ video tập trung và cung cấp các dịch vụ cho nhiều người nên các bộ

sưu tập của nó rất phong phú và luôn được cập nhật. Nhiều người có thể xem
cùng một phim và không gặp phải vấn đề “Xin lổi, hết chổ” như khi đến rạp.
– Có thể xem phim mà mình yêu thích bất kỳ lúc nào.
– Có thể tạm dừng (pause), đi tới nhanh (fast-forward), quay lại (backward) hoặc
tìm kiếm một cảnh đặc biệt trong phim.
– Phim được đảm bảo chất lượng cao vì được lưu trữ dưới dạng số. Chất lượng
phim không bị giảm khi tăng số lượng người xem.
2.2. Thông tin theo yêu cầu (Information on Demand)
Là hệ thống giống như VOD, điểm khác biệt chính yếu là IOD lưu trữ nhiều kiểu
khác nhau của thông tin  người dùng có một thư viện đồ sộ và linh hoạt. Khi người
dùng đưa ra một truy vấn thông tin thông qua một giao diện trên tivi thông minh (smart
tivi) hoặc máy tính trạm, hệ thống sẽ tìm kiếm, lấy thông tin và trình bày thông tin tìm
được cho người dùng. Khả năng quan trọng nhất của hệ thống là chỉ mục và tìm kiếm
trong một khối lương rất lớn các thông tin đa phương tiện.
Hệ thống IOD có nhiều ứng dụng:
– Hoạt động như một bộ tự điển bách khoa toàn thư về thông tin tổng quát.
– Dịch vụ cung cấp báo và tạp chí trực tuyến.
– Dịch vụ mua săm tại nhà – Xem sản phẩm và đăt hàng trên màn hình mà không
cần ra khỏi nhà.
– Cung cấp thông tin đồng thời các thông tin dự báo thời tiết, lịch biểu của các
phương tiện giao thông công cộng một cách trực tuyến.
World Wide Web có thể được xem là một hệ thống IOD sơ cấp. WWW có thể được
phát triển xa hơn để hỗ trợ tìm kiếm, truyền và biểu diễn các thông tin đa phương tiện
thời gian thực. Số lượng và chất lượng thông tin ngày càng phát triển.
2.3. Giáo dục (Education)
Một thế mạnh ứng dụng khác của các hệ thống đa phương tiện là giáo dục. Người ta
có thể học nhiều hơn và nhanh hơn khi có thể nghe, nhìn và làm việc theo một quan niệm
mới trong đó đa phương tiện là phương thức tự nhiên để đào tạo và giáo dục.
Trước đây, hầu hết các bài giảng đa phương tiện trên các CDROM chạy một mình
trên máy tính và không thể chia sẻ cho những người dùng khác. Nó được thay đổi khi có

các máy chủ đa phương tiện trên mạng điện rộng, các máy chủ này sẽ cho các khách hàng
chia sẻ bộ lưu trữ, bài giảng và các tài nguyên đa phương tiện khác.
Thiết lập một hệ thống như vậy có nhiều điểm lợi, nó làm cho nhiều người cố gắng
học tập.
Các điểm lợi:
– Trước tiên, các bài giảng được chia sẻ cho một số lương lớn người học làm cho
chi phí học tập rẽ hơn.
– Hai là, thuận tiện cho người học, họ có thể học bất kỳ ở đâu và bất kỳ lúc nào
(học viên sử dụng thời gian di chuyển để học một vấn đề nào đó).
– Ba là, phương tiện học tập có thể được tổ chức một cách linh động để phù hợp
với mọi học viên. Như vậy mỗi học viên có thể tự quyết định tốc độ học tập và
cách học của chính họ.
– Bốn là, tương tác với thầy giáo có thể được thực hiện thông qua các giao tiếp
bằng email, hoặc trực tiếp bằng âm thanh và video.
2.4. Hệ thống thầy thuốc từ xa (Telemedecine)
Hệ thống thầy thuốc từ xa là một ứng dụng quan trọng khác của đa phương tiện, nhất
là các trường hợp cấp cứu được điều khiển từ xa. Trong hệ thống thầy thuốc từ xa, tất cả
các bệnh án được lưu trữ bằng phương tiện điện tử. Các cơ quan y tế và thiết bị được kết
nối thông qua một mạng đa phương tiện.
Hệ thống y tế từ xa cung cấp các hoạt động sau đây:
– Tư vấn tức thì bởi các chuyên gia y tế từ xa thông qua việc sử dụng âm thanh và
video chất lượng cao.
– Các nhân viên y tế có thể truy cập các bệnh án bất kỳ lúc nào, bất kỳ ở đâu trong
trường hợp khẩn cấp.
– Truy cập toàn cầu các thông tin về một kiểu đặc biệt của nhóm máu hoặc bộ phận
trong cơ thể.
2.5. Điện thoại truyền hình và hội thảo truyền hình
Hệ thống điện thoại truyền hình (video phone) và hội thảo truyền hình (video
conference) làm gia tăng hiệu quả giao tiếp của con người ở các vị trí địa lý cách xa nhau.
Hầu hết các hệ thống hội thảo truyền hình trước đây đều sử dụng các thiết bị chuyên dùng

và mạng chuyển mạch kênh, chúng rất đắt tiền và cũng không dễ dàng có được. Gần đây,
các camera thu hình đã được trang bị và video có thể hiển thị trên màn hình máy tính,
đồng thời truyền thông qua mạng tốc độ cao phát triển làm cho hội thảo truyền hình trở
nên rẻ tiền và được sử dụng phổ biến. Điện thoại truyền hình sẽ được hợp nhất với điện
thoại trong tương lai gần, khái niệm “talking” trong điện thoại được thay bằng “meet” khi
sử dụng điện thoại có hình.
2.6. Làm việc hợp tác (Cooperative work)
Một hệ thống hội thảo truyền hình tinh vi sẽ hỗ trợ tích cực trong làm việc hợp tác.
Những người ở cách xa nhau có thể cùng làm việc trong một dự án thông qua việc trao
đổi các thông tin đa phương tiện một cách thông suốt. Họ có thể truy cập vào các cơ sở
dữ liệu đa phương tiện và các tài nguyên khác một cách dễ dàng. Đây là mục tiêu cuối
cùng của “máy tính hỗ trợ làm việc hợp tác” (CSCW: Computer-Supported Cooperative
Work).
3. Phân loại các hệ thống đa phương tiện.
3.1. Hệ thống đa phương tiện có thể được xếp vào hệ thống độc lập hoặc hệ thống
phân phối.
Hệ thống độc lập: Sử dụng tài nguyên chuyên dụng. Các thông tin đa phương tiện
bị giới hạn và truyền thông đa không được hỗ trợ.
Hệ thống phân phối: Chia sẻ cả hai tài nguyên hệ thống và tài nguyên thông tin và
có thể được hổ trợ truyền thông tin giữa những người sử dụng.
3.2. Hiệp hội viễn thông quốc tế (ITU: International Telecommunications Union)
định danh 4 loại cơ bản các dịch vụ và ứng dụng phân phối:
ITU xếp loại theo quan điểm của nhà cung cấp dịch vụ. Mỗi dịch vụ được cung cấp
bởi một hệ thống tương ứng.
1) Các dịch vụ đàm thoại (convesational services): Bao hàm sự tương tác giữa
người sử dụng này và người khác hoặc với một hệ thống. Loại này bao gồm các
dịch vụ giữa các cá nhân với nhau như điện thoại có hình (videophone) và hội
thảo truyền hình (videoconference). Nó cũng bao gồm dịch vụ giám sát từ xa
(telesurveillance) hay mua sắm từ xa (teleshopping).
2) Các dịch vụ thông điệp (messaging services): Sự trao đổi không tức thì hoặc

không đồng bộ các dữ liệu đa phương tiện thông qua các hộp thư điện tử.
3) Các dịch vụ tìm kiếm thông tin (retrieval services): Bao gồm tất cả các kiểu
truy cập đến các máy chủ thông tin đa phương tiện. Điển hình như, người dùng
gởi một yêu cầu đến máy chủ và thông tin được yêu cầu được máy chủ gởi về
cho người dùng một cách tức thì. Ví dụ: Truyền hình theo yêu cầu (Video On
Demand) hoặc thông tin theo yêu cầu (Information On Demand).
4) Các dịch vụ phân phát thông tin (distribution services): Bao gồm các dịch vụ
phân phối thông tin chủ động của các máy chủ. Ví dụ: Truyền hình quảng bá.
Trong môn học này, chúng ta tập trung vào các hệ thống đàm thoại và tìm kiếm
thông tin. Về mặt kỹ thuật, các hệ thống phân phối thì giống như các hệ thống tìm kiếm
thông tin: nó chỉ yêu cầu truyền dữ liệu đa phương tiện thời gian thực một chiều (từ máy
chủ đến người sử dụng). Nhưng các hệ thống tìm kiếm thông tin có các yêu cầu hệ thống
nghiêm ngặt hơn, các người dùng khác nhau có thể yêu cầu khởi động truyền nhiều dòng
dữ liệu đa phương tiện khác nhau.
Sự khác biệt chính giữa các hệ thống đàm thoại và hệ thống tìm kiếm thông tin là
cần truyền dữ liệu đa phương tiện thời gian thực hai chiều và yêu cầu về độ trể khắc khe
hơn.
Mặc dù các hệ thống tin nhắn cũng rất hữu ích và liên quan đến cấu thành và trình
bày thông tin đa phương tiện. Chúng không có yêu cầu thời gian thực trong truyền dữ
liệu. Dữ liệu đa phương tiện có thể được chuyển từ người gởi đến hộp thư người nhận
bằng phương pháp truyền dữ liệu thông thường. Mặc dù giáo trình không đề cập chi tiết
loại hệ thống này nhưng các chủ đề về nén dữ liệu đa phương tiện và hệ thống đầu cuối
thời gian thực cũng được dùng trong các hệ thống thư tín đa phương tiện.
4. Những thách thức của xử lý và truyền thông đa phương tiện trên máy tính.
4.1. Đặc tính và yêu cầu của hệ thống đa phương tiện:
Dữ liệu đa phương tiện có các đặc tính và yêu cầu khác hơn dữ liệu chữ số mà các
máy tính thông thường có thể xử lý, do vậy các máy tính thông thường không thể hỗ trợ
các ứng dụng đa phương tiện một cách hiệu quả.
Tóm tắt 4 đặc tính và yêu cầu chính của hệ thống đa phương tiện:
- Dữ liệu đa phương tiện có chiều thời gian và phải được truyền, xử lý và trình bày

với tốc độ cố định trong hầu hết các ứng dụng, vì vậy các hệ thống máy tính và
truyền thông đa phương tiện phải đáp ứng yêu cầu chính xác về thời gian. Trong
khi các máy tính thông thường không có yêu cầu này.
- Các ứng dụng đa phương tiện sử dụng nhiều phương tiện có liên quan với nhau
một cách đồng thời. Các mối quan hệ thời gian và không gian trong bản thân
phương tiện phải được tôn trọng.
- Dữ liệu đa phương tiện là dữ liệu tăng cường (có kích thước lớn) nên dữ liệu cần
phải được nén, để thao tác với nó, cần phải có các mạng truyền thông tốc độ cao
và các hệ thống máy tính mạnh.
- Dữ liệu đa phương tiện không có cú pháp và ngữ nghĩa rõ ràng. Hệ thống quản trị
CSDL thông thường không thể thao tác hiệu quả trên các dữ liệu này. Cần có các
kỹ thuật để chỉ mục, lấy lại và nhận dạng dữ liệu đa phương tiện.
4.2. Các đặc tính và yêu cầu của hệ thống đa phương tiện 

 khái niệm “chất lương
dịch vụ” (Quality Of Service).
Từ các đặc tính và yêu cầu trên cũng như các đặc tính và yêu cầu khác của dữ liệu đa
phương tiện đã tạo ra khái niệm “chất lương dịch vụ”. Cung cấp bảo đảm “chất lượng
dịch vụ” cho các ứng dụng chỉ là một hướng của vấn đề trọng tâm trong công nghệ đa
phương tiện. Hướng khác là sử dụng hiệu quả các tài nguyên đa phương tiện bằng cách
sử dụng các đặc tính của dữ liệu đa phương tiện và các ứng dụng. Hướng sau cùng là để
phát triển một hệ thống phân phối đa phương tiện người ta gặp có nhiều thách thức hơn
và đó là sự khác biệt chính yếu của hệ thống phân phối đa phương tiện và hệ thống thời
gian thực thông thường:
– Các hệ thống thời thực truyền thống là sử dụng tài nguyên chuyên dùng.
– Các hệ thống phân phối đa phương tiện, các tài nguyên như thời gian của bộ xử
lý (CPU), bộ nhớ trong (memory), bộ lưu trữ thứ cấp (secondary storage) và các
kênh truyền thông được chia sẻ cho nhiều ứng dụng.
Do vậy, vấn đề trọng tâm của thiết kế hệ thống đa phương tiện là làm sao để cung
cấp đảm bảo “chất lượng dịch vụ” của các ứng dụng trong khi các tài nguyên của hệ

thống vẫn được sử dụng một cách hiệu quả.
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 1

Chương 2
Đặc tính và yêu cầu
của dữ liệu đa phương tiện

 Mục đích: Giới thiệu phương pháp biểu diễn, các đặc tính cơ bản và các yêu cầu của
các hệ thống đa phương tiện (âm thanh, hình ảnh, video số).
 Yêu cầu: Sinh viên nắm được:
– Cách biểu diễn thông tin đa phương tiện: âm thanh, hình ảnh, video.
– Các đặc tính cơ bản của âm thanh, hình ảnh, video kỹ thuật số.
– Các yêu cầu của hệ thống đa phương tiện.
 Nội dung:
2.1. Giới thiệu
2.2. Biểu diễn âm thanh số.
2.3. Hệ thống video tương tự.
2.4. Biểu diễn hình ảnh và video số.
2.5. Đặc tả kỹ thuật màu sắc.
2.6. Các đặc tính chính và yêu cầu của thông tin đa phương tiện.
2.7. Chất lượng dịch vụ truyền thông đa phương tiện.
2.8. Tóm tắt.
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 2

2.1 Giới thiệu
Trong chương 1 chúng ta định nghĩa một hệ thống đa phương tiện là hệ thống có khả
năng thao tác (xử lý và truyền thông) đồng thời nhiều kiểu phương tiện trong đó có ít
nhất một phương tiện động (như âm thanh và video) dạng kỹ thuật số (digital form). Vì
vậy, khi nói đến dữ liệu đa phương tiện là đề cập đến các biểu diễn số của nhiều kiểu
phương tiện mà trong đó có ít nhất một phương tiện truyền thông liên tục theo thời gian.

Sự khác nhau giữa một hệ thống đa phương tiện và hệ thống máy tính thông thường xuất
phát từ sự khác nhau về các đặc tính và yêu cầu của thông tin đa phương tiện và dữ liệu
chữ số. Do đó sự hiểu biết về những đặc điểm và yêu cầu của dữ liệu đa phương tiện là
rất cần thiết để hiểu được các vấn đề trong xử lý và truyền thông đa phương tiện.
Mục tiêu của chương này là thảo luận về những đặc tính cơ bản và yêu cầu hệ thống
của âm thanh, hình ảnh và video số. Phần 2.2. dành cho âm thanh, chúng ta sẽ nghiên cứu
các thuộc tính của các tín hiệu âm thanh tương tự, quá trình biến đổi các tín hiệu tương tự
sang tín hiệu số và các biểu diễn số trong các ứng dụng âm thanh nói chung. Nguyên lý
biến đổi từ tương tự sang số (ADC: Analog to digital convertor) cũng được sử dụng khi
thảo luận về biểu diễn số của video trong phần 2.4.
Nhiều hình ảnh và video số được tạo ra từ video tương tự. Phần 2.3. giới thiệu các
khái niệm cơ bản của hệ thông video tương tự (analog video). Một số trong các khái niệm
này cũng được sử dụng trong hệ thống video số. Do vậy, các khái niệm và thuật ngữ được
giới thiệu trong phần này chủ yếu là để hiểu về video số.
Phần 2.4. thảo luận về biểu diễn số của hình ảnh và video, nó giải thích tại sao hình
ảnh và video số có yêu cầu lớn về số lượng dữ liệu để biểu diễn, và làm thế nào để một hệ
thống máy tính nhìn thấy được hình ảnh và video số.
Các giá trị điểm ảnh (pixel) thể hiện cường độ màu sắc của hình ảnh và video số.
Chất lượng hiển thị hình ảnh và hiệu quả của một số thao tác khác như tái tạo hình ảnh
phụ thuộc vào các giá trị điểm ảnh. Vì vậy, các đặc tả về hiệu chỉnh và biểu diễn màu sắc
là rất quan trọng trong các hệ thống đa phương tiện. Phần 2.5. xem xét các đặc tả và sự
nhận biết của con người về màu sắc, và cung cấp một nền tảng để đạt được chất lượng
hiển thị cao, hệ số nén cao và hiệu quả phục hồi hình ảnh cao.
Phần 2.6. trình bày tóm tắt các khác biệt chính của dữ liệu đa phương tiện và dữ liệu
chữ số và mô tả các yêu cầu hệ thống của dữ liệu đa phương tiện.
Phần 2.7. giới thiệu khái niệm “chất lượng dịch vụ” (QOS: Quality of Service) nó là
trọng tâm của nhiều hệ thống xử lý và truyền thông đa phương tiện. Các vấn đề trong
cung cấp đảm bảo QOS của truyền thông đa phương tiện là mối quan tâm chính của các
chương tiếp theo. Phần 2.8. kết luận chương này với phần tóm tắt ngắn gọn.
2.2 Biểu diễn âm thanh số.

2.2.1 Đặc tính cơ bản của tín hiệu âm thanh:
Âm thanh là các dao động cơ học (biến đổi vị trí qua lại) của các phân tử không khí
và lan truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ
não. Âm thanh, giống như nhiều sóng khác, nó được đặc trưng bởi tần số, biên độ và vận
tốc lan truyền (tốc độ âm thanh).
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 3

Đối với thính giác của người, âm thanh nghe được thường là sự dao động, trong dãi
tần số từ 20Hz đến 20KHz. Biên độ âm thanh thay đổi rất lớn (ở tần số 1KHz): Từ
0.000283 dyne/cm2 đến 0.000283 x 10
6
dyne/cm2.
Sự thay đổi biên độ cho ta cảm nhận âm thanh nhỏ hay lớn. Khoảng biên độ nghe
được của tai người biến động rất lớn: biên độ nhỏ nhất khi bắt đầu nghe được (cận dưới)
là 0.000283 dyne/cm
2
(ở tần số 1KHz). Biên độ âm thanh có thể tăng lên từ mức bắt đầu
nghe được khoảng 100.000 (10
5
) đến 1.000.000 (10
6
) lần trước khi tai bị đau (cận trên).
Với sử thay đổi lớn như vậy nên rất khó sử dụng đơn vị đo lường biên độ cho âm thanh.
Do vậy, âm thanh được đo bằng đơn vị Decibel. Giá trị decibel của sự khác biệt giữa
hai biên độ đỉnh được xác định bởi công thức (trong đó X và Y là các biên độ đỉnh của
hai sóng):





2.2.2 Biểu diễn số của âm thanh:
Sóng âm liên tục được biến đổi thành tín hiệu điện liên tục nhờ microphone. Tín
hiệu điện này đo bằng volt, ta gọi là tín hiệu tương tự (analog signal). Để máy tính có thể
xử lý và truyền tín hiệu âm thanh, tín hiệu điện liên tục phải được biến đổi thành tín hiệu
số (digital signal). Ba giai đoạn trong biến đổi từ tín hiệu tương tự ra tín hiệu số (ADC:
Analog to Digital Converter): Lấy mẫu (sampling), Lương hoá (quantization), Mã hoá
(coding).
Lấy mẫu: Quá trình biến đổi thời gian liên tục thành các giá trị rời rạc được goi là lấy
mẫu.
Trục thời gian được chia thành những khoảng cố định, giá trị của biên độ tín hiệu
được đọc tại thời điểm bắt đầu của thời khoảng. Thời khoảng này được xác định một
xung đồng hồ (clock pulse). Tần số của xung đồng hồ được gọi là tốc độ lấy mẫu (sample
rate) hay tần số lấy mẫu (sample frequency). Mạch điện thực hiên việc này gọi là mạch
lấy mẫu và dừng (sampling and hold circuit). Mỗi điểm dừng lấy mẫu ứng với một giá trị
của biên độ; Ta có một dãy nhiều giá trị liên tục, nhưng rời rạc theo thời gian; Mỗi thời
khoảng, mẫu chỉ có một giá trị.
Lượng hoá: Quá trình biến đổi các giá trị mẫu liên tục thành các giá trị rời rạc được gọi
là lương hoá.
Trong quá trình này ta chia dãy tín hiệu thành các số cố định của các thời khoản, mỗi
thời khoảng bằng nhau được gán một số. Mỗi mẫu có một số giới hạn các giá trị chọn
lựa. Trong hình 2.1 (c) mỗi thời khoảng có thể có nhiều giá trị và chỉ được gán một giá trị
duy nhất (số nguyên từ 0 đến 7). Ví dụ: Trong hình 2.1 (c) hai thời khoản cuối cùng đều
có giá trị là 6.
Kích thước (khoảng) giá trị trong một thời khoảng gọi là bước lượng hoá
(quantization step).
Cận dưới: 0 dB ~ 0.000283 dyne/cm
2

Cận trên: 100 - 120dB ~ 0.000283 x 10
6

dyne/cm
2

dB= 20log
10
(X/Y)

Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 4















Mã hoá: Quá trình biểu diễn lượng giá trị bằng số được gọi là mã hoá.
Trong ví dụ ở hình 2.1, 8 mức lượng hoá được dùng. Các mức được mã hoá bằng 3
bit trong hệ thống số nhị phân. Nếu tốc độ lấy mẫu và số mức lượng hoá đủ lớn thì tín
hiệu số được biểu diễn bằng đường bao tín hiệu gốc. Khi cần tái tạo tín hiệu tương tự từ
dữ liệu số, một bộ chuyển đổi từ số sang tương tự (DAC: Digital to Analog Converter)
được sử dụng. Các giá trị lượng hoá được xác định trên cơ sở số mức lượng hoá. Các tín
hiệu này đi qua bộ lọc thấp qua (low-pass filter) để tái tạo gần đúng tín hiệu gốc. Nguyên

lý của ADC và DAC đã mô tả cũng được áp dụng cho video và các loại tín hiệu khác.

Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 5

Trong quá trình biến đổi ADC quan trong nhất là chọn tốc độ lấy mẫu và số mức
lượng hoá, trong các loại tín hiệu tương tự khác nhau và trong các ứng dụng khác nhau.
Xác định tốc độ lấy mẫu: Tốc độ lấy mẫu phụ thuộc vào tần số của tín hiệu tương tự mà
ta muốn biến đổi. Theo lý thuyết Nyquist, nếu một tín hiệu tương tự có tần số f thì tần số
lấy mẫu nhỏ nhất phải là 2f. Nếu tần số lấy mẫu chính xác bằng 2f, ta gọi là lấy mẫu tới
hạn. Trong thực hành tốc độ lấy mẫu phải lớn hơn 2f.
Ví dụ:
– Tốc độ lấy mẫu CD audio là 44.1KHz, và băng audio kỹ thuật số là 48KHz để thể
hiện âm thanh tần số 20KHz.
– Tần số tiếng nói trong khoảng 3.1KHz, giới hạn tần số trong điện thoại tương tự là
3.1KHz. Biến đổi tín hiệu tiếng nói ra tín hiệu số ta dùng tốc độ lấy mẫu là 8KHz.
Nếu băng tần của tín hiệu tương tự lớn hơn 1/2 tần số lấy mẫu thì băng tần của tín
hiệu được phục hồi bị giảm đi nhỏ thua hoặc bằng 1/2 tần số lấy mẫu khi đi qua bộ lọc
thấp qua. Nó gây ra một tác dụng gọi là răng cưa (aliasing). Răng cưa là vấn đề nghiêm
trọng đối với các hệ thống dùng cơ chế lấy mẫu khi tín hiệu gốc có tần số lớn hơn 1/2 tần
số lấy mẫu.
Trong ví dụ hình 2.3, tần số lấy mẫu là 8KHz (a), tần số tín hiệu gốc được lấy mẫu là
6KHz (b), các giá trị mẫu thu được của tín hiệu gốc có tần số 6KHz (c). Nếu các mẫu này
được thu nhận và biến đổi ngược từ số sang tương tự (DAC), kết quả là tín hiệu được tái
tạo có tần số 2KHz (d). Tín hiệu 2KHz thay thế cho tín hiệu gốc 6KHz, nó chính là răng
cưa của tín hiệu gốc 6KHz. Trong khi tín hiệu 2KHz nằm trong khoảng âm thanh nghe
được, nó xuất nhiện như là một tạp âm trên đầu của âm thanh gốc. Răng cưa là vấn đề
nghiêm trọng trong tất cả các hệ thống dùng cơ chế lấy mẫu khi tín hiệu được lấy mẫu có
một bộ phận tần số lớn hơn phân nữa tần số lấy mẫu.

Xác định số mức lượng hoá: Số mức lượng hoá dùng để xác định một cách trung thực

biên độ của tín hiệu số so với tín hiệu tương tự gốc.
Sự khác biệt tối đa giữa giá trị lượng hoá và giá trị tín hiệu tương tự gốc gọi là bước
lượng hoá. Sự khác biệt này còn được gọi là lỗi lượng hoá hay nhiễu lượng hoá
(quantatization noise). Số mức lượng hoá càng lớn thì bước lượng hoá càng nhỏ và kéo
theo nhiễu lượng hoá càng nhỏ. Số các mức lượng hoá xác định số bít cần thiết để biểu
diễn mẩu và được xác định bởi công thức:
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 6

b = log
2
Q  Q = 2
b

Trong đó:
b
: số bit cần thiết để biểu diễn mẫu,
Q: số mức lượng hoá.
Mối quan hệ giữa chất lượng tín hiệu số hoá và tín hiệu tương tự gốc đo bằng hệ số
tín hiệu nhiểu (SNR - Signal-to-noise ratio) tính bằng dB được định nghĩ bởi:
SNR=20log
10
(S/N).
Trong đó: S: biên độ cực đại của tín hiệu, N: nhiểu lượng hoá.
Nếu lấy bước lượng giá là q thì N = q và S = 2
b
q.
Thay vào biểu thức: SNR = 20log
10
(2
b

q/q) = 20blog
10
(2) = 6b
Ta thấy nếu dùng thêm 1 bit để biểu diễn các mẫu làm gia tăng hệ số tín hiệu nhiểu
là 6 dB. Chúng ta xem xét trường hợp âm thanh bắt đầu nghe được và âm thanh cực đại
trong cùng ngữ cảnh. Nhiểu lượng hóa phải nhỏ hơn âm thanh bắt đầu nghe được. Trong
trường hợp âm thanh cực đại (100 dB – 120 dB). Để không nghe nhiểu lượng hoá thì
SNR ≥ 100 dB, CD audio dùng 16 bit cho mẫu lượng hoá  SNR = 6x16 = 96 dB nó nhỏ
hơn cận dưới mà ta mong muốn (100 dB đến 120 dB). Tuy nhiên 16 bit dễ thao tác và xử
lý trong các hệ thống số nhị phân. Do vậy người ta dùng 16 bít thay cho 17 bit.
Tóm lại âm thanh số cần được lấy mẫu liên tục với tốc độ cố định, mỗi mẫu được
biểu diễn bằng một số bit cố định.
Ứng dụng Số kênh Tốc độ Số bit
CD-audio 2 44.100 16
DAT 2 48.000 16
Digital telephone 1 8.000 8
Digital radio, long play DAT 2 32.000 16
Bảng 2.1: Đặc tính chung của âm thanh số
Trong chương này chúng ta đã giới thiệu phương pháp lượng hoá tuyến tính (linear
quantatization) âm thanh số. Lượng hoá phi tuyến (nonlinear quantatization) làm rút gọn
lượng dữ liệu biểu diễn âm thanh số, vậy với cùng lượng dữ liệu có thể biểu diễn âm
thanh với chất lượng cao hơn. Lượng hoá phi tuyến chính là kỹ thuật nén dữ liệu mà
chúng ta sẽ thảo luận chi tiết trong chương 3.
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 7

2.3 Hệ thống video tương tự.
Trong phần này chúng ta
mô tả các khái niệm và kỹ thuật
cơ bản được sử dụng trong các
hệ thống video tương tự, từ thu

(capture) đến hiển thị (display)
hình ảnh. Các khái niệm này chủ
yếu để hiểu cách sử dụng và biểu
diễn kỹ thuật số của video trong
các hệ thống đa phương tiện.


2.3.1 Thu và hiển thị hình ảnh và video:
Hình ảnh được thu bằng cách sử dụng máy thu hình (camera).
Hệ thống thấu kính sẽ tập trung hình ảnh đến bề mặt cảm quang của bộ cảm biến bên
trong camera. Trên bề mặt lớp cảm biến, độ sáng của một điểm ảnh được biến đổi thành
dòng điện bởi tế bào quang điện.
Việc quét một ảnh được thực hiện từ gốc cao
bên trái theo chiều ngang của ảnh tạo thành một
hàng quét ngang. Khi đến lề phải của ảnh, điểm
quét quay trở về lề trái và tiếp tục quét các hàng
kế tiếp cho đến hết ảnh. Thời gian điểm quét di
chuyển từ cuối về đầu hàng kế tiếp gọi là khoảng
trắng hàng ngang (horizontal blanking interval),
lúc đó tín hiệu ra của bộ cảm biến bằng 0 và được
gọi là mức trắng hàng ngang (blanking level).
Một ảnh được biến đổi thành chuổi tín hiệu điện liên tục của các hàng quét và được
phân cách bởi các mức trắng hàng ngang. Tập hợp các hàng quét của một ảnh gọi là
frame. Khi kết thúc một ảnh, điểm quét di chuyển về gốc trên bên trái để tạo frame kế
tiếp. Thời gian điểm quét về đầu frame mới gọi là khoảng trắng hàng dọc (vertical
blanking interval)
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 8

Để phát lại hình ảnh và video, trước đây
các thiết bị hiển thi (tivi / monitor) dùng đèn tia

âm cực (CRT: Cathode Ray Tube). Một lớp
phosphors được tráng bên trong phía trước màn
hình, nó bị quét bởi một chùm tia điện tử như
quá trình quét ảnh của camera. Chùm tia tác
động lên phosphors nó sẽ phát sáng trong một
thời gian rất ngắn, độ sáng phụ thuộc vào cường
độ chùm tia điện tử. Như vậy ta sử dụng tín hiệu
thu hình của camera, để tái tạo lại các hình ảnh
được thu bởi camera. Trong thực hành, tín tiệu
từ camera đến thiết bị hiển thị, có thêm thông
tin đồng bộ với quá trình quét ảnh của camera.

2.3.2 Tốc độ frame (frame rates):
Tốc độ frame của video được các định bởi 3 yếu tố cơ bản:
Một là: Tốc độ frame phải đủ lớn để hình ảnh trong video chuyển động trung thực.
Thường tốc độ ≥ 25 frame/s. Trường hợp hình ảnh chuyển động nhanh, 25 frame/s chưa
đủ lớn sẽ gây ra răng cưa (aliasing).
Hai là: Khi tốc độ frame tăng thì độ rộng băng tần cũng phải tăng để truyền tín hiệu
video. Vậy phải tìm cách sử dụng độ rộng băng tần thấp để xuất hầu hết các cảnh một
cách trung thực và tốc độ 25 frame/s được sử dụng.
Ba là: Khi chùm tia chạm vào phosphors sẽ phát ra ánh sáng trong một thời gian rất
ngắn (vài mili giây). Nếu thời gian giữa 2 lần quét không đủ nhanh ta sẽ thấy hiện tượng
lập loè (flicker) trên màn hình. Để tránh hiện tượng này, số lần quét ít nhất phải bằng 50
lần/giây. Nếu tăng tốc độ lên 50 frame/s thì cần tăng độ rộng băng tần.
Để giải quyết vấn đề này, kỹ thuật quét xen
(interlace) được sử dụng trong các hệ thống truyền
hình. Trong kỹ thuật quét xen, nhiều hơn một lần
quét dọc được dùng để tạo ra một frame hoàn chỉnh.
Mỗi lần quét dọc (vertical scan) được gọi là trường
(field). Truyền hình sử dụng 2:1 interlace: 2 lần quét

dọc (field) cho một ảnh (frame). Với kỹ thuật này,
một ảnh có lần quét dọc thứ nhất là các dòng lẻ (bán
ảnh lẻ - odd filed) và lần quét dọc thứ hai là các dòng
chẳn (bán ảnh chẳn - even field). Vậy 25 frame/s
ứng với 50 field/s. Ta sử dụng cùng độ rộng băng tần,
và hiện tượng lập loè hầu như đã bị loại bỏ. Trong
các hệ thống truyền hình ta có:
 Hệ PAL (25 frame - 50 field/s)
 Hệ NTSC (30 frame - 60 field/s)
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 9

2.3.3 Hệ số co (Aspect ratio):
Tỷ lệ giữa chiều rộng và chiều cao của ảnh được gọi là hệ
số co. Đây là hệ số quan trọng về mặt thẩm mỹ khi trình bày
hình ảnh với các kích cở khác nhau. Khi thay đổi kích cỡ hình
phải duy trì tỷ lệ này để tránh méo hình (biến dạng). Trước đây
hình ảnh chuyển động có tỷ lệ 4:3 được sử dụng phổ biến trong
các hệ thống truyền hình quảng bá. Trong quá trình phát triển,
hình ảnh chuyển động màn ảnh rộng (wide screen) với hệ số co
lớn hơn 4:3 được phát triển trong các phim DVD màn ảnh rộng,
và các hệ thống truyền hình độ nét cao (HD: High Definition),
hiện nay hệ số co của truyền hình HD được chọn là tỷ lệ 16:9.
Lưu ý rằng, kích thước màn hình là số đo là đường chéo từ
gốc cao bên trái đến gốc thấp bên phải. Ví dụ: Màn hình 25 inches với hệ số co 4:3 có
kích thước chiều rộng là 20 inches và chiều cao là 15 inches.
2.3.4 Độ phân giải (Resolution):
Độ phân giải của màn hình được đặc tả bởi độ phân giải
ngang (horizontal resolution) và độ phân giải dọc (vertical
resolution).
– Độ phân giải ngang: Số phần tử (điểm ảnh) hoặc cột

từ trái sang phải của màn hình. Ví dụ: VGA: 640 điểm
hàng ngang
− Độ phân giải dọc: Số hàng, (điểm ảnh) từ trên đầu
xuống dưới cùng của màn hình. Ví dụ: VGA: 480 điểm
hàng dọc
2.3.5 Truyền hình / video màu:
Các hệ thống Tivi màu được
xây dựng trên cơ sở lý thuyết
Tristimulus về tái tạo màu sắc. Các
màu trong tự nhiên có thể được tạo
ra từ 3 màu sơ cấp. Màu sơ cấp
được sử dụng trong Tivi là RGB:
Đỏ (Red), Xanh lá (Green), Xanh dương (Blue). Để thu
hình màu, camera sử dụng các bộ phận quang học để
tách tia sáng tới thành 3 chùm tia tương ứng với 3 màu
sơ cấp. Mỗi chùm tia màu sẽ đến một bộ cảm biến riêng
để tạo ra một tín hiệu điện phân biệt.
Trong màn hình màu, có ba loại phosphor phát ra ba
loại ánh sáng màu: đỏ, xanh lá, xanh dương và được sắp
xếp sao cho mỗi điểm ảnh có cả ba loại phosphor. Pha
trộn ánh sáng phát ra từ 3 loại phosphor tạo thành một
điểm màu. Ba óng phóng tia âm cực được sử dụng và
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 10

sắp xếp sao cho mỗi óng chỉ quét đến một loại phosphor. Cường độ chùm tia của các óng
phóng được điều khiển bởi các tín hiệu màu tương ứng được tạo ra trong quá trình quét
của camera. Bằng cách này hình ảnh màu gốc được tái tạo trên màn hình.
2.3.6 Các chuẩn truyền hình màu hiện có:
Với video màu ta cần 3 tín hiệu tương ứng với các màu đỏ, xanh lá và xanh dương
và thông tin đồng bộ (sync information) để đồng bộ hoá việc quét hình của camera và

thiết bị hiển thị.
Nếu ba tín hiệu được truyền đi một cách phân biệt từ đài phát đến máy thu hình thì
độ rộng băng thông của truyền hình màu sẽ gấp ba lần truyền hình đơn sắc. Truyền hình
màu được tạo ra sẽ tốn kém hơn nhiều lần so với các hệ thống truyền hình đơn sắc hiện
có lúc đó và các hệ thống này không thể giải mã và hiển thị hình ảnh được. Để giải quyết
vấn đề này, các dạng tổng hợp của tín hiệu video được sử dụng: Ba loại dạng tín hiệu
tổng hợp chính của truyền hình màu là NTSC, PAL, SECAM.
Các dạng tín hiệu tổng hợp đều dùng nguyên tắc cơ bản độ sáng và màu. Trong đó,
ba màu sơ cấp được biến đổi ra hai phần độ sáng (luminance) và màu (chrominance).
Thành phần độ sáng là tín hiệu video đơn sắc, nó được điều khiển bởi độ sáng của hình
ảnh. Thành phần màu chỉ chứa các thông tin về màu sắc của hình ảnh và có 2 bộ phận.
Do mắt người không quá nhạy với thông tin màu sắc, độ rộng băng tần của hai bộ phận
màu có thể được rút gọn trước khi truyền.
Trong hệ thống tổng hợp, độ sáng và màu được tổ hợp bằng sơ đồ đa hợp tần số
(frequency multiplexing) để đưa vào một kênh truyền. Thành phần tín hiệu độ sáng được

PAL

NTSC

SECAM

Full name Phase Alternating Line
N
ationtal
T
elevision
System Committee
Se
quentiel

C
ouleur
A
vec
Memorie
Countries of
use
UK, Germany, Austria,
Italia, China, Australia
North America, Japan France, USSR
Lines/frame 625 525 625
Frames/sec 25 30 25
Horizontal
resolution
409 340 409
Interlace
ratio
2:1 2:1 2:1
Aspect ratio 4:3 4:3 4:3
Bandwidth
of channel
5.5 MHz (UK)
5.0 MHz (Orther)
4.2 MHz 6.0 MHz
Color
conversion
equations
Y=0.30R+0.59G+0.11B
U=0.62R-0.52G-0.10B
V=0.15R-0.29G+0.44B

Y=0.30R+0.59G+0.11B
I=0.60R-0.28G-0.32B
Q=0.21R-0.52G+0.31B
Y=0.30R+0.59G+0.11B
D
R
=1.33R+1.11G+0.22B
D
B
=0.45R-0.88G+1.33B
Chrominanc
e bandwidth
U=1.33MHz
V=1.33MHz
U=1.33MHz
Q=0.45MHz
D
R
=1.33MHz
D
B
=1.33MHz
Bảng 2.2: Thông số của các chuẩn truyền hình màu NTSC, PAL, SECAM.
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 11

truyền như tín hiệu đơn sắc trên kênh truyền và thành phần màu được đặt trong sóng
mang phụ (subcarrier) tần số cao gần phía trên băng tần của kênh truyền. Khi đó tần số
sóng mang phụ được chọn sao cho chỉ có sự giao thoa rất nhỏ giữa tín hiệu độ sáng và tín
hiệu màu. Hệ thống tổng hợp có thể truyền tín hiệu truyền hình màu trên một kênh đơn
có cùng độ rộng băng tần của một trong ba tín hiệu màu đỏ, xanh lá, xanh dương. Hệ

thống tổng hợp cũng giải quyết vấn đề tương thích ngược (backward compatibility). Các
máy tivi đơn sắc hiển thị hình ảnh bằng cách chỉ giải mã thành phần độ sáng.
Ba loại tín hiệu truyền hình tổng hợp chính đều sử dụng các nguyên tắc định dạng
tổng hợp nêu trên, chỉ khác nhau trong các tham số quét, ma trận sử dụng để đổi từ các
màu đỏ, xanh lá, xanh dương thành độ sáng và màu, và cấu trúc đa hợp của tín hiệu độ
sáng và màu. Trong bảng 2.2: Danh sách một số thông số quan trọng của các hệ thống
tổng hợp NTSC, PAL, SECAM. Chú ý: Độ sáng Y giống nhau cho tất cả các hệ thống.
Các bộ phận màu khác nhau cho các hệ thống khác nhau.
2.3.7 Hệ số nhìn (Viewing ratio):
Chúng ta nhận thấy chất lượng hình ảnh phụ thuộc vào các tham số nêu trên nhưng
nó cũng phụ thuộc vào hệ số nhìn. Hệ số nhìn được định nghĩa bằng tỷ lệ giữa khoảng
cách người xem và chiều cao hình ảnh. Ví dụ: Một màn hình có chiều cao 15 inches và
khoảng cách để xem là 90 inches, thì hệ số nhìn là 90/15 = 6. Các hệ thống truyền hình
được thiết kế với hệ số nhìn từ 5 đến 6.
Với một hệ số nhìn lớn hơn thì nói chung chất lượng hình ảnh hiển thị tốt hơn,
nhưng sẽ khó xem các chi tiết bên trong hình ảnh. Một hệ thống được thiết kế cho hệ số
nhìn nhỏ thì hình ảnh phải có độ phân giải cao.
2.3.8 Truyền hình độ nét cao (HDTV: High Definition TIVI):
Các hệ thống truyền hình đã được phát minh cách đây hơn 40 năm. Hiện nay đã có
nhiều bước phát triển trong lĩnh vực điện tử và viễn thông, cho phép truyền và hiển thị
video chất lượng tốt hơn, đó là dạng truyền hình độ nét cao (HDTV). Nhật bản, Châu âu
và Hoa kỳ đã đưa ra các chuẩn cho HDTV. Sự khác nhau trong các chuẩn này là: Khả
năng tương thích ngược, kỹ thuật xử lý và truyền là kỹ thuật tương tự hay số và các sơ đồ
nén dữ liệu được sử dụng.
Trong các đề nghị này, các thông số quét là gần như nhau, hệ số co đều là 16:9.
– Nhật và Hoa kỳ: 30 frames/s và 1.125 lines/Frame,
– Châu âu: 25 frames/s và 1.225 lines/Frame,
2.3.9 Băng thông của video tương tự
Yêu cầu băng thông của video tương tự có thể được đưa ra từ các thông số quét
hình: F: Tốc độ frame; N: Số dòng quét một frame; H: Độ phân giải ngang; C: Hệ số của

thời gian dành cho khoảng trắng quét ngang; A: Hệ số co; B: Độ rộng băng tần.
B = F x (Số chu kỳ mỗi frame)
Số chu kỳ mỗi frame = N x (Số chu kỳ mỗi dòng)
Số chu kỳ mỗi dòng = 0.5 x A x H / C
0.5: hệ số của số chu kỳ đến số dòng phân biệt
B = 0.5 x A x F x H x N / C
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 12

Ví dụ: PAL: A=4/3, F=25, H=409, N=625, C=0.80 

 B=5.3 MHz
HDTV: A=16/9, F=30, H=593, N=1125, C=0.83 

 B=21.43 MHz
2.3.10 Lưu trữ và truyền video tương tự:
Thiết bị lưu trữ video tương tự là băng từ và đĩa laser. Băng từ chuyên nghiệp có thể
thu đến độ phân giải 500 dòng, trong khi băng VHS chỉ thu ở độ phân giải 240 dòng. Các
băng từ có thể chứa 2 - 3 giờ video. Đĩa Laser có thể lưu trữ khoảng 1 giờ video và chỉ
được đọc (read only).
Video tương tự truyền bằng sóng điện từ / cable đồng. Trước khi tín hiệu video được
truyền, nó được điều chế (modulate) theo một số kiểu nào đó. Băng thông tối thiểu bằng
với yêu cầu băng thông của dòng video.

2.4 Biểu diễn hình ảnh và video số.
2.4.1 Đặc điểm chung của hệ thống video số
Trong hệ thống video số, camera và màn hình hoạt động như video tương tự. Giữa
camera và màn hình, tín hiệu tương tự được biến đổi sang dạng tín hiệu số và các bộ phận
ở giữa hoạt động với tín hiệu số. Bộ biến đổi ADC đặt sau camera và bộ biến đổi DAC
đặt trước màn hình. Lý do phải đổi ra video số vì tín hiệu số dễ xử lý, mã hoá và tích hợp
với phương tiện số khác. Thiết bị lưu trữ là đĩa cứng / CD-ROM. Thiết bị xử lý, truyền,

nhận là máy tính. Mạng truyền dữ liệu số là mạng chuyển mạch gói.



2.4.2 Quá trình biến đổi từ tương tự sang số:
Nguyên tắc cơ bản để biến đổi tín hiệu video tương tự thành video số cũng giống
như của âm thanh mà ta đã mô tả trước đây.
Tốc độ lấy mẫu (sample rate):
– Tốc độ lấy mẫu có thể được đưa ra một cách trực quan từ các thông số quét video
(độ phân giải ngang, độ phân giải dọc, tốc độ frame, hệ số co).
– Tốc độ lấy mẫu tối thiểu có thể được tính như sau:
S = A x F x H x N / C Ví dụ: Hệ PAL: S = 10.6 MHz
A = 4/3 (Hệ số co); F = 25 (Tốc độ frame);
H = 409 (Độ phân giải ngang); N= 625 (Độ phân giải dọc);
C = 0.8 (Hệ số thời gian dành cho khoảng trắng quét ngang).
Ta có thể tính tốc độ lấy mẫu tối thiểu từ độ rộng băng tần của tín hiệu video theo lý
thuyết Nyquist: Nếu băng tần của video tương tự là f thì tốc độ lấy mẫu ít nhất là 2f.
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 13

Phần tử nhỏ nhất của hình ảnh gọi là điểm ảnh (pixel). Nếu tốc độ lấy mẫu nhỏ hơn
đặc tả ở trên thì không thể giữ được độ phân giải. Hiện tượng răng cưa sẽ xuất hiện (các
điểm ảnh phân biệt được biểu diễn bằng các ô hình vuông nhỏ). Việc nhìn thấy hiện
tương này phụ thuộc hệ số nhìn. Hệ số nhìn càng lớn thì việc nhìn thấy hiện tượng răng
cưa càng giảm.

Các mức lượng hoá (Quantization Levels): Số mức lượng hoá phụ thuộc trực tiếp vào
biên độ của tín hiệu tương tự và kích thước bước lượng hoá. Bước lượng hoá ≥
≥≥
≥ nhiểu
lượng hoá cực đại, nhưng phải nhỏ hơn ngưỡng phân biệt của thị giác. Trong một cảnh,

thị giác người có thể phân biệt các điểm có độ sáng chênh lệch 1%. Nói cách khác khả
năng phân biệt độ sáng của thị giác con người là 100:1.
Hệ số tương phản (contrast ratio) được định nghĩa là tỷ số cường độ sáng của phần
tử sáng nhất và phần tử tối nhất. Hệ số tương phản cao sẽ cho hình ảnh rỏ nét. Độ sáng
chung quanh màn hình có ảnh hưởng đến hệ số tương phản. Ánh sáng chung quanh cao
hơn thì hệ số tương phản sẽ giảm đi.
Tỷ lệ 100:1 có nghĩa là ta có thể nhận biết hai cường độ sáng khác nhau nếu chúng
khác nhau hơn 1%. Khả năng phân biệt này còn gọi là độ nhạy tương phản (contrast
sensitivity) được định nghĩa bằng hệ số của các độ sáng nhỏ nhất có thể phân biệt được.
Như vậy để giử được chất lượng của hình ảnh gốc thì bước lượng hoá hay nhiểu lượng
hoá phải nhỏ hơn 1%. Trên cơ sở thị giác nhận biết trong khoảng từ 1 - 100 và bước
lượng hoá của 1% giá trị độ sáng, ta cần tổng cộng 460 bước lượng hoá. Nó được tính
toán bằng công thức:
Để biểu diễn 460 mức lượng hoá ta cần 9 bit. Hình ảnh của tivi hiện nay có hệ số
tương phản trong khoảng 10:1 đến 20:1. Với kiểu hình ảnh này ta chỉ cần 8 bit là đủ.
H = L(1+p)
n

H: Cường độ sáng lớn nhất,
L: Cường độ sáng nhỏ nhất,
p: Kích thước bước lượng hoá tính theo % biên độ ánh sáng
n: Số bước lượng hoá cần thiết để biểu diễn độ sáng lừ L

H.
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 14

Nếu bước lượng hoá lớn hơn contrast sentivity, độ sáng khác nhau của những vùng
lân cận có thể bị lượng hoá cùng giá trị. Những vùng có cấp độ sáng bị thay đổi sẽ xuất
hiện những dãy sáng phân biệt, hiện tượng này gọi là contouring. Hiệu ứng contouring
xảy ra khi sử dụng quá ít bước lượng hoá. Nó thường xuất hiện tại các vùng tối bởi vì độ

sáng khác nhau tương ứng 1% contrast sentivity thì rất nhỏ trong các vùng này.

Số hoá video màu (Color video digitization): Chúng ta đã giới thiệu số hoá video đơn
sắc (monochrome) – tức là chỉ theo độ sáng. Để biểu diễn video màu, chúng ta cần số hoá
từng tín hiệu màu sơ cấp riêng biệt như nguyên tắc số hoá đã làm với độ sáng. Trong
trường hợp này, mỗi điểm ảnh (pixel) được biểu diễn bởi một tập hợp ba giá trị tương
ứng với ba màu sơ cấp, mỗi màu có cùng độ rộng băng tầng của tín hiệu độ sáng và cần
cùng các mức lượng hoá như tín hiệu độ sáng. Hệ quả là một video số màu yêu cầu số dữ
liệu gấp ba lần của video đơn sắc tương ứng.
Ví dụ: Tín hiệu video hệ PAL có độ rộng băng tầng là 5.5 MHz, ta lấy mẫu với tốc độ cao
hơn 11 MHz. Thường là 13.5 MHz. Cũng như vậy ta cần: 8 bít cho mỗi mẫu, của
mỗi màu, và tổng cộng trong 1 giây cần: (3x13.5x8) = 324 Mbits dữ liệu.
Tốc độ dữ liệu tính toán ở trên là tốc độ dòng dữ liệu để biểu diễn video số. Trong
thực hành, tín hiệu video được biến đổi thành 2 thành phần là độ sáng và màu trước khi
chuyển sang dạng số. Do mắt người ít nhạy với thành phần màu và độ rộng băng tần của
nó được rút ngắn. Như vậy độ rộng băng tần thấp hơn của thành phần màu, có thể sử
dụng tốc độ lấy mẫu thấp hơn, rút ngắn số lượng dữ liệu cần thiết đễ biểu diễn video số.
Đây là dạng nén dữ liệu dùng đặc tính tri giác của con người.
Khi chúng ta số hoá độ sáng và màu phân biệt, thành phần màu có thể được lấy mẫu
với tốc độ bằng phân nữa của thành phần độ sáng.

Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 15


COMPONENTS
CCIR 601 4-2-2
SMPTE D-1
525 lines, 60 fields

CCIR 601 4-2-2

SMPTE D-1
625 lines, 50 fields

Luminance components
Bandwidth (MHz)
Sampling rate (MHz)
Samples per total line
Samples per active line
Bits per sample
Bit rate (Mb/s)

5.5
13.5
838
710
8
108


5.5
13.5
864
716
8
108

Chrominance components
Bandwidth (MHz)
Sampling rate (MHz)
Samples per total line

Samples per active line
Bits per sample
Bit rate (Mb/s)

2.2
6.75
419
335
8
54


2.2
6.75
432
358
8
54

Total bit rate

216

216

Bảng 2.3: Các tham số của truyền hình kỹ thuật số


2.4.3 Biểu diễn bitmap của hình ảnh và video số:
Trong quá trình số hoá video (ADC), ta không cần lấy mẫu các khoảng trắng hàng

ngang và hàng dọc, do vậy ta giảm bớt được tốc độ bit. Trong quá trình hiển thị, do đã
biết số điểm trên mỗi dòng quét và số dòng quét trong một frame nên các khoảng trắng
hàng ngang và hàng dọc có thể được tạo ra ngay trên thiết bị hiển thị. Như vậy, hình ảnh
kỹ thuật số được sắp xếp trong một mảng hai chiều của các điểm ảnh. Số cột tương ứng
với số mẫu (điểm ảnh) trên một hàng. Số hàng chính là số dòng quét của một frame.
Trong hình ảnh đơn sắc, chúng ta nhìn nó như một mảng hai chiều mà mỗi phần tử là độ
sáng của điểm ảnh tại các vị trí tương ứng trong hình ảnh.
Đối với ảnh màu, mỗi điểm ảnh là một tập hợp của ba giá trị tương ứng của ba màu
sơ cấp hoặc một thành phần độ sáng (luminance) và hai thành phần màu (chrominance).
Điều đó rất thuận tiện để hiển thị một ảnh màu kỹ thuật số bằng ba mảng hai chiều tương
ứng với ba thành phần. Khi các giá trị của một điểm ảnh được biểu diễn bằng độ sáng và
các thành phần màu, kích thước mảng của thành phần màu có thể nhỏ hơn thành phần độ
sáng. Trong quá trình hiển thị, ba thành phần này sẽ được xen kẻ một cách thích hợp để
giảm bớt kích thước ảnh gốc.
Việc sắp xếp các giá trị của điểm ảnh trong vùng bộ nhớ liên tục được gọi là bitmap.
Trong bitmap, một vị trí bộ nhớ (ba ví trí đối với ảnh màu) sẽ tương ứng một điểm ảnh
tên màn hình. Bộ nhớ được dùng để lưu trữ dữ liệu bitmap của hình ảnh được gọi chung
là framestore hay framebuffer.
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 16

2.4.4 So sánh các hệ thống video tương tự và số.
Video tương tự (analog)
Video số (digital)
• Hình ảnh không được lưu trữ. • Hình ảnh được lưu trữ (framestore).
• Không phân biệt trong thu, truyền và
hiển thị hình ảnh tỉnh và video.
• Có sự phân biệt trong thu, truyền và
hiển thị hình ảnh tỉnh và video.
• Các bộ phận (camera, transmiter,
receiver, display) của hệ thống phải hoạt

động một cách đồng bộ.
• Các bộ phận (camera, transmiter,
receiver, display) của hệ thống có thể
hoạt động độc lập
• Cần sử dụng kỹ thuật quét xen để tiết
kiệm độ rộng băng tần truyền tín hiệu và
để tránh hiện tượng lập loè.  Chất
lượng hiển thị giảm.
• Không cần sử dụng kỹ thuật quét xen
vì việc quét chỉ thực hiện trong nội bộ
thiết bị hiển thị (framestore).  Chất
lượng hiển thị tăng.
• Dữ liệu được truyền bằng với dữ liệu
gốc được thu nhận từ camera kể cả các
khoảng trắng hàng ngang và hàng dọc.
• Dữ liệu thu từ camera được số hoá và
nén trước khi truyền, không cần số hoá
khoảng trắng hàng ngang và hàng dọc.
(Hệ số nén video ≥ 24:1).
• Dữ liệu video tương tự không được xử lý

• Dữ liệu video số dể dàng được xử lý

2.4.5 Các nguồn khác của hình ảnh và video số
Trước đây chỉ có nguồn của hình ảnh và video là camera. Dù hiện nay nó vẫn là
nguồn chính, nhưng ta còn có các nguồn khác. Nguồn quan trọng khác là từ các máy quét
ảnh, nó biến đổi các hình ảnh, văn bản trên giấy thành dạng biểu diễn số dưới dạng
bitmap. Hình ảnh được quét có thể là màu / trắng đen. Các hình ảnh được tạo ra bởi máy
tính cũng là những hình ảnh số được lưu trữ trong bitmap dưới dạng vector.
Mặc dù hình ảnh số có được từ nhiều nguồn nhưng chúng đều có thể được xử lý bởi

hệ thống máy tính: Mỗi hình ảnh là một mảng hai chiều (hoặc ba mảng hai chiều đối với
ảnh màu) của các giá trị điểm ảnh.
Video số là một chuổi hình ảnh được hiển thị theo một tốc độ xác định. Mặc dù các
giá trị điểm ảnh của hình ảnh từ các nguồn khác nhau có ý nghĩa khác nhau nhưng chúng
đều có thể được biểu diễn bằng dạng RGB.
Chương 2: Đặc tính và yêu cầu của dữ liệu đa phương tiện Trang 17

2.5 Đặc tả kỹ thuật màu sắc.
Hình ảnh và video màu là hai kiểu dữ liệu cơ bản của hệ thống đa phương tiện. Tìm
hiểu các chi tiết kỹ thuật và khả năng nhận biết của con người về màu là rất quan trọng vì
các lý do sau:
– Một là, mong muốn hình ảnh hiển thị bởi hệ thống đa phương tiện giống như
hình ảnh gốc khi nó được thu, và nó được hiển thị giống nhau trong các hệ thống
khác.
– Hai là, có thể thực hiên với một hệ số nén cao nếu chúng ta sử dụng một số đặc
tính về khả năng nhận biết màu sắc của con người.
– Ba là, nhiều hoạt động như tìm kiếm hình ảnh được dựa trên các giá trị điểm ảnh
hoặc sự biểu diễn màu sắc. Xử lý hiệu chỉnh màu sắc có thể làm cải thiện hiệu
quả của các hoạt động này.
Trong phần này, chúng ta sẽ khảo sát về biểu diễn, nhận biết về màu sắc và thảo luận
về các vấn đề nêu trên.
2.5.1 Các thuộc tính của màu sắc:
Ánh sáng khả kiến là sóng điện
từ có bước sóng trong khoảng từ
400nm đến 780nm. Ánh sáng có bước
sóng khác nhau sẽ tạo ra cảm giác
màu khác nhau.
Ba thuộc tính vật lý cơ bản của bức xạ màu là: luminance (độ sáng), hue (độ màu),
saturation (độ bảo hoà).
– Luminance (độ sáng) là một thuộc tính của thị giác theo đó một vùng xuất hiện

ánh sáng phát ra là nhiều hay ít. Thị giác con người có đáp ứng về cảm giác
không tuyến tính đối với độ sáng: Một nguồn có độ sáng chỉ bằng 18% độ sáng
tham chiếu sẽ xuất hiện sáng chừng phân nữa. Như đã đề cập trước đây, một
người quan sát có thể phát hiện sự khác biệt về cường độ sáng giữa hai vùng khi
cường độ sáng của chúng khác nhau hơn 1%.
– Hue (màu / màu sắc) là một thuộc tính của thị giác theo đó một vùng xuất hiện
dường như giống với sự nhận biết của một trong các màu đỏ, vàng, xanh lá và
xanh dương hoặc một tổ hợp của hai trong các màu trên. Các màu trong tự nhiên
thường là màu đa sắc, nó được pha trộn bởi nhiều bước sóng. Mỗi màu trong tự
nhiên có một bước sóng chi phối, thiết lập sự cảm nhận trực quan về màu sắc,
nhưng nó cũng có thể chứa các thành phần bức xạ có bước sóng mở rộng trên
toàn bộ quang phổ nhìn thấy được. Màu trắng hoặc xám là bức xạ ánh sáng có
tất cả các bước sóng với lượng tương đương nhau.
– Saturation (độ bảo hoà màu) là độ thuần màu của một vùng được xem xét
tương ứng với độ sáng của nó. Sự xuất hiện của bất kỳ một màu nào có thể được
nhân đôi khi có sự pha trộn phổ màu thuần của nó và ánh sáng trắng (hoặc xám)
trong một tỷ lệ thích hợp. Tỷ lệ giữa năng lượng của thành phần quang phổ và
tổng năng lượng của ánh sáng xác định độ thuần màu hoặc độ bão hòa màu của

×