Tải bản đầy đủ (.pdf) (98 trang)

Xây dựng ứng dụng truyền video trên thiết bị cầm tay (PDA) qua môi trường mạng không dây

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.06 MB, 98 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




LÊ HÙNG DŨNG





XÂY DỰNG ỨNG DỤNG TRUYỀN VIDEO TRÊN THIẾT BỊ CẦM TAY
(PDA) QUA MÔI TRƯỜNG MẠNG KHÔNG DÂY








LUẬN VĂN THẠC SĨ












Hà Nội- 2006

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




LÊ HÙNG DŨNG



XÂY DỰNG ỨNG DỤNG TRUYỀN VIDEO TRÊN THIẾT
BỊ CẦM TAY (PDA) QUA MÔI TRƯỜNG MẠNG KHÔNG
DAY




Luận Văn TS:Công nghệ TT
Mã số: 0.01.10









Người Hướng Dẫn :







Hà Nội- 2006
1
MỤC LỤC
THUẬT NGỮ 3
DANH SÁCH BẢNG BIỂU 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 6
MỞ ĐẦU 8
CHƢƠNG 1: TỔNG QUAN VỀ NÉN VIDEO 10
1.1 Giới thiệu về nén Video 10
1.1.1 Giới thiệu 10
1.1.2 Tại sao lại phải nén Video 13
1.1.3 Nén Video 14
1.2 Các chuẩn nén Video hiện đại 15
1.2.1 MPEG 1 15
1.2.2 MPEG 2 19
1.2.3 MPEG 4 24
1.2.4 H.261 34
1.2.5 H.263 36
1.2.6 H.264 45

CHƢƠNG 2: STREAMING VIDEO 50
2.1 Tổng quan về Streaming Media 50
2.1.1 Lịch sử 50
2.1.1 Băng thông và dung lƣợng lƣu trữ streaming 51
2.2 Tổng quan về Streaming Video 52
2.2.1 Streaming Video là gì? 52
2.2.2 Tại sao phải sử dụng Streaming Video? 53
2.2.3 Các phƣơng thức Streaming 54
2.2.4 Mô hình Streaming 56
2.3 Các giao thức Streaming Video 58
2.3.1 Giao thức truyền thời gian thực (RTP) 58
2.3.1 Giao thức điều khiển truyền thời gian thực (RTCP) 60
2.4 Streaming Video trên mạng không dây 61
2
2.4.1 Video Streaming qua một kết nối không dây 61
2.4.2 Nâng cao chất lƣợng Streaming Video qua kết nối không dây 62
CHƢƠNG 3: XÂY DỰNG CHƢƠNG TRÌNH ỨNG DỤNG 65
3.1 Thiết bị hỗ trợ kỹ thuật số cá nhân - PDA 65
3.1.1 Tổng quan về PDA? 65
3.1.2 Lịch sử phát triển 65
3.1.3 Đặc điểm của thiết bị PDA 66
3.1.4 Hệ điều hành 67
3.2 Giao thức H.323 68
3.2.1 Tổng quan về H.323 68
3.2.2 Các thành phần của H.323 69
3.2.3 Các giao thức đƣợc tham chiếu bởi H.323 75
3.2.4 Ƣu điểm của H.323 75
3.3 Mạng không dây 76
3.3.1 Giới thiệu 76
3.3.2 Lịch sử phát triển 76

5.3.3 Lợi ích của mạng không dây 77
3.3.4 Nhƣợc điểm của mạng không dây 78
3.3.5 Kiến trúc của một mạng không dây 79
3.3.6 Các kiểu mạng không dây 81
3.3.7 Các chuẩn mạng không dây hiện đại 82
3.4 Xây dựng chƣơng trình thử nghiệm 83
3.4.1 Yêu cầu chung 83
3.4.2 Mô hình kiến trúc của chƣơng trình 83
3.4.2 Đánh giá kết quả 91
KẾT LUẬN 92
Những kết quả thu đƣợc 92
Những hƣớng phát triển tiếp theo 93
TÀI LIỆU THAM KHẢO 94

3
THUẬT NGỮ

AP Điểm truy cập không dây
API Application Programming Interface – giao diện lập trình ứng dụng -
hỗ trợ các hàm, các lớp viết sẵn của hệ thống.
ATM Phƣơng thức truyền đồng bộ đƣợc sử dụng trong truyền thông
AVI Một định dạng đa phƣơng tiện do Microsoft đƣa ra
BSS Bộ dịch vụ cơ sở
CD Đĩa quang ghi dữ liệu
CIF Một định dạng hình ảnh màu – Common Intermediate Format
CIF Định dạng ảnh - Common Intermediate Format
CODEC Một thiết bị hay chƣơng trình mã hóa và giải mã dữ liệu số
DCT Hàm chuyển cosin rời rạc
DSL Là công nghệ phổ biến truyền dữ liệu số hóa qua mạng có dây
DVD Đĩa Video quang chất lƣợng cao

H.261 Một chuẩn nén Video
H.263 Một chuẩn nén Video
H.264 Một chuẩn nén Video
HTTP Một giao thức truyền và nhận thông tin trên WWW
IEEE Viện Công nghệ điện và điện tử
IETF Tổ chức kỹ thuật Internet (Internet Engineering Task Force)
IP Giao thức Internet; địa chỉ mạng
ISDN Mạng dịch vụ tích hợp kỹ thuật số
ISO Tổ chức tiêu chuẩn quốc tế
ITU Hiệp hội Viễn thông quốc tế
JPEG Một định dạng ảnh hay một chuẩn nén ảnh chụp phổ biến
LAN Mạng cục bộ
MCU Bộ đa điều khiển
4
MP3 Một định dạng âm thanh – Âm thanh MPEG-1 Lớp 3
MPEG Nhóm chuyên gia hình ảnh chuyển động, một ủy ban của ISO/IEC
MPEG-1 Chuẩn mã hóa đa phƣơng tiện
MPEG-2 Chuẩn mã hóa đa phƣơng tiện
MPEG-4 Chuẩn mã hóa đa phƣơng tiện
PDA Thiết bị hỗ trợ kỹ thuật cá nhân
QCIF Định dạng ảnh – Quarter Common Intermediate Format
QoS Chất lƣợng dịch vụ
RTCP Giao thức điều khiển truyền thời gian thực
RTP Giao thức truyền thời gian thực
RTSP Giao thức Streaming thời gian thực
STD Chuẩn
TCP Giao thức điều khiển truyền dữ liệu
UDP Giao thức gói dữ liệu ngƣời dùng
VCD Đĩa quang Video
VHS Hệ thống Video gia đình

WLAN Mạng cục bộ không dây



5
DANH SÁCH BẢNG BIỂU
Bảng 1: Các mô tả MPEG-2 21
Bảng 2: Các chuẩn mạng không dây hiện đại 82
6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1-1: Khung hình Video (ví dụ về các vùng đồng nhất) 11
Hình 1-2: Khung hình Video (nền đã đƣợc lọc –filter) 11
Hình 1-3: Khung hình Video 2 12
Hình 1-4: Bộ mã hóa / Giải mã (CODEC) 14
Hình 1-5: Tƣơng quan không gian và thời gian trong một đoạn video 15
Hình 1-6: Nguyên mẫu ISO/ bộ giải mã IEC 11172 17
Hình 1-7: Mẫu cấu trúc hình ảnh theo thời gian. 18
Hình 1-8: Cấu trúc cơ bản của bộ mã hóa âm thanh. 19
Hình 1-9: Mô hình của các hệ thống MPEG-2 20
Hình 1-10: Cấu trúc của một khối dữ liệu âm thanh MPEG-2 22
Hình 1-11: Mô hình tham chiếu DSM-CC 23
Hình 1-12: Cấu hình tham chiếu cho Giao diện thời gian thực 24
Hình 1-13: Ví dụ vể một cảnh MPEG-4 27
Hình 1-14: Mô hình lớp hệ thống MPEG-4 28
Hình 1-15: Quan hệ giữa các phiên bản MPEG-4 31
Hình 1-16: Bộ mã hóa H.261 35
Hình 1-17: Bộ giải mã H.261 36
Hình 1-18: Sơ đồ khối codec của H.263 38
Hình 1-19: Minh họa một hệ thống mã hóa/giải mã video 39
Hình 1-20: Bộ mã hóa H.263 40

Hình 1-21: Bộ giải mã H.263 42

Hình 2- 1: Kiến trúc của một ứng dụng truyền dữ liệu thời gian thực 61

Hình 3-1: Minh họa một thiết bị PalmPilot sử dụng hệ điều hành Palm OS 68
Hình 3-2: Giao thức H.323 72
Hình 3-3: H.323/PSTN Gateway 73
7
Hình 3-4: H.323/ISDN Gateway 73
Hình 3-5: Vùng H.323 74
Hình 3-6: Kiến trúc mạng không dây 79
Hình 3-7: Mạng không dây ngang hàng hoặc ad-hoc 81
Hình 3-8: Mô hình kiến trúc chƣơng trình thử nghiệm 84
Hình 3-9: Mô hình kế thừa của lớp H.323 85
Hình 3- 10: Cây kế thừa của lớp Kênh H323 86
Hình 3-11: Cây kế thừa của lớp H323Codec 86
Hình 3-12: Cây kế thừa của lớp H323SignalPDU 87
Hình 3-13: Cây kế thừa lớp PSocket 89


8
MỞ ĐẦU
Hiện nay, truyền video trong các môi trƣờng mạng tốc độ bit thấp ngày càng trở nên
phổ biến và trở thành yêu cầu cấp thiết trong một số lĩnh vực của xã hội. Một số
ứng dụng điển hình có thể kể đến là: ứng dụng hội nghị truyền hình qua mạng
intranet và internet (Video Conferencing) đƣợc sử dụng trong công tác điều hành;
ứng dụng chẩn đoán hình ảnh trong y học (Telemedicine); các ứng dụng truyền
video thời gian thực đƣợc sử dụng trong lĩnh vực đào tạo trực tuyến …
Sự ra đời và phát triển mạnh mẽ của công nghệ không dây (wireless) và các thiết bị
cầm tay (nhƣ thiết bị hỗ trợ kỹ thuật cá nhân PDA, máy tính cầm tay Pocket PC, các

điện thoại di động có sử dụng hệ điều hành …) đã mở ra một cách thức khai thác
công nghệ mới, khác với cách thức truyền thống (làm việc tại văn phòng và sử dụng
các mạng có dây để khai thác các dịch vụ) và thật sự đem lại nhiều sự thuận tiện và
hiệu quả cho ngƣời sử dụng. Chỉ với một thiết bị cầm tay hỗ trợ công nghệ kết nối
mạng không dây, ngƣời dùng có thể làm việc, duyệt web và khai thác các dịch vụ
giải trí tại bất kỳ nơi nào, trong đó các ứng dụng và dịch vụ video đóng một vai trò
quan trọng.
 Tính cấp thiết của đề tài: truyền video qua các môi trƣờng mạng tốc độ bit
thấp là một công nghệ hiện đại, có ứng dụng trong nhiều lĩnh vực, nổi cộm là
các ứng dụng hội nghị truyền hình, các dịch vụ giải trí, đào tạo trực tuyến …
Đặc biệt đối với các ứng dụng trên các thiết bị hỗ trợ kỹ thuật cầm tay chạy
trong môi trƣờng mạng không dây.
 Ý nghĩa khoa học: Nghiên cứu truyền video trên thiết bị cầm tay qua môi
trƣờng mạng không dây cho phép xây dựng đƣợc các ứng dụng và dịch vụ
hiệu quả. Kết quả thu đƣợc sẽ là cơ sở cho việc phát triển một số ứng dụng
đƣợc đánh giá là sẽ rất phổ biến trong tƣơng lai.
 Phạm vi nghiên cứu: Luận văn nghiên cứu phần cơ sở lý thuyết của các
phƣơng pháp nén video, cơ sở lý thuyết về Streaming video và chuẩn công
9
nghệ về tổ chức, truyền dữ liệu video qua các hệ thống mạng tốc độ bit thấp
với nhiều ngƣời dùng tham gia. Đặc biệt là trên môi trƣờng mạng không dây
với thiết bị cầm tay PDA.
 Kết quả đạt được: Luận văn trình bày cơ sở lý thuyết của các phƣơng pháp nén
video nhƣ các chuẩn MPEG, chuẩn H.26x; Streaming video và chuẩn H.323.
Đây là các lý thuyết cơ sở cho việc xây dựng các ứng dụng truyền video. Luận
văn cũng đã xây dựng đƣợc chƣơng trình thử nghiệm truyền video thời gian
thực kết nối hai thiết bị cầm tay (Pocket PC) qua môi trƣờng mạng không dây.
 Nội dung luận văn bao gồm:
- Chương 1. Tổng quan về nén Video – Trình bày về sự cần thiết phải
nén video và các lý thuyết về các chuẩn nén Video hiện đại.

- Chương 2. Video streaming – Trình bày các khái niệm về video
streaming, các giao thức truyền dữ liệu thời gian thực. Đây là các cơ sở
cho việc xây dựng ứng dụng truyền dữ liệu video trong các ứng dụng và
dịch vụ trên mạng.
- Chương 3. Xây dựng chương trình ứng dụng – Giới thiệu về các
công nghệ thiết bị PDA, giao thức chuẩn H.323 và xây dựng kiến trúc
chƣơng trình thử nghiệm.
- Kết luận - Cho biết những kết quả, hạn chế và hƣớng phát triển của
luận văn.
10
CHƢƠNG 1: TỔNG QUAN VỀ NÉN VIDEO
1.1 Giới thiệu về nén Video
1.1.1 Giới thiệu
Với sự phát triển mạnh mẽ của công nghệ thông tin nhƣ hiện nay, đặc biệt là khả
năng kết nối mạng internet (qua mạng có dây và không dây) với băng thông ngày
càng nâng cao. Bên cạnh đó, nhu cầu sử dụng các dịch vụ và ứng dụng âm thanh,
hình ảnh và video ngày càng nhiều, điều này nói lên đƣợc tầm quan trọng của việc
tối ƣu hóa chất lƣợng dữ liệu đa phƣơng tiện khi đƣợc truyền đi trên mạng, trong đó
nén dữ liệu video là một trong những việc làm hết sức cần thiết.
Việc nén dữ liệu video đem lại hai ƣu điểm sau:
- Nâng cao khả năng sử dụng video số hóa trong các môi trƣờng trao đổi và
lƣu trữ. Ví dụ, với tốc độ đƣờng truyền internet nhƣ hiện nay vẫn không đủ
để hỗ trợ thực hiện dữ liệu video không nén theo thời gian thực (thậm chí
trong cả tƣờng hợp video ở tốc độ và kích thƣớc khung hình thấp) trong khi
đó một đĩa DVD chỉ có thể lƣu đƣợc một đoạn video có độ dài vài giây với
chất lƣợng hình ảnh và độ phân giải của Tivi.
- Nâng cao hiệu quả sử dụng các tài nguyên lƣu trữ và truyền video. Nếu có
một kênh truyền tốc độ cao, chúng ta có thể thực hiện truyền video nén với
độ phân giải và chất lƣợng cao hoặc có thể truyền trên nhiều kênh thay vì
đơn kênh.

Với các ƣu điểm trong lƣu trữ và truyền dữ liệu, nén dữ liệu video đƣợc coi là
một thành phần quan trọng trong hầu hết tất các các ứng dụng và dịch vụ đa
phƣơng tiện hiện nay và trong những năm tiếp theo.
11

Hình 1-1: Khung hình Video (ví dụ về các vùng đồng nhất)

Hình 1-2: Khung hình Video (nền đã đƣợc lọc –filter)
12

Hình 1-3: Khung hình Video 2
Một tín hiệu mang thông tin có thể đƣợc nén bằng cách bỏ đi các bit dƣ thừa. Trong
một hệ thống nén không mất dữ liệu, các bit dƣ thừa thống kê sẽ bị loại bỏ do đó tín
hiệu ban đầu có thể đƣợc khôi phục lại một cách hoàn hảo tại điểm nhận. Tuy
nhiên, tại thời điểm hiện nay, hầu hết các phƣơng thức nén không mất dữ liệu hình
ảnh và video chỉ đạt kết quả vừa phải, không có khả năng khôi phục 100% so với
tín hiệu ban đầu. Hầu hết các kỹ thuật nén video đƣợc sử dụng hiện nay đều dựa
trên nguyên tắc mất dữ liệu khi nén. Mục đích của các thuật toán nén video là nâng
cao hiệu năng nén trong khi mong muốn giảm thiểu sự méo và giảm chất lƣợng
trong quá trình nén. Các thuật toán nén thực hiện loại bỏ phần dƣ thừa trong các
vùng dữ liệu theo thời gian, không gian và/hoặc tần suất xuất hiện. Hình 1-1 thể
hiện ví dụ về một khung video đơn. Với các vùng đƣợc khoanh, ít có sự biến đổi về
nội dung hình ảnh và do đó đây là sự dƣ thừa về mặt không gian của dữ liệu. Hình
1-2 thể hiện cùng khung hình sau khi vùng ảnh nền đã đƣợc lọc (làm mịn), loại bỏ
một số nội dung với tần suất xuất hiện cao. Hệ thần kinh và mắt ngƣời rất nhạy cảm
đối với các nội dung có tần suất xuất hiện thấp hơn và do đó hình ảnh vẫn có thể
đƣợc nhận biết trong khi một số nhiều thông tin đã đƣợc loại bỏ [6]. Hình 1-3 thể
hiện khung hình tiếp theo trong đoạn video. Hình ảnh minh họa này đƣợc lấy từ một
13
nguồn máy quay camera với tỷ lệ 25 khung hình/giây và do đó có rất ít thay đổi

giữa hai khung hình trong một khoảng thời gian 1/25 giây. Điều này cho thấy rất rõ
ràng về sự dƣ thừa của dữ liệu. Bằng cách loại bỏ các dữ liệu dƣ thừa (nhƣ dữ liệu
không gian, tần suất xuất hiện và/hoặc thời gian), chúng ta có thể nén dữ liệu một
cách đáng kể. Hơn nữa còn có thể nén video bằng cách mã hóa dữ liệu bằng lƣợc đồ
mã entropy nhƣ mã Huffman hoặc mã số học.
Nén hình ảnh và video đã trở thành một vấn đề nóng bỏng trong các nghiên cứu và
phát triển trong vòng hai mƣơi năm nay và cũng đã có rất nhiều các thuật toán và hệ
thống khác nhau đƣợc xây dựng để thực hiện điều này. Một vấn đề đƣợc đặt ra là
làm thế nào có thể thống nhất đƣợc cách thức nén/giải nén, nâng cao khả năng sử
dụng các sản phẩm từ nhiều nhà sản xuất khác nhau cũng nhƣ giao tiếp, trao đổi với
nhau một cách hiệu quả. Các tiêu chuẩn quốc tế cho nén hình ảnh và video đã đƣợc
ra đời nhƣ JPEG, MPEG và các chuẩn H.26x
1.1.2 Tại sao lại phải nén Video
Do dữ liệu video đƣợc ghi trên các phƣơng tiện lƣu trữ nhƣ đĩa CD và DVD hoặc
truyền trên mạng, kích thƣớc của dữ liệu video số hóa là một vấn đề quan trọng
trong công nghệ đa phƣơng tiện. Mặt khác, do sự đòi hỏi băng thông lớn của các tín
hiệu video thô (raw video), các ứng dụng video khi chạy sẽ chiếm rất nhiều tài
nguyên về băng thông nếu các khung hình video đƣợc truyền ở dạng không nén. Ví
dụ, giả sử rằng một khung hình video đƣợc biểu diễn trọng một lƣới rời rạc các
điểm ảnh với độ phân giải 176 điểm ảnh trên một dòng và 144 dòng trên một hình.
Nếu màu của hình ảnh đƣợc biểu diễn bởi hai khung màu, và mỗi khung có độ phân
giải một nửa của hình ảnh chói thì mỗi khung video sẽ cần xấp xỉ 38 kbyte để biểu
diễn nội dung của nó trong khi mỗi thành phần màu và độ chói đƣợc biểu diễn bởi
8-bit. Nếu các khung video đƣợc truyền ở dạng không nén với tỷ lệ 25 khung hình /
giây thì tốc độ dữ liệu thô cho một cảnh video sẽ vào khoảng 7.6 Mbit/giây và một
đoạn video có độ dài một phút sẽ yêu cầu băng thông là 57 Mbyte. Đối với một định
dạng video CIF ở độ phân giải 352x288 điểm ảnh, với 8-bit đối với mỗi thành phần
14
màu hoặc độ chói và độ phân giải một nửa thì mỗi hình ảnh sẽ cần 152 kbyte bộ
nhớ để biểu diễn nội dung số hóa. Với cùng tỷ lệ hình ảnh nhƣ trên, tốc độ dữ liệu

video thô cho một cảnh vào khoảng 30 Mbit/s và một đoạn phim có độ dài một phút
sẽ yêu cầu băng thông khoảng 225 Mbyte. Do đó, dữ liệu video số hóa cần phải
đƣợc nén trƣớc khi truyền để bảo đảm yêu cầu băng thông tối thiều của các dịch vụ
hoặc ứng dụng đa phƣơng tiện [1].
1.1.3 Nén Video
Nén là một quá trình “cô đọng” dữ liệu thành dữ liệu mới có tổng số bit nhỏ hơn.
Nén video (mã hóa video) là một quá trình “cô đọng” một cảnh video số hóa với số
lƣợng bit nhỏ hơn. Video số hóa “thô” hay không nén thông thƣờng yêu cầu một tỷ
lệ bit lớn (khoảng 216 Mbits cho một giây video không nén với chất lƣợng TV) và
do đó nén dữ liệu là cần thiết cho việc lƣu trữ và truyền tín hiệu video.
Nén dữ liệu đòi hỏi có hai hệ thống, bộ nén (bộ mã hóa) và bộ giải nén (bộ giải mã).
Bộ mã hóa chuyển đổi dữ liệu nguồn thành một mẫu nén (giảm bớt số lƣợng bit) ƣu
tiên cho việc truyền hoặc lƣu trữ và bộ giải mã có nhiệm vụ chuyển đổi từ mẫu nén
về dạng biểu diễn ban đầu của dữ liệu video. Cặp bộ mã hóa/giải mã thông thƣờng
đƣợc mô tả nhƣ một CODEC (enCOder/ DECoder) (Hình 1-4).

Hình 1-4: Bộ mã hóa / Giải mã (CODEC)
Hầu hết các phƣơng thức mã hóa đều sử dụng cả dữ liệu không gian và thời gian dƣ
thừa trong khi mã hóa. Trong một vùng thời gian, thƣờng có độ tƣơng quan cao
(giống nhau) giữa các khung video đƣợc chụp gần nhƣ trong cùng một thời điểm.
Các khung liền kề nhau về mặt thời gian thƣờng có độ tƣơng quan cao, đặc biệt nếu
tốc độ mẫu theo thời gian (tỷ lệ khung hình trên giây) lớn. Trong một vùng theo
không gian, thông thƣờng có độ tƣơng quan cao giữa các điểm ảnh (các mẫu) ở gần
15
nhau. Ví dụ. giá trị của các mẫu liền kề nhau thông thƣờng rất giống nhau (Hình 1-
5)

Hình 1-5: Tƣơng quan không gian và thời gian trong một đoạn video
1.2 Các chuẩn nén Video hiện đại
1.2.1 MPEG 1

MPEG-1 định nghĩa một nhóm các mã âm thanh - hình ảnh (AV – Audio và Video)
và các chuẩn nén đƣợc công nhận bởi MPEG (Nhóm chuyên gia hình ảnh động -
Moving Picture Experts Group) [20]. MPEG-1 video thƣờng đƣợc dùng cho định
dạng Video CD (VCD). Độ phân giải và tốc độ bit của chuẩn VCD bằng xấp xỉ so
với băng từ VHS. Âm thanh MPEG-1 Lớp 3 là tên đầy đủ của định dạng âm thanh
rất phổ biến MP3 (MPEG-1 audio layer 3). Ngày nay, với sự phát triển nhanh của
công nghệ phần cứng của các thiết bị mã hóa, ngày càng có nhiều định dạng âm
thanh tiên tiến đƣợc phát triển nhƣ MPEG-2 và MPEG-4. Các định dạng mới này
16
ngày càng phức tạp và yêu cầu các thiết bị phần cứng cao hơn, tuy nhiên chúng tỏ ra
rất hiệu quả về mặt chất lƣợng.
MPEG-1 bao gồm một số thành phần nhƣ sau:
1. Phần 1: Đồng bộ và trộn video - âm thanh
2. Phần 2: Codec nén cho các tín hiệu video không kết hợp.
3. Phần 3: Codec nén cho mã hóa tín hiệu âm thanh. Chuẩn định nghĩa mã hóa
âm thanh MPEG ở ba mức một cách phức tạp:
a. MP1 hoặc MPEG-1 Phần 3 Lớp 1 (MPEG-1 Audio Layer 1)
b. MP2 hoặc MPEG-1 Phần 3 Lớp 2 (MPEG-1 Audio Layer 2)
c. MP3 hoặc MPEG-1 Phần 3 Lớp 3 (MPEG-1 Audio Layer 3)
4. Phần 4: Các thủ tục kiểm thử.
5. Phần 5: Phần mềm tham chiếu.
Trong đó:
Phần 1 có nhiệm vụ đánh địa chỉ các vấn đề xảy ra khi kết hợp một hoặc nhiều
dòng dữ liệu (data stream) từ các phần âm thanh và Video của chuẩn MPEG-1 với
thông tin thời gian để tạo thành một dòng đơn nhƣ trong Hình 1-6 dƣới đây. Đây là
một chức năng quan trọng vì khi kết hợp thành một dòng đơn, tất cả dữ liệu sẽ trong
một mẫu, điều này sẽ rất phù hợp với việc lƣu trữ và truyền dữ liệu số.
17

Hình 1-6: Nguyên mẫu ISO/ bộ giải mã IEC 11172

Phần 2 xác định một biểu diễn mã hóa có thể đƣợc sử dụng cho việc nén video.
Có một số kỹ thuật đƣợc sử dụng để nén dữ liệu với tỷ lệ cao. Đầu tiên sẽ lựa chọn
một độ phân giải không gian thích hợp cho tín hiệu. Thuật toán đƣợc dùng sẽ sử
dụng khối chuyển động bù để làm giảm các dữ liệu dƣ thừa về mặt thời gian. Bù
chuyển động đƣợc sử dụng cho việc ƣớc lƣợng hình ảnh hiện tại từ hình ảnh trƣớc
đó, và cho việc dự đoán hình ảnh hiện tại từ một hình tiếp theo, hoặc sử dụng cho
việc ƣớc lƣợng nội suy từ các hình ảnh trƣớc và sau. Tín hiệu sai, lỗi dự đoán sẽ
đƣợc nén bằng cách sử dụng phép biến đổi cosin rời rạc (DCT) để loại bỏ tƣơng
quan không gian và sau đó sẽ đƣợc lƣợng tử. Cuối cùng, các vector chuyển động
đƣợc kết hợp với thông tin DCT và đƣợc mã hóa bằng cách sử dụng Mã độ dài biến
thiên.
Hình dƣới đây minh họa khả năng kết hợp của ba kiểu hình ảnh chính đƣợc sử dụng
trong chuẩn.
18

Hình 1-7: Mẫu cấu trúc hình ảnh theo thời gian.
Phần 3 xác định một biểu diễn mã hóa đƣợc sử dụng cho nén âm thanh – cả âm
dạng mono và stereo. Thuật toán đƣợc minh họa trong Hình 1-8 dƣới đây. Các mẫu
âm thanh đầu vào đƣợc đƣa vào bộ mã hóa. Bộ đánh địa chỉ (mapping) sẽ tạo ra một
mẫu con đã đƣợc lọc từ dòng âm thanh đầu vào. Mô hình hệ tâm lý âm thanh
(psychoacoustic model) tạo ra một tập các dữ liệu để điều khiển bộ lƣợng tử và mã
hóa. Khối lƣợng tử và mã hóa tạo ta tập các ký hiệu mã hóa từ mẫu dữ liệu đầu vào
đã đƣợc đánh địa chỉ. Khối đóng gói khung (frame packing) lắp ráp các dòng bit từ
dữ liệu đầu ra của các khối khác đồng thời thêm một số thông tin khác (ví dụ, tƣơng
quan lỗi) nếu cần thiết.
19

Hình 1-8: Cấu trúc cơ bản của bộ mã hóa âm thanh.
Phần 4 chỉ ra cách kiểm thử có thể đƣợc thiết kế để xác định khi nào dòng bit và bộ
giải mã đáp ứng đƣợc các yêu cầu trong phần 1, 2 và 3 của chuẩn MPEG-1.

Phần 5, phần mềm tham chiếu.
1.2.2 MPEG 2
MPEG-2 là một chọn lựa cho các chuẩn mã hóa và nén âm thanh - hình ảnh (AV),
đƣợc sự đồng ý của MPEG (Moving Picture Experts Group) và đƣợc công bố là
chuẩn quốc tế ISO/IEC 13818 [21]. MPEG-2 thƣờng đƣợc sử dụng để giải mã âm
thanh và hình ảnh cho các tín hiệu lan truyền, bao gồm cả lan truyền qua vệ tinh và
truyền hình cáp. MPEG-2, mặc dù có một vài sự thay đổi, nhƣng vẫn là định dạng
mã hóa chuẩn đƣợc các công ty sản xuất phim DVD sử dụng. Ở những nơi mà bản
quyền phần mềm đƣợc bảo hộ thì việc sử dụng MPEG-2 yêu cầu phải chi trả tiền
bản quyền cho các nhà sáng chế thông qua Hiệp hội bản quyền MPEG.
MPEG-2 hiện nay là một chuẩn gồm 9 phần. Ba phần đầu của MPEG-2 đã đáp ứng
đƣợc chuẩn quốc tế, những phần khác ở những cấp độ hoàn thiện khác nhau.
Phần 1 của MPEG-2 xác định địa chỉ liên kết của một hoặc nhiều luồng hình ảnh
hoặc âm thanh cơ bản, hoặc các dữ liệu khác vào một hoặc nhiều luồng phù hợp để
20
lƣu trữ hay truyền tải. Nó đƣợc chỉ rõ trong 2 kiểu: Luồng chƣơng trình (Program
Stream) và Luồng truyền (Transport Stream). Mỗi kiểu đƣợc lựa chọn cho những
tập ứng dụng khác nhau.

Hình 1-9: Mô hình của các hệ thống MPEG-2
Luồng chƣơng trình cũng tƣơng tự nhƣ Hệ thống đa thành phần MPEG-1. Nó trả về
kết quả từ việc liên kết một hoặc nhiều Dòng cơ sở gói (PES-Packetised Elementary
Streams) với cơ sở thời gian thông thƣờng vào một luồng đơn. Luồng chƣơng trình
đƣợc thiết kể để sử dụng trong các môi trƣờng lỗi tƣơng đối và phải phù hợp với
các chƣơng trình ứng dụng có thể liên quan tới các phần mềm xử lý. Các gói luồng
chƣơng trình có thể biến thiên và tƣơng đối dài.
Luồng truyền liên kết một hoặc nhiều PES với một hoặc nhiều cơ sở thời gian độc
lập thành một luồng đơn. Các luồng cơ bản chia sẻ một cơ sở thời gian thông
thƣờng từ một chƣơng trình. Luồng truyền đƣợc thiết kế để sử dụng trong các môi
trƣờng mà các lỗi có thể xảy ra (ví dụ, mất điện khi lƣu trữ hay truyền tải dữ liệu).

Gói luồng truyền dài 188 byte.
21
Phần 2 của MPEG-2 xây dựng trên khả năng nén hình ảnh rất mạnh của chuẩn
MPEG-1 để phát triển hàng hoạt các công cụ mã hóa. Chúng đƣợc gom lại trong
các bản mô tả sơ lƣợc để phát triển các chức năng khác nhau. Chỉ có các liên kết
đƣợc đánh dấu “X” là có thể nhận diện bởi chuẩn.
Bảng 1: Các mô tả MPEG-2

Đơn
giản
Chính
Mở rộng
SNR
Mở rộng
không gian
Cao
Multiview
4:2:2
Mức cao







Mức cao
1440








Mức
chính







Mức thấp







Từ khi MPEG-2 đƣợc phê chuẩn lần cuối vào tháng 11 năm 1994, một bản mô tả sơ
lƣợc tổng quát đƣợc phát triển. Nó sử dụng các công cụ mã hóa có trong MPEG-2
video nhƣng có khả năng xử lý các ảnh ở độ phân giải màu 4:2:2 và tốc độ bít cao
hơn. Mặc dù MPEG-2 Video không đƣợc phát triển trong các ứng dụng studio
nhƣng hàng loạt các bài kiểm tra so sánh do MPEG mang lại đã chứng thực rằng
MPEG-2 tốt và trong nhiều trƣờng hợp thậm chí còn tốt hơn cả các chuẩn hay các
đặc điểm kỹ thuật đã phát triển trƣớc đây cho tốc độ truyền bít cao và các ứng dụng
studio.

Bản mô tả sơ lƣợc 4:2:2 lần cuối đƣợc phê chuẩn vào tháng một năm 1996 và hiện
tại là một phần không thể thiếu của MPEG-2 Video.
Multiview Profile (MVP) là một bản mô tả sơ lƣợc tổng quát hiện đang đƣợc phát
triển. Bằng việc sử dụng các công cụ mã hóa MPEG-2 Video sẵn có, nó có khả
năng giải mã một chuỗi hình ảnh kém chất lƣợng đƣợc cung cấp bởi 2 máy quay
quay cùng một cảnh với một góc hẹp giữa chúng. Bản mô tả này đƣợc phê chuẩn
lần cuối vào tháng 7 năm 1996
22
Phần 3 của MPEG-2 là một sự mở rộng đa kênh tƣơng thích ngƣợc của chuẩn
MPEG-1 Audio. Hình 1-10 dƣới đây thể hiện cấu trúc của một khối dữ liệu MPEG-
2 Audio.

Hình 1-10: Cấu trúc của một khối dữ liệu âm thanh MPEG-2
Phần 4 và 5 của MPEG-2 phù hợp với phần 4 và 5 của MPEG-1. Chúng đƣợc phê
chuẩn lần cuối vào tháng 3 năm 1996.
Phần 6 của MPEG-2 - Digital Storage Media Command and Control (DSM-CC) là
một đặc điểm kỹ thuật của tập các giao thức hỗ trợ các chức năng và toán tử điều
khiển để quản lý luồng bít MPEG-1 và MPEG-2. Các giao thức này có thể đƣợc sử
dụng để hỗ trợ các ứng dụng trong các môi trƣờng mạng đơn tính hay hỗn hợp.
Trong mẫu DSM-CC, một luồng đƣợc bắt đầu từ một máy chủ và phân tán tới một
23
máy khách. Cả máy chủ và máy khách đều đƣợc coi là ngƣời sử dụng của mạng
DSM-CC. DSM-CC định nghĩa một thực thể hợp lý gọi là quản lý phiên và tài
nguyên (SRM). Nó cung cấp một trình quản lý tập trung của các Phiên và Tài
nguyên DSM-CC (xem Hình 1-11)

Hình 1-11: Mô hình tham chiếu DSM-CC
Phần 6 đƣợc phê chuẩn nhƣ một chuẩn quốc tế vào tháng 7 năm 1996.
Phần 7 của MPEG-2 là một đặc điểm kỹ thuật của thuật toán mã hóa âm thanh đa
kênh không bắt buộc phải tƣơng thích ngƣợc với MPEG-1 Audio. Chuẩn này đƣợc

phê chuẩn vào tháng 4 năm 1997.
Phần 8 của MPEG-2 lúc đầu đƣợc dự tính cho việc mã hóa hình ảnh khi các mẫu
đầu vào là 10 bít.
Phần 9 của MPEG-2 là một đặc tính kỹ thuật của giao diện thời gian thực cho các
bộ giải mã luồng truyền. Nó có thể đƣợc sử dụng để thích nghi với tất cả các mạng
phù hợp có chứa các luồng truyền.

×