Tải bản đầy đủ (.doc) (67 trang)

Tổng hợp ôn thi Truyền thông Đa Phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.5 MB, 67 trang )

Mục lục
Mục lục...........................................................................................................................1
Phần 1. Công nghệ nén ảnh, video và các chuẩn...............................................................3
1.1. Nén ảnh..........................................................................................................................3
1.1.1. Chuẩn JPEG........................................................................................................................................3
1.1.2. Chuẩn JPEG-2000.............................................................................................................................12

1.2. Nén video...................................................................................................................... 14
1.2.1. Cấu trúc lấy mẫu và số hóa tín hiệu video:......................................................................................14
1.2.2. Chuẩn MPEG-1.................................................................................................................................16
1.2.3. So sanshh chuẩn ITU(H 261) và MPEG(MPEG-1).............................................................................17

Phần 2. Công nghệ nén âm thanh và các chuẩn..............................................................18
2.1. Các phương pháp mã hóa tiếng nói................................................................................18
2.1.1. Phương pháp mã hóa tín hiệu dạng sóng (waveform),...................................................................18
2.1.2. Phương pháp mã hóa nguồn:..........................................................................................................19
2.1.3. Phương pháp mã hóa lai:................................................................................................................19
2.1.4. Đánh giá chung về 3 phương pháp:................................................................................................20

2.2. Các yếu tố ảnh hưởng đến chất lượng âm thanh trong VoIP...........................................20
2.3. Nén âm thanh chuẩn MPEG...........................................................................................21
2.4. Phân tích ảnh hưởng CODEC đến chất lượng âm thanh mp3...........................................21
2.4.1. CODEC..............................................................................................................................................21
2.4.2. CODEC ảnh hưởng đến chất lượng âm thanh mp3 ........................................................................22

Phần 3. Các giao thức và kỹ thuật truyền dữ liệu đa phương tiện..................................22
3.1. Các giao thức.................................................................................................................22
3.1.1. RTP/RTCP.........................................................................................................................................22
3.1.2. Giao thức thiết lập phiên SIP (Session Initiation Protocol )............................................................24
3.1.3. Chồng giao thức H323.....................................................................................................................24


3.2. RTP/RTCP...................................................................................................................... 25
3.2.1. So sánh các điểm khác nhau cơ bản của truyền audio và truyền video dùng RTP/RTCP................25

3.3. Chồng giao thức H323:...................................................................................................26
3.3.1. Các thành phần của hệ thống H323:...............................................................................................27

1


3.3.2. Các giao thức trong bộ giao thức H323...........................................................................................29
3.3.3. Phương thức hoạt động..................................................................................................................30

3.4. SIP: Session Initiation Protocol : Giao thức thiết lập phiên..............................................32
3.4.1. Giới thiệu và SIP...............................................................................................................................32
3.4.2. Thông điệp SIP.................................................................................................................................34
3.4.3. Các loại bản tin SIP..........................................................................................................................36
3.4.4. Các thành phần chính trong SIP......................................................................................................39

3.5. SO SÁNH SIP VỚI H323...................................................................................................42
3.5.1. Giống nhau......................................................................................................................................43
3.5.2. Khác nhau........................................................................................................................................43

3.6. Kỹ thuật truyền dòng dữ liệu đa phương tiện.................................................................49
3.6.1. Phương pháp truyền file..................................................................................................................52
3.6.2. Dòng dữ liệu....................................................................................................................................52
3.6.3. Truyền lũy tiến.................................................................................................................................52
3.6.4. Phương pháp truyền trang..............................................................................................................52

Phần 4. Các ứng dụng.....................................................................................................52
4.1. So sánh công nghệ truyền thông thoại VoIP dựa trên tổng đài mềm Asterisk – SIP so với

công nghệ VoIP theo chuẩn khuyến nghị H323..................................................................................52
4.2. Tìm hiểu giải pháp H323 với Videoconferencing(hội nghị truyền hình):............................53
4.3. So sánh IPTV và Internet TV............................................................................................53

Phần 5. Asterisk..............................................................................................................54
5.1. Khái niệm...................................................................................................................... 54
5.2. Cấu trúc của tổng đài Asterisk........................................................................................55
5.3. Mô hình giải pháp công nghệ SIP-Asterisk và cách thức làm việc của SIP- Asterisk............57

Phần 6. Đề thi.................................................................................................................61
6.1. Đề 20:............................................................................................................................ 61
6.1.1. Câu 1:...............................................................................................................................................61

6.2. Đề 21:............................................................................................................................ 63
6.2.1. Câu 1:...............................................................................................................................................63
6.2.2. Câu 2:...............................................................................................................................................65

6.3. Đề 8.............................................................................................................................. 66
6.3.1. Câu 1................................................................................................................................................66

2


6.3.2. Câu 2:...............................................................................................................................................67

Phần 1.

Công nghệ nén ảnh, video và các chuẩn

Câu 1: Phát biểu định luật về độ chói,

Trả lời:
Định luật về độ chói: Độ chói của màu tổng
Câu 2: Phân biệt lượng tử hóa và mã hóa:
Lượng tử hóa: Chuyến tín hiệu rời rạc thành tín hiệu rời rạc theo thời gian và biên độ
Mã hóa: Chuyển tín hiệu số thành tín hiệu liên tục có thể nghe được
Câu 3: Trình bày tóm tắt quá trình nén ảnh JPEG. Tại sao cơ chế mã hóa của JPEG chiếm
ưu thế trong các ứng dụng thời gian thực?
Trả lời:

1.1.

Nén ảnh
1.1.1.

Chuẩn JPEG

(Joint Photographic Experts Group)
-

Chuẩn quốc tế về nén ảnh được phát triển phổ biến năm 1990

-

Phương pháp nén: Dựa trên phép biến đổi Cosine rời rạc (DCT)

-

Các quy định về chuẩn JPEG:
o Không gian màu YcrCb: Hệ màu YUV
o Các loại JPEC:

o Quy trình nén: Chia khối > thực hiện DCT cho mỗi khối > Sắp xếp ZigZag > Lượng
tử hóa > Mã hóa dữ liệu
o Cấu trúc số liệu:
o Định dạng file: .jpg

3


1.1.1.1. Ưu nhược điểm của phương pháp nén ảnh JPEG
1.1.1.1.1 Ưu điểm
Phương pháp nén ảnh theo chuẩn JPEG có thể đạt hệ số nén tới 80:1 hay lớn hơn,
nhưng phải chịu mất thông tin (ảnh sau khi giải nén khác với ảnh ban đầu), lượng thông tin mất
mát tăng dần theo hệ số nén. Tuy nhiên sự mất mát thông tin này không bị làm một cách cẩu
thả. JPEG tiến hành sửa đổi thông tin ảnh khi nén sao cho ảnh mới gần giống như ảnh cũ, khiến
phần đông mọi người không nhận thấy sự khác biệt. Và bạn hoàn toàn có thể quản lý sự mất
mát này bằng cách hạn chế hệ số nén. Như thế người dùng có thể cân nhắc giữa cái lợi của việc
tiết kiệm bộ nhớ và mức độ mất thông tin của ảnh, để chọn phương án thích hợp.
JPEG cho phép hiển thị các hình ảnh đầy đủ màu hơn (full-colour) cho định dạng di động
mà kích thước file lại nhỏ hơn. JPEG cũng được sử dụng rất nhiều trên Web. Lợi ích chính của
chúng là chúng có thể hiển thị các hình ảnh với màu chính xác true-colour (chúng có thể lên đến
16 triệu màu), điều đó cho phép chúng được sử dụng tốt nhất cho các hình ảnh chụp và hình ảnh
minh họa có số lượng màu lớn.
1.1.1.1.2 Nhược điểm
Nhược điểm chính của JPEG là chúng được nén bằng thuật toán lossy (mất dữ liệu). Điều
này có nghĩa rằng hình ảnh của bạn sẽ bị mất một số chitiết khi chuyển sang định dạng JPEG.
Đường bao giữa các khối màu có thể xuất hiện nhiều điểm mờ, và các vùng sẽ mất sự rõ nét, tỉ
số nén càng cao thì sự mất mát thông tin trên ảnh JPEG càng lớn. Nói một cách khác định dạng
JPEG thực hiện bảo quản tất cả thông tin màu trong hình ảnh đó, tuy nhiên với các hình ảnh
chất lượng màu cao high-colour như hình ảnh chụp thì điều này sẽ không hề hấn gì. Các ảnh
JPEG không thể làm trong suốt hoặc chuyển động-trong trường hợp này bạn sẽ sử dụng định

dạng GIF (hoặc định dạng PNG để tạo trong suốt).
1.1.1.2. Quá trình mã hóa và giải mã JPEG tuần tự
Các bước chủ yếu thực hiện nén ảnh:
- Xử lí màu chuyển về không gian màu YCbCr
- Ảnh đầu vào được phân chia thành các khối 8*8 để xử lí
- Thực hiện biến đổi Cosin (DCT) đối với mỗi khối và xử lí tuần tự các khối
- Lượng tử hóa : Dùng bảng lượng tử
- Quá trình mã hóa :
+ Thành phần DC: mã hóa dự đoán DPCM
+ Thành phần AC sắp xếp lại theo zig-zag và mã hóa RLC, mã hóa Huffman
- Ghép các khối tạo thành các dòng dữ liệu, dòng bit

4


Hình: Sơ đồ nén ảnh JPEG
1.1.1.2.1 Xử lý màu chuyền về không gian màu YcBCr
Bước tiền xử lý: Level Offset
- Để đơn giản việc thiết kế bộ mã hóa DCT
- Nếu dùng quá trình DCT cho các tín hiệu số thành phần Y, Cr,Cb thì các tín hiệu Cr,Cb
có biên độ cực đại ±128 ( giá trị nhị phân trong hệ thống lấy mẫu 8 bit), còn tín hiệu Y có một
khoảng cực đại từ 0 đến 255 giá trị nhị phân. Để đơn giản việc thiết kế bộ mã hóa DCT, tín hiệu
Y được dịch mức xuống dưới bằng cách trừ 128 từ từng giá trị pixel trong khối để có khoảng
cực đại của tín hiệu giống như đối với các tín hiệu CR và CB. Ở phần giải mã DCT, giá trị này
(128) được cộng vào các giá trị pixel chói. Giá trị hệ số DC của khối DCT có một khoảng từ –
1024 đến 1016. Đối với hệ số AC ( với u,v=1,2,...,7), C(u) và C(v)=1 và các giá trị cực đại của
nó nằm trong khoảng ±1020 theo phương trình FDCT. Khối 8×8 các giá trị của hệ số DCT đưa
ra 1 giá trị DC lớn (ví dụ =591), biểu diễn độ sáng trung bình của khối 8×8 và các giá trị rất nhỏ
của các thành phần tần số cao theo chiều ngang và chiều đứng.
Bước tiên xử lý: Chuyển đổi không gian màu

- Biến đổi ảnh từ không gian màu RGB sang YCbCr : tăng thành phần độ chói, giảm các
thành phần màu sắc (mắt người nhạy cảm với độ sáng hơn màu sắc ), sử dụng các công thức
biến đổi :
Y‘ = 0.299*R' + 0.587*G' + 0.114*B‘
U‘ = -0.147*R' - 0.289*G' + 0.436*B'
= 0.492*(B'- Y')
V‘ = 0.615*R' - 0.515*G' - 0.100*B'
= 0.877*(R'- Y')
R' = Y' + 1.140*V'

5


G' = Y' - 0.394*U' - 0.581*V'
B' = Y' + 2.032*U'

1.1.1.2.2 Ảnh đầu vào được phân thành các khối 8x8 để xử lý
Mục đích : Giảm thời gian tính toán cũng như làm tăng khả năng chính xác khi tính
toán. Do các điểm ảnh lân cân có độ tương quan cao, do đó phép biến đổi DCT cho từng
khối nhỏ sẽ tập trung năng lượng vào một số ít các hệ biến đổi. Việc loại bỏ một số năng
lượng thấp trong các khối chỉ tạo ra mất mát thông tin cục bộ giúp nâng cao chất lượng
ảnh.
1.1.1.2.3 Biến đổi DCT
Vai trò : DCT (Discrete Cosine Transform) là phép biến đổi Cosin rời rạc để chuyển tín hiệu
từ miền không gian sang miền tần số.
Đặc điểm của phép biến đổi này là tín hiệu ảnh trong miền không gian chuyển sang miền tần số
thì các thành phần DC và thành phần AC mang hầu hết các thông tin chứa trong ảnh gốc. Trong
đó DC là thành phần quan trọng nhất mang độ chói trung bình của ảnh, các thành phần AC chứa
các thông tin chi tiết của ảnh. Sau đó khi đi qua tầng lượng tử hóa, các hệ số ít quan trọng sẽ bị
loại bỏ và chỉ giữ lại một số hệ số đầu tiên gọi là hệ số DCT. Vai trò chủ yếu của phương pháp

DCT là giảm độ dư thừa dữ liệu trong pixcel ở miền tần số cao ( bởi vì bất kì một giá trị pixcel
nào đó cũng có thể dự đoán từ các giá trị pixcel lân cân của nó nên thông tin từ các pixcel tương
đối nhỏ). Không những vậy, sau khi biến đổi DCT thì hàm giải tương quan giảm đi một các
đáng kể. Chính vì vậy mà hiệu suất nén đạt được tỉ số nén cao.
Mục đích:
- Chuyển từ miền không gian sang miền tần số=> tín hiệu sẽ tập trung sang miền tần số thấp.
- DCT làm giảm độ tương quan không gian block. Điều đó cho phép biểu diễn thích hợp ở miền
DCT do các hệ số DCT có xu hướng có phần dư thừa ít hơn. Điều này có nghĩa là DCT gói một
phần lớn năng lượng tín hiệu vào các thành phần có thành phần tần số tương ứng để lưu trữa
hoặc truyền dẫn tạo ) hoặc các giá trị thấp đối với các thành phần tần số cao, nhờ đặc tính của
mắt người, các hệ số DCT có thể mã hóa phù hợp. Chỉ các hệ số DCT quan trọng nhất mới
được mã hóa và truyền đi. DCT thuận kết hợp với video đầu vào được mãi hóa bằng các mẫu
dài 8 bit. Nếu hệ số được lượng tử hóa bằng 11 bit thì nén sẽ tổn hao. Sau khi thực hiện DCT
năng lượng thấp sẽ tập trung chủ yếu ở miền tần số thấp.
Biến đổi DCT một chiều

6


- Thuận:

- Ngược:

Trong đó :
+ X(k) là chuỗi kết quả
+ x(m) là giá trị của mẫu m
+ k là chỉ số của hệ số khai triển
+ m chỉ số của mẫu
+ N- số mẫu có trong tín hiệu


Biến đổi DCT 2 chiều
- Để tách tương quan nội dung ảnh cao hơn, mã hóa DCT 2 chiều được dùng cho các khối 8*8
giá trị điểm chói. Quá trình biến đổi DCT tiến FDCT (forward DCT) dùng trong tiêu chuẩn
JPEG được định nghĩa như sau:
- Biến đổi DCT là một trong những công đoạn quan trọng trong JPEG. Nhiệm vụ của nó là tập
trung năng lượng vào một số các giá trị để giải tương quan tất nhất nhằm nâng cao tỉ số nén.

Trong đó :
+ f(i, k): các mẫu gốc trong khối 8*8
+ F(u,v) : các hệ số của khối DCT 8*8

7


- Phương trình trên là 1 liên kết của 2 phương trình DCT 1 chiều, một cho tần số ngang và một
cho tần số đứng. Giá trị trung bình của block 8*8 chính là hệ số thứ nhất ( khi u,v =0)

- Phương trình này cộng tất cả các giá trị pixcel trong khối 8*8 và chia kết quả cho 8. Kết quả
phép tính bằng 8 lần giá trị pixcel trung bình trong khối. Do đó hệ số thứ nhất được gọi là hệ số
DC. Các hệ số khác, dưới giá trị thành phần một chiều biểu diễn các tần số cao hơn theo chiều
dọc.
- Các hệ số ở về phía bên phải của thành phần một chiều biểu thị các tần số cao hơn theo
chiều ngang. Hệ số trên cùng ở cận phải (0,7) sẽ đặc trưng cho tín hiệu có tần số cao nhất theo
phương nằm ngang của ma trận 8×8, và hệ số hàng cuối bên trái (7,0) sẽ đặc trưng cho tín hiệu
có tần số cao nhất theo phương thẳng đứng. Còn các tần số khác ứng với những phối hợp khác
nhau của các tần số theo chiều dọc và chiều ngang.

8



Hình: Các bước của quá trình biến đổi DCT với 1 khối:

1.1.1.2.4 Lượng tử hóa: Dùng bảng lượng tử
Mục đích:
- Làm giảm số lượng bit cần thiết để lưu trữ các hệ số => quá trình xử lí có mất mát thông
tin.
- JPEG sử dụng phương pháp lượng tử không đồng đều, các hệ số có tần số thấp được chia
cho các giá trị nhỏ, các hệ số tương ứng với tần số cáo được chia cho các giá trị lớn hơn, kết quả
sẽ được làm tròn ( bỏ đi các phần thập phân).

- Bảng lượng tử Q(u,v) thông dụng:

Ví dụ:
- Kết quả DCT(đầu vào):

- Kết quả thu được sau quá trình lượng tử hóa:

9


1.1.1.2.5 Quá trình mã hóa
Quét zig-zag: tạo ra đầu vào gồm nhiều số giống nhau. Thông thường các hệ số tương ứng tần
số cao phần lớn giá trị bằng 0 dẫn đến tạo nhiều dãy hệ số 0 liên tiếp.
Ví dụ:

Hình: Quét zig-zag
Mã hóa : Đầu vào của khối nén gồm 2 thành phần là thành phần hệ số một chiều (DC) và thành
phần hệ số xoay chiều (AC).
- Thành phần DC:
+ Sau quá trình lượng tứ hóa, hệ số DC được xem như tách riêng ra khỏi 63 hệ số AC.

+ hệ số DC là thước đo giá trị trung bình của 64 mẫu (image sample) => vì có sự tương
quan mạnh giữa các hệ số DC của các khối 8x8 liền kề, hệ số DC được mã hóa dựa trên sự khác
nhau giữa hệ số DC của khối liền trước theo thứ tự mã hóa
+ Các hệ số DC là giá trị trung bình của các khối ảnh 8x8. Độ chói trung bình của các block
ảnh gần nhau thường ít biến đổi, do đó trong chuẩn nén JPEG, các hệ số DC được mã hóa theo

10


phương pháp DPCM. Để tăng hiệu suất nén, kết quả nhận được sau đó được mã hóa tiếp bằng
mã Huffman

Hình : Quét zig-zag

Hình: Mã hóa thành phần DC
- Thành phần AC: sắp xếp lại theo zig-zag và mã hóa RLC, mã hóa Huffman.

Hình: Mã hóa thành phần AC

1.1.1.2.6 Ghép các khối tạo thành các dòng dữ liệu, dòng bit
Sau khi mã hóa, ghép các khối tạo thành dòng bit, dòng dữ liệu. Sau đó chuyển các dữ
liệu đã mã hóa ra tệp để lưu trữ.

11


1.1.2.

Chuẩn JPEG-2000


1.1.2.1. Đặc điểm JPEG 2000
-

-

-

-

-

-

-

-

Nén với tỷ lệ bit thấp: tiêu chuẩn JPEG 2000 đưa ra khả năng nén với tốc độ bit thấp hơn so
với tiêu chuẩn nén hiện tại (ví dụ dưới 0.25bpp cho ảnh xám chi tiết cao). Ý nghĩa của đặc
điểm này là đạt được tốc độ bit thấp mà không làm méo ảnh, hiệu quả tỷ số nén tăng 30% so
với JPEG.
Nén tổn hao và nén không tổn hao: JPEG 2000 có khả năng nén không tổn hao và nén tổn
hao. Ví dụ ứng dụng sử dụng đặc tính nén không tổn hao: ảnh y tế , các ứng dụng mạng. Nó
cũng yêu cầu tiêu chuẩn có đặc tính tạo ra dòng bit nhúng và cho phép cải thiện chất lượng
ảnh.
Tăng độ phân giải và độ chính xác pixel: tăng cường độ phân giải cho phép ảnh có thể khôi
phục với độ chính xác pixel tăng hoặc độ phân giải không gian cần thiết cho nhiều ứng
dụng. Đặc tính này cho phép khôi phục ảnh với các độ phân giải khác nhau và độ chính xác
pixel theo yêu cầu và đòi hỏi, cho các thiết bị đầu cuối khác nhau như World Wide Web,
ảnh lưu giữ và in ấn.

Mã hóa vùng quan tâm ROI: thông thường trong một ảnh người ta chỉ quan tâm đến một số
vùng của ảnh. Đặc điểm này cho phép người sử dụng xác định chính xác vùng quan tâm
trong ảnh để mã hóa và truyền đi với chất lượng tốt hơn và ít méo hơn so với các vùng còn
lại. Phương pháp này có 2 phương pháp thực hiện là MAXSHIFT và Scale.
Xử lý và truy cập ngẫu nhiên: đặc điểm này cho phép người sử dụng xác định vùng quan
tâm của ảnh để truy nhập ngẫu nhiên hoặc giải nén ít méo hơn so với các vùng ảnh còn lại.
Xử lý dòng mã ngẫu nhiên này cũng cho phép ta quay ảnh, dịch ảnh, lọc ảnh, khai triển các
đặc điểm và tỷ lệ ảnh.
Giảm khả năng lỗi bit: giảm khả năng lỗi bit trong khi thiết kế dòng mã hóa. Một trong
những ứng dụng là truyền kênh viễn thông không dây. Tỷ lệ của dòng mã hóa quan trọng
hơn các dòng mã khác trong xác định chất lượng ảnh giải mã. Dòng bit thiết kế đúng quy
tắc có thể trợ giúp hệ thống chỉnh sửa lỗi đến sau trong lỗi giải mã.
Kiến trúc mở: đặc điểm này cho kiến trúc mở để tối ưu hệ thống cho các ứng dụng và loại
ảnh khác nhau. Với đặc tính này, giải mã chỉ thực hiện bộ công cụ lõi và phân tích để hiểu
dòng mã. Nếu cần thiết, không xác định được công cụ có thể yêu cầu từ bộ giải mã để bên
nguồn gửi sang.
Miêu tả nội dung: ảnh lưu giữ, index và tìm kiếm đặc điểm quan trọng trong xử lý ảnh.
Miêu tả nội dung của ảnh là một thành phần của hệ thống nén ảnh (ví dụ thông tin dữ liệu
phụ metadata).
Thông tin kênh không gian (trong suốt): thông tin kênh không gian như mặt phẳng alpha và
mặt phẳng trong suốt là hữu ích cho truyền thông tin cho xử lý ảnh như hiển thị, in ấn và
dựng.
Bảo mật ảnh: bảo vệ ảnh số có nhận được nhờ watermarking, label, tem và mã mật hóa
(Encryption). Nhãn được thực hiện trong SPIFF và phải dễ truyền đi truyền lại tới file ảnh
JPEG 2000.
Nén hai mức và nén nhiều mức: đưa ra tiêu chuẩn mã hóa có khả năng mã hóa cả ảnh hai
mức, nhiều mức. Nếu thực hiện, tiêu chuẩn này cố gắng đạt được với nguồn hệ thống tương
tự nhau. Hệ thống này phải nén và giải nén với dải thông thay đổi (ví dụ 1 bit tới 16 bit) cho
mỗi thành phần màu. Ví dụ sử dụng đặc tính này là: ảnh y học với một lớp chú thích, ảnh đồ


12


họa và ảnh máy tính tạo ra với nhị phân và gần vùng nhị phân, mặt phẳng alpha và trong
suốt.
1.1.2.2. Tính năng JPEG 2000
JPEG 2000 có nhiều chức năng đặc biệt hơn mọi chuẩn nén ảnh tĩnh hiện tại. Gồm có:
-

Cho chất lượng ảnh tốt nhất khi áp dụng nén ảnh tĩnh có tổn thất.
Sử dụng được với truyền dẫn hiển thị lũy tiến về chất lượng, độ phân giải, các thành phần
màu và có tính định vị về không gian.
Sử dụng cùng một cơ chế nén ảnh cho cả hai dạng thức nén.
Truy nhập và giải nén tại mọi thời điểm trong khi nhận dữ liệu.
Giải nén từng vùng trong ảnh mà không cần giải nén toàn bộ ảnh.
Có khả năng mã hóa ảnh với tỉ lệ nén theo từng vùng khác nhau.
Nén một lần nhưng lại có thể giải nén với nhiều cấp chất lượng tùy theo yêu cầu người sử
dụng.
Hiện tại ISO và ủy ban JPEG đã đưa ra khuyến nghị thay thế JPEG bằng JPEG 2000.

1.1.2.3. Cách nén ảnh JPEC-200

Quá trình nén ảnh gồm có 5 bước cơ bản:
- Tiền xử lý
- Biến đổi Wavelet rời rạc 2 chiều
- Lượng tử hóa
- Mã hóa entropy
- Tổ chức dòng bit
1.1.2.4. So sánh ảnh JPEG-2000 với ảnh JPEG
 Một tính năng quan trọng và là ưu điểm rõ nét nhất của JPEG 2000 so với JPEG là JPEG

2000 đưa ra cả hai kĩ thuật nén ảnh có tổn thất và không tổn thất theo cùng một cơ chế mã
hóa.
Vì JPEG2000 sử dụng biến đổi wavelet 5/3 là biến đổi thuận nghịch trong bước DWT => có
tính mềm dẻo. Tuy nhiên với JPEG thì cơ chế mã hóa với hai dạng này là khác nhau và rất
khó để sử dụng cả hai dạng này cùng lúc cho cùng một ứng dụng.
 Với cùng một tỉ lệ nén và một loại ảnh thì ảnh được nén bởi JPEG 2000 luôn có chất lượng
tốt hơn so với JPEG

13


 Tính năng ưu việt thứ 2 của JPEG 2000 so với JPEG là trong dạng thức nén có tổn thất
thông tin, JPEG 2000 có thể đưa ra tỉ lệ nén cao hơn nhiều so với JPEG,lên tới 200:1. Sau
đây là bảng so sánh tham số PSNR, cho thấy JPEG2000 nén ảnh tốt hơn JPEG. Tốc độ dòng
bit thấp, hiệu quả tỷ số nén tăng 30% so với ảnh JPEG nén dựa trên DCT.
 Tính năng ưu việt thứ 3 của JPEG 2000 so với JPEG là chuẩn nén ảnh này có thể hiển thị
được các ảnh với độ phân giải và kích thước khác nhau từ cùng một ảnh nén. Với JPEG thì
điều này là không thể thực hiện. Tính năng này chính là một lợi thế đặc biệt quan trọng của
JPEG 2000, trong khi JPEG cũng như các chuẩn nén ảnh tĩnh trước đây phải nén nhiều lần
để thu được chất lượng với từng lần nén khác nhau, thì với JPEG 2000 ta chỉ cần nén một
lần còn chất lượng ảnh sẽ được quyết định tùy theo người sử dụng trong quá trình giải nén
ảnh theo JPEG2000.
 Tính năng ưu việt thứ 3 của JPEG 2000 so với JPEG là chuẩn nén ảnh này có thể hiển thị
được các ảnh với độ phân giải và kích thước khác nhau từ cùng một ảnh nén. Với JPEG thì
điều này là không thể thực hiện. Tính năng này chính là một lợi thế đặc biệt quan trọng của
JPEG 2000, trong khi JPEG cũng như các chuẩn nén ảnh tĩnh trước đây phải nén nhiều lần
để thu được chất lượng với từng lần nén khác nhau, thì với JPEG 2000 ta chỉ cần nén một
lần còn chất lượng ảnh sẽ được quyết định tùy theo người sử dụng trong quá trình giải nén
ảnh theo JPEG2000.
 Một tính năng nổi bật nữa của JPEG 2000 là tính năng mã hóa ảnh theo vùng (ROI – Region

of Interest). Chất lượng của vùng ảnh được lựa chọn tăng cao hơn khi vùng đó được áp
dụng phương pháp nén ảnh ROI.
 JPEG 2000 còn một tính năng đặc biệt ưu việt hơn JPEG, là khả năng vượt trội trong khôi
phục lỗi. Đó chính là khi một ảnh được truyền trên mạng viễn thông thì thông tin có thể bị
nhiễu, với các chuẩn nén ảnh như JPEG thì nhiễu này sẽ được thu vào và hiển thị, tuy
nhiên với JPEG 2000, do đặc trưng của phép mã hóa có thể chống lỗi, JPEG 2000 có thể
giảm thiểu các lỗi này với mức hầu như không có.


1.2.

Nén video
1.2.1.

Cấu trúc lấy mẫu và số hóa tín hiệu video:

4:2:2
Gồm 8 khối: 4 khối Y, 2 khối Cb và 2 khối Cr

14


Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín
hiệu video.
Tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng nửa tần số lấy mẫu tín
hiệu chói .

Cấu trúc lấy mẫu theo chuẩn 4:2:2

4:2:0

Gồm 6 khối: 4 khối Y, một khối Cb, một khối Cr

Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín
hiệu video. Cách một điểm lấy mẫu một tín hiệu màu. Tại dòng lẻ chỉ lấy mẫu tín hiệu màu
CR, tại dòng chẵn lấy mẫu tín hiệu CB. Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, Thì
tần số lấy mẫu tín hiệu màu sẽ là fD/2.

15


Cấu trúc lấy mẫu theo chuẩn 4:2:0

4:1:1
Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín
hiệu video.
Tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng một phần tư tần số lấy
mẫu tín hiệu chói
Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, thì tần số lấy mẫu tín hiệu màu CR
và CB sẽ là fD/4.
d
Cấu trúc lấy mẫu theo chuẩn 4:1:1
Sơ đồ nguyên lý phương pháp mã hóa dự đoán DPCM và vai trò của bộ dự đoán

1.2.2.

Chuẩn MPEG-1

MPEG1 - Video được định nghĩa trong ISO/IEC 11172-2. Thiết kế này chịu ảnh hưởng rất lớn bởi
H261.
Nén video dựa trên cảm nhận tri giác của con người. Xóa bỏ tần số, các vùng của ảnh mà con người

không thể cảm nhận được. Dựa trên phương pháp đánh giá theo không gian và đánh giá theo thời
gian. Kỹ thuật này giúp MPEG1 tăng chất lượng nén hình ảnh lên.
2.1) Màu sắc
Sau khi nén xong thì màu sắc MPEG1 chuyển sang Y'CbCr. Trong đó thành phần Y được chú ý: vì
mắt người nhạy với độ sáng hơn là màu sáng thành phần ( Cb, Cr ).
2.2) Độ phân giải
- MPEG1 co thể hỗ trợ độ phân giải. 4095*4095.
- MPEG1 sử dụng các độ phân giải thấp hơn 352x240, 352x288, 320x240.

16


- Ngoài ra MPEG1 chọn chọn độ phân giải thấp với một dòng bít thấp hơn 1.5Mb/s. Đây là thành
phần Low Level trong profile trong MPEG2. Đây là các thông số tối thiểu để bộ giải mã có thể sử
lý.
2.3) Frame
MPEG1 có các frame phục vụ mục đích khác nhau. Mỗi frame sẽ có cách nén khác nhau, việc phân
ra các frame hình như vậy làm giảm đáng kể kích thước của video. Các frame trong MPEG1 bao
gồm:
- I-frame: Viết tăt của Intra- frame, là frame đầu tiên của mã hóa video được mã hóa JPEG. Đặc
điểm của I-fame: là nén nhanh, nhưng kích thước tập tin lớn.
Chiều dài giữa các I-frame ( thường từ 15-18 ) là các frame P,b kết hợp. Và được gọi là nhóm hình
ảnh. GOP
- P-frame: ( Predection frame) frame được sự đoán tiếp theo. P frame cải thiện nén bằng cách khai
thác thời gian dư thừa của một video. P frame được lưu trữ sự khác nhau của các frame ngay trước
nó. Sự khác nhau của giữa P-frame và một frame trước nó được tính toán trong mỗi vector chuyển
động trên mỗi macroblock của khung hình. Dữ liệu sẽ được nhúng vào P frame.
- B-frame: Frame được dự đoán nội suy 2 chiều. Một cách nào đó thì frame này được hiểu giống
với P-frame. Nhưng nó cần 2 frame trước và sau để so sánh. Tuy nhiên trong quá trình giải mã cần
bộ đểm lớn để lưu trữ các frame trước và sau nó dẫn đến côngg kềnh và độ trễ thời gian. Ngoài ra

thì một số phần cứng không hỗ trợ.
- D-frame: là một frame không có trong chuẩn của MPEG. tuy nhiên D-frame được mã hóa với chất
lượng thấp được dùng để xem trước nhanh chóng video và tìm kiếm. sử dụng trong các video cỡ
lớn. Tuy nhiên vì nhiều lý do mà D-frame đã không được sử dụng.
1.2.3.

So sanshh chuẩn ITU(H 261) và MPEG(MPEG-1)

1.2.3.1. Giống nhau
Các phương pháp nén theo chuẩn MPEG và H.26x có nhiều điểm giống nhau. Có thể kể ra một
số điểm giống nhau cơ bản như:
-

-

Sử dụng DCT để giảm thiểu độ dư thừa intraframe.
Nén interframe dựa trên kỹ thuật ước lượng chuyển động và kỹ thuật bù chuyển động.
Do mắt người có thể phân biệt sự thay đổi về độ sáng của ảnh (brightness) tốt hơn so với sự
thay đổi về màu (chromaticity) nên hầu hết các sơ đồ nén theo chuẩn MPEG và H26X
đều tiến hành chia bức ảnh thành một thành phần về độ sáng Y (luminance) và hai thành
phần về độ màu UV (chrominance).
Các tín hiệu video thành phần được lấy mẫu (samples) và số hoá (digitised) để tạo nên các
điểm ảnh rời rạc theo tỷ lệ 4:2:2, 4:2:0 và 4:1:1.
Các sơ đồ nén theo MPEG, H26X đều dùng kỹ thuật subsampling và lượng tử hoá trước khi
mã hoá nhằm giảm kích thước bức ảnh đầu vào theo cả chiều ngang và chiều dọc.
Đều tiến hành chia khung hình thành các khối điểm ảnh để việc xử lý các khung hình có thể
được thực hiện ở cấp độ block.

17



-

-

-

Giảm thời gian phụ thuộc giữa các khối trong các khung hình kế tiếp. Điều này thực hiện
bằng các kỹ thuật ước lương chuyển động và bù chuyển động. Đối với bất kì khối nào, việc
tìm kiếm được thực hiện trong các khung mã hóa trước đó để xác định vector chuyển động
mà sau đó được sử dụng bởi bộ mã hóa và giải mã để dự đoán khối chủ đề.
Giảm độ dư thừa không gian trong các khung hình video bằng cách mã hóa một số khối gốc
thông qua việc dự báo về không gian, lượng tử hóa, các phép biến đổi và mã hóa dữ liệu
ngẫu nhiên, mã hóa độ dài thay đổi.
Giảm không gian dư thừa còn lại tồn tại trong các khung hình video bằng cách mã hóa các
khối còn lại… tức là sự sai khác giữa các khối tương ứng ban đầu và các khối dự đoán, một
lần nữa thông qua biến đổi, lượng tử hóa và mã hóa dữ liệu ngẫu nhiên.

1.2.3.2. Khác nhau
1. Cấu trúc phân lớp dữ liệu
Chuẩn nén H.261 tổ chức dữ liệu theo dòng các frame, với hai loại frame là: frame I và frame P,
còn MPEG-1 sử dụng cả frame I, P, B.
Trong mỗi frame của chuẩn H.261, dữ liệu được tổ chức thành các GOB (Group Of Block) có
kích thước giống nhau theo từng chuẩn định dạng. Mỗi frame của chuẩn MPEG-1 được tổ chức
thành các GOP (Group Of Picture) có kích thước có thể không giống nhau.
2 Định dạng video
-

H.261 sử dụng 2 chuẩn định dạng CIF (352x288 pixels) và QCIF (176x144 pixels).
MPEG-1 sử dụng các chuẩn định dạng CIF, SIF (Source Input Format) và có thể thiết lập độ

phân giải lên đến 4095x4095 pixels.
3. Quá trình lượng tử hóa

Chuẩn H.261 sử dụng một bảng lượng tử hóa cho tất cả các block. Nhưng chuẩn MPEG-1 sử
dụng hai bảng lượng tử hóa khác nhau cho các block của intraframe và các block của interframe.
4. Độ chính xác của kỹ thuật bù chuyển động
Độ chính xác của kỹ thuật bù chuyển động trong chuẩn nén video MPEG-1 lên đến ½ pixel, còn
chuẩn nén H.261 là 1 pixel.

Phần 2.

Công nghệ nén âm thanh và các chuẩn

2.1. Các phương pháp mã hóa tiếng nói
Mã hóa tiếng nói gồm 3 phương pháp chính:
2.1.1.

Phương pháp mã hóa tín hiệu dạng sóng (waveform),
+ Mã hóa dạng sóng là kỹ thuật duy trì hình dạng ban đầu cả các sóng tín hiệu.

Nguyên lý của mã hóa dạng sóng : Tại phía phát sẽ nhận tín hiệu tiếng nói tương tụ
liên tục và mã hóa thành tín hiệu số. Tại phía thu, bộ giải mã đảm nhận nhiệm vụ ngược lại

18


để khôi phục tiếng nói, khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi phục sẽ
giống vơi tiếng nói gốc
+ Bao gồm 2 loại chính:
Mã hóa trong miền thời gian: bao gồm các chuẩn từ G.710 đến G.719

o Mã hóa điều xung mã Pulse Code Modulation – PCM – lương tử hóa đã được chuẩn
hóa với chuẩn G.711
o Mã hóa dự đoán – điều xung mã sai phân Differential Pulse Code Modulation DPCM.


Mã hóa dự đoán thích nghi – điều xung mã sai phân thích nghi Adaptive
Differential Pulse Code Modulation - ADPCM với chuẩn G.726.

Mã hóa trong miền tần số:
o Mã hóa các dải tần con Subband Coding – SBC với chuẩn G.722
o Mã hóa dựa trên phép biến đổi Transform Coding.
+ Ưu điểm là có khả năng cung cấp thoại tốt như tiếng nói gốc nhưng chỉ hiệu quả ở
tốc độ bit cao
2.1.2.

Phương pháp mã hóa nguồn:

o Nguyên lý mã hóa nguồn dựa trên bộ mô phỏng hệ thống phát âm con người
Vocoder, tạo ra âm thanh tiếng nói từ tập các tham số. Vocoder làm việc với 2 kiểu
nguồn kích thích là nguồn xung tạo ra âm hữu thanh và nguồn nhiễu trắng tạo ra âm
vô thanh. Từ đó, nó mô phỏng hệ thống phát âm bằng hệ thống lọc dự đoán tuyến
tính LPC được kích thích bằng hai trạng thái nguồn.
o Ưu điểm của phương pháp này là đạt được tốc độ dòng bit thấp, phân tích được các
tham số nguồn kích thích, có thể sửa đổi nội dung tiếng nói theo ý muốn. Tuy nhiên,
nhược điểm của nó là tiếng nói nhận được là tiếng nói tổng hợp không phải là giọng
nói con người.
2.1.3.

Phương pháp mã hóa lai:


o Mã hóa lai dùng để lấp khoảng cách ranh giới giữa mã hóa dạng sóng và mã hóa
nguồn vì mã hóa dạng sóng có khả năng cung cấp thoại tốt nhưng bị giới hạn về sử
dụng tốc độ thấp hơn còn mã hóa nguồn có thể hoạt động ở tốc độ tấp nhưng không
thể tạo ra âm thanh trung thực ở bất kì tốc độ nào
o Mã hóa lai phổ biến là mã hóa dựa trên kết hợp phân tích bằng cách tổng hợp
Analysis-by-Synthesis AbS:
+ Phương pháp này sử dụng mô hình dự đoán tuyến tính ( giống LPC) tạo ra
âm thanh tiếng nói nhờ tập các tham số nhưng không ứng dụng mô hình ở trạng thái
đơn giản ( hữu thanh- vô thanh).
+ Mô hình này cố gắng giảm tối đa độ sai lệch với dạng sóng của tín hiệu
vào bằng cách tìm kiếm tín hiệu kích thích ký tưởng
+ Thuật toán tìm ra sóng kích thích này quyết định độ phức tạp của bộ mã
hóa.

19


o Các loại mã hóa lai khác nhau theo kỹ thuật phân tích tạo ra tín hiệu kích thích
CELP, RPE-LTP, MPE…
2.1.4.




Đánh giá chung về 3 phương pháp:

Mã hóa dạng sóng nói chung không cho phép đạt chất lượng tiếng nói tốt ở tốc độ bit dưới
16Kbps. Nhưng tiếng nói nhận được khá giống với tiếng nói ban đầu
Mã hóa Vocoder có thể đạt được tốc độ bit rất thấp nhưng tiếng nói nhận được là tiếng nói
tổng hợp không giống với tiếng nói ban đầu.

Mã hóa lai cải thiện được các nhược điểm của mã hóa sóng và mã hóa nguồn, nhưng tương
đối phức tạp thường được dùng theo chuẩn GSM.

2.2. Các yếu tố ảnh hưởng đến chất lượng âm thanh trong VoIP
- Băng thông: Là tốc độ truyền thông tin, băng thông càng lớn càng tốt. Mạng VoIP thực
hiện việc nén thoại để giảm băng thông so với chuyển mạch kênh truyền thống. Chuẩn G.729 giải
quyết được vấn đề là giảm băng thông xuống mức cho phép mà vẫn đảm bảo chất lượng thoại
- Trễ: Có thể chia trễ trong mạng VoIP thành 3 loại trễ: trễ xử lý, trễ mạng và trễ bộ đệm.
Trễ xử lý bao gồm trễ mã hoá & trễ đóng gói. Bộ xử lý thuật toán mã hóa dự đoán tuyến tính mã
đại số cấu trúc thích hợp (CS-ACELP) có độ trễ thấp với kích thước khung là 10ms, xem trước
5ms, độ trễ thuật toán tổng cộng là 15ms.
Trễ mạng hay là trễ truyền dẫn phụ thuộc vào khoảng cách, dung lượng và trạng thái của
liên kết trong mạng. Trễ mạng thường thay đổi và khó biết trước, phụ thuộc vào nhiều phần tử trên
mạng, khó xử lý.
Trễ bộ đệm là trễ sinh ra tại bộ đệm ở phía thu, khi các gói tranh chấp nhau để giành quyền
được đọc ra trước. Điều này được khắc phục bằng việc nâng cấp năng lực bộ đệm.

20


2.3. Nén âm thanh chuẩn MPEG
MPEG (The Moving Picture Experts Group Phase) là chuẩn mã hóa dữ liệu đa phương tiện,
bao gồm chuẩn mã hóa hình ảnh, âm thanh, dữ liệu truyền hình, truyền hình HD…
Tiêu chuẩn MPEG-1 ( ISO/IEC 11172) là định dạng âm thanh, phim ảnh của nhóm chuyên
gia ảnh động là một tiêu chuẩn cho định dạng âm thanh, phim ảnh của tổ chức ISO/IEC phát triển
nhằm hỗ trợ các thiết bị trình chiếu âm thanh, phim ảnh. Mã hóa ảnh động và âm thanh kết hợp cho
phương tiện lưu trữ thông tin số 1,5Mbit/s, bao gồm 05 phần:
-

ISO/IEC-11172-1- Hệ thống (lưu trữ và đồng bộ\ âm thanh, phim ảnh và các dữ liệu khác)

ISO/IEC-11172-2 - Phim ảnh (chứa nội dung của phim ảnh nén)
ISO/IEC-11172-3 - Âm thanh (chứa nội dụng của âm thanh nén)
ISO/IEC-11172-4 - Kiểm thử khả năng tương thích (kiểm tra việc triển khai tiêu chuẩn)
ISO/IEC-11172-5 - Phần mềm tham chiếu (phần mềm mẫu thực hiện việc mã hóa và giải mã
như thế nào)
MPEG-1 phần Âm thanh (ISO/IEC-11172-3) được chia làm 03 lớp:

-

Lớp I có tỉ lệ bitrate từ 32 – 448 kbit/s (32, 64, 96… 416, 448 kbit/s),

-

Lớp II có tỉ lệ bitrate từ 32-384 kbit/s (32, 48, 56, 64, 80…256, 320, 384 kbit/s),

-

Lớp III có tỉ lệ bitrate từ 32-320 kbit/s (32, 40, 48, 56, 64, 80…224, 256, 320 kbit/s). Việc
mã hóa/giải mã sẽ phức tạp hơn trong lớp cao hơn và sử dụng hiệu quả ở tỉ lệ bitrate thấp
hơn.
MPEG-1 phần Âm thanh Lớp I có định dạng tệp tin là (.mp1) và định dạng tệp tin của Lớp

II là (.mp2), chủ yếu được sử dụng trong phát sóng truyền thanh, truyền hình. MPEG-I phần Âm
thanh Lớp III, thường được gọi là MP3, có định dạng tệp tin là (.mp3), là định dạng âm thanh phổ
biến trong ngành công nghiệp âm nhạc, giải trí trên Internet do kích thước nhỏ gọn và chất lượng
âm thanh của tệp tin.mp3
2.4. Phân tích ảnh hưởng CODEC đến chất lượng âm thanh mp3.
2.4.1.

CODEC.

Codec là từ được kết hợp từ Coder-Decoder (hoặc là

CompressorDecompressor),một chương trình phần mềm cho phép mã hóa và giải mã các luồng dữ
liệu số hoặc là tín hiệu .Ta thấy có 2 tham số ảnh hưởng đến chất lượng âm thanh khi mã hóa mp3
là bitrate và tần số lấy mẫu .

21


2.4.2.

CODEC ảnh hưởng đến chất lượng âm thanh mp3 .
Khi bitrate giảm và tần số lấy mẫu không đổi sẽ làm cho dung lượng file giảm theo ,

thành phần tần số cao thu được sẽ ít hơn , thành phần tần số thấp sẽ thu được nhiều hơn. Khi đấy
âm thanh sẽ nghe trầm hơn , và khó nghe do chất lượng âm thanh giảm . Không có thanh phần tần
số cao sẽ làm không phân biệt được 1 số âm sắc .
Khi tần số lấy mẫu giảm và bitrate không đổi thì dung lượng file cũng sẽ nhỏ hơn ,
thành phần tần số cao giảm mạnh , các thành phần tần số thấp sẽ thu được nhiều hơn . Chất lượng
âm thanh giảm mạnh là do chu kì lấy mẫu lớn , chênh lệch biên độ lấy mẫu thu được sẽ nhận sẽ lớn
hơn. Nếu đem nguyên dạng đi mã hóa thì âm thanh của chúng ta thu được sẽ rất khó nghe . Do
thành phần tần số cao lúc này đóng vai trò như là tạp âm . Bắt buộc chúng ta phải lọc các thành
phần tần số cao. Lúc này , chúng ta sẽ thu được các thành phần tần số thấp hơn . Khi đó số mức để
mã hóa trong huffman sẽ ít đi rất nhiều . Nên dung lượng file sẽ giảm đi nhanh chóng .

Phần 3.

Các giao thức và kỹ thuật truyền dữ liệu đa phương tiện

3.1. Các giao thức

3.1.1.

RTP/RTCP

Real-time Transport Protocol (RTP) là giao thức thực hiện vận chuyển các ứng dụng dữ liệu
thời gian thực như thoại và hội nghị truyền hình. Các ứng dụng này thường mang các định dạng của
âm thanh (PCM, GSM và MP3 và các định dạng độc quyền khác) và định dạng của video (MPEG,
H.263 và các định dạng video độc quyền khác). RTP được định nghĩa trong RFC 1889, RFC 3550.
RTP được sử dụng kết hợp với RTCP (Realtime Transport Control Protocol). Trong khi
RTP được dùng để truyền dòng dữ liệu đa phương tiện truyền thông (âm thanh và video) thì RTCP
được dùng để giám sát QoS và thu thập các thông tin về những người tham gia phiên truyền RTP
đang thực hiện.
Giao thức RTP chạy trên nền UDP để sử dụng các chức năng ghép kênh và checksum.
Cả hai giao thức RTP và UDP tạo nên một phần chức năng của lớp giao vận. Tuy nhiên
RTP cũng có thể được sử dụng với những giao thức khác của lớp mạng và lớp giao vận bên dưới
miễn là các giao thức này cung cấp được các dịch vụ mà RTP đòi hỏi. Một điều cần lưu ý là bản
thân giao thức RTP không cung cấp một cơ chế nào đảm bảo việc phân phát kịp thời dữ liệu tới các
trạm, mà nó dựa trên các dịch vụ của lớp thấp hơn để thực hiện điều này. RTP cũng không đảm bảo
việc truyền các gói theo đúng thứ tự. Tuy nhiên số thứ tự trong header cho phép bên thu điều chỉnh
lại thứ tự dòng gói tin của bên phát gữi đến.
RTP không chỉ hỗ trợ các dịch vụ phổ biến của hầu hết các ứng dụng truyền thông hội nghị
đa phương tiện mà còn có khả năng mở rộng cho phù hợp với dịch vụ mới. Khả năng mở rộng, các
mã tương ứng trong trường PT của header ứng với các loại payload trong gói RTP được mô tả trong
profile đi kèm.

22


Cấu trúc giao thức RTP:


Theo cấu trúc trên:
- Phần header cố định
Version: 2 bit. Trường vesion để chỉ phiên bản của giao thức. Có 3 phiên bản 0,1,2. Phiên bản
hiện tại được sử dụng là 2.
P (Padding): 1 bit. Nếu trường P được thiết lập thì gói tin sẽ có một hoặc nhều octets P (những
octets này không phải một phần của payload) được thêm vào cuối gói tin. Octet P cuối cùng chỉ
kích thước của tổng octect được thêm vào. Mục đích của việc thêm octect P là để dùng cho thuật
toán mã hóa cần kích thước gói cố định hoặc được dùng cho việc cách ly các gói RTP trong trường
hợp nhiều gói thông tin được mang trong cùng một đơn vị dữ liệu của giao thức lớp dưới.
X (Extension): 1 bit. Nếu trường X được thiết lập thì phần header cố định phải được liên kết
với phần header mở rộng.
CC (CSRC count): 4 bits. Chứa các giá trị của trường CSRC ID trong header cố định.
M (Marker): 1 bit. Được sử dụng ở lớp ứng dụng để xác định một profile.
PT (Payload type): 7 bits. Xác định và nêu ý nghĩa các dạng payload của RTP. RTP có thể hỗ
trợ đến 27 = 128 loại payload khác nhau. Với một luồng âm thanh hay video trường PT được sử
dụng để kí hiệu các mã âm thanh hay video. Ví dụ: mã PT của một số định dạng âm thanh và video:
PCM (0),GSM(3), LPC (7), G.722 (9), MPEG Audio(14), G.728(15), JPEG(26), H.261(31),
MPEG1(32), MPEG2(33) . Nếu máy phát quyết định thay đổi mã ở phần giữa của một phiên làm
việc, thì máy phátcó thể thông báo cho máy thuvề sự thay đổi trường PT. Máy phát có thể thay đổi
mã để tăng chất lượng âm thanh hay video hoặc giảm tốc độ luồng RTP.
Sequence Number: 16 bits. Trường mang số thứ tự của các gói tin RTP. Số thứ tự này được
tăng lên 1 sau mỗi lần gói tin RTP được máy phát gửi đi và còn được dùng để máy thu phát hiện
mất gói và khôi phục lại trình tự chuỗi gói tin. Giá trí khởi đầu của trường này là một giá trị ngẫu
nhiên. Vd: máy phát nhận được luồng gói tin RTP có khoảng trống giữa 2 hai số thứ tự 86, 89 thì
máy phát sẽ biết rằng gói tin có số thự tự 87, 88 đã bị mất.
Timestamp: 32 bits. Trường xác định thời điểm lấy mẫu của octets đầu tiên trong gói tin RTP.
Thời điểm lấy mẫu phải được đo bằng một đồng hồ tăng đều đặn và tuyến tính về mặt thời gian để
cho phép việc đồng bộ và tính toán độ jitter. Tần số đồng hồ này là không cố định mà phụ thuộc
vào loại định dạng của payload. Giá trị khởi đầu trường timestamp cũng được chọn một cách ngẫu
nhiên. Một vài gói tin RTP có thể mang cùng một giá trị của trường này nếu như chúng được phát

đi cùng một lúc về mặt logic (ví dụ như các gói của cùng một khung hình video). Trong trường hợp
các gói dữ liệu được phát ra sau những khoảng thời gian bằng thì giá trị timestamp được tăng một
cách đều đặn. Ngược lại, trong trường hợp khác giá trị timestamp sẽ tăng không đều đặn.
SSRC (Synchronization Source Identifier): 32 bits. Giá trị của trường SSRC chỉ ra nguồn
đồng bộ (nguồn phát gói tin RTP từ micro, camera hay RTP mixer) của gói tin RTP, giá trị này

23


được chọn ngẫu nhiên. Trong một phiên kết nối RTP thì có nhiều nguồn đồng độ phát ra nhiều
dòng gói tin RTP. Máy thu sẽ nhóm các dòng gói tin RTP cùng nguồn để phát lại tín hiệu thời gian
thực (real-time).
CSRC (Contributing Source List): từ 0 đến 15 items, 32 bits. Trường CSRC xác định các
nguồn đóng góp payload cho gói tin (CSRC cho phép xác định tối đa 15 nguồn đóng góp tương ứng
vớ 15 items). Giá trị của CSRC được cho bởi trường CC và giá trị này được chèn vào mỗi items
bằng các bộ trộn (mixer).
- Phần header mở rộng:
Cơ chế mở rộng của RTP cho phép những ứng dụng riêng lẻ của giao thức RTP thực hiện
được với những chức năng mới đòi hỏi những thông tin thêm vào phần header của gói tin. Cơ chế
này được thiết kế để một vài ứng dụng có thể bỏ qua một số ứng dụng khác lại có thể sử dụng được
phần nào đó. Nếu như trường X (bit X) trong phần header cố định được đặt bằng 1 thì theo sau
phần header cố định là phần header mở rộng có chiều dài thay đổi. 16 bit đầu tiên của trong phần
tiêu đề được sử dụng với mục đích riêng cho từng ứng dụng được định nghĩa bởi profile (thường nó
được sử dụng để phân biệt các loại tiêu để mở rộng). 16 bits kế tiếp mang giá trị chiều dài của phần
header mở rộng tính theo đơn vị là 32 bits (Giá trị này không bao gồm 32 bit đầu tiên của phần
header mở rộng).
RTP được sử dụng kết hợp với RTCP (Realtime Transport Control Protocol). Trong khi
RTP được dùng để truyền dòng dữ liệu đa phương tiện truyền thông (âm thanh và video) thì RTCP
được dùng để giám sát QoS và thu thập các thông tin về những người tham gia phiên truyền RTP
đang thực hiện.

RTCP cung cấp thông tin về các gói tin nhận được,cung cấp thông tin phản hồi để theo dõi về
chất lượng dịch vụ hội nghị và thông tin về các thành viên tham gia hội nghị để giúp kiểm soát
phiên làm việc.
3.1.2.

Giao thức thiết lập phiên SIP (Session Initiation Protocol )

SIP (Session Initiation Protocol) là một giao thức điều khiển và đã được chuẩn hóa bởi
IETF. Nhiệm vụ của nó là thiết lập, hiệu chỉnh và kết thúc các phiên làm việc giữa người dùng. Các
phiên làm việc cũng có thể là hội nghị đa phương tiên, cuộc gọi điện thoại điểm-điểm,…
SIP được sử dụng kết hợp với các chuẩn giao thức IETF khác như là SAP, SDP và MGCP
(MEGACO) để cung cấp cho các dịch vụ VoIP.
Cấu trúc của SIP tương tự với cấu trúc của HTTP (giao thức client-server). Nó bao gồm các
yêu cầu được gởi đến từ người sử dụng SIP client đến SIP server. Server xử lý các yêu cầu và đáp
ứng đến client. Một thông điệp yêu cầu, cùng với các thông điệp đáp ứng tạo nên sự thực thi SIP.

3.1.3.

Chồng giao thức H323

H323 là bộ giao thức báo hiệu ( signaling ), có chức năng thiết lập, ngắt và thay đổi cuộc
gọi. H323 cung cấp nền tảng kỹ thuật cho việc truyền thoại, hình ảnh và số liệu đồng thời qua mạng
IP.
Khuyến nghị của ITU-T về chuẩn H.323 đã đưa ra tiêu chuẩn H.323 gồm các giao thức:

24


H.245


Giao thức báo hiệu điều khiển truyền thông multimedia.

H.225.0

Đóng gói và đòng bộ các dòng thông tin đa phương tiện
(thoại,
truyền
hình,
số
liệu).
Khuyến nghị này bao gồm giao thức RTP/RTCP và các thủ tục
điều khiển cuộc gọi Q.931(DSS 1).

G.711,
G.722,
G723, G.728, G.729,…

Các chuẩn nén tín hiệu thoại.

H.261,
H.264,…

Các chuẩn nén tín hiệu video.

H.263,

T.120

Chuẩn cho các ứng dụng chia sẻ số liệu


3.2. RTP/RTCP
3.2.1.

So sánh các điểm khác nhau cơ bản của truyền audio và truyền video dùng
RTP/RTCP

Truyền audio
Trong cùng một phiên RTP, Mỗi gói

Truyền Video
Trong cùng một phiên RTP, mỗi gói

RTP-audio gửi đi từ một nguồn đông bộ RTP-video gửi đi từ một nguồn đồng bộ có thể
thường chứa lượng dữ liệu audio như nhau, độ chứa lượng dữ liệu video khác nhau, độ dài gói
dài gói tin là như nhau
Độ dài gói RTP-audio thường nhỏ hơn
gói RTP-video rất nhiều
Gói RTP-audio được gửi đi đều đặn

tin là khác nhau
Độ dài gói RTP-video lớn hơn độ dài
gói RTP- audio rất nhiều
Cần nhiều gói tin để truyền hết một

theo thời gian, tùy vào cách phân gói(khoảng khung hình, các gói tin này chứa dữ liệu ở cùng
cách 10-15ms là đảm bảo chất lượng với người một thời điểm, chúng được cố gắng gửi đi
nghe phía nhận)

nhanh nhất có thể, khoản thời gian rất sát nhau.
Sau khi truyền hết các gói tin thuộc


25


×