Tải bản đầy đủ (.pdf) (89 trang)

(Luận văn thạc sĩ) cách nén video trong hệ thống hội nghị truyền hình ứng dụng trong việc họp giao ban trực tuyến, tập huấn, đào tạo cán bộ trong ngành giáo dục tỉnh quảng ninh​

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 89 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ NAM DƢƠNG

CÁCH NÉN VIDEO TRONG HỆ THỐNG
HỘI NGHỊ TRUYỀN HÌNH ỨNG DỤNG TRONG VIỆC
HỌP GIAO BAN TRỰC TUYẾN, TẬP HUẤN, ĐÀO TẠO
CÁN BỘ TRONG NGÀNH GIÁO DỤC TỈNH QUẢNG NINH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2020


ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ NAM DƢƠNG

CÁCH NÉN VIDEO TRONG HỆ THỐNG
HỘI NGHỊ TRUYỀN HÌNH ỨNG DỤNG TRONG VIỆC
HỌP GIAO BAN TRỰC TUYẾN, TẬP HUẤN, ĐÀO TẠO
CÁN BỘ TRONG NGÀNH GIÁO DỤC TỈNH QUẢNG NINH
Chuyên ngành: Khoa học máy tính
Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: PGS TS. Đỗ Năng Toàn


THÁI NGUYÊN - 2020


i

LỜI CAM ĐOAN
Tên tôi là: Vũ Nam Dƣơng.
Sinh ngày: 30/12/1986.
Học viên lớp cao học CK17B - Trƣờng Đại học Công nghệ Thông tin và
Truyền thông - Đại học Thái Nguyên.
Hiện đang công tác tại: Trƣờng THPT Vũ Văn Hiếu, thành phố Hạ Long,
tỉnh Quảng Ninh.
Xin cam đoan: Đề tài “Cách nén video trong hệ thống hội nghị truyền
hình (HNTH) - Ứng dụng trong việc họp giao ban trực tuyến, tập huấn, đào tạo
cán bộ trong ngành giáo dục tỉnh Quảng Ninh” do PGS TS. Đỗ Năng Tồn
hƣớng dẫn là cơng trình nghiên cứu của riêng tơi. Tất cả tài liệu tham khảo
đều có nguồn gốc, xuất xứ rõ ràng.
Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng nhƣ nội
dung trong đề cƣơng và yêu cầu của thầy giáo hƣớng dẫn. Nếu sai tơi hồn
tồn chịu trách nhiệm trƣớc hội đồng khoa học và trƣớc pháp luật.
Thái Nguyên, ngày 16 tháng 9 năm 2020
Tác giả luận văn

Vũ Nam Dƣơng


ii

LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, đƣợc sự động viên,

giúp đỡ và hƣớng dẫn tận tình của Thầy giáo hƣớng dẫn PGS TS. Đỗ Năng Toàn,
luận văn với Đề tài “Cách nén video trong hệ thống hội nghị truyền hình - Ứng
dụng trong việc họp giao ban trực tuyến, tập huấn, đào tạo cán bộ trong ngành
giáo dục tỉnh Quảng Ninh”.
Xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hƣớng PGS TS. Đỗ Năng
Tồn đã tận tình chỉ dẫn, giúp đỡ tơi hồn thành luận văn này.
Phịng đào tạo Sau đại học Trƣờng Đại học Công nghệ Thông tin và
Truyền thông đã giúp đỡ tơi trong q trình học tập cũng nhƣ thực hiện
luận văn.
Sở Giáo dục và Đào tạo tỉnh Quảng Ninh, trƣờng THPT Vũ Văn Hiếu
nơi tôi công tác đã tạo điều kiện tối đa cho tôi thực hiện khóa học này.
Tơi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên,
khích lệ, tạo điều kiện giúp đỡ tơi trong suốt q trình học tập, thực hiện và
hoàn thành luận văn này.
Thái Nguyên, ngày 16 tháng 9 năm 2020
Tác giả luận văn

Vũ Nam Dƣơng


iii

MỤC LỤC

LỜI CAM ĐOAN .............................................................................................. i
LỜI CẢM ƠN ................................................................................................... ii
DANH MỤC KÝ HIỆU, CÁC TỪ VIẾT TẮT ................................................ v
LỜI MỞ ĐẦU ................................................................................................... 1
CHƢƠNG I. KHÁI QUÁT VỀ HỘI NGHỊ TRUYỀN HÌNH VÀ BÀI
TỐN NÉN VIDEO ........................................................................................ 3

1.1 Khái qt về hội nghị truyền hình ............................................................ 3
1.1.1 Giới thiệu ............................................................................................ 3
1.1.2. Các thành phần của một hệ thống Hội nghị truyền hình .................. 5
1.2 Bài tốn nén video .................................................................................... 6
1.2.1 Nén video trong hệ thống hội nghị truyền hình.................................. 6
1.2.2 Một số cách tiếp cận nén video trong Hội nghị truyền hình .............. 8
CHƢƠNG II. KỸ THUẬT NÉN VÀ GIẢI NÉN MPEG-4 H.264/AVC .. 21
2.1 Nguyên lý hoạt động cơ bản................................................................... 21
2.1.1 Tổng quan về chuẩn nén................................................................... 21
2.1.2 Sơ đồ mã hóa .................................................................................... 36
2.1.3 Sơ đồ giải mã .................................................................................... 37
2.2 Khối nén thời gian .................................................................................. 38
2.2.1 Dự đoán một chiều (mã hóa ảnh Prediction)................................... 38
2.2.2 Dự đốn hai chiều( mã hóa ảnh Bidiriectional Prediction) ............ 39
2.2.3 Sơ đồ nguyên lý nén ảnh B. .............................................................. 40
2.2.4 Bù chuyển động trong các slice B .................................................... 40
2.2.5 Dự đoán liên ảnh (Inter-Frame) ...................................................... 43
2.2.6 Mã hóa ảnh SP (switching P) và SI (switching I) ............................ 46
2.3 Khối nén không gian .............................................................................. 47
2.3.1 Chia ảnh thành các MacroBlock ...................................................... 48
2.3.2 Dự đoán trong ảnh (Intra-frame) ..................................................... 49


iv

2.3.3 INTRA LUMA 4 x 4 .......................................................................... 50
2.3.4 INTRA LUMA 16 x 16 ...................................................................... 54
2.3.5 INTRA CHROMA 8x8 ...................................................................... 56
2.3.6 INTRA-PCM ..................................................................................... 56
2.3.7 Dự đoán trọng số .............................................................................. 57

CHƢƠNG III. CHƢƠNG TRÌNH THỬ NGHIỆM .................................. 59
3.1 Phân tích u cầu.................................................................................... 59
3.1.1 Nén – giải nén của H.264/AVC ........................................................ 59
3.1.2 Lưu đồ giải thuật .............................................................................. 63
3.2 Chƣơng trình mơ phỏng nén-giải nén của H.264/AVC bằng Matlab .... 64
3.3 Một số kết quả ........................................................................................ 66
PHẦN KẾT LUẬN ........................................................................................ 69
TÀI LIỆU THAM KHẢO ............................................................................ 70
PHỤ LỤC ....................................................................................................... 71


v

DANH MỤC KÝ HIỆU, CÁC TỪ VIẾT TẮT
DCT

Biến đổi Cosine rời rạc (Discrete Cosine Transform)

DPCM

Điều xung mã vi sai (Differential Pulse Code
Modulation)

DWT

Biến đổi Wavelet rời rạc (Discrete Wavelet

Transform)
FLC


Mã hóa có chiều dài cố định (Fixed-Length Code)

GMC

Bù chuyển động toàn phần (Global Motion
Compensation)

ICT

Biến đổi nguyên Cosine rời rạc (Integer Discrete
Cosine Transform)

IDCT

Biến đổi ngược Cosine rời rạc (Inverse Discrete
Cosine Transform)

IP

Giao thức Internet ( Internet Protocol)

JPEG

Chuẩn nén ảnh của ủy ban JPEG quốc tế (Joint
Photographic Experts Group)

JPEG2000

Chuẩn nén ảnh JPEG2000


LOSSLESS

Kỹ thuật nén ảnh không tổn hao (không mất dữ liệu)

LOSSY

Kỹ thuật nén ảnh có tổn hao (có mất dữ liệu)

MB

Đa khối (Macroblock)

MC

Bù chuyển động (Motion Compensation)

ME

Ước lượng chuyển động(Motion Estimate)

MSE

Sai số bình phương trung bình (Mean Square Error)

MPEG

Nhóm chun gia nén ảnh động (Moving Pictures
Experts Group)

NAL


Lớp trừu tượng mạng (Network Abstraction Layer)

NNS

Tìm ở khối gần nhất (Nearest Neighbors Search)


vi

PCM

Điều xung mã (Pulse Code Modulation)

PSNR

Tỷ số tín hiệu đỉnh trên nhiễu (Peak Signal to Noise
Ratio)

QP

Thông số lượng tử (Quantization Parameter)

RGB

Ba

màu

c ơ


bản

màu

đỏ/Xanh/Lam

(Red/Green/Blue)
RLC

Mã hoá dọc chiều dài (Run Length Coding)

VCL

Lớp mã hóa Video (Video Coding Layer)

VLC

Mã có chiều dài thay đổi (Variable Length Code)

VO

Đối tượng Video (Video Object)

ISO

Tổ chức quốc tế về tiêu chuẩn chất l ư ợng
(International Organization for Standardization)

IEC


Ủy ban kỹ thuật điện quốc tế (International
Electro-technical Commission)


1

LỜI MỞ ĐẦU
Một trong những đặc điểm nổi bật của thời đại ngày nay là sự phát triển rất
nhanh của khoa học và công nghệ. Các cuộc cách mạng khoa học trên các lĩnh vực:
tin học, truyền thông, công nghệ… không chỉ làm thay đổi mọi mặt của đời sống
kinh tế - xã hội mà cịn có tác động mạnh mẽ đến giáo dục và đào tạo, góp phần đổi
mới phƣơng pháp, nâng cao hiệu quả và chất lƣợng trong giáo dục. Dƣới ảnh hƣởng
của các cuộc cách mạng khoa học, nhiều phƣơng tiện kỹ thuật dạy học hiện đại xuất
hiện,việc sử dụng các phƣơng tiện nhƣ: Hệ thống trang thiết bị nghe nhìn, thiết bị
và bài giảng tƣơng tác, học tập qua mạng, tìm kiếm và khai thác những tài ngun
vơ cùng q giá và bổ ích từ Internet… trong q trình học và dạy học chính là yếu
tố chính địi hỏi phải có sự đổi mới mơi trƣờng giáo dục, đổi mới cách dạy và cách
học ở mọi cấp học.
Hội nghị truyền hình nhƣ hiện nay đã đóng góp một phần làm cho khoảng
cách địa lý đã khơng còn là trở ngại quá lớn. Sử dụng giải pháp hội nghị truyền hình
sẽ tiết kiệm đƣợc rất nhiều thời gian đi lại, học, họp và đào tạo đồng thời giải quyết
đƣợc vấn đề chi phí đi lại, ăn ở, sinh hoạt của các đại biểu tham gia các buổi học,
đào tạo tại các địa điểm khác nhau, giảm các rủi ro tai nạn trên đƣờng đi cho những
ngƣời tham gia. Ngồi ra, có một chiến lƣợc đúng đắn trong việc triển khai giải
pháp này sẽ giúp cho tỉnh Quảng Ninh có một mơi trƣờng chia sẻ thơng tin hiệu quả,
tận dụng đƣợc tối đa các chi phí đầu tƣ.
Với hạ tầng truyền thông ngày càng đƣợc củng cố và phát triển, kinh phí th
đƣờng truyền ngày càng giảm thì việc triển khai hệ thống hội nghị truyền hình của
tỉnh Quảng Ninh mang tính thực tiễn và khả thi rất cao, góp phần thành cơng trong

cơng cuộc đổi mới và phát triển của tỉnh, của đất nƣớc.
Tuy nhiên, với việc triển khai hệ thống hội nghị truyền hình trên nền tảng cơ
sở hạ tầng đang có thì việc các tín hiệu (video, hình ảnh, bài giảng...) đƣợc truyền đi
thơng qua các nhà mạng Internet. Điều này sẽ làm ảnh hƣởng đến chất lƣợng của
các thơng tin đi và đến. Có nhiều giải pháp để giải quyết vấn đề này nhƣ: Tăng băng
thông, nâng cấp các thiết bị, áp dụng các chuẩn nén để nén tín hiệu âm thanh và
hình ảnh xuống mức thấp nhất mà vẫn đảm bảo chất lƣợng… Với việc tăng băng


2

thơng hay nâng cấp các thiết bị địi hỏi chi phí lớn cũng nhƣ các thiết bị tiên tiến
mới, vì vậy em lựa chọn phƣơng pháp áp dụng các kỹ thuật nén mới để áp dụng cho
bài tốn này.
Hiện có rất nhiều các chuẩn nén để có thế áp dụng vào bài toán này, tuy nhiên
em chọn nghiên cứu chuẩn nén MPGE-4 H.264/AVC để đƣa vào ứng dụng. Để có
thể đi sâu vào nghiên cứu chuẩn nén MPEG-4 H.264/AVC, thì chúng ta cần nắm
đƣợc các thuật ngữ, các kỹ thuật cần thiết cho việc nén tín hiệu, cũng nhƣ là các ƣu
nhƣợc điểm của các chuẩn nén trƣớc đó đã mang lại.
Vì đây là một đề tài lý thuyết, nên bƣớc quan trọng nhất của quá trình làm
luận văn là tìm kiếm tài liệu và tổng hợp nó thành một chuỗi các kiến thức liên tục
tránh lan man và yếu tố thuyết phục ngƣời tham khảo cũng rất quan trọng, do đó
bên cạnh trình bày chi tiết về cách thức nén, em đã cố gắng mô phỏng một phần ƣu
điểm của chuẩn nén này nhằm góp phần sinh động cho đề tài.
TỔ CHỨC LUẬN VĂN
Luận văn đƣợc trình bày thành 3 chƣơng và 1 phụ lục.
Chƣơng I: KHÁI QUÁT VỀ HỘI NGHỊ TRUYỀN HÌNH VÀ BÀI TỐN
NÉN VIDEO.
Chƣơng II: KỸ THUẬT NÉN VÀ GIẢI NÉN MPEG-4 H.264/AVC..
Chƣơng III: CHƢƠNG TRÌNH THỬ NGHIỆM

Tuy nhiên, do kinh nghiệm còn hạn chế, đồng thời MPEG-4 H.264/AVC là
một kỹ thuật còn trong giai đoạn nghiên cứu và phát triển, nên chắc chắn luận văn
sẽ khơng tránh khỏi sai sót, kính mong Q Thầy Cơ và bạn bè đồng nghiệp đóng
góp ý kiến nhằm hồn thiện tốt luận văn này.


3

CHƢƠNG I. KHÁI QUÁT VỀ HỘI NGHỊ TRUYỀN HÌNH VÀ BÀI
TỐN NÉN VIDEO
1.1 Khái qt về hội nghị truyền hình
1.1.1 Giới thiệu
Vào những năm 80 của thế kỷ XX, Hội nghị truyền hình đã mở ra một
hƣớng mới cho thế giới trong việc trao đổi thông tin khi các đối tƣợng cần giao
lƣu ở các vị trí khác nhau mà khơng có khái niệm về mặt địa lý. Khác với các
phƣơng tiện trao đổi thông tin khác nhƣ điện thoại, dữ liệu, Hội nghị truyền
hình cho phép mọi ngƣời tiếp xúc với nhau, nói chuyện với nhau thơng qua
tiếng nói và hình ảnh bằng hình ảnh trực quan. Việc sử dụng cơng nghệ hội nghị
truyền hình, cho thấy hiệu quả sử dụng của nó đã đem lại lợi ích hiệu quả kinh
tế rõ rệt, ứng dụng truyền hình cho việc giao lƣu, gặp gỡ, hội nghị, hội thảo, đào
tạo, chăm sóc sức khỏe từ xa trong ngành y tế, các lĩnh vực khác trong nền kinh
tế là sự hợp tác, nghiên cứu và phát triển không ngừng đã đem lại lợi ích và hiệu
quả kinh tế vơ cùng to lớn cho xã hội.
Thế hệ đầu tiên của hệ thống thiết bị hội nghị truyền hình đƣợc thực
hiện qua mạng kỹ thuật số đa dịch vụ ISDN dựa trên tiêu chuẩn H.230
của Tổ chức ITU;
Thế hệ thứ hai của hệ thống thiết bị hội nghị truyền hình ứng dụng cho
máy tính cá nhân và công nghệ thông tin, và vẫn dựa vào mạng ISDN và các
thiết bị mã hoá/giải mã, nén/giải nén - CODEC;
Thế hệ thứ ba của hệ thống thiết bị hội nghị truyền hình ra đời trên cơ sở

mạng cục bộ LAN phát triển rất nhanh và có mặt ở khắp mọi nơi trên thế giới.
Hiện nay, công nghệ truyền hình với chất lƣợng cao sử dụng chuẩn H.230
có tính ƣu việt, đã và đang thay thế dần các phƣơng tiện thông tin khác và đã
đƣợc ứng dụng vào tất cả các ngành kinh tế quốc dân từ quốc phịng, chăm sóc
sức khỏe, đào tạo, nghiên cứu khoa học, v.v... và cuối cùng là một công nghệ
truyền thông không thể thiếu đƣợc trong ngành kinh tế quốc dân. Công nghệ
hiện đại nhất hiện nay của hệ thống thiết bị hội nghị truyền hình là sử dụng theo
tiêu chuẩn cơng nghệ H.323 qua giao thức IP. Khi công nghệ HD (High


4

Definition) chính thức gia nhập thị trƣờng. Với chất lƣợng hình ảnh rõ nét gấp
10 lần so với chuẩn SD (Standard Definition), độ phân giải hình ảnh đạt đến
720p; Full HD 1080p, nén Video chuẩn H.264, âm thanh AAC-LD, hội nghị
truyền hình HD thực sự thoả mãn đƣợc nhu cầu "giao tiếp ảo". Công nghệ HD
giúp các tổ chức, doanh nghiệp thay thế các cuộc họp dày đặc bằng những cuộc
họp trực tuyến.
Thế hệ thứ tư của hệ thống thiết bị truyền hình ra đời từ 2014 trên cơ sở
một loạt các tiến bộ vƣợt bậc về công nghệ thông minh của hãng Trueconf: (1)
Áp dụng đƣợc chuẩn nén H.264 SVC trong việc truyền nhận dữ liệu, giúp cho
hình ảnh âm thanh đạt chất lƣợng cao cấp về hình ảnh và âm thanh với yêu cầu
băng thông cực thấp (Full HD 30 fps 1080p chỉ yêu cầu băng thông là 1024
Kbps); (2) Dùng công nghệ nhận dạng thông minh đối với siêu âm và hồng
ngoại để tiếp nhận tín hiệu từ bút điện tử cảm ứng vào màn hình khơng cảm
ứng, giúp cho ngƣời sử dụng có thể vẽ, xóa đƣợc bằng bút điện tử đa sắc màu
trên màn hình bất kỳ (khung hình trắng hoặc chứa nội dung đang trình chiếu).
Hình ảnh đang vẽ sẽ đƣợc truyền ngay lập tức tới các đầu cầu khác và ghi lại
đƣợc thành file ảnh cùng với hình ảnh nền đã trình chiếu; (3) Dùng công nghệ
nhận dạng thông minh đối với âm thanh trong tín hiệu thu đƣợc từ micro đa

hƣớng để phát hiện ra tiếng ngƣời, đâu là âm thanh do va chạm vật chất gây ra
(tạp âm), giúp cho hệ thống ngay lập tức phát hiện điểm cầu có ngƣời phát biểu
để tự động kích hoạt điểm cầu đó trở thành điểm cầu chính, làm cho việc điều
khiển các điểm cầu có thể thực hiện hồn tồn tự động (các điểm cầu đều không
cần bật micro khi phát biểu, không cần tắt micro khi ngừng phát biểu); (4)
Dùng công nghệ nhận dạng và phán đốn thơng minh đối với hình ảnh để tự
động điều chỉnh liên tục khn hình của camera vừa đủ theo vị trí của những
ngƣời dự họp, loại bỏ không gian thừa, tự đếm đƣợc số ngƣời dự họp theo từng
giây. Dùng công nghệ nhận dạng và phán đốn đối với hình ảnh khn mặt
ngƣời để tự động phát hiện chính xác ngƣời phát biểu trong số những ngƣời dự
họp và điều chỉnh camera quay chân dung ngƣời phát biểu (khi ngƣời phát biểu
di chuyển thì camera sẽ quay và zoom theo ngƣời đó).


5

1.1.2. Các thành phần của một hệ thống Hội nghị truyền hình
Các hệ thống đào tạo cán bộ trực tuyến đa điểm gồm 3 thành phần cơ
bản: thiết bị đầu cuối (Thiết bị VCS), thiết bị điều khiển đa điểm (MCU), thiết
bị vƣợt tƣờng lửa hoặc Gateway và Gatekeeper. Ngoài ra cịn có các thiết bị
tùy chọn khác (thiết bị chia sẻ dữ liệu, thiết bị ghi hình lại hình ảnh Video
Conferencing, thiết bị lập lịch và quản lý các khóa đào tạo, …)
- Thiết bị VCS: Có chức năng thu nhận hình ảnh, âm thanh (qua camera,
micro) mã hóa chúng rồi chuyển qua giao diện mạng. Các VCS còn có cổng
giao tiếp với máy tính (PC, Laptop) cho phép kết nối và trình chiếu các tài
liệu từ máy tính vào phiên làm việc. VCS sử dụng màn hình TV, màn hình
máy tính hoặc máy chiếu làm thiết bị hiển thị và có thể sử dụng bất kỳ hệ
thống âm thanh nào có sẵn.
- Thiết bị MCU: Có chức năng điều khiển đa điểm, cho phép kết nối
nhiều VCS vào một phiên làm việc. Hình ảnh, âm thanh từ các thiết bị VCS

đƣợc nhận về, trộn và chia hình hiển thị theo yêu cầu của ngƣời quản lý hệ
thống. Ngòai ra, MCU còn hỗ trợ kết nối các đầu cuối thoại (Voice only). Để
đáp ứng yêu cầu làm việc đa phƣơng tiện, đa mạng thiết bị MCU còn hỗ trợ
chuyển mã (transcoding) các yếu tố liên qua đến chất lƣợng nhƣ: giao diện
mạng, băng thơng, chuẩn mã hóa Video/Audio, tốc độ khung hình…
Các yêu cầu trên đây chỉ cần thiết trong hệ thống đào tạo cán bộ trực
tuyến đa điểm (3 điểm trở lên), trong trƣờng hợp kết nối các khóa học 2 điểm
cầu thì chỉ cần 2 thiết bị đầu cuối VCS tại 2 điểm.
a)

Thiết bị VCS (Thiết bị đầu cuối)

Có chức năng thu nhận hình ảnh, âm thanh (quay camera, micro) mã hóa
chúng rồi chuyển qua giao diện mạng. Các VCS cịn có cổng giao tiếp với
máy tính (PC, Laptop) cho phép kết nối và trình chiếu các tài liệu từ máy tính
vào phiên làm việc của hệ thống.VCS sử dụng màn hình TV, màn hình máy
tính hoặc máy chiếu làm thiết bị hiển thị và có thể sử dụng bất kỳ hệ thống âm
thanh nào có sẵn.


6

b) Thiết bị MCU (Thiết bị điều khiển đa điểm)
Có chức năng điều khiển đa điểm, cho phép kết nối nhiều VCS vào một
phiên làm việc. Hình ảnh, âm thanh từ các thiết bị VCS đƣợc nhận về, trộn và
chia hình hiển thị theo yêu cầu của ngƣời quản lý hệ thống. Ngồi ra, MCU
cịn hỗ trợ kết nối các đầu cuối thoại (Voice only) vào phiên làm việc của hệ
thống. Để đáp ứng yêu cầu làm việc đa phƣơng tiện, đa mạng thiết bị MCU
còn hỗ trợ chuyển mã (transcoding) các yếu tố liên qua đến chất lƣợng của hệ
thống nhƣ: giao diện mạng, băng thơng, chuẩn mã hóa Video/Audio, tốc độ

khung hình…
1.2 Bài tốn nén video
1.2.1 Nén video trong hệ thống hội nghị truyền hình
Giải pháp HNTH hiện nay có hai cơng nghệ chính là cơng nghệ SD
(Standard Definition) và công nghệ HD (High Definition), Full HD.
Công nghệ SD là cơng nghệ truyền hình cho chất lƣợng thơng thƣờng
đƣợc phát triển từ những năm 80, công nghệ HD là cơng nghệ truyền hình chất
lƣợng cao. Cơng nghệ SD là cơng nghệ truyền hình từ thế hệ thứ hai, trong khi
đó cơng nghệ HD là cơng nghệ truyền hình mới nhất chính thức ra mắt từ năm
2006. Hiện nay các hãng sản xuất thiết bị truyền hình trên thế giới tập trung
phát triển công nghệ HD và Full HD.
Giao thức HD là giao thức video chất lƣợng cao nhất hiện nay, Với HD nó
cho phép các thiết bị kết cuối kết nối đến trung tâm HNTH với độ phân giải
1280x720 (720p) và tốc độ nằm trong khoảng từ 384Kbps đến 8Mbps. Việc
thiết lập HNTH trên nền HD yêu cầu các đối tƣợng tham gia kết nối đến trung
tâm tốc độ bằng nhau và đều có khả năng HD (hay phải là thiết bị HD).
So sánh trên cho thấy truyền hình HD có độ phân giải cao gấp 10 lần độ
phân giải truyền hình SD. Ví dụ sau so sánh chất lƣợng hình ảnh giữa HD và SD:


7

Công nghệ SD

Công Nghệ HD

HD cung cấp nhiều nội dung thơng tin hơn với màn hình 16:9, cơng nghệ
HD mang lại thêm 20% thông tin so với công nghệ SD cho khả năng bao quát
cao hơn, nội dung thông tin nhiều hơn.
Nhiều thơng tin hơn với màn hình 16:9 :


SD (Standard Definition)

HD (High Definition)

Bảng sau là sự so sánh giữa cơng nghệ HD và cơng nghệ SD:
Tính chất

HD (High Definition)

SD (Standard
Definition)

Độ phân giải

720p (720´1280 pixels)

CIF ( 288´352 pixels)

Xử lý hình động

25 ÷ 30 frames/s

15 frames/s

Băng thơng u cầu

1Mbps+

128Kbps+


Chuẩn Video

H.261, H.263,H.264

H.261, H.263

Chuẩn Audio

Tất cả

Tất cả


8

1.2.2 Một số cách tiếp cận nén video trong Hội nghị truyền hình
Kỹ thuật nén ảnh số đang đóng một vai trò cực kỳ quan trọng trong các hệ
thống viễn thông và multimedia để giải quyết vấn đề băng thông của đƣờng
truyền. Các kỹ thuật nén video đều cố gắng làm giảm lƣợng thông tin cần thiết
cho một chuỗi các bức ảnh mà khơng làm giảm chất lƣợng của nó đối với ngƣời
xem. Nói chung, tín hiệu video thƣờng chứa đựng một lƣợng lớn các thông tin
thừa, chúng thƣờng đƣợc chia thành hai loại: thừa tĩnh bên trong từng frame
(statistical) và thừa động giữa các frame (subjective). Mục đích của nén video
là nhằm làm giảm số bit khi lƣu trữ và khi truyền bằng cách phát hiện để loại bỏ
các lƣợng thông tin dƣ thừa này và dùng các kỹ thuật Entropy mã hoá để tối
thiểu hoá lƣợng tin quan trọng cần giữ lại.
Nén video đƣợc chia thành hai họ lớn: Nén không tổn hao và nén tổn hao.



Nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bit

nguồn thành dòng các từ mã sao cho ảnh đƣợc khơi phục hồn tồn giống ảnh
gốc, các thuật toán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thƣờng
dựa trên việc thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc
biệt khác ngắn hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên
đòi hỏi phải có thiết bị lƣu trữ và đƣờng truyền lớn hơn.


Nén có tổn hao, tức là ảnh đƣợc khơi phục khơng hồn tồn giống

ảnh gốc, dạng nén này thích hợp cho việc lƣu trữ và truyền ảnh tĩnh, ảnh
video qua một mạng có băng thơng hạn chế. Các dạng nén này thƣờng có hệ
số nén cao hơn (từ 2:1 đến 100:1) và gây nên tổn hao dữ liệu và sự suy giảm
ảnh sau khi giải nén do việc xóa và làm trịn dữ liệu trong một khung hay
giữa các khung. Nó liên quan đến việc dùng các phép biến đổi tín hiệu từ
miền này sang miền khác.
Trong thực tế phƣơng pháp nén tổn hao thƣờng đƣợc sử dụng nhiều hơn
và các kỹ thuật nén tổn hao thƣờng sử dụng nhƣ: mã hóa vi sai, biến đổi cosin
rời rạc DCT, lƣợng tử vơ hƣớng, qt zig-zag, mã hóa Entropy…


9

1.2.2.1 Q trình biến đổi
Biến đổi
T

Biến đổi ngược
T-1


Giải nén

Lượng tử hóa
Q

Mã hóa
C

Giải lượng tử hóa R

Giải mã D

Hình
I.1. Mô
hìnhđổi
hệ thố
ng nénmục
tổn hao.
Tín hiệu ngõ vào
đƣợc
biến
nhằm
đích biểu diễn một số liệu khác

thích hợp để nén hơn so với tín hiệu nguồn. Ở phía giải mã tín hiệu nén sẽ đƣợc
biến đổi ngƣợc lại để thu tín hiệu gốc. Một số phép biến đổi đƣợc áp dụng phổ
biến hiện nay nhƣ:
1.2.2.2 Điều xung mã vi sai DPCM
Các phƣơng pháp nén dùng DPCM dựa trên nguyên tắc phát hiện sự giống

nhau và khác nhau giữa các điểm ảnh gần nhau để loại bỏ các thơng tin dƣ thừa.
Trong DPCM chỉ có phần khác nhau giữa mẫu - mẫu đƣợc truyền đi, sự khác
nhau này đƣợc cộng vào giá trị mẫu đã giải mã hiện hành ở phía giải mã để tạo
ra giá trị mẫu phục hồi. Hình I.2. mơ tả sơ đồ khối của bộ mã hóa và giải mã
DPCM.


Bộ lượng tử

Bộ tiên đoán

Mã hóa entropy



Hình I.2. Bộ mã hóa và bộ giải mã DPCM

Ví dụ


10

Mẫu tín hiệu vào 115

117

Sự khác nhau

-1


2

116

117

118

1

1

117

115

-1

116

-2

1

-1

-2

Dịng bit đƣợc nén nhƣ sau:
115


2

-1

1

1

1
1.2.2.3 Mã hóa biến đổi
Nhằm biến đổi các hệ số trong miền thời gian (video số), không gian
2D (bức ảnh tĩnh) thành các hệ số trong miền tần số. Các hệ số này ít tƣơng
quan hơn có phổ năng lƣợng tập trung hơn, thuận tiện cho việc loại bỏ thơng
tin dƣ thừa.
Biến đổi cosin rời rạc (DCT)
Vì ảnh gốc có kích thƣớc rất lớn cho nên trƣớc khi đƣa vào biến đổi
DCT, ảnh đƣợc phân chia thành các MB biểu diễn các mức xám của điểm ảnh.
Việc phân khối này sẽ làm giảm đƣợc một phần thời gian tính toán các hệ số
chung, mặt khác biến đổi cosin đối với các khối nhỏ sẽ làm tăng độ chính xác
khi tính tốn với dấu phẩy tĩnh, giảm thiểu sai số do làm tròn sinh ra. Phép
biến đổi DCT cơ bản hoạt động dựa trên cơ sở ma trận vuông của mẫu sai số
dự đoán, kết quả cho ta một ma trận Y là những hệ số DCT đƣợc minh họa
nhƣ sau: Y = AXAT
Trong đó A là ma trận hệ số biến đổi, các thành phần của A nhƣ sau:
Ai , j  Ci cos

(2 j  1)i
2N


Với


C i 


C 
i


N 1 N 1

1
Nếu i = 0
N
2
N Nếu i > 0

Tƣơng đƣơng với Yx, y  C x C y  X i, j Cos
i 0 J 0

(2 j  1) y
(2i  1) x
Cos
2N
2N

Phép biến đổi DCT nguyên 4x4 của chuỗi ngõ vào X đƣợc cho bởi công thức



11

1
 2 cos 0

 1
 
 2 cos 8 
 

A 
1
 2 

cos

 2
 8 

 1 cos 3 


 2
 8 


1
cos 0
2


1
cos 0
2

1
cos 0
2

1
 3 
cos

2
 8 

1
 5 
cos

2
 8 

1
 7 
cos

2
 8 

1

 6 
cos

2
 8 

1
 10 
cos

2
 8 

1
 14
cos
2
 8

1
 9 
cos

2
 8 

1
 15 
cos


2
 8 

1
 21
cos
2
 8







 







Phép biến đổi ngược DCT cho bởi công thức:
X=ATYA
Tƣơng đƣơng với:
N 1 N 1

X i , j   C x C y Yx , y Cos
x 0 y 0


(2 j  1) y
(2i  1) x
Cos
2N
2N

Biến đổi Hadamard
Là một ví dụ tổng quát hóa của biến đổi Fourier rời rạc, nó thực hiện các
phép tốn cộng và trừ trên các ma trận 2m x 2m trực giao, đối xứng, tuyến
tính…đƣợc định nghĩa theo công thức sau:
H n1  H nT

trong đó Hn là ma trận NxN với N = 2m , m thƣờng là các giá

trị 1, 2 ,3 tƣơng ứng với các khối 2x2, 4x4, và 8x8, Hn đƣợc tạo ra từ phép
toán Kronecker nhƣ sau: Hn = H1  H1 .....  H1 n lần.
Ví dụ H2 = H1  H1
Với H1=

1 1 1 


2 1 1

1.2.2.4 Quá trình lượng tử
Sau khi thực hiện biến đối DCT, các hệ số sẽ đƣợc lƣợng tử hoá dựa trên
một bảng lƣợng tử Q(u,v) với 0≤u, v≤ n-1, n là kích thƣớc khối. Bảng này đƣợc
định nghĩa bởi từng ứng dụng cụ thể, các phần tử trong bảng lƣợng tử có giá trị
từ 1 đến 255 đƣợc gọi là các bƣớc nhảy cho các hệ số DCT. Quá trình lƣợng tử

đƣợc coi nhƣ là việc chia các hệ số DCT cho bƣớc nhảy lƣợng tử tƣơng ứng, kết
quả này sau đó sẽ đƣợc làm tròn xuống số nguyên gần nhất. Các hệ số năng
lƣợng thấp này, tƣợng trƣng cho các sự thay đổi pixel - pixel cỡ nhỏ, có thể bị
xóa mà không ảnh hƣởng đến độ phân giải của ảnh phục hồi. Tại bộ mã hố sẽ
có một bảng mã và bảng các chỉ số nội bộ, từ đó có thể ánh xạ các tín hiệu ngõ


12

vào để chọn đƣợc các từ mã tƣơng ứng một cách tốt nhất cho tập hợp các hệ số
đƣợc tạo ra. Có 2 loại lƣợng tử hóa chủ yếu:
1.2.2.5 Lượng tử hóa vơ hướng
Lƣợng tử từng giá trị một cách độc lập hay nói cách khác là ánh xạ một
mẫu của tín hiệu ngõ vào tạo thành một hệ số lƣợng tử ở ngõ ra. Đây là một quá
trình tổn hao vì khi giải lƣợng tử, khơng thể xác định chính xác giá trị gốc từ số
nguyên đã đƣợc làm trịn. Lƣợng tử hóa thuận theo cơng thức FQ =
round(X/QP)
Lƣợng tử hóa ngƣợc theo cơng thức Y = FQ*QP. Với QP là bƣớc nhảy
lƣợng tử. Ví dụ q trình giải lƣợng tử cho một tín hiệu ngõ vào nhƣ sau:
Y
X

QP = QP = QP = QP =
1

2

3

5


-4

-4

-4

-3

-5

-3

-3

-2

-3

-5

-2

-2

-2

-3

0


-1

-1

0

0

0

0

0

0

0

0

1

1

0

0

0


2

2

2

3

0

3

3

2

3

5

4

4

4

3

5


5

5

4

6

5







1.2.2.6 Lượng tử hóa VECTOR
Là một quá trình biểu diễn một tập vector (mỗi vector gồm nhiều giá trị)
bằng một tập các số hữu hạn các ký hiệu ở ngõ ra, bảng mã ánh xạ sẽ có các giá
trị xấp xỉ với giá trị gốc. Vector lƣợng tử sẽ đƣợc lƣu ở cả bộ mã hóa và bộ giải
mã, q trình nén một bức ảnh sử dụng lƣợng tử vector bao gồm các bƣớc sau.


13

 Phân chia bức ảnh gốc thành các phân vùng MxN pixel
 Chọn vector thích ứng nhất từ bảng mã
 Truyền chỉ số của vector thích ứng đến bộ giải mã.
 Tại bộ giải mã, ảnh cấu trúc lại sẽ xấp xỉ với phân vùng đã lựa chọn

vector lƣợng tử.
Và sơ đồ khối của lƣợng tử vector nhƣ sau:

Hình I.3. Q trình lượng tử vector

1.2.2.7 Q trình mã hóa
Bộ mã hóa có chức năng loại bỏ độ dƣ thừa trong các ký tự ở ngõ ra lƣợng
tử hóa và ánh xạ các ký tự này thành các từ mã tạo thành dịng bit ở ngõ ra bằng
các loại mã hóa nhƣ: mã hóa dự đốn, mã hóa VLC, mã hóa số học nhị phân,
mã hóa theo hình dạng…
Mã hóa độ dài thay đổi (VLC)
Kỹ thuật mã hóa độ dài thay đổi VLC dựa trên xác suất các giá trị biên
độ giống nhau trong một ảnh để lựa chọn các từ mã để mã hố. Bộ mã hóa có
độ dài thay đổi ánh xạ các ký hiệu ngõ vào thành một chuỗi từ mã có độ dài
thay đổi ở ngõ ra nhƣng chứa số lƣợng bít ngun. Các ký hiệu có xác suất
cao sẽ đƣợc gán từ mã có độ dài ngắn, cịn các ký hiệu có xác suất thấp sẽ


14

đƣợc gán từ mã có độ dài lớn hơn, do đó nó sẽ làm tối thiểu chiều dài trung
bình của từ mã. Tại phía giải nén có các chỉ định mã giống nhau đƣợc dùng để
khôi phục lại các giá trị dữ liệu gốc. Các loại mã hóa VLC cơ bản nhƣ: mã
hóa Huffman, mã hố RLC, mã hóa Exp-Golomb…
Mã hóa Huffman
Mã hóa Huffman là mã hóa thõa mãn tối ƣu tính prefix và phƣơng pháp
mã hóa thƣờng dựa vào mơ hình thống kê. Dựa vào dữ liệu gốc, ngƣời ta tính
xác suất xuất hiện của các ký tự. Việc tính tốn xác suất đƣợc thực hiện bằng
cách duyệt tuần tự tệp gốc từ đầu đến cuối và các ký tự nào có xác suất càng cao
thì từ mã càng ngắn nên giảm chiều dài trung bình của từ mã một cách rõ rệt.

Mã hóa Huffman thƣờng đƣợc biểu diễn dƣới dạng cây mã nhƣ sau:
1

0

0

0

1

0

u1

1

1

u3

u4

u2

0

1
u7


0

u5

u6

Hình I.4. Cây mã Huffman

Các bƣớc thực hiện mã hóa Huffman.
Bƣớc 1: Các nguồn tin đƣợc liệt kê trong cột theo thứ tự xác suất xuất hiện
giảm dần.
Bƣớc 2: Hai tin cuối có xác suất nhỏ nhất đƣợc hợp thành tin phụ mới có
xác suất bằng tổng xác suất các tin hợp thành.
Bƣớc 3: Các tin còn lại (N-2) với tin phụ mới đƣợc liệt kê trong cột phụ
thứ nhất theo thứ tự xác suất giảm dần.
Bƣớc 4: Quá trình cứ thế tiếp tục cho đến khi hợp thành một tin phụ có xác
suất xuất hiện bằng 1.


15

Mã hố mức dọc chiều dài (RLC)
Thơng thƣờng dữ liệu hay có sự trùng lặp, chẳng hạn nếu một bức ảnh
có cùng một màu, độ chói thì những vùng bên cạnh ảnh đó cũng giống nhƣ
vậy. Do đó có thể mã hóa bằng một từ mã đặc biệt nhằm chỉ báo sự bắt đầu và
kết thúc của giá trị lặp lại, mỗi hệ số khác 0 sau giá trị DC đƣợc phát hiện sẽ
đƣợc gán một từ mã gồm 2 thơng số: số lƣợng bit 0 đứng trƣớc đó và mức của
nó sau khi lƣợng tử, để tạo ra từ mã là một đơi (level và run), trong đó Level
biểu thị giá trị của bit và Run biểu thị số lần lặp lại của bit. Khi dữ liệu truyền
có sự trùng lặp thì truyền từ mã này thay cho nó. Hình I.5. minh họa mã hóa

RLC nhƣ sau :

Hình I.5. Minh họa mã hóa RLC

Từ dữ liệu đầu vào, giá trị 028 lặp lại 5 lần đƣợc mã hóa bằng 3 từ mã ở dữ
liệu đầu ra. Giá trị đầu tiên 255 đại diện cho cách mã hóa RLC, giá trị thứ 2 là
giá trị đƣợc lặp lại, giá trị thứ 3 là số lần lặp lại, nên thay vì truyền từ mã dài, ta
chỉ cần truyền 255 028 3.
1.2.2.8 Mã hóa số học
Điểm bất lợi cơ bản của mã hóa dọc chiều dài là việc tạo ra bảng tra
chứa tồn bộ số lƣợng bit trên mỗi mẫu nên khơng thật sự tối ƣu, vì số lƣợng


16

bit tối ƣu nhất cho một ký tự tùy thuộc vào nội dung thông tin, mà thƣờng là
những số rất nhỏ. Đối với những ký tự có xác xuất lớn hơn 0.5 thì hiệu suất
nén khơng cao, nó chỉ hiệu quả khi mã hóa những ký hiệu này bằng một từ
mã bit đơn. Cịn mã hóa số học thì dựa vào xác suất của nội dung thơng tin
nên cịn có tên gọi là mã hóa số học thích nghi theo nội dung, mã hóa số học
sử dụng các đặc tính về không gian và thời gian để ƣớc lƣợng khoảng xác suất.
Nó biến đổi luồng dữ liệu vào thành một phân số đơn lẻ, và sử dụng phân số
tối ƣu nhất để mã hóa dữ liệu, do đó hiệu quả nén của nó có thể đạt mức tối đa
mà giảm chi phí đầu tƣ cho lƣu trữ.
Giả sử ta có 5 giá trị vector chuyển động (−2, −1, 0, 1, 2) và xác suất của
nó nhƣ bảng dƣới đây. Mỗi vector sẽ đƣợc gán một ngƣỡng trong khoảng từ 0.0
đến 1.0 tùy thuộc vào xác suất xuất hiện của chúng. Ví dụ giá trị “-2” có xác
suất là 0.1 sẽ nằm trong khoảng từ 0->0.1 tức là bằng 10% của khoảng [0 1],
tƣơng tự giá trị “-1” có xác suất là 0.2 sẽ nằm trong khoảng từ 0.1->0.3 tức là
bằng 20% … Nhƣ vậy việc phân chia vùng riêng cho từng giá trị xác suất sẽ

thuận tiện cho việc mã hóa.
Vector

Xác suất

Lƣợng tin trung bình =

Khoảng chia nhỏ

-2

0.1

log3.32
(1/P)

0  0.1

-1

0.2

2.32

0.1  0.3

0

0.4


1.32

0.3  0.7

1

0.2

2.32

0.7  0.9

2

0.1

3.32

0.9  1.0

Các vector sẽ đƣợc chia nhỏ thành các khoảng nhỏ theo xác suất nhƣ sau:


17

Ví dụ q trình mã hóa cho chuỗi vector (0, −1, 0, 2) nhƣ sau:

Q trình mã hóa

Phạm vi


hiệu

(L  H)

(L  chia nhỏ

Khoảng

Chú thích

H)
Cài phạm vi bắt đầu

0  1.0

Tìm khoảng con tƣơng ứng

(0)

cho ký hiệu đầu tiên
Cài lại khoảng mới cho
khoảng con.

0.3  0.7

Tìm khoảng con tƣơng ứng

(-1)


cho ký hiệu tiếp theo
Cài lại khoảng bắt đầu mới
nằm trong khoảng trƣớc đó

0.3  0.7

0.1



0.3
0.34 = 10%

0.34  0.42

Tìm khoảng tíếp theo

0.42 = 30%
(0)

0.3  0.7

Cài lại khoảng bắt đầu mới 0.364→0.39

0.364 = 30%

nằm trong khoảng trƣớc đó

0.396 = 70%


6

Tìm khoảng tíếp theo

(2)

0.9-1.0

Cài lại khoảng bắt đầu mới 0.3928→

0.3928 = 90%

nằm trong khoảng trƣớc đó

0.396 = 100%

0.396

Sau mỗi lần mã hóa một ký hiệu thì phạm vi Low  High càng nhỏ dần
nhƣ minh họa ở hình I.6. Số lƣợng bit cần thiết để nén chuỗi dữ liệu đƣợc tính
bởi cơng thức:
log2(1/P0) + log2(1/P−1) + log2(1/P0) + log2(1/P2) = 8.28bits
Tồn bộ chuỗi dữ liệu có thể đƣợc truyền đi bởi bất kỳ một giá trị phân
số nào nằm trong khoảng 0.3928-0.396, giả sử giá trị 0.394 có thể đƣợc mã
hóa nhƣ là một phân số có dấu chấm tĩnh bằng từ mã 9 bit, do đó chuỗi vector
(0, -1, 0, 2) sẽ đƣợc nén bằng từ mã 9bits.


×