Đề tài 06:Phân tích đối tượng trong chuỗi video. Phát
hiện và bù chuyển động các đối tượng trong chuỗi video.
I)Phân tích đối tượng trong chuỗi video
Ngày nay với sự phát triển của các kỹ thuật nén ảnh Video và truyền thông,
ta hoàn toàn có thể gửi trực tuyến một lượng lớn ảnh Video số. Rất nhiều nhà cung
cấp nội dung đang phân phối video theo yêu cầu qua mạng Internet. Người dùng
tại nhà đang có các đường truyền băng thông rộng hoặc kết nối DSL để xem các
hình ảnh Video chất lượng cao. Trong khi lượng dữ liệu Video đang tăng lên
nhanh chóng, các ứng dụng đa truyền thông vẫn còn bị giới hạn trong những khả
năng quản lý nội dung. Do vậy, ngày nay càng đòi hỏi các kỹ thuật mới có thể xử
lý hiệu quả, mô hình hóa và quản lý nội dung Video.
Các đối tượng video là các thong tin rõ rang nhất trong dữ liệu Video, và
là tiêu chuẩn cho các nhận thức trực quan của con người. Nó thuộc về trực giác để
người dung mô tả hoặc ghi chú một cảnh quay hoặc đối tượng. Các nghiên cứu gần
đây trên MPEG-4 đã nhấn mạnh vấn đề nén ảnh trên cơ sở đối tượng. Có thể hình
dung là ta được phép truy cập và tác động tới các đối tượng một cách trực tiếp từ
chuỗi video đã được mã hóa. Điều này đã cung cấp một tiềm năng rất lớn cho các
ứng dụng tương tác đa truyền thông. Chuẩn MPEG-7, một giao diện mô tả nội
dung đa truyền thông, cũng định nghĩa một sơ đồ có thể tương tác với các cảnh và
đối tượng.
Cả hai chuẩn MPEG-4 và MPEG-7 không tiêu chuẩn hóa các phương pháp
và công cụ rút trích đối tượng hay đặc trưng. Khi video được biểu diễn dưới dạng
pixel thô những đối tượng và thông tin chứa nó phải được rút trích trước khi xây
dựng bất cứ mô hình nội dung nào trên cơ sở đối tượng. Trong khi MPEG-4 và
MPEG-7 đang trở thành những tiêu chuẩn quốc tế, các công cụ phân đoạn đối
tượng video và đặc trưng vẫn còn thiếu.
Ngày nay, các thuật toán phân đoạn tổng quát và linh hoạt được nghiên cứu
trong công trình. Từ đó cho thấy hệ thống thị giác con người không tính các biên
trên bất cứ tập thuộc tính nào. Một vấn đề điển hình với các hệ thống hiện nay là
chỉ một tập cố định đặc trưng được dung. Một phần từ những đặc trưng phổ biến
như màu sắc, cạnh và chuyển động, các cấu trúc không gian – thời gian cũng như
những quy luật bên dưới mà con người dung để nhận dạng đối tượng cũng rất quan
1
trọng. Một vấn đề khác là nếu không có một mô hình đối tượng thật tốt, sẽ khó khi
kết hợp nhiều đặc trưng khác nhau vào quá trình phân đoạn đối tượng. Nhiều đặc
trưng khác nhau có thể cho ra các phép nội suy đối tượng khác nhau. Để thỏa mãn
những yêu cầu này, chúng tôi đã phát triển một mô hình phân cấp nhằm biểu diễn
đối tượng và một sơ đồ phân đoạn và theo vết kết hợp nhiều đặc trưng trực quan.
Sơ đồ này bao gồm hai phần có quan hệ với nhau. Trước hết, chúng tôi phát
triển một thuật toán tự động phân đoạn và theo vết vùng ảnh dựa vào sự kết hợp
của màu săc, cạnh và chuyển động. Kết hợp với quá trình bù trừ chuyển động toàn
cục, chúng tôi nhận thấy là sự tự động rút các vùng video có thể được dùng để
phục hồi đối tượng video. Dựa trên phần đầu tiên chúng tôi phát triển một hệ thống
tự động phân đoạn đối tượng video có nghĩa. Một đối tượng có nghĩa thường tương
ứng với một đối tượng ở thế giới thực. Nhiều định nghĩa đối tượng có nghĩa được
đưa ra bởi người dùng hoặc dựa trên một số tri thức đặc thù. Các đối tượng này
được mô hình hóa như một cấu trúc nhiều mức và bao gồm tập các vùng với các
đặc trưng kết hợp. Một phương pháp gom nhóm và ánh xạmới được phát triển để
thu được các đối tượng có nghĩa từ các vùng ảnh đã được tự động theo vết. Sự
phục hồi đối tượng tại các mức vùng và ngữ nghĩa cho ta nhiều đặc trưng dồi dào
và mềm dẻo nhất để mô tả nội dung video trong nhiều ứng dụng liên quan.
II) Phát hiện và bù chuyển động các đối tượng trong chuỗi video.
(Motion Compensation: bù chuyển động)
1.Giới thiệu chung
Chúng ta biết rằng sự khác nhau giữa các ảnh liên tiếp trong film (movie)
rất nhỏ vì nó là kết quả của chuyển động của camera quay hoặc giữa hai ảnh, đặc
tính này được khai thác để làm tốt hơn cho việc nén ảnh. Nếu bộ mã hóa phát hiện
ra rằng phần P của ảnh trước đó chuyển đến vị trí khác trong ảnh hiện thời, thì P có
thể nén bằng cách ghi tiếp theo 3 trường (item) vào dòng nén, vị trí trước của nó, vị
trí hiện thời và thông tin để xác định các biên của P. Phần sau chúng ta sẽ nói đến
bù chuyển động dựa vào(Manning 98)
Về nguyên tắc một phần có thể có mẫu bất kỳ. Trong thực tế chúng ta giới
hạn các khối có kích thước như nhau (có thể hình vuông, chữ nhật), bộ mã hóa sẽ
2
scan lần lượt các khối trên ảnh hiện thời. Với mỗi khối B nó đi tìm trên ảnh trước
đó khối C giống hệt (nếu nén không mất thông tin) hoặc gần giống(nếu nén có mất
dữ liệu). Phát hiện ra khối như thế, bộ mã hóa sẽ viết vào dòng ra sự sai khác giá
trị vị trí hiện thời và vị trí đã gặp trước đó.
Sự sai khác này cho ở dạng (Cx − Bx, Cy − By) = (Δx,Δy).Nó được gọi là
vectơ dịch chuyển.
Hình dưới đây là ví dụ. Trong hình này mặt trời và các cây di chuyển về bên
phải(do camera chuyển động), trong khi đó cậu bé di chuyển một khoảng cách
khác về bên trái. (đó là cảnh chuyển động)
Bù chuyển động rất hiệu quả nếu object dịch chuyển nhưng không thay đổi
tỷ lệ hoặc không quay. Sự thay đổi nhanh cường độ sáng(illuminate) từ ảnh này
sang ảnh khác cũng làm giảm hiệu quả của phương pháp này. Nói chung bù
chuyển động cũng là kỹ thuật nén làm mất dữ liệu.
2. Đặt vấn đề
Vấn đề phát hiện và bù chuyển động trong chuỗi Video tự nhiên, bao gồm cả các
hình ảnh tĩnh đã được nghiên cứu và đưa vào áp dụng từ rất lâu. Vậy thế nào là phát hiện
3
và bù chuyển động trong chuỗi nguồn Video? Trước đây, việc này chỉ nhằm mục đích
diễn tả một cảnh Video rằng nó đang đứng yên hay chuyển động trong một định dạng để
cho phép truyền dẫn hoặc lưu trữ trong bộ nhớ. Do dung lượng của bộ nhớ và độ rộng
băng tần truyền dẫn là giới hạn, nên mục đích chính và cơ bản nhất của việc mã hoá tín
hiệu Video trong một khoảng thời gian dài là vấn đề nén tín hiệu. Trong bối cảnh như
vậy, mục đích chính của việc phát hiện và bù chuyển động trong nội dung Video là biểu
diễn các tín hiệu Video bằng một số dữ liệu nhất định có thể với một chất lượng xác định
hoặc nói cách khác là đạt được chất lượng hình ảnh tốt nhất với một tỷ lệ bit xác định.
Nói chung việc đánh chỉ số tự động dựa trên nội dung ngữ nghĩa của dữ liệu video
luôn là vấn đề thời sự. Trong quá trình chỉ số hoá dữ liệu video, bước quan trọng đầu tiên
là phân đoạn dữ liệu video theo thời gian. Bước này nhằm mục đích phân chia dòng
video liên tục thành các đơn vị cơ sở có ý nghĩa là các lia (shot) hoặc các cảnh (scene).
Phân đoạn video thực chất là phát hiện trong một chuỗi (sequence) videoranh giới giữa
các lia hoặc các cảnh. Hiện nay, kỹthuật phát hiện cắt lia đã đạt được các kết quả khá tốt
và hầu như được tự động hoá hoàn toàn. Ngược lại, kỹthuật phát hiện các chuyển lia từ
từ(chuyển lia phức tạp) vẫn gặp rất nhiều khó khăn. Nguyên nhân chính là do khó có
thểphân biệt chính xác những thay đổi nội dung hình ảnh trong các khung (frame) liền kề
dochuyển lia và do chuyển động của camera và các đối tượng gây ra. Trong thực tế các
chuyển lia từ từ luôn được sử dụng để nhấn mạnh sự thay đổi nội dung ngữnghĩa trong
dòng video. Vì thế việc phát hiện các chuyển lia từ từ có một ý nghĩa quan trọng trong
việc phát hiện ranh giới các cảnh. Và nó là vấn đề then chốt trong quá trình chỉ số hoá tự
động dựa trên nội dung ngữ nghĩa video.
Thực tế, đây là một trong những dạng chuyển lia khó phát hiện nhất và đang được
quan tâm nghiên cứu. Nguyên nhân chính dẫn đến các sai sót trong phát hiện chuyển lia
từ từ là vấn đề phân biệt giữa những thay đổi nội dung hình ảnh trong các khung liền kề
do chuyển lia với những thay đổi do chuyển động của camera và đối tượng. Kỹ thuật đề
xuất ở đây dựa trên việc đo sự sai lệch nội dung hình ảnh của các khung ở cách xa
nhaumột khoảng (không phải là các khung liền kề) và sửdụng ước lượng chuyển động
nhờ đánh dấu những vùng cần thiết trong khung video.
3. Bù chuyển động trong chuẩn nén MPEG
Trong tất cả các trường hợp, khi một ảnh mã hoá dùng khung tham khảo thì luôn
dùng kỹ thuật bù chuyển động để nâng cao hiệu suất nén. Sau đây, chúng ta sẽ đề cập đến
phương pháp bù chuyển động.
Các phương pháp bù chuyển động: có hai cách là bù chuyển động ước đoán và nội
suy. Phương pháp ước đoán bù chuyển động giả thiết ảnh hiện tại là một phép biến đổi từ
ảnh trước đó, nghĩa là biên độ và hướng dịch chuyển không cần thiết phải giống ảnh
trước đó. Phương pháp nội suy bù chuyển động là kỹ thuật nhiều độ phân giải: chỉ mã
4
hoá một tín hiệu phụ với độ phân giải thấp (khoảng 1/2 đến 1/3 tốc độ khung). Ảnh có độ
phân giải đầy đủ sẽ được xây dựng lại qua nội suy ảnh có độ phân giải thấp cộng thêm
thành phần sửa sai. Đơn vị xử lý ảnh mà MPEG sử dụng là macroblock (MB) 16 × 16
điểm ảnh. Trong ảnh mã hoá nội suy, các MB có thể là loại nén trong khung hay nén liên
khung. Trong kỹ thuật ước đoán chuyển động, nếu sử dụng kỹ thuật so sánh khối (BMA-
BlockMatchingAlgorithm)thì sẽ thu được các vectơ chuyển động theo tiêu chí tối thiểu
hoá sai số giữa khối cần tìm vectơ chuyển động và mỗi khối ứng cử.
Hình 3-6 Các vectơ thu được trong kỹ thuật so sánh khối
4.Kỹ thuật bù chuyển động trong MPEG-4.
4.1. Giới thiệu chung về MPEG – 4:
Tiêu chuẩn MPEG-4 về hình ảnh [MPEG4-2] bao gồm một số các công cụ dùng
để mã hoá các hình ảnh tự nhiên như chuỗi các ảnh liên tục (Video) cũng như các ảnh
tĩnh (Visual texture- cấu trúc nghe nhìn). Ở đây, việc mã hoá Video được dựa trên cơ sở
của sơ đồ mã hoá DCT lai có bù chuyển động, còn mã hoá cấu trúc nghe nhìn (Visual
texture) - VTC thì dựa trên cơ sở chuyển đổi Wavelet và mã hoá cây Zero.
Mã hoá MPEG-4 ngoài việc quan tâm đến các hiệu quả mã hoá giống như các tiêu
chuẩn mã hoá trước đây còn bổ sung thêm một số công cụ cho các chức năng khác như:
mã hoá các đối tượng có hình dạng bất kỳ; nén hiệu quả của các tín hiệu Video liên tục
5
và hình ảnh tĩnh trên một phạm vi rộng của tỷ lệ bit; phân cấp về không gian, thời gian và
chất lượng; và cuối cùng là khả năng truyền dẫn tốt trong môi trường truyền dẫn khắc
nghiệt.
Những tính năng tiên tiến này đã trợ giúp đắc lực cho việc sáng tạo ra những hình
ảnh Video độc đáo cũng như các ứng dụng phức tạp của truyền thông đa phương tiện.
Đặc biệt, khả năng để mã hoá các đối tượng có hình dạng và kích thước bất kỳ trở nên
vượt trội hẳn so với các tiêu chuẩn mã hoá hình ảnh trước đây. Nó cho phép tạo ra những
hình ảnh vựơt ra khỏi giới hạn của phương pháp mã hoá dựa trên nguyên tắc khuôn hình
gốc quen thuộc trước đây và thực sự mở ra một cơ hội mới cho những ứng dụng trong
tương lai gần.
Khả năng nén hiệu quả hình ảnh tĩnh và động với một khoảng tỉ lệ bit rộng bằng
các công cụ mã hoá dựa trên nội dung đối tượng của MPEG-4 cho phép nhận được những
phần hình ảnh có chất lượng tốt nhất gần như không bị tổn hao trên nền của phép nén có
tổn hao với một tỷ lệ bit yêu cầu trước được quy định bởi từng ứng dụng cụ thể.
Vấn đề mã hoá phân cấp chất lượng đặc biệt được quan tâm cho các ứng dụng
khác nhau. Đối với thông tin di động, một hệ thống truyền dẫn phân cấp có thể được sử
dụng, trong đó lớp tín hiệu cơ sở được bảo vệ đặc biệt để chống lại các sai số gây ra do
kênh truyền dẫn bằng cách áp dụng những mã sửa sai hiệu quả đối với dòng bit tín hiệu
cơ sở. Đối với các ứng dụng Video server, mã phân cấp cho phép người sử dụng truy cập
tín hiệu Video với các tốc độ bit khác nhau mà không cần nhiều kiểu mã hoá cũng như
nhiều bộ nhớ các dòng bit Video riêng rẽ với độ phân giải hay cấp chất lượng khác nhau.
Để có thể truyền dẫn trên một mạng hữu tuyến cũng như vô tuyến có nhiều khả
năng gây ra sai sót, MPEG-4 đã đưa ra công cụ mã hoá co giãn sai số (Error-resilience
coding tool). Tuỳ thuộc vào kênh truyền dẫn, bộ công cụ này có thể thay thế hoặc bổ
sung thêm mã hoá kênh để cải thiện chất lượng dịch vụ (QoS).
Điểm cuối cùng cần nhắc tới là mã hoá nội dung Video MPEG-4 (VTC) cung cấp
một công cụ hiệu quả cho việc nén các tín hiệu hình ảnh tĩnh, dựa trên biến đổi Wavelet
và mã hoá cây Zero (Zero – tree coding). Nó có thể kết hợp với các công cụ mã hoá hình
khối MPEG-4 và nhờ đó nó có những tính năng như các công cụ mã hoá Video khác. Sự
kết hợp giữa VTC và các công cụ mã hoá Video tự nhiên cho phép mã hoá cả hai trường
hợp ảnh tĩnh và ảnh động và nhờ đó mà MPEG-4 được xác nhận như một tiêu chuẩn độc
lập. Trong khuôn khổ bài viết này chúng tôi chỉ phân tích riêng về kỹ thuật bù chuyển
động áp dụng trong MPEG-4.
6
Trong mã hoá Video MPEG-4 có hai phần chính: Mã hoá đối tượng Video hình
vuông (Rectangular video object) và mã hoá đối tượng Video có hình dạng bất kỳ
(Arbitrarily shaped object). Kỹ thuật bù chuyển động áp dụng cho hai phần này cũng
khác nhau. Sau đây chúng ta sẽ lần lượt nghiên cứu kỹ thuật bù chuyển động của từng
phần.
4.2. Kỹ thuật bù chuyển động của mã hoá đối tượng Video hình vuông trong
MPEG-4:
Về mặt nguyên lý, một đối tượng Video hình vuông có nguồn gốc từ một ảnh
(Frame) được sử dụng quen thuộc trong các tiêu chuẩn nén Video trước đây như MPEG-
1, MPEG-2, H.261 và H.263. Do vậy, về mặt nguyên lý, mã hoá Video hình vuông trong
MPEG-4 cũng giống như của các tiêu chuẩn nén trước đây - Đó là mã hoá lai trên cơ sở
bù chuyển động khối. Tuy nhiên, có một số phát triển được giới thiệu bởi các công cụ
mới hoặc một số thuật toán cải tiến. Phần trình bày dưới đây sẽ miêu tả tóm tắt về thuật
toán mã hoá rễ cây (root coding algorithm) và chuyên sâu về bộ công cụ mới và các thuật
toán được sử dụng trong MPEG-4 Visual [MPEG4-2].
4.2.1. Tổng quan.
Với mã hoá đối tượng Video hình vuông, chỉ có phần chuyển động và những
thông tin về cấu trúc được truyền tới bộ giải mã. Thông tin về hình khối (Shape
information) không được truyền và do vậy không cần thiết phải có bộ mã hoá và giải mã
hình khối. Bộ mã hoá của MPEG-4 dựa trên cơ sở của giải pháp mã hoá lai trên cơ sở bù
chuyển động khối có sơ đồ khối như hình 2.1
7
Hình 2.1 chỉ ra sơ đồ khối của quá trình giải mã Video MPEG-4. Do trong mã hoá
đối tượng Video hình vuông không yêu cầu thông tin về hình khối nên các khối trong
hình vẽ 2.1 tương ứng với các chức năng về hình khối được biểu diễn bằng các đường
đứt nét. Các khối còn lại của sơ đồ khối này dành để giải mã và bù chuyển động cho phần
cấu trúc. So với các giải pháp mã hoá lai trên cơ sở hình khối khác đã biết, ta thấy toàn
bộ các khối trong sơ đồ khối này đều được cải tiến bằng các công cụ hoặc các thuật toán
mới.
Vì nguyên lý của mã hoá lai trên cơ sở hình khối đã tương đối quen thuộc nên ở
đây chúng tôi chỉ có một số miêu tả hết sức ngắn gọn về kỹ thuật mã hoá này. Mỗi một
hình ảnh của chuỗi Video được coi như một Video Object Plane (VOP) hình vuông và
việc mã hoá mỗi một VOP được biểu diễn theo hình khối, nghĩa là mỗi VOP được phân
chia thành các Macroblock (MB) có kích thước 16x16 cho tín hiệu chói và tín hiệu màu
tương ứng tuỳ thuộc vào tỷ lệ lấy mẫu cụ thể (4:2:2; 4:2:0; 4:1:1 ) Có hai kiểu mã hoá:
Intra mode: Các giá trị chói (Y) và màu (U,V) của mỗi MB được mã hoá hoàn
toàn độc lập với các VOP tiếp theo;
Inter mode: Các giá trị chói và màu của các MB khác nhau có mối liên hệ với các
giá trị trước hoặc sau của các VOP được mã hoá.
8
Ưu điểm của Inter mode là nhìn chung các hình ảnh của chuỗi Video không thay
đổi toàn bộ giữa hai hình ảnh liên tiếp (hoặc giữa các VOP trong khái niệm MPEG-4).
Do vậy, không phải truyền tới bộ giải mã toàn bộ hình ảnh mà chỉ là một phần rất nhỏ sự
khác nhau giữa hình ảnh trước đó với hình ảnh tiếp theo (hoặc là sự kết hợp giữa chúng),
phần này được gọi là ảnh tham chiếu (Reference image).
Bộ giải mã hiểu được phần ảnh tham chiếu nên có thể tái tạo được hình ảnh hiện
tại bằng cách cộng với tín hiệu phần khác nhau nhận được. Nguyên lý này còn được nhắc
đến như là mã hoá dự đoán, trong đó bộ mã hoá trước tiên tính toán các giá trị dự đoán và
sau đó truyền đi chỉ phần sai số dự đoán.
Trong mã hoá lai bù chuyển động trên cơ sở hình khối, phần dự đoán này được
cộng vào chuyển động của khuôn hình capture và do vậy được gọi là dự đoán bù chuyển
động. Thông tin chuyển động được tính toán và mã hoá như một thông tin phụ, tại bộ giải
mã sẽ tiến hành tách bỏ phần dự báo bù chuyển động này khỏi tín hiệu. Tuỳ thuộc vào
loại thuật toán mà thông tin chuyển động này được biểu diễn khác nhau. Trong MPEG-4,
hai loại chuyển động được định nghĩa cho mức MB là:
1MV mode: Một vec tơ chuyển động (MV) được truyền cho một Macroblock
(MB)
4MV mode: một Macroblock (MB) được chia ra làm bốn khối 8x8 và mỗi một
MV được truyền cho một khối này và do vậy có 4 MV cho một MB hoàn chỉnh.
Một VOP có thể được mã hoá bằng một trong hai loại dự đoán: Đối với các VOP
dự đoán (P-VOP), hình ảnh tham chiếu là một trong hai VOP mã hoá trong (Intra coded -
I-VOP) hoặc P-VOP được giải mã trước đó, trong khi đối với các VOP dự báo hai chiều
(B-VOP) có thể sử dụng cả hai loại I-VOP và P-VOP cho việc dự báo.
Việc tính toán thông tin chuyển động nhờ vào phép ước lượng chuyển động. Bởi
vì vấn đề tính toán chuyển động được thực hiện bằng bộ mã hoá do vậy bản thân tiêu
chuẩn không yêu cầu chỉ rõ cách thực hiện như thế nào, vì lẽ đó nó có thể được thực hiện
bằng nhiều cách khác nhau nhưng đều phải thoả mãn điều kiện không được ảnh hưởng
đến tính liên hoạt (Interoperability).
Đối với mã hoá cấu trúc (thông tin chói và thông tin màu) vẫn sử dụng cùng một
loại thuật toán cho các loại Intra mode và Inter mode. Điểm khác nhau là trong Intra
mode, giá trị chính xác của cấu trúc được mã hoá, trong khi Inter mode giá trị mã hoá là
sai số dự đoán. Mã hoá cấu trúc dựa trên cơ sở 2D 8x8 DCT với lượng tử hoá và mã hoá
Entropy các hệ số chuyển đổi.
9
4.2.2. Những công cụ bù chuyển động mới.
Hơn nữa, mã hoá dự đoán còn được dùng cho một số hệ số chuyển đổi được nhắc
đến như là dự đoán AC/DC.
Phần này đề cập đến những cải tiến nâng cấp của các công cụ và thuật toán áp
dụng cho mã hoá lai bù chuyển động trên cơ sở hình khối được giới thiệu bởi tiêu chuẩn
MPEG-4 Visual (MPEG4-2). Trước tiên là những phân tích về cấu trúc dự đoán thời
gian, sau đó là trình bày về những công cụ và thuật toán:
Bù chuyển động một phần tư pixel (Quarter-pel motion-compensation): Thuật toán
bù chuyển động sử dụng các MV với giải pháp tăng độ phân giải của một phần tư pixel
thay vì độ phân giải chỉ một nửa hoặc cả một pixel như các tiêu chuẩn trước đây như
H.261, H.262, MPEG-1 Video và MPEG-2 Video. Điều này cho phép cải thiện đáng kể
khả năng dự đoán và giảm thiểu sai số dự đoán.
Bù chuyển động toàn phần (Global motion compensation): Một tập hợp các thông
số được mã hoá cho một VOP hoàn chỉnh biểu diễn bằng chuyển động toàn phần VOP.
Các thông số này có thể được sử dụng luân phiên cho các MV của MB để bù chuyển
động. Công cụ này là đặc biệt quan trọng đối với chuỗi chuyển động toàn phần (ví dụ
hình ảnh thu được từ một Camera chuyển động) và với chuyển động không tịnh tiến như
Zoom hoặc quay Camera.
Mode trực tiếp trong dự đoán hai chiều: Đây là cải tiến của dự đoán bù chuyển
động hai chiều có sử dụng các MV của các P-VOP lân cận nhằm giảm tốc độ bit yêu cầu
cho mã hoá các MV của B-VOP. Nó là sự tổng quát hoá các khung hình PB (PB frame)
đã được giới thiệu trong tiêu chuẩn H.263.
4.2.3. Cấu trúc dự đoán thời gian.
Để hiểu rõ về thuật toán và thuật ngữ bù chuyển động, ta cần làm rõ khái niệm cấu
trúc dự đoán thời gian. Một I-VOP không tham khảo bất kỳ một VOP nào khác (không
có VOP tham chiếu), nó được mã hoá hoàn toàn theo kiểu Intra mode. Trong khi đó, các
P-VOP được gọi là tham chiếu trước, chúng được xác định khi hầu hết các I-VOP hoặc
P-VOP của thông tin đã được truyền dẫn vừa mơí được giải mã. Cuối cùng, các B-VOP
có thể là phần tham chiếu trước, cũng có thể là phần tham chiếu sau, chúng được xác
định tiếp theo khi hầu hết các I-VOP hoặc P-VOP vừa mơí được giải mã. Trong trường
hợp không có thông tin đã được truyền trước đó để làm tham chiếu sau thì chỉ có phần
tham chiếu trước sử dụng bởi dự đoán của B-VOP.
4.2.4. Bù chuyển động một phần tư.
10
Các MV được sử dụng cho dự đoán bù chuyển động bắt buộc phải được truyền tới
bộ giải mã. Tuy nhiên, độ phân giải của các MV phải được giới hạn bởi một con số xác
định. Trong các thuật toán bù chuyển động trước đây như H.261, chỉ sử dụng loại cả một
pixel nên các thành phần của MV bị giới hạn bởi một số nguyên. Bởi vì nhìn chung,
chuyển động thực giữa hai hình ảnh liên tiếp của chuỗi thường không được miêu tả một
cách chính xác bằng các bước của một pixel, sự hạn chế về độ phân giải này dẫn đến sai
số trong dự đoán bù chuyển động và làm tăng sai số dự đoán.
Các thuật toán bù chuyển động ra đời sau này đã tăng độ phân giải thành một nửa
pixel và nhờ vậy các thành phần của các MV có thể lấy giá trị một nửa hoặc cả một pixel.
Đây là trường hợp của MPEG-1 Video, MPEG-2 Video và H.263; công cụ này làm tăng
hiệu quả mã hoá trong kỹ thuật nén. Một thành phần chính của bù chuyển động một nửa
pixel là bộ lọc lấy mẫu nội suy. Nó yêu cầu trong trường hợp các MV một nửa pixel nhờ
vào vị trí ở trong hình ảnh tham chiếu (hoặc VOP) giữa hai mẫu hình ảnh (trong thực tế
là hai mẫu ảo). Tuy nhiên, giá trị dự đoán không thể lấy trực tiếp từ hình ảnh tham chiếu,
nhưng bắt buộc phải được tính toán từ các mẫu lân cận.
Đối với các MV với độ phân giải một nửa pixel có các vị trí khác nhau trong hình
ảnh tham chiếu nơi mà chúng có thể được chỉ ra. Thứ nhất, tại vị trí a, cả hai thành phần
MV đều là cả một pixel, do vậy không cần các mẫu nội suy. Thứ hai, tại các vị trí b và c,
một trong các thành phần MV bằng một nửa pixel, do vậy mà giá trị mẫu cho chúng được
tính từ các mẫu liền kề bằng phép nội suy hai chiều, nghĩa là b = (A + B + 1)/2 và c = (A
+ C + 1)/2 (tất cả các giá trị này là giá trị màu và chói). Tại vị trí d, cả hai thành phần MV
đều là một nửa pixel và các giá trị mẫu sẽ được tính toán bởi nội suy hai chiều từ tất cả
bốn mẫu liền kề theo công thức: d = (A+ B + C +D + 2)/ 4.
Sau khi kỹ thuật bù chuyển động một nửa pixel đã xác lập, có rất nhiều cố gắng
nhằm tăng độ phân giải của các MV. Tuy nhiên, trong hầu hết các trường hợp thì sai số
dự đoán đều không thể giảm một cách đáng kể bằng sử dụng các MV một phần tư pixel,
trong khi tốc độ bit dành cho thông tin chuyển động lại tăng lên. Trong MPEG-4, đã chỉ
ra rằng tăng độ phân giải MV chính là tăng hiệu quả mã hoá. Tại vì cải thiện quá trình nội
suy mẫu tức là làm tăng thêm thành phần aliasing trong hình ảnh. Qúa trình này được
miêu tả chi tiết dưới đây.
11
Quá trình nội suy một phần tư mẫu có thể phân chia thành hai bước. Bước thứ
nhất, một nửa pixel được tính toán bằng phép nội suy cải tiến. ở đây không chỉ hai hoặc
bốn mẫu liền kề được sử dụng cho phép nội suy mà là tám mẫu liền kề trong mỗi hướng
(chiều ngangvà chiều đứng) được sử dụng. Để thực hiện nội suy, một bộ lọc xung có đáp
tuyến hữu hạn (FIR) được sử dụng.
Đối với mod dự đoán chuyển động một nửa pixel, bình thường thì một khối (8 +1)
x (8 + 1) pixel được đọc từ VOP tham chiếu. Vị trí của khối tham chiếu này được xác
định bởi bộ giải mã MV. Khối tham chiếu bao gồm nhiều hơn một hàng và nhiều hơn
một cột so với khối 8x8 được dự đoán để cho phép nội suy mẫu hai chiều pixel con tại
biên của khối. Đối với bù chuyển động một phần tư pixel phải dùng thêm ba pixel ngoài
khối tham chiếu cho việc nội suy bởi vì đã áp dụng bộ lọc FIR 8 nhánh. Vì lý do như vậy
nên khối tham chiếu là phần mở rộng đối xứng tại biên của khối bởi ba mẫu và được gọi
là gương đường biên khối.
Gương đường biên khối được sử dụng để giảm nhỏ độ rộng băng thông yêu cầu
của quá trình dự báo bù chuyển động. Nếu không dùng gương thì ba giá trị cộng thêm
vào ngoài khối tham chiếu sẽ có tổng cộng (8+7) x (8+7)4 = 225 mẫu bắt buộc phải đọc
từ bộ nhớ cấu trúc VOP. Trong khi nếu có sử dụng gương thì số mẫu sẽ là (8+1) x (8+1)
= 81, và nhờ đó đã giảm được 64% độ rộng băng tần yêu cầu.
4.2.5. Bù chuyển động toàn phần.
Khi chuyển động toàn phần được sử dụng trong khuôn hình Video thì có thể sử
dụng chỉ một tập tham số chuyển động cho dự báo chuyển động của một VOP
hoàn chỉnh. Tuy nhiên, các thông số chuyển động toàn phần không thể luôn thích
hợp cho một VOP hoàn chỉnh. Một cách tổng quát chúng cho phép dự đoán tốt cho
một vùng xác định của VOP, trong khi với vùng khác dự đoán có thể dẫn đến
những sai số đáng kể. Vì lẽ đó, trong MPEG-4, bù chuyển động toàn phần (GMC)
được áp dụng một cách luân phiên cho bù chuyển động cục bộ.
Khi GMC được sử dụng thì các thông số chuyển động toàn phần được truyền đi
trong phần đầu (Header) của VOP. Sau đó, với mỗi một Macroblock bộ mã hoá
quyết định sử dụng các thông số GMC hay các MV ước lượng của MB. Thông tin
cho một MB, GMC hay bù chuyển động cục bộ được áp dụng và được truyền đi
như là một thông tin đi kèm cho mỗi một Macroblock (MB).
Các thông số chuyển động toàn phần trong MPEG-4 được truyền đi là một tập
hợp của bốn MV cho một VOP. Thêm vào đó, với mỗi một MV này tương ứng với
vị trí tham khảo của VOP hiện tại được xác định. Lấy ví dụ, các MV GMC có thể
12
được đặt tại bốn góc của VOP như trên hình 2.7.
Trong ví dụ của hình 2.7, bù chuyển động toàn phần của một MB có thể
miêu tả như sau: Đối với mỗi một pixel trong MB, một MV được tính toán từ các
MV GMC và vị trí tham khảo của chúng. Điều này có thể lặp lại như một dạng của
phép nội suy của các MV GMC cho mỗi một vị trí trong MB. Độ phân giải cuả các
MV nội suy này được quy định bởi bộ mã hoá để bảo đảm những kết quả đặc biệt
tại bộ mã hoá và giải mã. Với mỗi pixel của MB có một dự đoán bù chuyển động
được tạo ra bằng cách sử dụng MV nội suy tương ứng. Qúa trình này cũng được
nhắc đến như một quá trình làm sai lệch (warping). Nó được sử dụng không chỉ
cho bù chuyển động toàn phần mà còn cho sự mã hoá ảo.
Trong trường hợp độ phân giải pixel con của các MV sai lệch, các giá trị được
tính toán bằng phép nội suy hai chiều như minh hoạ trên hình 2.8.
Ở đây, Y00, Y01, Y10 và Y11 biểu diễn các giá trị mẫu từ VOP tham chiếu và
13
Y biểu diễn giá trị dự đoán yêu cầu định vị tại một vị trí, như chỉ ra trên hình vẽ
2.8, phép nội suy được thực hiện như sau:
Y= (N-n)/N.(M-m)/M. Y00 + (N-n)/N. m/M. Y01+n/N.(M-m)/M. Y10 +
n/N.m/M. Y11
4.2.6.Bù chuyển động trong mã hoá đối tượng Video có hình dạng bất
kỳ.
Mỗi một VOP của một đối tượng Video có hình dạng bất kỳ được đặc trưng bởi
các thành phần YUV của nó, và trong trường hợp các VOP không phải là hình
vuông thì chúng được đặc trưng bởi thành phần hình dạng (Shape). Trong MPEG-
4, thông tin về hình dạng được thể hiện bằng các mặt nạ Alpha (Alpha mask).
Một mặt nạ Alpha xác định mức độ trong suốt của một VOP. Trong một mặt nạ
Alpha mức xám, độ trong suốt được thể hiện bằng một nhóm 8 số nguyên, có thể
có các giá trị biến đổi từ 0 đến 255. Mức 0 tương ứng với các pixel hoàn toàn trong
suốt, còn mức 255 tương ứng với các pixel hoàn toàn tối; ở giữa hai mức giá trị
này là tương ứng với các pixel kém trong suốt hơn, nhưng không hoàn toàn tối.
Với mặt nạ Alpha nhị phân chỉ sử dụng hai mức là hoàn toàn trong suốt (0) và
hoàn toàn tối (255). Một đối tượng Video chỉ được xác định với các pixel mà giá
trị Alpha (A) là lớn hơn 0, nghĩa là với các pixel này của VOP là không hoàn toàn
trong suốt.
Cả hai loại mặt nạ Alpha này đều đuợc dùng trong MPEG-4, tuỳ thuộc vào từng
ứng dụng cụ thể. Do vậy có hai bộ công cụ mã hoá hình dạng ngoài dùng cho mặt
nạ Alpha nhị phân và mức xám. Tương ứng với các bộ mã hoá này có các bộ công
cụ đặc biệt được sử dụng cho việc dự đoán bù chuyển động và mã hoá kết cấu mặt
ngoài của các macroblock đường biên.
Hiệu quả mã hoá của các mặt nạ Alpha nhị phân là một thuật toán cải tiến chính
của mã hoá Video MPEG-4. Mã hoá nhị phân hình dạng ngoài được thực hiện theo
hình khối, nghĩa là với mỗi một MB các giá trị Alpha được mã hoá một cách riêng
biệt. Tại bước tiếp theo, các MB với các giá trị Alpha sẽ được nhắc đến như là các
khối Alpha nhị phân (BAB). Do vậy, mặc dù các biểu thị chính xác của các giá trị
Alpha là từ 0 đến 255 nhưng đối với mã hoá nhị phân hình dạng ngoài thì chỉ sử
dụng hai giá trị 0 và 1.
Ý tưởng chính của thuật toán mã hoá nhị phân hình dạng ngoài là mã số học dựa
trên cơ sở nội dung (CAE). Nó bao gồm mã số học của các giá trị Alpha phụ thuộc
vào nội dung phải được tính toán cho toàn bộ các giá trị sẽ được mã hoá. Các giá
trị Alpha của một BAB được mã hoá theo pixel sử dụng mã hoá số học. Bộ mã hoá
này quy định các từ mã từ giá trị nhị phân 0 hoặc 1 tuỳ thuộc vào xác suất thống
kê. Xác suất này tuỳ thuộc vào nội dung của các phần tử hình dạng ngoài (pixel
14
Alpha) sẽ được mã hoá. Với mỗi nội dung có thể, xác suất thống kê phải được định
lượng sẵn sàng bằng cách sử dụng các mặt nạ Alpha nhị phân đặc biệt. Các giá trị
xác suất này là một phần của đặc tính của MPEG-4 Visual [MPEG4-2] được sử
dụng như là các thông số trong bộ mã hoá số học.
Cũng như với các giá trị YUV, mã hoá Alpha có một mode mã hoá Intra và một
mode mã hoá Inter sử dụng bù chuyển động; không giống như mã hoá cấu trúc
ngoài bắt buộc phải sử dụng cùng một loại mode (hoặc là Inter mode hoặc là Intra
mode) cho toàn bộ các MB của một VOP. Bù chuyển động hình dạng ngoài sử
dụng các MV độc lập với các MV kết cấu mặt ngoài. Tuy nhiên, bù chuyển động
hình dạng ngoài được thực hiện cũng giống như với bù chuyển động kết cấu mặt
ngoài cộng thêm các hạn chế sau:
1. Độ phân giải của các MV hình dạng ngoài được giới hạn bởi một pixel;
2. Bù chuyển động luôn luôn được thực hiện cho một MB hoàn chỉnh, chỉ sử
dụng một MV cho một MB hoàn chỉnh (Không sử dụng mode 4 MV);
3. Trong trường hợp của B-VOP, hoặc I-VOP hoặc P-VOP trước đó hay kế
tiếp được dùng để làm tham chiếu, tuỳ thuộc vào việc nó gần hơn VOP hiện tại
trong thứ tự hiển thị (nghĩa là không có bù chuyển động hai chiều được thực hiện).
Trong MPEG-4, các VOP có hình dạng ngoài bất kỳ được sử lý và mã hoá theo
hình khối và sử dụng ba dạng khác nhau của các Macroblock có sẵn là: Trong suốt,
mờ và đường biên. Đối với các MB trong suốt, chỉ có các thông tin về hình dạng
ngòai được truyền đi. Các MB mờ được mã hoá như các VOP hình chữ nhật. Còn
đối với các MB đường biên sẽ được áp dụng một số công cụ mã hoá đặc biệt.
4.3.8. Bù chuyển động cho các MB đường biên.
Trong trường hợp các VO có hình dạng ngoài bất kỳ, VOP tham chiếu dùng cho
dự đoán bù chuyển động (Motion-compensated prediction MCP) cũng có hình
dạng ngoài bất kỳ. Vì vậy có thể xảy ra trường hợp MV đề cập đến các pixel trong
suốt trong VOP tham chiếu có thể không cho ra một kết quả dự đoán hữu hiệu. Để
ngăn ngừa tình trạng này, VOP tham chiếu được tạo ra từ VOP đã được giải mã
trước đó bằng quá trình xử lý đệm. Trong quá trình xử lý này, toàn bộ các pixel
trong suốt của VOP tham chiếu được quy về giá trị kết cấu ngoài mà được trích từ
các pixel không trong suốt trong cùng một VOP. Đối với các MB đường biên và
các MB trong suốt, một thuật toán đệm khác được áp dụng. Thuật toán đệm này
được chuẩn hoá để đảm bảo rằng mỗi bộ giải mã tạo ra các VOP tham chiếu chính
xác.
Trước tiên các Pixel Alpha trong suốt được lấp đầy bởi các giá trị đường biên
15
sao chép lại theo chiều nằm ngang và sau đó là chiều thẳng đứng. Trong trường
hợp có hai giá trị đường biên tương ứng cho một Pixel Alpha trong suốt thì giá trị
thực của nó được sử dụng.
Các MB đường biên được đệm bởi chuỗi đệm về chiều ngang và chiều đứng.
Nguyên lý của quá trình này được miêu tả trên hình 2.10 với ví dụ khối 8x8. Trong
hình vẽ này, các Pixel Alpha đường biên VOP được ký hiệu bởi A và B; Các pixel
Alpha bên trong VOP được ký hiệu bởi chữ x (Gía trị của chúng không được sử
dụng cho quá trình đệm); Các pixel Alpha nằm ngoài VOP là trong suốt và không
được đánh dấu trong hình 2.10.
Qúa trình này được thực hiện như sau: Trước tiên, các pixel trong suốt
được làm đầy bởi giá trị đường biên tương ứng ở bên trái hoặc bên phải. Nếu có
một giá trị đường biên VOP tại mỗi bên của pixel thì hai giá trị được lấy trung
bình, như chỉ ra trên hình 2.10 với dãy thứ ba kể từ đáy thì giá trị nhận được sẽ là
[E+J/2]. Sau đó, quá trình tương tự được thực hiện với chiều thẳng đứng.
Các Pixel này đã được lấp đầy trong quá trình đệm theo hướng nằm ngang lúc
này được coi như là đã có sẵn tại VOP; nghĩa là trong trường hợp chúng nằm tại
biên của VOP sẽ được sao lại một cách tương ứng. Tuy nhiên, trong khi thực hiện
bước này, nếu là pixel tại đỉnh hay đáy thì kết quả sẽ là giá trị trung bình. Sau bước
thứ hai, toàn bộ các Pixel trong khối đường biên được đệm và sẽ không còn các
pixel trong suốt ở phía bên trái.
16
Các MB nằm hoàn toàn bên ngoài của VOP sẽ được đệm theo cách khác. Các
MB trong suốt này có một hoặc nhiều hơn các MB đường biên liền kề được làm
đầy bởi các mẫu sao chép lại tại đường biên của các Macroblock đường biên này.
Nếu có nhiều hơn một MB đường biên liền kề trong khi chỉ có một MB đường biên
được lựa chọn để đệm theo nguyên lý ưu tiên chỉ ra trên hình 2.11.
Trong trường hợp có nhiều hơn một MB đường biên liền kề thì MB trong suốt
được đệm bằng cách sao lại các mẫu trên, dưới, trái hay phải từ đường biên nằm
ngang hay thẳng đứng của MB đường biên bởi con số ưu tiên lớn nhất.
Các MB trong suốt này không có MB đường biên liền kề được lấp đầy bởi giá trị
2bits _per_pixel – 1. Đối với các tín hiệu chói và màu 8 bit, các MB này được lấp
đầy bởi giá trị 128.
4.3.9. Mã hoá Véc tơ dự đoán chuyển động.
Để dự đoán bù chuyển động, các MV được sử dụng bắt buộc phải có khả năng
giải mã. Bởi vì, một cách tổng quát, các MV của các khối liền kề là gần giống
nhau, mã hóa dự đoán được sử dụng để giảm thiểu tỷ lệ bit về thông tin chuyển
động. Việc mã hoá MV dự đoán này được thực hiện theo khuyến cáo ITU-T
H.263. Trong MPEG-4 Video, một số quy tắc đặc biệt được áp dụng đối với
trường hợp các VOP hình dạng ngoài bất kỳ. Thuật toán tổng quát và các nguyên
tắc đặc biệt của MPEG-4 được miêu tả dưới đây.
Để dự đoán, có đến ba MV liền kề được sử dụng. Điều này được minh hoạ bởi
hình 2.12.
17
Sự lựa chọn các đối tượng phụ thuộc vào MV mode dùng để mã hoá
Macroblock. Trong trường hợp Mode 1MV được sử dụng thì chỉ một MV có mặt.
Ở đây các đối tượng được chỉ ra trên hình 2.12a được sử dụng. Như trong hình vẽ,
hình vuông đậm nét biểu thị Macro hiện tại, còn các hình vuông có nét mảnh hơn
biểu thị các khối 8x8 của Macro hiện tại và một vài các khối 8x8 của các
Macroblock liền kề. Như hình vẽ chỉ ra, các MV của các khối 8x8 liền kề luôn
luôn sử dụng các đối tượng dự đoán; Trong trường hợp các MB liền kề ở trạng thái
1MV mode, thì các MV của các khối 8x8 tương ứng được thiết lập giống như MV
của Macroblock. Với trường hợp 4MV mode thì các đối tượng dự đoán được chỉ ra
trên hình vẽ 2.12a-d được sử dụng, mỗi một đối tượng dự đoán cho khối 8x8 này
của MB được đánh dấu bởi MV.
Việc dự đoán được thực hiện với mỗi thành phần của MV là khác nhau. Với
mục đích này, giá trị véc tơ dự đoán cho mỗi một thành phần được xác định như
giá trị trung vị (Median) cuả các đối tượng dự đoán.
Px = median (MV1x , MV2x , MV3x);
P = median (MV1 y , MV2 y , MV3 y )
Trong khi áp dụng các nguyên tắc lựa chọn đối tượng dự đoán chỉ ra trên hình
2.12, một số trường hợp đặc biệt có thể xuất hiện gần đường biên của một VOP
hoặc nếu các gói Video (Video packet) được sử dụng. Đối với các trường hợp này
sẽ phải kèm thêm các quy tắc sau:
• Nếu một đối tượng dự đoán nằm ngoài VOP hiện tại hoặc nằm ngoài gói Video
hiện tại, thì nó sẽ được phân loại là không có giá trị; ngược lại chúng được đặt
bằng véc tơ của khối tương ứng.
• Nếu một và chỉ một đối tượng dự đoán là không có giá trị thì đặt nó là 0.
• Nếu hai và chỉ hai đối tượng dự đoán là không giá trị thì chúng sẽ được đặt bởi
18
giá trị của đối tượng dự đoán thứ ba.
• Nếu ba đối tượng dự đoán là không giá trị, thì toàn bộ chúng sẽ được đặt là 0.
Sau khi tính toán các giá trị dự đoán, sự khác nhau giữa MV thành phần chính
xác và các thành phần dự đoán sẽ được mã hoá bằng mã có độ dài thay đổi
(Huffman).
Trường hợp B-VOP nguyên tắc của quá trình mã hoá dự đoán MV là tương tự
như đối với trường hợp P-VOP. Véc tơ dự đoán cho véc tơ Delta luôn luôn được
thiết lập ở mức 0 trong khi các Véc tơphía trước và phía sau có các giá trị riêng của
chúng.
19