B GIO DC V ĐO TO
TRƯỜNG ĐI HỌC KINH TẾ-KĨ THUẬT CÔNG NGHIỆP
KHOA CÔNG NGHỆ THÔNG TIN
LỚP : ĐH TIN3A
ĐỀ TÀI: Cơ sở dữ liệu đa phương tiện (tập trung vào
video)?
Giảng viên: Trần Bích Thảo
Sinh viên thực hiện:
Nhóm 10:
1.Nguyễn Hữu Sáng
2.Nguyễn Thị Duyên
29, tháng 09 năm 2012
LỜI MỞ ĐẦU
Công nghệ multimedia liên quan tới việc mô tả sự kết hợp
các dạng thức thông tin khác nhau (văn bản, dữ liệu, hình
ảnh, âm thanh,video) dưới dạng tín hiệu số. Có thể nêu ra
đây một số ứng dụng multimedia như :
• E-learning.
• Hội thảo Video (Video Conferencing).
• Thư viện điện tử (Elibrary).
• Hiện tại ảo (Vitual Reality).
Các công nghệ chuyên dùng để thao tác, truyền phát, điều
khiển các dữ liệu multimedia đã và đang được nghiên cứu
một cách rất sôi động.Các hệ thống multimedia cần có một
hệ thống phân phối nhằm mục đích thu thập các đối tượng
multimedia và đưa chúng đến người dùng, một trong số các
phương tiện đầu tiên được dùng dến là đĩa từ và đĩa quang.
Ngày nay, Internet cũng như các giao thức khác như
TCP/IP, NetBIOS, các mạng Lan đang trở thành các phương
tiện để truyền bá dữ liệu multimedia . Khả năng mô tả phong
phú cũng như khả năng đồ họa của các web browser (trình
duyệt web) cùng với các tính năng đang được tiếp tục tăng
cường như hoạt họa, âm thanh và Video khiến các web
browser (trình duyệt web) đang trở thành một phương tiện
mới để mang lại các dữ liệu multimedia cho người dùng.Các
công nghệ chủ yêu liên quan đến multimedia bao gồm:
• Kỹ thuật nén.
• Video Servers.
• Các kỹ thuật về mạng (internet, tokenring, ethernet, ATM
…vv).
• Các công nghệ truyền dữ liệu.
• Các công nghệ về cáp truyền dẫn.
• Công nghệ xác thực.
• Các công nghệ về cơ sở dữ liệu
I. Giới thiệu chung về cơ sở dữ liệu đa phương tiện
1.Một vài nét về cơ sở dữ liệu
Một cơ sở dữ liệu (CSDL) là tập hợp của các dữ liệu có liên quan
đến nhau. Một hệ quản trị cơ sở dữ liệu (DBMS) là hệ thống phần
mềm trợ giúp cho các quá trình khai báo, xây dựng và thao tác với
CSDL phục vụ cho các ứng dụng khác nhau. Trong thư viện, CSDL
và các DBMS đôi khi được sử dụng thay thế nhau. Ở đây CSDL
hiểu như một bộ sưu tập hoặc một kho dữ liệu hoặc nhiều mục
truyền thông. Chúng ta sử dụng các DBMS như một hệ thống thực
thể để quản lý CSDL. CSDL multimedia bao gồm thêm các kiểu dữ
liệu khác như:
• Văn bản.
• Hình ảnh.
• Âm thanh.
• Video.
• Hoạt hình.
Các kiểu dữ liệu khác này đòi hỏi phải có các phương thức đặc biệt
nhằm mục đích tối ưu hóa cho việc lưu trữ, truy cập, chỉ số hoá và
khai thác. Một hệ quản trị cơ sở dữ liệu đa phương tiện( MDBMS)
phải cung cấp một môi trường thích hợp để quản lý và sử dụng
CSDL multimedia.Một MDBMS cần phải đảm bảo các tính năng cơ
bản của một DBMS, ngoài ra nó còn phải có các tính năng khác
như:
• Tích hợp các phương tiện khác (Media Intergration).
• Khả năng sắp xếp và mô tả thông tin.
• Khả năng khai thác dữ liệu
• Khả năng lưu trữ lớn.
• Giao diện multimedia.
• Hỗ trợ truy vấn tương tác multimedia.
Thông thường các đối tượng riêng lẻ của một hình ảnh hoặc một
khung hình video (video frame) sẽ có một vài mối liên hệ bộ phận
với các đối tượng khác. Các mối liên hệ này đưa đến một số các
ràng buộc trong quá trình tìm kiếm các đối tượng trong CSDL
multimedia. Căn cứ trên cơ sở này việc triển khai các ứng dụng
multimedia trên nền các hệ quản trị CSDL hướng đối tượng sẽ
thuận lợi hơn so với các hệ quản trị cơ sở dữ liệu quan hệ
(RDBMS) hiện thời.
2.Cơ sở dữ liệu đa phương tiện (CSDL Multimedia)
Dữ liệu multimedia được chia thành hai lớp là các dữ liệu liên tục
và các dữ liệu không liên tục. Các dữ liệu liên tục bao gồm các dữ
liệu âm thanh, video thay đổi theo thời gian. Các dữ liệu không liên
tục là các dữ liệu không phục thuộc vào thời gian, các loại dữ liệu
đặc trưng cho dạng này là các dữ liệu văn bản (có hoặc không có
định dạng),hình ảnh tĩnh và các đối tượng đồ họa. Các kiểu dữ liệu
thông thường của một CSDL multimedia bao gồm:
• Dữ liệu văn bản (có hoặc không có định dạng).
• Đồ họa: là các bản vẽ, minh họa được mã hóa như các tệp
postscript.
• Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thức
chuẩn như là
JPEG hoặc MPEG.
• Các hoạt hình.
• Âm thanh.
• Video.
Các đặc tính chung của dữ liệu multimedia bao gồm:
• Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hướng phi cấu
trúc vì vậy các tác nghiệp quản trị dữ liệu chuẩn như chỉ số hoá, tìm
kiếm nội dung, truy vấn dữ liệu thường là không áp dụng được.
• Tính tạm thời: Một vài kiểu dữ liệu multimedia như là Video, âm
thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian liên quan mật
thiết đến việc lưu trữ,thao tác và mô tả chúng.
• Có dung lượng lớn: các dữ liệu video và âm thanh thường đòi hỏi
các thiết bị lưu trữ lớn.
• Các ứng dụng hỗ trợ: các dữ liệu phi chuẩn có thể đòi hỏi các quy
trình xử lý phức tạp như việc sử dụng các thuật toán nén dữ liệu đối
với các ứng dụng CSDL multimedia.
2.1 Các kiểu truyền thông và multimedia
Truyền thông đề cập đến các kiểu thông tin hoặc các kiểu biểu diễn
thông tin, ví dụ như dữ liệu vần chữ cái, hình ảnh, âm thanh, truyền
hình. Có nhiều cách phân lớp truyền thông. Những cách phân loại
chung được dựa trên những dạng vật lý và những mối quan hệ
truyền thông với thời gian. Ta phân lớp truyền thông dựa trên việc
có hay không có chiều thời gian. Ngầm định này hướng tới hai lớp
truyền thông tĩnh và động (hoặc tính liên tục về thời gian).
Truyền thông tĩnh không bao hàm yếu tố thời gian, các nội dung
và nghĩa của chúng không phụ thuộc vào thời gian được biểu
diễn.Truyền thông tĩnh bao gồm các dữ liệu vần chữ cái, các đồ thị
và các ảnh tĩnh.
Truyền thông động bao hàm yếu tố thời gian, các nghĩa và tính
chính xác của chúng phụ thuộc vào loại được biểu diễn. Truyền
thông động gồm các hoạt hình, âm thanh và video.
Các truyền thông này có bản chất khoảng thống nhất hoặc tốc độ
riêng của chúng. Chẳng hạn, để truyền cảm giác chuyển động nhịp
nhàng video phải thực hiện 25 hình mỗi giây (hoặc 30 hình phụ
thuộc vào hệ thống video đang sử dụng). Tương tự, khi chúng ta
phát lại một lời nhắn hoặc đoạn nhạc đã được ghi âm, chỉ có một
loại thể hiện là thích hợp. Việc phát lại ở chế độ nhanh hơn hoặc
chậm hơn sẽ làm méo nghĩa hoặc chất lượng âm thanh. Vì những
truyền thông này phải được phát liên tục ở tốc độ cố định mà chúng
thường được gọi là truyền thông liên tục. Chúng cũng còn được gọi
truyền thông đẳng thời vì mối quan hệ cố định giữa mỗi đơn vị
truyền thông và thời gian.
Truyền thông đề cập đến một bộ sưu tập các kiểu truyền thông đã
sử dụng cùng nhau. Điều đó có nghĩa là ít nhất có kiểu truyền thông
dữ liệu là không theo ký tự chữ (nghĩa là ít nhất có một kiểu truyền
thông là ảnh, âm thanh hoặc truyền hình). Ở đây, “multimedia”
được sử dụng như một tính từ vì vậy chúng ta sẽ nói một cách đặc
trưng là thông tin multimedia, dữ liệu multimedia, hệ thống
multimedia, liên lạc multimedia,ứng dụng multimedia, Dữ liệu
multimedia chính là sự biểu diễn về các loại truyền thông
multimedia mà máy tính có thể đọc được. Thông tin multimedia là
thông tin đã truyền bằng các kiểu truyền thông multimedia. Đôi khi,
thông tin multimedia và dữ liệu multimedia được sử dụng có thể
thay cho nhau. Đôi khi chúng ta sử dụng thuật ngữ multimedia hay
truyền thông và đối tượng nhằm chỉ một thực thể tự trị nào đó trong
một MIRS (Hệ thống truy vấn thông tin đa phương tiện) mà có thể
được truy vấn, truy xuất và được trình diễn. Thuật ngữ “đối tượng”
có thể là chưa xác định thích hợp theo nghĩa
hướng đối tượng (Object Oriented). Ngữ cảnh sẽ làm nó rõ ràng hơn
dù cho nó được sử dụng trong một ý nghĩa chung hoặc trong cách
tiếp cận hướng đối tượng
2.2. Sự phát triển về dữ liệu multimedia và các đặc trưng
của nó
Hiện nay chúng ta đang tập trung khai phá thông tin multimedia. Ví
dụ, một số lượng lớn hình ảnh và video đang được tạo lập và lưu trữ
trên internet. Nhiều hoạ sỹ và bức tranh trong nhiều kiểu in ra là
đang được chuyển sang dạng kỹ thuật số cho dễ xử lý, phân phối và
bảo tồn. Các bức tranh từ các bản tin trên vô tuyến và trên báo cũng
được chuyển sang dạng kỹ thuật số để dễ bảo trì và bảo tồn. Một số
lớn các hình ảnh y tế đang được tập trung hàng ngày và các vệ tinh
đang được sản xuất nhiều hơn. Khuynh hướng này có ý định tiếp tục
nâng cấp việc lưu trữ và các công nghệ kỹ thuật số. Việc lập ra một
chỗ chứa đối với lượng lớn thông tin multimedia ngày càng tăng
như vậy còn được ít sử dụng. Điều này sẽ không thể sử dụng đầy đủ
thông tin multimedia này trừ khi nó được tổ chức để truy xuất nhanh
theo yêu cầu.
Không chỉ là đang tăng về số lượng dữ liệu đang được lưu trữ, mà
còn cả các kiểu dữ liệu và các đặc trưng của chúng là khác nhau từ
dữ liệu ký tự chữ.
Có những đặc trưng chính của dữ liệu multimedia như sau:
• Dữ liệu multimedia, nhất là âm thanh và video, là dữ liệu có số
lượng lớn. Ví dụ, một video 10 phút trung bình chiếm 1,5 GB chưa
nén.
• Âm thanh và video có chiều thời gian và chúng khi biểu diễn sẽ
chiếm tỷ lệ cố định để hoạt động có hiệu quả như đã yêu cầu.
• Âm thanh số, ảnh và video được trình diễn theo một loạt giá trị
đơn cá thể và thiếu cấu trúc ngữ nghĩa rõ ràng cho máy tính để tự
động hoá nhận biết nội dung.
• Nhiều ứng dụng multimedia đòi hỏi việc biểu diễn đồng thời các
kiểu truyền thông đa năng theo cách kết hợp không gian và thời
gian.
• Ý nghĩa của dữ liệu multimedia đôi khi rất mờ và có tính chủ
quan. Ví dụ, mỗi người có cách giải thích cùng 1 bức tranh theo
cách khác nhau hoàn toàn riêng.
• Dữ liệu multimedia là giàu về thông tin, nhiều tham số được đòi
hỏi mới trình diễn đủ nội dung của nó.
2.3. Các DBMS và vai trò của chúng trong việc xử lý dữ liệu
multimedia
Các DBMS ngày nay được xây dựng khá tốt và được sử dụng rộng
rãi đối với dữ liệu có cấu trúc. Các DBMS trội nhất là các hệ quản
trị dữ liệu quan hệ (RDBMS). Trong RDBMS, thông tin được tổ
chức thành bảng hoặc các quan hệ. Các dòng của bảng tương ứng
với các khoản mục thông tin hoặc các record (bản ghi), trong khi đó
các cột tương ứng với các thuộc tính.
Ví dụ như ngôn ngữ truy vấn có cấu trúc (SQL) được sử dụng để
tạo ra các bảng như thế và để chèn và truy xuất thông tin từ các
bảng đó.
Chúng ta dùng một ví dụ đơn giản để minh hoạ cách sử dụng SQL
để tạo lập một bảng và chèn, truy xuất thông tin từ đó. Giả sử chúng
ta muốn lập một bảng chứa các bản ghi về sinh viên bao gồm số
hiệu sinh viên (tương tự như mã sinh viên), tên và địa chỉ. Ta có
lệnh sau:
Create table STUDENT
(
stu# integer,
name char(20),
address char(100)
)
Khi chúng ta muốn chèn các bản ghi về sinh viên vào bảng, chúng
ta sử dụng lệnh chèn SQL như sau:
Insert into STUDENT values(10,"Lew, Tom","2 Main St.,
Churchill, australia");
Lệnh trên sẽ chèn một dòng vào bảng STuDeNT
Thông tin trong bảng được truy xuất khi sử dụng câu lệnh SELECT
của SQL. Ví dụ, nếu muốn truy xuất tên của sinh viên với sinh viên
số 32, ta sử dụng lệnh truy vấn sau:
Select Name
From STUDENT
Where Stu#=32
Các thuộc tính trong RDBMS (Hệ quản trị cơ sở dữ liệu quan hệ) đã
cố định kiểu và độ rộng. Trong ví dụ trên, thuộc tính Stu# là kiểu
integer với độ dài cố định là 32 bit. Như vậy, RDBMS là thích hợp
để xử lý dữ liệu số và dòng ký tự ngắn.
Để hỗ trợ cho các trường có giá trị lớn trong RDBMS, một khái
niệm được gọi là đối tượng rộng hoặc nhị phân (BLOB) sẽ được
giới thiệu. Một BLOB là một xâu bit lớn các độ dài biến. Ví dụ, nếu
ta muốn lưu bức tranh của sinh viên trong bản ghi ở bảng
STUDENT trên, chúng ta có thể tạo ra một bảng khi sử dụng lệnh
sau:
Create table STUDENT(
Stu# integer,
Name char(20),
address char(100),
Picture BLOB);
Các BLOB bình thường chỉ là xâu bit và hoạt động bằng việc so
sánh chứ không mang chúng ra ngoài. Đó là vì RDBMS không biết
nội dung hoặc ngữ nghĩa của một BLOB.Tất cả BLOB hiểu như
một khối dữ liệu. Một dạng khác của các DBMS là hệ thống quản trị
CSDL hướng đối tượng (OODBMS). Các OODBMS kết nối các
khả năng của cơ sở dữ liệu (như lưu trữ và tìm kiếm) và các đặc
trưng hướng đối tượng (tóm lược, sự thừa kế, tính đồng nhất đối
tượng). Một phương pháp tiếp cận chung là kết nối các đặc điểm
hướng đối tượng với cơ sở dữ liệu quan hệ. Hệ thống đã được kết
nối thì được gọi là một hệ thống cơ sở dữ liệu đối tượng quan hệ.
Trong một hệ thống như vậy, các đối tượng được xác định một
cách thích hợp trong hướng đối tượng. Trong đó mỗi đối tượng
chứa các đặc tính hoặc thuộc tính và các phương pháp hoặc các hàm
được sử dụng để chế tác ra các đặc tính khác. Ví dụ, chúng ta có thể
định nghĩa một loại ảnh sau:
Create type IMAGE(
Private
Size integer,
Resolution integer,
Content float[ ],
publlic
);
Sau đó khai báo các tranh bởi kiểu IMAGE có thể được sử dụng
trong một bảng
như sau:
Create table STUDENT(
Stu# integer,
Name char(20),
Address char(100)
Picture IMAGE);
Điểm khác biệt chính giữa BLOB và các đối tượng là đối tượng thì
được định rõ một cách thích đáng, bao gồm các đặc tính và cho
phép chúng có tác dụng, trong khi đó thì BLOB thì không.
Các khái niệm về các BLOB và các đối tượng là một bước gần với
xử lý dữ liệu multimedia . Nhưng các BLOB được sử dụng chỉ để
lưu dữ liệu có khối lượng lớn.
Trong khi các đối tượng chứa vài thuộc tính đơn giản, nhiều chức
năng hơn nên được phát triển để xử lý việc truy xuất multimedia
dựa vào nội dung. Một vài các khả năng được yêu cầu như sau:
• Các công cụ, tự động hoá hoặc bán tự động trích rút các nội dung
và các đặc trưng trong dữ liệu multimedia.
• Các cấu trúc chỉ số hoá đa chiều, để điều khiển các vector
multimedia.
• Các độ đo tương đồng, nhằm truy xuất multimedia thay vì kết nối
một cách chính xác.
• Lưu trữ các hệ thống phụ, thiết kế lại nhằm đáp ứng các yêu cầu
của băng tần cao với cỡ lớn, thoả mãn những đòi hỏi theo kiểu thời
gian thực.
• Giao diện sử dụng, được thiết kế cho phép các câu hỏi đa dạng
trong nhiều kiểu truyền thông đa dạng và cung cấp các trình diễn
multimedia.
2.4. Kiến trúc cho việc tổ chức nội dung
Ở đây chúng ta xem xét tới 3 kiến trúc áp dụng cho việc tổ chức nội
dung của một hệ thống CSDL multimedia
2.4.1 Nguyên lý tự trị
Nguyên lý này đề cập tới việc chúng ta nhóm tất cả các dữ liệu ảnh,
dữ liệu video và tất cả các dữ liệu văn bản và chỉ số hóa chúng theo
nguyên tắc tối đa hóa hiệu suất của tất cả các loại truy nhập đối với
các loại dữ liệu mà chúng ta dự định. Nguyên lý này đảm bảo rằng
với mỗi loại dữ liệu (ảnh, video, văn bản) chúng đều được tổ chức
với một cách thức đặc trưng phù hợp với mỗi loại dữ liệu này.
Hình 2.1: Mô tả nguyên lý tự trị
2.4.2 Nguyên lý đồng nhất
Một nguyên lý kiến trúc khác mà chúng ta có thể lựa chọn là
nguyên lý đồng nhất,nguyên lý này giúp chúng ta tìm được một cấu
trúc tóm tắt chung cho tất cả các loại dữ liệu. Cấu trúc này có thể
được dùng trong việc chỉ số hóa tất cả các loại dữ liệu qua đó
tạo ra một “chỉ số thống nhất” mà chúng ta có thể dùng để truy cập
tới các đối tượng khác nhau. Hay nói một cách khác là chúng ta có
thể trình bầy tất cả các đối tượng khác nhau( ảnh, video, âm thanh,
văn bản) trong một cấu trúc dữ liệu duy nhất và qua đó phát triển
các thuật toán để truy vấn cấu trúc dữ liệu này.
Hình 2.2: Mô tả nguyên lý đồng nhất
2.4.3 Nguyên lý lai ghép
Ý tưởng của nguyên lý này là dựa trên sự kết hợp của 2 nguyên lý
đã trình bầy ở trên.Kết quả của nguyên lý này là một kiểu dữ liệu
nào đó sử dụng chỉ số (index) riêng của chúng, trong khi đó các kiểu
dữ liệu khác sẽ sử dụng một chỉ số (Index) “thống nhất”.
Hình 2.3: Mô tả nguyên lý lai ghép
Cả ba loại nguyên lý trên đều có những ưu điểm và nhược điểm
riêng của mình. Kiến trúc dựa trên nguyên lý tự trị đòi hỏi việc tạo
ra các thuật toán và cấu trúc dữ liệu của mỗi kiểu dữ liệu, ngoài ra
nó cũng đòi hỏi các kỹ thuật hỗ trợ cho việc liên kết chéo
giữa các cấu trúc dữ liệu khác nhau này. Các công việc này đòi hỏi
tính phức tạp cao và đòi hỏi một lượng thời gian lớn cho việc phát
triển. Bên cạnh các nhược điểm trên, việc xây dựng các cấu trúc
được đặc biệt hóa tối ưu cho việc truy xuất dến từng loại dữ liệu
khác nhau, CSDL multimedia được tổ chức theo nguyên lý này
thường đem lại hiệu quả cao trong việc xử lý tìm kiếm. Đối với các
ngân hàng dữ liệu đã được xây dựng sẵn, nơi mà các thuật toán và
các cấu trúc dữ liệu đã được sử dụng có hiệu quả thì việc áp dụng
nguyên lý tự trị là mô hình kiến trúc thích hợp nhất. Các kỹ thuật
hướng đối tượng chính là công cụ đắc lực nhất hỗ trợ cho việc triển
khai theo nguyên lý này bằng cách xem mỗi loại dữ liệu nguồn là
một đối tượng mà các phương thức của nó có thể truy cập được từ
một CSDL multimedia tổng thể.
Trái ngược với nguyên lý tự trị, nguyên lý đồng nhất đòi hỏi chúng
ta phải tìm ra được một cấu trúc dữ liệu chung mà có thể dùng để
lưu trữ các thông tin về nội dung của hình ảnh, video, văn bản, âm
thanh và các loại dữ liệu khác. Điều này đòi hỏi chúng ta phải phân
tích nội dung của mỗi kiểu dữ liệu và tóm tắt được phần chung của
chúng, qua đó xây dựng một bộ chỉ số dựa trên các yếu tố chung đã
được xác định này. Ưu điểm nổi bật của nguyên lý đồng nhất là dễ
dàng triển khai và các thuật toán thường được thực hiện rất nhanh.
Nhược điểm chính của nguyên lý này là các sự chú giải phải
được tạo ra theo một cách riêng nào đó, thường là được tạo ra một
cách thủ công hoặc là tự động, việc tạo ra các chú giải một cách thủ
công thường đỏi hòi nhiều về mặt thời gian cũng như chi phí, mặt
khác trong quá trình tạo các chú giải này thường sẩy ra sự mất mát
thông tin nếu ngôn ngữ dùng để chú giải không trình bầy hết được
các khía cạnh của nội dung. Có thể đưa ra đây một số ví dụ như
ngôn ngữ chú giải nội dung của hình ảnh có thể làm mất các thông
tin về bề mặt của một điểm ảnh (pixel) hoặc một nhóm điểm ảnh.
Tương tự như vậy ngôn ngữ chú giải nội dung của âm thanh có thể
làm mất các thông tin về biên độ, tần số của tín hiệu tại một thời
điểm nào đó.
Nguyên lý lai tạo tập hợp được các ưu điểm của cả hai nguyên lý
nêu trên, đồng thời giảm thiểu được một số các nhược điểm của
chúng. Giả sử chúng ta muốn tạo ra một CSDL multimedia bao gồm
các kiểu dữ liệu M1,…….,Mn, chúng ta bắt đầu bằng việc phân chia
tập này thành 2 phần:
• Phần 1: bao gồm các loại dữ liệu kế thừa từ các nguồn dữ liệu có
sẵn, tồn tại sẵn các chỉ số và các thuật toán để thao tác với chỉ số.
Với việc bố trí này chúng ta đã tận dụng được lợi thế của các chỉ số
và mã nguồn sẵn có.
• Phần 2: bao gồm các dữ liệu không được kế thừa từ bất kỳ nguồn
nào và do đó không có sẵn các chỉ số của mình (điều này đồng
nghĩa với việc là cũng không có bất kỳ thuật toán nào để có thể thao
tác với tập chỉ số). Trong trường hợp này việc tiếp cận xây dựng hệ
thống theo nguyên lý đồng nhất là cách thức thích hợp nhất ngay cả
khi là cách tiếp cận này có thể nẩy sinh ra việc gây mất mát các
thông tin vật lý chi tiết.
Sau khi đã tiến hành xong việc phân chia, chúng ta bắt đầu tiến
hành việc xây dựng các thuật toán cần thiết để kết hợp các nguồn dữ
liệu khác nhau lại bằng việc sử dụng các tập chỉ sổ riêng của chúng.
Cách tiếp cận này giúp chúng ta thừa kế được tối đa các tài nguyên
có sẵn, đồng thời giảm thiểu được các công việc phải thực hiện
thêm bởi vì các tệp chỉ số riêng có sẵn đối với mỗi loại dữ liệu đã
được tận dụng.
Giả sử, một người dùng muốn đưa ra một câu hỏi “ Hãy tìm tất
cả các hình ảnh và các đọan video mà trong đó ông chủ của đối
tượng A có mặt và trao đổi với đối tượng B”. Câu hỏi này
bao gồm một sự kết hợp giữa các tệp chỉ số của các loại dữ liệu
khác nhau, chúng sẽ truy cập đến CSDL hình ảnh (thông qua tệp chỉ
số của dữ liệu hình ảnh), đến CSDL âm thanh (thông qua tệp chỉ số
âm thanh) và đến một CSDL quan hệ (thông qua tệp chỉ số
quan hệ), câu hỏi này có thể được diễn tả như sau:
SELECT Name, Image, Audio
From Employee E, Image I, Audio A
Where E.Name= “A” AND
I contains E.boss and
A contains E.boss AND
A CONTAINS B
2.5.Tổ chức dữ liệu multimedia dựa trên nguyên lý đồng nhất.
Xét ví dụ sau:
• Bức ảnh photo1.gif có sự xuất hiện của đối tượng A, đối tượng B
và một đối tượng chưa được xác định được chụp tại thành phố C
thuộc nước D vào ngày 10/01/1990.
• Đoạn video video1.mpg có hình ảnh của đối tượng A đưa cho đối
tượng B một chiếc vali (trong frames 50-100). Đoạn video này thu
được từ sự theo dõi nhà của đối tượng B tại thành phố E thuộc nước
F vào tháng 1- 1991.
• Văn bản B.txt có chứa các thông tin chi tiết về dối tượng B được
thu thập từ dữ liệu của cơ quan an ninh.
Bản thân mỗi đối tượng trên cũng đã nói lên phần nào nội dung của
từng đối tượng cụ thể (hình ảnh, video, văn bản), tuy nhiên thông tin
đưa ra ở đây chỉ nói lên nội dung về mặt ngữ nghĩa hơn là đề cập
đến các tính chất cụ thể của mỗi loại đối tượng, các tính chất loại
này được gọi là các đặc trưng bậc thấp (lower-level).
Một cách tiếp cận hiệu quả nhất đối với CSDL multimedia và đã
được sử dụng rộng rãi trong thực tế là sử dụng các đối tượng được
phát biểu ở trên như là siêu dữ liệu (metadata).
Theo trên, giả sử chúng ta có một tập các đối tượng media o1,
… ,on chúng ta kết hợp một vài metadata md(o1) với mỗi đối
tượng media o1 (định dạng chính xác của metadata này sẽ được
trình bầy sau), tương tự như vậy các metadata kết hợp với các
đối tượng media 01,….0n tương ứng sẽ là md(o1),……,md(on),
Chúng ta sẽ tiến hành việc chỉ số hóa các metadata này với một
cách thức nhằm cung cấp các phương thức triển khai hiệu quả đối
với các yêu cầu truy cập từ phía người dùng.
Có thể rõ ràng thấy rằng, sự thành công của phương pháp này phụ
thuộc cơ bản vào việc chúng ta đảm bảo được rằng với mỗi đối
tượng media 0i thì metadata tương ứng của nó md(oi) là cô đọng và
phản ánh đúng chỉ những gì mà người dùng yêu cầu.
Với một số lượng tối thiểu các metadata được dùng rõ ràng là chúng
ta sẽ dễ dàng hơn trong việc chỉ số hóa cũng như là thực hiện các
thao tác khai thác dữ liệu, tuy nhiên bên cạnh đó nếu số lượng
metadata sử dụng ít thì có thể người sử dụng sẽ phải mất thời
gian hơn trong việc thiết lập các câu hỏi của mình.
Có thể lấy trường hợp sau làm ví dụ:
• Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp
mà đối tượng A và đối tượng B (xem phần trên) trao đổi với nhau
một gói hành lý.
• Hệ thống: Không tìm được (mặc dù hệ thống đã có đoạn video ghi
lại đối tượng A và đối tượng B trao đổi với nhau một chiếc vali
nhưng hệ thống vẫn trả lời là không tìm thấy vì nó không hiểu rằng
một chiếc vali cũng có thể coi là một gói hành lý).
• Người dùng: hãy tìm cho tôi tất cả các đoạn video hoặc ảnh chụp
mà đối tượng A và đối tượng B (xem phần trên) trao đổi với nhau
một vật gì đó.
• Hệ thống: tìm thấy. frames 50-100 của đoạn video video1.mpg
thỏa mãn yêu cầu của bạn.
Mặc dù có một vài nhược điểm như sử dụng metadata không biểu
diễn hết được các khía cạnh của đối tượng media trong CSDL
nhưng cách tiếp cận dựa trên nguyên lý đồng nhất có một số ưu
điểm nổi trội sau:
• Metadata thường được lưu trữ dưới dạng các cấu trúc có liên quan
đến tính chất quan hệ hoặc hướng đối tượng và có thể truy vấn một
cách dễ dàng thông qua việc mở rộng các ngôn ngữ (chẳng hạn như
SQL).
• Việc viết mã để thao tác với metadata thường là dễ dàng.
• Việc viết các chương trình để tạo ra metadata là đơn giản đối với
các lập trình viên có năng lực
Chúng ta đã xem xét đến nội dung của dữ liệu media dưới các dạng
khác nhau, một câu hỏi đặt ra ở đây là đâu là phần chung nhất của
các loại dữ liệu này? Mục đích của chúng ta là tìm kiếm một cấu
trúc chung nhất cho tất cả các loại dữ liệu mà qua nó ta có thể thể
hiện được nội dung của các loại dữ liệu đó.
Tóm tắt media là một cấu trúc toán học cho phép diễn đạt nội dung
của các media này, sự tóm tắt media có thể được triển khai thông
qua một cấu trúc dữ liệu duy nhất.
II. VIDEO DATA ( Dữ liệu video)
1- Một số khái niệm
+Dữ liệu Video : là dữ liệu kết hợp cả hình ảnh động và âm
thanh động trong cùng một file.
+Video camera
Có hai loại camera video – analog (tín hiệu tương tự) và
digital (tín hiệu số)
- analog video camera : Video camera chuyển đổi ảnh nó
“nhìn thấy” nhờ thấu kính. Ánh sáng và cường độ màu thu
được từ thấu kính sẽ chuyển thành điện thế, ảnh của vật thay
đổi theo thời gian cường độ màu và ánh sáng phát ra trên các
phần của sự vật . Vì vậy tín hiệu thu được từ video loại này
được coi là tín hiệu analog vì nó tương tự như cường độ ánh
sáng . Hình ảnh thu được từ Video camera loại này được ghi
lên băng từ.
- Digital video
Video số về nguyên tắc đó là dữ liệu tạo ra từ giá trị màu của các
điểm ảnh (pixel) .Nói chung dữ liệu video tạo ra từ camera số có
chất lượng tốt hơn analog video tạo ra. Lý do vì chúng ta có thể
thay đổi độ phân giải ảnh. Trong khi đó về nguyên tắc video
tương tự có độ phân giải không hạn chế , song xét cho cùng ảnh
chúng ta nhìn thấy lại bị giới hạn bởi thiết bị.
+ Một số ưu điểm của video số :
- Dễ edit, dễ sửa lỗi để đổi nâng cao chất lượng
- Có thể tạo ra dạng mới vmail- một dạng email có gửi kèm
video, dễ truyền giữa các máy tính
- Dễ tích hợp text, audio, image
- Có thể chứa trên các thiết bị có dung lượng lớn dễ bảo quản
như CD-ROM, DVD trong khi đó analog video lưu trữ trên
băng từ rất khó bảo quản.
- Video số được ứng dụng trong nhiều lĩnh vực như camera
cảnh giới (surveillance camera, movie camera,…).
Ví dụ với camera cảnh giới người ta thu chỉ 5 ảnh/s khi đó ta có
5x 640x480 x12bit=18,438,000 bit/s tương đương với 2.3 triệu
byte/s nêu lưu vài ngày để kiểm tra thì dung tích chứa sẽ rất lớn.
2- Thiết bị hiển thị
- Thiết bị dùng để hiển thị dữ liệu video phổ biến hiện nay là tivi
(television) vì vậy ta tìm hiểu một số thông tin về nó.
- Tỉ lệ chuẩn giữa chiều rộng và chiều cao của màn hình tivi là
:w/h= 4/3 (aspect rate), tỉ lệ này do Thomas Edison đưa ra từ 1930.
Do yêu cầu về chất lượng của một số loại hình dịch vụ như phim,
phim màn ảnh rộng người ta đã chọn các tỉ lệ khác như :
- Trên thế giới hiện hiện dang sử dụng các hệ thống truyền hình sau
NTSC ở châu Mỹ ; PAL và SECAM ở châu Âu và các khu vực khác
trên thế giới.
- Để người nhận ra sự chuyển động của các ảnh trên màn hình cần
phải làm tươi hay thay đổi với tốc đô nào đó. Người ta gọi là refresh
rate. Để thấy được ảnh chuyển động trơn tốc độ làm tươi tối thiểu
là 15 fps (frame per scond); các camera và project lấy tốc độ 16 fps,
công nghiệp làm phim lấy 24 fps; NTSC lấy 30 fps; và PAL ,
SECAM lấy 25 fps;
- Ảnh được tạo trên màn hình nhờ các đường quét (scan line), do tỉ
lệ chiều rộng và chiều cao của màn hình là 4/3 do đó số điểm trên
mỗi đường phụ thuộc vào số đường quét trên màn hình. Ví dụ màn
hình có 483 đường khi đó số pixel trên mỗi đường là 4/3 x 843=
640 pixel.
HDTV (Hight Definition Television)
3 - Khoảng cách tốt nhất khi xem tivi :
Ở đây P là chiều cao , L là chiều rộng màn hình .
- Nguyên tắc tạo màu khi phát và truyền ảnh trong hệ thống
truyền hình
Từ năm 1950 nguyên tắc tạo truyền hình màu được thực hiện như
sau :
Người ta dựa vào tín hiệu cơ bản Black-and White để tạo khối
màu sáng Y (luminance component Y) với độ sáng khác nhau,
sau đó người ta trộn thêm hai khối màu chrominance C1,C2.Tùy
thuộc vào hệ thống truyền hình C1,C2 chọn khác nhau. Ví dụ hệ
NTSC sử dụng hai khối C1, C2 tương ứng là I,Q; Hệ PAL là
U,V; hệ SECAM là Dr. Db. Như vậy không gian màu trong
NTSC là YIQ,PAL là YUV; SECAM là YDrDb
Việc làm này có lợi thế khi truyền tín hiệu television người ta chỉ
cần gửi đi một tín hiệu.
Ví dụ trong hệ NTSC các mầu có thể xác định
Y = 0.299R_ + 0.587B_ + 0.114B_,
I = 0.596R_ − 0.274G_ − 0.322B_
Q = 0.211R_ − 0.523G_ + 0.311B_
Ở đầu nhận khối các màu R_,G_, B_ được xác định theo công
thức
R_ = Y + 0.956I + 0.621Q,
G_ = Y − 0.272I − 0.649Q,
B_ = Y − 1.106I + 1.703Q.
4.Cấu trúc tóm tắt media
Cấu trúc media tóm tắt được định nghĩa như sau:
Một cấu trúc media tóm tắt là một tập gồm 8 tuple (S, fe, ATTR, λ,
R, F, Var1, Var2)
Trong đó
• S là một tập các đối tượng gọi là các trạng thái.
• fe là một tập các đối tượng gọi là các đặc trưng.
• ATTR là một tập các đối tượng gọi là các giá trị thuộc tính.
• λ: S > 2fe là một ánh xạ từ các trạng thái sang tập các đặc trưng.
• R là một tập các quan hệ trên fei x ATTRj x S với i,j ≥ 0.
• F là một tập các quan hệ của S.
• Var1 là một tập các đối tượng gọi là các biến, thuộc S
• Var2 là một tập các biến, thuộc fe.
• Một trạng thái là đoạn (chunk) nhỏ nhất của dữ liệu media mà ta
mong muốn.
Ví dụ như trong một CSDL hình ảnh, mỗi ảnh có thể được xem như
là một trạng thái. Nếu quan điểm này được chấp nhận, chúng ta sẽ
coi như tất cả các ảnh như là các đối tượng đơn lẻ cơ bản và tất cả
các đặc tính của nó sẽ được quan tâm và khi đó chúng ta sẽ không
quan tâm đến các đặc tính đơn lẻ như là các đặc tính của từng điểm
ảnh.
Trong trường hợp dữ liệu video, một trạng thái có thể được xem là
một chuỗi liên tiếp các frame có dạng (10 x i, 10 x (i+1)) thể hiện
một đoạn gồm 10 frame bắt đầu từ frame có số thứ tự chia hết
cho 10.
• Một đặc trưng là bất kỳ đối tượng nào trong một trạng thái mà nó
sẽ được quan tâm. Một đặc trưng có thể gao gồm cả các đối tượng
và các phạm vi của nó.
Ví dụ như chúng ta xem xét một bức ảnh gồm 3 đối tượng A, B và
một đối tượng chưa được nhận biết thì các đặc trưng được quan tâm
đến ở đây là A, B và đối tượng C nào đó.
Tương tự như vậy nếu chúng ta phân tích đoạn video từ frame 50-
100 thì các đặc trưng được quan tâm ở đây là A, B và cái vali.
Các đặc trưng xuất hiện trong một trạng thái có thể có các thuộc
tính của mình, ví dụ như đối tượng A bước ra khỏi chiếc xe ôtô của
mình thì các thuộc tính của chiếc xe ô tô (loại xe, mầu sắc, biển số)
cũng cần phải được ghi nhận.
Tương tự như vậy, một đối tượng media cũng có thể có một vài
thuộc tính cần được quan tâm như ngày, thời gian và địa điểm chụp
bức ảnh đó.
• λ là một ánh xạ đặc trưng rút gọn cho phép ta biết đặc trưng nào
xuất hiện trong những trạng thái nào. λ có thể là một GUI (giao diện
đồ họa người dùng) cho phép người sử dụng tương tác nhằm mục
đích nhận biết được nội dung của một đối tượng media.
• R là một tập các quan hệ trên fei x ATTRj x S các quan hệ này phụ
thuộc vào trạng thái. Ví dụ nếu xem xét một bức ảnh như photo1.gif
thì ở đây có thể có một quan hệ phụ thuộc vào trạng thái gọi là
left.of bao gồm một bộ ba có dạng (đối tượng A, đối tượng B,
photo1.gif). tương tự như vậy chúng ta cũng có thể có một quan hệ
khác gọi là background bao gồm một cặp có dạng (photo1.gif,
White_House).
• F có thể chứa các liên kết kết hợp 2 trạng thái chẳng hạn như liên
kết có trước, nếu chúng ta có 2 bức ảnh (photo1.gif, photo2.gif) mà
giữa chúng tồn tại liên kết có trước thì khi đó có nghĩa là bức ảnh 1
được chụp trước bức ảnh 2 và tiếp tục như vậy.
Để nắm rõ hơn, chúng ta xem xét một số ví dụ áp dụng trên một số
loại đối tượng media sau.
5.Dữ liệu video như là một tóm tắt media.
• Tập các trạng thái bao gồm 5 frames video từ frame 1 đến frame 5.
• Tập các đặc trưng bao gồm Jane Shady, Denis Dopeman,
Dopemanhouse và briefcase.
• Ánh xạ rút gọn λ được mô tả ở bảng sau :
State Feature
Frame1 Dopemanhouse,briefcase,JaneShady
Frame2 Dopemanhouse,briefcase,JaneShady,DenisDopeman
Frame3
Dopemanhouse,briefcase,JaneShady,DenisDopeman
Frame4 Dopemanhouse_briefcase,JaneShady,DenisDopeman
Frame5 Dopemanhouse,JaneShady
Bảng 2.2: Liên hệ giữa đặc trưng và trạng thái cho video
Cũng giống như trường hợp áp dụng đối với CSDL hình ảnh, định
dạng cụ thể của ánh xạ λ có thể khác đi để tối ưu hoá cho quá trình
chỉ số hoá và khai thác.
• Chúng ta có thể có một số quan hệ phụ thuộc vào trạng thái sau:
o Quan hệ có (have) là một quan hệ phụ thuộc vào trạng thái xác
định chiếc valy (đối tượng) xuất hiện cùng với nhân vật nào ở trong
trạng thái nào? Quan hệ này có được mô tả như sau:
Person Object State
JaneShady Briefcase 1
JaneShady Briefcase 2
JaneShady Briefcase 3
DenisDopeman Briefcase 4
Bảng 2.3: Quan hệ Have
o Quan hệ vợ chồng (spouse) là một quan hệ phụ thuộc vào
trạng thái chỉ ra tên vợ (hoặc chồng) của một đối tượng nào đó.
Quan hệ này có thể được mô tả như sau :
Person Spouse
JaneShady PeterShady
JaneShady PeterShady
DenisDopeman DebraDopewoman
Bảng 2.4: Quan hệ vợ- chồng
• Ở đây có thể chỉ có một quan hệ nội tại của trạng thái gọi là before
(s1,s2) chỉ ra rằng trạng thái s1 có trước trạng thái s2.
Cũng tương tự như trên, chúng ta có thể dễ dàng thấy rằng các kiểu
media khác nhau chằng hạn như dữ liệu âm thanh hoặc dữ liệu văn
bản có thể được mô tả như là một trường hợp của kiểu media tóm
tắt tổng quát. Với cấu trúc đơn giản đề cập ở trên, một CSDL
Multimedia là một tập bao gồm các media tóm tắt.
6. Nén dữ liệu Video
4.1- Nguyên tắc nén video
Để nén dữ liệu video người ta dựa vào hai nguyên tắc :
-Vứt bỏ dữ liệu dư thừa về không gian (spatial redundancy) mà nó
có trên mỗi ảnh.
- Vứt bỏ dữ liệu dư thừa theo thời gian (temporal redundancy) , điều
xảy ra do các ảnh video cạnh nhau tương đối giống nhau.
+ Bỏ dữ liệu dư thừa theo không gian
Thực chất bỏ bớt các phần giống nhau trên một ảnh
+ Bỏ dữ liệu dư thừa theo thời gian
Thực chất bỏ bớt các phần giống nhau trên các ảnh cạnh nhau (sử
dụng ảnh I,B, P)
4.2- Một số phương pháp nén trực quan đơn giản dữ liệu video
a/ phương pháp Subsampling
Bộ mã hóa (encoder )chọn ra các ảnh khác nhau và viết nó vào
dòng nén (compressed stream) cách làm này cho hệ số nén bằng 2.
Bộ giải mã đưa vào các ảnh và nhân nó lên thành hai ảnh.
b/ Differencing (mã các điểm khác nhau):
Ảnh được so với ảnh đứng trước nó, nếu sự khác nhau giữa chúng
nhỏ (một số ít điểm), khi đó bộ mã chỉ mã các điểm khác nhau bằng
cách viết 3 số vào dòng nén cho mỗi điểm, gồm tọa độ điểm ảnh và
giá trị khác nhau của hai điểm ảnh . Nếu sự khác nhau giữa hai ảnh
là lớn , trên ảnh hiện thời người ta ghi dòng ra nguyên dạng . Nếu
sự sai khác giữa cường độ điểm ảnh trong ảnh trước và ảnh hiện
thời nhỏ hơn ngưỡng nào đó, điểm được coi là không khác nhau.
c/ Block Differencing (mã các khối khác nhau)
Đây là phương pháp tốt hơn phương pháp differencing, ảnh được
chia thành nhiều khối , trong mỗi khối B của ảnh hiện thời được so
với khối P tương ứng ở ảnh đứng trước nó. Nếu hai khối khác nhau
nhiều hơn số nào đó , thì B được nén bằng cách ghi lai tọa độ ảnh
của khối, tiếp theo là các giá trị của các điểm ảnh hoặc phần sai
khác của các điểm ảnh vào dòng nén.
Ưu điểm của tọa độ khối nhỏ hơn ghi tọa độ điểm ảnh và tọa độ
khối chỉ ghi một lần, Ở bên trong giá trị của tất cả các điểm ảnh,
ngay cả khi các điểm ảnh không thay đổi cũng phải viết vào dòng
ra. Mặc dù các các giá trị này được coi là khác nhau nên chúng nhỏ.
Do đó phương pháp này làm nhỏ rất nhiều kích thước khối.
d/ Motion Compensation( bù chuyển động):
Chúng ta biết rằng sự khác nhau giữa các ảnh liên tiếp trong fiml
(movie) rất nhỏ vì nó là kết quả của chuyển động của camera quay
hoặc giữa hai ảnh, đặc tính này được khai thác để làm tốt hơn cho
việc nén ảnh. Nếu bộ mã hóa phát hiện ra rằng phần P của ảnh trước
đó chuyển đến vị trí khác trong ảnh hiện thời , thì P có thể nén bằng
cách ghi tiếp theo 3 trường (item) vào dòng nén, vị trí trước của nó,
vị trí hiện thời và thông tin để xác định các biên của P. Phần sau
chúng ta sẽ nói đến bù chuyển động dựa vào(Manning 98)
Về nguyên tắc một phần có thể có mẫu bất kỳ . Trong thực tế chúng
ta giới hạn các khối có kích thước như nhau (có thể hình vuông,
chữ nhật), bộ mã hóa sẽ scan lần lượt các khối trên ảnh hiện thời.
Với mỗi khối B nó đi tìm trên ảnh trước đó khối C giống hệt (nếu
nén không mất thông tin) hoặc gần giống(nếu nén có mất dữ liệu).
Phát hiện ra khối như thế, bộ mã hóa sẽ viết vào dòng ra sự sai
khác giá vị trí hiện thời và vị trí đã gặp trước đó. Sự sai khác này
cho ở dạng
(Cx − Bx, Cy − By) = (Δx,Δy).Nó được gọi là vecto dịch chuyển
Hình dưới đây là ví dụ. Trong hình này mặt trời và các cây di
chuyển về bên phải(do camera chuyển động), trong khi đó câu bé di
chuyển một khoảng cách khác về bên trái. (đó là cảnh chuyển động)
Bù chuyển động rất hiệu quả nếu object dịch chuyển nhưng không
thay đổi tỷ lệ hoặc không quay. Sự thay đổi nhanh cường độ
sáng(illuminate) từ ảnh này sang ảnh khác cũng làm giảm hiệu quả
của phương pháp này. Nói chung bù chuyển động cũng là kỹ thuật
nén làm mất dữ liệu.
e/ Frame Segmentation( phân đoạn ảnh):
Ảnh hiện thời được phân chia thành các khối không chồng nhau
nonoverlapping blocks) , các khối có thể là vuông hay chữ nhật, sau
đó ta coi rằng chuyển động trong video chủ yếu theo đường ngang
(horizontal), như vậy các khối ngang sẽ làm giảm số vecto chuyển
động không làm giảm tỉ lệ nén. Kích thước khối là quan trọng vì
khối lớn sẽ làm giảm cơ hội tìm ra cái giống nó, khối quá nhỏ thì có
quá nhiều vecto chuyển động, trong thực tế người ta lấy kích thước
là bội mũ của 2 để tiện xử lý trong phần mềm như 2,4,8,16
f/ Search Threshold (tìm theo ngưỡng):
Mỗi khối B trong ảnh hiện thời trước tiên được so với bản sao C
trong ảnh trước nó, nếu chúng giống nhau hoặc sự khác nhau giữa
chúng dưới ngưỡng qui định khi đó bộ mã hóa coi như khối không
có chuyển động.
- Block Search (tìm khối)
Đây là quá trình mất nhiều thời gian do vậy khi thiết kế thuật toán
cần lưu ý. Nếu khối B hiện thời trong ảnh hiện thời, lúc đó cần tìm
trong ảnh trước khối giống hoặc gần giống với B. Việc tìm kiếm
được hạn chế trong một vùng nhỏ (gọi là vùng tìm kiếm) quanh
khối B, vùng này được xác định bởi tham số di chuyển cực đại dx,
dy . các tham số này ấn định khoảng cách tính bằng pixel theo
chiều ngang và chiều thẳng đứng cực đại giữa khối B và khối bất kỳ
giống B trong ảnh trước.Nếu B là hình vuông cạnh b, thì vùng tìm
kiếm chứa (b + 2dx)(b + 2dy) pixel và sẽ có
(2dx+1)(2dy +1) hình khác nhau, chồng nhau bxb hình vuông. Số
khối cần tuyển chọn (candidate) trong vùng này tỉ lệ với dxdy. Hình
dưới đây minh họa vùng tìm kiếm.
- Distortion measure (Đo độ sai khác)
Đây là phần quan trọng đối với bộ mã hóa, độ đo sai lệch cho phép
chọn khối thích hợp nhất với khối B, nó phải đơn giản , nhanh và tin
cậy. Có một vài cách chọn dẽ đề cập ở section 4.14