Tải bản đầy đủ (.pdf) (9 trang)

Một số kỹ thuật tìm kiếm ảnh theo nội dung trong cơ sở dữ liệu đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (343.43 KB, 9 trang )

<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>

Đại học quốc gia Hà nội
<b>Tr-ờng i hc cụng ngh </b>


<b>D-ơng Hoàng Huyên </b>



MT S K THUẬT



TÌM KIẾM ẢNH THEO NỘI DUNG



TRONG C S D LIU A PHNG TIN



<b>Luận văn thạc sĩ </b>



</div>
<span class='text_page_counter'>(2)</span><div class='page_container' data-page=2>

<b>Mở đầu </b>



Ngay t ban u máy tính đã đ-ợc coi là các thiết bị xử lý các biểu t-ợng,
<i>các kí tự đầu vào có dạng alphabet và đầu ra là các biểu t-ợng có cùng dạng trên. </i>
<i>Điều này đã trở thành mơ hình tính tốn chuẩn dựa trên cơ sở máy Turing. </i>


Tuy nhiên, trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về khả
năng khai thác và xử lý dữ liệu với số l-ợng khổng lồ mà các dữ liệu này thì khơng
dễ dàng diễn tả bằng các kí hiệu, d-ới đây là một số ví dụ về kiểu dữ liệu nh- đã
nêu:


<i>Dữ liệu hình ảnh (Image data): Các công ty thiết kế logo cho các cơ quan tổ </i>
<i>chức nào đó. Họ cần phải duy trì một CSDL ảnh các logo để khi tạo ra một logo </i>
<i>mới sẽ không bị trùng lặp với những logo đã có. </i>


<i>Dữ liệu video (Video data): Trong ngữ cảnh khác, các sinh viên học từ xa </i>
<i>muốn có một bài giảng bằng video về một chủ đề nào đó của môn học. Trong </i>
<i>tr-ờng hợp này các tr-ờng học cần phải tạo ra một tập hợp các video có nội dung về </i>


bài giảng của giáo viên với một chủ đề nào đó.


<i>Dữ liệu âm thanh (Audio data): Tình huống t-ơng tự nh- trên, các sinh viên </i>
<i>học từ xa muốn có các đoạn audio bài giảng của các giáo viên. Hoặc tình huống </i>
<i>khác nh- sinh viên học ngoại ngữ muốn có các đoạn audio các cuộc đàm thoại. </i>
<i>Trong tr-ờng hợp này cũng cần phải tập hợp các đoạn audio trên theo một chủ đề </i>
nào đó để thuận tiện trong việc sử dụng sau này.


</div>
<span class='text_page_counter'>(3)</span><div class='page_container' data-page=3>

<i>CSDL tài liệu thì ta có thể truy cập vào ảnh trong tài liệu đó. </i>


<i>Dữ liệu viết bằng tay (Handwritten data): Nhiều ng-ời th-ờng ghi chú lên </i>
những mảnh giấy nhỏ, điều này th-ờng hay bị mất thông tin, hoặc thông tin dễ bị
mờ. Xu thế gần đây trên thế giới ng-ời ta cho rằng ghi chép điện tử ngày càng phát
triển trong t-ơng lai. Ng-ời sử dụng sẽ dùng các thiết bị điện tử để ghi chép và l-u
<i>trữ các ghi chú cá nhân. Mặc dù có nhiều ghi chép có thể chuyển sang mã ASCII </i>
bằng kỹ thuật phân tích chữ viết tay, nh-ng có rất nhiều ghi chú không thể thực
hiện đ-ợc bởi vì các ghi chú th-ờng chứa cả các nét loằng ngoằng hay các biểu đồ
khối.


Các kiểu dữ liệu liệt kê trên đây chỉ là một phần trong rất nhiều hình thức
biểu hiện của dữ liệu phát sinh tự nhiên trong các ứng dụng khác nhau. Từ những
<i>dữ liệu mới phát sinh trên, ta thấy rằng các CSDL truyền thống không thể quản lý </i>
các kiểu dữ liệu này đ-ợc. Do đó cần phải có có một hệ thống quản lý tất cả các
<i>loại dữ liệu media và CSDL đa ph-ơng tiện đ-ợc hình thành. </i>


Trong khn khổ của luận văn này, chúng tơi trình bày một số vấn đề cơ bản
<i>của một hệ quản trị CSDL đa ph-ơng tiện chẳng hạn các khái niệm, kiến trúc hệ </i>
thống và mơ hình dữ liệu đa ph-ơng tiện. Trong đó, tập trung nghiên cứu và cài đặt
thử nghiệm một số ph-ơng pháp tìm kiếm theo nội dung trên dữ liệu đa ph-ơng
tiện, cụ thể là dữ liệu ảnh.



</div>
<span class='text_page_counter'>(4)</span><div class='page_container' data-page=4>

<b>Tổng quan về cơ sở dữ liệu đa ph-ơng tiện </b>


<b>1.1 Các khái niệm cơ bản </b>



<i>D liu Media là các kiểu thông tin hoặc biểu diễn của các kiểu thông tin </i>
<i>nh- các kí tự, ảnh, audio và video. Multimedia là tập hợp các kiểu media đ-ợc sử </i>
<i>dụng với nhau. Hệ quản trị cơ sở dữ liệu đa ph-ơng tiện (Multimedia DataBase </i>
<i>Management System - MMDBMS) là một hệ thống giúp ng-ời dùng thao tác trên </i>
<i>các dữ liệu media một cách thích hợp và hiệu quả. Các thao tác cơ bản của hệ quản </i>
<i>trị CSDL th-ờng là chèn, cập nhật, xóa và tìm kiếm một đối t-ợng trong CSDL. Các </i>
<i>dữ liệu media có những đặc điểm chính nh- sau: </i>


<i>- Dữ liệu media, đặc biệt là dữ liệu audio và video có dung l-ợng rất lớn. Ví </i>
dụ một một đoạn phim khoảng 10 phút với chất l-ợng bình th-ờng có thể đến 1,5
GB ở dạng không nén.


<i>- Dữ liệu audio và video có tham số thời gian. Nó phải đ-ợc thể hiện ở một </i>
tốc độ cố định để đạt đ-ợc hiệu quả mong muốn.


<i>- Dữ liệu media đ-ợc biểu diễn ở dạng đặc thù, khơng có cấu trúc ngữ nghĩa </i>
rõ ràng để máy tính có thể tự động nhận biết nội dung.


- ý nghĩa dữ liệu đa ph-ơng tiện đôi khi không rõ ràng phụ thuộc vào cách
quan sát và ý kiến chủ quan của con ng-ời. Cùng một hình ảnh nh-ng có thể có các
nhận xét khác nhau bởi nhiều ng-ời.


- Dữ liệu đa ph-ơng tiện rất giàu thông tin, để biểu diễn đầy đủ nội dung cần
phải có rất nhiu tham s.


<b>1.2 Nguyên lý thiết kế CSDL đa ph-¬ng tiƯn </b>




</div>
<span class='text_page_counter'>(5)</span><div class='page_container' data-page=5>

<i>néi dung cđa mét MMDBMS: </i>


<i>1. Nguyên lý tự trị (principle of automony): ta phải lựa chọn để nhóm chung </i>
<i>media cùng loại. Chỉ số hóa mỗi loại media này theo cách riêng và hiệu quả nhất để </i>
<i>thuận tiện khi truy cập vào các đối t-ợng. Ta gọi là tự trị vì mỗi loại media đ-ợc tổ </i>
chức riêng và phù hợp với từng loại. Hình 1.1 mơ tả sơ đồ ngun lý tự trị.


<i>2. Nguyên lý đồng nhất (Principle of unformity): cố gắng tìm ra một cấu trúc </i>
<i>trừu t-ợng hơn để chỉ số hóa mọi kiểu dữ liệu, khi truy cập vào các kiểu media </i>
khác nhau đều thơng qua chỉ số này. Nói cách khác, chúng ta biểu diễn nội dung
<i>của các đối t-ợng media khác nhau (ảnh, tài liệu, audio, video...) trong cùng một </i>
cấu trúc dữ liệu, sau đó phát triển thuật toán để truy cập vào cấu trúc dữ liệu đó.
Hình 1.2 mô tả sơ đồ nguyên lý thống nhất.


<i>3. Nguyên lý tổ chức lai (Principle of hybird organization): là sự kết hợp hai </i>
<i>nguyên lý trên. Theo nguyên lý này, một số dữ liệu media sử dụng chỉ số riêng và </i>
những dữ liệu còn lại sẽ sử dụng cùng một chỉ số. Hình 1.3 mơ tả tổng qt một sơ
đồ nguyên lý tổ chức lai.


</div>
<span class='text_page_counter'>(6)</span><div class='page_container' data-page=6>

<i><b>Hình 1.1 Sơ đồ nguyên lý tự trị </b></i>


<i><b>Hình 1.2 Sơ đồ ngun lý thống nhất </b></i>
Mơ tơ trình din


Mô tơ truy vấn đa ph-ơng tiện


Chỉ số thống nhất
User Trả lời
Truy vấn



Mô tơ trình diễn


Mô tơ truy vấn đa ph-ơng tiện


Chỉ số ảnh <i>Chỉ số video </i> Chỉ số tài liệu Dữ liệu khác
User Trả lời


</div>
<span class='text_page_counter'>(7)</span><div class='page_container' data-page=7>

<i><b>Hình 1.3 Sơ đồ nguyên lý tổ chức lai </b></i>


Ng-ợc lại với nguyên lý tự trị, nguyên lý thống nhất địi hỏi chúng ta tìm ra
<i>cấu trúc dữ liệu chung để có thể l-u trữ thơng tin về ảnh, video, audio, tài liệu..., </i>
điều này địi hỏi phải khảo sát nội dung mỗi loại thơng tin và cố gắng đ-a ra các
phần chung của nó, sau đó chỉ số hóa trên các phần chung đó. Lợi thế của nguyên
lý thống nhất là dễ cài đặt và thuật toán th-ờng chạy nhanh. Trong công nghiệp,
nguyên lý thống nhất đ-ợc sử dụng rộng rãi thông qua các thiết bị chú giải
<i>(metadata). Bất lợi là chú giải th-ờng đ-ợc tạo một cách thủ công. Tiến trình tạo ra </i>
bằng tay th-ờng mất nhiều thời gian và kinh phí. Hơn nữa một số thơng tin có thể
bị mất nếu ngơn ngữ chú giải khơng đầy đủ ý nghĩa để mơ tả mọi khía cạnh của nội
dung. Ví dụ, ngơn ngữ chú thích nội dung ảnh có thể làm mất thơng tin của từng
điểm ảnh. T-ơng tự, ngơn ngữ chú thích âm thanh có thể làm mất thơng tin về biên
độ và tần số tín hiệu tại một số điểm.


Nguyên lý tổ chức dữ lai tận dụng đ-ợc các lợi thế của hai kiến trúc tr-ớc đó
<i>và hạn chế đ-ợc các bất lợi của nó. Giả sử ta muốn tạo ra một MMDBMS có các </i>
<i>kiểu M1, ..., Mn. Ta sẽ chia các kiểu thành 2 tập hợp: những kiểu media có sẵn và đã </i>
<i>có chỉ số, ta giữ lại các chỉ số và các mã ch-ơng trỡnh ó tn ti; nhng kiu media </i>


Mô tơ trình diễn



Mô tơ truy vấn đa ph-ơng tiện


Chỉ số thèng nhÊt
User Tr¶ lêi


Truy vÊn


</div>
<span class='text_page_counter'>(8)</span><div class='page_container' data-page=8>

khơng có sẵn và ch-a đ-ợc chỉ số, ta biểu diễn theo các chỉ số thống nhất. Sau đó
tạo lập mã ch-ơng trình để kết nối nhiều nguồn dữ liệu khác nhau nhờ các chỉ số
của chúng. Theo nguyên lý này, sẽ sử dụng tối đa các mã nguồn đang tồn tại, tiết
kiệm đ-ợc thời gian và sức lực bởi vì tận dụng đ-ợc các chỉ s ó cú.


<b>1.3 Kiến trúc hệ thống và mô hình dữ liệu CSDL đa ph-ơng </b>


<b>tiện </b>



<b>1.3.1 Kiến trúc tỉng qu¸t </b>



<i>Kiến trúc hệ thống của một MMDBMS phải mềm dẻo và có khả năng mở </i>
rộng để hỗ trợ các ứng dụng, các kiểu truy vấn và nội dung dữ liệu. Để giải quyết
<i>vấn đề này, MMDBMS bao gồm một số module chức năng, các chức năng mới có </i>
thể thêm vào, các chức năng cũ có thể loại bỏ, cập nhật.


<i>Một tính chất quan trọng của MMDBMS đó là các dữ liệu đ-ợc tổ chức phân </i>
<i>tán. Lý do là dữ liệu media th-ờng có dung l-ợng lớn, đ-ợc dùng chung bởi nhiều </i>
<i>ng-ời, nếu duy trì một CSDL riêng cho từng cá nhân sẽ rất tốn kém. Vì vậy, trong </i>
<i>các MMDBMS th-ờng có thêm một module chức năng truyền thơng. </i>


<i>Hình 1.4 mơ tả kiến trúc tổng qt của một MMDBMS. Trong đó có các khối </i>
chức năng chính là giao diện ng-ời dùng, khối trích chọn đặc tr-ng, bộ phận truyền
thơng, cơng cụ tìm kiếm và chỉ số hóa, và cuối cùng bộ phận quản lý l-u trữ. Các


khối chức năng này đ-ợc mô tả thông qua các hoạt động.


</div>
<span class='text_page_counter'>(9)</span><div class='page_container' data-page=9>

<i>đ-ợc gởi đến server thông qua bộ phận truyền thông. Tại server, các đặc tr-ng sẽ </i>
đ-ợc tổ chức và chỉ số hóa một cách thích hợp sao cho việc tìm kiếm đạt hiệu quả
<i>tốt nhất. Các đối t-ợng gốc sẽ đ-ợc l-u trữ trên server thông qua bộ phận l-u tr. </i>


<b> Tài liệu tham khảo </b>


<b>Tiếng Việt </b>



<i>[1] Đặng Văn Đức (2003), Nguyên lý hệ thống CSDL đa ph-ơng tiện, Viện công </i>
nghệ thông tin, Viện khoa học và C«ng nghƯ ViƯt Nam.


<b>TiÕng Anh </b>



<i>[2] D. Feng, W.C. Siu, H.J.Zhang, Multimedia Information Retrieval and </i>
<i>Management: Technological Fundamentals and Applications, Chapter 1, Springer. </i>
<i>[3] Eva M. van Rikxoort (2005), Content-Based Image Retrieval: Utilizing color, </i>
<i>texture and shape, Master Thesis in Artificial Intelligence, Faculty of Social </i>
Sciences, Radboud University Mijmegen, Mijmengen, The Netherlands.


<i>[4] Guojun Lu (1999), Multimedia Database Management Systems, Artech House </i>
Boston London.


<i>[5] Mihran Tuceryan and Anil K. Jain, Texture Analysis. </i>


<i>[6] Nicu Sebe and Michael S. Lew, Texture Features for Content-Based Retrieval. </i>
<i>[7] Shengjiu Wang, A Robust Approach Using Local Color Histogram. </i>


</div>

<!--links-->

×