Tải bản đầy đủ (.pdf) (68 trang)

giải thuật đối sánh dạng tháp trong nhận dạng ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.58 MB, 68 trang )

Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 4

TRƯỜNG ĐẠI HỌC CẦN THƠ
KHOA SƯ PHẠM
BỘ MÔN TOÁN


LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
GIẢI THUẬT ĐỐI SÁNH DẠNG THÁP
TRONG NHẬN DẠNG ẢNH

Giáo viên hướng dẫn : Sinh viên thực hiện :
Ths. Phạm Văn Huy Ngô Lê Ngọc Bích
MSSV : 1050204
Lớp : Toán Tin K31




Năm học : 2008-2009

Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 5
LỜI CÁM ƠN
  
Trong quá trình làm luận văn, tôi đã nhận được nhiều sự giúp đỡ của quý
thầy cô khoa Sư phạm, bộ môn Toán, sự động viên tinh thần của gia đình và bạn
bè. Đây là nguồn động viên tinh thần và vật chất to lớn để tôi đã hoàn thành luận
văn tốt nghiệp. Nay tôi xin gửi đến lời tri ân sâu sắc đến toàn thể mọi người.
Xin chân thành gửi lời cảm ơn đến thầy Phạm Văn Huy đã cho tôi có cơ


hội được hiểu biết về đề tài Máy Học_một đề tài mới mẻ và vô cùng thú vị trong
lĩnh vực khoa học máy tính. Cám ơn sự giúp đỡ của thầy về mặt tư liệu tham
khảo cũng như sự hướng dẫn trong suốt quá trình thực hiện.
Ngoài ra, xin chân thành cảm ơn Mr.John Lee, tác giả của một vài tài liệu
mà tôi tham khảo. Cám ơn sự hướng dẫn, giúp đỡ tận tình của ông trong quá
trình thu thập và nghiên cứu tài liệu.
Tôi xin chân thành cảm ơn sự đóng góp, nhận xét của các Thầy, Cô phản
biện và giáo viên hướng dẫn để tôi có thể hoàn thành bày luận văn.
Sau cùng chúng tôi xin chân thành cảm ơn gia đình, quý thầy cô trong khoa
Sư Phạm, và bạn bè lớp Toán Tin K31, các thành viên của forum Ubuntu Việt
Nam cũng như cộng đồng BaamBoo Tra Từ đã giúp đỡ chúng tôi hoàn thành
luận văn.


Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 6
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN :






























Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 7

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN :































Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 8
Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 9
MỤC LỤC
MỤC LỤC 4

LỜI NÓI ĐẦU 11

I. GIỚI THIỆU CHUNG 12


I.1 GIỚI THIỆU ĐỀ TÀI 12

I.1.1 Tìm kiếm dựa vào từ khóa 12

I.1. 2 Tìm kiếm một bức ảnh đã có trong cơ sở dữ liệu 13

I.1.3 Tìm kiếm những hình ảnh cùng thuộc một chủ đề 13

I.2 MỤC ĐÍCH CỦA ĐỀ TÀI 14

I.3 HƯỚNG GIẢI QUYẾT 14

II. CƠ SỞ LÝ THUYẾ T : 15

II.1 SƠ ĐỒ VORONOI 15

II.2 NHỮNG LÝ THUYẾT CƠ BẢN VỀ CÂY 16

III. NỘI DUNG CHÍNH 17

III.1 CÁC BƯỚC CƠ BẢN TRONG XỬ LÝ ẢNH 18

III.2 GIẢI THUẬT ĐỐI SÁNH DẠNG THÁP [2] 20

III.2.1 Ý tưởng 20

III.2.2 Giải thuật đối sánh dạng tháp (The pyramid match ) 22

III.2.3 Ví dụ minh họa sự phát triển các cấp của giải thuật đối sánh dạng 25


III.2.4 Sơ đồ minh họa giải thuật đối sánh dạng tháp 27

III.2.5 Hiệu quả của giải thuật 29

III.3 GIẢI THUẬT ĐỐI SÁNH DẠNG THÁP ĐỊNH HƯỚNG TỪ VỰNG (VG) [2] 30

III.3.1 Những nét cơ bản của giải thuật VG 31

III.3.2 Những tương ứng trong giải thuật VG 33

III.4 KẾT HỢP GIẢI THUẬT VG VÀ CÂY TỪ VỰNG [2,3,4] 34

III.4.1 Cây từ vựng 34

III.4.2 Cây thích nghi 36

III.4.3 Phát triển cây 37

III.4.4 Cắt tỉa những nút lỗi thời 38

III.4.5 Kết hợp giải thuật VG và cây từ vựng thích nghi trong nhận dạng ảnh 39

III.4.6 Kết hợp nhiều cây 46

III.4.6 Kết quả từ một số thí nghiệm áp dụng giải thuật trên 47

IV. XÂY DỰNG DEMO 53

IV.1 GIỚI THIỆU VỀ UBUNTU VÀ NGÔN NGỮ JAVA 53


IV.1.1 Giới thiệu về Ubuntu 53

IV.1.2 Giới thiệu về Java 54

Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 10
IV.1.3 Lý do xây dựng demo trên Ubuntu và ngôn ngữ Java 54

IV.2 GIỚI THIỆU DEMO 55

IV.2.1 Giới thiệu một số code được dùng 55

IV.2.2 Các thành phần và mã viết demo 56

IV.2.3 Hướng dẫn sử dụng demo 65

IV.2.4 MỘT VÀI KẾT QUẢ BẰNG CHƯƠNG TRÌNH TRÊN 67

V. KẾT LUẬN VÀ ĐỀ NGHỊ 70

V.1 KẾT QUẢ ĐẠT ĐƯỢC 70

V.2 HẠN CHẾ 70

V.3 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 70

TÀI LIỆU THAM KHẢO 71

Luận văn tốt nghiệp GVHD : Phạm Văn Huy

SVTH : Ngô Lê Ngọc Bích Trang 11
LỜI NÓI ĐẦU
Ngày nay, nhận biết được xem là 1 chủ đề thú vị trong lĩnh vực trí tuệ nhân
tạo. Nó không chỉ dừng lại ở việc nhận dạng những chữ ( dạng text thông
thường). Nó vươn xa hơn trong nhiều lĩnh vực như nhận dạng vân tay, chữ viết,
khuôn mặt, giọng nói… Đối với mỗi người dùng, nhận dạng và tìm kiếm là một
khái niệm mà bất kỳ ai đều quen thuộc trong quá trình xử lý thông tin. Với lượng
thông tin ngày càng đa dạng hơn, đòi hỏi con người phát triển nhiều giải thuật
hơn để phù hợp với nguồn cơ sở dữ liệu, đặc biệt đối với nguồn cơ sở dữ liệu
động.
Bài báo cáo này giới thiệu giải thuật biểu đồ tháp và quá trình phát triển để
xây dựng một hệ thống nhận dạng và tìm kiếm hình ảnh dưới nhiều góc độ khác
nhau từ khung cảnh, góc nhìn cho đến độ tương phản, độ sáng tối của cùng một
hình ảnh với một cơ sở dữ liệu động.
Thông qua bài báo cáo, hy vọng sẽ góp một phần nhỏ giúp chúng ta hiểu
hơn về cách tổ chức cơ sở dữ liệu phục vụ cho quá trình tìm kiếm dữ liệu nói
chung và hình ảnh nói riêng. Đây thực sự là một vấn đề khó trong chuỗi các vấn
đề của Máy học. Mặc dù đã rất cố gắng, nhưng không tránh khỏi sai lầm và thiếu
sót. Rất mong được sự đóng góp, sửa chữa từ phía bạn đọc. Những ý kiến đóng
góp này sẽ là nền tảng để đề tài có thể khắc phục những khuyết điểm và tiếp tục
phát triển trong tương lai.
Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 12
I. GIỚI THIỆU CHUNG
I.1 GIỚI THIỆU ĐỀ TÀI
Hình ảnh được xem là biểu hiện trực quan nhất trong tất cả các phương thức
giao tiếp của con người. Do đó, việc tìm kiếm hình ảnh cũng luôn là một vấn đề
trọng tâm trong việc nghiên cứu chủ đề nhận dạng và tìm kiếm. Có rất nhiều yêu
cầu tìm kiếm hình ảnh để phục vụ cho những mục đích khác nhau từ việc thu
thập thông tin, dữ liệu cho đến việc “dạy” cho những cỗ máy vô tri nhận dạng và

tìm kiếm hình ảnh. Các đoạn sau trình bày một số yêu cầu tìm kiếm thường gặp.
I.1.1 Tìm kiếm dựa vào từ khóa
Đây là một phương pháp rất phổ biến trong việc tìm kiếm hình ảnh. Người
dùng cần đưa ra một từ khóa miêu tả một cách tổng quát nhìn ảnh cần tìm. Sau
đó, máy tính sẽ trả về những hình ảnh tương thích. Một ví dụ thực tế là việc tìm
kiếm hình ảnh trên mạng.


Hình trên minh họa một quá trình tìm kiếm dựa vào từ khóa. Giả sử, người
dùng muốn tìm kiếm những bức ảnh về “con mèo” họ chỉ cần gõ từ khóa này vào
ô tìm kiếm và sẽ có ngay được kết quả mong muốn. Vấn đề đặt ra ở đây là
Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 13
phương pháp tìm kiếm như thế nào. Có phải máy tính “đọc” được yêu cầu của
người dùng là tìm kiếm hình ảnh về con mèo sau đó “nhìn” xem bức ảnh nào
trong cơ sở dữ liệu là thích hợp để trả về kết quả ? Điều này là hoàn toàn không
thực hiện được, máy tính không đọc được bất kỳ nào văn bản của con người cũng
như không “nhìn” thấy được nội dung của bức ảnh là gì. Ngôn ngữ duy nhất mà
máy tính đọc được chỉ là giá trị 0 và 1 ( tương ứng với tắt và mở mạch điện). Bản
chất của vấn đề tìm kiếm ở đây là tìm kiếm văn bản (một chủ đề được nghiên
cứu, phát triển từ rất sớm và đã có một số thành công nhất định). Mỗi hình ảnh
khi được đưa vào cơ sở dữ liệu (hình ảnh online trên mạng) được gán bởi một
nhãn (tag) nói lên nội dung mà nó hiển thị. Máy tính dựa vào nhãn này ( hoặc tên
file) để có được kết quả trả về.
I.1. 2 Tìm kiếm một bức ảnh đã có trong cơ sở dữ liệu
Giả sử ta có một số hình ảnh được lưu trữ trong máy tính.


Yêu cầu đặt ra là cho một trong những hình ảnh trên, máy tính hãy trả về
những thông tin liên quan đến nó ( như tên file, kích thước, vị trí được lưu trên

đĩa….). So với yêu cầu tìm kiếm đầu tiên, ở đây việc tìm kiếm đã nâng lên mức
độ khó hơn khi cả dữ liệu truy vấn và cở sở dữ liệu cho việc tìm kiếm đều dựa
vào hình ảnh. Nhờ một số phần mềm xử lý ảnh (Photoshop), yêu cầu này đã được
giải quyết. Trước tiên chia hình ảnh truy vấn ra thành những phần nhỏ, thực hiện
tương tự với hình ảnh trong cơ sở dữ liệu. Sau đó, so sánh những mẩu hình này
với nhau để có được kết quả tìm kiếm.
I.1.3 Tìm kiếm những hình ảnh cùng thuộc một chủ đề
Giả sử, cũng với cơ sở dữ liệu như trên. Và một hình ảnh truy vấn như sau :
Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 14

Quá trình tìm kiếm yêu cầu máy tính trả về những hình ảnh cùng thuộc một
chủ đề với hình ảnh truy vấn (con ếch). Có thể nói, đối với con người, yêu cầu
này được thực hiện một cách dễ dàng bằng hệ thống xử lý dữ liệu cấu tạo bởi
hàng tỷ nơtron thần kinh. Trong khi đó, quá trình xử lý dữ liệu của máy tính chỉ
là những chuỗi số 0, 1. Mặc dù đã có nhiều nghiên cứu chứng minh hoạt động
của máy tính gần giống với con người. Nhưng cho đến nay, quá trình xử lý của
máy tính vẫn chỉ mô phông được hoạt động của một số ít các nơtron. Vậy, thực
sự yêu cầu tìm kiếm này có thực hiện được không ? Con người có thể “dạy” cho
máy tính nhận dạng chủ đề của một hình ảnh được không ? Kết quả tìm kiếm sẽ
thay đổi như thế nào nếu cơ sở dữ liệu ngày càng phát triển, ngày càng có nhiều
hình ảnh được thêm vào. Hướng giải quyết cho vấn đề này cũng là nội dung
chính mà bài báo cáo muốn thực hiện.
Tóm lại, dù quá trình tìm kiếm diễn ra trong bất kỳ lĩnh vực nào, yếu tố
quan trọng của nó vẫn là độ chính xác và thời gian trả có được kết quả. Do đó,
đây cũng là hai tiêu chí quan trọng để đánh giá và phát triển giải thuật tìm kiếm.
I.2 MỤC ĐÍCH CỦA ĐỀ TÀI
Tìm hiểu phương pháp để máy tính so sánh sự giống nhau giữa hai hình ảnh
cùng thuộc một chủ đề.
Giới thiệu một số giải thuật được phát triển để phục vụ cho chủ đề tìm kiếm

này.
Sau cùng, dựa vào những giải thuật xây dựng đó một chương trình nhận
dạng và tìm kiếm ảnh.
I.3 HƯỚNG GIẢI QUYẾT
Tìm hiểu các phương pháp xử lý hình ảnh để phục vụ cho mục đích nhận
dạng và tìm kiếm.
Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 15
Tìm hiểu giải thuật đối sánh dạng tháp trong việc đo độ đồng dạng (sự
giống nhau) giữa hai hình ảnh. Sự phát triển của giải thuật này để tăng độ chính
xác.
Giới thiệu những nết cơ bản của cây từ vựng, phương pháp xây dựng cây từ
vựng thích nghi để nó phù hợp với cơ sở dữ liệu động. Sự kết hợp giữa cây từ và
giải thuật đối sánh dạng tháp trong nhận dạng và tìm kiếm ảnh.
Xây dựng một hệ thống nhận dạng và tìm kiếm ảnh. Trong đó, người dùng
có thể nhúng bất kỳ hình ảnh nào vào cơ sở dữ liệu. Chọn hình ảnh truy vấn
mong muốn. Kết quả, hệ thống sẽ trả về một danh sách các hình ảnh có cùng chủ
đề với hình ảnh truy vấn.
II. CƠ SỞ LÝ THUYẾT :
II.1 SƠ ĐỒ VORONOI
1

Trong toán học, sơ đồ Voronoi, trước
có tên là Georgy Voronoi, còn được gọi là
tổ ong Voronoi, phân hoạch Voronoi, hay
tổ ong Dirichlet. Là 1 loại phân hoạch đặc
biệt của không gian metric được xem xét
bởi khoảng cách của 1 tập rời rạc của
những chủ đề trong không gian, tập các
điểm rời rạc

Trường hợp đơn giản nhất, cho tập
điểm S trong không gian_ là những vị trí Voronoi. Mỗi vị trí s có 1 ô Voronoi ( ô
Dirichlet), V(s) chứa tất cả những điểm gần s hơn những vị trí khác. Những đoạn
của sơ đồ Voronoi là tất cả những điểm trong không gian có khoảng cách bằng
với 2 vị trí. Những nút Voronoi là những điểm cách đều 3 (hoặc nhiều hơn) vị trí.
Định nghĩa
Đối với bất kỳ tập các điểm rời rạc S ( theo topo) trong không gian Euclide
và với mọi điểm bất kỳ x, có 1 điểm thuộc S gần với x nhất. Nếu S có 2 điểm a

1

Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 16
và b. Khi đó, tập tất cả những điểm có khoảng cách bằng với a và b là một siêu
phẳng_ không gian affin 1 chiều. Siêu phẳng đó là ranh giới giữa tập những điểm
gần a hơn b, và tập những điểm gần b hơn a. Nó là đường trung trực của đoạn
thẳng ab
Tóm lại, tập tất cả những điểm gần điểm c ∈ S hơn những điểm khác thuộc
S là miền trong của đa diện lồi được gọi là miền Dirichlet hay ô Voronoi của c.
Nếu xét trong không gian 2 chiều, ta dễ dàng vẽ được tổ ong Voronoi bằng cách :
tìm đường trung trực của nhửng điểm bao quanh c, giao của những đường này là
được gọi là ô Voronoi của c. Trong trường hợp này người ta thường gọi là sơ đồ
Voronoi.
Tính chất :
Cặp điểm gần nhất tương ứng với hai ô kề trong sơ đồ Voronoi.
Hai điểm kề trên bao lồi nếu và chỉ nếu những ô Voronoi của nó có chung 1
cạnh dài vô tận.
II.2 NHỮNG LÝ THUYẾT CƠ BẢN VỀ CÂY
Định nghĩa : cây (tree) là một tập hợp hữu hạn các phần tử gọi là các nút
(nodes) và tập hợp hữu hạn các cạnh nối các cặp nút lại với nhau mà không tạo

thành chu trình.
Ta có thể định nghĩa cây một cách đệ qui :
- Một nút đơn độc là 1 cây, nút này cũng là gốc của cây.
- Nút n là nút đơn độc và k cây riên lẻ T1, T2,…Tk có các nút gốc lần lượt
là n1, n2, …,nk. Khi đó ta có được một cây mới bằng cách cho n là cha
của các nút n1, n2,…nk.
Nút cha con : nút A là cha của nút B khi nút A ở mức i và nút B ở mức i+1,
đồng thời giữa A và b có cạnh nối.
Bậc của nút là số con của nút đó, bậc nút lá bằng 0.
Cây n- phân là cây có bậc n.
Nút gốc : là nút không có cha
Nút lá : là nút không có con
Nút trung gian : nút có bậc khác 0 và không phải là nút gốc.
Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 17
Nút tiền bối và nút hậu duệ : nếu có đường đi từ a đến nút b thì nút a là tiền
bối của b và b là hậu duệ của a.
Đường đi là một chuỗi các nút n1, n2, …, nk trên cây sao cho ni là nút cha
của nút ni+1 ( i= 1 k-1).
Độ dài đường đi bằng số nút trên đường đi trừ đi 1.
Chiều cao của một nút là độ dài đường đi từ nút đó đến nút lá xa nhất.
Chiều cao của cây là chiều cao của nút gốc
Độ sâu của một nút là độ dài đường đi từ nút gốc đến nút đó, hay còn gọi là
mức (cấp) của nút đó.
Nhãn của một nút không phải là tên mà là giá trị tại nút đó.
Rừng là một tập hợp nhiều cây.
Nếu ta phân biệt thứ tự các nút trong cùng một cây thì ta gọi cây đó là có
thứ tự. Ngược lại, gọi là cây không có thứ tự.
Trong cây có thứ tự, thứ tự được qui ước là từ trái sang phải.
Các nút con có cùng một nút cha được gọi là các nút anh em ruột (siblings).

Duyệt cây là lần lượt đi qua tất cả các nút của cây, mỗi nút một lần. Danh
sách duyệt cây là danh sách liệt kê cac nút theo thứ tự đi qua.
Có 3 phương pháp duyệt cây là tiền tự, trung tự và hậu tự.
III. NỘI DUNG CHÍNH
Đối với hình ảnh, nhiệm vụ của máy tính là lưu trữ dữ liệu và thể hiện nó.
Do đó, máy tính không thể phân biệt được đâu là những đặc trưng cơ bản của
hình ảnh. Điều này đòi hỏi phải có một quá trình xử lý hình ảnh để tìm ra những
đặc trưng cơ bản thể hiện được nội dung, chủ đề chính mà hình ảnh đang biểu
diễn.
Ngoài ra, mỗi hình ảnh được nạp vào cơ sở dữ liệu đều có những tên riêng
khác nhau. Để giảm bớt độ phức tạp trong việc xử lý tên file trong quá trình tìm
kiếm, mỗi hình ảnh khi được nhúng vào cơ sở dữ liệu sẽ được đánh chỉ số ( số
thứ tự, số id ) một cách tuần tự. Trong tất cả các quá trình nhận dạng và tìm
kiếm, các file hình ảnh được xác định dựa vào chỉ số id này.
Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 18
III.1 CÁC BƯỚC CƠ BẢN TRONG XỬ LÝ ẢNH
Để xử lý một vấn đề nào đó, trước tiên ta phải có được những đặc trưng cơ
bản của nó. Trong văn bản, những ký tự là đặc trưng cơ bản nhất. Do đó, để nhận
dạng và tìm kiếm văn bản, ta chỉ việc mã hóa nó về một dạng nhất định để thuận
lợi trong quá trình tìm kiếm bằng ngôn ngữ máy. Vì thế, trong nhận dạng ảnh, ta
cùng cần tìm ra những đặc trưng cơ bản nhất của hình ảnh. Có rất nhiều cách để
rút ra những đặc trưng của hình ảnh. Mỗi phương pháp sẽ cho những tập đặc
trưng khác nhau của hình ảnh.
Sau khi rút trích được các đặc trưng của hình ảnh. Một vấn đề tiếp theo là
biễu diễu (mã hóa) các đặc trưng thành dữ liệu dùng trong việc so sánh, tìm
kiếm. Một giải pháp được đề xuất đó là sử dụng kỹ thuật “bag of words” như
trong xử lý ngôn ngữ tự nhiên. Để có cái nhìn cơ bản về kỹ thuật
2
này, ta xét ví

dụ sau :
Cho hai đoạn văn bản sau :
A: John likes to watch movies. Mary likes too.
B: John also likes to watch football games
Từ 2 đoạn văn bản này, chúng ta có được một từ điển ( dictionary) như sau :
Dictionary = { 1.”John”, 2.”likes”, 3.”to”, 4.”watch”, 5.”movies”, 6.”also”,
7.”football”, 8.”games”, 9.”Mary”, 10.”too” }
Với từ điển gồm 10 được phân biệt như trên, chúng ta mã hóa đoạn văn bản
thành một vecto trong không gian 10_chiều như sau :
A: [1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
B: [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
Quá trình mã hóa có một vài quy ước sau : không quan tâm đến thứ tự của
các từ trong đoạn văn và trật tự sắp xếp các từ này trong từ điểm. Dựa vào thứ tự
các từ trong từ điển để có được vecto mã hóa với giá trị mỗi thành phần là tần số
xuất hiện của nó trong đoạn văn đó.
Muốn áp dụng kỹ thuật này để mã hóa các đặc trưng của hình ảnh. Người ta
cũng xây dựng cho nó một “từ điển” miêu tả tất cả những tiêu chuẩn mà một hình

2
Tham khỏa từ địa chỉ :
Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 19
ảnh có thể có. Sau đó, dựa vào quy tắc trên để mã hóa mỗi đặc trưng thành một
vecto.
Ta gọi d là số các đặc trưng mà một hình ảnh có thể có ( số chiều của ”từ
điển”). Khi đó, mỗi đặc trưng sẽ được mã hóa trong không gian d_chiều. Để
thuận lợi cho việc trình bày giải thuật trong các phần sau, ta có một số quy ước
sau :
Gọi F là không gian đặc trưng d_chiều. Tập dữ liệu vào S được biểu diễn
như sau :

{
}
{
}
1
, , , , ,
d
m i
S X X x x x F m X
= = ∈ ⊆ ℜ =

Chú ý : kích thước d là cố định, nhưng giá trị của m có thể thay đổi trong S.
Ngoài ra, để dễ dàng hơn trong việc tính toán, ta quy ước khoảng cách nhỏ nhất
giữa 2 điểm bất kỳ là 1, có thể buộc chúng tuân theo luật này bằng cách vẽ dữ
liệu một cách chính xác và rút gọn toàn bộ giá trị. Để tạo sự thống nhất, các ký
hiệu của dữ liệu đầu vào được áp dụng cho tất cả các giải thuật.

Tóm lại, một hình ảnh sau khi được rút ra m điểm (đặc trưng). Mỗi điểm
được mã hóa thành một vecto trong không gian d_chiều. Quá trình này được
minh họa trong hình 4. Các điểm được rút ra từ mỗi hình ảnh sẽ được dùng để so
sánh sự giống nhau giữa các hình ảnh.
Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 20
III.2 GIẢI THUẬT ĐỐI SÁNH DẠNG THÁP [2]
III.2.1 Ý tưởng
Cho 2 hình ảnh với tập các điểm được rút ra lần lượt là X, Y với m=|X|, n
=|Y| ( m là lực lượng của X hay số điểm mà X có được, tương tự cho Y). Để so
sánh sự giống nhau giữa hai hình ảnh. Ta tìm ra những cặp điểm tương ứng
(giống nhau) trong hai tập X, Y. Đối với nhận dạng văn bản, sau khi các ký tự
được mã hóa thành những vecto, hai ký tự được xem là tương ứng (giống nhau)

nếu vecto mã hóa nó bằng nhau. Kết quả có được là tương ứng hoặc không tương
ứng (giống hoặc không giống nhau). Nhưng không lĩnh vực nhận dạng ảnh, do
hình ảnh được biểu diễn theo nhiều tiêu chuẩn khác nhau như : độ sáng tối thay
đổi, góc nhìn thay đổi, tư thế khác nhau… Nên kết quả trả về là một giá trị đánh
giá sự tương ứng của nó ( giá trị càng nhỏ phản ánh độ tương ứng càng cao hoặc
ngược lại tùy thuộc vào cách cài đặt từng giải thuật). Hai điểm được xem là
tương ứng khi nó có giá trị gần giống nhau theo một tiêu chuẩn đo lường hình
ảnh nào đó. Nói cách khác, hai điểm được xem là tương ứng nhau khi khoảng
cách giữa nó là nhỏ nhất. Giả sự sự phân bố của hai tập đặc trưng X, Y được
minh họa trong hình 5

Hình 5 : minh họa sự phân bố của hai tập đặc trưng
Một giải pháp được đề nghị trước tiên là ứng với mỗi điểm x bất kỳ trong
tập X. Tính khoảng cách từ x đến tất cả những điểm y trong tập hợp Y bằng công
thức khoảng cách trong không gian Euclide :
1
( , ) | |
d
i i
i
d x y x y
=
= −

. Khi
đ
ó,
đ
i


m
có kho

ng cách g

n v

i x nh

t trong t

p Y
đượ
c xem t
ươ
ng

ng v

i X. Vùng
t
ươ
ng

ng gi

a hai t

p X, Y là :
Lu


n v
ă
n t

t nghi

p GVHD : Ph

m V
ă
n Huy
SVTH : Ngô Lê Ng

c Bích Trang 21
{
}
1 1
( , , ) ( , ), ,( , )
m m
M X Y x y x y
π π
π =

M

t vùng t
ươ
ng


ng gi

a 2 t

p
đ
i

m là 1 phép gán_ bi

u di

n t

t c

nh

ng
đ
i

m trong t

p nh

h
ơ
n v


i t

p con các
đ
i

m c

a t

p l

n h
ơ
n (ho

c b

ng).
Trong m

i c

p
đ
i

m, m

i

đ
i

m trong X

ng v

i duy nh

t 1
đ
i

m trong Y
v

i
1
, , ,1
m i
n
π π π π
 
= ≤ ≤
 
, v

i
i
y Y

π

t
ươ
ng

ng v

i
,1
i
x X i m
∈ ≤ ≤
.
Độ

đồ
ng d

ng c

a phân vùng là t

ng kho

ng cách gi

a các
đ
i


m t
ươ
ng

ng :

(
)
(
)
, ;
i
i i
x X
C M X Y x y
π
π

= −


N
ế
u hai
đ
i

m t
ươ

ng

ng càng g

n nhau, kho

ng cách gi

a chúng càng nh

,
giá tr

c

a
độ
chính xác càng nh

và do
đ
ó
độ
chính xác càng cao. Ph
ươ
ng pháp
này là khá t

t và cho k
ế

t qu

chính xác n
ế
u s


đ
i

m trong t

p X, Y là t
ươ
ng
đố
i
nh

.
Đố
i v

i t

p X, Y
đượ
c xét nh
ư
trên, th


i gian cho vi

c tìm ra nh

ng c

p
t
ươ
ng

ng này là O(dmn)
đơ
n v

th

i gian. Gi

s

, trung bình có kho

ng 100
đặ
c
tr
ư
ng

đượ
c rút trích ra t

m

i hình, n
ế
u cho d=10 (các tiêu chu

n
để

đ
ánh giá
hình

nh), khi
đ
ó ta c

n kho

ng 10
5

đơ
n v

th


i gian
để
so sánh s

gi

ng nhau
gi

a hai hình

nh.
Đố
i v

i máy tính,
đ
ây không ph

i là m

t s

l
ượ
ng tính toán
l

n, ta d


dàng có
đượ
c k
ế
t qu

trong m

t th

i gian nh

t
đị
nh. Nh
ư
ng v

i m

c
đ
ích ban
đầ
u là nh

n d

ng trong môi tr
ườ

ng
độ
ng.
M

i hình

nh
đượ
c thêm vào b

i ng
ườ
i dùng, s

l
ượ
ng

nh trong c
ơ
s

d


li

u t
ă

ng d

n. Trong tr
ườ
ng h

p này,
đề
ngh

này tr

nên khó kh

thi vì nó
đ
òi
h

i th

c hi

n m

t s

l
ượ
ng l


n nh

ng phép tính. Máy tính càng m

t nhi

u th

i
gian dò tìm h
ơ
n khi s

l
ượ
ng

nh càng t
ă
ng. M

t
đ
i

m
đ
áng l
ư

u ý n

a là
đ
ây là
nh

ng phép tính
đượ
c th

c hi

n sau khi ng
ườ
i dùng
đư
a ra hình

nh truy v

n.
Nên s

l
ượ
ng tính toán càng l

n, càng m


t nhi

u th

i gian và ng
ườ
i dùng ph

i
ch


đợ
i càng lâu
để

đượ
c k
ế
t qu

tìm ki
ế
m.
Do
đ
ó,
đ
òi h


i m

t ph
ươ
ng pháp khác c

i ti
ế
n h
ơ
n giúp ta nhanh chóng
ướ
c
l
ượ
ng
đượ
c
độ
t
ươ
ng

ng gi

a hai hình

nh.
Để
gi


i quy
ế
t v

n
đề
này, ng
ườ
i ta
đư
a ra m

t ph
ươ
ng pháp phân chia vùng
không gian
đặ
c tr
ư
ng thành nh

ng ô nh

h
ơ
n Quá trình
đượ
c minh h


a trong
hình 6.
Lu

n v
ă
n t

t nghi

p GVHD : Ph

m V
ă
n Huy
SVTH : Ngô Lê Ng

c Bích Trang 22


Trong m

i l

n ph

n chia, kích th
ướ
c c


a ô sau g

p
đ
ôi ô tr
ướ
c. Hai
đ
i

m
đượ
c xem là t
ươ
ng

ng nhau khi cùng n

m trong m

t ô. Nh

ng
đ
i

m t
ươ
ng


ng
trong quá trình
đầ
u s

không
đượ
c xem xét

quá trình sau. Khi
đ
ó, m

i t

p
đ
i

m
đượ
c bi

u di

n thành t

p các bi

u

đồ
. Ng
ườ
i ta g

i
đề
xu

t này là gi

i thu

t
đố
i
sánh d

ng tháp ( the pyramid match).
III.2.2 Giải thuật đối sánh dạng tháp (The pyramid match )
Gi

i thu

t
đố
i sánh d

ng tháp s


d

ng bi

u
đồ

đ
a kích th
ướ
c (t

p các bi

u
đồ
v

i kích th
ướ
c c

a ô t
ă
ng d

n)
để
phân vùng không gian
đặ

c tr
ư
ng thành
nh

ng vùng nh

h
ơ
n. T

i c

p l

i gi

i t

t nh

t, kích th
ướ
c nh

ng ô là r

t nh

(m


i
ô ch

ch

a 1
đ
i

m), t

i nh

ng c

p liên ti
ế
p, kích th
ướ
c t
ă
ng ô d

n cho
đế
n khi
toàn b

t


p
đ
i

m
đượ
c bao hàm. T

i 1 vài c

p d

c theo s

phát tri

n kích th
ướ
c
c

a ô, hai
đ
i

m b

t k


t

hai t

p b

t k

b

t
đầ
u s

d

ng chung 1 ô khi nó
đượ
c
g

i t
ươ
ng

ng nhau, kích th
ướ
c c

a ô nói lên kho


ng cách l

n nh

t gi

a 2
đ
i

m.
Đố
i sánh d

ng tháp cho phép ta có
đượ
c
đ
i

m
đố
i sánh (matching score) mà
không c

n tính kho

ng cách gi


a các
đ
i

m b

t k

trong t

p
đầ
u vào.
M

i t

p
đ
i

m
đượ
c bi

u di

n b

i 1 bi


u
đồ

đ
a l

i gi

i mà t

i c

p l

i gi

i t

t
nh

t c

a nó gi

a l

i nh


ng
đặ
c
đ
i

m riêng. Sau
đ
ó, các bi

u
đồ

đượ
c so sánh v

i
nhau d

a vào k
ế
t qu

c

a bi

u
đồ
giao

đượ
c g

i là vùng t
ươ
ng

ng tuy

t
đố
i_ n
ơ
i
c

p t
ươ
ng

ng
đầ
u tiên xu

t hi

n. Th

i gian tính c


a gi

i thu

t
đố
i sánh d

ng
Lu

n v
ă
n t

t nghi

p GVHD : Ph

m V
ă
n Huy
SVTH : Ngô Lê Ng

c Bích Trang 23
tháp c
ũ
ng nh
ư
k

ế
t qu

c

a phép giao t

l

thu

n v

i s

các
đặ
c tr
ư
ng. Hàm
đặ
c
tr
ư
ng c

a 1 t

p d


li

u vào X
đượ
c
đị
nh ngh
ĩ
a nh
ư
sau :
1
( ) ( ), , ( )
o L
X H X H X
ψ

 
=
 

(1)
V

i
2
, log 1
X S L D
 
∈ = +

 
, trong
đ
ó D là
đườ
ng kính c

a không gian
đặ
c
tr
ư
ng
, ( )
i
H X
là 1 bi

u
đồ
c

t bi

u di

n t

t c


nh

ng
đ
i

m trong X, v

i kích
th
ướ
c c

a c

t là 2
i
. S

d
ĩ
ta có công th

c tính c

p c

a cây L nh
ư
trên vì t


công
th

c này ta
đượ
c : 2
L-1
= D.
Đ
i

u này
đả
m b

o r

ng t

i c

p
đầ
u tiên (i=0), t

t c


các

đ
i

m c

a t

p X
đề
u
đượ
c ch

a trong m

t ô.
Nói theo cách khác,
( )
X
ψ
là một tập các biểu đồ cột_ mỗi biểu đồ sau có
kích thước gấp đôi biểu đồ trước (trong tất cả d chiều). Những ô cấp tốt nhất của
H
o
đủ nhỏ để mỗi điểm dữ liệu với kích thước không đổi d từ tập đặc trưng F
được thêm vào ô của nó. Sau đó, kích thước ô tăng dần cho đến khi tất cả các
điểm trong F được thêm vào 1 ô tại cấp L-1.
Đối sánh dạng tháp
P


đo độ đồng dạng giữa 2 tập điểm dựa trên các tương
ứng được tìm thấy trong không gian của biểu đồ đa lời giải này. Độ đồng dạng
giữa 2 tập đầu vào X, Y được tính như sau :

1
0
( ( ), ( ))
L
i i
i
P X Y w N
ψ ψ


=
=

(2)
Với N
i
là số cặp tương ứng mới tại cấp i, w
i
là trọng số của những tương
ứng tại cấp i (định nghĩa bên dưới). Những cặp tương ứng mới là những cặp chưa
tương ứng ở những cấp lời giải tốt hơn trước đó.
Phép tổng trong phương trình 3 bắt đầu với i =0. Theo định nghĩa trong
không gian đặc trưng F, ta bắt đầu đếm các tương ứng tại cấp 0 và định nghĩa cấp
-1 là trường hợp cơ bản với kết quả giao là : I(H
-1
(X),H

-1
(Y))=0. Tất cả những
tương ứng tại cấp 0 là mới.
Phương pháp này tìm thấy tất cả những tương ứng giữa 2 tập điểm, chúng
được đếm và đánh trọng số dựa vào kích thước của ô, do chỉ quan tâm đến độ
đồng dạng giữa hai hình ảnh nên không cần liệt kê chi tiết những tương ứng giữa
hai tập với nhau. Sự kết đôi là 1 quá trình phân nhánh : các điểm không tìm thấy
Luận văn tốt nghiệp GVHD : Phạm Văn Huy
SVTH : Ngô Lê Ngọc Bích Trang 24
sự tương ứng tại 1 lời giải sẽ có cơ hội tìm thấy tương ứng ở những lời giải sau
đó.
Để tính N
i
, giải thuật đối sánh dạng tháp dùng 1 hàm giao I có được bằng
cách đếm các ô chồng lấp giữa hai biểu đồ. Với hai biểu đồ A, B bất kỳ, ta có :

( )
( ) ( )
1
( , ) min ,
r
j j
j
I A B A B
=
=


V


i A, B là các bi

u
đồ
có r c

t, A
(j)
, B
(j)
là c

t th

j c

a A.
K
ế
t qu

c

a phép giao cho s


đ
i

m chung gi


a 2 t

p
để

đư
a ra m

c l
ượ
ng
t

hóa, ngh
ĩ
a là
đượ
c cho vào cùng ô.
Để
tính s

c

p
đ
i

m t
ươ

ng

ng m

i N
i
t

i
c

p i, ta tính s

khác nhau liên ti
ế
p gi

a các c

p c

a bi

u
đồ
:
(
)
(
)

1 1
( ), ( ) ( ), ( )
i i i i i
N I H X H Y I H X H Y
− −
= −

(3)
H
i


ng v

i thành ph

n th

i trong
ψ


ph
ươ
ng trình 2. Chú ý r

ng ph
ươ
ng
pháp này không tìm th


y nh

ng
đ
i

m t
ươ
ng

ng rõ ràng_nó không tính kho

ng
cách gi

a 2 ô trong m

i t

p. Thay vào
đ
ó, nó s

d

ng s

thay
đổ

i c

a k
ế
t qu


giao t

i m

i c

p
để

đế
m nh

ng t
ươ
ng

ng m

i khi nó xu

t hi

n. Ngoài ra, v


i
phép hi

u trong ph
ươ
ng trình 4, k
ế
t qu


đượ
c ph

n ánh nh

ng k
ế
t
đ
ôi c
ơ
s


t

ng cái t

ng cái m


t.
S

các t
ươ
ng

ng m

i
đượ
c tìm th

y t

i m

i c

p
đượ
c
đ
ánh tr

ng s

d


a
vào kích th
ướ
c các ô :
để

đ
o
độ

đồ
ng d

ng, nh

ng t
ươ
ng

ng
đượ
c tìm th

y trong
các ô có kích th
ướ
c l

n h
ơ

n có tr

ng s

th

p h
ơ
n các ô có kích th
ướ
c nh

. Nh

ng
t
ươ
ng

ng m

i t

i c

p i
đượ
c
đ
ánh tr


ng s

b

i
1
w
2
i
i
=

để
ph

n ánh s

gi

ng
nhau c

a nh

ng
đ
i

m t

ươ
ng

ng t

i c

p
đ
ó. Có r

t nhi

u quy t

c
đ
ánh tr

ng s

,
m

i quy t

c
đượ
c dùng cho m


t m

c
đ
ích khác nhau. Kh

i t

o, nh

ng t
ươ
ng

ng
gi

a các ô (các c

a t

p
đặ
c tr
ư
ng X, Y) t

i l

i gi


i t

t nh

t_n
ơ
i mà nh

ng
đặ
c
tr
ư
ng
đượ
c phân bi

t rõ ràng
đượ
c
đ
ánh tr

ng s

l

n h
ơ

n so nh

ng t
ươ
ng

ng
gi

a các c

t trong nh

ng c

p l

i gi

i th

p h
ơ
n.
T

ph
ươ
ng trình 2, 3, ta
đị

nh ngh
ĩ
a
độ

đồ
ng d

ng gi

a hai t

p
đặ
c tr
ư
ng là :
( )
( ) ( )
( )
1
1 1
0
( ), ( ) w ( ), ( ) ( ), ( )
L
i i i i i
i
P X Y I H X H Y I H X H Y
ψ ψ


∆ − −
=
= −


(4)
Lu

n v
ă
n t

t nghi

p GVHD : Ph

m V
ă
n Huy
SVTH : Ngô Lê Ng

c Bích Trang 25
V

i X, Y

S ; H
i
(X), H
i

(Y)

ng v

i bi

u
đồ
th

i trong
( ), ( )
X Y
ψ ψ
.
Độ

đồ
ng d

ng
P

này s


đượ
c dùng
để
so sánh s


gi

ng nhau gi

a các hình

nh trong quá trình tìm ki
ế
m.
Độ

đồ
ng d

ng càng l

n ch

ng t

hai hình càng có
nhi

u
đặ
c tr
ư
ng t
ươ

ng

ng.
III.2.3 Ví dụ minh họa sự phát triển các cấp của giải thuật
đối sánh dạng
Xét hai t

p
đ
i

m
1 9 1 5
{ , }, {y , , }
X x x Y y
= =
r r r r
, ví d

minh h

a s

phát
tri

n 3 c

p liên ti
ế

p c

a gi

i thu

t
đố
i sánh d

ng tháp. Trong m

i c

p, tính tr

ng
s

w
i
và s

t
ươ
ng

ng m

i N

i
. Nh

ng
đườ
ng ngang màu xanh lá trong bi

u
đồ

H
i
(X), H
i
(Y) dùng
để

đế
m s


đ
i

m có trong ô m

i ô. Nh

ng
đườ

ng màu xanh lá
n

i hai
đ
i

m
để
ch

ra c

p
đ
i

m t
ươ
ng

ng m

i,
đườ
ng màu
đ
en ch

nh


ng c

p
đ
i

m
đ
ã t
ươ
ng

ng

các c

p tr
ướ
c
đ
ó.
T

i c

p 0 kích th
ướ
c c


a m

i ô
đủ
nh


để
ch

a 1
đ
i

m. Tr
ướ
c tiên, phân
vùng không gian
đặ
c tr
ư
ng thành nh

ng ô v

i kích th
ướ
c 2
i
. D


a vào phân vùng
trong không gian
đặ
c tr
ư
ng, ta có
đượ
c bi

u
đồ
côt H
i
(X). Trong hai bi

u
đồ

H
i
(X), H
i
(Y) nh

ng c

t ch

ng l


p nhau (cùng n

m

m

t v

trí) cho ta bi

u
đồ

giao.
Đế
m s

ô
đượ
c tô trong bi

u
đồ
giao ta có
đượ
c nh

ng c


p
đ
i

m t
ươ
ng

ng
t

i c

p i. D

a vào công th

c (3) tính s

c

p
đ
i

m t
ươ
ng

ng m


i t

i m

i c

p N
i
.
Sau
đ
ó tính
độ

đồ
ng d

ng gi

a hai t

p X, Y b

ng công th

c (4)
Lu

n v

ă
n t

t nghi

p GVHD : Ph

m V
ă
n Huy
SVTH : Ngô Lê Ng

c Bích Trang 26


Lu

n v
ă
n t

t nghi

p GVHD : Ph

m V
ă
n Huy
SVTH : Ngô Lê Ng


c Bích Trang 27

T

3 c

p c

a bi

u
đồ
, ta có
độ

đồ
ng d

ng gi

a hai t

p X, Y là :
2
0
1 1
( ( ), ( )) 1.2 .2 .1 3.25
2 4
i i
i

P X Y w Nψ ψ

=
= = + + =


Giá tri này
đượ
c dùng
để

đ
ánh giá s


đồ
ng d

ng gi

a hai t

p X, Y trong quá
trình tìm ki
ế
m.
III.2.4 Sơ đồ minh họa giải thuật đối sánh dạng tháp
Để
giúp ng
ườ

i
đọ
c có m

t cái nhìn t

ng quát v

gi

i thu

t. Gi

i thu

t
đượ
c
bi

u di

n b

ng s
ơ

đồ
sau.

M

t s

bi
ế
n
đ
i

u khi

n
đượ
c dùng
để
tính
độ

đồ
ng d

ng P
!
c

a hai t

p
đặ

c
tr
ư
ng X, Y trong m

t chi

u nào
đ
ó ( m

t tiêu chu

n
đ
ánh giá hình

nh nào
đ
ó).

P
! :

đ
o
độ

đồ
ng d


ng gi

a hai t

p

L : c

p c

a cây v

i D là
đườ
ng kính c

a không gian
đặ
c tr
ư
ng.

M

ng I : s

c

p t

ươ
ng

ng t

i m

i c

p

M

ng w : giá tr

tr

ng s

t

i m

i c

p. Giá tr

này ph

n ánh

độ
chính
xác gi

nh
ư
ng c

p t
ươ
ng

ng.

i : dùng
để
duy

t t

ng c

p c

a cây
Quá trình tính
đượ
c minh h

a b


ng s
ơ

đồ
sau :
Lu

n v
ă
n t

t nghi

p GVHD : Ph

m V
ă
n Huy
SVTH : Ngô Lê Ng

c Bích Trang 28































Ghi chú :

Các phép tính
Ki

m tra
đ
i


u ki

n
Ho

t
độ
ng c

a hàm
D

li

u tr

v




Start
I[-1] = 0
L = log
2
D + 1
P
!
= 0, i = 0


I[i] = function(
đ
ế
m s


đ
i

m chung
c

a H
i
(X), H
i
(Y))
w[i] = 1/ 2
i

P
!
= P
!
+ w[i]*(I[i] – I[i-1])
i = i +1
Giá tr

c


a P
!

end
true
false
D

a vào k
ế
t qu


phân vùng xây d

ng
bi

u
đồ
c

t H
i
(X), H
i
(Y)

Phân vùng không gian

đặ
c tr
ư
ng thành nh

ng
ô nh


v

i kích th
ư

c 2
i

i < L

×