Tải bản đầy đủ (.pdf) (83 trang)

Luận văn thạc sĩ công nghệ thông tin Nghiên cứu phương pháp truy vấn ảnh theo đặc trưng hình dạng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.99 MB, 83 trang )


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
_________________









NGUYỄN HỒNG PHÚC




NGHIÊN CỨU PHƯƠNG PHÁP TRUY VẤN
ẢNH THEO ĐẶC TRƯNG HÌNH DẠNG





LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN











Đồng Nai, Năm 2013





BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
____________________







NGUYỄN HỒNG PHÚC




NGHIÊN CỨU PHƯƠNG PHÁP TRUY VẤN ẢNH
THEO ĐẶC TRƯNG HÌNH DẠNG

Chuyên ngành: CÔNG NGHỆ THÔNG TIN

Mã số: 60480201


LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN





NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. ĐỖ NĂNG TOÀN




Đồng Nai, Năm 2013




LỜI CẢM ƠN

Tôi xin chân thành cảm ơn PGS.TS. Đỗ Năng Toàn, Thầy đã tận tình giúp
đỡ, hướng dẫn và đóng góp ý kiến cho tôi trong suốt quá trình thực hiện nội dung
đề tài luận văn.
Tôi xin chân thành cảm ơn Quý thầy cô thuộc Khoa Công nghệ Thông tin -
Trường Đại học Lạc Hồng, Quý thầy cô bộ môn đã tận tình giảng dạy, truyền đạt
cho tôi những kiến thức quý báu trong quá trình học tập.
Tôi xin chân thành cảm ơn Quý thầy cô phòng Sau đại học - Trường Đại học
Lạc Hồng, các đồng nghiệp và các bạn học lớp Cao học Công nghệ thông tin khoá

2 - Trường Đại học Lạc Hồng đã hỗ trợ, tạo điều kiện thuận lợi cũng như đóng góp
những ý kiến thiết thực cho tôi trong suốt quá trình học tập và đặc biệt đã giúp luận
văn của tôi được hoàn thiện hơn.
Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình, những người thân yêu
luôn bên cạnh và động viên tôi trong suốt quá trình học tập và thực hiện đề tài luận
văn này.
Đồng Nai, ngày 26 tháng 8 năm 2013
Nguyễn Hồng Phúc















LỜI CAM ĐOAN

Tôi xin cam đoan nội dung luận văn là công trình nghiên cứu độc lập của
bản thân. Các số liệu, kết quả trình bày trong luận văn này là trung thực. Những tư
liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ.

Tác giả



Nguyễn Hồng Phúc






















TÓM TẮT LUẬN VĂN

Tên đề tài luận văn: NGHIÊN CỨU PHƯƠNG PHÁP TRUY VẤN ẢNH
THEO ĐẶC TRƯNG HÌNH DẠNG.
Học viên thực hiện: Nguyễn Hồng Phúc Sinh ngày: 19/08/1980

Người hướng dẫn khoa học: PGS.TS. Đỗ Năng Toàn.
1. Mục tiêu của luận văn:
Hiểu rõ lý thuyết về xử lý ảnh và các thuật toán để giải quyết bài toán truy
vấn ảnh theo đặc trưng hình dạng. Xây dựng bài toán về truy vấn ảnh các biển báo
giao thông đường bộ và ứng dụng nhỏ để giải quyết bài toán.
2. Nội dung thực hiện:
- Tìm hiểu khái quát về xử lý ảnh và một số phương pháp truy vấn ảnh đã
được nghiên cứu;
- Nghiên cứu về các trích chọn theo đặc trưng hình dạng và một số phương
pháp áp dụng trong truy vấn theo đặc trưng hình dạng;
- Xây dựng bài toán, thiết kế, phát triển chương trình thử nghiệm;
- Xây dựng báo cáo sơ bộ và hoàn chỉnh báo cáo.
3. Phương pháp thực hiện:
- Nghiên cứu nội dung lý thuyết về xử lý ảnh trong giáo trình “Xử lý ảnh”
của PGS. TS. Đỗ Năng Toàn và TS. Phạm Việt Bình, năm 2008.
- Nghiên cứu các tài liệu trên mạng, sách và các luận văn thạc sĩ về truy vấn
ảnh theo nội dung, màu sắc, cấu trúc.
- Nghiên cứu những đặc điểm, đặc trưng theo hình dạng của ảnh.
- Nghiên cứu phương pháp trích chọn theo đặc trưng hình dạng và thực hiện
bài toán như sau:
 Đọc ảnh và phân vùng ảnh bằng kỹ thuật dò biên gián tiếp đơn giản
 Chuẩn hoá kích thước, chuyển sang ma trận số phức và dùng hàm
FFT để tạo vecto đặc trưng 256 chiều
 So sánh vector đặc trưng giữa ảnh thu nhận và ảnh trong cơ sở dữ liệu
dựa trên khoảng cách Euclide để tìm ra danh sách 5 ảnh có sai khác nhỏ nhất.



- Thiết kế, phát triển và cài đặt thử nghiệm chương trình ứng dụng.
4. Kết quả đạt được:

- Trình bày khái quát về xử lý ảnh và một số phương pháp truy vấn ảnh.
- Trình bày trích chọn đặc trưng hình dạng và một số phương pháp tiếp cận
truy vấn theo đặc trưng hình dạng.
- Bài toán và chương trình thử nghiệm.
5. Hướng phát triển tiếp theo:
 Phát triển thành chương trình truy vấn ảnh kết hợp nhiều đặc điểm.
 Cài đặt các kỹ thuật tăng hiệu năng của hệ thống bằng cách giảm số chiều
các véctơ đặc trưng
 Tích hợp, phát triển thành ứng dụng có khả năng cài đặt trên các thiết bị báo
tự động trong tham gia giao thông.
 Mở rộng nghiên cứu một số lĩnh vực liên quan như trong giao thông đường
sắt.


MỤC LỤC

DANH MỤC TỪ VIẾT TẮT
DANH MỤC HÌNH
PHẦN MỞ ĐẦU
Chương 1: KHÁI QUÁT VỀ TRUY VẤN ẢNH VÀ TRUY VẤN DỰA VÀO
HÌNH DẠNG
1.1. Khái quát về truy vấn ảnh Trang 04
1.1.1. Giới thiệu chung Trang 04
1.1.2. Một số phương pháp truy vấn ảnh Trang 07
1.1.2.1. Truy vấn ảnh theo bản thể Trang 07
1.1.2.2. Truy vấn ảnh theo nội dung Trang 09
1.1.2.3. Truy vấn ảnh theo đồ thị Trang 10
1.2. Mô hình hệ thống truy vấn ảnh theo nội dung Trang 10
1.2.1. Không gian màu Trang 11
1.2.2. Các moment màu Trang 12

1.2.3 Lược đồ màu (histogram màu) Trang 13
1.2.4. Véctơ gắn kết màu Trang 15
1.2.5. Sơ đồ tương quan màu Trang 15
1.2.6. Các đặc điểm bất biến màu Trang 16
1.2.7. Một số phương pháp truy vấn ảnh Trang 17
1.2.7.1. Truy vấn ảnh theo hình dạng Trang 17
1.2.7.2. Truy vấn ảnh theo nội dung Trang 18
1.2.7.3. Truy vấn ảnh theo đối tượng Trang 19
1.2.7.4. Truy vấn ảnh kết hợp với máy học Trang 19
Chương 2: MỘT SỐ VẤN ĐỀ TRONG TRUY VẤN ẢNH DỰA VÀO HÌNH
DẠNG
2.1. Trích chọn đặc trưng hình dạng Trang 22
2.1.1. Biên và các phương pháp phát hiện biên Trang 23
2.1.1.1. Phương pháp phát hiện biên trực tiếp Trang 23
2.1.1.2. Phương pháp phát hiện biên gián tiếp Trang 28
2.1.2. Xử lý ảnh trong miền tần số và biến đổi Fourier Trang 31
2.1.3. Mô tả Fourier Trang 35
2.1.4. Các bất biến moment Trang 37
2.1.5. Các hàm xoay/góc xoay Trang 38
2.1.6. Độ tròn, độ lệch tâm và hướng trục chính Trang 39
2.2. Đánh giá độ tương tự và xây dựng sơ đồ đánh chỉ số Trang 39
2.2.1. Đánh giá độ tương tự Trang 39
2.2.2. Xây dựng sơ đồ đánh chỉ số Trang 42
2.3. Tương tác với người sử dụng Trang 46
2.3.1. Đặc tả truy vấn Trang 47
2.3.2. Xử lý phản hồi Trang 48
Chương 3: TRUY VẤN BIỂN BÁO GIAO THÔNG DỰA VÀO HÌNH DẠNG
3.1. Bài toán Trang 50
3.2. Phân tích bài toán Trang 51
3.3. Xây dựng chương trình query traffic signs Trang 56

3.3.1. Sơ đồ khối tổng quát và truy vấn theo hình dạng Trang 56
3.3.1.1. Đọc ảnh Trang 57
3.3.1.2. Dò biên đối tượng ảnh Trang 57
3.3.1.3. Resample Trang 57
3.3.1.4. Biến đổi Fourier nhanh Trang 58
3.3.1.5. Tạo Vector đặc trưng hình dạng cho ảnh Trang 59
3.3.1.6. So sánh bằng tính khoảng cách Euclide Trang 60
3.3.2. Sử dụng chương trình Query Trafic Signs Trang 60
3.3.2.1. Cài đặt chương trình Trang 60
3.3.2.2. Chạy chương trình Trang 61
3.3.2.3. Các kịch bản thử nghiệm Trang 61
3.3.3. Nhận xét kết quả thử nghiệm Trang 67
3.4. Khả năng mở rộng của chương trình Trang 68
3.4.1. Những hạn chế của chương trình Trang 68
3.4.2. Khả năng mở rộng Trang 69
KẾT LUẬN Trang 70
TÀI LIỆU THAM KHẢO
DANH MỤC TỪ VIẾT TẮT
Chữ tắt
Dạng đầy đủ
Nghĩa tiếng Việt
CCD
Charge Coupled Device
Thiết bị tích điện kép
CCV
Color Cohefeence Vector
Vector gắn kết màu
CSDL

Cơ sở dữ liệu

FFT
Fast Fourier transform
Biến đổi Fourier nhanh
KL
Kullback-Leibler
Độ phân kỳ Kullback-Leibler
KLo
Karhumen-Loeve
Phép biến đổi Karhumen-Loeve
PCA
Principal Component Analysis
Phân tích thành phần cơ bản
QBIC
Query By Image Content
Truy vấn theo nội dung ảnh
WWW
World Wide Web


DANH MỤC HÌNH
Hình 2.1
- Biểu diễn hình dạng theo đường biên và theo vùng………….Trang 23
Hình 2.2
- Minh họa xác định điểm biên……………………………. … Trang 28
Hình 2.3
- Miền thời gian và miền tần số……………………………… Trang 32
Hình 2.4
- Ảnh thực (a) và ảnh thu được sau biến đổi Fourier (b)……….Trang 33
Hình 2.5
- Phân tích thành phần cơ bản của một đám mây dữ liệu …… Trang 46

Hình 3.1
- Biển báo cấm…………………………………………………Trang 52
Hình 3.2
- Biển báo nguy hiểm………………………………………… Trang 54
Hình 3.3
- Biển báo hiệu lệnh……………………………………………Trang 55
Hình 3.4
- Sơ đồ khối phần tra cứu ảnh theo hình dạng…………………Trang 56
Hình 3.5
- Kết quả 01 sau khi chạy thử ứng dụng theo kịch bản 01…… Trang 62
Hình 3.6
- Kết quả 02 sau khi chạy thử ứng dụng theo kịch bản 01…… Trang 62
Hình 3.7
- Kết quả 03 sau khi chạy thử ứng dụng theo kịch bản 01…… Trang 63
Hình 3.8
- Kết quả 01 sau khi chạy thử ứng dụng theo kịch bản 02…… Trang 64
Hình 3.9
- Kết quả 02 sau khi chạy thử ứng dụng theo kịch bản 02…… Trang 64
Hình 3.10
- Kết quả 03sau khi chạy thử ứng dụng theo kịch bản 02…… Trang 65
Hình 3.11
- Kết quả 01 sau khi chạy thử ứng dụng theo kịch bản 03…… Trang 66
Hình 3.12
- Kết quả 02 sau khi chạy thử ứng dụng theo kịch bản 03…… Trang 66
Hình 3.13
- Kết quả 03 sau khi chạy thử ứng dụng theo kịch bản 03…… Trang 67

1

PHẦN MỞ ĐẦU


Ngày nay, hình ảnh (sau đây gọi là ảnh) đóng một vai trò quan trọng, ảnh đã
cùng len lõi vào tất cả các lĩnh vực của con người trong cuộc sống hiện tại, từ các
lĩnh vực trong khoa học kỹ thuật như Y học, Xây dựng, Thiên văn… đến các lĩnh
vực Văn hóa xã hội như: Giáo dục đào tạo, Mỹ thuật, Văn hóa nghệ thuật, Hội
họa…v.v. Từ các ảnh thu thập được từ thực tế bằng các phương pháp kỹ thuật như
chụp, ghi hình đến các ảnh được tạo ra bằng phương pháp thủ công như vẽ. Từ các
ảnh thể hiện kích thước lớn đến các ảnh thể hiện các vật có kích thước nhỏ hay
siêu nhỏ. Trong mỗi lĩnh vực, ảnh đều mang lại các giá trị thiết thực, giúp làm
phong phú quá trình phục vụ một nhu cầu nhất định của con người.
Từ năm 1965, Sketchpad Ivan Sutherland đã ứng dụng khoa học máy tính
vào việc tạo và lưu trữ hình ảnh trên máy tính với tính khả thi cao nhưng giá thành
lại khá đắt do giá thành phần cứng và khả năng xử lý lưu trữ phụ thuộc vào phần
cứng. Đến những năm 1990, với việc công nghệ Internet được phát minh và
WWW ra đời cho phép khả năng lưu trữ hình ảnh rộng rãi và tra cứu thông tin trên
môi trường mạng trong đó có hình ảnh. Từ đây, kho dữ liệu ảnh bắt đầu tăng
nhanh với dung lượng lớn lên tới khoảng 30 triệu Tetrabyte và lĩnh vực nghiên cứu
liên quan đến ảnh như thu thập, xử lý, tìm kiếm, truy vấn hình ảnh ngày càng được
quan tâm. Một ứng dụng nhỏ quá trình ứng dụng này là quá trình tìm kiếm, so sánh
và nhận biết (còn lại là truy vấn) các ảnh cần tìm thông qua màu sắc, hình dạng, từ
ngữ đặc trưng hay nội dung liên quan đến ảnh.
Quá trình nghiên cứu các thuật toán và áp dụng các thuật toán này để tạo ra
các phương pháp để hiện thực hóa quá trình tìm kiếm (truy vấn) sao cho nội dung
chính xác và phù hợp gần đúng nhất với các nội dung cần tìm, đã có nhiều nghiên
cứu và ứng dụng để thực hiện. Ở nước ngoài có các nhà cung cấp dịch vụ của
Yahoo, Google được công bố rộng rãi cho tất cả người dùng, hay Visualseek,
BlobWorld… được nghiên cứu để ứng dụng trong một lĩnh vực riêng biệt. Ở trong
2

nước có các nghiên cứu ở mức luận văn tốt nghiệp cao học như của Trần Sơn Hải

- Nghiên cứu phương pháp kết hợp các đặc trưng màu sắc hình dạng và vị trí để
truy vấn ảnh[2], Nguyễn Thị Hoàn – Phương pháp trích chọn đặc trưng ảnh trong
thuật toán học máy tính tìm kiếm ảnh áp dụng vào bài toán tìm kiếm sản
phẩm[3]…nhưng tất cả đều dựa trên một hay nhiều đặc trưng cụ thể của ảnh và
mỗi phương pháp đều thể hiện được những ưu điểm nổi bật riêng.
Trong giới hạn của luận văn này, với mục đích nghiên cứu áp dụng các thuật
toán để tạo ra một phương pháp truy vấn ảnh theo đặc trưng hình dạng nhằm phục
vụ giải quyết bài toán trước mắt là truy vấn các biển báo trong giao thông đường
bộ. Chính vì vậy, mà toàn văn được lựa chọn tiêu đề “Nghiên cứu phƣơng pháp
truy vấn ảnh theo đặc trƣng hình dạng” và CSDL ảnh sử dụng phục vụ nghiên
cứu chỉ xem xét đến phạm vi ảnh tĩnh các biển báo giao thông đường bộ. Nội dung
chính của luận văn này gồm 03 chương nội dung với cấu trúc như sau:
Chƣơng 1: Khái quát về truy vấn ảnh và truy vấn dựa vào hình dạng
Trình bày khái quát về các phương pháp truy vấn ảnh hiện có hay đã được
nghiên cứu như: truy vấn theo nội dung, truy vấn theo bản thể, truy vấn theo đồ thị.
Đồng thời giới thiệu mô hình hệ thống truy vấn ảnh theo nội dung trong đó có một
số phương pháp như: truy vấn ảnh theo hình dạng, truy vấn ảnh theo nội dung, truy
vấn ảnh theo đối tượng, truy vấn ảnh kết hợp với máy học.
Chƣơng 2: Một số vấn đề trong truy vấn ảnh dựa vào hình dạng.
Trình bày về việc trích chọn đặc trưng hình dạng trong ảnh, đánh giá độ
tương tự và xây dựng sơ đồ đánh chỉ số đồng thời nêu giải pháp tương tác với
người dùng.
Chƣơng 3: Truy vấn biển báo giao thông dựa vào hình dạng.
Nêu lên bài toán truy vấn các ảnh biển báo giao thông dựa vào hình dạng từ
đó phân tích hướng giải quyết và xây dựng chương trình để giải quyết bài toán,
những hạn chế và khả năng mở rộng trong tương lai.
3

Phần kết luận: Tóm lược các kết quả đạt được và định hướng một số nội
dung tiếp tục nghiên cứu trong thời gian tới

Tài liệu tham khảo: Các tài liệu tham khảo và nghiên cứu trong quá trình
thực hiện luận văn.
4

CHƢƠNG 1: KHÁI QUÁT VỀ TRUY VẤN ẢNH
VÀ TRUY VẤN ẢNH DỰA VÀO HÌNH DẠNG
1.1. Khái quát về truy vấn ảnh:
1.1.1. Giới thiệu chung:
Ảnh là một đối tượng có ý nghĩa trong nhiều lĩnh vực phục vụ nhu cầu cần
có của con người. Ảnh thường được hiểu cơ bản là những gì chúng ta thấy và được
ghi nhận lại bằng mắt, bằng máy ảnh, máy ghi hình, thu nhận được qua máy quét
hay do con người vẽ ra… và được lưu trữ lại để phục vụ một nhu cầu nào đó của
con người. Vì vậy, ở mỗi môi trường khác nhau, ảnh sẽ phục vụ lợi ích khác nhau
và có hình thức thể hiện khác nhau. Với sự phát triển của khoa học kỹ thuật, ngoài
việc lưu giữ ảnh bằng hình thức thông thường trong kho lưu giữ, thì con người còn
lưu trữ các hình ảnh này trên các kho dữ liệu được số hóa trên máy tính. Quá trình
lưu trữ này có những ưu điểm như ít chiếm diện tích kho lưu trữ, chứa đựng được
nhiều, ảnh ít bị thay đổi theo thời gian… Các ảnh được lưu trữ trên máy tính dưới
dạng số hóa, thường được biểu diễn dưới dạng Ractor hoặc Vector. Tiêu chuẩn đặt
ra là ảnh phải lưu trữ thế nào sao cho các ứng dụng khác nhau có thể thao tác trên
các loại dữ liệu này. Hiện nay có trên 30 kiểu lưu trữ ảnh khác nhau, trong đó ta
thường gặp các dạng ảnh sau: TIFF, GIF, BMP, PCX, JPEG,…mỗi kiểu lưu ảnh
có ưu điểm riêng. Các khái niệm cơ bản liên quan đến ảnh được số hóa như sau:
- Phần tử ảnh (pixel): Ảnh trong thực tế là một ảnh liên tục về không gian và
về giá trị độ sáng. Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số
hoá ảnh. Trong quá trình số hoá, người ta biến đổi tín hiệu liên tục sang tín hiệu rời
rạc thông qua quá trình lấy mẫu (rời rạc hoá về không gian) và lượng hoá thành
phần giá trị mà về nguyên tắc, mắt thường không phân biệt được hai điểm kề nhau.
Trong quá trình này, người ta sử dụng khái niệm Picture Element mà ta quen gọi
hay viết là pixel – phần tử ảnh. Như vậy một ảnh là một tập hợp các pixel. Mỗi

pixel gồm một cặp toạ độ x, y và màu, cặp toạ độ x, y tạo nên độ phân giải. Vậy
khi được số hoá thì ảnh được biểu diễn 2 chiều, tập ảnh với các điểm ảnh I(x, y)
5

(0<x≤ W; 0<y≤ H; trong đó W, Y lần lượt là chiều rộng và chiều cao của ảnh).
Một pixel thường được lưu trữ trên 1, 4, 8 hay 24 bit trên máy tính.
- Mức xám và màu: là số các giá trị có thể có của các pixel của ảnh. Mức xám
là kết quả của sự mã hoá tương ứng với cường độ sáng của mỗi điểm ảnh với một
giá trị số. Cách mã hoá kinh điển thường dùng là 16, 32 hay 64 mức. Hiện nay, mã
hoá 256 mức là thông dụng vì mỗi pixel được mã hoá 8 bit (2
8
= 256).
- Ảnh đen trắng: là ảnh có hai màu đen và trắng (không chứa màu khác) với
các mức xám ở các điểm ảnh có thể khác nhau.
- Ảnh nhị phân: tuỳ theo vùng các giá trị mức xám của điểm ảnh, mà các ảnh
được phân chia ra thành ảnh màu, ảnh xám, hay ảnh nhị phân. Khi trên một ảnh chỉ
có giá trị 0 hoặc 1 thì ta nói đó là một ảnh nhị phân hoặc ảnh đen trắng và các điểm
ảnh của nó gọi là điểm ảnh nhị phân.
- Ảnh màu: chỉ đề cập đến không gian màu RGB (Red, Green, Blue), người ta
dùng 3 byte để mô tả mức màu, khi đó gia trị màu trong khoảng {0, 2
3x 8
}.
Một số ứng dụng trong thực tế đòi hỏi chúng ta cần thực hiện quá trình tìm
kiếm các ảnh (truy vấn ảnh) từ trong kho dữ liệu được lưu trữ sẳn (CSDL). Kho
lưu trữ này thường là một kho cục bộ được lưu trữ trên các thiết bị ghi nhớ hoặc là
một kho lưu trữ được liên kết thông qua môi trường Internet từ nhiều kho khác
nhau. Quá trình tìm kiếm này thường trích chọn một số tiêu chí riêng biệt hay kết
hợp nhiều tiêu chí như tên lưu trữ, nội dung mô tả, màu sắc, độ sáng của ảnh, sau
đó quá trình truy vấn sẽ so sánh các tiêu chí này của ảnh gốc so với các tiêu chí
của các ảnh trong kho lưu trữ và cho ra kết quả cần tìm.

Bài toán truy vấn ảnh bao gồm quá trình trích chọn các đặc trưng và quá
trình truy vấn dựa trên các đặc trưng được trích chọn. Quá trình truy vấn ảnh là
quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó. Có hai
kiểu mô tả đối tượng
- Mô tả tham số (truy vấn theo tham số)
6

- Mô tả theo cấu trúc (truy vấn theo cấu trúc)
Việc nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình
ảnh thành những phần có nghĩa để phân biệt đối tượng này với đối tượng khác.
Dựa vào đó ta có thể mô tả cấu trúc của hình ảnh ban đầu. Có thể liệt kê một số
phương pháp truy vấn cơ bản như truy vấn biên của một đối tượng trên ảnh, tách
cạnh, phân đoạn hình ảnh Kỹ thuật này được sử dụng nhiều trong y học (xử lý tế
bào, nhiễm sắc thể).
Trong thực tế người ta đã thực hiện truy vấn khá thành công với nhiều đối
tượng khác nhau như: ảnh vân tay, chữ (chữ cái, chữ số, chữ có dấu). Truy vấn chữ
in hoặc đánh máy trong văn bản phục vụ cho việc tự động hoá quá trình đọc tài
liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính, truy vấn chữ
viết tay (với mức độ ràng buộc khác nhau về cách viết, kiểu chữ, …)
Quá trình truy vấn ảnh theo sơ đồ sau [5]:









a. Quá trình “thu nhận ảnh”:

- Ảnh có thể thu nhận qua camera. Thường ảnh thu nhận qua camera là tín
hiệu tương tự (loại camera ống kiểu CCIR), nhưng cũng có thể là tín hiệu số hoá
(loại CCD - Charge Coupled Device).
- Ảnh có thể thu nhận từ vệ tinh qua các bộ cảm ứng (sensor), hay ảnh, tranh
được quét qua scanner.

Kết quả truy vấn
Thu nhận ảnh
Số hoá
Phân tích ảnh
Lƣu trữ
Hệ quyết định
Lƣu trữ
7

b. Quá trình “số hóa” (Digitalizer): để biến đổi tín hiệu tương tự sang
tín hiệu rời rạc (lấy mẫu) và số hóa bằng lượng hóa, trước khi chuyển sang giai
đoạn xử lý, phân tích hay lưu trữ lại.
c. Quá trình “phân tích ảnh”: bao gồm nhiều công đoạn nhỏ. Trước tiên
là công việc tăng cường hình ảnh (Image Enhancement) để nâng cao chất lượng
hình ảnh. Do những nguyên nhân khác nhau: có thể do thiết bị thu nhận ảnh, do
nguồn sáng hay do nhiễu, ảnh có thể bị suy biến. Do vậy cần phải tăng cường và
khôi phục (Image Restoration) lại ảnh để làm nổi bật một số đặc tính chính của ảnh,
hay làm cho ảnh gần giống với trạng thái gốc- trạng thái trước khi ảnh bị biến dạng.
Giai đoạn tiếp theo là phát hiện các đặc tính như biên (Edge Detection), phân vùng
ảnh (Image Segmentation), trích chọn các đặc tính (Feature Extraction),v.v
d. Quá trình “kết quả truy vấn”: tuỳ theo mục đích của ứng dụng, sẽ là
kết quả truy vấn, phân lớp hay thực hiện các quyết định khác.
Ngày nay, có nhiều hệ thống truy vấn ảnh (sử dụng mang tính thương mại
và thực nghiệm) được phát triển. Ảnh được nghiên cứu và phát triển bao gồm ảnh

tĩnh và ảnh động. Ở phạm vi của luận văn, chỉ đề cập đến phạm vi ảnh tĩnh.
1.1.2. Một số phương pháp truy vấn ảnh:
Mục tiêu của các phương pháp truy vấn ảnh là tìm ra ảnh đúng với nhu cầu
cần tìm thông qua các đặc trưng của ảnh. Hiện nay, có nhiều phương pháp truy vấn
ảnh đã được nghiên cứu và áp dụng. Trong số đó, có một số dạng truy vấn như:
1.1.2.1. Truy vấn ảnh theo bản thể :
Phương pháp đơn giản nhất trong việc truy vấn là tìm kiếm ảnh theo từ
khoá, các từ khoá tương ứng với các trường trong CSDL lưu trữ ảnh. Quá trình
truy vấn là so khớp từ khoá với các từ được mô tả trong các trường thông qua biểu
thức logic. Tuy nhiên, các phương pháp tìm kiếm theo từ khoá phát sinh nhiều hạn
chế như [9]:
8

- Một từ khoá trong văn bản không chỉ ra được văn bản đó có thích hợp hay
không và các văn bản thích hợp lại có thể không chứa một từ khoá nhất định.
- Các từ đồng nghĩa làm giảm độ thu hồi, các từ đồng âm làm giảm độ chính
xác và các quan hệ ngữ nghĩa như quan hệ trái nghĩa, phản nghĩa chưa được đề
cập đến.
Đối với những người sử dụng biết các từ khoá dùng để đánh chỉ số ảnh thì
việc truy vấn rất dễ dàng. Nhưng đối với một số người sử dụng, họ không biết rõ
về CSDL, các khái niệm ngữ nghĩa có liên quan đến nội dung cần tìm, vì vậy sẽ
phát sinh một số vấn đề như:
- Cấu thành thông tin cần thiết: người sử dụng không biết chính xác cần phải
đặt câu hỏi gì.
- Cấu thành truy vấn: người sử dụng không biết phải sử dụng từ khoá gì liên
quan với thông tin mà họ muốn tìm kiếm.
- Cấu thành kết quả: tạo danh sách các ảnh phù hợp với từ khoá có thể bỏ
qua mất một phương diện hay nhất của việc lưu trữ là quan hệ giữa các ảnh trong
cơ sở dữ liệu rất đa dạng và phong phú.
Công nghệ web ngữ nghĩa (semantic web) hứa hẹn có thể giải quyết được

những khó khăn trên. Các cách tiếp cận sau thường được sử dụng để chú giải ảnh:
- Từ khoá: danh sách các từ được phép sử dụng để chú giải ảnh được hạn
chế làm cho việc tìm kiếm dễ dàng hơn.
- Phân loại: có nhiều hệ thống phân loại có khả năng phân loại theo nhiều
phương diện khác nhau thành các cây phân cấp theo chủ đề. Một ảnh có thể chú
thích bằng một tập các chủ đề mô tả ảnh đó. Ví dụ: ảnh trên một chiếc phong bì vẽ
một toà lâu đài có thể liên quan tới lớp “phong bì” và lớp “lâu đài”.
9

- Mô tả ảnh: sử dụng những câu mô tả các đối tượng ảnh có trong ảnh. Hệ
thống tra cứu thông tin có nhiệm vụ đánh chỉ số các văn bản này để có thể tìm
kiếm bằng từ khoá.
Các bản thể tạo thành hạt nhân của của các hệ thống tra cứu ảnh ngữ nghĩa
được sử dụng cho ba mục đích:
- Thuật ngữ chú giải: mô hình bản thể cung cấp thuật ngữ và các khái niệm
để diễn tả dữ liệu về dữ liệu (metadata) của các ảnh.
- Tìm kiếm theo cách nhìn: các bản thể của một mô hình, chẳng hạn Sự kiện,
Con người hoặc Vị trí cho ta các cách nhìn khác nhau vào cùng một nội dung giới
thiệu. Mỗi cách nhìn bao gồm các lớp và các trường hợp ví dụ biểu diễn bằng
metaphor của một trình duyệt hệ thống file trong đó các lớp tương ứng với các thư
mục và các trường hợp ví dụ tương ứng với các file.
- Duyệt ngữ nghĩa: sau khi tìm kiếm được tâm điểm chú ý là một ảnh nào
đó, mô hình bản thể ngữ nghĩa cùng với dữ liệu ảnh ví dụ có thể được sử dụng để
tìm ra mối quan hệ giữa ảnh được lựa chọn và các ảnh trong cơ sở dữ liệu ảnh. Các
ảnh này sẽ được đưa ra cho người sử dụng chọn. Những ảnh đó có thể không phù
hợp hoàn toàn với truy vấn nhưng nói chung là tương đối phù hợp.
1.1.2.2. Truy vấn ảnh theo nội dung:
Phương pháp này áp dụng dựa trên nguyên lý rút trích các thông số đặc
trưng của ảnh như: màu sắc (mức xám), hình dạng (biên), vị trí…Hiện đã có nhiều
công trình nghiên cứu về phương pháp này và theo nhiều hướng tiếp cận khác

nhau như: VisualSeek và Webseek của 2 tác giả John R. Smith and Shih-Fu
Chang thuộc Đại học Columbia; cả 02 hệ thống này đều thực hiện truy vấn theo
đặc trưng màu sắc, kết cấu, bố cục không gian. QBIC (Query By Image Content)
do hãng IBM và trung tâm nghiên cứu Almaden cùng hợp tác phát triển; Hệ thống
cho phép người sử dụng dùng công cụ đồ hoạ để mô tả và hiệu chỉnh truy vấn dựa
trên các đặc trưng như màu sắc, kết cấu, hình dạng của đối tượng.
10

1.1.2.3. Truy vấn ảnh theo đồ thị :
Như đã giới thiệu ở phần 1.1.2.2, kỹ thuật tra cứu ảnh theo nội dung dựa vào
những đặc điểm mức thấp như màu sắc, kết cấu và hình dạng của đối tượng ảnh.
Trong khi các phương pháp mô tả ảnh mức cao có khả năng mô tả gần gũi hơn với
trực giác của người sử dụng nhưng việc phát triển những phương pháp đó mới
dừng ở mức thử nghiệm và đòi hỏi rất nhiều quá trình xử lý phức tạp.
Mặc dù việc mô tả ảnh bằng các đặc điểm mức thấp có thể thực hiện khá
hiệu quả và đơn giản nhưng nhược điểm lớn nhất của phương pháp này là không
gần gũi với sự cảm nhận trực quan của hầu hết người sử dụng và do đó thường
không đủ đáp ứng nhu cầu của người sử dụng. Những ảnh mà ta cảm nhận được sự
giống nhau bằng mắt thường nhưng đôi khi lại rất khác nhau nếu so sánh bằng các
đặc điểm mức thấp. Phương pháp này dựa trên một thực tế là những ảnh thích hợp
về mặt trực giác thường không có chung những đặc điểm mức thấp nhưng vẫn có
sự tương tự về mặt khái niệm và về mặt ngữ cảnh đối với con người. Ví dụ: những
ảnh chụp người trong bộ đồ tắm thường có màu sắc, hình dạng và kết cấu rất đa
dạng nhưng về mặt khái niệm thì lại được con người cảm nhận là tương tự nhau.
Vì vậy phương pháp tra cứu ảnh theo đồ thị được giới thiệu ở đây không
dựa trên các đặc điểm ở mức thấp (trừ giai đoạn khởi tạo) mà dựa vào những sự
liên kết có tính trực giác giữa các ảnh được thiết lập bởi người sử dụng bằng cách
phản hồi thích hợp.
1.2. Mô hình hệ thống truy vấn ảnh theo nội dung:
Màu sắc được sử dụng nhiều nhất để mô tả nội dung trực quan của ảnh, vì

màu sắc của ảnh có tác động lớn đến nhận thức của con người về nội dung của ảnh
hơn là các đặc điểm khác như hình dạng của các đối tượng ảnh, kết cấu của ảnh
hay sự phân bố không gian của các đối tượng ảnh.
Màu sắc được biểu diễn thông qua một véctơ 3 chiều sẽ có khả năng biểu
diễn tốt hơn so với việc chỉ sử dụng giá trị độ xám của ảnh (1 chiều). Một số
phương pháp mô tả nội dung màu sắc của ảnh như:
11

1.2.1. Không gian màu:
Mỗi điểm ảnh trên một bức ảnh có thể được biểu diễn bằng một điểm trong
một không gian màu 3 chiều. Những không gian màu được sử dụng nhiều nhất
trong các hệ thống tra cứu ảnh là RGB, CMY, HSV, CIE L*a*b, CIE L*u*v và
không gian màu đối lập.
Tính chất quan trọng nhất để một không gian màu phù hợp để sử dụng trong
một hệ thống tra cứu ảnh là tính đồng nhất. Một không gian màu được gọi là có
tính đồng nhất nếu các cặp 2 màu tương tự nhau trong không gian màu thì cũng
được con người cảm nhận như nhau hay khoảng cách đo được giữa hai màu bất kỳ
phải có liên quan trực tiếp với độ tương tự sinh học giữa hai màu đó.
RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh. Không
gian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và Xanh
lam (Blue). Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không
gian RGB đều có thể thu được bằng cách cộng 3 thành phần màu này lại với nhau.
CMY là không gian màu thường sử dụng trong in ấn. Ba thành phần màu
của không gian CMY là màu xanh lơ (Cyan), hồng sẫm (Magenta) và vàng
(Yellow). Ba thành phần này gọi là các thành phần màu trừ vì mỗi màu trong
không gian CMY được sinh ra bởi sự hấp thụ các thành phần màu đó.
Cả RGB và CMY đều phụ thuộc thiết bị và không có tính đồng nhất.
Không gian màu HSV được sử dụng rộng rãi trong đồ hoạ máy tính và được
coi là một phương pháp biểu diễn màu sắc trực quan hơn. Ba thành phần màu là
sắc màu (hue), độ bão hoà màu (s) và giá trị độ sáng (v). Thành phần sắc màu

không thay đổi khi ta thay đổi độ chiếu sáng hay góc quan sát vì vậy thích hợp để
sử dụng trong việc nhận dạng đối tượng ảnh. Cũng có thể dễ dàng chuyển đổi các
giá trị từ không gian HSV sang RGB và ngược lại.
Các không gian màu CIE L*a*b và CIE L*u*v là các không gian màu
không phụ thuộc thiết bị và có thể coi là đồng nhất. Bao gồm các thành phần độ
12

sáng (L) và hai thành phần độ kết tủa màu (sắc độ màu) là a và b hoặc u và v. CIE
L*u*v được thiết kế để làm việc với việc trộn các thành phần màu cộng còn CIE
L*a*b được thiết kế để làm việc với việc trộn các thành phần màu trừ.
Các không gian màu RGB và CIE có thể chuyển đổi với nhau, tức là chúng
ta có thể sử dụng các công thức để chuyển đổi một giá trị màu từ không gian màu
này sang không gian màu khác.
Không gian màu đối lập sử dụng các trục màu ngược (R-G, 2B-R-G,
R+G+B), cách biểu diễn này có ưu điểm là tách được thông tin về độ sáng ra một
trục riêng biệt (trục thứ ba). Bằng cách này, hai thành phần kết tủa màu sẽ không
bị thay đổi khi thay đổi độ chiếu sáng.
1.2.2. Các Moment màu:
Các moment màu đã được sử dụng rất thành công trong nhiều hệ thống tra
cứu ảnh đặc biệt là khi ảnh chỉ chứa một đối tượng ảnh. Các thành phần moment
bậc nhất (trung vị), bậc hai (phương sai) và bậc ba (độ lệch) đã được chứng minh
là có thể được sử dụng rất hiệu quả để biểu diễn sự phân bố màu sắc của ảnh.
Công thức toán học để biểu diễn 3 moment này như sau:



N
j
iji
f

N
1
1

(1.1)
2
1
)(
1
i
N
j
iji
f
N




(1.2)
3
1
3
)(
1



N
j

iiji
f
N
s

(1.3)
Trong đó:
- f
ij
là giá trị của thành phần màu thứ i của điểm ảnh thứ j.
- N là số lượng điểm ảnh của ảnh đó.
13

Sử dụng cả thành phần moment bậc ba s
i
sẽ giúp tăng cường hiệu năng tra
cứu so với khi chỉ sử dụng các moment bậc nhất

i
và bậc hai

i
. Đôi khi việc sử
dụng moment bậc 3 làm cho việc biểu diễn đặc trưng của ảnh nhạy cảm hơn đối
với những thay đổi của cảnh nền và do đó làm giảm khả năng của hệ thống.
Do chỉ sử dụng 9 giá trị (3 moment cho mỗi màu trong bộ ba màu) để biểu
diễn nội dung màu của mỗi ảnh nên việc sử dụng moment màu để biểu diễn véctơ
đặc trưng màu là rất đơn giản nếu so sánh với các phương pháp biểu diễn khác. Và
cũng chính do sự đơn giản đó nên phương pháp này cho kết quả khá hạn chế.
Thông thường, phương pháp biểu diễn bằng moment màu được sử dụng

trong những bước đầu tiên của quá trình tra cứu ảnh với mục đích làm giảm kích
thước không gian tìm kiếm trước khi áp dụng các phương pháp phức tạp hơn để
truy vấn.
1.2.3. Lược đồ màu (Histogram màu):
Histogram màu là cách hiệu quả để biểu diễn nội dung màu của một bức ảnh
trong trường hợp mẫu màu của bức ảnh đó là duy nhất trong tập hợp các ảnh trong
cơ sở dữ liệu. Histogram màu dễ tính toán và rất hiệu quả để biểu diễn cả sự phân
bố màu tổng quan và sự phân bố màu cục bộ của ảnh. Ngoài ra, histogram màu
không bị ảnh hưởng bởi sự dịch chuyển hay sự quay của ảnh và rất ít bị ảnh hưởng
của tỉ lệ và góc nhìn ảnh.
Do mỗi điểm ảnh được mô tả bằng ba thành phần trong một không gian ảnh
xác định (ví dụ: ba thành phần Đỏ (R), Xanh lục (G) và Xanh da trời (B) trong
không gian màu RGB hay ba thành phần là sắc màu (H), độ bão hoà màu (S) và
giá trị màu (V) trong không gian HSV) nên có thể định nghĩa cho mỗi thành phần
màu một histogram tức là một sự phân bố một số lượng điểm ảnh cho mỗi bin
lượng tử màu. Cụ thể hơn là càng sử dụng nhiều bin màu thì khả năng biểu diễn
càng tốt. Tuy nhiên việc sử dụng quá nhiều bin màu không chỉ làm tăng khối
lượng tính toán mà còn không thích hợp để xây dựng một sơ đồ đánh chỉ số hiệu
14

quả cho cơ sở dữ liệu ảnh. Hơn nữa việc lượng tử hoá quá mịn cũng không thật
cần thiết trong nhiều trường hợp.
Một cách để làm giảm số lượng bin màu là sử dụng không gian màu đối lập
cho phép làm giảm số lượng mẫu độ sáng của ảnh. Một cách khác là sử dụng các
phương pháp phân cụm để xác định K màu tốt nhất trong một tập hợp ảnh xác
định, mỗi một màu trong K màu tốt nhất đó được coi là một bin màu. Do quá trình
phân cụm tính toán sự phân bố màu của tất cả các ảnh trong cơ sở dữ liệu nên sẽ
được giảm thiểu được số lượng các bin màu không chứa hoặc chứa rất ít điểm ảnh.
Một cách khác là sử dụng các bin màu có chứa nhiều điểm ảnh nhất, khi đó
chỉ cần một số lượng nhỏ bin màu cũng biểu diễn được đặc trưng quan trọng nhất

của một bức ảnh. Cách làm này không những không làm giảm hiệu năng của
phương pháp so sánh histogram mà đôi khi còn làm tăng hiệu năng do các bin màu
có kích thước lớn sẽ tránh được ảnh hưởng của nhiễu.
Khi cơ sở dữ liệu có chứa quá nhiều ảnh thì phương pháp so sánh histogram
có thể bị bão hoà, khi đó kết quả so sánh histogram màu chưa chắc đã phản ánh sự
tương tự về nội dung của các ảnh, để khắc phục nhược điểm này người ta đưa ra
kỹ thuật histogram liên kết.
Histogram liên kết có bổ sung thêm các thông tin khác mà không làm giảm
sự đơn giản của histogram màu. Để đạt được điều này, người ta phải lựa chọn rất
cẩn thận các đặc trưng cục bộ sẽ bổ sung vào histogram liên kết. Mỗi phần tử trong
lược đồ histogram liên kết chứa số lượng điểm ảnh trong ảnh được mô tả bởi một
bộ các giá trị đặc trưng. Như vậy histogram liên kết là lược đồ histogram đa chiều.
Mặt khác, do histogram màu không phản ánh được các thông tin mang tính
không gian của các điểm ảnh, vì vậy về mặt lý thuyết, các ảnh rất khác nhau có thể
có sự phân bố màu tương tự nhau. Vấn đề này rất dễ xảy ra đối với các cơ sở dữ
liệu ảnh lớn. Người ta đã đề xuất một vài cách khác nhau để khắc phục vấn đế này,
một cách đơn giản nhất là chia các bức ảnh thành những phân vùng nhỏ hơn và

×