Tải bản đầy đủ (.pdf) (71 trang)

Nghiên cứu một số kỹ thuật tra cứu biển báo giao thông (LV01131)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.46 MB, 71 trang )

1

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

LÊ THI TÂM

NGHIÊN CỨU MỘT SỐ KỸ THUẬT
TRA CỨU BIỂN BÁO GIAO THÔNG

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 0101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS. TS. ĐỖ NĂNG TOÀN

HÀ NỘI - 2013


1

LỜI CẢM ƠN

Trong quá trình thực hiện luận văn này, em luôn nhận được sự hướng dẫn, chỉ
bảo tận tình của PGS. TS Đỗ Năng Toàn, Viện Công nghệ Thông tin thuộc Viện
Khoa học và Công nghệ Việt Nam là cán bộ trực tiếp hướng dẫn khoa học cho em.
Em xin chân thành cảm ơn sự giúp đỡ quý báu đó.
Em xin chân thành cảm ơn các Thầy, Cô giáo trong khoa Công nghệ thông tin
và các cán bộ, nhân viên phòng Đào tạo Sau đại học, trường Đại học sư phạm Hà
Nội 2 cùng các anh chị đồng nghiệp trong cơ quan đã tạo những điều kiện thuận lợi


cho tôi học tập và nghiên cứu tại trường Đại học Sư Phạm Hà Nội 2.
Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học
K15KHMT- trường Đại học sư phạm Hà Nội 2 đã luôn động viên, giúp đỡ và nhiệt
tình chia sẻ với tôi những kinh nghiệm học tập, công tác trong suốt khoá học.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình, bạn bè, những người thân yêu
luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Mặc dù rất cố gắng, song luận văn này không thể tránh khỏi những thiếu sót,
kính mong được sự chỉ dẫn của các quý thầy cô và các bạn.
Vĩnh Phúc, ngày 1 tháng 7 năm 2013
Tác giả

Lê Thị Tâm


2

LỜI CAM ĐOAN

Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong luận văn này là
trung thực và không trùng lặp với các đề tài khác. Tôi cũng xin cam đoan rằng mọi
sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích
dẫn trong luận văn đã được chỉ rõ nguồn gốc.

Vĩnh Phúc, ngày 1 tháng 7 năm 2013
Tác giả

Lê Thị Tâm


3


MỤC LỤC
LỜI CẢM ƠN ...................................................................................................................... 1
LỜI CAM ĐOAN ................................................................................................................. 2
MỞ ĐẦU ............................................................................................................................... 4
NỘI DUNG ........................................................................................................................... 7
Chương 1: KHÁI QUÁT XỬ LÝ ẢNH VÀ BÀI TOÁN TRA CỨU .............................. 7
BIỂN BÁO GIAO THÔNG ................................................................................................ 7
1.1. KHÁI QUÁT XỬ LÝ ẢNH ....................................................................................... 7
1.1.1. Xử lý ảnh là gì ..................................................................................................... 8
1.1.2. Một số khái niệm trong xử lý ảnh ........................................................................ 9
1.1.3. Một số phương pháp biểu diễn ảnh.................................................................... 10
1.1.4. Phương pháp phát hiện biên ảnh ........................................................................ 12
1.1.5. Phân vùng ảnh.................................................................................................... 13
1.1.6. Một số phương pháp tra cứu ảnh ....................................................................... 18
1.2. BÀI TOÁN TRA CỨU BIỂN BÁO GIAO THÔNG ............................................... 22
Chương 2: MỘT SỐ KỸ THUẬT TRA CỨU BIỂN BÁO GIAO THÔNG................. 23
2.1. MÔ HÌNH HỆ THỐNG TRA CỨU ẢNH THEO NỘI DUNG ............................... 23
2.2.1. Không gian màu ................................................................................................. 26
2.2.2 Các moment màu ................................................................................................ 27
2.2.3 Lược đồ màu (histogram màu) ........................................................................... 29
2.2.4. Véc tơ gắn kết màu ............................................................................................ 30
2.2.5. Sơ đồ tương quan màu ....................................................................................... 31
2.2.6. Các đặc điểm bất biến màu ................................................................................ 32
2.3. TRA CỨU ẢNH DỰA TRÊN HÌNH DẠNG .......................................................... 33
2.3.1. Biên và các phương pháp phát hiện biên ........................................................... 34
2.3.2. Xử lý ảnh trong miền tần số và biến đổi Fourier [3, 4, 5] ................................. 42
2.3.3. Mô tả Fourier ..................................................................................................... 46
2.3.4. Các bất biến moment ......................................................................................... 49
2.3.5. Các hàm xoay/góc xoay ..................................................................................... 50

2.3.6. Độ tròn, độ lệch tâm và hướng trục chính ......................................................... 51
Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM.............................................................. 52
3.1. BÀI TOÁN ............................................................................................................... 52
3.2. PHÂN TÍCH BÀI TOÁN ......................................................................................... 53
3.3. XÂY DỰNG CHƯƠNG TRÌNH QUERY TRAFFIC SIGNS................................. 59
3.3.1. Sơ đồ khối tổng quát .......................................................................................... 59
3.3.2. Tra cứu theo hình dạng ...................................................................................... 60
3.3.3. Tra cứu theo màu sắc ......................................................................................... 64
3.3.4. Sử dụng chương trình Query Trafic Signs ........................................................ 65
3.4. KHẢ NĂNG MỞ RỘNG CỦA CHƯƠNG TRÌNH ................................................ 67
3.4.1. Những hạn chế của chương trình ....................................................................... 67
3.4.2. Khả năng mở rộng ............................................................................................. 67
KẾT LUẬN......................................................................................................................... 68
TÀI LIỆU THAM KHẢO ................................................................................................. 70


4

MỞ ĐẦU

1. Lý do chọn đề tài
Những năm gần đây, ảnh số ngày càng thu hút được sự quan tâm của nhiều
người, một phần là do các thiết bị thu nhận ảnh số ngày càng phổ biến và có giá cả
phù hợp, cho phép nhiều người có thể sở hữu và sử dụng. Mặt khác các công nghệ
chế tạo thiết bị lưu trữ luôn được cải tiến để cho ra đời các thiết bị lưu trữ có dung
lượng lớn và giá thành hạ làm cho việc lưu trữ ảnh dưới dạng các file trở nên phổ
biến. Thêm nữa là sự phát triển của mạng Internet làm cho số lượng ảnh số được
đưa lên lưu trữ và trao đổi qua Internet là rất lớn.
Tuy nhiên khi số lượng ảnh được lưu trữ trở nên rất lớn thì vấn đề là phải có
những phương pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm

kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt.
Việc tìm kiếm được một bức ảnh mong muốn trong hàng triệu bức ảnh thuộc
đủ loại chủ đề khác nhau là rất khó khăn.
Khi số lượng ảnh trong một bộ sưu tập còn ít, việc nhận diện một bức ảnh hay
việc so sánh sự giống và khác nhau giữa nhiều bức ảnh có thể thực hiện được bằng
mắt thường, tuy nhiên khi có số lượng rất lớn ảnh thì việc so sánh bằng mắt thường
là rất khó khăn, đòi hỏi phải có những phương pháp hiệu quả và chính xác hơn.
Trong thực tế, bài toán tra cứu ảnh số có rất nhiều ứng dụng quan trọng. Ví dụ
như so sánh mẫu vân tay, tìm kiếm ảnh tội phạm v.v... là những bài toán tra cứu ảnh
được áp dụng trong ngành khoa học hình sự.
Ngoài ra các lĩnh vực ở trên ra thì các đối tượng được nhận dạng, tra cứu có
nhiều kiểu như tiếng nói, chữ viết, khuôn mặt, mã vạch … và trong lĩnh vực giao
thông thì việc tra cứu các biển báo cũng là một vấn đề được quan tâm. Đây là kiểu
đối tượng có tính chất hình học đặc trưng, thường bắt gặp trong đời sống hằng ngày
với công dụng là đưa ra những cảnh báo thông tin cho người tham gia giao thông.


5

Tuy nhiên các biển cáo giao thông thì không có quy luật mà chỉ là hệ thống các ký
hiệu với ý nghĩa qui ước kèm theo. Việc ghi nhớ hình dạng và ý nghĩa của tất cả các
loại biển báo đối với chúng ta sẽ là một khó khăn lớn, do đó chúng ta thường hay có
nhu cầu tra cứu tìm hiểu trực quan. Bởi vậy việc xây dựng một chương trình nhằm
phát hiện và nhận dạng các loại biển báo giao thông cho phép người dùng có thể tra
cứu trực quan thông tin của biển báo khi không nhớ nội dung biển báo này. Nhằm
đạt được điều đó đòi hỏi phải sử dụng tới các kỹ thuật nhận dạng và tra cứu ảnh.
Chính vì vậy mà tôi chọn đề tài “ Nghiên cứu một số kỹ thuật tra cứu biển báo giao
thông”.
Vấn đề này chính là động lực để chúng tôi tìm hiểu các phương pháp tra cứu
ảnh số đang được ứng dụng nhiều trong thực tế và tìm kiếm phương pháp phù hợp

nhất để giải quyết bài toán này.

2. Mục đích nghiên cứu
Mục đích nghiên cứu đề tài này nhằm tìm hiểu cơ sở lý thuyết và các ứng
dụng chính của một số phương pháp tra cứu ảnh, từ đó đi sâu vào nghiên cứu
phương pháp tra cứu ảnh theo nội dung. Trên những cơ sở đó tiến hành thử nghiệm
một phương pháp cụ thể để xây dựng một chương trình phần mềm tra cứu biển báo
giao thông cho phép đọc vào một ảnh biển báo mẫu và tìm kiếm những ảnh tương
tự với ảnh mẫu trong một tập hợp các ảnh cho trước theo hai đặc điểm là hình dạng
và màu sắc của biển báo.
Như chúng ta đã thấy, biển báo giao thông của Việt Nam rất đa dạng, không
có quy luật mà chỉ là hệ thống các ký hiệu với ý nghĩa qui ước kèm theo. Việc ghi
nhớ hình dạng và ý nghĩa của tất cả các loại biển báo đối với chúng ta sẽ là một khó
khăn lớn. Bởi vậy việc xây dựng một chương trình nhằm phát hiện và nhận dạng
các loại biển báo giao thông cho phép người dùng có thể tra cứu trực quan thông tin
của biển báo khi không nhớ nội dung biển báo này là rất có ích.
3. Nhiệm vụ nghiên cứu


6

Sau khi tìm hiểu bài toán nhận dạng và tra cứu ảnh nói chung, nghiên cứu
một số kỹ thuật tra cứu biển báo giao thông nói riêng từ đó áp dụng để xây dựng
một chương trình mô phỏng các kỹ thuật này.
4. Đối tượng và phạm vi nghiên cứu
a. Đối tượng nghiên cứu
- Các loại biển báo giao thông của Việt Nam
- Các kỹ thuật tra cứu biển báo giao thông dựa trên phương pháp tra
cứu ảnh theo nội dung.
- Xây dựng phần mềm mô phỏng các kỹ thuật tra cứu biển báo giao

thông
b. Phạm vi nghiên cứu: Phương pháp tìm kiếm ảnh dựa trên nội dung ảnh.
5. Những đóng góp mới của đề tài
Đề tài “Nghiên cứu một số kỹ thuật tra cứu biển báo giao thông” giúp cho
việc phát triển các phần mềm phát hiện và nhận dạng biển báo giao thông nói riêng
và nhận dạng ảnh nói chung.
Chương trình sẽ trợ giúp đắc lực cho công tác tra cứu, tìm kiếm cũng như có
thể cải tiến để áp dụng cho một số lĩnh vực khác như giáo dục, sở hữu trí tuệ, y học,
khoa học hình sự...
6. Phương pháp nghiên cứu
Đề tài được nghiên cứu với sự kết hợp của nhiều phương pháp: phân tích,
phân loại và đặc tả dữ liệu; nghiên cứu, phân tích và tổng hợp tài liệu; phương pháp
phân tích và thiết kế hệ thống thông tin theo công nghệ hướng đối tượng; các kỹ
thuật lập trình; phương pháp thiết kế cơ sở dữ liệu đa phương tiện và phương pháp
mô hình hoá trực quan.

.


7

NỘI DUNG

Chương 1: KHÁI QUÁT XỬ LÝ ẢNH VÀ BÀI TOÁN TRA CỨU
BIỂN BÁO GIAO THÔNG

1.1. KHÁI QUÁT XỬ LÝ ẢNH
Những năm gần đây, vấn đề tra cứu ảnh số nhận được sự quan tâm ngày
càng lớn. Nguyên nhân một phần là do sự phát triển của công nghệ chế tạo thiết bị
thu nhận và lưu trữ ảnh số cũng như sự phát triển mạnh mẽ của mạng Internet.

Người sử dụng trong nhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các
kho lưu trữ ảnh thuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau.
Tuy nhiên người ta cùng nhận thấy rằng việc tìm được một bức ảnh mong muốn
trong bộ sưu tập ảnh đa dạng có kích thước lớn là rất khó khăn.
Tra cứu ảnh là một quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những
ảnh thoả mãn một yêu cầu nào đó. Ví dụ, người sử dụng có thể tìm kiếm tất cả các
ảnh về chủ đề về biển trong một cơ sở dữ liệu ảnh hoặc một người sử dụng khác lại
muốn phân loại cơ sở ảnh của mình thành các bộ sưu tập có chủ đề khác nhau. Một
ví dụ khác về tra cứu ảnh là một người muốn tìm tất cả các ảnh tương tự với một
bức ảnh mẫu nào đó trong một cơ sở dữ liệu ảnh.
Vấn đề tra cứu ảnh đã được nhìn nhận rộng rãi và việc tìm kiếm các giải
pháp cho vấn đề này trở thành một lĩnh vực rất sôi động, thu hút sự quan tâm của
nhiều nhà nghiên cứu và phát triển.


8

1.1.1. Xử lý ảnh là gì
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai
trò quan trọng nhất. Những năm trở lại đây với sự phát triển của phần cứng máy
tính, xử lý ảnh và đồ hoạ đã phát triển một cách mạnh mẽ và có nhiều ứng dụng
trong cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác
người máy.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm
cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một
ảnh “tốt hơn” hoặc một kết luận.
Có thể hiểu một cách khác, xử lý ảnh hay cao cấp hơn nữa là thị giác máy
tính (Computer Vision) bao gồm tất cả các lý thuyết và kỹ thuật liên quan, cho
phép tạo lập một hệ thống có khả năng tiếp nhận thông tin từ các hình ảnh thu được,
lưu trữ và xử lý theo nhu cầu.


Hình 1.1 – Các bước cơ bản trong xử lý ảnh

· Thu nhận ảnh: Quá trình tiếp nhận thông tin từ vật thể thông qua camera
màu hoặc trắng đen, ảnh thu nhận được có thể là ảnh tương tự hoặc ảnh đã số
hóa.
· Tiền xử lý ảnh: Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên
cần đưa vào bộ tiền xử lý để nâng cao chất lượng. Chức năng chính của bộ
tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn.


9

· Phân đoạn ảnh: Là tách một ảnh đầu vào thành các vùng thành phần để biểu
diễn phân tích, nhận dạng ảnh. Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên
phong bì thư cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về địa
chỉ hoặc tên người thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để
nhận dạng. Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ
gây lỗi, làm mất độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất
nhiều vào công đoạn này.
· Biểu diễn ảnh: Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh
(ảnh đã phân đoạn) cộng với mã liên kết với các vùng lận cận. Việc biến đổi
các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng
máy tính. Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng
(Feature Selection) gắn với việc tách các đặc tính của ảnh dưới dạng các
thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với đối
tượng khác trong phạm vi ảnh nhận được. Ví dụ: trong nhận dạng ký tự trên
phong bì thư, chúng ta miêu tả các đặc trưng của từng ký tự giúp phân biệt
ký tự này với ký tự khác.
· Nhận dạng và nội suy ảnh: Nhận dạng ảnh là quá trình xác định ảnh. Quá

trình này thường thu được bằng cách so sánh với mẫu chuẩn đã được học
(hoặc lưu) từ trước. Nội suy là phán đoán theo ý nghĩa trên cơ sở nhận dạng.
Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thư có thể được nội
suy thành mã điện thoại.
1.1.2. Một số khái niệm trong xử lý ảnh
Ảnh và điểm ảnh: Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian
và độ sáng. Để xử lý bằng máy tính, ảnh cần phải được số hoá. Số hoá ảnh là sự
biến đổi gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị
trí (không gian) và độ sáng (mức xám). Khoảng cách giữa các điểm ảnh đó được


10

thiết lập sao cho mắt người không phân biệt được ranh giới giữa chúng. Mỗi một
điểm như vậy gọi là điểm ảnh và ảnh được xem như là 1 tập hợp các điểm ảnh
Độ phân giải của ảnh: Độ phân giải (Resolution) của ảnh là mật độ điểm
ảnh được ấn định trên một ảnh số được hiển thị.
Mức xám của ảnh: Mức xám của điểm ảnh là cường độ sáng của nó được
gán bằng giá trị số tại điểm đó. Giá trị mức xám thông thường: 16, 32, 64, 128, 256.
Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với
mức xám ở các điểm ảnh có thể khác nhau.
Ảnh nhị phân: là ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô tả
21 mức khác nhau. Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0
hoặc 1
1.1.3. Một số phương pháp biểu diễn ảnh
Sau khi thu nhận và số hóa, ảnh sẽ được lưu trữ hay chuyển sang giai đoạn
phân tích. Trước khi đề cập đến vấn đề lưu trữ ảnh, cần xem xét ảnh sẽ được biểu
diễn ra sao trong bộ nhớ máy tính.
1.1.3.1. Mã loạt dài
Mã loạt dài (Run-length Code) hay dùng để biểu diễn cho vùng ảnh hay ảnh

nhị phân. Một vùng ảnh R có thể biểu diễn đơn giản nhờ một ma trận nhị phân:

Với các biểu diễn trên, một vùng ảnh hay ảnh nhị phân đựoc xem như chuỗi
0 hay 1 đan xen. Các chuỗi này được gọi là mạch (run). Theo phương pháp này, mỗi
mạch sẽ được biểu diễn bởi địa chỉ bắt đầu của mạch và chiều dài mạch theo dạng
{<hàng,cột>, chiều dài}.


11

1.1.3.2. Mã xích
Mã xích thường được dùng để biểu diễn biên của ảnh. Thay vì lưu trữ toàn
bộ ảnh, người ta lưu trữ dãy các điểm ảnh như A, B…M. Theo phương pháp này, 8
hướng của vectơ nối 2 điểm biên liên tục được mã hóa. Khi đó ảnh được biểu diễn
qua điểm ảnh bắt đầu A cùng với chuỗi các từ mã. Điều này được minh họa trong
hình dưới đây:

Hình 1.2 – Hướng các điểm biên và mã tương ứng

1.1.3.3. Mã tứ phân

Theo phương pháp mã tứ phân, một vùng ảnh coi như bao kín một hình chứ
nhật. Vùng này được chia làm 4 vùng con (Quadrant). Nếu một vùng con gồm toàn
điểm đen (1) hay toàn điểm trắng (0) thì không cần chia tiếp. Trong trường hợp
ngược lại, vùng con gồm cả điểm đen và trắng gọi là vùng không đồng nhất, ta tiếp
tục chia thành 4 vùng con tiếp và kiểm tra tính đồng nhất của các vùng con đó. Quá
trình chia dừng lại khi mỗi vùng con chỉ chứa thuần nhất điểm đen hoặc điểm trắng.
Quá trình đó tạo thành một cây chia theo bốn phần gọi là cây tứ phân. Như vậy, cây
biểu diễn ảnh gồm một chuỗi các ký hiệu b (black), w (white) và g (grey) kèm theo
ký hiệu mã hóa 4 vùng con. Biểu diễn theo phương pháp này ưu việt hơn so với các

phương pháp trên, nhất là so với mã loạt dài. Tuy nhiên, để tính toán số đo các hình
như chu vi, mô men là tương đối khó khăn.


12

1.1.4. Phương pháp phát hiện biên ảnh
Điểm Biên: Một điểm ảnh được coi là điểm biên nếu có sự thay đổi nhanh
hoặc đột ngột về mức xám (hoặc màu). Ví dụ trong ảnh nhị phân, điểm đen gọi là
điểm biên nếu lân cận nó có ít nhất một điểm trắng.
Đường biên (đường bao: boundary): tập hợp các điểm biên liên tiếp tạo
thành một đường biên hay đường bao.
Ý nghĩa của đường biên : đường biên là một loại đặc trưng cục bộ tiêu biểu
trong phân tích, nhận dạng ảnh. Người ta sử dụng biên làm phân cách các vùng xám
(màu) cách biệt.
1.1.4.1. Phát hiện biên trực tiếp
Phương pháp này làm nổi biên dựa vào sự biến thiên mức xám của ảnh. Kỹ
thuật chủ yếu dùng để phát hiện biên ở đây là kỹ thuật lấy đạo hàm. Nếu lấy đạo
hàm bậc nhất của ảnh ta có các kỹ thuật Gradient, nếu lấy đạo hàm bậc hai của ảnh
ta có kỹ thuật Laplace. Ngoài ra còn có một số cách tiếp cận khác.
1.1.4.2. Phát hiện biên gián tiếp
Nếu bằng cách nào đấy, chúng ta thu được các vùng ảnh khác nhau thì đường
phân cách giữa các vùng đó chính là biên. Nói cách khác, việc xác định đường bao
của ảnh được thực hiện từ ảnh đã được phân vùng. Phương pháp dò biên gián tiếp
khó cài đặt nhưng áp dụng tốt khi sự biến thiên độ sáng nhỏ. Để có thể tiến hành
xác định biên theo cách gián tiếp này, chúng ta cần giải quyết được bài toán phân
vùng ảnh.


13


1.1.5. Phân vùng ảnh
Phân vùng ảnh là bước then chốt trong xử lý ảnh. Giai đoạn này nhằm phân
tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các
vùng liên thông. Tiêu chuẩn để xác định các vùng liên thông có thể là cùng mức
xám, cùng màu hay cùng độ nhám…
Vùng ảnh là một chi tiết, một thực thể trông toàn cảnh. Nó là một tập hợp
các điểm có cùng hoặc gần cùng một tính chất nào đó : mức xám, mức màu, độ
nhám… Vùng ảnh là một trong hai thuộc tính của ảnh. Nói đến vùng ảnh là nói đến
tính chất bề mặt. Đường bao quanh một vùng ảnh (Boundary) là biên ảnh. Các điểm
trong một vùng ảnh có độ biến thiên giá trị mức xám tương đối đồng đều hay tính
kết cấu tương đồng.
Dựa vào đặc tính vật lý của ảnh, người ta có nhiều kỹ thuật phân vùng : phân
vùng dựa theo miền liên thông gọi là phân vùng dựa theo miền đồng nhất hay miền
kề, phân vùng dựa vào biên gọi là phân vùng biên. Ngoài ra còn có các kỹ thuật
phân vùng khác dựa vào biên độ, phân vùng dựa theo kết cấu.
1.1.5.1 Phân vùng theo ngưỡng biên độ
Đặc tính đơn giản nhất và có thể hữu ích nhất của ảnh đó là biên độ của các
tính chất vật lý của ảnh như: độ tương phản, độ truyền sáng, màu sắc hoặc quang
phổ.
Như vậy, có thể dùng ngưỡng biên độ để phân vùng khi biên độ đủ lớn đặc
trưng cho ảnh. Thí dụ, biên độ trong bộ cảm biến ảnh hồng ngoại có thể phản ánh
vùng có nhiệt độ thấp hay vùng có nhiệt độ cao. Kỹ thuật phân ngưỡng theo biên độ
rất có lợi đối với ảnh nhị phân như văn bản in, đồ họa, ảnh màu hay ảnh X-quang.
Việc chọn ngưỡng rất quan trọng. Nó bao gồm các bước :


14

·


Xem xét lược đồ xám của ảnh để xác định các đỉnh và các khe.
Nếu ảnh có dạng rắn lượn (nhiều đỉnh và khe), các khe có thể
dùng để chọn ngưỡng.

·

Chọn ngưỡng t sao cho một phần xác định trước η của toàn bộ số
mẫu là thấp hơn t.

·

Điều chỉnh ngưỡng dựa trên lược đồ xám của các điểm lân cận.

·

Chọn ngưỡng theo lược đồ xám của những điểm thỏa mãn tiêu
chuẩn chọn. Thí dụ, với ảnh có độ tương phản thấp, lược đồ của
những điểm có biên độ Laplace g(m,n) lớn hơn giá trị t định
trước (sao cho từ 5% đến 10% số điểm ảnh với Gradient lớn
nhất sẽ coi như biên) sẽ cho phép xác định các đặc tính ảnh lưỡng
cực tốt hơn ảnh gốc.

Ta xét ví dụ sau về việc phân vùng dựa
trên ngưỡng biên độ:

Hình 1.3 – Lược đồ rắn lượn và cách chọn ngưỡng


15


Giả sử ảnh có lược đồ xám và cách chọn các ngưỡng như hình trên với:
T0=Lmin, …, T4=Lmax. Ta có 5 ngưỡng và phân ảnh thành 4 vùng, ký hiệu Ck là
vùng thứ k của ảnh, k=1,2,3,4. Cách phân vùng theo nguyên tắc :
P(m,n) ∈ Ck nếu Tk-1 ≤ P(m,n) < Tk , k=1,2,3,4.
Khi phân vùng xong, nếu ảnh rõ nét thì việc phân vùng coi như kết thúc. Nếu
không, cần điều chỉnh ngưỡng.
1.1.5.2 Phân vùng theo miền đồng nhất
Kỹ thuật phân vùng ảnh thành các miền đồng nhất dựa vào các tính chất
quan trọng nào đó của miền ảnh. Việc lựa chọn các tính chất của miền sẽ xác định
tiêu chuẩn phân vùng. Tính đồng nhất của một miền ảnh là điểm chủ yếu xác định
tính hiệu quả của việc phân vùng. Các tiêu chuẩn hay được dùng là sự thuần nhất về
mức xám, màu sắc đối với ảnh màu, kết cấu sợi và chuyển động.
Các phương pháp phân vùng ảnh theo miền đồng nhất thường áp dụng là :
· Phương pháp tách cây tứ phân
· Phương pháp cục bộ
· Phương pháp tổng hợp
Phương pháp tách cây tứ phân
Về nguyên tắc, phương pháp này kiểm tra tính đúng đắn của tiêu chuẩn đề ra
một cách tổng thể trên miền lớn của ảnh. Nếu tiêu chuẩn được thỏa mãn, việc phân
đoạn coi như kết thúc. Trong trường hợp ngược lại, chia miền đang xét thành 4
miền nhỏ hơn. Với mỗi miền nhỏ, áp dụng một cách đệ quy phương pháp trên cho
đến khi tất cả các miền đều thỏa mãn điều kiện.
Phương pháp này có thể mô tả bằng thuật toán sau :


16

Tiêu chuẩn xét miền đồng nhất ở đây có thể dựa vào mức xám. Ngoài ra, có
thể dựa vào độ lệch chuẩn hay độ chênh giữa giá trị mức xám lớn nhất và giá trị

mức xám nhỏ nhất. Giả sử Max và Min là giá trị mức xám lớn nhất và nhỏ nhất
trong miền đang xét.
Nếu |Max – Min| < T (ngưỡng) ta coi miền đang xét là đồng nhất. Trường
hợp ngược lại, miền đang xét không là miền đồng nhất và sẽ được chia làm 4 phần.
Phương pháp cục bộ
Ý tưởng của phương pháp là xét ảnh từ các miền nhỏ nhất rồi nối chúng lại
nếu thỏa mãn tiêu chuẩn để được một miền đồng nhất lớn hơn. Tiếp tục với các
miền thu được cho đến khi không thể nối thêm được nữa. Số miền còn lại cho ta kết
quả phân đoạn. Như vậy, miền nhỏ nhất của bước xuất phát là điểm ảnh.
Phương pháp này hoàn toàn ngược với phương pháp tách. Song điều quan
trọng ở đây là nguyên lý nối 2 vùng. Việc nối 2 vùng được thực hiện theo nguyên
tắc sau :
-

Hai vùng phải đáp ứng tiêu chuẩn, thí dụ như cùng màu hay cùng
mức xám.

-

Hai vùng phải kế cận nhau.

Trong xử lý ảnh, người ta dùng khái niệm liên thông để xác định tính chất kế
cận. Có hai khái niệm về liên thông là 4 liên thông và 8 liên thông. Với 4 liên thông


17

một điểm ảnh I(x,y) sẽ có 4 kế cận theo 2 hướng x và y ; trong khi đó với 8 liên
thông, điểm I(x,y) sẽ có 4 liên thông theo 2 hướng x, y và 4 liên thông khác theo
hướng chéo 45o


Hình 1.4 – Minh họa khái niệm liên thông

Dựa theo nguyên lý của phương pháp nối, ta có 2 thuật toán :
-

Thuật toán tô màu (Blob Coloring) : sử dụng khái niệm 4 liên
thông, dùng một cửa sổ di chuyển trên ảnh để so sánh với tiêu
chuẩn nối.

-

Thuật toán đệ quy cục bộ: sử dụng phương pháp tìm kiếm
trong một cây để làm tăng kích thước vùng.

Phương pháp tổng hợp
Hai phương pháp nối (hợp) và tách đều có nhược điểm. Phương pháp tách sẽ
tạo nên một cấu trúc phân cấp và thiết lập mối quan hệ giữa các vùng. Tuy nhiên,
nó thực hiện việc chia quá chi tiết. Phương pháp hợp cho phép làm giảm số miền
liên thông xuống tối thiểu, nhưng cấu trúc hàng ngang dàn trải, không cho ta thấy rõ
mối liên hệ giữa các miền.
Vì nhược điểm này, người ta nghĩ đến phối hợp cả 2 phương pháp. Trước
tiên, dùng phương pháp tách để tạo nên cây tứ phân, phân đoạn theo hướng từ gốc
đến lá. Tiếp theo, tiến hành duyệt cây theo chiều ngược lại và hợp các vùng có cùng
tiêu chuẩn. Với phương pháp này ta thu được một cấu trúc ảnh với các miền liên
thông có kích thước tối đa.


18


1.1.5.3 Phân vùng theo kết cấu bề mặt
Kết cấu thường được nhận biết trên bề mặt của các đối tượng như gỗ, cát, vải
vóc…Kết cấu là thuật ngữ phản ánh sự lặp lại của các phần tử sợi (texel) cơ bản. Sự
lặp lại này có thể ngẫu nhiên hay có tính chu kì hoặc gần chu kì. Một texel chứa rất
nhiều điểm ảnh. Trong phân tích ảnh, kết cấu được chia làm hai loại chính là: loại
thống kê và loại cấu trúc.
Khi đối tượng xuất hiện trên một nền có tính kết cấu cao, việc phân đoạn dựa
vào tính kết cấu trở nên quan trọng. Nguyên nhân là kết cấu sợi thường chứa mật độ
cao các gờ (edge) làm cho phân đoạn theo biên kém hiệu quả, trừ phi ta loại tính kết
cấu.
Nhìn chung, việc phân loại và phân vùng dựa vào kết cấu là một vấn đề phức
tạp. Trong thực tế, chúng ta thường chỉ giải quyết vấn đề này bằng cách cho biết
trước các loại kết cấu (dựa vào quy luật hay các phân bố của nó).
1.1.6. Một số phương pháp tra cứu ảnh
Phần sau đây giới thiệu sơ lược một số mốc phát triển quan trọng của
phương pháp tra cứu ảnh theo nội dung và một số phương pháp tra cứu ảnh cải tiến
đang được áp dụng trong các hệ thống tra cứu ảnh.
1.1.6.1. Tra cứu ảnh theo nội dung [1, 6, 12]
Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu:
o

QBIC hay Query By Image Content do hãng IBM và Trung tâm

nghiên cứu Almaden hợp tác phát triển. Hệ thống này cho phép truy vấn dựa
trên nhiều thuộc tính trực quan như màu sắc, kết cấu và hình dạng của đối
tượng ảnh. QBIC hỗ trợ các kiểu truy vấn dựa trên ảnh mẫu, dựa trên hình
phác thảo hoặc dựa trên các mẫu màu hoặc mẫu kết cấu.


19


o

VIR Image Engine do Công ty Virage Inc. phát triển, cũng giống như

QBIC, hệ thống này cho phép tra cứu ảnh dựa trên các thuộc tính màu sắc,
kết cấu và cấu trúc.
o

VisualSEEK và WebSEEK do trường Đại học Tổng hợp Columbia

(Mỹ) phát triển. Cả hai hệ thống này đều hỗ trợ các cách tìm kiếm theo màu
sắc, kết cấu và bố cục không gian.
o

NeTra do trường Đại học Tổng hợp California (Mỹ) phát triển. Hệ

thống này hỗ trợ tìm kiếm theo màu sắc, hình dạng, bố cục không gian và kết
cấu cũng như theo sự phân mảnh của ảnh .
o

MARS hay Multimedia Analysis and Retrieval System do trường Đại

học Tổng hợp Illinois phát triển, hỗ trợ tìm kiếm theo màu sắc, bố cục không
gian, kết cấu và hình dạng.
o

Viper hay Visual Information Processing for Enhanced Retrieval do

trường Đại học Geneva phát triển, tìm kiếm theo màu sắc và kết cấu.

1.1.6.2. Tra cứu ảnh theo bản thể [8,12]
· Giới thiệu
Các phương pháp tìm kiếm theo từ khoá có rất nhiều hạn chế: một từ khoá
trong văn bản không chỉ ra được văn bản đó có thích hợp hay không và các văn bản
thích hợp lại có thể không chứa một từ khoá nhất định. Các từ đồng nghĩa làm giảm
độ thu hồi, các từ đồng âm làm giảm độ chính xác và các quan hệ ngữ nghĩa như
quan hệ thượng hạ vị, trái nghĩa, phản nghĩa ... chưa được đề cập đến.
Công nghệ web ngữ nghĩa (semantic web) hứa hẹn có thể giải quyết được
những khó khăn trên.
· Chú giải ngữ nghĩa
Các cách tiếp cận sau thường được sử dụng để chú giải ảnh:


20

- Từ khoá: danh sách các từ được phép sử dụng để chú giải ảnh được hạn
chế làm cho việc tìm kiếm dễ dàng hơn.
- Phân loại: có nhiều hệ thống phân loại có khả năng phân loại theo nhiều
phương diện khác nhau thành các cây phân cấp theo chủ đề. Một ảnh có thể chú
thích bằng một tập các chủ đề mô tả ảnh đó. Ví dụ, ảnh trên một chiếc phong bì vẽ
một toà lâu đài có thể liên quan tới lớp “phong bì” và lớp “lâu đài”.
- Mô tả ảnh: Sử dụng những câu mô tả các đối tượng ảnh có trong ảnh. Hệ
thống tra cứu thông tin có nhiệm vụ đánh chỉ số các văn bản này để có thể tìm kiếm
bằng từ khoá.
· Tra cứu ảnh ngữ nghĩa
Các bản thể tạo thành hạt nhân của của các hệ thống tra cứu ảnh ngữ nghĩa
được sử dụng cho ba mục đích:
o Thuật ngữ chú giải: mô hình bản thể cung cấp thuật ngữ và các khái
niệm để diễn tả dữ liệu về dữ liệu (metadata) của các ảnh.
o Tìm kiếm theo cách nhìn: các bản thể của một mô hình, chẳng hạn Sự

kiện, Con người hoặc Vị trí cho ta các cách nhìn khác nhau vào cùng
một nội dung giới thiệu. Mỗi cách nhìn bao gồm các lớp và các trường
hợp ví dụ biểu diễn bằng metaphor của một trình duyệt hệ thống file
trong đó các lớp tương ứng với các thư mục và các trường hợp ví dụ
tương ứng với các file.
o Duyệt ngữ nghĩa: Sau khi tìm kiếm được tâm điểm chú ý là một ảnh
nào đó, mô hình bản thể ngữ nghĩa cùng với dữ liệu ảnh ví dụ có thể
được sử dụng để tìm ra mối quan hệ giữa ảnh được lựa chọn và các ảnh
trong cơ sở dữ liệu ảnh. Các ảnh này sẽ được đưa ra cho người sử dụng
chọn. Những ảnh đó có thể không phù hợp hoàn toàn với truy vấn
nhưng nói chung là tương đối phù hợp.


21

1.1.6.3. Tra cứu ảnh theo đồ thị
Động lực của phương pháp này dựa trên một thực tế là những ảnh thích hợp
về mặt trực giác thường không có chung những đặc điểm mức thấp nhưng vẫn có sự
tương tự về mặt khái niệm và về mặt ngữ cảnh đối với con người. Ví dụ, những ảnh
chụp người trong bộ đồ tắm thường có màu sắc, hình dạng và kết cấu rất đa dạng
nhưng về mặt khái niệm thì lại được con người cảm nhận là tương tự nhau.
Vì vậy phương pháp tra cứu ảnh theo đồ thị được giới thiệu ở đây không dựa
trên các đặc điểm ở mức thấp (trừ giai đoạn khởi tạo) mà dựa vào những sự liên kết
có tính trực giác giữa các ảnh được thiết lập bởi người sử dụng bằng cách phản hồi
thích hợp.
Mục tiêu của phương pháp này là xây dựng một sơ đồ để tích luỹ thông tin
do những tương tác với người sử dụng theo cách đơn giản hơn phản hồi thích hợp
và sử dụng những thông tin này để việc tra cứu ảnh cho những kết quả có ý nghĩa
trực giác hơn [8].



22

1.2. BÀI TOÁN TRA CỨU BIỂN BÁO GIAO THÔNG
Biển báo giao thông là kiểu đối tượng có tính chất hình học và màu sắc đặc
trưng, thường bắt gặp trong đời sống hằng ngày với công dụng là đưa ra những cảnh
báo thông tin cho người tham gia giao thông. Tuy nhiên các biển cáo giao thông thì
không có quy luật mà chỉ là hệ thống các ký hiệu với ý nghĩa qui ước kèm theo.
Việc ghi nhớ hình dạng và ý nghĩa của tất cả các loại biển báo đối với chúng ta sẽ là
một khó khăn lớn, do đó chúng ta thường hay có nhu cầu tra cứu tìm hiểu trực quan.
Bởi vậy việc xây dựng một chương trình nhằm phát hiện và nhận dạng các loại biển
báo giao thông cho phép người dùng có thể tra cứu trực quan thông tin của biển báo
khi không nhớ nội dung biển báo này là rất có ích. Nhằm đạt được điều đó đòi hỏi
phải sử dụng tới các kỹ thuật nhận dạng và tra cứu ảnh. Chính vì vậy mà tôi chọn đề
tài “ Nghiên cứu một số kỹ thuật tra cứu biển báo giao thông”.
Với số lượng biển báo lớn như vậy, đồng thời có nhiều biển báo có hình
thức tương tự nhau, để biết và nhớ hết ý nghĩa của từng loại biển báo không phải
là đơn giản. Để giải quyết vấn đề này chúng ta có thể sử dụng phương pháp đơn
giản hơn là tìm cách so sánh ảnh mẫu biển báo giao thông cần xác định với ảnh các
biển báo giao thông đã được lưu trữ để tìm ra những biển báo giao thông "giống"
với biển báo giao thông cần xác định nhất.
Chức năng chính cơ bản của ứng dụng là tra cứu thông tin trực quan. Từ một
ảnh có sẵn ứng dụng sẽ tìm các hình ảnh tương tự trong cơ sở dữ liệu và mục đích
là tìm ra ảnh đích hoặc các thông tin liên quan đến ảnh cần truy vấn.
Yêu cầu chính với bài toán này là phải tìm kiếm chính xác, kết quả trả về
trong thời gian nhanh nhất có thể chấp nhận được và hoạt động trên một cơ sở dữ
liệu ảnh lớn.


23


Chương 2: MỘT SỐ KỸ THUẬT TRA CỨU BIỂN BÁO GIAO THÔNG

2.1. MÔ HÌNH HỆ THỐNG TRA CỨU ẢNH THEO NỘI DUNG
Tra cứu ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy
vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị
giác máy tính đối với bài toán tìm kiếm ảnh [30][35]. “Dựa vào nội dung ảnh
(Content- Based) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức
ảnh. Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu (texture),
các đặc trưng cục bộ (local features), … hay bất cứ thông tin nào có từ chính nội
dung ảnh. Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong quá trình thu thập
ảnh một cách tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc và hình dạng của
ảnh. Tee Cheng Siew đã giới thiệu một số đặc trưng nội dung ảnh[23]:
Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ
biến nhất trong tìm kiếm ảnh theo nội dung. Mỗi một điểm ảnh (thông tin màu sắc)
có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều. Các không
gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV. Tìm kiếm ảnh theo màu
sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh
của ảnh mà chứa các giá trị đặc biệt (màu sắc). Các nghiên cứu gần đây đang cố
gắng phân vùng ảnh theo các màu sắc khác nhau và tìm mỗi quan hệ giữa các vùng
này.
Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô
hình trực quan của ảnh và cách thức chúng được xác định trong không gian. Kết cấu
được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào
số kết cấu được phát hiện trong ảnh. Các tập này không chỉ xác định các kết cấu mà
còn chỉ rõ vị trí các kết cấu trong ảnh. Việc xác định các kết cấu đặc biệt trong ảnh
đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp độ xám 2
chiều. Ví dụ về một số loại kết cấu[41]



24

Hình 2.1. Ví dụ về một số lọai kết cấu

Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc
trưng quan trong trong việc xác định và phân biệt ảnh trong nhận dạng mẫu. Mục
tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học
của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng.
Trong một hệ thống tra cứu ảnh theo nội dung điển hình (hình vẽ 2.1) các nội
dung trực quan của ảnh được trích chọn và mô tả bằng những véc tơ đặc trưng nhiều
chiều. Tập hợp các vec tơ đặc trưng của các ảnh trong một cơ sở dữ liệu ảnh tạo
thành cơ sở dữ liệu đặc trưng. Quá trình tra cứu ảnh được tiến hành như sau: người
sử dụng cung cấp cho hệ thống tra cứu một ảnh mẫu cụ thể hoặc hình vẽ phác thảo
của đối tượng ảnh cần tìm. Sau đó hệ thống sẽ chuyển những mẫu này thành các véc
tơ đặc trưng và tính toán sự giống nhau (hay độ tương tự) giữa véc tơ đặc trưng của
ảnh mẫu và véc tơ đặc trưng của các ảnh trong cơ sở dữ liệu. Sau cùng việc tra cứu
được tiến hành với sự trợ giúp của các sơ đồ đánh chỉ số. Sử dụng sơ đồ đánh chỉ số
là cách hiệu quả để tìm kiếm trong các cơ sở dữ liệu ảnh.


×