Tải bản đầy đủ (.pdf) (63 trang)

Kỹ thuật SIFT trong phát hiện và đánh dấu đối tượng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 63 trang )



ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
VÀ TRUYỀN THÔNG


LA NGỌC TÙNG


KỸ THUẬT SIFT TRONG PHÁT HIỆN VÀ
ĐÁNH DẤU ĐỐI TƯỢNG



LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH



Thái Nguyên- 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i

MỤC LỤC

MỤC LỤC i
DANH MỤC KÝ HIỆU VÀ VIẾT TẮT iv
DANH MỤC CÁC HÌNH ẢNH v
PHẦN MỞ ĐẦU 1
Chƣơng 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ PHÁT HIỆN, 4
ĐÁNH DẤU ĐỐI TƢỢNG 4


1.1. Khái quát về xử lý ảnh 4
1.1.1. Các khái niệm cơ bản 4
1.1.1.1. Xử lý ảnh 4
1.1.1.2. Điểm ảnh 5
1.1.1.3. Ảnh 5
1.1.1.4. Mức xám của ảnh 5
1.1.1.5. Độ phân giải của ảnh 6
1.1.2. Các bước xử lý ảnh số 7
1.1.2.1. Thu nhận ảnh 8
1.1.2.2. Tiền xử lý 8
1.1.2.3. Phân vùng ảnh 16
1.1.2.4. Trích chọn đặc trưng 17
1.1.2.5. Nhận dạng và nội suy ảnh 18
1.1.2.6. Hậu xử lý 19
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ii

1.2. Phát hiện và đánh dấu đối tượng 23
1.2.1. Phát hiện đối tượng 23
1.2.2. Đánh dấu đối tượng 25
Chƣơng 2: KỸ THUẬT PHÁT HIỆN VÀ ĐÁNH DẤU ĐỐI TƢỢNG
DỰA TRÊN ĐẶC TRƢNG BẤT BIẾN TỶ LỆ 26
2.1. Lý thuyết điểm bất động và các đặc trưng bất biến của đối tượng 26
2.1.1. Điểm bất động 26
2.1.1.1. Định nghĩa 26
2.1.1.2. Một số định lý về điểm bất động 27
2.1.1.3. Vai trò của điểm bất động trong nhận dạng đối tượng 29
2.1.2. Các đặc trưng cục bộ bất biến của đối tượng 30
2.1.3. Trích chọn các đặc trưng bất biến dựa trên các điểm bất động 30
2.1.4. So khớp đặc trưng 31

2.2. Thuật toán “Phép biến đổi đặc trưng bất biến tỷ lệ” – SIFT 32
2.2.1. Phát hiện cực trị không gian tỷ lệ (Scale-space Extrema Detection)
35
2.2.1.1. Tần số lấy mẫu theo tỷ lệ 37
2.2.1.2. Tần số lấy mẫu trong một vùng không gian 38
2.2.2. Định vị chính xác điểm khóa (Keypoint localization) 39
2.2.3 Gán hướng cho các điểm khóa (Oriented Assignment) 43
2.2.4. Bộ mô tả ảnh cục bộ (Keypoint Description) [5,6,7] 44
2.3. Một số hướng cải tiến, phát triển thuật toán SIFT 47
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iii

2.3.1. Giảm số lượng keypoint trích xuất ở mỗi ảnh 47
2.3.2. Dùng lược đồ màu loại trừ trước các ảnh ít khả năng tương đồng 48
2.3.3. Trích xuất đối tượng ra khỏi ảnh theo đối tượng mẫu 48
Chƣơng 3: CHƢƠNG TRÌNH THỬ NGHIỆM 49
3.1. Bài toán nhận dạng đối tượng 49
3.1.1. Phát biểu bài toán 49
3.1.2. Cách giải quyết bài toán 49
3.2. Chương trình cài đặt thử nghiệm 51
3.2.1. Cài đặt chương trình 51
3.2.2. Kết quả thực nghiệm 51
PHẦN KẾT LUẬN 55
TÀI LIỆU THAM KHẢO 57

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iv

DANH MỤC KÝ HIỆU VÀ VIẾT TẮT


STT
Ký hiệu
viết tắt
Viết đầy đủ
Ý nghĩa
1
Pixel
Picture Element
Điểm ảnh
3
CGA
Color Graphic Adapter
Chế độ đồ họa màu
5
RLC
Run Length Coding
Phương pháp mã hóa loạt
dài
6
MPEG
Moving Picture Experts
Group
Chuẩn nén video và audio
theo ISO/IEC
7
2D
Two-dimensional space
Không gian hai chiều
8
3D

Three-dimensional
space
Không gian ba chiều
9
SIFT
Scale Invariant Feature
Transform
Phép biến đổi đặc trưng bất
biến tỷ lệ
10
DoG
Deffirence of
Gaussisan
Hàm sai khác Gaussian
11
RANDSAC
RANDom Sample
Consensus
Đồng thuận mẫu ngẫu nhiên
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
v

DANH MỤC CÁC HÌNH ẢNH
Hình 1.1. Quá trình xử lý ảnh 4
Hình 1.2. Các bước cơ bản trong một hệ thống xử lý ảnh 7
Hình 1.3. Sơ đồ phân tích, xử lý ảnh và lưu đồ thông tin giữa các khối 7
Hình 1.4. Ảnh thu nhận và ảnh mong muốn 9
Hình 1.5. Dãn độ tương phản 15
Hình 1.6. Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB 22
Hình 1.7. Sự chuyển đổi giữa các mô hình biểu diễn ảnh 23

Hình 2.1. Xây dựng một thể hiện không gian tỷ lệ 36
Hình 2.2. Các giá trị cực đại và cực tiểu của các ảnh DoG 37
Hình 2.3. Các giai đoạn lựa chọn các điểm khóa. 40
Hình 2.4. Bộ mô tả điểm khóa 44
Hình 3.1. Ví dụ về bài toán nhận dạng đối tượng: xác định xem đối tượng 49
trong ảnh (b) có trong ảnh (a) không? 49
Hình 3.2. Mô hình chức năng nhận dạng đối tượng 50
Hình 3.3. 52
Kết quả nhận dạng của ảnh chứa nhiều đối tượng được huấn luyện. 52
Hình 3.4. Kết quả nhận dạng đối tượng bị che khuất một phần. 53
Hình 3.5. Không nhận dạng được đối tượng 54

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1

PHẦN MỞ ĐẦU

Con người thu nhận thông tin từ môi trường ngoài thông qua các giác quan,
trong đó thị giác đóng vai trò quan trọng nhất trong quá trình nhận thức. Sự phát
triển của phần cứng máy tính về phương diện thu nhận, lưu trữ, xử lý và hiển thị và
đã vạch ra nhiều định hướng mới cho sự phát triển phần mềm nói chung và lĩnh vực
xử lý ảnh nói riêng. Cùng với kỹ thuật đồ họa, xử lý ảnh đóng vai trò quan trọng
trong các hệ thống tương tác người máy.
Nhận dạng đối tượng là một bài toán điển hình của lĩnh vực xử lý ảnh, với
mục tiêu giúp cho máy tính có thể nhận thức được môi trường ngoài giống như con
người thông qua “thị giác”. Bài toán này có thể được áp dụng trong việc phát hiện,
nhận dạng, theo dõi hay tìm kiếm tự động các đối tượng trong thực tế, điển hình
như việc giám sát an ninh cho các khu vực quan trọng: ngân hàng, khu vực chính
trị, quân sự
Quá trình nhận dạng đối tượng tự động bao gồm việc thu nhận dữ liệu từ các

giác quan và tiền xử lý, biểu diễn dữ liệu, nhận dạng và đưa ra quyết định. Đối với
con người quá trình này diễn ra gần như tức thời, nhưng đối với máy tính thì hoạt
động này tương đối phức tạp. Với sự hỗ trợ của các thiết bị thu nhận hình ảnh hiển
đại cho ta chất lượng hình ảnh rõ nét, chân thực về đối tượng, nhưng vấn đề là làm
thế nào để máy tính nhận biết được đối tượng trông như thế nào, các hình dạng khác
nhau, các góc nhìn khác nhau và kích thước của đối tượng ra sao
Một số vấn đề cần giải quyết của bài toán nhận dạng đối tượng khi áp dụng
vào thực tế đã tạo ra những thách thức về giải thuật cũng như yêu cầu về tốc độ tính
toán. Đặc điểm chung của tất cả những ứng dụng đó là những đặc điểm đặc trưng
cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được trích chọn
dựa trên các thủ tục phân tích dữ liệu. Với bài toán nhận dạng đối tượng có rất
nhiều cách tiếp cận để giải quyết, với mỗi loại đối tượng lại có một phương pháp cụ
thể để áp dụng, nhưng chúng vẫn có những điểm chung. Một trong số những
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2

phương pháp được sử dụng đó là trích chọn các đặc trưng của ảnh. Các đặc trưng
được trích chọn thường dựa vào các đặc trưng bất biến của ảnh.
Lý thuyết về điểm bất động đã được nghiên cứu nhiều trong toán học và vật
lý. Việc nghiên cứu áp dụng lý thuyết này để trích chọn đặc điểm phục vụ cho nhận
dạng trong xử lý ảnh là hướng tiếp cận mới và có nhiều hứa hẹn nhất là đối với các
đối tượng có sự biến đổi về kích thước, hình dạng, các đối tượng bị che khuất một
số bộ phận hoặc đối tượng chuyển động v.v Như vậy bài toán nhận dạng đối tượng
dựa vào các đặc trưng bất biến mà nền tảng là dựa vào các điểm bất động là một
cách tiếp cận mới trong khoa học nhận dạng là cơ sở để xây dựng nhiều ứng dụng
quan trọng và cần thiết. Có thể liệt kê ra một số kỹ thuật tìm kiếm điểm bất biến
trong ảnh như: Phương pháp Harris; Phương pháp Harris – Laplacian; Phương
pháp xác định điểm bất biến Harris – Affine; Phương pháp SIFT (Scale Invarian
Feature Tranforms); Phương pháp SURF (Speed Up Robust Feature).
Trong vấn đề cụ thể nhận dạng đối tượng thì ngày nay hướng nghiên cứu phổ

biến trên thế giới là việc sử dụng các điểm bất biến (Invarian Feature) trong ảnh làm
đặc trưng (Keypoint) để nhận dạng. Tiêu biểu nhất trong các thuật toán đối sánh sử
dụng keypoint dạng này là thuật toán SIFT (Scale-Invarian Feature Transform,
David Lowe 1999 và 2004), SIFT có thể coi là thuật toán tiền đề cho các ứng dụng
cũng như giải thuật khác về biến đổi đặc trưng bất biến trong ảnh. Các giải thuật
đang ứng dụng trong thực tế khác đều dựa trên hay phát triển theo các nhánh riêng
của kỹ thuật SIFT.
Các đặc trưng trong SIFT không phụ thuộc vào các phép biến đổi ảnh cơ bản
như xoay, thu phóng, thay đổi độ sáng nên có thể xem tập các đặc trưng của một
ảnh là thể hiện cho nội dung của ảnh đó. Vì vậy kết quả của việc nhận dạng sẽ có độ
chính xác rất cao và thậm chí có thể khôi phục được đối tượng bị che khuất trong
ảnh. Tuy nhiên giải thuật SIFT rất phức tạp trong cài đặt, đòi hỏi thời gian nghiên
cứu và am hiểu nhiều thuật toán thành phần.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3

Với tầm quan trọng của bài toán nhận dạng đối tượng như trên, đặc biệt là
các đối tượng đã bị biến đổi cho ta thấy rõ tính cần thiết cũng như tính thời sự, đồng
thời là ý nghĩa khoa học và thực tiễn của vấn đề. Nhận thức được điều này, tôi đã
chọn đề tài luận văn: “Kỹ thuật SIFT trong phát hiện và đánh dấu đối tượng”.
Nội dung luận văn bao gồm phần mở đầu, phần kết luận và ba chương với bố
cục nội dung như sau:
Chương 1: Khái quát về xử lý ảnh và phát hiện, đánh dấu đối tượng
Chương này trình bày khái quát về xử lý ảnh, các giai đoạn của xử lý
ảnh số và các vấn đề trong phát hiện và đánh dấu đối tượng.
Chương 2: Kỹ thuật phát hiện và đánh dấu đối tượng dựa trên đặc trưng bất
biến tỷ lệ - SIFT
Trong chương này sẽ trình bày lý thuyết về điểm bất động và các đặc
trưng bất biến của đối tượng; lý thuyết cơ bản của thuật toán SIFT cũng như
các bước tiến hành; một số hướng cải tiến, phát triển thuật toán SIFT.

Chương 3: Chương trình thử nghiệm
Trong chương này sẽ trình bày ứng dụng nhận dạng đối tượng ảnh
dựa vào các đặc trưng bất biến được xây dựng từ các điểm bất động, cài đặt
thử nghiệm thành công kỹ thuật SIFT đã trình bày ở chương 2.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
4

Chƣơng 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ PHÁT HIỆN,
ĐÁNH DẤU ĐỐI TƢỢNG

1.1. Khái quát về xử lý ảnh
1.1.1. Các khái niệm cơ bản
1.1.1.1. Xử lý ảnh
Xử lý ảnh [1,2,3] là một lĩnh vực mang tính khoa học và công nghệ.
Tuy là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác, nhưng
tốc độ phát triển rất nhanh, được rất nhiều các viện nghiên cứu, ứng dụng.
Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý
ảnh và đồ hoạ đã phát triển một cách mạnh mẽ và có nhiều ứng dụng được áp
dụng trong cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong
tương tác người - máy.
Mục đích của xử lý ảnh là nâng cao chất lượng ảnh phục vụ con người
và xử lý ảnh dữ liệu dạng hình ảnh để máy tính có thể hiểu được từ đó đưa ra
những quyết định cần thiết.

Hình 1.1. Quá trình xử lý ảnh
Xử lý ảnh có nhiều ứng dụng trong đời sống như : nhận dạng ảnh, vệ
tinh dự báo thời tiết, viễn thám, ảnh y tế, khoa học hình sự, điện ảnh…
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5


1.1.1.2. Điểm ảnh
Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám
hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được
chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức
xám (hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được
gọi là một phần tử ảnh.
1.1.1.3. Ảnh
Ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả
ảnh gần giống với ảnh thật.
Ảnh được tạo nên từ hàng trăm ngàn cho đến hàng triệu ô vuông rất
nhỏ - được coi là những nhân tố của bức ảnh và thường được biết dưới tên gọi
là điểm ảnh. Máy tính hay máy in sử dụng những ô vuông nhỏ này để hiển thị
hay in ra bức ảnh. Để làm được điều đó máy tính hay máy in chia màn hình,
trang giấy thành một mạng lưới chứa các ô vuông, sau đó sử dụng các giá trị
chứa trong file ảnh để định ra mầu sắc, độ sáng tối của từng pixel trong mạng
lưới đó, đó là cơ sở để ảnh số được hình thành. Việc kiểm soát, định ra địa chỉ
theo mạng lưới như trên được gọi là bit mapping và ảnh số còn được gọi là
ảnh bitmap.
1.1.1.4. Mức xám của ảnh
* Định nghĩa: Mức xám (grey level) của điểm ảnh là cường độ sáng của nó
được gán bằng giá trị số tại điểm đó.
* Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256
là mức phổ dụng bởi vì trong kỹ thuật máy tính dùng 1 byte (8 bit) để biểu
diễn mức xám: Mức xám dùng một byte biểu diễn: 2
8
=256 mức, tức là từ giá
trị 0 đến 255).
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
6


* Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với
mức xám ở các điểm ảnh có thể khác nhau.
* Ảnh nhị phân: ảnh chỉ có hai mức đen trắng phân biệt tức dùng một bit mô
tả 21 mức khác nhau. Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có
thể là 0 hoặc 1.
* Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên
thế giới màu, người ta thường dùng ba byte để mô tả mức màu, khi đó các giá
trị màu: 2
8*3
= 2
24
≈ 16,7 triệu màu.
1.1.1.5. Độ phân giải của ảnh
Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn
định trên một ảnh số được hiển thị.
Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao
cho mắt người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách
thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân
bố theo trục x và y trong không gian hai chiều.
Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic
Adapter) là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc ×
200 điểm ảnh (320×200). Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn
hơn màn hình CGA 17” độ phân giải 320×200. Lý do: cùng một mật độ (độ
phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các
điểm) kém hơn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7

1.1.2. Các bƣớc xử lý ảnh số

Một hệ thống xử lý ảnh có sơ đồ tổng quát như sau:

Hình 1.2. Các bước cơ bản trong một hệ thống xử lý ảnh

Hình 1.3. Sơ đồ phân tích, xử lý ảnh và lưu đồ thông tin giữa các khối
Sau đây sẽ trình bày một số kỹ thuật xử lý ảnh cần thiết phục vụ cho
việc cài đặt chương trình thử nghiệm (theo các bước trong hình 1.2), còn các
thành phần khác sẽ được giới thiệu ở mức cơ bản.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
8

1.1.2.1. Thu nhận ảnh
Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận
này có thể cho ảnh đen trắng.
Các thiết bị thu nhận ảnh có hai loại chính ứng với hai loại ảnh thông
dụng Raster, Vector.
Các thiết bị thu nhận ảnh Raster thông thường là camera, các thiết bị thu nhận
ảnh thông thường Vector là sensor hoặc bàn số hoá Digitalizer hoặc được
chuyển đổi từ ảnh Raster.
Nhìn chung các hệ thống thu nhận ảnh thực hiện 1 quá trình:
- Cảm biến: biến đổi năng lượng quang học thành năng lượng điện
- Tổng hợp năng lượng điện thành ảnh
1.1.2.2. Tiền xử lý
Sau bộ thu nhận, ảnh có thể nhiễu và độ tương phản thấp nên cần đưa
vào bộ tiền xử lý (Image Processing) để nâng cao chất lượng. Chức năng
chính của bộ tiền xử lý là nắn chỉnh biến dạng, lọc nhiễu, chỉnh mức xám,
nâng độ tương phản để làm ảnh rõ hơn, nét hơn.
Các thuật toán triển khai việc nâng cao chất lượng ảnh hầu hết dựa trên
các kỹ thuật trong miền điểm, không gian và tần số. Toán tử điểm là phép
biến đổi đối với từng điểm ảnh đang xét, không liên quan đến các điểm lân

cận khác, trong khi đó, toán tử không gian sử dụng các điểm lân cận để quy
chiếu tới điểm ảnh đang xét. Một số phép biến đổi có tính toán phức tạp được
chuyển sang miền tần số để thực hiện, kết quả cuối cùng được chuyển trở lại
miền không gian nhờ các biến đổi ngược.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9

a. Nắn chỉnh biến dạng
Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử.

Ảnh thu nhận Ảnh mong muốn
Hình 1.4. Ảnh thu nhận và ảnh mong muốn
Các nguyên nhân biến dạng do:
- Do camera, đầu thu ảnh chất lượng kém.
- Do môi trường, ánh sáng, hiện trường (scene), khí quyển, nhiễu xung.
- Do chất lượng.
Để khắc phục người ta sử dụng các phép chiếu, các phép chiếu thường
được xây dựng trên tập các điểm điều khiển.
Giả sử (P
i
, P
i
’) với i = 1, n có n các tập điều khiển
Tìm hàm f: P
i
a f (P
i
) sao cho:

Giả sử ảnh bị biến đổi chỉ bao gồm: Tịnh tiến, quay, tỷ lệ, biến dạng

bậc nhất tuyến tính. Khi đó hàm f có dạng:
f (x, y) = (a
1
x + b
1
y + c
1
, a
2
x + b
2
y + c
2
)
(1.1)
(1.2)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10

Ta có:

Để cho φ → min

Giải hệ phương trình tuyến tính tìm được a
1
, b
1
, c
1
, tương tự tìm được

a
2
, b
2
, c; từ đó ta xác định được hàm f.
b. Lọc nhiễu
Thường ảnh thu nhận được có nhiễu nên cần phải loại bỏ nhiễu. Để
tách nhiễu (hay làm trơn nhiễu), người ta sử dụng các bộ lọc tuyến tính (lọc
trung bình, thông thấp) hay lọc phi tuyến (trung vị, giả trung vị, lọc đồng
hình). Từ bản chất của nhiễu (thường tương ứng với tần số cao) và từ cơ sở lý
thuyết lọc là: bộ lọc chỉ cho tín hiệu có tần số nào đó thông qua do đó, để lọc
nhiễu người ta thường dùng lọc thông thấp (theo quan điểm tần số không
gian) hay lấy tổ hợp tuyến tính để san bằng (lọc trung bình).
Trước khi xem xét chi tiết các kỹ thuật áp dụng, cần phân biệt các loại
nhiễu hay can thiệp trong quá trình xử lý ảnh. Trên thực tế tồn tại nhiều loại
nhiễu; tuy nhiên người ta thường xem xét ba loại nhiễu chính: nhiễu cộng,
nhiễu nhân và nhiễu xung:
(1.3)
(1.4)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
11

- Nhiễu cộng: Nhiễu cộng thường phân bố khắp ảnh. Nếu gọi ảnh quan
sát (ảnh thu được) là Xqs, ảnh gốc là Xgốc, nhiễu là η, ảnh thu được có
thể biểu diễn bởi:
- X
qs
= X
gốc
+ η

- Nhiễu nhân: Nhiễu nhân thường phân bố khắp ảnh và ảnh thu được sẽ
biểu diễn với công thức:
- X
qs
= X
gốc
* η
- Nhiễu xung: Nhiễu xung thường gây đột biến tại một số điểm ảnh.
* Làm trơn nhiễu bằng lọc tuyến tính: lọc trung bình và lọc dải thông thấp
Do có nhiều loại nhiễu can thiệp vào quá trình xử lý ảnh nên cần có
nhiều bộ lọc thích hợp. Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc
thông thấp, trung bình và lọc đồng hình (Homomorphie); với nhiễu xung ta
dùng lọc trung bị, giả trung vị, lọc ngoài (Outlier).
i. Lọc trung bình không gian
Với lọc trung bình, mỗi điểm ảnh được thay thế bằng trung bình trọng
số của các điểm lân cận và được định nghĩa như sau:

Nếu trong kỹ thuật lọc trên, ta dùng các trọng số như nhau, phương
trình trên sẽ trở thành:

với : y(m, n): ảnh đầu vào,
v(m, n): ảnh đầu ra ; a(k, l) : là cửa sổ lọc.
(1.5)
(1.6)
(1.7)
(1.8)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12

Với


và Nw là số điểm ảnh trong cửa sổ lọc W.
Lọc trung bình có trọng số chính là thực hiện chập ảnh đầu vào với
nhân chập H. Nhân chập H trong trường hợp này có dạng:

Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệ
biên của ảnh khỏi bị mờ khi làm trơn ảnh. Các kiểu mặt nạ được sử dụng tùy
theo các trường hợp khác nhau. Các bộ lọc trên là bộ lọc tuyến tính theo nghĩa
là điểm ảnh ở tâm cửa sổ sẽ được thay bởi tổ hợp các điểm lân cận chập với
mặt nạ.
Giả sử đầu vào biểu diễn bởi ma trận I:

Ảnh số thu được bởi lọc trung bình Y=H⊗ I có dạng:

(1.9)
(1.10)
(1.11)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
13

Một bộ lọc trung bình không gian khác cũng hay được sử dụng.
Phương trình của bộ lọc đó có dạng:

Ở đây, nhân chập H có kích thuớc 2x2 và mỗi điểm ảnh kết quả có giá
trị bằng trung bình cộng của nó với trung bình cộng của bốn lân cận gần nhất.
Lọc trung bình trọng số là một trường hợp riêng của lọc thông thấp.
ii. Lọc thông thấp
Lọc thông thấp thường được sử dụng để làm trơn nhiễu.Về nguyên lý
của bộ lọc thông thấp giống như đã trình bày trên. Trong kỹ thuật này người
ta hay dùng một số nhân chập có dạng sau:


Ta dễ dàng nhận thấy khi b =1, H
b
chính là nhân chập H
t1
(lọc trung
bình). Để hiểu rõ hơn bản chát khử nhiễu cộng của các bộ lọc này, ta viết lại
phương trình thu nhận ảnh dưới dạng:

(1.12)
(1.13)
(1.14)
(1.15)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14

Trong đó η[m, n] là nhiễu cộng có phương sai σ
2
n
. Như vậy, theo cách
tính của lọc trung bình ta có:

Như vậy, nhiễu cộng trong ảnh đã giảm đi N
w
lần.
c. Tăng độ tƣơng phản
Trước tiên cần làm rõ khái niệm độ tương phản. Ảnh số là tập hợp các
điểm ảnh, mà mỗi điểm ảnh có giá trị độ sáng khác nhau. Ở đây, độ sáng để
mắt người dễ cảm nhận ảnh, song không phải là quyết định. Thực tế chỉ ra
rằng hai đối tượng có cùng độ sáng nhưng đặt trên hai nền khác nhau sẽ cho

cảm nhận khác nhau. Như vậy, độ tương phản biểu diễn sự thay đổi độ sáng
của đối tượng so với nền. Như vậ có thể hiểu rằng, độ tương phản là độ nổi
của điểm ảnh hay vùng ảnh so với nền. Với định nghĩa này, nếu ảnh có độ
tương phản kém, ta có thể thay đổi tuỳ ý theo ý muốn.
Ảnh với độ tương phản thấp có thể do điều kiện sáng không đủ hay
không đều, hoặc do tính không tuyến tính hay biến động nhỏ của bộ cảm nhận
ảnh. Để điều chỉnh lại độ tương phản của ảnh, ta điều chỉnh lại biên độ trên
toàn dải hay trên dải có giới hạn bằng cách biến đổi tuyến tính biên độ đầu
vào (dùng hàm biến đổi là hàm tuyến tính) hay phi tuyến (hàm mũ hay hàm
lôgarít). Khi dùng hàm tuyến tính các độ dốc

,

,

phải chọn lớn hơn một
trong miền cần dãn. Các tham số a và b (các cận) có thể chọn khi xem xét
lược đồ xám của ảnh.
(1.16)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
15


Hình 1.5. Dãn độ tương phản
Chú ý, nếu dãn độ tương phản bằng hàm tuyến tính ta có:
  
   1

ảnh kết quả trùng với ảnh
gốc

  
, , 1

dãn độ tương phản
  
, , 1

co độ tương phản
Hàm mũ hay dùng trong dãn độ tương phản có dạng:
f = (X[m,n])
p

Giả mã
Giả sử ta có ảnh I có kích thước m × n và số nguyên c. Khi đó, kỹ thuật
tăng, giảm độc sáng được thể hiện
for (i = 0; i < m; i + +)
for (j = 0; j < n; j + +)
I [i, j] = I [i, j] + c;
- Nếu c > 0: ảnh sáng lên
- Nếu c < 0: ảnh tối đi
d. Chỉnh mức xám
Nhằm khắc phục tính không đồng đều của hệ thống gây ra. Thông
thường có hai hướng tiếp cận:
(1.17)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
16

- Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau
thành một bó. Trường hợp chỉ có hai mức xám thì chính là chuyển về
ảnh đen trắng. Ứng dụng: In ảnh màu ra máy in đen trắng.

- Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng
kỹ thuật nội suy. Kỹ thuật này nhằm tăng cường độ mịn cho ảnh.
1.1.2.3. Phân vùng ảnh
Phân vùng ảnh là bước then chốt trong xử lý ảnh. Giai đoạn này nhằm
phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên
hay các vùng liên thông. Tiêu chuẩn để xác định các vùng liên thông có thể là
cùng mức xám, cùng màu hay cùng độ nhám Trước hết cần làm rõ khái
niệm "vùng ảnh" (Segment) và đặc điểm vật lý của vùng.
Vùng ảnh là một chi tiết, một thực thể trông toàn cảnh. Nó là một tập
hợp các điểm có cùng hoặc gần cùng một tính chất nào đó: mức xám, mức
màu, độ nhám… Vùng ảnh là một trong hai thuộc tính của ảnh. Nói đến vùng
ảnh là nói đến tính chất bề mặt. Đường bao quanh một vùng ảnh (Boundary)
là biên ảnh. Các điểm trong một vùng ảnh có độ biến thiên giá trị mức xám
tương đối đồng đều hay tính kết cấu tương đồng.
Dựa vào đặc tính vật lý của ảnh, người ta có nhiều kỹ thuật phân vùng:
phân vùng dựa theo miền liên thông gọi là phân vùng dựa theo miền đồng
nhất hay miền kề; phân vùng dựa vào biên gọi là phân vùng biên. Ngoài ra
còn có các kỹ thuật phân vùng khác dựa vào biên độ, phân vùng dựa theo kết
cấu.
Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi,
làm mất độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào
công đoạn này.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
17

1.1.2.4. Trích chọn đặc trƣng
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã
phân đoạn) cộng với mã liên kết với các vùng lận cận. Việc biến đổi các số
liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính.
Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (hay trích

chọn đặc điểm - Feature Selection) gắn với việc tách các đặc tính của ảnh
dưới dạng các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng
này với đối tượng khác trong phạm vi ảnh nhận được. Ví dụ: trong nhận dạng
ký tự trên phong bì thư, chúng ta miêu tả các đặc trưng của từng ký tự giúp
phân biệt ký tự này với ký tự khác.
Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận
dạng trong quá trình xử lý ảnh. Có thể nêu ra vài đặc điểm của ảnh sau đây:
- Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ,
điểm uốn
- Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc
thực hiện lọc vùng (Zonal Filtering). Các bộ vùng được gọi là “mặt nạ
đặc điểm” (Feature Mask) thường là các khe hẹp với hình dạng khác
nhau (chữ nhật, tam giác, cung tròn )
- Đặc điểm biên và đƣờng biên: Đặc trưng cho đường biên của đối
tượng và do vậy rất hữu ích trong việc trích chọn các thuộc tính bất
biến được dùng khi nhận dạng đối tượng. Các đặc điểm này có thể
được trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace,
toán tử “chéo không” (Zero Crossing)
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối
tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng bộ nhớ lưu trữ
giảm xuống.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
18

1.1.2.5. Nhận dạng và nội suy ảnh
Đây là giai đoạn cuối của các hệ thống xử lý ảnh. Nhận dạng ảnh
(Image Recognition) là quá trình phân loại các đối tượng được biểu diễn theo
một mô hình nào đó và gán chúng một tên (gán cho đối tượng một tên gọi, tức
là một dạng) dựa theo những quy luật và mẫu chuẩn. Quá trình nhận dạng dựa
vào những mẫu chuẩn được học (hoặc lưu) từ trước gọi là nhận dạng có thầy

hay học có thầy, trong những trường hợp ngược lại gọi là học không có thầy.
Nội suy (Interpretation) là phán đoán theo ý nghĩa trên cơ sở nhận
dạng. Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thư có thể được
nội suy thành mã điện thoại.
Có nhiều cách phân loai ảnh khác nhau. Trong lý thuyết về nhận dạng
nói chung và nhận dạng ảnh nói riêng, các mô hình toán học về ảnh được
phân theo hai loại nhận dạng ảnh cơ bản:
- Nhận dạng theo tham số.
- Nhận dạng theo cấu trúc.
Hay có ba cách tiếp cận khác nhau:
- Nhận dạng dựa vào phân hoạch không gian.
- Nhận dạng dựa vào cấu trúc.
- Nhận dạng dựa vào kỹ thuật mạng nơron.
Hai cách tiếp cận đầu là những cách tiếp cận kinh điển, đã được nghiên
cứu và áp dụng rất nhiều trong thực tế. Các đối tượng ảnh quan sát và thu
nhận được phải trải qua giai đoạn tiền xử lý nhằm tăng cường chất lượng, làm
nổi các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc trưng, cuối cùng
mới là giai đoạn nhận dạng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
19

Cách tiếp cận thứ ba hoàn toàn khác. Nó dựa vào cơ chế đoán nhận, lưu
trữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con
người. Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác người không
cần qua giai đoạn cải thiện mà chuyển ngay sang giai đoạn tổng hợp, đối sánh
với các mẫu đã lưu trữ để nhận dạng. Đây là cách tiếp cận đầy hứa hẹn được
trình bày cụ thể trong các phần dưới đây.
Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng
trong khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký
điện tử), nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch,

nhận dạng đối tượng chuyển động, nhận dạng mặt người, nhận dạng nụ cười,
nhận dạng mống mắt,…
1.1.2.6. Hậu xử lý
a. Nén ảnh
Ảnh dù ở dạng nào vẫn chiếm không gian nhớ rất lớn. Nhằm giảm
thiểu không gian lưu trữ, khi mô tả ảnh, người ta đã đưa kỹ thuật nén ảnh vào.
Thông thường được tiến hành theo cả hai cách khuynh hướng là nén có
bảo toàn và nén không bảo toàn thông tin. Nén không bảo toàn thì thường có
khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn. Trên cơ sở hai
khuynh hướng, có bốn cách tiếp cận cơ bản trong nén ảnh:
- Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất
xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã
hóa thích hợp. Một ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF
- Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các
điểm ảnh để tiến hành mã hóa. Kỹ thuật lợi dụng sự giống nhau của các
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

×