BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
* * *
Nguyễn Văn Thành
PHÂN TÍCH MỘT SỐ PHƢƠNG PHÁP
PHÂN ĐOẠN ẢNH CÓ GIÁM SÁT
Luận văn thạc sĩ Công nghệ thông tin
Đồng Nai – 2013
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
* * *
Nguyễn Văn Thành
PHÂN TÍCH MỘT SỐ PHƢƠNG PHÁP
PHÂN ĐOẠN ẢNH CÓ GIÁM SÁT
Chuyên ngành : Công Nghệ Thông Tin
Mã số: 60480201
Luận văn thạc sĩ Công nghệ thông tin
NGƢỜI HƢỚNG DẪN KHOA HỌC : PGS.TS NGÔ QUỐC TẠO
Đồng Nai – 2013
LỜI CẢM ƠN
Trong quá trình làm luận văn vừa qua, được sự giúp đỡ và chỉ bảo nhiệt tình
ca PGS. TS Ngô Quốc Tạo – Viện Công nghệ Thông tin – Viện khoa học Việt
Nam, luận văn ca em đã được hoàn thành. Măc dù đã cố gắng cùng vi sự tậ n tâm
ca thy hưng dẫ n song do th ời gian và khả năng vẫ n còn nhiề u hạn chế nên luậ n
văn không tránh khỏ i nhng thiế u sót.
Em xin bày tỏ lò ng biế t ơn sâu sắ c t i thy PGS. TS Ngô Quốc Tạo đã tận
tình hưng dẫn, chỉ bảo và dành rất nhiều thời gian quí báu ca thy cho em trong
thời gian qua, đã giúp em hoàn thành bài luận văn đúng thời hạn.
Em xin gửi lời cảm ơn đến Ban Giám hiệu, các Thy cô giáo ca Trường Đại
học Lạc Hồng, các Thy cô bộ môn, đã giảng dạy cung cấp, trang bị cho chúng em
nhng kiến thức chuyên ngành, chuyên môn chuyên sâu trong suốt hai năm qua.
Xin cảm ơn gia đình và bạn bè đã động viên cổ vũ em trong suốt quá trình học
tập cũng như thời gian làm luận văn, đã giúp em hoàn thành khóa học, luận văn
theo qui định.
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là kết quả nghiên cứu ca tôi, không sao chép ca
ai. Nội dung luận văn có tham khảo và sử dụng các tài liệu liên quan, các thông tin
trong tài liệu được đăng tải trên các tạp chí và các trang website theo danh mục tài
liệu ca luận văn.
Tác giả luận văn
Nguyễn Văn Thành
MỤC LỤC
DANH MỤC CÁC THUẬT NGỮ, CÁC TỪ VIẾT TẮT i
CÁC THUẬT NGỮ i
CÁC TỪ VIẾT TẮT ii
DANH MỤC CÁC BẢNG iii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ iv
MỞ ĐẦU 1
CHƢƠNG 1: TỔNG QUAN VỀ XỬ LÝ ẢNH, PHÂN ĐOẠN ẢNH 3
1.1 Tổng quan về xử lý ảnh 3
1.1.1 Một số khái niệm cơ bản về xử lý ảnh. 3
1.1.1.1 Xử lý ảnh là gì ? 3
1.1.1.2 Phn tử ảnh (Pixel - Picture Element) 3
1.1.1.3 Mức xám ca ảnh. 4
1.1.1.4 Độ phân giải ca ảnh. 5
1.1.2 Các giai đoạn cơ bản trong xử lý ảnh. 6
1.1.2.1 Biểu diễn ảnh. 6
1.1.2.2 Tăng cường, nâng cao chất lượng ảnh. 7
1.1.2.3 Khôi phục ảnh. 7
1.1.2.4 Biến đổi ảnh. 8
1.1.2.5 Phân tích ảnh. 8
1.1.2.6 Nhận dạng ảnh. 9
1.1.2.7 Nén ảnh. 11
1.1.3 Các ứng dụng ca xử lý ảnh. 12
1.1.4 Quan hệ cơ bản gia các điểm ảnh. 13
1.2 Tổng quan về phân đoạn ảnh. 16
1.2.1 Gii thiệu. 16
1.2.2 Các phương pháp tiếp cận. 17
1.2.2.1 Phân vùng ảnh theo ngưỡng biên độ. 19
1.2.2.2 Phân vùng theo miền đồng nhất. 20
1.2.2.3 Phân vùng ảnh dựa trên phân tích kết cấu. 24
1.2.2.4 Phân vùng ảnh dựa trên sự phân lp điểm ảnh. 28
1.2.2.5 Phân vùng dựa vào lý thuyết đồ thị. 30
1.2.2.6 Phân vùng ảnh dựa trên biểu diễn và xử lý đa phân giải. 35
CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÂN ĐOẠN ẢNH CÓ GIÁM SÁT 37
2.1. Gii thiệu về phân đoạn ảnh có giám sát. 37
2.2. Phân đoạn ảnh sử dụng grabcut. 38
2.2.1. Phân đoạn theo năng lượng cực tiểu hóa. 39
2.2.2. Giải thuật phân đoạn GrabCut. 41
2.2.2.1. Mô hình d liệu màu. 41
2.2.2.2. Phân đoạn theo lặp lại cực tiểu năng lượng. 42
2.2.2.3.Tương tác người sử dụng và trimap không đy đ. 44
2.3. Phân đoạn ảnh sử dụng Random Walks. 45
2.3.1. Trọng số cạnh. 46
2.3.2.Vấn đề Dirichlet Tổ hợp 46
2.3.3.Mạch tương tự. 48
2.3.4.Mối quan hệ để khuếch tán. 49
2.4.Phân đoạn ảnh sử dụng Random Walks with Restart. 50
2.4.1.Phương pháp phân đoạn ảnh dựa trên RWR 54
2.4.1.1.Xây dựng đồ thị trọng số cho hình ảnh 55
2.4.1.2.Tính xác suất 56
2.4.1.3.Gán nhãn để phân đoạn ả nh 58
2.4.2.Độ phức tạp thuật toán 59
CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM 61
3.1.Môi trường cài đặt 61
3.2.Chương trình thực nghiệm phân đoạn ảnh sử dụng RWR 61
3.2.1.Thiết lập thông số 61
3.2.2.Kết quả phân đoạn RWR B_LIN vi c=10
-4
63
3.2.3.Một số so sánh 64
3.2.3.1.Vấn đề biên ảnh yếu 64
3.2.3.2.Vấn đề kết cấu 65
3.2.3.3.Định lượng so sánh 66
3.3.Kế t luậ n và kiến nghị 68
TÀI LIỆU THAM KHẢO
i
DANH MỤC CÁC THUẬT NGỮ, CÁC TỪ VIẾT TẮT
CÁC THUẬT NGỮ
Active Contour
Đường viền động
Blue
Màu lam
Boundary-Based Methods
Phương pháp dựa vào biên
Charge Coupled Device
Thiết bị tích điện kép
Graph Cuts
Cắt đồ thị
Green
Màu lục
Grey
Màu xám
Image Processing
Xử lý ảnh
Image Recognition
Nhận dạng ảnh
Intelligent Scissors
Kéo thông minh
Local
Cục bộ
Opening
Phép mở
Pixel
Phn tử ảnh
Random Walk
Bưc đi ngẫu nhiên
Random Walk With Return
Bưc đi ngẫu nhiên vi quay lại
Red
Màu đỏ
Region-Based Methods
Phương pháp dựa vào miền
Scanner
Quét ảnh
Screen Resolution
Độ phân giải màn hình
Sensor
Cảm ứng
Similarity
Giống nhau
True Color
Màu tự nhiên
ii
CÁC TỪ VIẾT TẮT
CCD
Charge Coupled Device
DPI
Dot per inch
GC
Graph Cuts
PĐA
Phân đoạn ảnh
RW
Random Walk
RWR
Random Walk With Return
XLA
Xử lý ảnh
iii
DANH MỤC CÁC BẢNG
Bảng 2-1: B_LIN 53
Bảng 2-2 : Phân đoạn ảnh RWR B_LIN 56
iv
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Quá trình xử lý ảnh 3
Hình 1.2 Lân cận các điểm ảnh của tọa độ (x,y) 14
Hình 1.3 Một ví dụ về phân vùng ảnh 17
Hình 1.4 Minh họa cách chọn ngưỡng. 20
Hình 1.5 Khái niệm 4 liên thông và 8 liên thông 23
Hình 1.6 Phân tích kết cấu bằng dải tương quan 25
Hình 1.7 Biểu diễn ảnh dưới dạng một đồ thị 31
Hình 1.8 Minh họa cây bao trùm tối thiểu của một đồ thị. 32
Hình 2.1 Một số ví dụ của Grabcut 41
Hình 2.2 Phân đoạn ảnh Lặp đi lặp lại ở GrabCut. 44
Hình 2. 3 Sự Quy tụ cực tiểu hóa lặp đi lặp lại 44
Hình 2.4 Người dùng hiệu chỉnh. 45
Hình 2.5 Kết quả phân đoạn 58
Hình 2.6 So sánh độ phức tạp thuật toán 60
Hình 3.1 Sự thay đổi xác suất trạng thái ổn định r 62
Hình 3.2 Phân đoạn đối với sự biết đổi của các xác suất khởi động lại c trong ảnh
tự nhiên 62
Hình 3.3 So sánh thuật toán GC, RW, RWR cho ảnh có đường biên yếu 65
Hình 3. 4 So sánh phân đoạn cho ảnh có kết cấu yếu giữa các thuật toán GC, RW,
RWR 66
Hình 3.5 So sánh thuật toán GC, RW, RWR trên ảnh tự nhiên 67
1
MỞ ĐẦU
Xử lý ảnh (Image Processing) là một trong nhng mảng quan trọng nhất
trong kỹ thuật thị giác máy tính. Xử lý ảnh được ứng dụng trong nhiều lĩnh khác
nhau như y học, an ninh, quốc phòng.
Phân đoạn ảnh là một thao tác ở mức thấp trong toàn bộ quá trình xử lý ảnh.
Phân đoạn ảnh có vai trò quan trọng trong việc chiết xuất thông tin từ nhng hình
ảnh và việc khai thác các thông tin hu ích và các thuộc tính từ hình ảnh. Nếu bưc
phân đoạn ảnh không tốt thì dẫn đến việc nhận diện sai lm về các đối tượng có
trong ảnh.
Trong hu hết các ứng dụng ca lĩnh vực xử lý ảnh, thị giác máy tính, phân
đoạn ảnh luôn đóng một vai trò cơ bản và thường là bưc tiền xử lý đu tiên trong
toàn bộ quá trình trưc khi thực hiện các thao tác khác ở mức cao hơn như nhận
dạng đối tượng, biểu diễn đối tượng, nén ảnh dựa trên đối tượng, hay truy vấn ảnh
dựa vào nội dung.
Hiện nay đã có nhiều thuật toán được đề xuất để giải quyết bài toán phân
đoạn ảnh. Các thuật toán trên hu hết đều dựa vào hai thuộc tính quan trọng ca mỗi
điểm ảnh so vi các điểm lân cận ca nó, đó là: sự khác (dissimilarity) và giống
nhau (similarity). Các phương pháp dựa trên sự khác nhau ca các điểm ảnh được
gọi là các phương pháp biên (boundary-based methods), còn các phương pháp dựa
trên sự giống nhau ca các điểm ảnh được gọi là phương pháp miền (region-based
methods).
Tuy nhiên, các thuật toán theo cả hai hưng này đều vẫn chưa cho kết quả
phân đoạn tốt, vì cả hai loại phương pháp này đều chỉ nắm bắt được các thuộc tính
cục bộ (local) ca ảnh. Do đó, việc tìm ra các thuật toán nắm bắt được các thuộc
tính toàn cục (global) ca bức ảnh đã trở thành một xu hưng.
Chương 1 ca luận văn trình bày tổng quan về xử lý ảnh, các hưng tiếp cận
chính trong phân đoạn ảnh.
Trong chương 2, luận văn tập trung tìm hiểu và trình bày một số phương
pháp phân đoạn ảnh có giám sát như Random Walker (RW), Graph cuts (GC),
2
Random Walker Restart (RWR) – chỉ ra phương pháp được đánh giá là hiệu quả
hơn các phương pháp phân đoạn ảnh trưc đây, khắc phục được hai khó khăn quan
trọng trong ảnh tự nhiên là bài toán đường biên yếu và kết cấu yếu.
Phương pháp RWR dựa vào việc coi một bức ảnh như một đồ thị có trọng số.
Sau khi tính xác suất trạng thái ổn định ca mỗi điểm ảnh bằng cách sử dụng kỹ
thuật phân đoạn ảnh chúng ta có thể ưc lượng khả năng phân tách và cuối cùng
gán nhãn vào mỗi điểm ảnh.
Chương 3 phân tích kết quả thực nghiệm phân đoạn ảnh RWR vi các ảnh tự
nhiên có đường biên yếu và kết cấu yếu.
3
CHƢƠNG 1: TỔNG QUAN VỀ XỬ LÝ ẢNH, PHÂN ĐOẠN ẢNH
1.1 Tổng quan về xử lý ảnh
1.1.1 Một số khái niệm cơ bản về xử lý ảnh.
1.1.1.1 Xử lý ảnh là gì ?
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai
trò quan trọng nhất. Nhng năm trở lại đây vi sự phát triển ca phn cứng máy
tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng
trong cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác
người máy.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đu vào nhằm
cho ra kết quả mong muốn. Kết quả đu ra ca một quá trình xử lý ảnh có thể là một
ảnh “tốt hơn” hoặc một kết luận.
Hình 1.1 Quá trình xử lý ảnh
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là
đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó ca đối
tượng trong không gian và nó có thể xem như một hàm n biến P(c
1
, c
2
, , c
n
). Do
đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều.
1.1.1.2 Phần tử ảnh (Pixel - Picture Element).
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng. Để
có thể xử lý ảnh bằng máy tính thì cn thiết phải tiến hành số hóa ảnh. Trong quá
trình số hóa, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá
trình lấy mẫu (rời rạc hoá về không gian) và lượng hoá thành phn giá trị (rời rạc
hoá biên độ giá trị) mà bằng mắt thường ta khó phân biệt được hai mức xám kề
Ảnh
XỬ LÝ ẢNH
Ảnh
“Tốt hơn”
Kết luận
4
nhau. Trong trường hợp này, người ta sử dụng khái niệm phn tử ảnh hay là điểm
ảnh (Picture Element - Pixel). Trong khuôn khổ ảnh hai chiều. Mỗi điểm ảnh gồm
có một cặp toạ độ (x,y) và giá trị biểu diễn độ sáng (cấp xám) cụ thể. Các cặp tọa độ
(x, y) tạo nên độ phân giải (resolution). Chẳng hạn như màn hình máy tính có độ
phân giải là 480×640 nghĩa là trên màn hình có 480×640 điểm ảnh (x, y), chiều
rộng 80 điểm ảnh, chiều dài 640 điểm ảnh.
Điểm ảnh (pixel) là một phn tử ca ảnh số tại tọa độ (x,y) vi độ xám hoặc
màu nhất định.
Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại 1 toạ độ trong
không gian ca đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh. Kích
thưc và khoảng cách gia các điểm ảnh đó được chọn thích hợp sao cho mắt người
cảm nhận sự liên tục về không gian và mức xám (hoặc màu) ca ảnh số gn như
thật. Mỗi phn tử trong ma trận được gọi là một phn tử ảnh.
Ta cn phân biệt Pixel (phn tử ảnh) vi khái niệm pixel hay đề cập đến
trong hệ thống đồ hoạ máy tính.
1.1.1.3 Mức xám của ảnh.
Mức xám (gray-level) là kết quả ca sự mã hoá tương ứng một cường độ sáng
ca mỗi điểm ảnh vi một giá trị số ca quá trình lượng hoá. Là số các giá trị có
thể có ca các điểm ảnh ca ảnh. Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị
trí (x, y) ca điểm ảnh và độ xám ca nó. Dưi đây chúng ta xem xét một số khái
niệm và thuật ng thường dùng trong xử lý ảnh.
a) Định nghĩa:
Mức xám ca điểm ảnh là cường độ sáng ca nó được gán bằng giá trị số tại
điểm đó.
b) Các thang giá trị mức xám thông thƣờng:
16, 32, 64, 128, 256 (Mức 256 là mức phổ dụng.
5
Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức
xám dùng 1 byte biểu diễn: 2
8
=256 mức, tức là từ 0 đến 255).
c) Ảnh đen trắng:
Là ảnh có hai màu đen, trắng (không chứa màu khác) vi mức xám ở các điểm
ảnh có thể khác nhau.
d) Ảnh nhị phân:
Ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô tả 2
1
mức khác nhau.
Nói cách khác: mỗi điểm ảnh ca ảnh nhị phân chỉ có thể là 0 hoặc 1.
e) Ảnh màu:
Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế gii
màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu:
2
8*3
=2
24
≈ 16,7 triệu màu.
Cách mã hoá kinh điển thường dùng là 16, 32 hay 64 mức. Mã hoá 256 mức là
phổ dụng nhất vì lý do kỹ thuật. Vì 2
8
= 256 (0,1,2, ,255), nên vi 256 mức xám,
mỗi pixel sẽ được mã hóa bởi 8 bit.
1.1.1.4 Độ phân giải của ảnh.
Định nghĩa: Độ phân giải (Resolution) ca ảnh là mật độ điểm ảnh được ấn
định trên một ảnh số được hiển thị.
Theo định nghĩa, khoảng cách gia các điểm ảnh phải được chọn sao cho
mắt người vẫn thấy được sự liên tục ca ảnh. Việc lựa chọn khoảng cách thích hợp
tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x
và y trong không gian hai chiều.
Ví dụ: Độ phân giải ca ảnh trên màn hình CGA (Color Graphic Adaptor) là
một lưi điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh
(320*200). Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA
6
17” độ phân giải 320*200. Lý do: cùng một mật độ (độ phân giải) nhưng diện tích
màn hình rộng hơn thì độ mịn (liên tục ca các điểm) kém hơn.
1.1.2 Các giai đoạn cơ bản trong xử lý ảnh.
1.1.2.1 Biểu diễn ảnh.
Trong biểu diễn ảnh người ta thường dùng các phn tử đặc trưng ca ảnh là
pixel. Nhìn chung có thể xem một hàm hai biến f(x,y) chứa các thông tin như là
biểu diễn ca một ảnh. Các mô hình biểu diễn ảnh cho ta một mô tả logic hay định
lượng các tính chất ca hàm này. Một số mô hình thường được dùng trong biểu diễn
ảnh: mô hình toán, mô hình thống kê. Trong mô hình toán, ảnh hai chiều được biểu
diễn nhờ các hàm hai biến trực giao gọi là các hàm cơ sở. Vi mô hình thống kê,
một ảnh được coi như là một phn tử ca một tập hợp đặc trưng bởi các đại lượng
như: kỳ vọng, hiệp biến, phương sai, moment.
Đây là một bưc quan trọng, tạo tiền đề cho xử lý ảnh. Mục đích chính nhằm
làm nổi bật một số đặc tính ca ảnh như thay đổi độ tương phản, lọc nhiễu, nổi biên,
làm trơn biên, khuyếch đại ảnh nhằm phục vụ cho việc hiển thị hoặc các quá trình
phân tích tiếp theo. Tùy theo các ứng dụng khác nhau mà chúng ta có các kỹ thuật
nâng cao chất lượng ảnh khác nhau.
Nâng cao chất lượng ảnh có quan hệ gn gũi vi khôi phục ảnh. Khi một ảnh
bị nhiễu thì khôi phục ảnh gốc thường đưa đến nâng cao chất lượng ảnh. Có một số
khác biệt gia khôi phục ảnh và nâng cao chất lượng ảnh. Trong khôi phục ảnh, một
ảnh gốc bị nhiễu thì mục tiêu là làm sao cho ảnh sau khi xử lý càng gn giống ảnh
gốc càng tốt. Còn trong nâng cao chất lượng ảnh thì mục tiêu là làm cho ảnh sau khi
xử lý có được chất lượng tốt hơn khi chưa xử lý. Như vậy một ảnh không bị nhiễu
thì không thể được xử lý bằng các kỹ thuật khôi phục ảnh nhưng ảnh đó có thể được
xử lý bằng các kỹ thuật nâng cao chất lượng ảnh. Nhưng một ảnh bị nhiễu thì nó có
thể được xử lý vừa bằng các kỹ thuật khôi phục ảnh vừa bằng các kỹ thuật nâng cao
chất lượng ảnh.
7
1.1.2.2 Tăng cƣờng, nâng cao chất lƣợng ảnh.
Đây là một bưc quan trọng, tạo tiền đề cho xử lý ảnh.
Mục đích chính nhằm làm nổi bật một số đặc tính ca ảnh như thay đổi độ
tương phản, lọc nhiễu, nổi biên, làm trơn biên, khuyếch đại ảnh nhằm phục vụ cho
việc hiển thị hoặc các quá trình phân tích tiếp theo. Tùy theo các ứng dụng khác
nhau mà chúng ta có các kỹ thuật nâng cao chất lượng ảnh khác nhau.
Nâng cao chất lượng ảnh có quan hệ gn gũi vi khôi phục ảnh. Khi một ảnh
bị nhiễu thì khôi phục ảnh gốc thường đưa đến nâng cao chất lượng ảnh. Có một số
khác biệt gia khôi phục ảnh và nâng cao chất lượng ảnh. Trong khôi phục ảnh, một
ảnh gốc bị nhiễu thì mục tiêu là làm sao cho ảnh sau khi xử lý càng gn giống ảnh
gốc càng tốt. Còn trong nâng cao chất lượng ảnh thì mục tiêu là làm cho ảnh sau khi
xử lý có được chất lượng tốt hơn khi chưa xử lý. Như vậy một ảnh không bị nhiễu
thì không thể được xử lý bằng các kỹ thuật khôi phục ảnh nhưng ảnh đó có thể được
xử lý bằng các kỹ thuật nâng cao chất lượng ảnh. Nhưng một ảnh bị nhiễu thì nó có
thể được xử lý vừa bằng các kỹ thuật khôi phục ảnh vừa bằng các kỹ thuật nâng cao
chất lượng ảnh.
1.1.2.3 Khôi phục ảnh.
Khôi phục ảnh là quá trình loại bỏ hay tối thiểu hoá các ảnh hưởng ca môi
trường bên ngoài hoặc do các hệ thống thu nhận ảnh gây ra. Về nguyên tắc, khôi
phục ảnh nhằm xác định mô hình toán học ca quá trình đã gây ra biến dạng, tiếp
theo là dùng ánh xạ ngược để xác định lại ảnh.
Bất kỳ một ảnh nào được thu bằng các thiết bị điện, quang điện hay quang
học thường bị nhiễu bởi môi trường cảm biến ca các thiết bị đó. Các loại nhiễu có
thể là nhiễu hệ thống, bị mờ do lệch tiêu điểm camera, nhiễu ngẫu nhiên do chuyển
động gia camera và đối tượng được chụp, nhiễu do khí quyển…
Khôi phục ảnh là dùng các bộ lọc để lọc các ảnh bị nhiễu nhằm giảm tối
thiểu sự ảnh hưởng ca các loại nhiễu này để cho ra ảnh kết quả càng gn giống ảnh
gốc càng tốt. Hiệu quả ca các bộ lọc khôi phục ảnh phụ thuộc vào sự nhận biết về
8
quá trình nhiễu cùng vi quá trình thu nhận ảnh. Khôi phục ảnh thường được xử lý
trên miền tn số là ch yếu. Bao gồm các kỹ thuật lọc ngược, lọc bình phương tối
thiểu (Wiener).
1.1.2.4 Biến đổi ảnh.
Biến đổi ảnh là việc sử dụng một lp các ma trận đơn vị và các kỹ thuật
thường dùng để biến đổi ảnh như: Biến đổi Fourier, Sin, Cosin, tích Kronecker, biến
đổi Karhumen Loeve…
1.1.2.5 Phân tích ảnh.
Là khâu quan trọng trong quá trình xử lý ảnh để tiến ti hiểu ảnh. Trong
phân tích ảnh việc trích chọn đặc điểm là một bưc quan trọng. Các đặc điểm ca
đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh.
Có thể nêu ra một số đặc điểm ca ảnh sau đây:
Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm
uốn…
Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực
hiện lọc vùng (zonal filtering). Các bộ vùng được gọi là “mặt nạ đặc điểm”
(feature mask) thường là các khe hẹp vi hình dạng khác nhau (ch nhật, tam giác,
cung tròn )
Đặc điểm biên và đường biên: Đặc trưng cho đường biên ca đối tượng và
do vậy rất hu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận
dạng đối tượng. Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán
tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) v.v
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối
tượng ảnh chính xác, vi tốc độ tính toán cao và dung lượng nh lưu tr giảm
xuống.
Phân tích ảnh là quá trình suy luận, tính toán dựa vào các đặc tính thể hiện
trên hình ảnh để từ đó rút ra được các thông tin định lượng về hình ảnh.
9
Phân tích ảnh có thể tách biệt các vật thể trên ảnh, đo lường, phân loại, mô
tả, so sánh chúng.
Mặt khác, từ việc phân tích ảnh cũng có thể suy ra các số liệu thống kê về
hình ảnh. Liên quan đến việc xác định các độ đo định lượng ca một ảnh để đưa ra
một mô tả đy đ về ảnh. Có nhiều kỹ thuật khác nhau hỗ trợ phân tích ảnh như: các
kỹ thuật lọc,các kỹ thuật tách, hợp dựa trên các tiêu chuẩn đánh giá về màu sắc,
cường độ, kết cấu… và các kỹ thuật phân lp dựa theo cấu trúc. Phân vùng ảnh là
một hưng riêng ca phân tích ảnh. Phân vùng ảnh bao gồm các kỹ thuật phân tách
các vùng ca ảnh thành nhng vùng có nhng nét đặc trưng ca nó hoặc tách biệt
hoàn toàn gia các vùng ảnh này vi các vùng ảnh khác trên ảnh và nền. Mục đích
là giúp cho dễ quan sát và dễ xử lý và hỗ trợ cho các giai đoạn tiếp theo ca hệ
thống xử lý ảnh.
1.1.2.6 Nhận dạng ảnh.
Là một khoa học nhằm trang bị phương pháp luận để trang bị cho máy tính
có khả năng nhận thức. Nhận dạng tự động (automatic recognition), mô tả đối
tượng, phân loại và phân nhóm các mẫu là nhng vấn đề quan trọng trong thị giác
máy, được ứng dụng trong nhiều ngành khoa học khác nhau. Các đối tượng nhận
dạng là các mẫu đối tượng. Tuy nhiên, một câu hỏi đặt ra là: mẫu (pattern) là gì?
Watanabe, một trong nhng người đi đu trong lĩnh vực này đã định nghĩa: “Ngược
lại vi hỗn loạn (chaos), mẫu là một thực thể (entity), được xác định một cách ang
áng (vaguely defined) và có thể gán cho nó một tên gọi nào đó”. Ví dụ mẫu có thể
là ảnh ca vân tay, ảnh ca một vật nào đó được chụp, một ch viết, khuôn mặt
người hoặc một ký đồ tín hiệu tiếng nói. Khi biết một mẫu nào đó, để nhận dạng
hoặc phân loại mẫu đó có thể:
Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân tích phân
biệt (discriminant analyis), trong đó mẫu đu vào được định danh như một thành
phn ca một lp đã xác định.
Hoặc phân loại không có mẫu (unsupervised classification hay clustering)
trong đó các mẫu được gán vào các lp khác nhau dựa trên một tiêu chuẩn đồng
10
dạng nào đó. Các lp này cho đến thời điểm phân loại vẫn chưa biết hay chưa được
định danh.
Nhận dạng đối tượng ảnh quá trình từ không gian biểu diễn lp đối tượng
vào không gian tên gọi ca đối tượng (mỗi đối tượng được gán một cái tên). Hay
nói một cách khác nhận dạng đối tượng chính là quá trình tiến hành phân lp đối
tượng cn nhận dạng vào các lp. Có hai lp phương pháp tiếp cận chính trong quá
trình phân lp các đối tượng, đó là các phương pháp phân lp dựa vào đường ranh
gii phân biệt gia các lp (Nơ ron network, phương pháp véc tơ tựa, boosting,
trường ngẫu nhiên có điều kiện, nhận dạng dựa vào đa nhân…) và các phương pháp
phân lp dựa vào phân bố thống kế ca các lp (mô hình markov ẩn, phương pháp
phân loại thống kê, Bayesian, trường marko ngẫu nhiên). Trên cơ sở các bài toán
thì sẽ có các mô hình nhận dạng phù hợp và các thuật toán đi kèm các mô hình đó.
Ngoài ra còn một số cách tiếp cận khác trong lý thuyết nhận dạng đó là đối sánh
mẫu dựa trên các đặc trưng được trích chọn, nhận dạng cấu trúc (xâu chuỗi, đồ
thị, ) nhận dạng dựa trên biểu diễn ng pháp văn phạm.
Hệ thống nhận dạng tự động bao gồm 4 khâu tương ứng vi bốn giai đoạn
ch yếu sau:
1. Thu nhận d liệu , tiền xử lý, trích chọn đặc tính
2. Biểu diễn d liệu
3. Huấn luyện d liệu
4. Nhận dạng, ra quyết định
Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công vi
nhiều bài khác nhau như: nhận dạng ảnh vân tay, nhận dạng ch (ch cái, ch số,
ch có dấu). Nhận dạng ch in hoặc đánh máy phục vụ cho việc tự động hóa quá
trình đọc tài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính.
Các bài toán và ứng dung nhận dạng rất phong phú như: Nhận dạng Khuôn mặt,
nhận dạng các biểu cảm ca con người, nhận dạng các cử chỉ và hoạt động ca con
11
người, nhận dạng người đi bộ, xây dựng các hệ thống giám sát thông minh, rô bốt,
các hệ thống dự báo dựa vào hình ảnh….
1.1.2.7 Nén ảnh.
Ảnh dù ở dạng nào vẫn chiếm không gian nh rất ln. Khi mô tả ảnh người ta
đã đưa kỹ thuật nén ảnh vào. Nén ảnh là làm giảm lượng số liệu cn để biểu diễn
một ảnh. Cơ sở ca vấn đề nén ảnh là quá trình giảm nhng số liệu dư thừa. Từ
quan điểm toán học, đó là biến đổi một dãy pixel 2 chiều thành một tập số liệu
không liên kết thống kê. Sự biến đổi được áp dụng trưc để lưu tr hoặc truyền ảnh.
Quá trình sau nén ảnh là giải nén để tạo lại ảnh gốc hoặc một xấp xỉ ca ảnh gốc.
Hiện nay, các chuẩn MPEG được dùng vi ảnh đang phát huy hiệu quả.
Nhằm giảm thiểu không gian lưu tr. Thường được tiến hành theo cả hai cách
khuynh hưng là nén có bảo toàn và không bảo toàn thông tin. Nén không bảo toàn
thì thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn. Trên cơ
sở hai khuynh hưng, có 4 cách tiếp cận cơ bản trong nén ảnh:
• Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tn xuất xuất hiện
ca giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp.
Một ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF
• Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian ca các điểm ảnh
để tiến hành mã hóa. Kỹ thuật lợi dụng sự giống nhau ca các điểm ảnh trong
các vùng gn nhau. Ví dụ cho kỹ thuật này là mã nén *.PCX
• Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hưng nén
không bảo toàn và do vậy, kỹ thuật thưng nến hiệu quả hơn. *.JPG chính là
tiếp cận theo kỹ thuật nén này.
• Nén ảnh Fractal: Sử dụng tính chất Fractal ca các đối tượng ảnh, thể hiện sự
lặp lại ca các chi tiết. Kỹ thuật nén sẽ tính toán để chỉ cn lưu tr phn gốc
ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal.
12
1.1.3 Các ứng dụng của xử lý ảnh.
Xử lý ảnh có nhiều ứng dụng trong thực tế. Một trong nhng ứng dụng sm
nhất là xử lý ảnh từ nhiêm vụ Ranger 7 tại phòng thí nghiệm JetPulsion vào nhng
năm đu ca thập kỷ 60. Hệ thống chụp hình gắn trên tàu vũ trụ có một số hạn chế
về kích thưc và trọng lượng, do đó ảnh nhận được bị giảm chất lượng như bị mờ,
méo hình học và nhiễu nền. Các ảnh đó được xử lý thành công nhờ máy tính số.
Hình ảnh ca mặt trăng và sao hỏa mà chúng ta thấy trong tất cả các tạp chí đều
được xử lý bằng nhng máy tính số. Ngày nay, hu hết các thông tin ảnh đều được
chuyển sang dạng ảnh số. Vì vậy, trong gn như tất cả các lĩnh vực ca các ngành
kỹ thuật đều có ít nhiều liên quan đến ảnh số và sử dụng kỹ thuật xử lý ảnh số. Ứng
dụng ca xử lý ảnh có khả năng tác động mạnh mẽ nhất đến cuộc sống ca chúng ta
là lĩnh vực y tế. Soi chụp ảnh bừng máy tính dựa rteen cơ sở định lý cắt lp (project
slice) được dùng thường xuyên trong xét nghiệm lâm sang, ví dụ phát hiện và nhận
dạng u não. Nhng ứng dụng y khoa khác ca xử lý ảnh gồm cải thiện ảnh X quang
và nhận dạng đường biên mạch máu từ nhng ảnh chụp bằng tia X (angiograms).
Có nhng dụng khác gn gi hơn vi cuộc sông gia đình là cải tiến ảnh tivi.
Hình ảnh mà chúng ta thấy trên màn hình tivi có các khuyết tật do độ phân giải hạn
chế, bi rung rinh, có ảnh ma, nhiều nền và trượt hình do đan dòng ở nhng mức độ
khác nhau. Xử lý ảnh sô có tác động quyết định đến việc cải thiện chất lượng hình
ảnh ca nhng hệ truyền hình hiện tại và làm phát triển nhng hệ truyền hình mi
có độ phân giải cao (HDTV). Một vấn đề na cúa chính truyền thông video như hội
nghị video, điện thoại video là cn có dải tn rộng. Việc mã hóa thẳng chương trình
video chất lượng quảng bá yêu cu đến 100 triệu bit/giây. Nếu hy sinh một phn
chất lượng và dùng các sơ đô mã hóa ảnh số thì có thể đưa ra thị trường nhng hệ
truyền hình chất lượng đ rõ vi nhịp bit chỉ dưi 100 nghìn bit/giây.
Người máy càng ngày đóng vai trò quan trọng trong công nghiệp và gia đinh.
Chúng sẽ thực hiện nhng công việc rất nhàm chán hoặc nguy hiểm và nhng công
việc mà tốc độ và độ chính xác vượt quá khả năng ca con người. Khi người máy
trở nên tinh vi hơn, thị giác máy tinh sẽ đóng vai trò ngày càng quan trọng. Người ta
sẽ đòi hỏi người máy không nhng phát hiện và nhận dạng các bộ phận công
13
nghiệp, mà còn “hiểu” được nhng gì chúng “thấy” và đưa ra nhng hành động phù
hợp. Xử lý ảnh số có tác động rất ln đến thị giác máy tính.
Ngoài nhng lĩnh vực ứng dụng mọi người thường biết đến, xử lý ảnh số còn
có một số ứng dụng khác ít được nói đến hơn. Người thi hành pháp luật thương
chụp hình trong nhng môi trường không thuận lợi, và ảnh nhận được thường bị
xuống cấp. Ví dụ, bức ảnh chụp thường bị nhòe, việc làm giảm độ nhòe là cn thiết
trong nhận dạng.
Nhng ứng dụng ca xử lý ảnh số là rất ln. Ngoài nhng ứng dụng đã thảo
luận ở trên thì còn bao gồm các ứng dụng trong các lĩnh vực như điện tử gia đình,
thiên văn học, sinh vật học, vật lý, nông nghiệp, địa lý, nhân chng học, và nhiều
lĩnh vực khác. Khả năng nhìn và nghe thấy hà hai phương tiện quan trọng nhất để
con người nhận thức thế gii bên ngoài, do vậy không có gì đáng ngạc nhiên khi mà
xử lý ảnh số có nhiều khả năng ứng dụng, không chỉ trong khoa học và kỹ thuật mà
còn cả trong mọi hoạt động khác ca con người.
1.1.4 Quan hệ cơ bản giữa các điểm ảnh.
Một ảnh số giả sử được biểu diễn bằng hàm f(x, y). Tập con các điểm ảnh là S;
cặp điểm ảnh có quan hệ vi nhau ký hiệu là p, q.
Chúng ta nêu một số các khái niệm sau.
1.1.4.1 Các lân cận của điểm ảnh (Image Neighbors).
* Giả sử có điểm ảnh p tại toạ độ (x, y). p có 4 điểm lân cận gn nhất theo
chiều đứng và ngang (có thể coi như lân cận 4 hưng chính: Đông, Tây, Nam, Bắc).
{(x-1, y); (x, y-1); (x, y+1); (x+1, y)} = N
4
(p)
trong đó: số 1 là giá trị logic; N
4
(p) tập 4 điểm lân cận ca p.
14
Đông x Tây
Nam
y
Bắc
(x-1,y-1)
(x,y-1)
(x+1,y-1)
(x-1,y)
(x,y)
(x+1,y)
(x-1,y+1)
(x,y+1)
(x+1,y+1)
Hình 1.2 Lân cận các điểm ảnh của tọa độ (x,y)
* Các lân cận chéo: Các điểm lân cận chéo N
P
(p) (Có thể coi lân cận chéo la 4
hưng: Đông-Nam, Đông-Bắc, Tây-Nam, Tây-Bắc)
N
p
(p) = { (x+1, y+1); (x+1, y-1); (x-1, y+1); (x-1, y-1)}
* Tập kết hợp: N
8
(p) = N
4
(p) + N
P
(p) là tập hợp 8 lân cận ca điểm ảnh p.
* Chú ý: Nếu (x, y) nằm ở biên (mép) ảnh; một số điểm sẽ nằm ngoài ảnh.
1.1.4.2 Các mối liên kết điểm ảnh.
Các mối liên kết được sử dụng để xác định gii hạn (Boundaries) ca đối
tượng vật thể hoặc xác định vùng trong một ảnh. Một liên kết được đặc trưng bởi
tính liền kề gia các điểm và mức xám ca chúng.
Giả sử V là tập các giá trị mức xám. Một ảnh có các giá trị cường độ sáng từ
thang mức xám từ 32 đến 64 được mô tả như sau :
V={32, 33, … , 63, 64}.
Có 3 loại liên kết.
* Liên kết 4: Hai điểm ảnh p và q được nói là liên kết 4 vi các giá trị cường
độ sáng V nếu q nằm trong một các lân cận ca p, tức q thuộc N
4
(p)
* Liên kết 8: Hai điểm ảnh p và q nằm trong một các lân cận 8 ca p, tức q
thuộc N
8
(p)