Tải bản đầy đủ (.doc) (83 trang)

mạng nơ-ron nhân tạo trong kiểm soát nội dung hình ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.16 MB, 83 trang )

r
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN VĂN BÌNH
MẠNG NƠ-RON NHÂN TẠO
TRONG KIỂM SOÁT NỘI DUNG HÌNH ẢNH
Ngành : Công nghệ thông tin
Chuyênngành : Hệ thống thông tin
Mãsố : 0802480526
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Đỗ Năng Toàn
Hà Nội – 2011
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất phát từ
yêu cầu phát sinh trong công việc để hình thành hướng nghiên cứu. Các số liệu có
nguồn gốc rõ ràng, tuân thủ đúng nguyên tắc và kết quả trình bày trong luận văn được
thu thập được trong quá trình nghiên cứu là trung thực chưa từng được ai công bố
trước đây.
Hà nội, ngày 28 tháng 10 năm 2011
Tác giả luận văn
Trần Văn Bình
LỜI CẢM ƠN
Lời đầu tiên, em xin được bày tỏ lòng biết ơn sâu sắc tới thầy giáo PGS.TS. Đỗ
Năng Toàn, thầy đã tận tình dạy dỗ và hướng dẫn em trong suốt thời gian qua.
Em xin được bày tỏ lòng biết ơn tới các thầy, cô giáo trong Khoa Công nghệ
thông tin, Trường Đại học Công nghệ - ĐH Quốc gia Hà Nội. Các thầy cô đã dạy bảo,
chỉ dẫn chúng em và luôn tạo điều kiện học tập tốt nhất cho em trong những năm học
sau đại học đặc biệt là trong thời gian thực hiện khóa luận tốt nghiệp.
Cảm ơn các bạn học viên lớp K15HTTT, K15T2 - Trường Đại học Công nghệ,
những người bạn luôn bên cạnh ủng hộ tôi trong suốt những năm học cao học.
Cuối cùng, xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và tình cảm chân


thành nhất.
Hà nội, ngày 28 tháng 10 năm 2011
Học viên
Trần Văn Bình
MỤC LỤC
LỜI CAM ĐOAN 2
LỜI CẢM ƠN 3
MỤC LỤC 4
DANH MỤC HÌNH VẼ 7
CHÚ THÍCH TỪ VÀ THUẬT NGỮ VIẾT TẮT 9
PHẦN MỞ ĐẦU 1
CHƯƠNG 1 1
KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ KIỂM SOÁT HÌNH ẢNH 2
1.1. KHÁI QUÁT VỀ XỬ LÝ ẢNH 2
1.1.1.Các khái niệm cơ bản 2
1.1.1.1. Xử lý ảnh 2
1.1.1.2. Điểm ảnh 2
1.1.1.3. Ảnh 2
1.1.1.4. Mức xám của ảnh 3
1.1.1.5. Độ phân giải của ảnh 3
1.1.2. Các bước xử lý ảnh số 3
1.1.2.1. Thu nhận ảnh 4
1.1.2.2. Tiền xử lý 4
1.1.2.3. Phân vùng ảnh 10
1.1.2.4. Trích chọn đặc trưng 11
1.1.2.5. Nhận dạng và nội suy ảnh 11
1.1.2.6. Hậu xử lý 12
1.2. KIỂM SOÁT THÔNG TIN HÌNH ẢNH 14
1.2.1. Nhận dạng ảnh 14
1.2.1.1. Giới thiệu 14

1.2.1.2. Nhận dạng ảnh theo miền không gian 17
1.2.1.3. Nhận dạng dựa theo cấu trúc 21
1.2.1.4. Nhận dạng dựa vào kỹ thuật mạng nơ-ron 23
1.2.2. Kiểm soát thông tin dựa trên hình ảnh 25
CHƯƠNG 2: NHẬN DẠNG ẢNH DỰA VÀO MẠNG NƠ-RON 26
2.1. MẠNG NƠ-RON NHÂN TẠO 26
2.1.1.Giới thiệu về nơ-ron sinh học 26
2.1.2. Mạng nơ-ron nhân tạo 28
2.1.2.1. Phân loại mạng nơron nhân tạo 28
2.1.2.2. Mô hình mạng nơ-ron nhân tạo 30
2.1.3. Huyến luyện mạng nơ-ron 31
2.1.3.1. Các phương pháp học 31
2.1.3.2. Học có thầy trong các mạng nơ-ron 32
2.1.4. Các vấn đề trong xây dựng mạng nơ-ron đa lớp 33
2.1.4.1. Chuẩn bị dữ liệu 33
2.1.4.2. Xác định các tham số cho mạng 36
2.1.4.3. Hiện tượng lãng quên 38
2.1.4.4. Vấn đề quá khớp 39
2.2. MỘT SỐ THUẬT TOÁN NHẬN DẠNG ẢNH DỰA VÀO MẠNG NƠ-RON
40
2.2.1. Thuật toán lan truyền ngược 40
2.2.1.1. Mô tả thuật toán 40
2.2.1.2. Sử dụng thuật toán lan truyền ngược 44
2.2.2. Một số biến thể của thuật toán lan truyền ngược 47
2.2.2.1. Sử dụng tham số bước đà 47
2.2.2.2. Sử dụng hệ số học biến đổi 48
2.2.2.3. Sử dụng phương pháp Gradient kết hợp 49
2.2.3. Thuật toán giả định luyện kim 54
2.2.4. Thuật toán di truyền 54
CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM 56

3.1. BÀI TOÁN PHÁT HIỆN ẢNH “ĐEN” 56
3.2.1. Một số đặc điểm ảnh “đen” 56
3.2.2. Các vấn đề gây nhầm lẫn 56
3.2. KIỂM SOÁT ẢNH “ĐEN” SỬ DỤNG MẠNG NƠ-RON 56
3.2.1. Thu thập, phân tích và xử lý dữ liệu 56
3.2.2. Cài đặt chương trình 57
3.2.2.1. Module tiền xử lý 57
3.2.2.2. Module trích chọn đặc trưng 58
60
3.2.2.3. Module huấn luyện mạng nơ-ron 60
3.2.2.4. Module nhận dạng và ra quyết định 65
3.2.3. Chương trình kiểm soát ảnh “đen” BlockPornImage 66
3.2.3.1. Một số hình ảnh về chương trình 66
3.2.3.2. Môi trường thử nghiệm 69
3.2.3.3. Kết quả thực nghiệm 69
PHẦN KẾT LUẬN 71
TÀI LIỆU THAM KHẢO 73
DANH MỤC HÌNH VẼ
HÌNH 1.1: QUÁ TRÌNH XỬ LÝ ẢNH 2
HÌNH 1.2: CÁC BƯỚC CƠ BẢN TRONG MỘT HỆ THỐNG XỬ LÝ ẢNH 4
HÌNH 1.3: SƠ ĐỒ PHÂN TÍCH, XỬ LÝ ẢNH VÀ LƯU ĐỒ THÔNG TIN GIỮA
CÁC KHỐI 4
HÌNH 1.4: ẢNH THU NHẬN VÀ ẢNH MONG MUỐN 5
HÌNH 1.5: DÃN ĐỘ TƯƠNG PHẢN 9
HÌNH 1.6: QUÁ TRÌNH HIỂN THỊ VÀ CHỈNH SỬA, LƯU TRỮ ẢNH THÔNG
QUA DIB 14
HÌNH 1.7: SỰ CHUYỂN ĐỔI GIỮA CÁC MÔ HÌNH BIỂU DIỄN ẢNH 14
HÌNH 1.8: MÔ HÌNH CẤU TRÚC CỦA ĐỐI TƯỢNG NHÀ 16
HÌNH 1.9: SƠ ĐỒ TỔNG QUÁT HỆ THỐNG NHẬN DẠNG ẢNH 17
HÌNH 1.10:CÁC PHÉP TOÁN TRONG NGÔN NGỮ LCD 23

HÌNH 2.1: HÌNH MINH HỌA NƠ-RON SINH HỌC 26
HÌNH 2.2: PHÂN LOẠI MẠNG DỰA TRÊN ĐƯỜNG TRUYỀN TÍN HIỆU
TRONG MẠNG 29
HÌNH 2.3: MÔ HÌNH NƠ-RONNHÂN TẠO 30
HÌNH 2.4: MỐI LIÊN HỆ GIỮA SAI SỐ VÀ KÍCH THƯỚC MẪU 34
HÌNH 2.5: HUẤN LUYỆN LUÂN PHIÊN TRÊN HAI TẬP MẪU 38
HÌNH 2.6: XẤP XỈ HÀM F(X)=1+SIN(X)VỚI -2 ≤ X ≤ 2 45
HÌNH 2.7: XẤP XỈ HÀM F(X)=1+SIN(X)VỚI -2 ≤ X ≤ 2 46
HÌNH 2.8: XẤP XỈ HÀM F(X)=1+SIN(X)VỚI -2 ≤ X ≤ 2 KHI TĂNG SỐ NƠ-
RON 46
HÌNH 2.9: XÁC ĐỊNH TẦN SỐ 50
HÌNH 2.10: GIẢM KÍCH THƯỚC CỦA TẦN SỐ KHÔNG CHẮC CHẮN 51
HÌNH 3.1: XỬ LÝ DỮ LIỆU 57
HÌNH 3.2: HÌNH TRÁI LÀ ẢNHĐẦU VÀO, HÌNH PHẢI LÀ ẢNH SAU QUÁ
TRÌNH PHÁT HIỆN DA 60
HÌNH3.3: ẢNH ĐƯỢC TRÍCH CHỌN ĐẶC TRƯNG 60
HÌNH 3.4: TAB QUẢN LÝ MẠNG VÀ PHÁT HIỆN ẢNH 67
HÌNH 3.5: TAB CẤU HÌNH CÁC THAM SỐ CHO MẠNG NƠ-RON NHÂN
TẠO 67
HÌNH 3.6: MẠNG ĐANG ĐƯỢC HUẤN LUYỆN 68
HÌNH 3.7: ẢNH ĐẦU VÀO 69
HÌNH 3.8: PHÁT HIỆN ẢNH CHÍNH XÁC (HIỂN THỊ CỬA SỔ CHE) 69
HÌNH 3.9:MỘT SỐ PHÂN LOẠI SAI 70
CHÚ THÍCH TỪ VÀ THUẬT NGỮ VIẾT TẮT
Viết tắt Tên đầy đủ
ANN Artificial neural networks
BMP Bitmap Image File
CGA Color Graphic Adaptor
DIB Device Independent Bitmap
GIF Graphics Interchange Format

LMS Least Means Square
LZW Lempel Ziv-Wench
MLP Multi Layer Perceptron
PCX PC Paintbrush Exchange
PLD Picture Language Description
RLC Run Length Coding
TIF Tagged Image File
PHẦN MỞ ĐẦU
Bộ não của con người là sản phẩm hoàn hảo nhất của tạo hoá, có khả năng nhớ,
tư duy và sáng tạo. Việc nghiên cứu những mô hình mà nguyên lý tổ chức và hoạt
động mô phỏng theo hoạt động của bộ não người đang là hướng nghiên cứu mang tính
thời sự của khoa học và công nghệ. Cũng từ đây, đã xuất hiện thuật ngữ “mạng Nơ-ron
nhân tạo”(Artificial neural networks - ANN). Mạng ANN này rất phù hợp với việc giải
các bài toán xấp xỉ hàm, xử lý thông tin, xử lý ảnh… đặc biệt là nhận dạng ảnh.
Ở các nước phát triển người ta đã ứng dụng ANN vào thực tế đời sống, đã cho ra
đời hàng loạt các thiết bị sử dụng cấu trúc mạng Nơ-ron để xử lý ảnh và xây dựng ảnh
ba chiều từ các ảnh mặt chiếu phục vụ trong chẩn đoán hình ảnh y khoa, các thiết bị
nhận dạng để đọc biểu đồ điện tim, điện não, nhận dạng vân tay, chữ viết, giọng nói…
Lý do khách quan là do ANN có tốc độ xử lý cao nhờ cấu trúc xử lý song song và các
liên kết mềm dẻo. Mạng có thể đưa ra các quyết định cần thiết thông qua các quá trình
huấn luyện hoặc tự học, khả năng giải quyết vấn đề của mạng rất đa dạng và đạt độ
chính xác cao.
Ở Việt Nam, những nghiên cứu mang tính thực nghiệm cũng đang được định
hướng và thu được một số kết quả ban đầu tuy còn hạn chế. Vì vậy, việc cập nhật kiến
thức và tiếp cận một lĩnh vực mũi nhọn của khoa học công nghệ trong việc giải quyết
một bài toán cụ thể là rất cần thiết.
Trước sự bùng nổ của các website với đủ loại nội dung sex, bạo lực, phản động
các nhà quản lý bối rối vì khó kiểm soát, chuyên gia an ninh mạng cho rằng không thể
tận diệt, còn phụ huynh thì lo lắng. Để giải quyết bài toán đó tác giả sẽ nghiên cứu giải
pháp lọc chặn ảnh đồi trụy từ đó tích hợp vào phần mềm lọc chặn đểđem lại công cụ

giúp các phụ huynh muốn quản lý, bảo vệ con em mình khỏi những thông tin độc hại
trên Internet, đồng thời cũng giúp ngăn chặn trang web xấu cho các cơ sở kinh doanh
dịch vụ Internet công cộng, các mạng máy tính của các công sở, trường học, các tổ
chức, doanh nghiệp có kết nối Internet.
Từ mục tiêu đó, luận văn tập trung nghiên cứu mạng nơ-ron nhân tạo và áp dụng
kỹ thuật này cho bài toán phát hiện ảnh có nội dung đồi trụy (gọi tắt là ảnh “đen”).
Luận văn được chia thành ba chương:
• Chương 1: Khái quát về xử lý ảnh và kiểm soát hình ảnh.
• Chương 2: Nhận dạng ảnh dựa vào mạng nơ-ron.
• Chương 3: Xây dựng chương trình thử nghiệm phát hiện ảnh “đen” sử
dụng mạng nơ-ron nhân tạo.
Chương 1
1
KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ KIỂM SOÁT
HÌNH ẢNH
1.1. KHÁI QUÁT VỀ XỬ LÝ ẢNH
1.1.1.Các khái niệm cơ bản
1.1.1.1. Xử lý ảnh
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Tuy là một ngành
khoa học mới mẻ so với nhiều ngành khoa học khác, nhưng tốc độ phát triển rất
nhanh, được rất nhiều các viện nghiên cứu, ứng dụng.
Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ
hoạ đã phát triển một cách mạnh mẽ và có nhiều ứng dụng được áp dụng trong cuộc
sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người - máy.
Mục đích của xử lý ảnh là nâng cao chất lượng ảnh phục vụ con người và xử lý
ảnh dữ liệu dạng hình ảnh để máy tính có thể hiểu được từ đó đưa ra những
quyết định cần thiết.
Hình 1.1: Quá trình xử lý ảnh
Xử lý ảnh có nhiều ứng dụng trong đời sống như : nhận dạng ảnh, vệ tinh dự báo
thời tiết, viễn thám, ảnh y tế, khoa học hình sự, điện ảnh…

1.1.1.2. Điểm ảnh
Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu
nhấtđịnh. Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao
cho mắt ngườicảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số
gần như ảnh thật. Mỗiphần tử trong ma trận được gọi là một phần tử ảnh.
1.1.1.3. Ảnh
Ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần
giống với ảnh thật.
Ảnh được tạo nên từ hàng trăm ngàn cho đến hàng triệu ô vuông rất nhỏ- được
coi là những nhân tố của bức ảnh và thường được biết dưới tên gọi là điểm ảnh. Máy
tính hay máy in sử dụng những ô vuông nhỏ này để hiển thị hay in ra bức ảnh. Để làm
2
được điều đó máy tính hay máy in chia màn hình, trang giấy thành một mạng lưới
chứa các ô vuông, sau đó sử dụng các giá trị chứa trong file ảnh để định ra mầu sắc, độ
sáng tối của từng pixel trong mạng lưới đó, đó là cơ sở để ảnh số được hình thành.
Việc kiểm soát, định ra địa chỉ theo mạng lưới như trên được gọi là bit mapping và ảnh
số còn được gọi là ảnh bitmap.
1.1.1.4. Mức xám của ảnh
• Định nghĩa: Mức xám (grey level) của điểm ảnh là cường độ sáng của nó
được gán bằng giá trị số tại điểm đó.
• Các thang giá trị mức xám thông thường:16, 32, 64, 128, 256 (Mức 256 là
mức phổ dụng bởi vì trong kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn
mức xám: Mức xám dùng một byte biểu diễn: 2
8
=256 mức, tức là từ 0 đến 255).
• Ảnh đen trắng:là ảnh có hai màu đen, trắng (không chứa màu khác) với
mức xám ở các điểm ảnh có thể khác nhau.
• Ảnh nhị phân:ảnh chỉ có hai mức đen trắng phân biệt tức dùng một bit
mô tả 21 mức khác nhau. Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ
có thể là 0 hoặc 1.

• Ảnh màu:trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo
nên thế giới màu, người ta thường dùng ba byte để mô tả mức màu, khi đó
các giá trị màu: 2
8*3
=2
24
≈ 16,7 triệu màu.
1.1.1.5. Độ phân giải của ảnh
Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độđiểm ảnh được ấn định
trên mộtảnh số được hiển thị.
Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt
người vẫnthấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên
một mật độ phân bổ,đó chính là độ phân giải và được phân bố theo trục x và y trong
không gian hai chiều.
Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một
lướiđiểm theo chiều ngang màn hình: 320 điểm chiều dọc × 200 điểm ảnh (320×200).
Rõ ràng, cùngmàn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân
giải 320×200 bởi vìcùngmột mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn
thì độ mịn (liên tục của các điểm)kém hơn.
1.1.2. Các bước xử lý ảnh số
Một hệ thống xử lý ảnh có sơ đồ tổng quát như sau:
3
Hình 1.2: Các bước cơ bản trong một hệ thống xử lý ảnh
Hình 1.3: Sơ đồ phân tích, xử lý ảnh và lưu đồ thông tin giữa các khối
Sau đây sẽ trình bày một số kỹ thuậtxử lý ảnh cần thiết phục vụ cho việc cài đặt
chương trình thử nghiệm (theo các bước trong hình 1.2), còncác thành phần khác sẽ
được giới thiệu ở mức cơ bản.
1.1.2.1. Thu nhận ảnh
Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thunhận này có
thể cho ảnh đen trắng.

Các thiết bị thu nhận ảnh có hai loại chính ứng với hai loại ảnh thôngdụng
Raster, Vector.
Các thiết bị thu nhận ảnh Raster thông thường là camera, các thiết bịthu nhận ảnh
thông thường Vector là sensor hoặc bàn số hoá Digitalizerhoặc được chuyển đổi từ
ảnh Raster.
Nhìn chung các hệ thống thu nhận ảnh thực hiện 1 quá trình:
• Cảm biến: biến đổi năng lượng quang học thành năng lượng điện
• Tổng hợp năng lượng điện thành ảnh
1.1.2.2. Tiền xử lý
4
Sau bộ thu nhận, ảnh có thể nhiễu và độ tương phản thấp nên cần đưa vào bộ tiền
xử lý(Image Processing) đểnâng cao chất lượng. Chức năng chính của bộ tiền xử lý là
nắn chỉnh biến dạng, lọc nhiễu, chỉnh mức xám, nâng độ tương phản để làmảnh rõ
hơn, nét hơn.
Các thuật toán triển khai việc nâng cao chất lượng ảnh hầu hết dựa trên các kỹ
thuật trongmiền điểm, không gian và tần số. Toán tửđiểm là phép biến đổi đối với từng
điểm ảnh đang xét,không liên quan đến các điểm lân cận khác, trong khi đó, toán tử
không gian sử dụng các điểm lâncận để quy chiếu tới điểm ảnh đang xét. Một số phép
biến đổi có tính toán phức tạp được chuyểnsang miền tần sốđể thực hiện, kết quả cuối
cùng được chuyển trở lại miền không gian nhờ cácbiến đổi ngược.
a. Nắn chỉnh biến dạng
Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điệntử.
Ảnh thu nhận Ảnh mong muốn
Hình 1.4: Ảnh thu nhận và ảnh mong muốn
Các nguyên nhân biến dạng do:
• Do camera, đầu thu ảnh chất lượng kém.
• Do môi trường, ánh sáng, hiện trường (scene), khí quyển, nhiễu xung.
• Do chất lượng.
Để khắc phục người ta sử dụng các phép chiếu, các phép chiếu thường được xây
dựng trên tập các điểm điều khiển.

Giả sử (P
i
, P
i
’) với i = 1, ncó n các tập điều khiển
Tìm hàm f: P
i
a f (P
i
) sao cho:
Giả sử ảnh bị biến đổi chỉ bao gồm: Tịnh tiến, quay, tỷ lệ, biến dạng bậc nhất
tuyến tính. Khi đó hàm f có dạng:
f (x, y) = (a
1
x + b
1
y + c
1
, a
2
x + b
2
y + c
2
)
Ta có:
5
Để cho φ → min
Giải hệ phương trình tuyến tính tìm được a
1

, b
1
, c
1
, tương tự tìm đượca
2
, b
2
, c; từ
đó taxác định được hàmf.
b. Lọc nhiễu
Thường ảnh thunhận được có nhiễu nên cần phải loại bỏ nhiễu. Để tách nhiễu
(hay làm trơn nhiễu), người ta sử dụng cácbộ lọc tuyến tính (lọc trung bình, thông
thấp) hay lọc phi tuyến (trung vị, giả trung vị, lọc đồnghình). Từ bản chất của nhiễu
(thường tương ứng với tần số cao) và từ cơ sở lý thuyết lọc là: bộ lọcchỉ cho tín hiệu
có tần số nào đó thông qua do đó, để lọc nhiễu người ta thường dùng lọc thôngthấp
(theo quan điểm tần số không gian) hay lấy tổ hợp tuyến tính để san bằng
(lọc trung bình).
Trước khi xem xét chi tiết các kỹ thuật áp dụng, cần phân biệt các loại nhiễu hay
can thiệptrong quá trình xử lý ảnh. Trên thực tế tồn tại nhiều loại nhiễu; tuy nhiên
người ta thường xem xétba loại nhiễu chính: nhiễu cộng, nhiễu nhân và nhiễu xung:
• Nhiễu cộng: Nhiễu cộng thường phân bố khắp ảnh. Nếu gọi ảnh quan
sát (ảnh thu được) là Xqs, ảnh gốc là Xgốc, nhiễu là η, ảnh thu được có thể
biểu diễn bởi:
X
qs
= X
gốc
+ η
• Nhiễu nhân: Nhiễu nhân thường phân bố khắp ảnh và ảnh thu được sẽ

biểu diễn với công thức:
X
qs
= X
gốc
* η
• Nhiễu xung: Nhiễu xung thường gây đột biến tại một sốđiểm ảnh.
Làm trơn nhiễu bằng lọc tuyến tính: lọc trung bình và lọc dải thông thấp
Do có nhiều loại nhiễu can thiệp vào quá trình xử lý ảnh nên cần có nhiều bộ lọc
thích hợp.Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc thông thấp, trung bình và
lọc đồng hình(Homomorphie); với nhiễu xung ta dùng lọc trung bị, giả trung vị, lọc
ngoài (Outlier).
6
i. Lọc trung bình không gian
Với lọc trung bình, mỗi điểm ảnh được thay thế bằng trung bình trọng số của các
điểm lâncận và được định nghĩa như sau:
Nếu trong kỹ thuật lọc trên, ta dùng các trọng số như nhau, phương trình trên sẽ
trở thành:
với : y(m, n): ảnh đầu vào,
v(m, n): ảnh đầu ra,
a(k, l) : là cửa sổ lọc.
vớ
i
và Nw là sốđiểm ảnh trong cửa sổ lọc W.
Lọc trung bình có trọng số chính là thực hiện chập ảnh đầu vào với nhân chập H.
Nhân chậpH trong trường hợp này có dạng:
Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệ biên của
ảnh khỏi bịmờ khi làm trơn ảnh. Các kiểu mặt nạđược sử dụng tùy theo các trường hợp
khác nhau. Các bộlọc trên là bộ lọc tuyến tính theo nghĩa là điểm ảnh ở tâm cửa số
sẽđược thay bởi tổ hợp các điểmlân cận chập với mặt nạ.

Giả sửđầu vào biểu diễn bởi ma trận I:
7
Ảnh số thu được bởi lọc trung bình Y=H⊗I có dạng:
Một bộ lọc trung bình không gian khác cũng hay được sử dụng. Phương trình của
bộ lọc đócó dạng:
Ởđây, nhân chập H có kích thuớc 2×2 và mỗi điểm ảnh kết quả có giá trị bằng
trung bìnhcộng của nó với trung bình cộng của bốn lân cận gần nhất.
Lọc trung bình trọng số là một trường hợp riêng của lọc thông thấp.
ii. Lọc thông thấp
Lọc thông thấp thường được sử dụng để làm trơn nhiễu.Về nguyên lý của bộ lọc
thông thấpgiống nhưđã trình bày trên. Trong kỹ thuật này người ta hay dùng một số
nhân chập có dạng sau:
Ta dễ dàng nhận thấy khi b =1, H
b
chính là nhân chập H
t1
(lọc trung bình). Để
hiểu rõ hơnbản chát khử nhiễu cộng của các bộ lọc này, ta viết lại phương trình thu
nhận ảnh dưới dạng:
Trong đóη[m, n] là nhiễu cộng có phương sai σ
2
n
. Như vậy, theo cách tính của
lọc trungbình ta có:
8
Như vậy, nhiễu cộng trong ảnh đã giảm đi N
w
lần.
c. Tăng độ tương phản
Trước tiên cần làm rõ khái niệm độ tương phản. Ảnh số là tập hợp các điểm ảnh,

màmỗi điểm ảnhcó giá trị độ sáng khác nhau. Ở đây, độ sáng để mắt người dễ cảm
nhận ảnh, song không phải là quyết định. Thực tế chỉ ra rằng hai đối tượng có cùng độ
sáng nhưng đặt trên hai nền khác nhau sẽ cho cảm nhận khác nhau. Như vậy, độ tương
phản biểu diễn sự thay đổi độ sáng của đối tượng so với nền. Như vậ có thể hiểu rằng,
độ tương phản là độ nổi của điểm ảnh hay vùng ảnh so với nền. Với định nghĩa này,
nếu ảnh có độ tương phản kém, ta có thể thay đổi tuỳ ý theo ý muốn.
Ảnh với độ tương phản thấp có thể do điều kiện sáng không đủ hay không đều,
hoặc do tính không tuyến tính hay biến động nhỏ của bộ cảm nhận ảnh. Để điều chỉnh
lại độ tương phản của ảnh, ta điều chỉnh lại biên độ trên toàn dải hay trên dải có giới
hạn bằng cách biến đổi tuyến tính biên độ đầu vào (dùng hàm biến đổi là hàm tuyến
tính) hay phi tuyến (hàm mũ hay hàm lôgarít). Khi dùng hàm tuyến tính các độ dốc
α
,
β
,
γ
phải chọn lớn hơn một trong miền cần dãn. Các tham số a và b (các cận) có thể
chọn khi xem xét lược đồ xám của ảnh.
Hình 1.5: Dãn độ tương phản
Chú ý, nếu dãn độ tương phản bằng hàm tuyến tính ta có:
α β γ
= = =
1
ảnh kết quả trùng với ảnh gốc
α β γ
, ,
>
1
dãn độ tương phản
α β γ

, ,
<
1
co độ tương phản
Hàm mũ hay dùng trong dãn độ tương phản có dạng:
9
f = (X[m,n])
p
Giả mã
Giả sử ta có ảnhIcó kích thước m × n và số nguyên c
Khi đó, kỹ thuật tăng, giảm độc sáng được thể hiện
for (i = 0; i < m; i + +)
for (j = 0; j < n; j + +)
I [i, j] = I [i, j] + c;
• Nếu c > 0: ảnh sáng lên
• Nếu c < 0: ảnh tối đi
d. Chỉnh mức xám
Nhằm khắc phục tính không đồng đều của hệ thống gây ra. Thông thường có hai
hướng tiếp cận:
• Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau
thành một bó. Trường hợp chỉ có hai mức xám thì chính là chuyển về ảnh đen
trắng. Ứng dụng: In ảnh màu ra máy in đen trắng.
• Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ
thuật nội suy. Kỹ thuật này nhằm tăng cường độ mịn cho ảnh.
1.1.2.3. Phân vùng ảnh
Phân vùng ảnh là bước then chốt trong xử lý ảnh. Giai đoạn này nhằm phân tích
ảnh thànhnhững thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên
thông. Tiêu chuẩn đểxác định các vùng liên thông có thể là cùng mức xám, cùng màu
hay cùng độ nhám Trước hếtcần làm rõ khái niệm "vùng ảnh" (Segment) và đặc điểm
vật lý của vùng.

Vùng ảnh là một chi tiết, một thực thể trông toàn cảnh. Nó là một tập hợp các
điểm có cùng hoặc gần cùng một tính chất nào đó: mức xám, mức màu, độ nhám…
Vùng ảnh là một trong hai thuộc tính của ảnh. Nói đến vùng ảnh là nói đến tính chất
bề mặt. Đường bao quanh mộtvùng ảnh (Boundary) là biên ảnh. Các điểm trong một
vùng ảnh có độ biến thiên giá trị mức xámtương đối đồng đều hay tính kết cấu tương
đồng.
Dựa vào đặc tính vật lý của ảnh, người ta có nhiều kỹ thuật phân vùng: phân
vùng dựatheo miền liên thông gọi là phân vùng dựa theo miền đồng nhất hay miền kề;
phân vùng dựa vàobiên gọi là phân vùng biên. Ngoài ra còn có các kỹ thuật phân vùng
khác dựa vào biên độ, phânvùng dựa theo kết cấu.
Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễgây lỗi, làm mất
độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạnnày.
10
1.1.2.4. Trích chọn đặc trưng
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn)
cộng vớimã liên kết với các vùng lận cận. Việc biến đổi các số liệu này thành dạng
thích hợp là cần thiếtcho xử lý tiếp theo bằng máy tính. Việc chọn các tính chất để thể
hiện ảnh gọi là trích chọn đặctrưng (hay trích chọn đặc điểm - Feature Selection) gắn
với việc tách các đặc tính của ảnh dưới dạng các thông tin địnhlượng hoặc làm cơ sở
để phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh nhậnđược. Ví
dụ: trong nhận dạng ký tự trên phong bì thư, chúng ta miêu tả các đặc trưng của từng
kýtự giúp phân biệt ký tự này với ký tự khác.
Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong
quá trình xử lý ảnh. Có thể nêu ra một số đặc điểm của ảnh sau đây:
• Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ,
điểm uốn
• Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc
thực hiện lọc vùng (zonal filtering). Các bộ vùng được gọi là “mặt nạ đặc
điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ
nhật, tam giác, cung tròn )

• Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng
và do vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng
khi nhận dạng đối tượng. Các đặc điểm này có thể được trích chọn nhờ toán
tử gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero
crossing)
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng
ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống.
1.1.2.5. Nhận dạng và nội suy ảnh
Đây là giai đoạn cuối của các hệ thống xử lý ảnh. Nhận dạng ảnh (Image
Recognition) là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào
đó và gán chúng một tên (gán cho đối tượng một tên gọi, tức là một dạng) dựa theo
những quy luật vàmẫu chuẩn. Quá trình nhận dạng dựa vào những mẫu chuẩn được
học (hoặc lưu)từ trước gọi là nhận dạng có thầy hayhọc có thầy, trong những trường
hợp ngược lại gọi là học không có thầy.
Nội suy (Interpretation)là phán đoán theo ý nghĩa trên cơ sởnhận dạng. Ví dụ: một
loạt chữ số và nét gạch ngang trên phong bì thư có thể được nội suy thànhmã điện thoại.
Có nhiều cách phân loai ảnh khác nhau. Trong lýthuyết về nhận dạng nói chung
và nhận dạng ảnh nói riêng, cácmô hình toán học về ảnh được phân theo hai loại nhận
dạng ảnh cơ bản:
11
• Nhận dạng theo tham số.
• Nhận dạng theo cấu trúc.
Hay có ba cách tiếp cận khác nhau:
• Nhận dạng dựa vào phân hoạch không gian.
• Nhận dạng dựa vào cấu trúc.
• Nhận dạng dựa vào kỹ thuật mạng nơron.
Haicách tiếp cận đầu là những cách tiếp cận kinh điển, đã được nghiên cứu và áp
dụng rất nhiều trong thực tế. Các đối tượng ảnh quan sát và thu nhậnđược phải trải qua
giai đoạn tiền xử lý nhằm tăng cường chất lượng, làm nổi các chi tiết, tiếp theolà trích
chọn và biểu diễn các đặc trưng, cuối cùng mới là giai đoạn nhận dạng.

Cách tiếp cận thứ ba hoàn toàn khác. Nó dựa vào cơ chế đoán nhận, lưu trữ và
phân biệt đối tượng mô phỏng theohoạt động của hệ thần kinh con người. Do cơ chế
đặc biệt, các đối tượng thu nhận bởi thị giácngười không cần qua giai đoạn cải thiện
mà chuyển ngay sang giai đoạn tổng hợp, đối sánh vớicác mẫu đã lưu trữ để nhận
dạng. Đây là cách tiếp cận đầy hứa hẹn được trình bày cụ thể trongcác phần dưới đây.
Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong
khoa học vàcông nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử), nhận
dạng văn bản (Text),nhận dạng vân tay, nhận dạng mã vạch, nhận dạng đối tượng
chuyển động, nhận dạng mặt người, nhận dạng nụ cười, nhận dạng mống mắt,…
Chi tiết các kỹ thuật nhận dạng ảnh sẽ được trình bày trong mục [1.2.1]
1.1.2.6. Hậu xử lý
a. Nén ảnh
Ảnh dù ở dạng nào vẫn chiếm không gian nhớ rất lớn. Nhằm giảm thiểu không
gian lưu trữ, khi mô tảảnh, người ta đãđưa kỹ thuật nén ảnh vào.
Thông thường được tiến hành theo cảhai cách khuynh hướng là nén có bảo toàn
và nén không bảo toàn thông tin.Nén không bảo toàn thì thường có khả năng nén cao
hơn nhưng khả năngphục hồi thì kém hơn. Trên cơ sở hai khuynh hướng, có bốn cách
tiếp cận cơbản trong nén ảnh:
• Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất
xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa
thích hợp. Một ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF
• Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các
điểm ảnh để tiến hành mã hóa. Kỹ thuật lợi dụng sự giống nhau của các điểm
ảnh trong các vùng gần nhau. Ví dụ cho kỹ thuật này là mã nén *.PCX
• Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng
nén không bảo toàn và do vậy, kỹ thuật thường hiệu quả hơn. *.JPG tiếp cận
12
theo kỹ thuật nén này.
• Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể
hiện sự lặp lại của các chi tiết. Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ

phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal.
Các phương pháp nén ảnh:
• Nén thế hệ thứ nhất:
− Phương pháp mã hóa loạt dàiRLC (Run Length Coding)
− Phương pháp mã hóa Huffman
− Phương pháp LZW(Lempel Ziv-Wench)
− Phương pháp mã hóa khối(Block Coding)
− Phương pháp thích nghi
• Nén thế hệ thứ hai:
– Phương pháp Kim tự tháp Laplace (Pyramide Laplace)
– Phương pháp mã hóa dựa vào biểu diễn ảnh
Hiện nay, các chuẩn nén ảnh theo định dạng MPEG được dùng vàđang phát huy
hiệu quả.
b. Biểu diễn ảnh
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoáđược nhúng
trong các thiết bị kỹ thuật khác nhau. Quá trình lưu trữảnhnhằm hai mục đích:
• Tiết kiệm bộ nhớ
• Giảm thời gian xử lý
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiểnthị, in ấn
và xử lý ảnh được xem như là một tập hợp các điểm với cùng kíchthước nếu sử dụng
càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn vàcàng thể hiện rõ hơn chi tiết
của ảnh người ta gọi đặc điểm này là độphân giải.
Việc lựa chọn độ phân giải thích hợp tuỳ thuộc vào nhu cầu sử dụngvà đặc trưng
của mỗi ảnh cụ thể, trên cơ sởđó các ảnh thường được biểudiễn theo hai mô hình cơ bản.
Mô hình Raster
Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểudiễn dưới
dạng ma trận các điểm (điểm ảnh). Thường thu nhận qua các thiết bị như camera, scanner.
Tuỳ theo yêu cầu thực thế mà mỗi điểm ảnh được biểu diễn qua một hay nhiều bít.
Mô hình Raster thuận lợi cho hiển thị và in ấn. Ngày nay công nghệ phần cứng
cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lượng

cao cho cảđầu vào và đầu ra. Một thuận lợi cho việchiển thị trong môi trường
Windows là Microsoft đưa ra khuôn dạng ảnhDIB (Device Independent Bitmap) làm
trung gian. Hình 1.4 thể hình quytrình chung để hiển thịảnh Raster thông qua DIB.
13
Một trong những hướng nghiên cứu cơ bản trên mô hình biểu diễn nàylà kỹ thuật
nén ảnh các kỹ thuật nén ảnh lại chia ra theo hai khuynh hướng lànén bảo toàn và
không bảo toàn thông tin nén, bảo toàn có khả năng phụchồi hoàn toàn dữ liệu ban đầu
còn, nếu không bảo toàn chỉ có khả năngphục hồi độ sai số cho phép nào đó. Theo
cách tiếp cận này người ta đãđềra nhiều quy cách khác nhau như BMP, TIF, GIF,
PCX…
Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồmcả trong đó
các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén cókhả năng phục hồi với
độ sai số nhận được.
Hình 1.6: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB
Mô hình Vector
Biểu diễn ảnh ngoài mục đích tiết kiệm không gian lưu trữ dễ dàngcho hiển thị
và in ấn còn đảm bảo dễ dàng trong lựa chọn sao chép dichuyển tìm kiếm…Theo
những yêu cầu này kỹ thuật biểu diễn vector tỏ raưu việt hơn.
Trong mô hình vector người ta sử dụng hướng giữa các vector củađiểm ảnh lân
cận để mã hoá và tái tạo hình ảnh ban đầu ảnh vector được thunhận trực tiếp từ các
thiết bị số hoá như Digital hoặc được chuyển đổi từảnh Raster thông qua các chương
trình số hoá.
Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanhvà chất
lượng cho cảđầu vào và ra nhưng lại chỉ hỗ trợ cho ảnh Raster.
Do vậy, những nghiên cứu về biểu diễn vectơđều tập trung từ chuyểnđổi từảnh
Raster.
Hình 1.7: Sự chuyển đổi giữa các mô hình biểu diễn ảnh
1.2. KIỂM SOÁT THÔNG TIN HÌNH ẢNH
1.2.1. Nhận dạng ảnh
1.2.1.1. Giới thiệu

a. Không gian biểu diễn đối tượng, không gian diễn dịch
14
• Không gian biểu diễn đối tượng
Các đối tượng khi quan sát hay thu thập được thường được biểu diễn bởi tập các
đặc trưnghay đặc tính. Giả sửđối tượng ảnh X (ảnh, chữ viết, dấu vân tay,…) được
biểu diễn bởi n thànhphần (n đặc trưng): X={x
1
,x
2
…x
n
}; mỗi x
i
biểu diễn một đặc tính.
Không gian biểu diễn thườngđược gọi tắt là không gian đối tượng được định nghĩa:
= { X
1
, X
2
,…X
m
}
Trong đó mỗi X
i
biểu diễn một đối tượng. Không gian này có thể là vô hạn. Để
tiện xemxét chúng ta chỉ xét tập Xlà hữu hạn.
• Không gian diễn dịch
Không gian diễn dịch là tập các tên gọi của đối tượng. Kết thúc quá trình nhận
dạng ta xácđịnh được tên gọi cho các đối tượng. Một cách hình thức gọi Ω là tập tên
đối tượng:

Ω={w
1
, w
2
,… w
k
} với w
i
, i=1,2…k là tên các đối tượng.
Quá trình nhận dạng đối tượng f là một ánh xạf: X →Ω với f là tập các quy luật
đểđịnh một phần tử trong X ứng với một phần tử trong Ω. Nếu tập các quy luật và tập
tên các đốitượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từA đến Z),
người ta gọi là nhận dạngcó thầy. Trường hợp thứ hai là nhận dạng không có thầy.
b. Mô hình và bản chất của quá trình nhận dạng
• Mô hình
Trong nhận dạng người ta chia thành hai họ lớn:
– Họ mô tả theo tham số
– Họ mô tả theo cấu trúc
Cách mô tảđược lựa chọn sẽ xác định mô hình của đối tượng. Như vậy, chúng ta
sẽ có hailoại mô hình: mô hình tham số và mô hình cấu trúc.
Mô hình tham số: sử dụng một vectơđểđặc tảđối tượng. Mỗi phần tử của vectơ
mô tảmột đặc tính của đối tượng. Thí dụ như trong các đặc trưng chức năng, người ta
sử dụng các hàmcơ sở trực giao để biểu diễn.
Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng. Tuy nhiên
việc lựachọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng dụng. Thí dụ, trong nhận
dạng chữ, các thamsố là các dấu hiệu:
15
– Sốđiểm chạc ba, chạc tư.
– Sốđiểm chu trình.
– Sốđiểm ngoặt.

– Sốđiểm kết thúc.
Mô hình cấu trúc: Cách tiếp cận trong mô hình này dựa vào việc mô tảđối tượng
nhờmột số khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ tự nhiên.
Để mô tảđối tượng ngườita dùng một số dạng nguyên thủy nhưđoạn thẳng, cung…
Chẳng hạn một hình chữ nhật đượcđịnh nghĩa gồm bốnđoạn thẳng vuông góc với nhau
từng đôi một. Trong mô hình này người ta sửdụng một bộ ký hiệu kết thúc V
t
, một bộ
kí hiệu không kết thúc gọi là V
n
. Ngoài ra có dùng mộttập các luật sản xuất để mô tả
cách xây dựng các đối tượng phù hợp dựa trên các đối tượng đơngiản hơn hoặc đối
tượng nguyên thủy (tập V
t
). Trong cách tiếp cận này, ta chấp nhận khẳng địnhlà: cấu
trúc một dạng là kết quả của việc áp dụng luật sản xuất theo những nguyên tắc xác
định bắtđầu từ một dạng gốc ban đầu. Một cách hình thức, ta có thể coi mô hình này
tương đương một vănphạm G=(V, V
n
, P, S) với:
– V
t
là bộ ký hiệu kết thúc
– V
n
là bộ ký hiệu không kết thúc
– P là luật sản xuất
– S là dạng (ký hiệu bắt đầu)
Thí dụ, đối tượng nhà gồm mái và tường, mái là một tam giác gồm ba cạnh là
bađoạn thẳng,tường là một hình chữ nhật gồm bốn cạnh vuông góc với nhau từng đôi

một sẽđược mô tả thông quacấu trúc mô tả dựa vào văn phạm sinh như chỉ trong hình
dưới đây:
Hình 1.8: Mô hình cấu trúc của đối tượng nhà
• Bản chất
Quá trình nhận dạng gồm ba giai đoạn chính:
– Chọn mô hình biểu diễn đối tượng.
– Chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn.
– Học trong nhận dạng.
Trong việc lựa chọn để biểu diễn đối tượng, đối tượng có thểđược xác định theo
cáchđịnh lượng (mô hình tham số) hay định tính (mô hình cấu trúc). Khi đối tượng
16

×