Tải bản đầy đủ (.pdf) (76 trang)

Ứng dụng thuật toán nhận dạng khuôn mặt phục vụ công việc điểm danh lớp học ở trường THPT đồng hới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.98 MB, 76 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

BÙI HỮU ĐỨC

ỨNG DỤNG THUẬT TOÁN NHẬN DẠNG
KHUÔN MẶT PHỤC VỤ CÔNG VIỆC ĐIỂM DANH
LỚP HỌC Ở TRƯỜNG THPT ĐỒNG HỚI

Chuyên ngành: Khoa học máy tính
Mã số: 8480101

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: TS. TRẦN THẾ VŨ

Đà Nẵng - Năm 2018


LỜI CAM ĐOAN

Tôi xin cam đoan :
1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng
dẫn trực tiếp của thầy giáo TS. Trần Thế Vũ.
2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác
giả, tên công trình, thời gian, địa điểm công bố.
3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi
xin chịu hoàn toàn trách nhiệm.
Tác giả luận văn

BÙI HỮU ĐỨC




TRANG TÓM TẮT LUẬN VĂN
ỨNG DỤNG THUẬT TOÁN NHẬN DẠNG KHUÔN MẶT PHỤC VỤ CÔNG VIỆC
ĐIỂM DANH LỚP HỌC Ở TRƯỜNG THPT ĐỒNG HỚI
Học viên: Bùi Hữu Đức
Mã số: 8480101 - Khóa: K34.KMT.QB

Chuyên ngành: Khoa học máy tính
Trường Đại học Bách khoa – Đại học Đà Nẵng

Tóm tắt: Hiện nay, có nhiều phương pháp tự động nhận dạng danh tính người được
sử dụng như phân tích dấu vân tay, nhận dạng sinh trắc học thông qua nhận diện tròng mắt
hay các nghiên cứu trong lĩnh vực thị giác máy tính như phân tích dáng đi, nhận dạng khuôn
mặt. Trong luận văn này trình bày cở sở lý thuyết về xữ lý ảnh và một số kỹ thuật nhận
dạng khuôn mặt và đề xuất giải pháp thực nghiệm nhận dạng khuôn mặt để phục vụ cho bài
toán điểm danh lớp học.
Quá trình xử lý bao gồm các bước:
Bước 1: Xây dựng dữ liệu.
Bước 2: Trích xuất đặc trưng.
Bước 3: Huấn luyện dữ liệu đặc trưng và thu được mô hình dữ liệu đã phân lớp.
Bước 4: Tiến hành nhận dạng để đưa ra kết luận.
Từ khóa – Nhận dạng danh tính, thị giác máy tính, nhận dạng khuôn mặt, trích xuất
đặc trưng.
APPLICATION OF FACIAL RECOGNITION ALGORITHM FOR CLASS
ATTENDANCE AT DONG HOI HIGH SCHOOL
Student: Bui Huu Duc

Major: Computer Science


Code: 8480101 Course: K34.KMT.QB

Polytechnic University – Da Nang University

Abstract: At present, there are many methods of automatic identification of users
such as fingerprint analysis, biometric identification through iris recognition or studies in
the field of computer vision such as gait analysis, facial recognition. This thesis presents
theoretical background on image processing and some facial recognition techniques and
suggests a facial recognition solution to apply to class attendance problems.
The process consists of the following steps:
Step 1: Building the data.
Step 2: Extracting the feature.
Step 3: Training the featured data and acquire the layered data model.
Step 4: Conducting the identification to make the conclusion.
Keywords - Identity recognition, computer vision, facial recognition, feature
extraction.


MỤC LỤC
TRANG BÌA
LỜI CAM ĐOAN
MỤC LỤC
TRANG TÓM TẮT LUẬN VĂN
DANH MỤC CAC TỪ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH
MỞ ĐẦU ......................................................................................................................... 1
1. Lý do chọn đề tài .................................................................................................. 1
2. Mục đích và ý nghĩa của đề tài ............................................................................. 1
3. Các nghiên cứu liên quan đến đề tài ..................................................................... 2

4. Mục tiêu, nhiệm vụ nghiên cứu ............................................................................ 2
5. Phạm vi của đề tài ................................................................................................. 3
6. Phương pháp nghiên cứu ...................................................................................... 3
CHƯƠNG 1. TỔNG QUAN VỀ XỬ LÝ ẢNH .............................................................. 5
1.1. Cơ bản về xử lý ảnh .............................................................................................. 5
1.1.1. Tổng quan về xử lý ảnh .................................................................................. 5
1.1.2. Các thành phần trong hệ thống xử lý ảnh ...................................................... 5
1.1.3. Một số phép biến đổi ảnh ............................................................................... 6
1.2. Một số phương pháp tiền xử lý ảnh .................................................................... 10
1.2.1. Phép tích chập .............................................................................................. 10
1.2.2. Kỹ thuật lọc ảnh thông dụng ........................................................................ 11
1.2.3. Biến đổi hình thái học .................................................................................. 12
1.3. Phương pháp phát hiện biên ............................................................................... 14
1.3.1. Tổng quan về xử lý biên............................................................................... 14
1.3.2. Một số phương pháp phát hiện biên ............................................................. 15
1.4. Phương pháp phân vùng ảnh............................................................................... 17
1.4.1. Tổng quan về phân vùng ảnh ....................................................................... 17
1.4.2. Phân vùng dựa vào ngưỡng .......................................................................... 18
1.4.3. Phân vùng bằng kỹ thuật Otsu ..................................................................... 20
1.4.4. Phân vùng bằng kỹ thuật k-means ............................................................... 22
CHƯƠNG 2. MỘT SỐ KỸ THUẬT NHẬN DẠNG MẶT NGƯỜI ........................... 25
2.1. Trích xuất và biểu diễn đặc trưng ảnh ................................................................ 25
2.2. Đặc trưng Haar-like và ứng dụng trong phát hiện mặt người............................. 25


2.2.1. Mô tả đặc trưng Haar ................................................................................... 25
2.2.2. Trích xuất đặc trưng Haar ............................................................................ 26
2.3. Bộ mô tả đặc trưng HOG trong nhận dạng người .............................................. 27
2.3.1. Mô tả đặc trưng HOG .................................................................................. 27
2.3.2. Quá trình trích rút đặc trưng HOG ............................................................... 28

2.4. Kỹ thuật học máy trong phát hiện và nhận dạng khuôn mặt .............................. 33
2.4.1. Kỹ thuật Boosting trong phát hiện khuôn mặt ............................................. 33
2.4.2. Kỹ thuật SVM trong nhận dạng khuôn mặt ................................................. 35
2.5. Kỹ thuật trượt window trong nhận dạng ............................................................. 37
CHƯƠNG 3. ĐỀ XUẤT GIẢI PHÁP VÀ THỰC NGHIỆM ....................................... 40
3.1. Bài toán nhận dạng mặt người ............................................................................ 40
3.2. Đề xuất mô hình nhận dạng danh tính người qua khuôn mặt ............................. 40
3.3. Thực nghiệm trên một số cơ sở dữ liệu .............................................................. 41
3.3.1. Thực nghiệm trên dữ liệu Staffhome ........................................................... 41
3.3.2. Thực nghiệm trên dữ liệu AT&T_faces ....................................................... 44
3.3.3. Thực nghiệm trên dữ liệu tự tạo ................................................................... 45
3.4. Một số ví dụ minh họa thực nghiệm nhận dạng danh tính người ....................... 49
3.4.1. Nhận dạng trên tập dữ liệu AT&T ............................................................... 49
3.4.2. Nhận dạng trên tập dữ liệu Staffhome ......................................................... 51
3.4.3. Nhận dạng trên tập dữ liệu tự tạo ................................................................. 52
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................................... 55
TÀI LIỆU THAM KHẢO ............................................................................................. 56
Q ẾT Đ NH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO)
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC
PHẢN BIỆN.


DANH MỤC CÁC CHỮ VIẾT TẮT

ANN

Artificial Neural Network

GPU


Graphics Rrocessing Unit

HOF

Histograms of Optical Flow

HOG

Histograms of Oriented Gradients

MLNN

Multi Layer Neural Network

NN

Neural Network

SVM

Support Vetor Machines

SIFT

Scale invariant feature transform


DANH MỤC CÁC BẢNG
Bảng 3.1. Kết quả thực nghiệm trên dữ liệu Staffhome ................................................ 43
Bảng 3.2. Kết quả thực nghiệm trên dữ liệu AT&T ...................................................... 45

Bảng 3.3. Thứ tự và tên các học sinh được sử dụng trong thực nghiệm ....................... 46
Bảng 3.4. Số lượng các mẫu khuôn mặt dùng cho huấn luyện và đánh giá .................. 47
Bảng 3.5. Kết quả thực nghiệm trên dữ liệu AT&T ...................................................... 48


DANH MỤC CÁC HÌNH
Hình 1.1. Sơ đồ tổng quát hệ thống xử lý ảnh ................................................................. 6
Hình 1.2. Biến đổi ảnh (a) sơ đồ tổng quát (b) biến đổi ảnh bằng Hough ...................... 7
Hình 1.3. ược đồ ảnh đa mức xám ................................................................................ 7
Hình 1.4. Điều chỉnh độ sáng của ảnh màu HSV ............................................................ 8
Hình 1. . Cân bằng lược đồ: (a) ảnh gốc, (b) ảnh sau cân bằng. .................................... 9
Hình 1.6. ọc ảnh bằng kỹ thuật tích chập .................................................................... 10
Hình 1. . ọc Gaussian ................................................................................................. 12
Hình 1. . Ví dụ các phần tử cấu trúc đơn giản ............................................................. 13
Hình 1. . àm mỏng vùng bằng phép toán co ảnh ....................................................... 13
Hình 1.1 . àm đậm vùng bằng phép toán giãn ảnh. .................................................... 14
Hình 1.11. Trích chọn cạnh bằng phương pháp Sobel .................................................. 15
Hình 1.12. Trích chọn cạnh bằng phương pháp Prewitt ................................................ 16
Hình 1.13. ết quả trích xuất cạnh dùng thuật toán Canny .......................................... 17
Hình 1.14. Kết quả phân ngưỡng với giá trị ngưỡng Th=80. ........................................ 19
Hình 1.1 . Xác định ngưỡng phân đoạn bằng lược đồ ảnh ........................................... 20
Hình 1.16. Phân đoạn ảnh bằng Otsu ............................................................................ 22
Hình 1.1 . Minh họa phân cụm bằng k-means.............................................................. 23
Hình 1.1 . Phân đoạn ảnh bằng k-means ...................................................................... 24
Hình 2.1. Các mẫu đặc trưng cơ bản của Haar. ............................................................. 26
Hình 2.2. Tính nhanh tổng giá trị pixel trong vùng chữ nhật bất kỳ . ........................... 27
Hình 2.3. Quá trình trích xuất đặc trưng HOG .............................................................. 28
Hình 2.4. Tính hướng và độ lớn gradient ...................................................................... 29
Hình 2. . Tính gradient ảnh ........................................................................................... 30
Hình 2.6. Chia hướng theo các bin của lược đồ hướng gradient ................................... 30

Hình 2. . Sơ đồ tổng quan về trích rút đặc trưng HOG. ............................................... 32
Hình 2. . Đặc trưng HOG được trích xuất từ khuôn mặt .............................................. 33
Hình 2. .Có vô số đường thẳng có thể phân chia tuyến tính, tuy nhiên với đường phân
chia H , đã có một điểm bị phân loại nhầm. ........................................... 35
Hình 2.1 . hông thể phân chia các lớp dữ liệu một cách tuyến tính.Ánh xạ dữ liệu
trong không gian ban đầu vào một không gian mới nhiều chiều hơn. .... 35
Hình 2.11. Việc phân tách dữ liệu trở nên dễ dàng hơn trong không gian mới. ........... 36


Hình 2.12.Các siêu phẳng phân chia tập mẫu thành hai lớp và support vector trong
SVM. ........................................................................................................ 36
Hình 2.13. Trượt window được sử dụng trên ảnh nhiều mức tỷ lệ ............................... 37
Hình 2.14.Nhận dạng bằng phương pháp trượt window trên nhiều mức tỷ lệ ............. 38
Hình 2.1 .Gom cụm các nhận dạng cùng một đối tượng .............................................. 39
Hình 3.1. Mô hình tổng quát hệ thống nhận dạng danh tính người .............................. 41
Hình 3.2. Một số mẫu ảnh của bộ dữ liệu staffhome .................................................... 42
Hình 3.3. Ma trận chéo tỷ lệ nhận dạng giữa

người trong dữ liệu Staffhome.......... 43

Hình 3.4. Một số mẫu khuôn mặt của 4 người của dữ liệu ATT_faces ...................... 44
Hình 3. . Ma trận chéo tỷ lệ nhận dạng giữa 4 người trong dữ liệu AT&T. .............. 45
Hình 3.6. Một số mẫu ảnh của 30 học sinh bộ dữ liệu Student1 tự tạo ........................ 47
Hình 3. . Ma trận chéo tỷ lệ nhận dạng giữa 30 học sinh và 1 nhóm đối tượng khác
của dữ liệu ảnh tự chụp. ........................................................................... 49
Hình 3. . Minh họa nhận dạng trên tập dữ liệu AT&T. ................................................ 50
Hình 3. . Minh họa nhận dạng trên tập dữ liệu Staffhome. .......................................... 52
Hình 3.1 .

ết quả nhận dạng dùng mô hình huấn luyện trên dữ liệu tự tạo từ học sinh

lớp 11A .................................................................................................... 54


1

MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay, trong công tác quản lý tại các trường THPT, ngoài việc dành thời gian
cho việc giảng dạy những giáo viên còn kiêm nhiệm nhiều công việc khác như chủ
nhiệm lớp. Với khoảng thời gian đó, việc kiểm soát sự tham gia lớp học của các học
sinh là một điều khó khăn.
Một trong những yếu tố quyết định trong việc nâng cao chất lượng giáo dục là
học sinh tham gia các lớp học thường xuyên. Theo phương pháp quản lý truyền thống,
giáo viên sử dụng sổ điểm danh để theo dõi tính chuyên cần của học sinh trước mỗi
tiết dạy. Việc này lãng phí một khoảng thời gian đáng kể. Hơn nữa, nó có thể trở nên
phức tạp hơn nhiều nếu giáo viên phải quản lí với các lớp có quá nhiều học sinh.
Tham gia lớp học một cách thường xuyên là một việc rất quan trọng và bắt buộc
trong tất cả lớp học nói riêng và nhà trường nói chung đề kiểm tra tính chuyên cần của
mỗi học sinh. Mỗi giáo viên đều có phương pháp riêng trong lĩnh vực này. Một số giáo
viên đang sử dụng phương pháp thủ công bằng cách sử dụng sổ điểm danh hoặc sử
dụng các phần mềm máy tính khác. Tuy nhiên, việc sử dụng công nghệ trong công
việc này còn rất hạn chế và khá mới mẻ.
Hiện nay, có một số phương pháp tự động có thể sử dụng được: Ví dụ phân tích
dấu vân tay hay nhận dạng sinh trắc học thông qua nhận diện tròng mắt[18]. Tuy nhiên
các phương pháp này gây lãng phí thời gian bởi vì học sinh phải xếp hàng để thực hiện
thao tác trên thiết bị quét. hi nói đến trường học, hệ thống theo dõi giám sát là một sự
trợ giúp tuyệt vời cho giáo viên và phụ huynh học sinh. Phụ huynh không bao giờ
thiếu thông tin của con mình trong lớp nếu trường học đang sử dụng một hệ thống theo
dõi chuyên môn. Với hệ thống quản lý và giám sát trực tiếp, thông tin có thể dễ dàng
in ra hoặc một bản mềm và được lưu trữ trên hệ thống một cách chính xác và an toàn.

Để giảm bớt áp lực công việc và thời gian cho giáo viên trong công tác quản lý
học sinh, chúng tôi chọn đề tài “Ứng dụng thuật toán nhận dạng khuôn mặt phục vụ
công việc điểm danh lớp học ở trường THPT Đồng Hới”
2. Mục đích và ý nghĩa của đề tài
- Mục đích
Nghiên cứu lý thuyết, xây dựng một chương trình thực nghiệm mô phỏng để
nhận dạng khuôn mặt và kiểm tra được số học sinh tham gia lớp học. Điều này sẽ giúp
nhà trường quản lý tính chuyên cần của học sinh, tiết kiệm được vật chất, thời gian của
giáo viên.
- Ý nghĩa khoa học và thực tiễn đề tài
Về khoa học:
Tìm hiểu, nghiên cứu các tài liệu đã được công bố về xử lý ảnh[14]; các thành
phần trong hệ thống xử lý ảnh[15,16,17]; Một số phép biến đổi hình ảnh[17]; Một số
kỹ thuật nhận dạng mặt người[6,7,8,9,14]…


2

Áp dụng kiến thức tìm hiểu được để thực hiện thiết kế chương trình nhận diện
khuôn mặt và danh tính học sinh trong lớp học phục vụ cho bài toán điểm danh
lớp học.
Về thực tiễn:
Mô phỏng thành công phương pháp nhận dạng hình ảnh để ứng dụng vào việc
quản lý học sinh ở nhà trường.
3. Các nghiên cứu liên quan đến đề tài
3.1. Các nghiên cứu trong nước
iên quan đến đề tài nhận dạng khuôn mặt, năm 2 1 có một nhóm sinh viên
Trường ĐH Bách khoa Hà Nội, ĐH Ngoại thương và ĐH inh tế quốc dân đã nghiên
cứu đề xuất nhận dạng khuôn mặt để giải quyết các vấn đề phát hiện khuôn mặt trong
một bức ảnh, từ đó đưa ra các nhận định về độ tuổi, giới tính, cảm xúc; xác thực khuôn

mặt để kiểm tra xem 2 khuôn mặt trong 2 bức ảnh có phải là một người hay không1.
3.2. Các nghiên cứu ngoài nước
Hiện nay trên thế giới đã có một số hệ thống tự động xác định hoặc nhận dạng
một người nào đó từ một bức hình ảnh kỹ thuật số hoặc một khung hình video từ một
nguồn video. Một trong những cách để thực hiện điều này là so sánh các đặc điểm
khuôn mặt chọn trước từ hình ảnh và một cơ sở dữ liệu về khuôn mặt. Các hệ thống
này thường được sử dụng trong các hệ thống an ninh và có thể được so sánh với các
dạng sinh trắc học khác như các hệ thống nhận dạng vân tay hay tròng mắt2.
Trong những ứng dụng chuyên biệt, các hệ thống này đã đạt được độ chính xác
cao và đã được ứng dụng thực tế như các hệ thống định danh bằng ảnh võng mạc, phân
tích DNA, nhận dạng vân tay hoặc các loại thông tin quan trắc khác. Tuy nhiên, trong
các ứng dụng giám sát công cộng còn nhiều hạn chế ví dụ việc phát hiện danh tính của
một người trong đám đông nơi công cộng sân bay, bến tàu. Như vậy, có thể phân loại
theo hướng ứng dụng khác nhau: (1) có sự bắt buộc người định danh chủ động trong
thu nhận thông tin; (2) chủ thể cần nhận dạng được thu nhận thông tin theo hình thức
bị động ví dụ hệ thống giám sát an ninh, phát hiện tội phạm trong đám đông. Đối với
loại thứ nhất, thông tin võng mạc, vân tay,... chỉ được thu nhận nếu bắt buộc chủ thể
phải sử dụng hệ thống để lấy thông tin. Tuy nhiên, có những bài toán giám sát yêu cầu
hệ thống phải chủ động và tự động hoàn toàn trong thu nhận dữ liệu thì việc thông tin
võng mạc, vân tay không thể thực hiện được. Do đó, các ứng dụng này, thông tin về
khuôn mặt, hình dáng người là những dữ liệu cần thiết để định danh. Giống như con
người, bộ não người có thể nhận dạng được tên của một người nếu họ đã từng biết
hoặc hình dáng đi quen đã từng biết. Trong nghiên cứu này, chúng tôi kỳ vọng có thể
nhận dạng định danh ra một số lượng lớn danh tính thông qua khuôn mặt bằng cách
cung cấp một lượng dữ liệu ảnh đã được phân loại theo định danh cho máy nhận dạng
để huấn luyện.
4. Mục tiêu, nhiệm vụ nghiên cứu
1

/> /> />2



3

4.1. Mục tiêu nghiên cứu
Trong đề tài này, tôi sẽ trình bày các bước cơ bản để phân tích nhận dạng hình
ảnh mà cụ thể ở đây là nhận dạng khuôn mặt trên cơ sở lý thuyết. Sau đó, đi sau
nghiên cứu để có thể nhận dạng và điểm danh một lớp học thông qua video, ảnh. Kết
quả và hướng phát triển của đề tài là một chương trình đơn giản kiểm tra tính chuyên
cần của học sinh tham gia lớp học
4.2. Nhiệm vụ nghiên cứu
Để hoàn thành những mục tiêu đã đặt ra, nhiệm vụ của đề tài là:
+ Về lý thuyết
- Tìm hiểu lý thuyết về xử lý ảnh, kỹ thuật nhận dạng hình ảnh, nhận dạng khuôn
mặt, các thuật toán cơ bản về nhận dạng khuôn mặt và định danh.
- Nghiên cứu xử lý hình ảnh và các thư viện hỗ trợ để có thể thực hiện demo việc
nhận dạng khuôn mặt và định danh.
+ Về thực tiễn
- Tạo cở sở dữ liệu ảnh nguồn từ thực tế bằng cách chụp hình các học sinh ở
trường THPT Đồng Hới để làm bộ dữ liệu cho việc nhận dạng khuôn mặt;
- Ứng dụng các thư viện mã nguồn viết chương trình đơn giản với đầu vào là ảnh
chụp hoặc video học sinh tham gia lớp học, kết quả là nhận dạng danh tính học sinh
trong ngày học đó.
5. Phạm vi của đề tài
Nghiên cứu về các phương pháp đã được đề xuất để nhận dạng hình ảnh, đặc biệt
là nhận dạng khuôn mặt trên thế giới theo những bài báo và nghiên cứu khoa học.
Nghiên cứu, khảo sát tình hình áp dụng công nghệ của trường THPT trong công
tác quản lý học sinh.
6. Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết

Nghiên cứu cơ sở lý thuyết về trí tuệ nhân tạo và các kỹ thuật nhận dạng và xử lý
ảnh
Đọc, nghiên cứu, phân tích, tổng hợp từ những tài liệu, bài báo và những nghiên
cứu khoa học liên quan đã được công bố ở Việt Nam và trên thế giới.
Phân tích đánh giá hệ thống nhận dạng, phát hiện mặt người, nhận dạng định
danh tính, sử dụng kỹ thuật trích xuất, biểu diễn đặc trưng và các mô hình nhận dạng
để nhận dạng phát hiện ra danh tính người.
Phương pháp nghiên cứu thực nghiệm
Cài đặt, thực nghiệm giải pháp kỹ thuật biểu diễn đặc trưng, máy phân trí tuệ
nhân tạo trong phân tích, biểu diễn dữ liệu và phân loại nhận dạng khuôn mặt.


4

Đánh giá tính hiệu quả của giải pháp ứng dụng kỹ thuật trí tuệ nhân tạo với các
cách tiếp cận khác về nhận dạng mặt người, nhận xét đánh giá về giải pháp tìm hiểu và
đề xuất ứng dụng.
Cài đặt thử nghiệm và đánh giá các cải tiến thuật toán nhận dạng mặt người bằng
kỹ thuật HOG, SVM,….


5

CHƯƠNG 1.

TỔNG QUAN VỀ XỬ LÝ ẢNH

1.1. Cơ bản về xử lý ảnh
1.1.1. Tổng quan về xử lý ảnh
Các phương pháp xử lý ảnh được bắt đầu từ các ứng dụng nhằm nâng cao chất

lượng ảnh như nâng cao độ sáng hay độ phân giải của hình ảnh,... bằng các phương
pháp phân tích được nghiên cứu trong giai đoạn thiết bị phần cứng bị hạn chế. Càng về
sau, nhờ sự phát triển của máy tính đã tạo điều kiện hơn nữa cho việc thực hiện các
thuật toán xử lý ảnh. Ứng dụng xử lý ảnh ngày càng được mở rộng sang nhiều lĩnh vực
như điều khiển tự động, kỹ thuật y sinh, giao thông thông minh, giám sát an ninh,...Xử
lý hình ảnh được thực hiện trên hầu hết các thiết bị có màn hình hiển thị như camera
kỹ thuật số, điện thoại thông minh, ti vi thông minh, máy tính xách tay[14].
Xử lý ảnh là một ngành khoa học mới so với nhiều ngành khoa học khác nhưng
tốc độ phát triển của nó rất nhanh. Nó được đưa vào giảng dạy ở bậc đại học trong
nước ta thời gian vài chục năm gần đây. à môn học liên quan đến nhiều lĩnh vực và
cần nhiều kiến thức cơ sở khác. Đầu tiên phải kể đến xử lý tín hiệu số là một môn học
hết sức cơ bản cho xử lý tín hiệu chung, các khái niệm về tích chập, các biến đổi
Fourier, biến đổi aplace, các bộ lọc hữu hạn… Thứ hai, các công cụ toán như Đại số
tuyến tính, xác suất, thống kê. Một số kiến thức cần thiết như Trí tuệ nhân tạo, Mạng
nơ ron nhân tạo cũng được đề cập trong quá trình phân tích và nhận dạng ảnh.
Nhiều phương pháp xử lý ảnh được tiến hành từ các ứng dụng chính: nâng cao
chất lượng và phân tích ảnh. Ứng dụng đầu tiên được biết đến là nâng cao chất lượng
ảnh báo được truyền qua cáp từ Luân Đôn đến New York từ những năm 1 2 . Vấn đề
nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng và độ phân giải của ảnh.
Việc nâng cao chất lượng ảnh được phát triển vào khoảng những năm 1
. Điều này
có thể giải thích được vì sau thế chiến thứ hai, máy tính phát triển nhanh tạo điều kiện
cho quá trình xử lý ảnh số thuận lợi. Năm 1 64, máy tính đã có khả năng xử lý và
nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi
đường biên, lưu ảnh. Từ năm 1 64 đến nay, các phương tiện xử lý, nâng cao chất
lượng, nhận dạng ảnh phát triển không ngừng[14].
Các phương pháp tri thức nhân tạo như mạng nơ ron nhân tạo, các thuật toán xử
lý hiện đại và cải tiến, các công cụ nén ảnh ngày càng được áp dụng rộng rãi và thu
nhiều kết quả khả quan. Để dễ tưởng tượng, xét các bước cần thiết trong xử lý ảnh, đầu
tiên, ảnh tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như Camera,

máy chụp ảnh).
1.1.2. Các thành phần trong hệ thống xử lý ảnh
Một hệ thống xử lý ảnh thường bao gồm các thành phần chính như thiết bị phần
cứng (máy ảnh) để chụp hình và lưu trữ dữ liệu, các công cụ phần mềm phục vụ xử lý
và giải quyết yêu cầu của chức năng hệ thống đề ra[15]. Trong lĩnh vực khoa học máy
tính, hệ thống xử lý ảnh là đối tượng nghiên cứu liên quan đến kỹ thuật thị giác máy
(computer vision), là quá trình biến đổi từ một ảnh ban đầu được thu nhận từ thiết bị
sang một không gian mới sao cho làm nổi bật đặc tính dữ liệu, thuận lợi cho quá trình
xử lý thông tin và nâng cao độ chính xác[16]. Một hệ thống xử lý ảnh thường gồm một
số thành phần chính sau[17]:


6

Thu nhận
hình ảnh

Tiền
xử lý

Trích chọn
đặc trưng

Phân loại,
nhận dạng
mẫu

Ra
quyết định


Biểu diễn
tri thức

nh 1.1. Sơ đồ tổng quát hệ thống xử lý ảnh[17]
Thu nhận ảnh là việc hình ảnh về thế giới thực được thu nhận và chuyển qua tín
hiệu ảnh rời rạc thông qua máy ảnh kỹ thuật số hoặc các thiết bị thu hình ảnh khác.
Tiền xử lý là bước xử lý trên ảnh đầu vào nhằm khử nhiễu, làm nổi bật một số tính
chất của ảnh nhằm nâng cao chất lượng các bước xử lý sau.
Trích chọn đặc trưng là quá trình biến đổi dữ liệu ảnh đầu vào thành tập các đặc
trưng. Các đặc trưng thường có đặc tính phân biệt cao của mẫu đầu vào giúp cho việc
phân biệt mẫu dữ liệu ảnh dễ dàng hơn nhằm nâng cao chất lượng phân loại mẫu so
với xử lý dữ liệu thô trên giá trị pixel ảnh. Việc trích chọn đặc trưng cũng có thể làm
giảm kích thước thể hiện thông tin trong ảnh trong khi dữ liệu về đặc trưng ảnh có tính
phân biệt cao.
Phân loại, nhận dạng mẫu là quá trình xử lý dữ liệu bằng các kỹ thuật, phương
pháp phân tích đặc trưng để phân loại mẫu về các nhóm có một số tính chất chung.
Các phương pháp phân loại, nhận dạng mẫu thường liên quan đến kỹ thuật học máy,
bao gồm cả học có giám sát và học không có giám sát.
Biểu diễn tri thức là bước thể hiện mức cao của biểu diễn dữ liệu, các mẫu dữ liệu
sau khi phân loại, nhận dạng được biểu diễn dưới dạng tri thức giúp hệ thống có khả
năng “hiểu biết” ngữ nghĩa của nó theo từng kiểu ứng dụng khác nhau trong hệ thống
trí tuệ nhân tạo và hệ thống thông minh.
Ra quyết định là bước cuối cùng của một hệ thống trong lĩnh vực hệ thống thông
minh. Các mẫu được biểu diễn dưới dạng tri thức và được suy luận ngữ nghĩa để đưa
ra các quyết định thực hiện một nhiệm vụ nào đó. Ví dụ trong hệ thống robot di
chuyển tự động, khi phát hiện chướng ngại vật, robot sẽ tự động ra quyết định tìm
kiếm đường đi mới và di chuyển theo đường đi khả thi.
1.1.3. Một số phép biến đổi ảnh
Biến đổi ảnh là việc áp dụng phương pháp nào đó để biến đổi ảnh đầu vào I và thu
được kết quả đầu ra I' theo mong muốn[17].


I
ảnh đầu vào

f(I)
biến đổi
ảnh
(a)

I'
ảnh đầu ra


7

Hough
transform

(b)
nh 1.2. Biến đổi ảnh (a) sơ đồ tổng quát (b) biến đổi ảnh bằng Hough[17]
Trong lĩnh vực xử lý ảnh, đối tượng dữ liệu ảnh có số phần tử điểm ảnh lớn, cần sử
dụng tính toán nhiều (độ phức tạp tính toán cao) dẫn đến yêu cầu dung lượng bộ nhớ
lớn cho lưu trữ ngoài và lưu trữ tạm thời trong quá trình xử lý đồng thời thời gian tính
toán lâu. Việc sử dụng các phương pháp xử lý dữ liệu truyền thống cho đối tượng dữ
liệu ảnh khó khả thi với độ chính xác cao và thời gian tính toán lớn. Do vậy, người ta
thường sử dụng các phép toán tương đương hoặc biến đổi từ miền dữ liệu này sang
miền dữ liệu khác nhằm giúp xử lý, tính toán dễ dàng hơn. Sau khi ảnh được biến đổi
và thực hiện xử lý tính toán xong, dữ liệu đầu ra sẽ được biến đổi ngược để đưa về
miền xác định ban đầu.
1.1.3.1. Lược đồ ảnh

ược đồ ảnh (histogram) là một đồ thị biểu diễn tần số xuất hiện của cường độ sáng
điểm ảnh theo các mức. Nói cách khác lược đồ Histogram của một hình ảnh biểu diễn
lược đồ về sự phân bố các mức cường độ xám của một bức ảnh.
Ví dụ: Cho ảnh đa mức xám đầu vào có kích thước là 64 ×4 pixels. Như vậy, số
lượng điểm ảnh 640×480 bằng 3 .2 điểm ảnh. Với ảnh đa mức xám 8bit thì các
điểm ảnh có giá trị nằm trong khoảng từ đến 2 . ược đồ ảnh là kết quả của việc
thực hiện thống kê có bao nhiêu điểm ảnh có giá trị 0 từ 3 .2 điểm ảnh đã cho,
tương tự thống kê số lượng điểm ảnh có giá trị bằng 1, thực hiện lặp lại cho các giá trị
cường độ sáng bằng 2,…2 . Như vậy, tổng các điểm ảnh phân phối theo các cường
độ sáng từ đến 255 này bằng 3 .2 . ược đồ có thể tính theo từng giá trị hoặc có
thể tính trong các khoảng giá trị[17].

nh 1.3. Lược đồ ảnh đa mức xám[17]


8

1.1.3.2. Điều chỉnh mức sáng
Mức sáng của ảnh là thuộc tính quan trọng, được dùng để biểu diễn giá trị độ
sáng của điểm ảnh. Mức sáng liên quan đến mức độ sáng tối của ảnh. Điểm ảnh có
mức sáng càng thấp (càng tối) thì giá trị điểm ảnh đó càng nhỏ (tối nhất là ) và ngược
lại ảnh càng sáng thì giá trị điểm ảnh càng lớn.
Điều chỉnh mức sáng (brightness adjustment) là một kỹ thuật khá cơ bản và đơn
giản trong lĩnh vực xử lý ảnh.
Ví dụ thay đổi mức sáng ảnh tại mỗi pixel theo công thức I'(x,y)= I(x,y)+b, với b là
hệ số điều chỉnh mức sáng, nếu b>0 thì thực hiện tăng mức sáng của điểm ảnh (làm
cho ảnh sáng hơn), ngược lại b<0 thì thực hiện giảm độ sáng của điểm ảnh (làm cho
ảnh trở nên tối hơn).
Đối với ảnh màu trong hệ không gian màu RGB, việc thay đổi mức sáng có thể thực
hiện thay đổi trên từng kênh màu R-G-B. Đối với hệ không gian màu HSV thì V là

thành phần biểu diễn mức sáng, việc thay đổi mức sáng tương ứng với thay đổi thành
phần V tương ứng[17].

(a)

(b)

nh 1.4. Điều chỉnh độ sáng của ảnh màu HSV[17]
1.1.3.3. Điều chỉnh độ tương phản
Thuộc tính về mức sáng tạo ra ảnh sáng hoặc tối, trong khi đó độ tương phản
(contrast adjustment) của ảnh tạo ra độ “dễ nhìn” (tương phản giữa các đối tượng) của
mỗi ảnh. Độ tương phản được hiểu là mức độ chênh lệch về độ sáng giữa các đối
tượng lân cận nhau, hoặc với các vùng ảnh nền trong ảnh. Nếu mức độ chênh lệch về
độ sáng của đối tượng với vùng nền càng thấp thì ta nói ảnh đó có độ tương phản thấp
và ngược lại độ chênh lệch càng cao có nghĩa là độ tương phản ảnh càng cao. Một ảnh
có độ tương phản thấp thì khi quan sát thấy ảnh ít có sự sắc nét giữa các thành phần
sáng-tối (đen- trắng) với nhau.
Ví dụ hình minh họa các ảnh có độ tương phản thấp với các giá trị cường độ sáng
phân bố tập trung ở khoảng giữa của dải cường độ sáng [0, 255]. Khi ảnh được điều
chỉnh độ tương phản cao hơn với các giá trị cường độ sáng phân phối tương đối đều
trong khoảng [0, 255], thì ảnh sáng rõ nét hơn với các vùng sáng tối[17].


9

1.1.3.4. Cân bằng lược đồ ảnh
Kỹ thuật cân bằng lược đồ ảnh (Histogram equalization) thường được sử dụng để
tăng cường độ tương phản ảnh. Ví dụ ảnh có lược đồ đa mức xám có giá trị điểm ảnh
không phân bố đều trong khoảng [0-255] mà chỉ tập trung trong một khoảng ngắn nào
đó thì nhiều khả năng ảnh có độ tương phản thấp. Mục tiêu của cân bằng lược đồ ảnh

là giúp biến đổi một ảnh có mức độ tương phản thấp thành ảnh có mức độ tương phản
cao hơn bằng cách giãn đều giá trị cường độ sáng của các điểm ảnh phân bố trên vùng
giá trị rộng hơn mà vẫn giữ được nội dung chính của bức ảnh.
Phương pháp cân bằng lược đồ ảnh có ưu điểm là đơn giản, tính toán dễ dàng, đồng
thời cho phép phục hồi lại trạng thái ảnh ban đầu khi cần thiết. Tuy nhiên, hạn chế
quan trọng của nó là dễ dàng làm tăng cường nhiễu trong ảnh, đồng thời làm giảm các
chi tiết quan trọng của hình ảnh[17].

(a)

(b)

nh 1.5. Cân bằng lược đồ: (a) ảnh gốc, (b) ảnh sau cân bằng[17].
+ Phương pháp cân bằng toàn cục là công việc điều chỉnh, làm cân bằng lại sự phân
bố các giá trị độ sáng điểm ảnh. Kỹ thuật cân bằng toàn cục được sử dụng trong việc
xử lý ảnh từ vệ tinh, chụp X-quang, ảnh đo nhiệt bức xạ,…
Thuật toán
1. Duyệt toàn bộ ảnh, tính xem ứng với mỗi bước sáng k
có bao nhiêu điểm ảnh và lưu vào mảng hist[k]
(k = 0,…, 255)
2. Duyệt mảng hist[k] và tạo mảng mới SumHist[k] lưu
trữ tổng số điểm ảnh có giá trị mức sáng từ 0 đến k.
3. Duyệt toàn bộ ảnh, thay thế mức sáng k của các điểm
ảnh tương ứng bằng mức sáng mới m với
m = (255/w*h) * SumHist [k].
Với w và h là chiều dài và chiều rộng của ảnh đầu vào.
+ Phương pháp cân bằng cục bộ là quan tâm đến từng phần của ảnh thay vì thực
hiện cân bằng trên toàn bộ bức ảnh. Cách tiếp cận cân bằng cục bộ giúp giải quyết vấn
đề trong ảnh có các vùng quá tối hoặc quá sáng được cân bằng tốt hơn. Một trong
những giới hạn chính của phương pháp cân bằng cục bộ là phải thực hiện lặp đi lặp lại



10

việc tính toán trên các phân vùng nhỏ nên dẫn đến thời gian tính toán rất lớn, không
phù hợp xử lý thời gian thực. Người ta thường tích hợp xử lý trên thiết bị chuyên dụng
như mạch tích hợp dùng cấu trúc mảng phần tử logic lập trình được (Fieldprogrammable gate array - FPGA).
1.2. Một số phương pháp tiền xử lý ảnh
1.2.1. Phép tích chập
Tích chập (Convolution) là kỹ thuật cơ bản và quan trọng, có nhiều ứng dụng
trong xử lý ảnh. Tích chập được sử dụng nhiều trong các phép toán trên ảnh như đạo
hàm ảnh, làm trơn ảnh, trích xuất cạnh và gần đây tích chập còn được các mạng neural
học sâu tích chập.
Trong toán học, tích chập là phép toán tuyến tính. Phép tích chập thường được ký
hiệu phép nhân tròn là . Tích chập thực hiện việc tính toán dựa vào hai hàm đã có f
và k, với f(x, y) được gọi là hàm ảnh và k(x, y) được gọi là nhân lọc (kernel) hay mặt nạ
(mask) có kích thước m×n (kích thước này thường nhỏ hơn nhiều kích thước ảnh).
Phép toán tích chập được thực hiện theo công thức[17].
m /2

k ( x, y)

n /2

f ( x, y)

k (u, v) f ( x u, y v)
u

m /2 v


1.1

n /2

Ma trận mặt nạ k trong tích chập ảnh được dịch chuyển theo từng điểm ảnh và áp
lên ảnh để thực hiện tính tích chập cho từng vị trí trên ảnh mới. Vị trí điểm gốc của
mặt nạ được lấy làm chuẩn khi tích chập được gọi là điểm neo (anchor point) của mặt
nạ tích chập. Điểm neo sẽ xác định vị trí khớp giữa mặt nạ tích chập với vị trí trên ảnh
đầu vào để tích chập. Thông thường điểm neo được chọn là tâm của mặt nạ lọc. Giá trị
mỗi phần tử trên mặt nạ được xem như hệ số tổ hợp với lần lượt giá trị độ xám của
từng điểm ảnh trong vùng tương ứng với mặt nạ.
Phép tích chập được hình dung là việc thực hiện dịch chuyển mặt nạ lần lượt qua tất
cả các vị trí trên ảnh, bắt đầu từ góc trên-trái đến dưới-phải của ảnh. Quá trình dịch
chuyển điểm neo được đặt tương ứng tại điểm ảnh đang xét và tiến hành tính tích chập.
Ở mỗi lần dịch chuyển, thực hiện tính toán kết quả tích chập mới cho điểm ảnh đang
xét bằng công thức tích chập như trên. Ví dụ sử dụng tích chập để thực hiện lọc nhiều
theo phương pháp lọc trung bình, với kích thước mặt nạ 5×5.

a) Ảnh grayscale

b) Ảnh được làm mờ bằng tích
chập

nh 1.6. Lọc ảnh bằng kỹ thuật tích chập[17]


11

1.2.2. Kỹ thuật lọc ảnh thông dụng

1.2.2.1. Lọc trung bình
Lọc trung bình là kỹ thuật lọc tuyến tính. Lọc trung bình hoạt động như một bộ
lọc thông thấp. Thuật toán lọc trung bình được mô tả tóm tắt như sau: Sử dụng một
cửa sổ lọc (filter kernel) có kích thước n×n, thực hiện tính toán tích chập với ảnh đầu
vào để thu được ảnh lọc. Tại mỗi vị trí điểm ảnh, lấy giá trị các điểm ảnh (từ ảnh đầu
vào) trong vùng n×n tại vị trí của cửa sổ lọc dịch chuyển hiện tại, tiến hành tích chập
với giá trị tương ứng của bộ lọc. Hay nói cách khác, giá trị các điểm ảnh của ảnh mới
sau khi lọc là giá trị trung bình của tất cả các điểm ảnh trong vùng lân cận n×n của nó
trong cửa sổ lọc với kích thước n×n.
Ví dụ sử dụng cửa ma trận lọc kích thước 3×3, đọc ảnh được lưu trữ trong máy tính
vào rồi thực hiện lọc trung bình, hiển thị ảnh trước khi lọc và sau khi lọc[17].
k

1 1 1 1
1 1 1
9 1 1 1

1.2

1.2.2.2. Lọc Sobel
Phương pháp lọc Sobel (Sobel filter) được dùng khá phổ biến để phát hiện cạnh các
đối tượng trong ảnh. Khác với lọc trung bình, phương pháp lọc Sobel sử dụng mặt nạ
với giá trị của các phần tử được phân phối theo quy tắc do Irwin Sobel đề xuất năm
1968 [1]. Hai mặt nạ lọc Sobel kx và ky theo hai hướng x và y tương ứng được xác định
như sau:
kx

1 0 1
2 0 2 và k y
1 0 1


1
0
1

2
0
2

1
0
1

1.3

Ngoài ra, kỹ thuật lọc Sobel còn có thể được sử dụng để tính xấp xỉ đạo hàm rời rạc
tương ứng trong các kỹ thuật xử lý gradient ảnh.
1.2.2.3. Lọc trung vị
Lọc trung vị (median filter) là kĩ thuật lọc phi tuyến được dùng để khử nhiễu khá
hiệu quả đối với các loại nhiễu đốm (speckle noise) và nhiễu muối tiêu (salt-pepper
noise). Thuật toán lọc trung vị được tóm tắt như sau: Sử dụng một cửa sổ lọc n×n quét
qua lần lượt từng điểm ảnh của ảnh đầu vào. Giá trị mỗi điểm ảnh mới được xác định
bằng cách lấy giá trị phần tử trung vị từ tập điểm ảnh lân cận tương ứng trong vùng
n×n của ảnh gốc. Để lấy giá trị trung vị, các giá trị trong vùng n×n được sắp xếp theo
thứ tự (tăng dần/ giảm dần). Lấy điểm ảnh nằm chính giữa (phần tử trung vị median)
từ dãy giá trị đã sắp xếp ở trên gán cho giá trị điểm ảnh đang xét của ảnh đầu ra sau
khi lọc.
1.2.2.4. Lọc Gaussian
Phương pháp lọc Gaussian (Gaussian filter) là kỹ thuật làm trơn ảnh được sử dụng
phổ biến trong tiền xử lý ảnh. Phương pháp này thực hiện tích chập ảnh ban đầu với

một cửa sổ lọc kích thước n×n, giá trị các phần tử trong cửa sổ lọc được xác định theo
phân bố Gaus (phân bố chuẩn Gaussian).


12

nh 1.7. Lọc Gaussian[17]
1.2.3. Biến đổi hình thái học
1.2.3.1. Tổng quan về hình thái học
Ảnh nhị phân có thể chứa thông tin không đầy đủ, đặc biệt các vùng ảnh nhị phân là
kết quả của những bộ lọc theo ngưỡng đơn giản, kết quả có thể bị méo hoặc nhiễu. Xử
lý hình thái học đối với ảnh nhằm mục đích khử nhiễu và khôi phục những khuyết
thiếu trong quá trình lọc phân đoạn ảnh nhằm làm cho kết quả thu được có chất lượng
tốt hơn bằng cách thực hiện các phép biến đổi về hình thức và cấu trúc hình ảnh. Như
vậy, biến đổi hình thái học trong xử lý ảnh là một tập hợp các phương pháp phi tuyến
tính liên quan đến hình dáng và sắc thái của đối tượng[2]. Các biến đổi hình thái chỉ
thực hiện trên giá trị điểm ảnh nhị phân, tuy nhiên nó có thể mở rộng để áp dụng cho
ảnh đa mức xám. Các kỹ thuật hình thái học trong xử lý ảnh dùng các mẫu hình dáng
nhỏ được gọi là phần tử cấu trúc. Các phép toán (có thể gọi là toán tử) hình thái
thường được xây dựng từ hai phép toán cơ bản là phép toán co (Erosion) và phép giãn
(Dilation).
Đối với ảnh nhị phân, phần tử cấu trúc là một mẫu có kích thước nhỏ, giá trị
phần tử gồm 0 và 1. Hay nói cách khác, phần tử cấu trúc là một ảnh nhị phân nhỏ, có
thể là một ma trận gồm các pixel mà mỗi phần tử của nó có giá trị bằng 0 hoặc 1.
Trong đó, các giá trị phần tử bằng 0 được bỏ qua trong tính toán và chỉ thực hiện
trên các phần tử có giá trị 1. Phần tử cấu trúc ảnh nhị phân được thể hiện như sau:
S(i,j) [0, 1]

1.4


Một toán tử hình thái trên ảnh nhị phân tạo ra một ảnh nhị phân mới với pixel có giá
trị khác 0 nếu và chỉ nếu việc kiểm tra thành công tại vị trí đang xét trên ảnh đầu vào.
Một số hình dạng của phần tử cấu trúc thường được sử dụng trên ảnh nhị phân
gồm hình dạng đường theo chiều ngang và dọc, hình vuông, hình ellipse,.... Các chiều
của ma trận xác định kích thước của phần tử cấu trúc và đồng thời cũng xác định kích
thước vùng lân cận trong quá trình xử lý hình thái học. Mẫu bố trí các số 1 và các số 0
xác định hình dạng của phần tử cấu trúc. Điểm gốc của phần tử cấu trúc thường được
xác định tại một trong các phần tử của ma trận phần tử cấu trúc, mặc dù tổng quát về
mặt lý thuyết, nó có thể nằm ngoài phần tử cấu trúc.


13

nh 1.8. Ví dụ các phần tử cấu trúc đơn giản [2]
Đối với ảnh đa mức xám, phần tử cấu trúc là cấu trúc không phẳng. Phần tử cấu
trúc sử dụng các giá trị 0 và 1 để xác định phạm vi cấu trúc trong mặt phẳng x, mặt
phẳng y và thêm giá trị độ cao để xác định chiều thứ ba. Như vậy, cấu trúc phần tử
không phẳng gồm hai phần:
+ Phần thứ nhất: Một mảng hai chiều gồm các p h ầ n t ử c ó giá trị 0 và 1.
Trong đó giá trị bằng 1 xác định lân cận có hiệu lực của phần tử cấu trúc.
+ Phần thứ hai: Một mảng hai chiều có kích thước bằng kích thước mảng hai
chiều ở phần thứ nhất nhưng chứa các giá trị số thực thể hiện độ cao của phần tử cấu
trúc.
1.2.3.2. Các phép co – giãn ảnh
+ Phép co ảnh erosion: Phép toán phát biểu trong trường hợp tổng quát với E là
không gian Euclid và A là ảnh nhị phân thuộc E, toán tử Erosion trên ảnh nhị phân A
và phần tử cấu trúc B ký hiệu là ! , được định nghĩa theo biểu thức tổ hợp như sau:
A ! B {z E | Bz

A}


1.5

Toán tử Erosion trên ảnh nhị phân của tập hợp A với phần tử cấu trúc B là tập hợp
các điểm z (z nằm ở điểm trung tâm phần tử cấu trúc B) sao cho Bz là tập con của A.
Ví dụ thực hiện phép Erosion với phần tử cấu trúc hình vuông để co hình dạng đối
tượng trong ảnh bằng cách loại bỏ đi các pixel từ cả hai bên biên ở phía trong và phía
ngoài của vùng đối tượng. Các vùng phía trong (holes) và khoảng trống (gaps) giữa các
vùng khác nhau sẽ trở nên to hơn và các chi tiết nhỏ sẽ bị loại bỏ. Thực hiện phép co
Erosion được minh họa như hình sau với phần tử cấu trúc vuông 3×3, kết quả thu được
là các vùng đối tượng được làm mảnh theo cả hai phía:

nh 1.9. Làm mỏng vùng bằng phép toán co ảnh [2]


14

+ Phép giãn ảnh
Gọi A là ảnh gốc, B là một phần tử cấu trúc. Phép giãn ảnh (Dilation) nhị phân của
ảnh A với phần tử cấu trúc B kí hiệu là A B. Toán tử giãn ảnh được biểu diễn dưới
dạng phép toán tổ hợp sau:
A

B

B

A

Ba

a A

Ab

1.6

b B

Phép giãn ảnh nhị phân của tập A bởi phần tử cấu trúc B là tập hợp các điểm z (z là
điểm trung tâm của phần tử cấu trúc B trên tập A) sao cho phản xạ của Bz giao với tập
A tại ít nhất một điểm.

nh 1.10. Làm đậm vùng bằng phép toán giãn ảnh[2].
1.2.3.3. Phép mở ảnh
Cho ảnh nhị phân A và B là phần tử cấu trúc, phép mở ảnh (openning) (ký hiệu là
) giữa tập A và tập B được xác định bởi công thức sau:
A B

( A ! B)

B

1.7

1.2.3.4. Phép đóng ảnh
Tập hợp A là ảnh gốc, B là phần tử cấu trúc và phép đóng ảnh ký hiệu là . Phép
đóng ảnh của tập hợp A bởi phần tử cấu trúc B, kí hiệu (A B) được xác định:
A• B (A

B) ! B


1.8

Trong xử lý ảnh, phép đóng và phép mở là những phép xử lý cơ bản trong khử
nhiễu hình thái học. Phép mở giúp loại bỏ những đối tượng nhỏ trong khi phép đóng
giúp loại bỏ những lỗ nhỏ trong đối tượng.
1.3. Phương pháp phát hiện biên
1.3.1. Tổng quan về xử lý biên
- Điểm Biên: Một điểm ảnh được coi là điểm biên nếu có sự thay đổi nhanh hoặc
đột ngột về mức xám (hoặc màu). Ví dụ trong ảnh nhị phân, điểm đen gọi là điểm biên
nếu lân cận nó có ít nhất một điểm trắng.
- Đường biên (đường bao: boundary): tập hợp các điểm biên liên tiếp tạo thành
một đường biên hay đường bao.
- Ý nghĩa của đường biên: đường biên là một loại đặc trưng cục bộ tiêu biểu
trong phân tích, nhận dạng ảnh. Người ta sử dụng biên làm phân cách các vùng xám


15

(màu) cách biệt.
1.3.2. Một số phương pháp phát hiện biên
1.3.2.1. Trích chọn biên bằng phương pháp Sobel
Để lọc cạnh theo kỹ thuật mặt nạ Sobel, cần sử dụng hai mặt nạ có kích thước
3×3 để lọc cạnh theo hướng ngang và hướng dọc. Hai mặt nạ chỉ đơn thuần là quay
mặt nạ của nhau một góc /2.
Px

1 0 1
2 0 2 và Py
1 0 1


1 2 1
0 0 0
-1 -2 -1

1.9

Để thực hiện phát hiện cạnh theo mỗi hướng, ta thực hiện phép tích chập
(convolution) giữa ảnh đầu vào với các mặt nạ để thu được bảng gradient theo chiều
dọc Gy và chiều ngang Gx. Như vậy, sau khi tích chập ảnh gốc với các mặt nạ Sobel
theo mỗi hướng ta thu được gradient theo từng hướng tương ứng. Cuối cùng để trích
chọn biên ta sử dụng thêm phép lọc dựa vào ngưỡng để phân loại các điểm ảnh thuộc
về biên và các điểm ảnh không thuộc về đường biên.
Toán tử Sobel được thiết kế để đáp ứng tối đa các cạnh theo chiều dọc và chiều
ngang liên quan đến lưới các điểm ảnh. Nó giúp phân tích cạnh theo 2 hướng vuông
góc với nhau.

(a)

(b)

1.11. Trích chọn cạnh bằ g p ươ g p áp Sobel: (a) ảnh gốc (b) kết quả [17]
1.3.2.2. Trích chọn biên bằng phương pháp Prewitt
Tương tự như trích chọn đường biên bằng mặt nạ Sobel, phương pháp này cũng
sử dụng hai mặt nạ có kích thước 3×3 để lọc cạnh theo hướng ngang và hướng dọc với
trọng số theo đề xuất của Prewitt như sau:
Px

1 0 1
1 0 1 và Py

1 0 1

1 1 1
0 0 0
-1 -1 -1

1.10

Hai mặt nạ cũng là phép quay của nhau một góc /2 và phép tích chập giữa ảnh
đầu vào với mặt nạ Prewitt để thu được bảng giá trị gradient theo chiều dọc Gy và
chiều ngang Gx. Để thu được kết quả cuối cùng, một ngưỡng được sử dụng để lọc trích
chọn cạnh của đối tượng.


16

nh 1.12. Trích chọn cạnh bằng phương pháp Prewitt[17]
1.3.2.3. Trích chọn biên bằng phương pháp Canny
Khác với các phương pháp trích chọn biên trước, phương pháp Canny thực hiện
nhiều bước phức tạp để đạt được kết quả tốt hơn. Phương pháp Canny được đề xuất
năm 1 6 bởi John Canny [3]. Ngày nay, Canny được dùng khá phổ biến trong nhiều
lĩnh vực khác nhau của thị giác máy tính.
Thuật toán Canny gồm các bước chính được mô tả như sau:
Bước 1: Sử dụng bộ lọc Gaussian để làm trơn ảnh nhằm khử nhiễu và tác động
của nhiễu.
Bước này thực hiện tính tích chập ảnh đầu vào với mặt nạ trọng số theo phân
phối Gaussian (gọi là mặt nạ Gaussian). Mặt nạ Gaussian H có thể khởi tạo theo công
thức:
H ij


1
2

exp
2

(i (k 1)) 2 ( j (k 1)) 2
2 2

where 1 i, j

(2k 1)

1.11

Ví dụ mặt nạ Gaussian được xấp xỉ theo phân phối với độ lệch chuẩn =1.4, kích
thước × để tích chập với ảnh đầu vào I như sau:

IS

2 4 5 4 2
1 4 9 12 9 4
5 12 15 12 5
159 4 9 12 9 4
2 4 5 4 2

I

1.12


Bước 2: Tính gradient ảnh dựa vào cường độ sáng điểm ảnh (thường áp dụng
trên ảnh đen trắng đa mức xám).
Bước này có thể được thực hiện bằng cách tích chập ảnh kết quả của bước 1 với
hai toán tử Sobel theo 2 hướng dọc (trục tung) và hướng ngang (trục hoành) để xấp xỉ
với đạo hàm bậc nhất theo hướng dọc Gy và ngang Gx. Sau đó tính độ lớn và hướng
của gradient theo công thức.
Độ lớn gradient G M

G x2 G y2

1.13

Hướng gradient GO

atan 2 G y , G x

1.14


×