Tải bản đầy đủ (.pdf) (71 trang)

NHẬN DẠNG CỬ CHỈ BÀN TAY BẰNG PP MẠNG NƠRON

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.77 MB, 71 trang )

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH
KHOA ĐIỆN ĐIỆN TỬ
BỘ MÔN KỸ THUẬT MÁY TÍNH -VIỄN THÔNG

ĐỒ ÁN 2

NHẬN DẠNG CỬ CHỈ BÀN TAY NGƯỜI BẰNG
PHƯƠNG PHÁP MẠNG NƠ-RON
Ngành Công Nghệ Kỹ Thuật Điện Tử Truyền Thông

Sinh viên: ĐẶNG VĂN THUẬN
MSSV: 12141223
NGUYỄN NGỌC DUY LÂM
MSSV: 12141577
Hướng dẫn: ThS. TRƯƠNG QUANG PHÚC

TP. HỒ CHÍ MINH – 1/2016
I


LỜI CẢM ƠN
Đồ án môn học 2 được hoàn thành tại khoa Điện – Điện Tử trường Đại
học Sư phạm Kỹ thuật TP. Hồ Chí Minh. Có được đề tài này là dựa trên ý tưởng của
nhóm dưới sự hướng dẫn và chỉ bảo tận tình của Thầy Th.s Trương Quang Phúc.
Do khoảng thời gian và kiến thức còn hạn hẹp, mặc dù nhóm đã cố gắng
hoàn thành đồ án môn học 2 này đúng thời hạn. Nhưng không tránh khỏi những
thiếu xót mong Quý thầy cô thông cảm. Nhóm mong nhận được những ý kiến đóng
góp tận tình của quý thầy cô và các bạn.
Cuối cùng nhóm thực hiện xin gửi lời chân thành cảm ơn đến Thầy Th.s
Trương Quang Phúc đã hướng dẫn và các Thầy (cô) trong khoa Điện - Điện Tử đã
tạo điều kiện cho nhóm thực hiện và hoàn thành đề tài này.


Tp. Hồ Chí Minh, tháng 1 năm 2016
Nhóm sinh viên thực hiện
Đặng Văn Thuận-Nguyễn Ngọc Duy Lâm

II


MỤC LỤC
CHƯƠNG 1:

TỔNG QUAN ................................................................................. 1

1.1. GIỚI THIỆU .................................................................................................. 1
1.2. LÝ DO CHỌN ĐỀ TÀI ................................................................................. 1
1.3. NHIỆM VỤ CỦA ĐỀ TÀI ............................................................................ 2
1.4. GIỚI HẠN ĐỀ TÀI ....................................................................................... 2
1.5. CÁC PHƯƠNG PHÁP THỰC HIỆN ........................................................... 2
CHƯƠNG 2:

CƠ SỞ LÝ THUYẾT ..................................................................... 4

2.1. XỬ LÝ ẢNH VÀ CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH ........... 4
2.1.1.

Khái niệm xử lý ảnh ............................................................................. 4

2.1.2.

Những vấn đề cơ bản trong hệ thống xử lý ảnh .................................. 6


2.2. CÁC KỸ THUẬT XỬ LÝ ẢNH SỐ .......................................................... 11
2.2.1.

Mục đích của việc xử lý ảnh số. ........................................................ 11

2.2.2.

Kỹ thuật nâng cao chất lượng ảnh .................................................... 11

2.2.3.

Kỹ thuật biến đổi ảnh ........................................................................ 12

2.2.4.

Kỹ thuật phân tích ảnh ...................................................................... 12

2.2.5.

Kỹ thuật nhận dạng ảnh .................................................................... 12

2.3. CÁC KỸ THUẬT XỬ LÝ ẢNH SỐ .......................................................... 13
2.3.1.

Giới thiệu ........................................................................................... 13

2.3.2.

Không gian màu RGB........................................................................ 14


2.3.3.

Không gian màu YCrCb .................................................................... 15

2.3.4.

Không gian màu HSV ........................................................................ 16

2.3.5.

Phát hiện bàn tay dựa trên màu da ................................................... 17

2.4. TỔNG QUAN VỀ BIÊN VÀ CÁC KỸ THUẬT TÁCH BIÊN ................. 20
2.4.1.

Tổng quan về biên ............................................................................. 20

2.4.2.

Kỹ thuật phát hiện biên Gradient ...................................................... 21

2.4.3.

Kỹ thuật Gradient .............................................................................. 22

2.4.4.

Toán tử Robert ................................................................................... 22

2.4.5.


Toán tử Sobel ..................................................................................... 23
III


2.5. TỔNG QUAN VỀ MÔ HÌNH MẠNG NƠ-RON ....................................... 23
2.5.1.

Giới thiệu mạng nơ-ron ..................................................................... 23

2.5.2.

Mạng Perceptron ............................................................................... 27

2.5.3.

Mạng Perception đa lớp .................................................................... 31

CHƯƠNG 3:

THIẾT KẾ HỆ THỐNG VÀ KẾT QUẢ MÔ PHỎNG ............ 34

3.1. THIẾT KẾ HỆ THỐNG .............................................................................. 34
3.1.1.

Sơ đồ khối .......................................................................................... 34

3.1.2.

Yêu cầu về dữ liệu ảnh ...................................................................... 36


3.2. TIẾN TRÌNH NHẬN DẠNG ...................................................................... 36
........................................................................................................................... 36
3.2.1.

Chuẩn hóa ảnh đầu vào..................................................................... 37

3.2.2.

Trích chọn đặc trưng ảnh .................................................................. 37

3.2.3.

Huấn luyện dùng mạng Nơ-ron ......................................................... 39

3.2.4.

Xuất kết quả hệ thống nhận dạng cử chỉ ........................................... 43

3.3. KẾT QUẢ .................................................................................................... 43
3.3.1.

Nhận dạng ảnh tỉnh ........................................................................... 43

3.4. ĐÁNH GIÁ ĐỘ CHÍNH XÁC .................................................................... 48
CHƯƠNG 4:

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI ...................... 50

4.1. KẾT LUẬN ................................................................................................. 50

4.2. ĐÁNH GIÁ HỆ THỐNG NHẬN DẠNG ................................................... 50
4.2.1.

Ưu điểm ............................................................................................. 50

4.2.2.

Khuyết điểm ....................................................................................... 50

4.3. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI ....................................................... 51
PHỤ LỤC
MÃ NGUỒN CHƯƠNG TRÌNH ........................................................................... 52
TÀI LIỆU THAM KHẢO ...................................................................................... 67

IV


CHƯƠNG 1:
TỔNG QUAN
1.1. GIỚI THIỆU
Ngày nay dưới sự phát triển rộng rãi của các ứng dụng công
nghệ thông tin vào trong cuộc sống, việc tương tác giữa con người và
thiết bị ngày càng trở nên quan trọng hơn. Trước đây, bàn phím và
chuột là các giao diện chính để giao tiếp giữa người và máy tính. Trong
các lĩnh vực khác cần tới các thông tin 3D, chẳng hạn như trò chơi máy
tính, robot và lĩnh vực thiết kế… Các thiết bị cơ khí khác như bóng lăn,
cần điều khiển hay các gang tay dữ liệu đã được sử dụng. Tuy nhiên
con người giao tiếp chủ yếu bởi “nghe” và “nhìn”, do đó một giao diện
người – máy sẽ trực quan hơn nếu con người có thể điều khiển máy
tính bằng giọng nói hay cử chỉ giống như khi tương tác giữa người với

người trong thế giới thực mà không cần thông qua các thiết bị điều
khiển khác như chuột hay bàn phím. Một ưu điểm khác là người dùng
có thể giao tiếp từ xa mà không cần phải có tiếp xúc với vật lý với máy
tính. So với các hệ thống điều khiển bằng lệnh âm thanh, một hệ thống
thị giác sẽ thích hợp hơn trong môi trường ồn ào hoặc trong trường hợp
âm thanh bị nhiễu.
Phát hiện vùng da là một công cụ rất hữu ích trong việc nhận
dạng ảnh. Nó cho phép nhiều khu vực của một ảnh được loại bỏ một
cách nhanh chóng và hiệu quả, mà không lãng phí thời gian để làm
tương quan tốn kém hoặc các hình thức tính toán phân tích đắt tiền
khác.
1.2. LÝ DO CHỌN ĐỀ TÀI
Nhận dạng các cử chỉ bàn tay người là cách tự nhiên khi
tương tác người – máy và ngày nay nhiều nhà nghiên cứu trong các học
viện và ngành công nghiệp đang quan tâm đến hướng này. Nó cho phép
con người tương tác với máy rất dễ dàng và thuận tiện mà không cần
phải mang thêm bất kỳ thiết bị nào khác. Đã có rất nhiều ứng dụng dựa
trên cử chỉ bàn tay như: Thiết kế 3D, điều khiển từ xa, ngôn ngữ ký
hiệu… Nhận thấy tác dụng của nhận dạng cử chỉ nên nhóm quyết định
chọn đè tài này để nghiên cứu.
1


1.3. NHIỆM VỤ CỦA ĐỀ TÀI
-

Tìm hiểu tổng quát về lý thuyết xử lý ảnh.
Tìm hiểu phương pháp mạng nơ-ron tiến hành nhận dạng cử chỉ.
Tìm hiểu và mô phỏng các lệnh liên quan đến đề tài dùng phần mềm matlab
2014.

Rèn luyện kỹ năng nghiên cứu tài liệu.

1.4. GIỚI HẠN ĐỀ TÀI
Do thời gian tiến hành nghiên cứu đề tài và tài liệu liên quan có hạn. Mục
tiêu của đề tài này chỉ dừng lại ở mức độ tìm hiểu lý thuyết bản chất của phát hiện
bàn tay dựa trên màu da và nhận dạng dùng mạng nơ-ron, sau đó mô phỏng để kiểm
chứng kết quả nên còn nhiều hạn chế.

1.5. CÁC PHƯƠNG PHÁP THỰC HIỆN
Thực hiện đề tài.
 Phân tích đề tài, tìm hiểu lý thuyết liên quan, tìm hiểu cách xác định màu da,
tìm hiểu các hàm trên matlab và cách huấn luyện để nhận dạng.
 Vận dụng kiến thức đã học về xử lí ảnh, mô phỏng mạch và hệ thống và các
môn đã học có liên quan để tiến hành kiểm chứng.


Nội dung chính:
 Chương 1: Tổng quan về xử lý ảnh
 Chương 2: Cơ sở lý thuyết
-

Xử lý ảnh và các vấn đề trong xử lý ảnh

-

Các kỹ thuật xử lý ảnh số

-

Các loại không gian màu


-

Tổng quan về biên và các kỹ thuật tách biên

-

Tổng quan về mô hình mạng nơ-ron

 Chương 3: Thiết kế hệ thống và kết quả mô phỏng

2


-

Thiết kế hệ thống

-

Tiến trình nhận dạng

-

Kết quả mô phỏng

 Chương 4: Kết luận và hướng phát triển đề tài
-

Kết luận


-

Hướng phát triển của đề tài

3


CHƯƠNG 2:
CƠ SỞ LÝ THUYẾT
2.1. XỬ LÝ ẢNH VÀ CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH
2.1.1.

Khái niệm xử lý ảnh

Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai
trò quan trọng nhất. Những năm trở lại đây với sự phát triển của phần cứng máy
tính, xử lý ảnh và đồ họa phát triển một cách mạnh mẽ và có nhiều ứng dụng trong
cuộc sống. Xử lý ảnh và đồ họa đóng vai trò quan trọng trong tương lai người máy.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm
cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một
ảnh “tốt hơn” hay một kết luận.
Ảnh “tốt hơn”
Ảnh

XỬ LÝ ẢNH
Kết luận
Hình 2.1: Quá trình xử lý ảnh

Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là

đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng
trong không gian và nó có thể xem như một hàm n biến P(c1, c2,…., cn). Do đó, ảnh
trong xử lý có thể xem như ảnh n chiều. Các bước cơ bản trong hệ thống xử lý ảnh
được mô tả qua hình 1.2.

Hình 2.2: Các bước cơ bản trong một hệ thống xử lý ảnh
Sơ đồ trên bao gồm các thành phần sau:
4


- Thu nhận ảnh (Image Acquisition): ảnh có thể nhận qua camera màu hoặc
đen trắng. Chất lượng một ảnh thu được phụ thuộc vào thiết bị thu, môi trường (ánh
sáng, phong cảnh).
- Tiền xử lý ảnh (Image Processing): sau bộ thu nhận, ảnh có thể nhiễu, độ
tương phản thấp nên cần đưa vào bộ tiền xử lý để nâng cao chất lượng. Chức năng
chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn.
- Phân đoạn ảnh (Segmentation): tách một ảnh đầu vào thành các vùng thành
phần để biểu diễn, phân tích, nhận dạng. Đây là phần phức tạp khó khăn nhất trong
xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh. Kết quả nhận dạng ảnh
phụ thuộc rất nhiều vào công đoạn này.
- Biểu diễn ảnh (Image Representation): đầu ra của ảnh sau phân đoạn chứa
các điểm ảnh của vùng ảnh (ảnh đã phân đoạn) cộng với mã liên kết với các vùng
lân cận. Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý
tiếp theo bằng máy tính. Nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng mịn và
càng thể hiện rõ hơn chi tiết của ảnh.
- Nhận dạng và nội suy ảnh (Image Recognition and Interpretation): nhận
dạng ảnh là quá trình xác định ảnh. Quá trình này thường thu được bằng cách so
sánh với mẫu chuẩn đã được học (hoặc lưu) từ trước. Nội suy là phán đoán theo ý
nghĩa trên cơ sở nhận dạng. Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì
thư có thể được nội suy thành mã điện thoại. Có nhiều cách phân loại ảnh khác nhau

về ảnh. Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh được phân theo
hai loại nhận dạng ảnh cơ bản:
 Nhận dạng theo tham số.
 Nhận dạng theo cấu trúc.
Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong
khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử),
nhận dạng văn bản (Text), nhận dạng cử chỉ, nhận dạng vân tay, nhận dạng mã vạch,
nhận dạng mặt người…
- Cơ sở tri thức (Knowledge Base): ảnh là một đối tượng khá phức tạp về
đường nét, độ sáng tối, dung lượng điểm ảnh, môi trường để thu ảnh phong phú kéo
theo nhiều. Trong nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các
phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước
quy trình tiếp nhận và xử lý ảnh theo cách của con người. Trong các bước xử lý đó,
nhiều khâu hiện nay đã xử lý theo các phương pháp trí tuệ con người.

5


Hình 2.3: Sơ đồ phân tích và xử lý ảnh và lưu đồ thông tin giữa các khối

2.1.2. Những vấn đề cơ bản trong hệ thống xử lý ảnh
2.1.2.1 Điểm ảnh (pixel)
Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng. Để xử lý bằng
máy tính (số), ảnh cần phải được số hoá. Số hoá ảnh là sự biến đổi gần đúng một
ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và độ
sáng (mức xám). Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt
người không phân biệt được ranh giới giữa chúng. Mỗi một điểm như vậy gọi là
điểm ảnh (PEL: Picture Element) hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai
chiều, mỗi pixel ứng với cặp tọa độ (x, y).
Định nghĩa: Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với

độ xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được
chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám
(hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được gọi là một
phần tử ảnh.
Một file ảnh là tập hợp nhiều điểm ảnh được minh họa hình 2.1.

6


Hình 2.4: Mảng hai chiều của một file ảnh
Vậy ảnh được xem như một ma trận tọa độ ảnh. Do đó hàm f(x,y) còn có thể
biểu diễn dưới dạng ma trận như sau:
𝒇(𝟎, 𝟎)𝒇(𝟎, 𝟏) …
𝒇(𝟎, 𝑵 − 𝟏)
𝒇(𝟏, 𝟎)𝒇(𝟏, 𝟏) …
𝒇(𝟏, 𝑵 − 𝟏)
.
.
.
f(x,y)=
.
.
.
.
.
.
[𝒇(𝑴 − 𝟏, 𝟎)𝒇(𝑴 − 𝟏, 𝟏) … 𝒇(𝑴 − 𝟏, 𝑵 − 𝟏)]

(2.1)


Hay
𝒂𝟎,𝟎 𝒂𝟎,𝟏 …
𝒂𝟏,𝟎 𝒂𝟏,𝟏 …
.
.
A=
.
.
.
.
[𝒂𝑴−𝟏,𝟎 𝒂𝑴−𝟏,𝟏 …

𝒂𝟎,𝑵−𝟏
𝒂𝟏,𝑵−𝟏
.
.
.
𝒂𝑴−𝟏,𝑵−𝟏 ]

Trong đó, ai,j = f(x=i,y=j)=f(i,j) , với M là số hàng, N là số cột.

7

(2.2)


2.1.2.2 Ảnh
Ảnh được xem như là một tập hợp các điểm ảnh.
Bất kỳ hình ảnh từ một máy quét hoặc từ một camera số hay trong máy tính
là một hình ảnh kỹ thuật số. Hình ảnh máy tính đã được “số hóa”, đây là quá trình

chuyển đổi từ hình ảnh màu sắc thực tế thành các dữ liệu số bao gồm các hàng và
cột của hàng triệu mẫu màu được đo từ hình ảnh ban đầu.
2.1.2.3 Độ phân giải của ảnh
Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một
ảnh số được hiển thị. Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được
chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng
cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân
bố theo trục x và y trong không gian hai chiều.
2.1.2.4 Mức xám của ảnh
Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x, y) của điểm ảnh
và độ xám của nó.
Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số tại
điểm đó.
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256. Mức 256 là
mức phổ dụng vì kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám:
Mức xám dùng 1 byte biểu diễn: 28=256 mức, tức là từ 0 đến 255.

Hình 2.4: Minh họa mức xám sau khi mã hóa
8


2.1.2.5 Ảnh nhị phân
Là ảnh chỉ có 2 mức đen trắng phân biệt, tức dùng 1 bit mô tả 21 mức khác nhau.
Nói cách khác, mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1.

Hình 2.5: Minh họa ảnh nhị phân sau khi mã hóa
2.1.2.6 Ảnh màu RGB
Ảnh RGB còn gọi là ảnh “truecolor” do tính trung thực của nó. Ảnh này được
biểu diễn bởi một ma trận ba chiều kích thước m x n x 3, với m x n là kích thước
ảnh theo pixels. Ma trận này định nghĩa các thành phần màu red, green, blue cho

mỗi điểm ảnh, các thành phần của nó có thể thuộc kiểu uint8, uint16, hoặc double.
Ví dụ, điểm ảnh ở vị trí (10,5,1), (10,5,2), (10,5,3). Các file ảnh hiện nay thường sử
dụng 8 bit cho một thành phần màu, nghĩa là mất 24 bit cho mỗi điểm ảnh (khoảng
16 triệu màu). Theo lý thuyết màu do Thomas đưa ra mọi màu đều có thể tổ hợp từ 3
màu cơ bản sau:
Red :  (R) = 700nm.
Green :  (G) = 546.1 nm.
Blue :  (B) = 435.8 nm.
Cũng theo tổ chức quốc tế về chuẩn hóa màu CIE (Commision
Internationaled Eclairage ) đã đưa ra một số tiêu chuẩn để biểu diễn màu.
9


Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới
màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu là 28x3
= 224 =16,7 triệu màu.

Hình 2.6: Mô hình màu RGB

Hình 2.7: Minh họa ảnh màu sau khi mã hóa
10


2.1.2.7 Chuyển ảnh màu RGB thành ảnh mức xám ( Gray level)
Ảnh gốc thường là ảnh màu 24 bit màu nên khó nhận dạng ta cần phải
chuyển về ảnh xám dữ liệu 8 bit để dễ nhận dạng hơn. Nghĩa là mỗi pixel được biểu
diễn 256 cấp độ xám theo công thức:
X= 0,2125*R + 0,7145*G + 0,0721*B

(2.3)


Quá trình chuyển đổi mức xám tuy có làm mất đi một số thông tin nhưng cũng có
thể chấp nhận được.

2.2. CÁC KỸ THUẬT XỬ LÝ ẢNH SỐ
2.2.1.

Mục đích của việc xử lý ảnh số.
Mục đích đặt ra cho việc xử lý ảnh bao gồm hai mục đích:
 Thứ nhất: Biến đổi ảnh hay sự tăng cường ảnh nhằm thu lại ảnh tốt hơn.
Để rồi từ đó nhận được nhiều thông tin về ảnh hơn, ta có thể quan sát và
đánh giá được.
 Thứ hai: Nhận dạng ảnh hay đón nhận ảnh một cách tự động.

2.2.2. Kỹ thuật nâng cao chất lượng ảnh
Nâng cao chất lượng ảnh là một bước quan trọng tạo tiền đề cho xử lý ảnh.
Làm nổi bật một số đặc tính của ảnh như thay đổi độ tương phản, lọc nhiễu, nổi
biên, làm trơn biên ảnh, ... nhằm hoàn thiện trạng thái quan sát của một ảnh.
Tăng cường ảnh không phải là làm tăng lượng thông tin vốn có trong ảnh làm
nổi bật các đặc trưng đã chọn. Tức điều chỉnh mức xám của điểm ảnh. Dùng phương
pháp ánh xạ làm thay đổi giá trị điểm sáng.
Khôi phục ảnh bao gồm quá trình lọc ảnh, khử nhiễu do môi trường bên
ngoài hay các hệ thống thu nhận, phát hiện và lưu trữ ảnh thu được, thông qua các
bộ lọc trong miền không gian và trong miền biến đổi. Nhằm làm giảm bớt các biến
dạngđể khôi phục lại ảnh giống như ảnh gốc.
Kỹ thuật nâng cao chất lượng ảnh gồm : các kỹ thuật không phụ thuộc vào
11


không gian và các kỹ thuật phụ thuộc vào không gian.

Kỹ thuật không phụ thuộc vào không gian bao gồm các phép như : tăng giảm
độ sáng, tách ngưỡng, bó cụm, cân bằng histogram, tách ngưỡng tự động, biến đổi
cấp xám tổng thể...
Kỹ thuật phụ thuộc vào không gian bao gồm các phép như : phép cuộn và
mẫu, lọc trung vị, lọc trung bình, ....

2.2.3. Kỹ thuật biến đổi ảnh
Thuật ngữ biến đổi ảnh thường dùng để nói tới một lớp các ma trận đơn vị, và
các kỹ thuật dùng để biến đổi ảnh làm giảm thứ nguyên của ảnh để việc xử lý ảnh
được hiệu quả hơn. Có nhiều loại biến đổi được dùng như: biến đổi Fourier, Sin,
Cosin,…

2.2.4.

Kỹ thuật phân tích ảnh
Phân tích ảnh liên quan đến việc xác định các độ đo định lượng của một ảnh

để đưa ra một mô tả đầy đủ về ảnh. Nhằm mục đích xác định biên của ảnh. Có nhiều
kỹ thuật khác nhau như lọc vi phân hay dò theo quy hoạch động. Người ta cũng
dùng các kỹ thuật để phân vùng ảnh. Từ ảnh thu được, người ta tiến hành kỹ thuật
tách hay hợp dựa theo các tiêu chuẩn đánh giá như: màu sắc, cường độ….. Phương
pháp được biết đến như nhị phân hóa đường biên. Cuối cùng, phải kể đến các kỹ
thuật phân lớp dựa theo cấu trúc.

2.2.5. Kỹ thuật nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta
muốn đặc tả nó. Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc tính
chủ yếu của đối tượng. Có hai kiểu mô tả đối tượng :
 Mô tả tham số ( nhận dạng theo tham số).
 Mô tả theo cấu trúc ( nhận dạng theo cấu trúc).

Người ta đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng
12


khác nhau như : nhận dạng ảnh vân tay, nhận dạng chữ (chữ cái, chữ số, chữ có
dấu).

2.3. CÁC KỸ THUẬT XỬ LÝ ẢNH SỐ
2.3.1. Giới thiệu
Như ta đã biết thì khi cho ánh sáng trắng đi qua lăng kính ta sẽ thu được một
dãy phổ màu bao gồm 6 màu rộng: tím , lam , lục , vàng , cam , đỏ. Nếu nhìn kỹ thì
sẽ không có ranh giới rõ ràng giữa các màu mà màu này sẽ từ chuyển sang màu
kia.Mắt chúng ta nhìn thấy được là do ánh sáng phản xạ từ vật thể.
Tất cả các màu được tạo ra từ 3 màu cơ bản (màu sơ cấp) là: đỏ (R),lam (B)
và lục (G).Các màu cơ bản trộn lại với nhau theo một tỉ lệ nhất định để tạo ra các
màu thứ cấp.
Lược đồ xám của ảnh: Một phương pháp thường dùng trong xử lí ảnh số là
xem xét cường độ sáng của ảnh f(x,y) như là biến ngẫu nhiên có hàm phân bố xác
suất là pk (f). Hàm phân bố xác suất của ảnh mang thông tin toàn cục về nội dung
chứa trong ảnh. Tuy nhiên hàm phân bố xác suất tổng quát thường không đáp ứng
được do đó thường dùng hàm phân bố xác suất thực nghiệm xác định từ ảnh để thay
thế gọi là hàm histogram. Histogram của ảnh số với mức xám có tầm trong khoảng
[0, L-1] là hàm:

𝑝𝑘(𝑓
Với

𝑛𝑘
𝑘 )= 𝑛


(2.4)

𝑓𝑘 là mức xám thứ k
𝑛𝑘 là số pixel trong ảnh có mức xám thứ k
𝑛 tổng số pixel trong ảnh
𝑘: 0,1,2,…., L-1

Lược đồ xám bao gồm trục hoành biểu diễn mức xám và trục tung biểu diễn
số lượng điểm sáng tương ứng. Đối với ảnh xám thông thường, giá trị của trục
hoành nằm trong khoảng từ 0 - 255.

13


Hình 2.8: Lược đồ histogram

2.3.2. Không gian màu RGB

Hình 2.9: Không gian màu RGB
Không gian màu RGB chia các màu ra các thành phần màu chính là R (Redđỏ), G (Green-xanh lá), B (Blue-xanh dương). Các màu R, G, B được gọi là các màu
chính hay màu cơ bản vì ánh sáng của ba màu này có thể phối hợp ở những cường
độ khác nhau để tạo ra các màu khác. Mô hình RGB được thể hiện bởi một hình lập
phương. Trong một ảnh 24 bit với 8 bit cho mỗi màu chính thì màu đỏ sẽ có giá trị
(255,0,0), màu xanh dương (0,0,255), màu xanh lá (0,255,0). Mô hình này được
thiết kế cho phần lớn hệ thống đồ họa, tuy nhiên nó chưa phải là lý tưởng cho các
ứng dụng về phát hiện và nhận dạng vật thể. Các thành phần màu đỏ, xanh dương,

14



xanh lá có sự liên kết chặt chẽ sẽ gây khó khăn trong việc thực hiện một số thuật
toán xử lý ảnh.
Song song đó, rất nhiều thuật toán xử lý ảnh như cân bằng lược đồ xám thường
chỉ tác động trên độ sáng của ảnh.
Trong một số không gian màu, phương pháp xây dựng và xếp lớp màu da
bằng cách xác định rõ ràng (thông qua một số quy tắc) biên giới các giá trị của điểm
ảnh là màu da hay không.
R >95 và G > 40 và B > 20

Max(R, G, B) - Min(R, G, B) > 15
|R - G | > 15 và R > G và R > B


(2.5)

Ưu điểm của phương pháp này là tính đơn giản, điều này cho phép phân lớp
một cách nhanh chóng và dễ dàng. Tuy nhiên kết quả đạt được khi phân lớp là
không cao trong trường hợp tổng quát. Vì vậy khó khăn chính của phương pháp này
nếu muốn có được hệ số nhận dạng cao đó là phải tìm ra được một không gian màu
thích hợp cũng như các quy tắc tốt nhất để nhận biết màu da trong không gian màu
này.

2.3.3. Không gian màu YCrCb
YCrCb được định nghĩa nhằm phục vụ các mục đích xử lý video số. Nó có
quan hệ với một số không gian màu như YIQ, YUV. Trong khi YCrCb là hệ thống
màu số thì các không gian YIQ và YUV là hệ thống tương tự phục vụ cho các chuẩn
PAL và NTSC. Các không gian màu này sẽ chia RGB ra các thành phần chói, và
thành phần màu nhằm sử dụng cho các ứng dụng nén ảnh. Do đó chúng thường
được sử dụng trong các hệ thống truyền hình.


Hình 2.10: Không gian màu YcrCb
15


YcrCb là không gian màu được sử dụng nhiều trong vấn đề nén ảnh màu sắc
được biểu diễn bởi luma(đó là giá trị độ sáng tính từ không gian RGB).Gồm ba
thành phần, một thành phần là tổng các trọng số từ RGB, hai thành phần màu Red
và Blue trong không gian màu RGB. Công thức để chuyển đổi như sau:
Y = 0.299R +0.587G + 0.114B

(2.6)

𝐶𝑟 = 𝑅 − 𝑌
(2.7)
𝐶𝑏 = 𝐵 − 𝑌
Y 
16   65.4810 128.5530 24.9660   R 
Cr   128   37.7745 74.1592111.9337  G  (2.8)



 
 






Cb

128
111.95.81

93.7509

18.2072



 

B 

{

Việc chuyển đổi đơn giản, tính phân chia rõ ràng của độ sáng và các thành
phần màu là những đặc tính giúp cho không gian này được ứng dụng vào phân tích
màu da.
Điều kiện để phân tách màu da
Y  80

85  Cb  135 Với Y,Cb,Cr  [0 255]
135  Cr  180


(2.9)

2.3.4. Không gian màu HSV
Không gian HSV bao gồm ba thành phần Hue (sắc màu), Saturation (bảo hòa
màu) và Value (độ sáng, một số trường hợp có thể gọi là Brightness).

Sắc màu (Hue) thể hiện sự đáp ứng về màu sắc xung quanh thang đo sắc màu.
Các sắc màu trên thang đo sẽ chạy từ Đỏ-Vàng-Xanh lá-Xanh lam- Xanh DươngTím-Đỏ.
Bão hòa màu để chỉ cường độ sáng của màu. Một màu có độ bão hòa lớn nhất
có thể xem như một màu tinh khiết và “sâu”, cũng như khi chúng ta giảm độ bão
hòa, những màu sắc sẽ bị xóa dần cho đến khi đạt giá trị không nó sẽ trở thành màu
trắng.
Theo lý thuyết một không gian HSV có hình dáng như một hình nón. Nếu
quan sát ở mặt phẳng các đường tròn bao quanh hình nón, các giá trị về màu sắc
(Hue) sẽ được thể hiện bởi góc của mỗi màu so với trục hình nón, (trục hình nón sẽ
được gán với màu đỏ). Độ bão hòa màu được thể hiện như là khoảng cách từ tâm
các đường tròn. Độ bão hòa lớn nhất nằm ở biên của hình nón. Độ sáng được mô tả
bởi vị trí theo chiều dọc hình nón. Ở vị trí đỉnh của hình nón, sẽ không có bất kì độ
sáng nào. Và ở đáy của nón, độ sáng sẽ lớn nhất.
16


Hình 2.11: Không gian màu HSV
Có rất nhiều ứng dụng sử dụng mô hình HSV. Các hệ thống nhận diện sử
dụng HSV để phát hiện màu vật thể. Các thuật toán xử lý ảnh như biến đổi độ sáng,
xử lý lược đồ xám…sử dụng thành phần độ sáng của ảnh.
Cũng giống như không gian YcbCr, không gian HSV cũng có nhiều thuận lợi
hơn RGB trong việc phát hiện bàn tay dựa trên màu da. Bằng việc trích xuất thành
phần sắc màu, hệ thống có thể dễ dàng nhận biết được các vùng không da để loại bỏ
theo luật 19nhận được phải chỉ vùng da duy nhất là bàn tay hoặc phải áp dụng thêm một số thuật
toán như xác định kích thước, hình dạng…để loại bỏ các vùng da không thuộc bàn
tay như tay, chân…
Ưu điểm và nhược điểm phát hiện màu da dựa trên không gian màu
 Ưu điểm:
 Phương pháp dễ thực hiện.

 Độ chính xác tương đối lớn khi màu đối tượng khác biệt với màu của
nền.
 Tốc độ thực hiện cao vì số công việc xử lý ít.
 Nhược điểm:
 Phương pháp sẽ mất đi độ chính xác khi màu da đối tượng trùng màu
nền.
 Phương pháp chỉ dựa trên cảm nhận chung của con người về các
ngưỡng, chưa có một lý thuyết, giải thuật cụ thể thống nhất để cho kết
quả tổng quát và chính xác nhất.

2.3.5. Phát hiện bàn tay dựa trên màu da
Nhận dạng ảnh là một trong những kỹ thuật quan trọng trong xử lý ảnh số. Sự
phát triển của máy tính, hệ thống nhúng, mạng Nơron đã kéo theo nhiều ứng dụng
dựa trên việc nhận dạng. Một trong những ứng dụng đó là việc phát hiện và nhận
diện cử chỉ bàn tay. Kỹ thuật nhận diện cử chỉ bàn tay đã và đang được nghiên cứu
17


trong những năm gần đây với nhiều giải thuật nhằm tăng tốc độ cũng như là tính
chính xác của việc nhận diện.
Sử dụng không gian màu RGB để phát hiện bàn tay.
Trong không gian màu RGB, phương pháp xây dựng và xếp lớp màu da bằng
cách xác định rõ ràng (thông qua một số quy tắc) biên giới các giá trị của điểm ảnh
là màu da hay không. Ngưỡng điểm ảnh được cho là phù hợp với màu da:
R >95 và G > 40 và B > 20

Max(R, G, B) - Min(R, G, B) > 15
|R - G | > 15 và R > G và R > B



(2.10)

Một bức ảnh được chụp từ camera chịu tác động của nhiều yếu tố đặc biệt là
ảnh hưởng của độ sáng tối. Do đó cần phải có những bước xử lý phụ để phát hiện
chính xác vị trí bàn tay trước khi đi nhận dạng để loại bỏ các ảnh hưởng này và nó
kéo theo tốc độ xử lý của hệ thống sẽ không đáp ứng được các yêu cầu về thời gian
thực. Do đó, cùng với sự phát triển của kỹ thuật nhận diện, kỹ thuật phát hiện bàn
tay cũng yêu cầu sự nghiên cứu đề ra giải pháp nhằm tăng tốc độ hệ thống, cũng như
là tìm được chính xác nhất vị trí bàn tay. Các kỹ thuật phát hiện bàn tay hiện tại dựa
trên những đặc điểm chung của con người như: hình dạng, màu da, … Trong giới
hạn đề tài, người thực hiện sẽ giới sẽ thực hiện phương pháp phổ biến trong phát
hiện bàn tay ở các hệ thống: phương pháp phát hiện bàn tay dựa trên đặc trưng màu
da.
Kỹ thuật phát hiện dựa trên màu da là một kỹ thuật đơn giản và tương đối
hiệu quả cho việc phát hiện và tìm kiếm vị trí bàn tay trên ảnh. Kỹ thuật này sẽ tìm
kiếm những điểm ảnh có đáp ứng gần với màu da người nhất và loại bỏ các vùng
khác trên ảnh. Quá trình đề nghị cho kỹ thuật phát hiện bàn tay dựa trên màu dựa
trên các bước sau:

18


ẢNH ĐẦU VÀO

XỬ LÝ NÂNG CAO CHẤT
LƯỢNG ẢNH

TRÍCH CÁC THÀNH PHẦN
KHÔNG GIAN RGB CỦA
ẢNH


SO SÁNH VỚI GIÁ TRỊ
NGƯỠNG PHÙ HỢP MÀU DA

XÁC ĐỊNH VỊ TRÍ TÁCH
BÀN TAY

Hình 2.12: Sơ đồ tổng quát quá trình phát hiện bàn tay
Chức năng của các khối:
 Ảnh đầu vào: ảnh bàn tay cần đưa vào để nhận dạng.
 Xử lý nâng cao chất lượng ảnh: ảnh vào có thể bị nhiễu dẫn đến biểu
diễn thông tin đối tượng trong ảnh không chính xác, do vậy dùng bộ lọc
để xử lý.
 Trích các thành phần không gian RGB của ảnh: phân tích các thành
phần R,G,B của ảnh.
 So sánh giá trị ngưỡng phù hợp với màu da: từ các thành phần R,G,B
của ảnh đã được xác định đem so sánh với giá trị ngưỡng được cho là phù
hợp với màu da của không gian RGB.
 Xác định vị trí và tách bàn tay: Sau khi so sánh sử dụng các thuật toán
để định vị trí và tách bàn tay.
19


Ý tưởng thuật toán:
Ảnh nhị phân thu được, lấy các điểm ảnh trắng ( ảnh bàn tay). Ta tiến hành
theo các bước:
+ Quét theo cột từ trái sang phải, quét theo hàng từ trên xuống dưới, tính tổng
các pixel.
+ Xác định chiều rộng ( W) : W = Cmax – Cmin (Cmax ,Cmin là vị trí cột có tổng
số pixel trắng lớn nhất, nhỏ nhất).

+ Xác định chiều cao ( H) : H = Hmax – Hmin (Hmax ,Hmin là vị trí hàng có tổng
số pixel trắng lớn nhất, nhỏ nhất).
+ Tách lấy bàn tay.

2.4. TỔNG QUAN VỀ BIÊN VÀ CÁC KỸ THUẬT TÁCH BIÊN
2.4.1. Tổng quan về biên
Các đặc trưng của ảnh thường bao gồm các thành phần như: mật độ xám, phân
bố xác suất, phân bố không gian, biên ảnh. Biên là một vấn đề chủ yếu và đặc biệt
quan trọng trong phân tích ảnh vì các kĩ thuật phân đoạn ảnh chủ yếu dựa vào biên.
2.4.1.1 Tìm hiểu về biên của ảnh
Hiện nay có nhiều định nghĩa về biên ảnh và mỗi định nghĩa được sử dụng
trong một số trường hợp nhất định. Song nhìn chung, ta có thể hiểu là:
Một điểm ảnh có thể coi là biên nếu ở đó có sự thay đổi đột ngột về mức xám.
Ví dụ: Đối với ảnh đen trắng, một điểm được gọi là điểm biên nếu nó là điểm đen có
ít nhất một điểm trắng bên cạnh.
Tập hợp các điểm biên tạo thành biên, hay còn gọi là đường bao của ảnh
(boundary). Chẳng hạn, trong một ảnh nhị phân, một điểm có thể được gọi là biên
nếu đây là một điểm đen và có ít nhất một điểm trắng nằm trong lân cận điểm đó.
Mỗi một biên là một thuộc tính gắn liền với một điểm riêng biệt và được tính
toán từ những điểm lân cận nó. Đó là một biến Vector bao gồm hai thành phần:
 Độ lớn của Gadient.
 Hướng φ được quay đối với hướng Gradient ψ.

20


2.4.1.2 Vai trò của biên trong nhận dạng
Đường biên là một loại đặc trưng cục bộ tiêu biểu trong phân tích nhận dạng
ảnh. Người ta sử dụng đường biên làm phân cách các vùng xám (màu) cách biệt.
Ngược lại, người ta cũng dùng các vùng ảnh để tìm đường phân cách.

Như đã đề cập tới ở phần tổng quan về một hệ thống nhận dạng và xử lý ảnh,
quá trình nhận dạng có hai giai đoạn cần thực hiện:
 Giai đoạn học: Các đặc điểm của đối tượng mẫu được lưu trữ (gọi là học
mẫu) và tập các phần tử mẫu được chia thành các lớp.
 Giai đoạn nhận dạng: Khi có đối tượng cần nhận dạng, các đặc điểm của đối
tượng sẽ được trích chọn và sử dụng hàm quyết định để xác định đối
tượng cần nhận dạng thuộc lớp nào.

2.4.2. Kỹ thuật phát hiện biên Gradient
Kỹ thuật Gradient là kỹ thuật dò biên cục bộ dựa vào cực đại của đạo hàm. Đây
là phép toán lấy đạo hàm bậc nhất trong không gian hai chiều.
Theo định nghĩa, gradient là một véctơ có các thành phần biểu thị tốc độ thay
đổi giá trị mức xám của điểm ảnh, ta có:
f ( x, y )
f ( x  dx, y )  f ( x, y )
 fx 
x
dx
f ( x, y )
f ( x, y  dy)  f ( x, y )
 fy 
y
dy

(2.11)

Trong đó dx, dy là khoảng cách giữa 2 điểm kế cận theo hướng x, y tương ứng
(thực tế chọn dx= dy=1). Đây là phương pháp dựa theo đạo hàm riêng bậc nhất theo
hướng x, y.
Tuy ta nói là lấy đạo hàm nhưng thực chất chỉ là mô phỏng và xấp xỉ đạo hàm

bằng các kỹ thuật nhân chập (cuộn theo mẫu) vì ảnh số là tín hiệu rời rạc nên đạo
hàm không tồn tại.
Gradient trong tọa độ góc (r,θ), với r là vectơ, θ là góc
df (r ,  ) f dx f dy


 f ' x cos  f ' y sin 
dr
x dr y dr
df . 
f(.) đạt cực đại khi 
0
 dr 

Tức:

f ' x cos  f ' y sin  0 hay:

21

(2.12)


×