Tải bản đầy đủ (.pdf) (69 trang)

(Đồ án hcmute) ứng dụng xử lý ảnh trong điều khiển thiết bị bằng cử chỉ tay sử dụng kit raspberry pi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.61 MB, 69 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM
KHOA ĐIỆN - ĐIỆN TỬ

ĐỒ ÁN TỐT NGHIỆP
NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ - TRUYỀN THÔNG

ỨNG DỤNG XỬ LÝ ẢNH
TRONG ĐIỀU KHIỂN THIẾT BỊ BẰNG CỬ CHỈ TAY
SỬ DỤNG KID RASPBERRY PI

GVHD: ThS. NGÔ QUỐC CƯỜNG
SVTH: NGÔ HOÀI BẢO
MSSV: 12141476
SVTH: NGUYỄN TRUNG ĐẠT
MSSV: 12141049

SKL 0 0 4 3 4 4

Tp. Hồ Chí Minh, tháng 7/2016

do an


BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ
BỘ MÔN ĐIỆN TỬ-CÔNG NGHIỆP
---------------------------------

ĐỒ ÁN TỐT NGHIỆP


NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ TRUYỀN THÔNG

ĐỀ TÀI:

ỨNG DỤNG XỬ LÝ ẢNH TRONG ĐIỀU
KHIỂN THIẾT BỊ BẰNG CỬ CHỈ TAY SỬ
DỤNG KIT RASPBERRY PI
GVHD: ThS.Ngơ Quốc Cường
SVTH: Ngơ Hồi Bảo
Nguyễn Trung Đạt

Tp. Hồ Chí Minh – 7/2016

do an

12141476
12141049


BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ
BỘ MÔN ĐIỆN TỬ-CÔNG NGHIỆP
---------------------------------

ĐỒ ÁN TỐT NGHIỆP
NGÀNH KỸ THUẬT ĐIỆN TỬ TRUYỀN THÔNG
ĐỀ TÀI:

ỨNG DỤNG XỬ LÝ ẢNH TRONG ĐIỀU

KHIỂN THIẾT BỊ BẰNG CỬ CHỈ TAY SỬ
DỤNG KIT RASPBERRY PI

GVHD: ThS.Ngơ Quốc Cường
SVTH: Ngơ Hồi Bảo
Nguyễn Trung Đạt

Tp. Hồ Chí Minh – 7/2016

do an

12141476
12141049


LỜI CAM ĐOAN
Đề tài này là do nhóm tự thực hiện dựa vào một số tài liệu trước đó và khơng sao chép từ
tài liệu hay cơng trình đã có trước đó.

Người thực hiện đề tài
Nguyễn Trung Đạt
Ngơ Hồi Bảo

do an


LỜI CẢM ƠN
Em xin gởi lời cảm ơn sâu sắc đến thầy Ngô Quốc Cường đã trực tiếp hướng dẫn
và tận tình giúp đỡ tạo điều kiện để hồn thành tốt đề tài.
Em xin gởi lời chân thành cảm ơn các thầy cô trong Khoa Điện-Điện Tử đã tạo

những điều kiện tốt nhất cho em hoàn thành đề tài.
Em cũng gửi lời đồng cảm ơn đến các bạn lớp 12141DT2 đã chia sẻ trao đổi kiến
thức cũng như những kinh nghiệm quý báu trong thời gian thực hiện đề tài.
Xin chân thành cảm ơn!

Người thực hiện đề tài
Ngơ Hồi Bảo
Nguyễn Trung Đạt

do an


MỤC LỤC
Trang bìa ............................................................................................................................ I
Nhiệm vụ đồ án ................................................................................................................. II
Lịch trình ........................................................................................................................ III
Cam đoan ........................................................................................................................ IV
Lời cảm ơn ....................................................................................................................... V
Mục lục ............................................................................................................................ VI
Liệt kê hình vẽ ................................................................................................................. IX
Liệt kê bảng vẽ ................................................................................................................ XI
Tóm tắt .......................................................................................................................... XII
Chương 1. TỔNG QUAN ............................................................................................... 1
1.1 ĐẶT VẤN ĐỀ....................................................................................................... 1
1.2 MỤC TIÊU ............................................................................................................ 3
1.3 NỘI DUNG NGHIÊN CỨU ................................................................................. 3
1.4 GIỚI HẠN ............................................................................................................. 3
1.5 BỐ CỤC ĐỀ TÀI .................................................................................................. 5
Chương 2. CƠ SỞ LÝ THUYẾT.................................................................................... 6
2.1 TÌM HIỂU KIT RASPBERRY PI 2(RPI2) .......................................................... 6

2.2 NGƠN NGỮ KÝ HIỆU ........................................................................................ 7
2.3 TÌM HIỂU XỬ LÝ ẢNH ...................................................................................... 8
2.3.1 GIỚI THIỆU................................................................................................... 8
2.3.1.1 Phần thu nhận ảnh (Image Acquisition) .................................................. 9
2.3.1.2 Tiền xử lý (Image Processing) ................................................................ 9
2.3.1.3 Phân đoạn (Segmentation) hay phân vùng ảnh ....................................... 9
2.3.1.4 Biểu diễn ảnh (Image Representation) .................................................... 9
2.3.1.5 Nhận dạng và nội suy ảnh (Image Recognition and Interpretation) ....... 9
2.3.1.6 Cơ sở tri thức (Knowledge Base) .......................................................... 10
2.3.2 NHỮNG VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH ................................. 10
2.3.2.1 Điểm ảnh ( Picture Element) ................................................................. 10
2.3.2.2 Ảnh ........................................................................................................ 10
2.3.2.3 Độ phân giải của ảnh ............................................................................. 11
2.3.2.4 Mức xám của ảnh .................................................................................. 11
2.3.2.5 Ảnh nhị phân ......................................................................................... 12
2.3.2.6 Ảnh màu ................................................................................................ 12
2.3.2.7 Khử nhiễu .............................................................................................. 12
2.3.2.8 Chỉnh mức xám ..................................................................................... 12
2.3.2.9 Nhận dạng ảnh....................................................................................... 12

do an


2.4 PHÁT HIỆN MÀU DA DỰA VÀO KHÔNG GIAN MÀU .............................. 13
2.4.1 GIỚI THIỆU ................................................................................................ 13
2.4.2 CHUYỂN ẢNH MÀU THÀNH ẢNH XÁM .............................................. 13
2.4.3 KHƠNG GIAN MÀU .................................................................................. 14
2.4.3.1 Khơng gian màu RGB ........................................................................... 15
2.4.3.2 Không gian màu HSV ........................................................................... 16
2.5 THUẬT TỐN ADABOOST VÀ MƠ HÌNH CASCADE ............................... 16

2.5.1 ĐẶC TRƯNG HAAR-LIKE ....................................................................... 16
2.5.2 ĐẶC TRƯNG HISTOGRAM OF ORIENTED GRADIENTS (HOG) ...... 18
2.5.2.1 Rút trích đặc trưng HOG trong ảnh ...................................................... 19
2.5.2.2 Chuẩn hóa vector đặc trưng cho từng block ......................................... 22
2.5.3 THUẬT TOÁN TĂNG TỐC ADABOOST ................................................ 23
2.5.4 MƠ HÌNH CASCADE ................................................................................. 26
2.5.4.1 Giai đoạn huấn luyện của bộ phân loại (stage) ..................................... 28
2.5.4.2 Tầng phân loại (Cascade) ...................................................................... 28
Chương 3. TÍNH TỐN THIẾT KẾ........................................................................... 31
3.1 GIỚI THIỆU ....................................................................................................... 31
3.2 TÍNH TỐN VÀ THIẾT KẾ HỆ THỐNG ........................................................ 31
3.2.1 THIIẾT KẾ SƠ ĐỒ KHỐI HỆ THỐNG ..................................................... 31
3.2.2 TÍNH TỐN VÀ THIẾT KẾ MẠCH ......................................................... 31
3.2.2.1 Khối nhận dạng cử chỉ .......................................................................... 31
3.2.2.2 Khối công suất....................................................................................... 33
3.3 SƠ ĐỒ NGUN LÝ TỒN MẠCH ............................................................... 34
Chương 4. THI CƠNG HỆ THỐNG.......................................................................... 35
4.1 GIỚI THIỆU ....................................................................................................... 35
4.2 THI CÔNG .......................................................................................................... 35
4.2.1 DANH SÁCH LINH KIỆN ......................................................................... 35
4.2.2 SƠ ĐỒ SẮP XẾP LINH KIỆN .................................................................... 35
4.2.3 SƠ ĐỒ MẠCH IN........................................................................................ 36
4.3 LẬP TRÌNH HỆ THỐNG NHẬN DẠNG CỬ CHỈ TAY ................................. 37
4.3.1 LƯU ĐỒ GIẢI THUẬT NHẬN DIỆN CỬ CHỈ TAY BẰNG NGƯỠNG
MÀU DA ............................................................................................................... 37
4.3.2 QUY TRÌNH HUẤN LUYỆN PHÁT HIỆN BÀN TAY TRÊN MÁY TÍNH
............................................................................................................................... 39
4.4 KẾT QUẢ MƠ PHỎNG ..................................................................................... 44
Chương 5. KẾT QUẢ_NHẬN XÉT_ĐÁNH GIÁ ....................................................... 47
5.1 NHỮNG MẶT ĐÃ LÀM ĐƯỢC ....................................................................... 47

5.2 NHỮNG MẶT CHƯA LÀM ĐƯỢC ................................................................. 47

do an


5.3 NHỮNG KẾT QUẢ BẰNG HÌNH ẢNH CỦA ĐỀ TÀI THU ĐƯỢC ............. 47
Chương 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................. 50
6.1 KẾT LUẬN ......................................................................................................... 50
6.2 HƯỚNG PHÁT TRIỂN ...................................................................................... 50
TÀI LIỆU THAM KHẢO ................................................................................................
PHỤ LỤC .........................................................................................................................
A. HƯỚNG DẪN SỬ DỤNG .......................................................................................
B. CODE CHƯƠNG TRÌNH ........................................................................................

do an


LIỆT KÊ HÌNH VẼ
Hình

Trang

Hình 2.1. Kit Raspberry Pi 2 Model B v1.1 .................................................................... 6
Hình 2.2. Cử chỉ bàn tay số từ 1-10 của ASL ................................................................. 8
Hình 2.3. Mơ tả các bước cơ bản trong xử lý ảnh ........................................................... 8
Hình 2.4. Ảnh RGB ....................................................................................................... 14
Hình 2.5. Chuyển ảnh màu thành ảnh xám ................................................................... 14
Hình 2.6. Các màu cơ sở ............................................................................................... 15
Hình 2.7. Khơng gian màu RGB ................................................................................... 15
Hình 2.8. Khơng gian màu HSV ................................................................................... 16

Hình 2.9. Đặc trưng theo cạnh ...................................................................................... 16
Hình 2.10. Đặc trưng theo đường.................................................................................. 17
Hình 2.11. Đặc trưng xung quanh tâm .......................................................................... 17
Hình 2.12. Đặc trưng theo đường chéo ......................................................................... 17
Hình 2.13. Ảnh chia nhỏ tại vị trí (x,y) ......................................................................... 18
Hình 2.14. Tổng giá trị pixel nằm trong vùng A........................................................... 18
Hình 2.15. R-HOG và C-HOG ...................................................................................... 19
Hình 2.16. Mỗi khối (block) gồm 9 ơ ........................................................................... 20
Hình 2.17. Các khối được xếp chồng lên nhau ............................................................. 20
Hình 2.18. Tính góc và biên độ theo X-Gradient và Y-Gradient ................................. 21
Hình 2.19. Các bước rút trích đặc trưng trong HOG .................................................... 22
Hình 2.20. Lược đồ cơ bản của AdaBoost .................................................................... 23
Hình 2.21. Thuật tốn học AdaBoost ............................................................................ 24
Hình 2.22. Dùng chuỗi Cascade để phát hiện cửa sổ con phù hợp ............................... 27
Hình 2.23. Cấu trúc chuỗi Cascade song song .............................................................. 28
Hình 2.24. Cấu trúc của chuỗi cascade nối tiếp, với N giai đoạn học huấn luyện........ 29
Hình 3.1. Sơ đồ khối hệ thống ...................................................................................... 31
Hình 3.2. Sơ đồ chân kit raspberry Pi 2 ........................................................................ 32
Hình 3.3. Camera pi kết nối với kit Raspberry pi ......................................................... 33
Hình 3.4. Sơ đồ nguyên lý khối cơng suất .................................................................... 33
Hình 3.5. Sơ đồ kết nối khối cơng suất với kit Raspberry pi ........................................ 34
Hình 4.1. Sơ đồ sắp xếp linh kiện trên phần mềm ........................................................ 36
Hình 4.2. Sơ đồ sắp xếp linh kiện thực tế ..................................................................... 36
Hình 4.3. Sơ đồ mạch in khối cơng suất ....................................................................... 37
Hình 4.4. Lưu đồ giải thuật nhận diện cử chỉ tay bằng ngưỡng màu da ....................... 38
Hình 4.5. Một số ảnh positive trong tập huấn luyện ..................................................... 40
Hình 4.6. Một số ảnh negative trong tập huấn luyện .................................................... 40

do an



Hình 4.7. Giao diện Training Image Labeler ................................................................ 41
Hình 4.8. Giao diện Training Image Labeler sau khi thêm hình ảnh tích cực .............. 41
Hình 4.9. Ảnh sau khi xác định ROI ............................................................................. 42
Hình 4.10. Tên ROI cần xuất ........................................................................................ 42
Hình 4.11. Thư mục chứa file L305_GOP .MAT, thư mục “po”, “ne” ........................ 43
Hình 5.1. Hộp sản phẩm ................................................................................................ 47
Hình 5.2. Mặt trước hộp sản phẩm................................................................................ 48
Hình 5.3. Kết nối mạch công suất với raspberry pi ...................................................... 49

do an


LIỆT KÊ BẢNG
Bảng

Trang

Bảng 1.1. Nội dung nghiên cứu ...................................................................................... 3
Bảng 1.2. Tập cử chỉ đề xuất........................................................................................... 4
Bảng 2.1. Cấu hình Raspberry Pi 2 model B v1.1 .......................................................... 7
Bảng 3.1. Bảng linh kiện và dòng điện tiêu thụ ............................................................ 34
Bảng 4.1. Danh sách linh kiện ...................................................................................... 35
Bảng 4.2. Kết quả mô phỏng ......................................................................................... 44
Bảng 6.1. Kết luận ......................................................................................................... 50

do an


TĨM TẮT

Cùng với sự phát triển của khoa học cơng nghệ, các thiết bị điện tử đều dần phát
triển theo hướng tự động hóa, thơng minh, càng hiểu ý con người. Trong những năm
gần đây, nhiều loại hệ thống nhận dạng cử chỉ bàn tay đã được đề xuất và phát triển
theo hướng ứng dụng thực tế có nhiều thành tựu đáng kể.
Đề tài thực hiện nhận dạng cử chỉ tay sử dụng phương pháp nhận diện màu da
kết hợp với file huấn luyện phát hiện bàn tay được tạo ra từ thuật toán huấn luyện
HOG, thuật toán tăng tốc ADABOOST. Hệ thống đưa ra gồm có 5 cử chỉ, được thiết
kế sao cho khi phát hiện cử chỉ tay từ camera thời gian thực đưa ra lệnh điều khiển 4
thiết bị.
Mơ hình nhận dạng chạy trên nền kit Raspberry Pi 2 model B v1.1, sử dụng ngôn
ngữ Python và thư viện có sẵn OpenCV.
Trong điều kiện mơi trường thích hợp (ánh sáng, màu nền đơn giản, khơng có
màu trùng ngưỡng với màu da) kết quả nhận diện khoảng 85%.

do an


CHƯƠNG 1. TỔNG QUAN

Chương 1. TỔNG QUAN
1.1 ĐẶT VẤN ĐỀ
Ngày nay với những tiến bộ vượt bậc của khoa học kỹ thuật, cùng với bộ môn
khoa học xử lý ảnh đã và đang thu được những thành tựu lớn lao. Các thiết bị điện tử
đều dần phát triển theo hướng tự động hóa, thơng minh, càng hiểu ý con người, chúng
giao tiếp với con người mà không cần thiết bị trung gian nào, để làm được điều đó các
thiết bị cảm biến, thuật toán nhận dạng ra đời ngày càng hiện đại hơn, càng chính xác
hơn, dễ sử dụng hơn, chúng có thể nhận biết các hoạt động của con người, cảm xúc
của con người và hoạt động theo đúng ý muốn của họ. Bài toán “Nhận dạng cử chỉ
điều khiển thiết bị” là một trong số đó. Ngơn ngữ cơ thể, đặc biệt là ngôn ngữ bằng tay
ngày càng được xem là một trong những phương pháp tương tác rất tự nhiên và trực

quan.
Trong những năm gần đây, nhiều loại hệ thống nhận dạng cử chỉ bàn tay đã
được đề xuất và phát triển theo hướng thực hành sử dụng vào trong cuộc sống thực
cũng như việc nghiên cứu các giải thuật nhận dạng một cách chính xác hơn:
 Nghiên cứu của Chen Chiung Hsieh và Dung Hua Liou về nhận dạng cử chỉ
bằng lịch sử chuyển động ảnh [1]. Các khung hình được tích lũy trong các hình
ảnh lịch sử chuyển động. Sử dụng các báo động sai lọc ra nếu số lượng điểm
ảnh da phát hiện nhỏ hơn một ngưỡng nhất định. Hệ thống được xây dựng trên
các khối: Digital Zoom, phát hiện màu da, nhận dạng cử chỉ.
 Nghiên cứu của Dharani Mazumdar, Anjan Kumar Talukda và Kandapar
Kumar Sarma nghiên cứu nhận dạng cử chỉ bằng găng tay cảm biến Data Glove
[2]. Bằng việc sử dụng lối ra số của serson gia tốc MEMS gắn liền với các ngón
tay và sử dụng vi điều khiển. Máy tính phân tích và xử lý thơng tin dữ liệu và
thực hiện các thuật tốn.
 Trong nước có đề tài: “Nghiên cứu phát triển kỹ thuật nhận dạng cử động của
bàn tay người theo thời gian thực” của nhóm nghiên cứu trẻ thuộc Khoa Công
nghệ Thông tin, Học viện Kỹ thuật Quân sự do tiến sỹ Trần Nguyên Ngọc làm
chủ nhiệm đã mở ra nhiều hướng ứng dụng hiệu quả trong thực tế [3]. Những
hiệu quả trong ứng dụng của đề tài như phát triển hệ thống hỗ trợ tra cứu thơng

BỘ MƠN ĐIỆN TỬ CƠNG NGHIỆP

do an

1


CHƯƠNG 1. TỔNG QUAN
tin và điều khiển thiết bị từ xa, điều khiển robot trợ giúp người khuyết tật, tích
hợp điều khiển tivi, máy nghe nhạc…

 Trường Đại học sư phạm kĩ thuật thành phố Hồ Chí Minh có đề tài: “Nhận diện
cử chỉ bàn tay sử dụng phân cụm K-MEANS và mạng NƠ-RON” do 2 sinh
viên Võ Đắc Thọ và Trần Quang Tráng thực hiện vào năm 2014 [4]. Giúp tìm
hiểu được tổng quát về xử lý ảnh, tìm hiểu được các phương pháp nhận dạng cử
chỉ tay, mô phỏng các tập lệnh liên quan đến đề tài bằng matlab. Tuy nhiên đề
tài chỉ dừng lại nhiều ở mức lý thuyết và sử dụng mô phỏng để kiểm chứng kết
quả nên còn nhiều hạn chế trong thực tế.
 Bên cạnh đó cịn có các đề tài ứng dụng xử lý ảnh về nhận dạng khn mặt,
điển hình như: “Nhận diện khuôn mặt ứng dụng trong bảo mật và chấm cơng
dùng kít raspberry pi” do 2 sinh viên Duy và Tâm thực hiện năm 2015 [5]. Đạt
được kết quả nhận diện thành công 95% trong khoảng cách 0.5m, tuy nhiên
phải lấy mẫu từng người một, ảnh người chụp thẳng nghiêng không quá 10° và
ảnh chỉ chụp trong điều kiện ánh sáng bình thường , tốc độ xử lý chậm 5 phút.
 Đề tài : “Ứng dụng xử lý ảnh cảnh báo tài xế ngủ gật” do sinh viên Phương và
Tâm thực hiện năm 2014 [6], đã phát hiện được đúng trên 90% với khoảng cách
từ 0.2-1.2 m, nhưng còn tồn tại nhược điểm: Khơng thể quay trái phải với góc >
40° trên windown và 20° trên kit, chưa đáp ứng được tốc độ hay xử lý có phần
hạn chế với người đeo kính,…
Đề tài “Ứng dụng xử lý ảnh trong điều khiển thiết bị bằng cử chỉ tay sử
dụng kit raspberry pi” của nhóm xây dựng với mong muốn góp một phần thúc
đẩy sự phát triển trong nhận dạng cử chỉ, thơng qua việc tìm hiểu và kế thừa các
thành tựu đã có từ các cơng trình nghiên cứu trước. Về mặt kỹ thuật, đề tài giúp
con người tương tác với hệ thống thiết bị, khơng cịn bó buộc trong những cách
tương tác truyền thống (như thơng qua bàn phím máy tính, con chuột hoặc điện
thoại…) mà chuyển sang tương tác trực tiếp bằng cử chỉ. Ngồi ra có thể giúp
người khiếm thính nhận biết ngơn ngữ qua cử chỉ bàn tay, người có vấn đề về cơ
bắp điều khiển một số thiết bị gia dụng,...Về mặt nghiên cứu khoa học, hệ thống
nhận dạng cử chỉ của nhóm ứng dụng phương pháp tối ưu nhất có đầy đủ tri thức
về nhận dạng và dữ liệu huấn luyện giúp nhận biết được chính xác các dạng cử chỉ,
có khả năng đưa ra kết quả chính xác cao.

BỘ MƠN ĐIỆN TỬ CƠNG NGHIỆP

do an

2


CHƯƠNG 1. TỔNG QUAN

1.2 MỤC TIÊU
Tách được bàn tay một cách nhanh chóng, chính xác, nhận dạng được một số
cử chỉ với nền đơn giản. Thiết kế và thi công mơ hình, giao diện điều khiển 4 thiết bị
bằng cách chụp ảnh bằng camera qua kit raspberry pi 2.

1.3 NỘI DUNG NGHIÊN CỨU
Bảng 1.1. Nội dung nghiên cứu
Tuần
Tuần 1
Tuần 2
Tuần 3
Tuần 4
Tuần 5
Tuần 6
Tuần 7
Tuần 8
Tuần 9
Tuần 10
Tuần 11
Tuần 12
Tuần 13

Tuần 14

Nội dung
Tìm hiểu xử lý ảnh và các cơng trình nghiên cứu liên quan đến đề
tài
Tìm hiểu các phương pháp nhận diện bàn tay
Cấu hình kit raspberry, cài đặt thư viện opencv
Kết nối camera với kit raspberry pi, tiến hành chụp ảnh bàn tay
Nhận dạng cử chỉ bàn tay bằng ngưỡng màu da
Sử dụng cử chỉ tay đưa ra tập lệnh điều khiển
Chụp ảnh mẫu bàn tay
Ứng dụng matlab huấn luyện phát hiện bàn tay
Nhận dạng cử chỉ tay trên nền file huấn luyện phát hiện bàn tay
Thiết kế, thi công khối công suất
Lắp ráp, kiểm tra mạch
Làm mô hình sản phẩm
Tối ưu hóa hệ thống, hồn thiện đề tài
Viết báo cáo đề tài

1.4 GIỚI HẠN
Sử dụng thư viện OpenCV và ngơn ngữ python lập trình trên nền kit Raspberry
Pi 2. Nhận dạng cử chỉ tĩnh của bàn tay thơng qua camera Pi.
BỘ MƠN ĐIỆN TỬ CƠNG NGHIỆP

do an

3


CHƯƠNG 1. TỔNG QUAN

Nhóm thực hiện được nhận diện 4 cử chỉ bàn tay với thời gian thực. Được mô
tả như bảng 1.2.
Bảng 1.2. Tập cử chỉ đề xuất
Tên cử chỉ

Ảnh minh họa

“Bật thiết bị 1”

“Bật thiết bị 2”

“Bật thiết bị 3”

“Bật thiết bị 4”

“Tắt toàn bộ”

Xử lý cử chỉ nhận dạng trong 1 đến 4s.
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP

do an

4


CHƯƠNG 1. TỔNG QUAN
Môi trường nhận dạng không phức tạp: Đầy đủ ánh sáng (ánh sáng mặt trời
sáng, trưa hoặc đèn chiếu sáng đầy đủ), mơi trường ít nhiễu(khơng có màu tương tự
ngưỡng màu da, nền không quá nhiều đồ vật ảnh hưởng đến loại trừ nền trong nhận
diện)

Khoảng cách nhận dạng từ 0.5 đến 1.2 mét.

1.5 BỐ CỤC ĐỀ TÀI
Với đề tài “Ứng dụng xử lý ảnh trong điều khiển thiết bị bằng cử chỉ tay sử dụng
kit raspberry pi” nhóm tập trung nghiên cứu các vấn đề cụ thể sau:
 Chương 1: Tổng quan.
Trong chương này trình bày đặt vấn đề dẫn nhập về lý do chọn đề tài, mục tiêu,
cùng với nội dung thực hiện, những vấn đề đề tài có thể làm được và bố cục mẫu báo
cáo.
 Chương 2: Cơ sở lý thuyết.
Trong chương này trình bày về kiến thức tổng quát các vấn đề liên quan đến đề tài:
Ngôn ngữ ký hiệu, cử chỉ bàn tay, các vấn đề về xử lý ảnh, màu da, thuật tốn huấn
luyện và đặc tính kĩ thuật của kit Raspberry Pi 2.
 Chương 3: Tính tốn thiết kế.
Trong chương này trình bày sơ đồ khối của hệ thống, sơ đồ ngun lý của tồn
mạch và tính tốn chi tiết các linh kiện cần sử dụng.
 Chương 4: Thi cơng hệ thống.
Trong chương này trình bày tổng thể phần cứng, thi cơng mạch điều khiển, hướng
lập trình và kết quả mơ phỏng.
 Chương 5: Kết quả-nhận xét-đánh giá.
Trình bày về các mặt làm được cũng như chưa làm được, kết quả thực tế của hệ
thống nhận dạng đã làm được.
 Chương 6: Kết luận và hướng phát triển.
Nhận xét tổng quát về đề tài, mở ra hướng phát triển, ứng dụng thực tiễn trong
cuộc sống.

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP

do an


5


CHƯƠNG 2. CƠ SỞ LÝ THUYẾT

Chương 2. CƠ SỞ LÝ THUYẾT
Ý tưởng để làm cho máy móc hiểu ngơn ngữ con người, cụ thể trong đề tài là
cử chỉ bàn tay, cần phải tìm hiểu đầy đủ tri thức về cách truyền nhận, xử lý hình ảnh
cũng như cơng cụ để xử lý những tín hiệu đưa về, đưa ra các tín hiệu phù hợp. Trong
chương này, nhóm sẽ trình bày chi tiết và đầy đủ nhất cách tiếp cận và xử lý của đề tài.

2.1 TÌM HIỂU KIT RASPBERRY PI 2(RPI2)

Hình 2.1. Kit Raspberry Pi 2 Model B v1.1 [7]
Raspberry Pi được phát triển bởi Raspberry Pi Foundation (Anh) nhằm sử dụng
trong giảng dạy kiến thức cơ bản về khoa học máy tính. RPI 2 là máy tính siêu nhỏ (to
bằng thẻ tín dụng) giá rẻ (khoảng dưới 1 triệu đồng) và tiêu thụ điện năng cực ít
(khoảng 3Wh, chỉ bằng 1/13 lần so với bóng điện tuýp 1,2m). Raspberry Pi được phát
triển lần đầu vào năm 2009, cho đến năm 2015 là bản Raspberry Pi 2 Model B v1.1.
RPI có thể chạy các hệ điều hành nền Linux như Raspbian, OpenELEC,
archLinux,…và đặc biệt là Microsoft đã tuyên bố RPI có thể chạy Windows 10. Với
vai trị như một máy tính cá nhân, RPI 2 có thể dùng làm những server không yêu cầu
năng lực xử lý cao như NAS, Media Server, Firewall,…

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP

do an

6



CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
RPI 2 cũng có thể dùng với webcam, IP cam,…như một hệ thống giám sát với
các tính năng phát hiện chuyển động, phát hiện âm thanh,…
Bảng 2.1. Cấu hình Raspberry Pi 2 model B v1.1 [8]
Thành phần

Chỉ số

CPU

A 900MHz quad-core ARM Cortex-A7

RAM

1GB

Cổng USB

4 cổng loại 2.0
1 cổng micro USB cấp nguồn

GPIO

40 chân

HDMI

1 cổng


Ethernet(LAN)

1 cổng

Jack âm thanh ra, micro vào và video ra

1 jack cắm 3.5 mm

Khe giao tiếp camera(CSI)

1 khe

Khe giao tiếp màn hình(DSI)

1 khe

Khe cắm thẻ nhớ Micro SD

1 khe

Card màn hình

VideoCore IV 3D graphics

2.2 NGƠN NGỮ KÝ HIỆU
Ngơn ngữ ký hiệu hay ngơn ngữ dấu hiệu, thủ ngữ là ngôn ngữ dùng những
biểu hiện của bàn tay thay cho âm thanh của tiếng nói. Ngơn ngữ ký hiệu do người
điếc tạo ra nhằm giúp họ có thể giao tiếp với nhau trong cộng đồng của mình và tiếp
thu tri thức của xã hội.
Ngơn ngữ ký hiệu Mỹ (American Sign Language- gọi tắt ASL) là ngôn ngữ dấu

hiệu chiếm ưu thế của cộng đồng người khiếm thính tại Hoa Kỳ và trên cả thế giới.
ASL có nguồn gốc từ những năm đầu thế kỷ 19 trong các trường học dành cho người
khiếm thính ở Hartford, Connecticut từ một tình huống tiếp xúc ngơn ngữ [9].

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP

do an

7


CHƯƠNG 2. CƠ SỞ LÝ THUYẾT

Hình 2.2. Cử chỉ bàn tay số từ 1-10 của ASL [10]

2.3 TÌM HIỂU XỬ LÝ ẢNH
2.3.1 GIỚI THIỆU
Xử lý ảnh là một lĩnh vực mang tính khoa học và cơng nghệ. Nó là một ngành
khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất
nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chun
dụng riêng cho nó. Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính: nâng
cao chất lượng ảnh và phân tích ảnh. Từ năm 1964 đến nay, các phương tiện xử lý,
nâng cao chất lượng, nhận dạng ảnh phát triển không ngừng [11].
Trong xử lý ảnh có các bước cơ bản cần thiết sau: Đầu tiên, ảnh tự nhiên từ thế
giới ngoài được thu nhận qua các thiết bị thu (như camera, máy chụp ảnh). Trước đây,
ảnh thu qua camera là các ảnh tương tự (loại camera ống kiểu CCIR). Gần đây, với sự
phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy ra từ camera, sau đó nó
được chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo. Mặt khác, ảnh
cũng có thể tiếp nhận từ vệ tinh; có thể quét từ ảnh chụp bằng máy quét ảnh.


Hình 2.3. Mơ tả các bước cơ bản trong xử lý ảnh
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP

do an

8


CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
Sơ đồ này bao gồm các thành phần sau:

2.3.1.1 Phần thu nhận ảnh (Image Acquisition)
Ảnh có thể nhận qua camera màu hoặc đen trắng. Thường ảnh nhận qua camera
là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng
có loại camera đã số hố (như loại CCD – Change Coupled Device) là loại photodiot
tạo cường độ sáng tại mỗi điểm ảnh. Camera thường dùng là loại quét dòng; ảnh tạo ra
có dạng hai chiều. Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào
môi trường (ánh sáng, phong cảnh).

2.3.1.2 Tiền xử lý (Image Processing)
Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ tiền
xử lý để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ
tương phản để làm ảnh rõ hơn, nét hơn.

2.3.1.3 Phân đoạn (Segmentation) hay phân vùng ảnh
Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn
phân tích, nhận dạng ảnh. Ví dụ: Để nhận dạng chữ (hoặc mã vạch) trên phong bì thư
cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên người
thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng. Đây là phần
phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của

ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này.

2.3.1.4 Biểu diễn ảnh (Image Representation)
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn)
cộng với mã liên kết với các vùng lận cận. Việc biến đổi các số liệu này thành dạng
thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính. Việc chọn các tính chất để thể
hiện ảnh gọi là trích chọn đặc trưng (Feature Selection) gắn với việc tách các đặc tính
của ảnh dưới dạng các thơng tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng
này với đối tượng khác trong phạm vi ảnh nhận được. Ví dụ: Trong nhận dạng ký tự
trên phong bì thư, chúng ta miêu tả các đặc trưng của từng ký tự giúp phân biệt ký tự
này với ký tự khác.

2.3.1.5 Nhận dạng và nội suy ảnh (Image Recognition and Interpretation)
Nhận dạng ảnh là quá trình xác định ảnh. Quá trình này thường thu được bằng
cách so sánh với mẫu chuẩn đã được học (hoặc lưu) từ trước. Nội suy là phán đốn

BỘ MƠN ĐIỆN TỬ CƠNG NGHIỆP

do an

9


CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
theo ý nghĩa trên cơ sở nhận dạng. Ví dụ: Một loạt chữ số và nét gạch ngang trên
phong bì thư có thể được nội suy thành mã điện thoại. Có nhiều cách phân loại ảnh
khác nhau về ảnh. Theo lý thuyết về nhận dạng, các mơ hình tốn học về ảnh được
phân theo hai loại nhận dạng ảnh cơ bản: - Nhận dạng theo tham số. - Nhận dạng theo
cấu trúc. Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong
khoa học và công nghệ là: Nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử), nhận

dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt người…

2.3.1.6 Cơ sở tri thức (Knowledge Base)
Ảnh là một đối tượng khá phức tạp về đường nét, độ sáng tối, dung lượng điểm
ảnh, môi trường để thu ảnh phong phú kéo theo nhiễu. Trong nhiều khâu xử lý và phân
tích ảnh ngồi việc đơn giản hóa các phương pháp tốn học đảm bảo tiện lợi cho xử lý,
người ta mong muốn bắt chước quy trình tiếp nhận và xử lý ảnh theo cách của con
người. Trong các bước xử lý đó, nhiều khâu hiện nay đã xử lý theo các phương pháp
trí tuệ con người. Vì vậy, ở đây các cơ sở tri thức được phát huy.

2.3.2 NHỮNG VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH
2.3.2.1 Điểm ảnh ( Picture Element)
Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng. Để xử lý
bằng máy tính (số), ảnh cần phải được số hoá. Số hoá ảnh là sự biến đổi gần đúng một
ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (khơng gian) và độ sáng
(mức xám). Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt người
khơng phân biệt được ranh giới giữa chúng. Mỗi một điểm như vậy gọi là điểm ảnh
(PEL: Picture Element) hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai chiều, mỗi pixel
ứng với cặp tọa độ (x, y).

2.3.2.2 Ảnh
Ảnh được xem như là một tập hợp các điểm ảnh.
Bất kỳ hình ảnh từ một máy quét hoặc từ một Camera số hay trong máy tính là
một hình ảnh kỹ thuật số. Hình ảnh máy tính đã được “số hóa”, đây là q trình
chuyển đổi từ hình ảnh màu sắc thực tế thành các dữ liệu số bao gồm các hàng và cột
của hàng triệu mẫu màu được đo từ hình ảnh ban đầu.
Một máy ảnh kỹ thuật số dùng chip CCD (Change Coupled Device) đằng sau
ống kính, CCD bao gồm một mạng lưới các điểm bắt sáng được phủ bằng lớp bọc màu
(đỏ - Red, xanh lục – Green, xanh dương – Blue), mỗi điểm ảnh chỉ bắt một màu. Do
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP


do an

10


CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
đó khi chụp ảnh (cửa sập mở), ánh sáng qua ống kính và được lưu lại trên bề mặt chip
cảm biến dưới dạng điểm ảnh. Mỗi điểm ảnh có một mức điện áp khác nhau sẽ được
chuyển đến bộ phận đọc giá trị theo từng hàng. Giá trị mỗi điểm ảnh sẽ được khuếch
đại và được đưa vào bộ chuyển đổi tín hiệu tương tự sang tín hiệu số, cuối cùng đổ vào
bộ xử lý để tái hiện lại hình ảnh đã chụp. Chính q trình đọc thơng tin thực hiện theo
từng hàng đã làm cho tốc độ xử lý ảnh chậm, thiếu hoặc thừa sáng. Đối với máy ảnh
kỹ thuật số dùng chip CMOS tại các điểm bắt sáng có sẵn mạch điện hỗ trợ dễ dàng
tích hợp ngay q trình xử lý điểm ảnh. Với cấu trúc này, mỗi điểm ảnh sẽ được xử lý
ngay tại chỗ và đồng loạt truyền tín hiệu số về bộ xử lý để tái hiện hình ảnh đã chụp
nên tốc độ xử lý nhanh hơn rất nhiều.
Cảm biến nhìn thấy màu sắc và độ sáng của từng khu vực nhỏ là lấy mẫu. Đó là
giá trị màu sắc của từng khu vực được đo và ghi thành giá trị số đại diện cho màu sắc.
Quá trình này được gọi là số hóa hình ảnh. Dữ liệu được tổ hợp thành các hàng và cột
để giữ lại vị trí của từng khu vực hình ảnh. Mỗi giá trị dữ liệu đó chính là điểm ảnh.
Các dữ liệu hình ảnh là bao gồm các giá trị màu RGB số trong một mạng lưới các
hàng và cột. Khi tất cả các dữ liệu ảnh được kết hợp lại và sao chép liên tiếp, chính xác
trật tự cột trên giấy in hoặc hoặc màn hình máy tính, não bộ con người nhận ra hình
ảnh ban đầu.

2.3.2.3 Độ phân giải của ảnh
Độ phân giải của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được
hiển thị. Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt
người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên

một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong
không gian hai chiều.
Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là
một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh
(320*200). Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA
17” độ phân giải 320*200. Lý do: cùng một mật độ (độ phân giải) nhưng diện tích màn
hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn.

2.3.2.4 Mức xám của ảnh
Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số tại
điểm đó.
BỘ MƠN ĐIỆN TỬ CÔNG NGHIỆP

do an

11


CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là mức
phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức
xám dùng 1 byte biểu diễn: 28=256 mức, tức là từ 0 đến 255.

2.3.2.5 Ảnh nhị phân
Là ảnh chỉ có 2 mức đen trắng phân biệt, tức dùng 1 bit mơ tả 21 mức khác
nhau. Nói cách khác, mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1.
Ý nghĩa ứng dụng của ảnh nhị phân: Xử lý dữ liệu và cấu trúc hình học.
Cơ sở của các phương pháp xử lý: Lý thuyết tập hợp, đại số logic, lý thuyết hình
học…
Nhị phân hóa tạo ảnh nhị phân:

𝑌(𝑚, 𝑛) = {

1 𝑛ế𝑢 𝑋(𝑚, 𝑛) ≥ 0
0 𝑛ế𝑢 𝑋(𝑚, 𝑛) ≤ 0

(2.1)

2.3.2.6 Ảnh màu
Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới màu,
người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu là 28*3 = 224
=16,7 triệu màu.

2.3.2.7 Khử nhiễu
Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh:
Nhiều hệ thống: Là nhiễu có quy luật có thể khử bằng các phép biến đổi
Nhiễu ngẫu nhiên: Vết bẩn không rõ nguyên nhân → khắc phục bằng các phép lọc.

2.3.2.8 Chỉnh mức xám
Nhằm khắc phục tính khơng đồng đều của hệ thống gây ra. Thơng thường có 2
hướng tiếp cận:
Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau thành
một bó. Trường hợp chỉ có 2 mức xám thì chính là chuyển về ảnh đen trắng. Ứng
dụng: In ảnh màu ra máy in đen trắng.
Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ thuật
nội suy. Kỹ thuật này nhằm tăng cường độ mịn cho ảnh.

2.3.2.9 Nhận dạng ảnh
Nhận dạng tự động (automatic recognition), mơ tả đối tượng, phân loại và phân
nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng dụng trong


BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP

do an

12


CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
nhiều ngành khoa học khác nhau. Mẫu ở đây có thể là ảnh của vân tay, ảnh của một
vật nào đó được chọn, một chữ viết, khuôn mặt người ….
Trong các ứng dụng rõ ràng là khơng thể chỉ dùng có một cách tiếp cận đơn lẻ
để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp
cận khác nhau. Do vậy, các phương thức phân loại tổ hợp hay được sử dụng khi nhận
dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lai
(hybrid system) bao gồm nhiều mô hình kết hợp.
Việc giải quyết bài tốn nhận dạng trong những ứng dụng mới, nảy sinh trong
cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những u
cầu về tốc độ tính tốn. Đặc điểm chung của tất cả những ứng dụng đó là những đặc
điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải
được trích chọn dựa trên các thủ tục phân tích dữ liệu.

2.4 PHÁT HIỆN MÀU DA DỰA VÀO KHÔNG GIAN MÀU
2.4.1 GIỚI THIỆU
Ý tưởng: Da người nằm trong một vùng không gian màu nhất định do đó cần
xác định ngưỡng của vùng này.
Tính đơn giản của phương pháp này cũng thu hút nhiều sự tập trung nghiên
cứu. Ưu điểm dễ thấy của phương pháp này đó là tính đơn giản của quy tắc nhận biết
màu da. Điều này cho phép phân lớp một cách nhanh chóng và dễ dàng.
Hạn chế: định ra đường biên vùng khơng dễ vì bị ảnh hưởng bởi nhiễu, tập ảnh,
độ chiếu sáng…


2.4.2 CHUYỂN ẢNH MÀU THÀNH ẢNH XÁM
Đơn vị tế bào của ảnh số là pixel. Tùy theo mỗi định dạng là ảnh màu hay ảnh
xám mà từng pixel có thơng số khác nhau. Đối với ảnh màu từng pixel sẽ mang thông
tin của 3 màu cơ bản tạo ra bản màu khả biến là đỏ (R), xanh lá (G) và xanh biển (B)
[Thomas 1892]. Trong mỗi pixel của ảnh màu, 3 màu cơ bản R, G và B được bố trí sát
nhau và có cường độ sáng khác nhau. Thông thường, mỗi màu cơ bản được biểu diễn
bằng 8 bit tương ứng 256 mức độ màu khác nhau.

BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP

do an

13


×