TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
---------------------------------------
ĐỒ ÁN CHUYÊN NGÀNH
NGÀNH: KHOA HỌC MÁY TÍNH
ĐỀ TÀI: NHẬN DIỆN CON NGƯỜI TRONG ẢNH SỬ DỤNG
PHƯƠNG PHÁP HOG
GVHD: TS. Nguyễn Mạnh Cường
Nhóm thực hiện: Nhóm 5
Sinh Viên:
1. Nguyễn Quyền Anh
2. Tạ Tuấn Anh
3. Lê Hoàng Điệp
Lớp: 20231IT6052002
Hà Nội – Năm 2023
2020600385
2020602676
2020601903
Khóa: 15
Mục lục
LỜI CẢM ƠN ...................................................................................................................... 3
LỜI NÓI ĐẦU...................................................................................................................... 4
CHƯƠNG 1: MỞ ĐẦU ....................................................................................................... 6
1.1.
Tổng quan về bài toán nhận diện vật thể............................................................ 6
1.1.1.
Phát biểu bài toán ........................................................................................... 6
1.1.2.
Mục tiêu bài toán ............................................................................................ 6
1.1.3.
Phương pháp nghiên cứu............................................................................... 6
1.1.4.
Đối tượng và phạm vi nghiên cứu ................................................................. 7
1.1.5.
Ứng dụng ........................................................................................................ 8
1.2.
Giới thiệu về xử lý ảnh và thị giác máy tính ....................................................... 8
1.2.1.
Giới thiệu về xử lý ảnh ................................................................................... 8
1.2.2.
Giới thiệu thị giác máy tính............................................................................ 9
1.3.
Phương pháp và kỹ thuật xử lý ảnh. ................................................................. 10
1.4.
Phương pháp và kỹ thuật thị giác máy tính. .................................................... 11
Chương 2: Nhận dạng con người bằng HOG ................................................................. 14
2.1.
Một số mơ hình nhận dạng: ............................................................................... 14
2.1.1.
Histogram of Oriented Gradients(HOG) ..................................................... 14
2.1.1.
OpenPose ...................................................................................................... 26
2.1.2.
YOLO (You Only Look Once) ...................................................................... 28
2.2. Một số mơ hình học máy thường dùng với HOG................................................. 31
2.2.1. Principal Component Analysis (PCA) .............................................................. 31
2.2.2. Support Vector Machines (SVM) ..................................................................... 32
2.2.3. Convolutional Neural Networks (CNN) ........................................................... 33
Chương 3: Thực nghiệm ................................................................................................... 36
3.1.
Dữ liệu thực nghiệm............................................................................................ 36
3.2.
Tiền xử lý dữ liệu: ............................................................................................... 36
3.3.
Chia dữ liệu và huấn luyện mơ hình ................................................................. 41
3.3.1.
Chia dữ liệu................................................................................................... 41
3.3.2. Huấn luyện mơ hình ......................................................................................... 41
3.3.3. Đánh giá mơ hình ............................................................................................. 41
3.3.4. Lưu mơ hình ...................................................................................................... 42
3.4.
Kết quả thực nghiệm .......................................................................................... 42
KẾT LUẬN ........................................................................................................................ 44
TÀI LIỆU THAM KHẢO ................................................................................................... 45
1
Hình 1. 1. Ví dụ về nhận diện người bằng HOG ................................................................................. 7
Hình 1. 2. Ví dụ về thị giác máy tính ................................................................ 9
Hình 1. 3. Q trình xử lý ảnh......................................................................... 10
Hình 1. 4. Các bước cơ bản trong một hệ thơng xử lý ảnh ............................. 11
Hình 2. 1. Resize kích thước tất cả ảnh trong dữ liệu về lích thước chung .... 15
Hình 2. 2. Phép tốn chuyển vị ma trận .......................................................... 16
Hình 2. 3. Ví dụ về điểm ảnh .......................................................................... 17
Hình 2. 4. Gradient của điểm ảnh ................................................................... 18
Hình 2. 5. Cơng thúc tính tốn đặc trưng cho từng ơ (cell) ............................ 18
Hình 2. 6. Chia ảnh thành các block 16x16 .................................................... 19
Hình 2. 7. Tính tốn đặc trưng HOG tại mỗi cell ........................................... 20
Hình 2. 8. Đồ thị sau khi vote hết các cell vào 9 bin ...................................... 21
Hình 2. 9. Ví dụ về chuẩn hóa tới các vector gradient .................................... 21
Hình 2. 10. Sự thay đổi của vector gradient của 3 trường hợp
................ 22
Hình 2. 11. Cơng thức tính giá trị chuẩn hóa .................................................. 23
Hình 2. 12. Cơng thức tính số chiều vector đặc trưng ảnh ............................. 23
Hình 2. 13. Sơ đồ khối các bước phát hiện đối tượng bằng HOg-SVM ......... 30
Hình 3.1: Tổng quan dữ liệu huấn luyện......................................................... 36
Hình 3.2: Dữ liệu sau khi trích rút .................................................................. 40
Hình 3.3: Kết quả thực nghiệm ....................................................................... 43
2
LỜI CẢM ƠN
Chúng em muốn bắt đầu bằng việc gửi lời biết ơn chân thành tới các thầy
cô trong khoa Công nghệ thông tin tại Trường Đại học Công Nghiệp Hà Nội.
Sự nhiệt huyết và sự chỉ dẫn tận tâm của họ đã truyền đạt đến chúng em những
kiến thức quý báu và những bài học hữu ích. Đặc biệt, chúng em muốn bày tỏ
lòng biết ơn sâu sắc đến giảng viên Nguyễn Mạnh Cường, người đã tận tâm
hướng dẫn và chỉ bảo chúng em trong suốt hành trình học tập, nghiên cứu và
hoàn thành đồ án. Cảm ơn anh ấy vô cùng. Chúng em cũng muốn gửi lời tri ân
đặc biệt tới gia đình và bạn bè, những người đã ln ở bên cạnh, khuyến khích
và hỗ trợ chúng em về mặt tinh thần và vật chất. Đó thực sự là nguồn động viên
quan trọng giúp chúng em vượt qua mọi khó khăn trong q trình học tập.
Trong q trình nghiên cứu và thực hiện đề tài, chúng em nhận thức rằng
năng lực và kiến thức của mình cịn hạn chế, khơng tránh khỏi những thiếu sót.
Chúng em mong nhận được sự thơng cảm và góp ý xây dựng từ phía q thầy
cơ và các bạn học. Xin chân thành cảm ơn!
3
LỜI NĨI ĐẦU
Thị giác máy tính và xử lý ảnh là lĩnh vực công nghệ đang trải qua sự
biến đổi đột phá, đặc biệt trong thời kỳ số hóa mạnh mẽ và sự phát triển không
ngừng của công nghệ thông tin. Sự hình thành của hai lĩnh vực đã mở ra một
loạt các cơ hội mới và thách thức thú vị, ảnh hưởng mạnh mẽ đến nhiều khía
cạnh của cuộc sống hàng ngày.
Tính đến hiện nay, lĩnh vực thị giác máy tính đã tiến xa hơn bao giờ hết
trong giải quyết các tác vụ, yêu cầu khác nhau như nhận diện người, nhận diện
xe cộc, v.v. Không dừng lại ở đó, các cơng nghệ, kỹ thuật ngày càng được hồn
thiện nhằm cải tiến, giải quyết các yêu cầu của bài tốn. Việc tiếp tục phát triển
cơng nghệ tạo ra một cơ hội đột phá trong việc cải thiện cuộc sống và công
việc, từ tăng cường an ninh cá nhân đến cải thiện quy trình sản xuất và loại bỏ
cơng việc lặp đi lặp lại.
Bài toán nhận diện con người trong ảnh có ứng dụng rộng rãi trong nhiều
lĩnh vực như an ninh, giám sát, và nhận dạng khuôn mặt. Phương pháp HOG,
với khả năng nổi bật trong việc mô tả đặc trưng hình thái của đối tượng, là một
cơng cụ mạnh mẽ cho mục tiêu này.
Với mong muốn giải quyết bài tốn với phương pháp mới, nhóm quyết
định đã lựa chọn đề tài “Nhận diện con người trong ảnh sử dụng phương
pháp HOG”. Mục tiêu chung của đề tài này là nghiên cứu và áp dụng các
phương pháp tiên tiến để cải thiện hiệu suất và khả năng nhận dạng của phương
pháp HOG trong các bài tốn nhận dạng hình ảnh.
Nội dung của quyển báo cáo sẽ bao gồm các chương như sau:
Chương 1: Phát biểu bài toán
Trong chương 1, nhóm tiến hành phát biểu bài tốn, xác định dữ liệu đầu
vào, dữ liệu đầu ra của bài toán, các đặc điểm của bài toán.
Chương 2: Các kỹ thuật giải quyết bài toán
Sau khi đã phát biểu và xác định rõ ràng được u cầu của bài tốn, nhóm
sẽ trình bày các kỹ thuật giải quyết bài tốn hiện có cùng các ưu nhược điểm
của chúng. Tiếp theo, các giải pháp sẽ được đề xuất cho bài toán được đặt ra.
Và mô tả chi tiết về giải pháp đã lựa chọn.
4
Chương 3: Thực nghiệm
Tại chương này, nhóm tập chung trình bày về quá trình thực nghiệm cũng
như các kết quả đạt được với kỹ thuật giải quyết bài toán ở chương 2.
Phần kết luận:
Cuối cùng trong phần kết luận, nhóm sẽ tổng hợp các kết quả đạt được,
các hướng phát triển và mở rộng đề tài nghiên cứu trong tương lai.
5
CHƯƠNG 1: MỞ ĐẦU
1.1. Tổng quan về bài toán nhận diện vật thể
1.1.1. Phát biểu bài toán
Bài toán nhận diện vật thể là một lĩnh vực quan trọng trong lĩnh vực trí
tuệ nhân tạo và thị giác máy tính. Nó liên quan đến việc xác định và định
danh các vật thể trong ảnh hoặc video.
1.1.2. Mục tiêu bài toán
Mục tiêu của bài toán nhận diện vật thể là tạo ra một hệ thống tự động
có khả năng phân loại và định vị các vật thể trong hình ảnh một cách chính
xác. Điều này thường bao gồm hai nhiệm vụ chính: phát hiện vật thể (object
detection) và phân loại vật thể (object classification).
Phát hiện vật thể (Object Detection): Bài toán này liên quan đến việc
tìm kiếm và định vị vị trí của các vật thể trong ảnh. Thông thường, kết quả
của bài toán phát hiện vật thể được biểu diễn bằng các hình chữ nhật bao
quanh các vật thể cần nhận diện.
Phân loại vật thể (Object Classification): Sau khi đã phát hiện được vị
trí các vật thể trong ảnh, bài tốn phân loại vật thể nhằm xác định loại vật thể
mà mỗi vật thể thuộc về. Điều này thường được thực hiện bằng cách áp dụng
các mơ hình học máy hoặc mạng nơ-ron sâu để phân loại các vật thể dựa trên
các đặc trưng trích xuất từ các vùng ảnh chứa vật thể.
1.1.3. Phương pháp nghiên cứu
Có nhiều phương pháp và mơ hình khác nhau đã được phát triển để giải
quyết bài tốn nhận diện vật thể. Trong số đó, một số phương pháp phổ biến
bao gồm: HOG, R-CNN (Region-based Convolutional Neural Networks),
Fast R-CNN, Faster R-CNN, YOLO (You Only Look Once), SSD (Single
Shot MultiBox Detector), RetinaNet và EfficientDet. Các phương pháp này
thường sử dụng các mạng nơ-ron sâu (deep neural networks) để học và phát
hiện vật thể.
Histogram of Oriented Gradients:
HOG (Histogram of Oriented Gradients) là một phương pháp phổ biến
trong trích xuất đặc trưng cho bài toán nhận diện vật thể. Nó được giới thiệu
bởi Navneet Dalal và Bill Triggs vào năm 2005 và đã được áp dụng thành
công trong nhiều lĩnh vực như nhận diện khuôn mặt, nhận diện xe, nhận diện
người, và nhiều ứng dụng khác.
6
Ý tưởng cơ bản của HOG là biểu diễn một vật thể dựa trên phân bố các
gradient của các điểm ảnh trong vật thể đó. Q trình trích xuất đặc trưng
HOG bao gồm các bước sau:
- Chuẩn bị ảnh.
- Tính tốn gradient.
- Tạo cell
- Tính tốn histogram.
- Chuẩn hóa block.
- Kết hợp các đặc trưng.
Với vector đặc trưng HOG, ta có thể sử dụng các mơ hình máy học như
SVM (Support Vector Machine) để phân loại các vật thể và nhận diện chúng
trong ảnh hoặc video.
Hình 1. 1. Ví dụ về nhận diện người bằng HOG
HOG có những ưu điểm như đơn giản, dễ triển khai, và hiệu quả trong
việc trích xuất đặc trưng của các vật thể có hình dạng và biên độ biến thiên.
Tuy nhiên, nó cũng có một số hạn chế như không xử lý tốt với các biến dạng
khơng đổi về tỷ lệ và khơng thích hợp cho việc nhận diện các vật thể có hình
dạng phức tạp. Do đó, trong các ứng dụng phức tạp hơn, các phương pháp
nhận diện vật thể hiện đại hơn như các mạng nơ-ron sâu (deep neural
networks) thường được sử dụng.
1.1.4. Đối tượng và phạm vi nghiên cứu
Đề tài tập chung nghiên cứu bài toán nhận diện vật thể mà đối tượng
hướng tới chủ yếu là nhận diện con người(human detection).
Đối tượng được nghiên cứu dựa trênc các phương pháp, thuật tốn, mơ hình
được áp dụng trong nhận dạng con người.
Phạm vi nghiên cứu bao gồm việc xây dựng hệ thống nhận diện con
người có khả năng nhận biết chính xác với tốc độ cao, đồng thời đáp ứng
được các yêu cầu kỹ thuật.
7
1.1.5. Ứng dụng
Bài tốn nhận diện con người có nhiều ứng dụng quan trọng trong các
lĩnh vực khác nhau. Dưới đây là một số ứng dụng phổ biến của bài toán nhận
diện con người:
- Nhận dạng và xác minh người dùng
- Phân tích hành vi con người
- Nhận dạng biểu cảm và tư thế
- Theo dõi và đếm con người
- Giao tiếp giữa con người và máy tính
1.2. Giới thiệu về xử lý ảnh và thị giác máy tính
1.2.1. Giới thiệu về xử lý ảnh
Xử lý ảnh là quá trình xử lý các hình ảnh kỹ thuật số bằng các thuật tốn
và phương pháp tính tốn để cải thiện hoặc phân tích thơng tin trong ảnh. Đầu
ra của xử lý ảnh có thể là 1 ảnh tốt hơn hoặc một kết luận.
Ảnh tốt hơn
Xử lý ảnh
Ảnh
Kết luận
Trong xử lý ảnh, các kỹ thuật được sử dụng để xử lý và biến đổi các hình
ảnh. Các kỹ thuật này có thể được sử dụng để cải thiện chất lượng hình ảnh,
nhận diện đối tượng và phân đoạn hình ảnh. Các ứng dụng của xử lý ảnh bao
gồm nhận diện khuôn mặt, xử lý ảnh y tế và xử lý ảnh số.
Các bước chính trong q trình xử lý ảnh bao gồm:
Hệ quyết
đinh
Thu nhận
ảnh
Tiền xử lý
Trích chọn
đặc điểm
So sánh
và kết
luận
Hậu xử lý
Lưu
Trữ
- Thu nhận ảnh: việc thu nhận ảnh có thể thực hiện thông qua các
thiết bị như máy ảnh, ảnh chụp từ vệ tinh qua các bộ cảm biến
(Sensors), qua máy quét (Scanner).
8
- Tiền xử lý: là bước đầu tiên trong quá trình xử lý ảnh và bao gồm
các kỹ thuật như lọc nhiễu, cân bằng độ sáng, cắt ảnh và thay đổi
kích thước ảnh.
- Trích trọn đặc điểm: Nhằm tiến tới hiểu ảnh. Có thể sử dụng các
cơng cụ như: dị biên đẻ xác đinh biên, phân vùng, làm mảnh để
trích xương.
- Hậu xử lý: hiệu chỉnh lại đặc điểm cử những đặc trưng đã trích
được từ bước trến sao cho bước thực hiện tiếp theo được thuận
tiện và nhanh chóng nhưng vẫn không làm ảnh hưởng đến kết quả:
1.2.2. Giới thiệu thị giác máy tính
Thị giác máy tính (Computer vision: xử lí và nhận dạng hình ảnh) là một
lĩnh vực bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích
và nhận dạng các hình ảnh và, nói chung là dữ liệu đa chiều từ thế giới thực để
cho ra các thông tin số hoặc biểu tượng, ví dụ trong các dạng quyết định. Nói
một cách đơn giản hơn, thị giác máy tính nhằm tạo ra một hệ thống nhân tạo có
thể tiếp nhận các hình ảnh thu được hay tập dữ liệu đa chiều để phân tích, xử lí
nó theo ý muốn.
Hình 1. 2. Ví dụ về thị giác máy tính
Thị giác máy tính bao gồm nhiều phương pháp và kỹ thuật, bao gồm các
bước như tiền xử lý, rút trích đặc trưng, phân đoạn và phân loại.
- Tiền xử lý: trong thị giác máy tính bao gồm các kỹ thuật như lọc
nhiễu, cân bằng độ sáng và cắt ảnh để chuẩn bị ảnh cho các bước
xử lý tiếp theo.
9
- Rút trích đặc trưng: là q trình trích xuất các đặc trưng từ ảnh,
bao
gồm các đặc trưng hình học như kích thước, hình dạng, vị trí và
các
đặc trưng thống kê như độ lệch chuẩn và trung bình.
- Phân đoạn: là quá trình phân tách ảnh thành các vùng tương đồng
về màu sắc, độ sáng hoặc độ tương phản. Phân đoạn có thể được
thực hiện bằng các phương pháp như phân đoạn ngưỡng, phân
đoạn dựa trên đối tượng và phân đoạn dựa trên đường viền.
- Phân loại: là quá trình đưa ra quyết định về lớp của các vùng ảnh
đã được phân đoạn và rút trích đặc trưng. Phân loại có thể được
thực hiện bằng các thuật tốn học máy như Naive Bayes, SVM và
mạng neuron.
1.2.3. Các phương pháp và kỹ thuật xử lý ảnh và thị giác máy tính.
1.3. Phương pháp và kỹ thuật xử lý ảnh.
Có nhiều phương pháp và kỹ thuật xử lý ảnh khác nhau, tùy thuộc vào
mục đích và bài tốn cụ thể mà sẽ sử dụng những phương pháp và kỹ thuật
tương ứng.
Hình 1. 3. Quá trình xử lý ảnh
Dưới đây là một số phương pháp và kỹ thuật xử lý ảnh cơ bản:
- Phép lọc: Phép lọc là kỹ thuật xử lý ảnh đơn giản nhất, bao gồm
các phương pháp lọc trung bình, lọc Gaussian, lọc Sobel, lọc
Laplacian, vv. Kỹ thuật này được sử dụng để giảm nhiễu và làm
mờ ảnh.
- Biến đổi Fourier: Biến đổi Fourier là một kỹ thuật biến đổi tín hiệu
từ miền thời gian sang miền tần số và ngược lại. Kỹ thuật này được
sử dụng để phân tích phổ của tín hiệu và loại bỏ các thành phần
tần số không cần thiết.
- Phân đoạn: Phân đoạn là kỹ thuật phân tách ảnh thành các vùng
tương đồng về màu sắc, độ sáng hoặc độ tương phản. Các phương
pháp phân đoạn bao gồm các thuật toán như phân đoạn ngưỡng,
phân đoạn dựa trên đối tượng và phân đoạn dựa trên đường viền.
- Rút trích đặc trưng: Rút trích đặc trưng là q trình trích xuất các
đặc trưng từ ảnh, bao gồm các đặc trưng hình học như kích thước,
10
-
-
-
-
-
hình dạng, vị trí và các đặc trưng thống kê như độ lệch chuẩn và
trung bình.
Phân loại: Phân loại là quá trình đưa ra quyết định về lớp của các
vùng ảnh đã được phân đoạn và rút trích đặc trưng. Các phương
pháp phân loại bao gồm các thuật toán học máy như Naive Bayes,
SVM và mạng neuron.
Nhận diện đối tượng: Phương pháp nhận diện đối tượng được sử
dụng để phát hiện và phân loại các đối tượng trong ảnh. Các
phương pháp nhận diện đối tượng bao gồm phát hiện khuôn mặt,
phát hiện đối tượng dựa trên hình dạng và phát hiện đối tượng dựa
trên màu sắc.
Xử lý ảnh y tế: Phương pháp xử lý ảnh y tế được sử dụng để phân
tích hình ảnh y tế và hỗ trợ việc chuẩn đoán và điều trị bệnh. Các
phương pháp xử lý ảnh y tế bao gồm phân tích hình ảnh MRI, phân
tích hình ảnh X-quang và phát hiện khối u.
Học Máy: là lĩnh vực nghiên cứu về các thuật toán và phương pháp
để máy tính học từ dữ liệu và đưa ra dự đoán. Máy học được sử
dụng rộng rãi trong các ứng dụng xử lý ảnh như nhận diện khuôn
mặt, nhận diện đối tượng và phân tích hình ảnh y tế.
Deep learning: Deep learning là một phương pháp học sâu dựa
trên các mạng neuron nhân tạo với nhiều tầng ẩn. Deep learning
đã đạt được nhiều thành công đáng kể trong các ứng dụng xử lý
ảnh như nhận diện khuôn mặt, phân loại ảnh và phân tích hình ảnh
y tế.
Hình 1. 4. Các bước cơ bản trong một hệ thông xử lý ảnh
1.4. Phương pháp và kỹ thuật thị giác máy tính.
Thị giác máy tính là lĩnh vực nghiên cứu về việc sử dụng máy tính để hiểu và
phân tích hình ảnh. Thị giác máy tính có rất nhiều phương pháp và kỹ thuật,
dưới đây là một số phổ biến:
- Phân đoạn ảnh: Phương pháp phân đoạn được sử dụng để phân
chia ảnh thành các vùng có ý nghĩa khác nhau, dựa trên các đặc
trưng của ảnh như màu sắc, độ sáng và hình dạng. Các phương
11
-
-
-
-
-
-
-
-
pháp phân đoạn bao gồm phân đoạn ngưỡng đơn giản, phân đoạn
dựa trên đối tượng và phân đoạn dựa trên đường viền.
Rút trích đặc trưng: Phương pháp rút trích đặc trưng là q trình
trích xuất các đặc trưng từ ảnh để sử dụng cho các bài toán như
phân loại và nhận diện đối tượng. Các phương pháp rút trích đặc
trưng bao gồm các phương pháp cổ điển như phương pháp SIFT,
phương pháp HOG và các phương pháp dựa trên mạng neuron như
các mạng CNN.
Nhận diện đối tượng: Phương pháp nhận diện đối tượng được sử
dụng để phát hiện và phân loại các đối tượng trong ảnh. Các
phương pháp nhận diện đối tượng bao gồm phát hiện khuôn mặt,
phát hiện đối tượng dựa trên hình dạng và phát hiện đối tượng dựa
trên màu sắc. Các phương pháp này thường sử dụng các thuật toán
học máy như SVM và mạng neuron.
Phân loại ảnh: Phương pháp phân loại ảnh được sử dụng để phân
loại ảnh vào các lớp khác nhau dựa trên các đặc trưng của ảnh. Các
phương pháp phân loại ảnh bao gồm các thuật toán học máy như
Naive Bayes, SVM và mạng neuron.
Xử lý ảnh y tế: Phương pháp xử lý ảnh y tế được sử dụng để phân
tích hình ảnh y tế và hỗ trợ việc chuẩn đoán và điều trị bệnh. Các
phương pháp xử lý ảnh y tế bao gồm phân tích hình ảnh MRI, phân
tích hình ảnh X-quang và phát hiện khối u.
Deep learning: Deep learning là một phương pháp học sâu dựa trên
các mạng neuron nhân tạo với nhiều tầng ẩn. Deep learning đã đạt
được nhiều thành cơng đáng kể trong các ứng dụng thị giác máy
tính như nhận diện khuôn mặt, phân loại ảnh và phân tích hình ảnh
y tế.
Augmented Reality: Phương pháp này sử dụng các kỹ thuật xử lý
ảnh để tạo ra một trải nghiệm thực tế ảo bằng cách kết hợp những
đối tượng thực tế với đối tượng ảo.
Optical Character Recognition (OCR): Phương pháp này sử dụng
các kỹ thuật xử lý ảnh để nhận dạng và chuyển đổi hình ảnh chứa
chữ viết thành văn bản có thể được nhập vào máy tính hoặc xử
lý. OCR được sử dụng rộng rãi trong việc quét tài liệu, chuyển đổi
sách sang dạng điện tử và nhận dạng ký tự trong các bài kiểm tra
trắc nghiệm.
Image restoration: Phương pháp này sử dụng các kỹ thuật xử lý
ảnh để khôi phục lại ảnh bị mờ hoặc bị nhiễu. Các phương pháp
này bao gồm phục hồi ảnh bằng cách loại bỏ nhiễu, phục hồi ảnh
bằng cách khôi phục lại các chi tiết bị mất và phục hồi ảnh bằng
cách tăng cường độ tương phản.
12
- Object tracking: Phương pháp này sử dụng các kỹ thuật xử lý ảnh
để theo dõi và định vị đối tượng trong ảnh hoặc video. Các phương
pháp này bao gồm theo dõi đối tượng bằng cách sử dụng các thuật
toán học máy như Kalman filter và Particle filter, và theo dõi đối
tượng bằng cách sử dụng các thuật toán dựa trên mạng neuron.
13
Chương 2: Nhận dạng con người bằng HOG
2.1.
Một số mô hình nhận dạng:
2.1.1.
Histogram of Oriented Gradients(HOG)
2.1.1.1. Tổng quan về HOG:
HOG là viết tắt của "Histogram of Oriented Gradients", là một kỹ thuật
rút trích đặc trưng được sử dụng trong xử lý ảnh và nhận dạng đối tượng.
Kỹ thuật HOG được giới thiệu bởi Navneet Dalal và Bill Triggs vào năm 2005
như một phương pháp để nhận dạng đối tượng trong ảnh. Kỹ thuật này dựa trên
việc tính tốn gradient của các điểm ảnh trong ảnh và sau đó chuyển đổi
gradient này thành histogram.
Q trình tính tốn gradient của một điểm ảnh bao gồm việc tính tốn
đạo hàm riêng cho các chiều x và y của điểm ảnh đó. Sau đó, gradient của điểm
ảnh được tính bằng cách tính khoảng cách Euclidean giữa hai đạo hàm riêng
này.
Sau khi tính tốn gradient của tất cả các điểm ảnh trong ảnh, chúng ta chia ảnh
thành các ơ lưới và tính tốn histogram của gradient trong mỗi ô lưới.
Histogram này sẽ biểu diễn phân bố các hướng gradient trong ơ lưới đó.
Cuối cùng, các histogram này được kết hợp lại để tạo thành một vector
đặc trưng cho tồn bộ ảnh. Vector này có thể được sử dụng để huấn luyện các
mơ hình máy học để nhận dạng đối tượng trong ảnh.
Điểm mấu chốt trong ngun lý hoạt động của HOG đó là hình dạng của
một vật thể cục bộ có thể được mơ tả thơng qua hai ma trận đó là ma trận độ
lớn gradient (gradient magnitude) và ma trận phương gradient (gradient
direction). Vậy 2 ma trận gradient trên được tạo ra như thế nào? Đầu tiên hình
ảnh được chia thành 1 lưới ơ vng và trên đó chúng ta xác định rất nhiều các
vùng cục bộ liền kề hoặc chồng lấn lên nhau. Các vùng này tương tự như những
vùng hình ảnh cục bộ mà chúng ta tính tích chập trong thuật tốn CNN. Một
vùng cục bộ bao gồm nhiều ô cục bộ (trong thuật tốn HOG là 4) có kích thước
là 8x8 pixels. Sau đó, một biểu đồ histogram thống kê độ lớn gradient được
tính tốn trên mỗi ơ cục bộ. Bộ mô tả HOG (HOG descriptor) được tạo thành
bằng cách nối liền (concatenate) 4 véc tơ histogram ứng với mỗi ô thành một
véc tơ tổng hợp. Để cải thiện độ chính xác, mỗi giá trị của véc tơ histogram trên
vùng cục bộ sẽ được chuẩn hóa theo norm chuẩn bậc 2 hoặc bậc 1. Phép chuẩn
hóa này nhằm tạo ra sự bất biến tốt hơn đối với những thay đổi trong chiếu sáng
và đổ bóng.
2.1.1.2. Các bước xây dựng vector HOG cho hình ảnh:
➢ Tiền xử lý
14
➢ Tính gradient
➢ Tính vector đặc trưng cho từng ơ (cells)
➢ Chuẩn hóa khối (blocks)
➢ Tính tốn vector HOG
a. Tiền xử lý
Trong bài toán này, để thuận tiện cho việc chia đều hình ảnh thành các khối,
ơ và tính tốn đặc trưng ở các bước tiếp theo, chúng ta cần resize kích thước tất
cả các hình ảnh trong tập dữ liệu về một kích thước chung.
Hình 2. 1. Resize kích thước tất cả ảnh trong dữ liệu về lích thước chung
Trong các ví dụ được trình bày trong bài viết này, kích thước chung cho 1
hình ảnh sẽ mặc định là 64x128
b. Tính Gradient
Đây là bước đầu tiên, được thực hiện bằng hai phép nhân chập ảnh gốc với
2 chiều, tương ứng với các toán tử lấy đạo hàm theo hai hướng Ox và Oy. Trong
đó, 2 hướng tương ứng đó là:
T là phép tốn chuyển vị ma trận.
Nghe có vẻ khó hiểu nhỉ, xem hình ảnh dưới đây để có cái nhìn trực quan hơn
nhé.
15
Hình 2. 2. Phép tốn chuyển vị ma trận
Và nếu bạn có một ảnh input là I, ta sẽ có 2 ảnh đạo hàm riêng theo 2 hướng
đó, theo cơng thức:
Khi đó, bạn có thể tính được Gradient bao gồm hai thành phần cường độ
(Gradient Magnitude) và hướng (Gradient Derection) theo công thức (*):
16
Ví dụ: Giả sử ta có một điểm ảnh như sau
Hình 2. 3. Ví dụ về điểm ảnh
Chúng ta sẽ áp dụng các cơng thức trên để tính được gradient của điểm ảnh
này:
Đối với hình ảnh màu, gradient của ba kênh (red, green và blue) được
đánh giá. Độ lớn của gradient tại một điểm ảnh là giá trị lớn nhất của cường độ
gradient của ba kênh, và góc là góc tương ứng với gradient tối đa.
17
Sau bước này, kết quả thu được sẽ là:
Hình 2. 4. Gradient của điểm ảnh
c. Tính vector đặc trưng cho từng ơ (cells)
Để tính tốn vector đặc trưng cho từng ô (cell), chúng ta cần chia hình ảnh
thành các block, mỗi block lại chia đều thành các cell. Để xác định được số
block, chúng ta sẽ sử dụng công thức sau:
Hình 2. 5. Cơng thúc tính tốn đặc trưng cho từng ơ (cell)
Sau khi xác định số block và kích thước mỗi block, cell, để tính tốn
vector đặc trưng cho từng cell, chúng ta cần: Chia không gian hướng thành p
bin (số chiều vector đặc trưng của ô). Rời rạc hóa góc hướng nghiêng tại mỗi
điểm ảnh vào trong các bin.
Giả sử góc hướng nghiêng tại pixel ở vị trí (x,y) có độ lớn là alpha(x,y)
18
Trường hợp rời rạc hóa unsigned-HOG với p=9:
Trường hợp rời rạc hóa signed-HOG với p=18:
Giá trị bin được định lượng bởi tổng cường độ biến thiên của các pixels
thuộc về bin đó. Sau khi tính tốn đặc trưng ơ, ta sẽ nối các vector đặc trưng ô
để thu được vector đặc trưng khối. Số chiều vector đặc trưng khối tính theo
cơng thức:
Ví dụ: Trong trường hợp này, hình ảnh của chúng ta có kích thước là 64x128,
ta sẽ chia mỗi hình ảnh thành các block có kích thước 16x16. Mỗi block sẽ bao
gồm 4 cell, mỗi cell có kích thước là 8x8.
Hình 2. 6. Chia ảnh thành các block 16x16
19
Tiếp theo, tiến hành tính tốn đặc trưng HOG tại mỗi cell sử dụng không
gian hướng 9 bin, trường hợp “unsigned-HOG”. Hướng gradient sẽ chạy trong
khoảng 0 độ đến 180 độ, trung bình 20 độ mỗi bin.
Tại mỗi cell, xây dựng một biểu đồ cường độ gradient bằng cách vote
các pixel vào biểu đồ. Trọng số vote của mỗi pixel phụ thuộc hướng và cường
độ gradient (được tính tốn từ bước 2) của pixel đó. Ví dụ:
Hình 2. 7. Tính toán đặc trưng HOG tại mỗi cell
20
Như trong hình ảnh trên, đầu tiên là pixel có bao quanh màu xanh lam.
Nó có hướng 80 độ và cường độ là 2, vì vậy ta thêm 2 vào bin thứ 5 (hướng 80
độ). Tiếp theo là pixel có bao quanh màu đỏ. Nó có hướng 10 độ và cường độ
4. Vì khơng có bin 10 độ, nên ta vote cho bin 0 độ và 20 độ, mỗi bin thêm 2
đơn vị. Sau khi vote hết các pixel trong một cell kích thước 8x8 vào 9 bin, ta
có thể thu được kết quả như sau:
Hình 2. 8. Đồ thị sau khi vote hết các cell vào 9 bin
d. Chuẩn hóa khối (blocks)
Để tăng cường hiệu năng nhận dạng, các histogram cục bộ sẽ được chuẩn
hóa về độ tương phản bằng cách tính một ngưỡng cường độ trong một khối và
sử dụng giá trị đó để chuẩn hóa tất cả các ơ trong khối. Kết quả sau bước
chuẩn hóa sẽ là một vector đặc trưng có tính bất biến cao hơn đối với các thay
đổi về điều kiện ánh sáng.
Đầu tiên, hãy xem xét ảnh hưởng của việc chuẩn hóa tới các vector
gradient trong ví dụ sau:
Hình 2. 9. Ví dụ về chuẩn hóa tới các vector gradient
21
Trong hình ảnh trên, trường hợp đầu tiên là một ô của hình ảnh ban đầu.
Trường hợp thứ hai, tất cả các giá trị pixel đã được tăng lên 50. Trong trường
hợp thứ ba, tất cả các giá trị pixel được nhân với 1.5. Dễ dàng thấy được, trường
hợp thứ ba hiển thị độ tương phản gia tăng. Ảnh hưởng của phép nhân là làm
các điểm ảnh sáng trở nên sáng hơn nhiều, trong khi các điểm ảnh tối chỉ sáng
hơn một chút, do đó làm tăng độ tương phản giữa các phần sáng và tối của hình
ảnh.
Hãy nhìn vào các giá trị pixel thực tế và sự thay đổi của vector gradient
của ba trường hợp trên trong hình ảnh sau:
Hình 2. 10. Sự thay đổi của vector gradient của 3 trường hợp
Các con số trong các ô là giá trị pixel của các điểm ảnh lân cận điểm ảnh
được đánh dấu màu đỏ.Delta F là đạo hàm theo riêng hai hướng của điểm ảnh
()| Delta F| là giá trị cường độ điểm ảnh (Gradient Magnitude), tính theo cơng
thức .
Trong trường hợp một và hai, giá trị cường độ vector gradient của chúng
tương đương nhau, nhưng trong trường hợp thứ ba, cường độ vector gradient
đã tăng lên 1.5 lần. Nếu chia ba vector bằng độ lớn tương ứng, ta sẽ nhận được
các kết quả tương đương cho cả ba trưởng hợp. Vì vậy, trong ví dụ trên, chúng
ta thấy rằng bằng cách chia các vector gradient theo độ lớn của chúng, chúng
ta có thể biến chúng thành bất biến để thay đổi độ trương phản.
22
Có nhiều phương pháp có thể được dùng để chuẩn hóa khối. Gọi v là
vector cần chuẩn hóa chứa tất cả các histogram của mội khối.‖v(k)‖ là giá trị
chuẩn hóa của v theo các chuẩn k=1, 3 và e là một hằng số nhỏ. Khi đó, các giá
trị chuẩn hóa có thể tính bằng một trong những cơng thức sau:
Hình 2. 11. Cơng thức tính giá trị chuẩn hóa
Ghép các vector đặc trưng khối sẽ thu được vector đặc trưng R-HOG cho
ảnh. Số chiều vector đặc trưng ảnh tính theo cơng thức:
Hình 2. 12. Cơng thức tính số chiều vector đặc trưng ảnh
23
e. Tính tốn vector đặc trưng HOG
Với mỗi hình ảnh kích thước 64x128, chia thành các block 16x16 chồng
nhau, sẽ có 7 block ngang và 15 block dọc, nên sẽ có 7x15 = 105 blocks. Mỗi
block gồm 4 cell. Khi áp dụng biểu đồ 9-bin cho mỗi cell, mỗi block sẽ được
đại diện bởi một vector có kích thước 36x1.Vì vậy, khi nối tất cả các vector
trong một block lại với nhau, ta sẽ thu được vector đặc trưng HOG của ảnh có
kích thước 105x36x1 = 3780x1
2.1.1.3. HOG trong phát hiện đối tượng:
a. Giới thiệu
Một thách thức lớn trong thị giác máy tính là phát hiện đối tượng, có ứng
dụng trong nhiều ngành công nghiệp như an ninh, giám sát, xe tự hành và robot.
Tìm vị trí và kích thước của các đối tượng hấp dẫn trong video hoặc hình ảnh
là mục tiêu chính của việc phát hiện đối tượng. Do sự khác biệt về kích thước,
hình dạng, chiếu sáng và tỷ lệ, việc xác định các đối tượng là một vấn đề khó
khăn.
Lược đồ của các định hướng Gradient (HOG) là một phương pháp thông
thường cho việc phát hiện đối tượng. Dựa trên phân bố hướng dốc trong các
mảnh hình ảnh, mơ tả đặc trưng HOG được sử dụng để ghi lại cả thơng tin kết
cấu và hình dáng của một đối tượng. Một phương pháp hiệu quả đã thu hút rất
nhiều sự chú ý là phát hiện đối tượng dựa trên HOG. Một ảnh đầu vào được
chia thành các khối chồng lên nhau cho quá trình xác định dựa trên HOG, và
các đặc trưng HOG được tính tốn cho mỗi khối. Các khối sau đó được phân
loại là chứa hoặc không chứa một đối tượng quan tâm bằng cách sử dụng các
đặc trưng đã được sử dụng để huấn luyện một thuật toán cho học máy, chẳng
24