Tải bản đầy đủ (.pdf) (72 trang)

Kiểm tra trạng thái biểu cảm của khuôn mặt người lái xe

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 72 trang )

Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 1

LỜI CẢM ƠN
Trước hết em xin gửi lời cảm ơn chân thành nhất tới Thầy giáo PGS.TS Đỗ
Năng Toàn, Viện Công Nghệ Thông Tin - Viện Khoa học và Công nghệ Việt
Nam, người đã định hướng đề tài và tận tình hướng dẫn chỉ bảo em trong suốt quá
trình thực hiện luận văn cao học này.
Em xin được cảm ơn tới các Thầy cô trong Viện Công Nghệ Thông Tin và
Trường Đại học Công nghệ Thông tin & Truyền thông đã tận tình giảng dạy và
truyền đạt kiến thức, kinh nghiệm quý báu trong suốt 2 năm học Cao học.
Cuối cùng em xin dành một tình cảm biết ơn tới gia đình và bạn bè, những
người đã luôn luôn ở bên cạnh động viên, chia sẻ trong suốt thời gian học Cao học
cũng như quá trình thực hiện luận văn này.
Thái Nguyên, ngày 01 tháng 10 năm 2011
Học viên

Đỗ Khắc Lợi
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 2

LỜI CAM ĐOAN

Để hoàn thành luận văn đúng thời gian quy định và đáp ứng được yêu
cầu đề ra, bản thân em luôn cố gắng nghiên cứu, học tập. Em đã tham khảo một
số tài liệu đã nêu trong phần “Tài liệu tham khảo” và không hề sao chép nội
dung từ bất kỳ luận văn nào khác. Toàn bộ luận văn do ý tưởng bản thân em
được sự chỉ bảo tận tình của thầy hướng dẫn, em tự nghiên cứu và xây dựng nên.
Toàn bộ mã nguồn do em nghiên cứu, tham khảo và cài đặt.
Cho đến nay nội dung luận văn của em chưa từng được công bố hay xuất
bản dưới bất kỳ hình thức nào và cũng không sao chép từ bất kỳ luận văn của


học viên nào hay một công trình nghiên cứu nào.
Em xin cam đoan những lời khai trên là đúng, mọi thông tin sai lệch em
xin hoàn toàn chịu trách nhiệm trước Hội đồng.
Thái Nguyên, ngày 01 tháng 10 năm 2011
Ngƣời cam đoan


Học viên Đỗ Khắc Lợi








Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 3

PHẦN MỞ ĐẦU
Xử lý ảnh là một trong những ngành khoa học đã đem lại cho con người
những bước tiến vượt bậc mang tính cách mạng, nó đã đưa con người tiến sang một
kỉ nguyên mới. Một vài năm trở lại đây công nghệ thông tin cùng với sự phát triển
của nó đã kéo theo sự phát triển của hàng loạt các ngành khoa học trong nhiều lĩnh
vực khác nhau như sinh học, kinh tế, viễn thông, quân sự, giải trí… có những bước
tiến nhanh hơn so với đúng quy trình mà đáng ra phải trải qua. Với sự phát triển
ngày càng hoàn thiện của công nghệ phần cứng, công nghệ phần mềm cũng đang
có những bước tiến quan trọng đóng góp một phần không nhỏ cho sự phát triển của
xã hội loài người đặc biệt là lĩnh vực xử lý ảnh.
Hơn một thập kỷ vừa qua, thế giới đã chứng kiến sự xuất hiện của rất nhiều

công trình nghiên cứu về bài toán xác định khuôn mặt người, từ ảnh đen trắng, xám
đến ảnh màu, từ ảnh tĩnh đến những dữ liệu ảnh thu nhận được từ camera như ngày
hôm nay. Các nghiên cứu đi từ bài toán đơn giản, mỗi ảnh chỉ có một khuôn mặt
người nhìn thẳng vào thiết bị thu hình và đầu ở tư thế thẳng đứng trong ảnh đen
trắng. Cho đến ngày hôm nay bài toán mở rộng cho ảnh màu, có nhiều khuôn mặt
trong cùng một ảnh, có nhiều tư thế thay đổi trong ảnh. Không những vậy mà còn
mở rộng cả phạm vi từ môi trường xung quanh khá đơn giản (trong phòng thí
nghiệm) cho đến môi trường xung quanh rất phức tạp (như trong tự nhiên) nhằm
đáp ứng nhu cầu thật sự và rất nhiều của con người. Sở dĩ bài toán phát hiện mặt
người được quan tâm nghiên cứu như vậy vì nó có rất nhiều ứng dụng đối với thực
tiễn cuộc sống.
Ở nước ta hiện nay, việc kiểm soát tự động đã có nhiều bước phát triển đáng
kể, việc ứng dụng công nghệ nhận dạng mặt người vào các hệ thống giám sát tự
động ngày một thiết thực và có khả năng ứng dụng rộng rãi trong nhiều lĩnh vực
của đời sống kinh tế xã hội. Kiểm tra trạng thái người lái xe có ngủ gật, mất tập
trung hay không, và hỗ trợ thông báo khi cần thiết là một vấn đề cấp thiết trong giải
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 4

quyết bài toán an toàn giao thông, nhất là trong điều kiện Việt Nam, khi hàng ngày
tai nạn giao thông trung bình cướp đi sinh mạng 30 người và làm bị thương hơn 60
người khác.
Vì vậy, em đã lựa chọn đề tài “Kiểm tra trạng thái biểu cảm của khuôn mặt
ngƣời lái xe”, bố cục nội dung của luận văn bao gồm các chương và mục sau:
Chương 1: Trình bày tổng quan cơ sở lý thuyết về xử lý ảnh và phát hiện mặt
người trong ảnh.
Chương 2: Trình bày một số vấn đề nhằm giải quyết bài toán kiểm tra trạng
thái biểu cảm khuôn mặt người.
Chương 3: Trình bày các chức năng chính của chương trình thử nghiệm
Sleep1.0.

Phần kết luận: trình bày những nội dung đã làm được, hạn chế và định
hướng phát triển của đề tài.
Tài liệu tham khảo: trình bày những tài liệu tham khảo được sử dụng để
hoàn thành luận văn này.
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 5

MỤC LỤC
LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
PHẦN MỞ ĐẦU 3
MỤC LỤC 5
DANH MỤC CÁC HÌNH 7
CHƢƠNG 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH PHÁT HIỆN MẶT NGƢỜI
TRONG ẢNH 9
1.1. Khái quát về xử lý ảnh 9
1.2. Một số khái niệm cơ bản trong xử lý ảnh 10
1.2.1. Ảnh số 10
1.2.2. Điểm ảnh 10
1.2.3. Mức xám (gray level) 10
1.2.4 Xử lý ảnh số là gì và tại sao chúng ta cần phải xử lý ảnh số 11
1.3. Các vấn đề chung liên quan đến xử lý ảnh số 11
1.3.1. Xử lý ảnh mức thấp 12
1.3.2 Những khó khăn khi xử lý ảnh số 13
1.4. Ứng dụng của hệ thống xử lý ảnh 14
1.5 Quá trình xử lý ảnh số 15
1.6. Các thành phần cơ bản của hệ thống xử lý ảnh 19
1.7 Phát hiện mặt người trong ảnh 22
1.7.1 Khái niệm phát hiện mặt người trong ảnh 22
1.7.2 Một số kỹ thuật xử lý ảnh sử dụng trong phát hiện mặt người trong ảnh 22

CHƢƠNG 2: MỘT SỐ VẤN ĐỀ TRONG GIẢI QUYẾT BÀI TOÁN
KIỂM TRA TRẠNG THÁI BIỂU CẢM CỦA KHUÔN MẶT 24
2.1 Trạng thái biểu cảm khuôn mặt người 24
2.1.1 Trạng thái, cảm xúc 27
2.1.2 Các trạng thái tâm lý cơ bản 28
2.1.2.1 Trạng thái cân bằng 29
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 6

2.1.2.2 Vui vẻ 29
2.1.2.3 Buồn rầu 30
2.1.2.4 Ngạc nhiên 30
2.1.2.5 Cáu giận 31
2.1.2.6 Phẫn nộ 31
2.1.3 Trạng thái ngủ gật 31
2.2 Phát hiện mặt người trong ảnh 32
2.2.1 Phương pháp phân tích thành phần chính 32
2.2.1.1 Eigenface 37
2.2.1.2 Cách triển khai 38
2.2.2 Phương pháp sử dụng đặc trưng Haar kết hợp Adaboost 41
2.2.2.1 Adaboost 41
2.2.2.2 Đặc trưng Haar 43
2.3 Phát hiện ngủ gật 46
2.3.1 Mắt thời gian thực, Gaze và tư thế khuôn mặt 46
2.3.2 Phát hiện và theo dõi đồng tử 55
CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM 66
3.1 Biểu cảm trạng thái ngủ gật của người lái xe 66
3.2 Thay đổi trạng thái của đôi mắt 67
3.3 Giới thiệu chương trình 68
PHẦN KẾT LUẬN 70

TÀI LIỆU THAM KHẢO 72
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 7

DANH MỤC CÁC HÌNH
Hình 1.1 Mô phỏng quá trình biến đổi hình học 14
Hình 1.2 Các thành phần chính của hệ thống xử lý ảnh 19
Hình 2.1 a) Mô tả dữ liệu đấu vào trên mặt phẳng 2 chiều; b)Mô tả các thành
phần chính trên mặt phẳng 34
Hình 2.2 Dữ liệu được khôi phục lại với 1 thành phần chính 37
Hình 2.3 Mô tả hình thức không gian ảnh khuôn mặt trong không gian ảnh 39
Hình 2.4 Vài đặc trưng Haar cơ bản 44
Hình 2.5 Áp dụng đặc trưng Haar vào ảnh 44
Hình 2.6 Vài đặc trưng Haar được xây dựng 44
Hình 2.7 Mô tả về SAT 45
Hình 2.8 Mô tả về RSAT 45
Hình 2.9 Mô tả về RSAT 46
Hình 2.10 Sơ đồ hệ thống giám sát cảnh báo 50
Hình 2.11 Tổng quan về hệ thống giám sát cảnh giác cho tài xế 51
Hình 2.12 Nguyên lý về hiệu ứng đồng tử sáng và tối 52
Hình 2.13 Hồng ngoại chiếu sáng mắt. 53
Hình 2.14 Cấu hình nguồn sáng IR 53
Hình 2.15 Bức ảnh thực tế về hình dạng hai vòng hồng ngoại chiếu sáng 54
Hình 2.16 (a) sáng và (b) hình ảnh đồng tử tối với các tia sáng 54
Hình 2.17 Ví dụ thu hình ảnh với mong muốn hiệu ứng đồng tử sáng 55
Hình 2.18 Thiết kế camera bên trong động cơ 56
Hình 2.19 Sơ đồ hệ thống theo dõi và phát hiện đồng tử 57
Hình 2.20 Hình nền sự loại bỏ can thiệp chiếu sáng …………………… 57
Hình 2.21 Loại bỏ sự can thiệp chiếu sáng qua việc loại trừ hình ảnh 58
Hình 2.22 Hình ảnh đồng tử sáng và tối riêng biệt 59

Hình 2.23 Sơ đồ khối của vòng loại trừ hình ảnh 60
Hình 2.24 Ánh sáng chói trên khung mắt có độ sáng cân bằng với các đồng tử.61
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 8

Hình 2.25 Theo dõi và phát hiện đồng tử sử dụng bộ lọc Kalman. 62
Hình 2.26 Quỹ đạo thực và dự đoán vị trí đồng tử trong 30 khung hình trình tự63
Hình 2.27 Lọc Kalman theo dõi kết quả với kính. 63
Hình 2.28 Ví dụ về theo dõi học trò theo sự can thiệp mạnh mẽ của chiếu sáng
bên ngoài. 64
Hình 2.29 Định nghĩa về thời gian nhắm mắt và tốc độ mở /nhắm mắt. 64
Hình 3.1 Trạng thái khuôn mặt thay đổi a) lúc bình thường, b) khi buồn ngủ 66
Hình 3.2 Sự thay đổi trạng thái của mắt trái 67
Hình 3.3 Sự thay đổi trạng thái của mắt phải 67
Hình 3.4 Sự thay đổi góc chụp đôi mắt 67
Hình 3.5 Lấy ảnh từ camera 68
Hình 3.6 Ảnh về trạng thái của mắt trái 69
Hình 3.7 Ảnh về trạng thái của mắt phải 69
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 9

CHƢƠNG 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH PHÁT HIỆN MẶT
NGƢỜI TRONG ẢNH
1.1. Khái quát về xử lý ảnh
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Nó là một ngành
khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó
rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính
chuyên dụng riêng cho nó.
Xử lý ảnh được đưa vào giảng dạy ở bậc đại học ở nước ta khoảng chục năm
nay. Nó là môn học liên quan đến nhiều lĩnh vực và cần nhiều kiến thức cơ sở

khác. Đầu tiên phải kể đến Xử lý tín hiệu số là một môn học hết sức cơ bản cho xử
lý tín hiệu chung, các khái niệm về tích chập, các biến đổi Fourier, biến đổi
Laplace, các bộ lọc hữu hạn…Thứ hai, các công cụ toán như Đại số tuyến tính, Xác
suất, thống kê. Một số kiến thức cần thiết như Trí tuệ nhân tạo, Mạng nơ ron nhân
tạo cũng được đề cập trong quá trình phân tích và nhận dạng ảnh.
Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính: Nâng cao chất
lượng ảnh và phân tích ảnh. Ứng dụng đầu tiên được biết đến là nâng cao chất
lượng ảnh báo được truyền qua cáp từ Luân Đôn đến New York từ những năm 20
của thế kỉ XX. Vấn đề nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng
và độ phân giải của ảnh. Việc nâng cao chất lượng ảnh được phát triển vào khoảng
những năm 50 của thế kỉ XX. Điều này có thể giải thích được, vì sau thế chiến thứ
hai, máy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh số thuận lợi.
Năm 1964, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặt trăng
và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh. Từ năm 1964
đến nay, các phương tiện xử lý, nâng cao chất lượng, nhận dạng ảnh phát triển
không ngừng. Các phương pháp tri thức nhân tạo như mạng nơron nhân tạo, các
thuật toán xử lý hiện đại và cải tiến, các công cụ nén ảnh ngày càng được áp dụng
rộng rãi và thu nhiều kết quả khả quan.
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 10

1.2. Một số khái niệm cơ bản trong xử lý ảnh
1.2.1. Ảnh số
Ảnh số được tạo nên từ hàng trăm ngàn cho đến hàng triệu ô vuông rất nhỏ -
được coi là những thành tố của bức ảnh và thường được biết dưới tên gọi là pixels.
1.2.2. Điểm ảnh
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng. Để
có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh. Trong quá trình
số hoá, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình
lấy mẫu (rời rạc hoá về không gian) và lượng hoá thành phần giá trị mà về nguyên

tắc bằng mắt thường không phân biệt được 2 điểm kề nhau. Trong quá trình này
người ta sử dụng khái niệm điểm ảnh được gọi từ picture element. Như vậy, một
ảnh là một tập hợp các pixel.
Điểm ảnh hay còn gọi là pixel (picture element, pels, image elements) được
xem như là dấu hiệu hay cường độ sáng tại một toạ độ trong không gian của đối
tượng.
Ảnh được xem như là một tập hợp các điểm ảnh. Khi được số hoá nó thường
được biểu diễn là ma trận 2 chiều a[i][j] mà mỗi phần tử có một giá trị nguyên hoặc
là một véc tơ cấu trúc màu.
1.2.3. Mức xám (gray level)
Mức xám là kết quả sự mã hoá tương ứng một cường độ sáng của mỗi điểm
ảnh với một giá trị số - kết quả của quá trình lượng hoá.
Cách mã hoá thường dùng là 16, 32 hay 64 mức. Mã hoá 256 mức là phổ biến
nhất do lý do kỹ thuật. Vì, 28=256 (0,…,255) nên với 256 mức, mỗi pixel sẽ được
mã hoá bởi 8 bit.
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 11

1.2.4 Xử lý ảnh số là gì và tại sao chúng ta cần phải xử lý ảnh số
Trong các dạng truyền thông cơ bản: lời nói, văn bản, hình ảnh, âm thanh thì
hình ảnh là dạng truyền thông truyền tải thông tin mạnh mẽ nhất.
Bằng thị giác, con người có thể nhận biết và hiểu về thế giới xung quanh
chúng ta.
Ví dụ: Những hình ảnh về trái đất, những hình ảnh trong dự báo thời tiết…
Có tới 99% lượng thông tin đã biết về thế giới xung quanh được nhận biết
thông qua thị giác.
Việc trang bị cho máy tính có khả năng thị giác như con người không phải là
việc dễ dàng. Chúng ta đang sống trong một không gian 3D, khi máy tính cố gắng
phân tích đối tượng trong không gian 3D thì những bộ cảm biến có sẵn (camera) lại
thường cho ảnh 2D. Như vậy, việc mất mát thông tin của hình ảnh sẽ xảy ra. Với

những cảnh động thì sự di chuyển của đối tượng hay sự di chuyển của camera, tất
cả những việc đó làm cho việc mất mát và sai lệch thông tin rất lớn.
Ngày nay, cùng với sự phát triển của ngành CNTT, chúng ta mong muốn đưa
được những hình ảnh mà con người có thể nhìn thấy được vào máy tính để thực
hiện các mục đích khác nhau như: phân tích ảnh, phục hồi ảnh
Để máy tính có thể hiểu và phân tích ảnh thì ảnh cần được mã hoá và biểu
diễn dưới dạng số gọi là ảnh số. Việc xử lý ảnh trên máy tính nhằm mục đích phân
tích ảnh và phục hồi các thông tin bị sai lệch của ảnh trong quá trình thu nhận.
Như vậy, xử lý ảnh số là thực hiện các phép xử lý đối với ảnh số trên máy
tính. Việc hiểu ảnh, phân tích ảnh và thị giác máy nhằm mục đích nhân bản hiệu
quả của thị lực con người, giúp chúng ta nhận biết tốt hơn về thế giới xung quanh.
1.3. Các vấn đề chung liên quan đến xử lý ảnh số
Người ta chia xử lý ảnh thành 2 mức: Xử lý ảnh mức thấp và xử lý ảnh mức
cao (thị giác máy).
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 12

Phương pháp xử lý ảnh mức thấp thường sử dụng rất ít kiến thức (knowledge)
về nội dung hay ngữ nghĩa ảnh.
Xử lý ảnh mức cao dựa trên kiến thức, mục tiêu và kế hoạch trong việc làm
thế nào để hoàn thành những mục tiêu đó. Thị giác máy ở mức cao luôn cố gắng
mô phỏng nhận thức của con người và có thể đưa ra những quyết định dựa vào
những thông tin đã biết về ảnh.
Xử lý ảnh mức thấp và thị giác máy ở mức cao khác nhau trong việc sử dụng
dữ liệu ảnh. Dữ liệu ảnh mức thấp bao gồm các ảnh gốc được biểu diễn dưới dạng
ma trận ảnh, các phần tử của ma trận biểu diễn giá trị độ sáng của điểm ảnh. Trong
khi đó dữ liệu ảnh mức cao khởi đầu từ những ảnh tốt, nhưng chỉ những dữ liệu có
liên quan đến các mục đích ở mức cao mới được đưa ra, việc giảm số lượng dữ liệu
là đáng kể. Dữ liệu ở mức cao diễn tả các thông tin về nội dung ảnh.
1.3.1. Xử lý ảnh mức thấp

Các kỹ thuật xử lý ảnh mức thấp được thực hiện với việc thao tác trên các ảnh
số. Các phương pháp xử lý ảnh mức thấp được đưa ra vào những năm 1970 của thế
kỉ XX. Gần đây, các nhà nghiên cứu đang cố gắng tìm ra những giải thuật có hiệu
quả hơn và thực hiện các giải thuật đó trên nhiều thiết bị tinh vi mang tính kỹ thuật
cao. Ví dụ, các máy tương tự (Parallel machines) đang được sử dụng giúp cho việc
tính toán một khối lượng phép tính khổng lồ của quá trình hoạt động trên tập hợp
dữ liệu ảnh trở nên dễ dàng hơn.
Một vấn đề phức tạp và chưa giải quyết được là thứ tự các bước trong xử lý
ảnh mức thấp như thế nào để giải quyết công việc được cụ thể và mục tiêu tự động
hoá vấn đề đó vẫn chưa được thực hiện. Những năm 1980 của thế kỉ XX, nhiều đề
án tập trung cho vấn đề này sử dụng các hệ thống chuyên gia (expert systems),
nhưng các hệ thống chuyên gia vẫn không giải quyết được vấn đề của chính họ.
Trình tự các bước xử lý như sau đã được công nhận và phổ biến:
1) Thu nhận ảnh: Một ảnh được thu vào bởi một bộ cảm biến (như TV
camera), từ vệ tinh qua các bộ cảm ứng (sensor) hay ảnh, tranh được
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 13

quét trên scanner. Ảnh có thể được thu nhận từ nhiều thiết bị và
bằng nhiều cách. Sau đó ảnh được số hoá để biến đổi tín hiệu tương
tự sang tín hiệu rời rạc (lấy mẫu) và số hoá bằng lượng hoá.
2) Quá trình xử lý: Là quá trình xây dựng lại ảnh, phục hồi ảnh, khử
nhiễu và tăng cường ảnh.
3) Mã hoá và nén ảnh: Là bước quan trọng trong việc truyền ảnh.
4) Phân đoạn ảnh: Máy tính cố gắng tách các đối tượng ảnh riêng biệt
ra khỏi ảnh nền.
Mô tả và phân loại đối tượng trong một tổng thể ảnh đã được phân đoạn cũng
được hiểu là một phần của quá trình xử lý ảnh mức thấp.
1.3.2 Những khó khăn khi xử lý ảnh số
a. Sự hiểu biết về hệ thống thị giác của con ngƣời còn hạn chế

Chúng ta không có một sự hiểu biết rõ về vấn đề khi con người quan sát, xử lý
và lưu trữ thông tin trực quan như thế nào. Chúng ta thậm trí không biết con người
đo chất lượng ảnh trực quan và phân loại ảnh như thế nào. Với cùng một bức ảnh
thì sự quan sát ở mỗi người là khác nhau.
Sự chú ý của bạn đến các vùng hay các đường viền khác nhau cũng có xu
hướng làm thay đổi cảm nhận của bạn về bức ảnh.
Thậm chí một ảnh được nhìn với một con mắt không thay đổi thì sự cảm nhận
về bức ảnh đó của con người vẫn thay đổi cho dù là rất ít. Các nhà nghiên cứu đã
làm ổn định hình ảnh trực tiếp trên võng mạc để loại trừ bất kỳ một hiệu ứng nào
xuất hiện từ sự di chuyển của mắt. Và ngay cả trong những điều kiện đó, giác quan
của con người cũng vẫn có thể thay đổi.
b. Sự diễn tả về bản chất của ảnh không thể hiểu đƣợc ngay lập tức
Ảnh tương tự được biểu diễn bằng một hàm 2 biến. Sau khi số hoá, ảnh
được biểu diễn dưới dạng ma trận ảnh 2 chiều và được gọi là ảnh số. Máy tính
có thể hiểu và xử lý ảnh số nhưng sự biểu diễn đó không thích hợp cho máy móc
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 14

có thể hiểu được. Những kiến thức về ảnh và những thông tin được rút ra từ ảnh
là cần thiết trong việc cố gắng để hiểu được những mảng số đó.
Ví dụ:
Đọc và hiển thị ảnh như một hàm 2 chiều (dùng matlab script).
Hiển thị ảnh dưới dạng ma trận ảnh (dùng matlab).
Hiển thị ảnh với các chương trình hiển thị ảnh (AcdSee trên hệ thống
Windows).
Cả hai sự biểu diễn hình ảnh đều chứa những thông tin chính xác như nhau,
nhưng khi quan sát hình ảnh dưới 2 dạng biểu diễn đó thì rất khó để có thể tìm ra
sự tương đồng.
1.4. Ứng dụng của hệ thống xử lý ảnh
- Văn phòng: hệ thống nhận dạng chữ, nhận dạng tiếng Anh, tiếng Việt nhận

dạng được cả chữ, ảnh, bảng.
- Nhận dạng chữ OCR (Optical charater Recognition),
- Nhận dạng nhãn OMR (Optical Mark Recognition)
- Nhận dạng tiếng Anh
- Nhận dạng tiếng việt
- Kiểm tra sản phẩm
- So sánh mầu của sản phẩm mẫu với sản phẩm mới
- Kiểm tra độ tròn của chai/lọ
- Nhận dạng công nghiệp, y học, thương mại,
điều tra khoáng sản
- Địa lý: véc tơ hoá bản đồ.
- Các phần mềm chuyển đổi ảnh Raster sang
ảnh vector: MapScan của Viện CNTT,
TrixSystem R2V và V2R.
Hình 1.1 Mô phỏng quá trình biến đổi hình học
- Hoạt hình: biến đổi hình học, bóp méo hình học.
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 15

- Quân sự.
- Dự báo thời tiết, cháy rừng, lũ lụt, sâu bệnh, khoáng sản.
- Thiên văn học, vật lý, sinh học.
- An ninh:
- Nhận dạng vân tay, Water Marking.
- Nhận dạng khuôn mặt người, nhận dạng tội phạm.
- Dấu thông tin trong ảnh.
- Chống bạo lực: dùng camera để phát hiện ra sự an toàn ở nơi công cộng,
Siêu thị…
- Bar code: nhận dạng mã vạch.
- Các robot tự động phục vụ.

- Thư viện: Dùng camera để điều khiển robot.
Ngoài ra có ứng dụng trong y học làm nổi các ảnh, trong thiên văn học để
khôi phục lại ảnh do tác động của khí quyển hay nén ảnh trong truyền đi xa hoặc
lưu trữ.
1.5 Quá trình xử lý ảnh số
a. Phần thu nhận ảnh (Image Acquisition)
Ảnh có thể nhận qua camera màu hoặc đen trắng. Thường ảnh nhận qua
camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25
dòng), cũng có loại camera đã số hoá (như loại CCD - Change Coupled Device) là
loại photodiot tạo cường độ sáng tại mỗi điểm ảnh. Camera thường dùng là loại
quét dòng; ảnh tạo ra có dạng hai chiều. Chất lượng một ảnh thu nhận được phụ
thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh).
b. Tiền xử lý (Image Processing)
Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ tiền
xử lý để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng
độ tương phản để làm ảnh rõ hơn, nét hơn.
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 16

c. Phân đoạn (Segmentation) hay phân vùng ảnh
Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu
diễn phân tích, nhận dạng ảnh. Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong
bì thư cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên
người thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng.
Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm
mất độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công
đoạn này.
Nếu thực hiện tách quá chi tiết thì bài toán nhận dạng các thành phần được
tách ra trở nên phức tạp, còn ngược lại nếu quá trình phân đoạn được thực hiện quá
thô hoặc phân đoạn sai thì kết quả nhận được cuối cùng sẽ không chính xác.

d. Biểu diễn ảnh (Image Representation)
Biểu diễn ảnh là quá trình xử lý tiếp sau khâu phân đoạn hình ảnh. Các vật thể
sau khi phân đoạn có thể được mô tả dưới dạng chuỗi các điểm ảnh tạo nên ranh
giới một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp
mô tả thông qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý
vào hình dạng bên ngoài của chi tiết ảnh như độ cong, các góc cạnh v.v. Biểu diễn
vùng thường được sử dụng khi chúng ta quan tâm tới đặc tính bên trong của vùng
ảnh như đường vân (texture) hay hình dạng (skeletal).
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân
đoạn) cộng với mã liên kết với các vùng lân cận. Việc biến đổi các số liệu này
thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính. Việc chọn các
tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (Feature Selection) gắn với
việc tách các đặc tính của ảnh dưới dạng các thông tin định lượng hoặc làm cơ sở
để phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh nhận được.
Ví dụ: trong nhận dạng ký tự trên phong bì thư, chúng ta miêu tả các đặc trưng của
từng ký tự giúp phân biệt ký tự này với ký tự khác.
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 17

e. Nhận dạng và nắn chỉnh bằng nội suy ảnh
Nhận dạng là quá trình phân loại vật thể dựa trên cơ sở các chi tiết mô tả vật
thể đó (ví dụ các phương tiện giao thông có trong ảnh). Nhận dạng ảnh còn là quá
trình xác định ảnh, quá trình này thường thu được bằng cách so sánh với mẫu
chuẩn đã được học (hoặc lưu) từ trước. Nắn chỉnh bằng nội suy là phán đoán theo ý
nghĩa trên cơ sở nhận dạng. Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì
thư có thể được nội suy thành mã điện thoại. Có nhiều cách phân loại ảnh khác
nhau về ảnh. Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh được phân
theo hai loại nhận dạng ảnh cơ bản:
- Nhận dạng theo tham số.
- Nhận dạng theo cấu trúc.

Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong
khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử),
nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt
người…
f. Cơ sở tri thức (Knowledge Base)
Như đã nói ở trên, ảnh là một đối tượng khá phức tạp về đường nét, độ sáng
tối, dung lượng điểm ảnh, môi trường để thu ảnh phong phú kéo theo nhiễu. Trong
nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các phương pháp toán
học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình tiếp nhận
và xử lý ảnh theo cách của con người. Trong các bước xử lý đó, nhiều khâu hiện
nay đã xử lý theo các phương pháp trí tuệ con người. Vì vậy, ở đây các cơ sở tri
thức được phát huy.
Các quá trình xử lý liệt kê ở trên đều được thực hiện dưới sự giám sát và điều
khiển dựa trên cơ sở các kiến thức về lĩnh vực xử lý ảnh. Các kiến thức cơ bản có
thể đơn giản như vị trí vùng ảnh nơi có những thông tin cần quan tâm, như vậy có
thể thu nhỏ vùng tìm kiếm.
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 18

Trường hợp phức tạp hơn, cơ sở kiến thức có thể chứa danh sách tất cả những
hư hỏng có thể gặp trong quá trình kiểm soát chất lượng thành phẩm hoặc các ảnh
vệ tinh có độ chi tiết cao trong các hệ thống theo dõi sự thay đổi môi trường trong
một vùng.
g. Mô tả (biểu diễn ảnh)
Ảnh sau khi số hoá sẽ được lưu vào bộ nhớ, hoặc chuyển sang các khâu tiếp
theo để phân tích. Nếu lưu trữ ảnh trực tiếp từ các ảnh thô, đòi hỏi dung lượng bộ
nhớ cực lớn và không hiệu quả theo quan điểm ứng dụng và công nghệ. Thông
thường, các ảnh thô đó được đặc tả (biểu diễn) lại (hay đơn giản là mã hoá) theo
các đặc điểm của ảnh được gọi là các đặc trưng ảnh (Image Features) như: biên ảnh
(Boundary), vùng ảnh (Region). Một số phương pháp biểu diễn thường dùng:

- Biểu diễn bằng mã chạy (Run-Length Code)
- Biểu diễn bằng mã xích (Chaine-Code)
- Biểu diễn bằng mã tứ phân (Quad-Tree Code)
Biểu diễn bằng mã chạy
Phương pháp này thường biểu diễn cho vùng ảnh và áp dụng cho ảnh nhị
phân. Một vùng ảnh R có thể mã hoá đơn giản nhờ một ma trận nhị phân:
U(m, n) = 1 nếu (m, n) thuộc R
U( m, n) = 0 nếu (m, n) không thuộc R
Trong đó: U(m, n) là hàm mô tả mức xám ảnh tại tọa độ (m, n). Với cách biểu
diễn trên, một vùng ảnh được mô tả bằng một tập các chuỗi số 0 hoặc 1. Giả sử
chúng ta mô tả ảnh nhị phân của một vùng ảnh được thể hiện theo toạ độ (x, y) theo
các chiều và đặc tả chỉ đối với giá trị “1” khi đó dạng mô tả có thể là: (x, y)r; trong
đó (x, y) là toạ độ, r là số lượng các bit có giá trị “1” liên tục theo chiều ngang hoặc
dọc.
Biểu diễn bằng mã xích
Phương pháp này thường dùng để biểu diễn đường biên ảnh. Một đường bất
kỳ được chia thành các đoạn nhỏ. Nối các điểm chia, ta có các đoạn thẳng kế tiếp
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 19

được gán hướng cho đoạn thẳng đó tạo thành một dây xích gồm các đoạn. Các
hướng có thể chọn 4, 8, 12, 24,… mỗi hướng được mã hoá theo số thập phân hoặc
số nhị phân thành mã của hướng.
Biểu diễn bằng mã tứ phân
Phương pháp mã tứ phân được dùng để mã hoá cho vùng ảnh. Vùng ảnh đầu
tiên được chia làm bốn phần thường là bằng nhau. Nếu mỗi vùng đã đồng nhất
(chứa toàn điểm đen (1) hay trắng (0)), thì gán cho vùng đó một mã và không chia
tiếp. Các vùng không đồng nhất được chia tiếp làm bốn phần theo thủ tục trên cho
đến khi tất cả các vùng đều đồng nhất. Các mã phân chia thành các vùng con tạo
thành một cây phân chia các vùng đồng nhất.

Trên đây là các thành phần cơ bản trong các khâu xử lý ảnh. Trong thực tế,
các quá trình sử dụng ảnh số không nhất thiết phải qua hết các khâu đó tùy theo đặc
điểm ứng dụng. Ảnh sau khi được số hóa được nén, lưu lại để truyền cho các hệ
thống khác sử dụng hoặc để xử lý tiếp theo. Mặt khác, ảnh sau khi số hóa có thể bỏ
qua công đoạn nâng cao chất lượng (khi ảnh đủ chất lượng theo một yêu cầu nào
đó) để chuyển tới khâu phân đoạn hoặc bỏ tiếp khâu phân đoạn chuyển trực tiếp tới
khâu trích chọn đặc trưng sau đó thực hiện nâng cao chất lượng ảnh (tăng độ sáng,
độ tương phản, lọc nhiễu) hoặc khôi phục ảnh (hồi phục lại ảnh thật khi ảnh nhận
được bị méo) v.v…
1.6. Các thành phần cơ bản của hệ thống xử lý ảnh







Hình 1.2 Các thành phần chính của hệ thống xử lý ảnh
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 20

- Thiết bị thu nhận hình ảnh: Là thiết bị biến đổi quang-điện, cho phép biến
đổi hình ảnh quang học thành tín hiệu điện dưới dạng analog hay trực tiếp
dưới dạng số. Có nhiều dạng cảm biến cho phép làm việc với ánh sáng nhìn
thấy hoặc hồng ngoại. Hai loại thiết bị biến đổi quang - điện chủ yếu
thường được sử dụng là đèn ghi hình điện tử và chip CCD (Charge Couple
Device - linh kiện ghép điện tích).
- Bộ nhớ trong và ngoài: Trong các hệ thống xử lý ảnh số thường có dung
lượng rất lớn dùng để lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu
một ảnh số đen trắng kích thước 1024x1024 điểm, mỗi điểm được mã hóa

bằng 8 bits cần bộ nhớ ~ 1MB. Để lưu một ảnh màu không nén, dung
lượng bộ nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lý ảnh có
thể chia làm 3 loại:
1) Bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý. Bộ nhớ
này phải có khả năng ghi/đọc rất nhanh (ví dụ: 25 hình/s);
2) Bộ nhớ ngoài có tốc độ truy cập tương đối nhanh, dùng để lưu thông
tin thường dùng. Các bộ nhớ ngoài có thể là ổ cứng, thẻ nhớ flash
v.v
3) Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường có dung
lượng lớn, tốc độ truy cập không cao. Thông dụng nhất là đĩa quang
ghi 1 lần (ROM) hoặc nhiều lần (ROM) như đĩa DVD có dung
lượng 4.7GB (một mặt).
Ngoài ra trong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh
trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in
laser, in trên giấy ảnh đặc biệt bằng công nghệ nung nóng v.v.
- Bộ xử lý ảnh chuyên dụng: Sử dụng chip xử lý ảnh chuyên dụng, có khả
năng thực hiện nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực
hiện các quá trình xử lý ảnh như lọc, làm nổi đường bao, nén và giải nén
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 21

video số v.v Trong bộ xử lý ảnh thường tích hợp bộ nhớ đệm có tốc độ
cao.
- Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng
cũng như màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của
ảnh (tín hiệu video) thành hình ảnh trên màn hình. Có hai dạng display
được sử dụng rộng rãi là đèn hình CRT (Cathode-Ray Tube) và màn hình
tinh thể lỏng LCD (Liquid Crystal Display). Đèn hình CRT thường có khả
năng hiển thị màu sắc tốt hơn màn hình LCD nên được dùng phổ biến trong
các hệ thống xử lý ảnh chuyên nghiệp.

- Máy tính: Có thể là máy tính để bàn cũng như siêu máy tính có chức năng
điều khiển tất cả các bộ phận chức năng trong hệ thống xử lý ảnh số.
Một hệ thống xử lý ảnh cơ bản có thể gồm: Máy tính cá nhân kèm theo vỉ
mạch chuyển đổi đồ hoạ VGA hoặc SVGA, đĩa chứa các ảnh dùng để kiểm tra các
thuật toán và một màn hình có hỗ trợ VGA hoặc SVGA. Nếu điều kiện cho phép,
nên có một hệ thống như Hình 1.2 bao gồm một máy tính PC kèm theo thiết bị xử
lý ảnh. Nối với cổng vào của thiết bị thu nhận ảnh là một video camera, và cổng ra
nối với một màn hình. Thực tế, phần lớn các nghiên cứu của chúng ta được đưa ra
trên ảnh mức xám (ảnh đen trắng). Bởi vậy, hệ thống sẽ bao gồm một thiết bị xử lý
ảnh đen trắng và một màn hình đen trắng.
Ảnh mức xám được áp dụng trong nhiều lĩnh vực như sinh vật học hoặc trong
công nghiệp. Thực tế chỉ ra rằng bất kỳ ứng dụng nào trên ảnh mức xám cũng ứng
dụng được trên ảnh màu. Với lý do đó, hệ thống ban đầu nên chỉ bao gồm các thiết
bị thu nhận và hiển thị ảnh đen trắng. Với ảnh màu, nên sử dụng một hệ thống mới
trừ trường hợp bạn cần một camera, TV màu và một màn hình đa tần số (ví dụ như:
NEC MultiSync, Sony Multiscan, hoặc Mitsubishi Diamond Scan) để hiển thị ảnh
màu. Nếu khả năng hạn chế, có thể dùng PC kèm theo, vỉ mạch VGA và màn hình
VGA, để dựng ảnh được.
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 22

1.7 Phát hiện mặt ngƣời trong ảnh
1.7.1 Khái niệm phát hiện mặt ngƣời trong ảnh
Phát hiện khuôn mặt người (Face Detection) là một kỹ thuật máy tính để xác
định các vị trí và các kích thước của các khuôn mặt người trong các ảnh bất kỳ (ảnh
kỹ thuật số). Kỹ thuật này nhận biết các đặc trưng của khuôn mặt và bỏ qua những
thứ khác, như: tòa nhà, cây cối, cơ thể, …
Phát hiện khuôn mặt được coi như một giai đoạn quan trọng trong hệ thống
nhận dạng khuôn mặt. Việc xác định chính xác vị trí và kích thước các khuôn mặt
trong ảnh là một trong những yếu tố quyết định để giai đoạn kiểm tra xem khuôn

mặt vừa tìm thấy là ai được chính xác.
1.7.2 Một số kỹ thuật xử lý ảnh sử dụng trong phát hiện mặt ngƣời trong ảnh
Có nhiều nghiên cứu tìm phương pháp xác định khuôn mặt người, từ ảnh xám
đến ngày nay là ảnh màu. Trong luận văn này sẽ trình bày một cách tổng quát nhất
những hướng giải quyết chính cho bài toán, từ những hướng chính này nhiều tác
giả thay đổi một số ý nhỏ bên trong để có kết quả mới.
Dựa vào tính chất của các phương pháp xác định khuôn mặt người trên ảnh.
Các phương pháp này được chia làm bốn hướng tiếp cận chính. Ngoài bốn hướng
này, nhiều nghiên cứu có khi liên quan đến không những một hướng tiếp cận mà có
liên quan nhiều hơn một hướng chính:
- Hƣớng tiếp cận dựa trên tri thức: Mã hóa các hiểu biết của con người về
các loại khuôn mặt người thành các luật. Thông thường các luật mô tả quan
hệ của các đặc trưng.
- Hƣớng tiếp cận dựa trên đặc trƣng không thay đổi: Mục tiêu các thuật
toán đi tìm các đặc trưng mô tả cấu trúc khuôn mặt người mà các đặc trưng
này sẽ không thay đổi khi tư thế khuôn mặt, vị trí đặt thiết bị thu hình hoặc
điều kiện ánh sáng thay đổi.
Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 23

- Hƣớng tiếp cận dựa trên so khớp mẫu: Dùng các mẫu chuẩn của khuôn
mặt người (các mẫu này được chọn lựa và lưu trữ) để mô tả cho khuôn mặt
người hay các đặc trưng khuôn mặt (các mẫu này phải chọn làm sao cho
tách biệt nhau theo tiêu chuẩn mà các tác giả định ra để so sánh). Các mối
tương quan giữa dữ liệu ảnh đưa vào và các mẫu dùng để xác định khuôn
mặt người.
- Hƣớng tiếp cận dựa trên diện mạo: Trái ngược hẳn với so khớp mẫu, các
mô hình (hay các mẫu) được học từ một tập ảnh huấn luyện trước đó. Sau
đó hệ thống (mô hình) sẽ xác định khuôn mặt người. Hay một số tác giả
còn gọi hướng tiếp cận này là hướng tiếp cận theo phương pháp học.

Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 24

CHƢƠNG 2: MỘT SỐ VẤN ĐỀ TRONG GIẢI QUYẾT BÀI TOÁN
KIỂM TRA TRẠNG THÁI BIỂU CẢM KHUÔN MẶT
2.1 Trạng thái biểu cảm khuôn mặt ngƣời
Từ khi loài người sinh ra, trên Trái Đất xuất hiện một hiện tượng hoàn toàn
mới mẻ - hiện tượng tâm lý người mà nền văn minh cổ đại gọi là linh hồn. Khoa
học nghiên cứu hiện tượng này gọi là tâm lý học. Từ những tư tưởng đầu tiên sơ
khai về hiện tượng tâm lý, tâm lý học đã hình thành, phát triển không ngừng và
ngày càng giữ một vị trí quan trọng trong nhóm các khoa học về con người. Hiện
nay tâm lý học là ngành khoa học nghiên cứu hành vi, tinh thần và tư tưởng của
con người (cụ thể đó là những cảm xúc, ý chí và hành động). Tâm lý học cũng chú
tâm đến sự ảnh hưởng của hoạt động thể chất, trạng thái tâm lý và các yếu tố bên
ngoài lên hành vi và tinh thần của con người. Ngành này tập trung vào loài người,
tuy một vài khía cạnh của động vật cũng thỉnh thoảng được nghiên cứu. Động vật ở
đây có thể được nghiên cứu như là những chủ thể độc lập, hoặc một cái nhìn gây
tranh cãi hơn được nghiên cứu như một cách tiếp cận đến sự hiểu biết bộ máy tâm
thần của con người (qua tâm lý học so sánh). Tâm lý học được định nghĩa một cách
rộng rãi như là "khoa nghiên cứu những hành vi và những tiến trình tâm thần của
con người".
Tâm lý học vừa được nghiên cứu một cách khoa học lẫn phi khoa học. Tâm lý
học chủ đạo ngày nay đa phần đặt nền tảng trên thuyết thực chứng, thông qua
những phân tích định lượng và sử dụng những phương pháp khoa học để thử và
bác bỏ những giả thuyết. Tâm lý học có khuynh hướng chiết trung, sử dụng và tiếp
thu kiến thức thu thập được từ nhiều ngành khoa học khác để hiểu và lý giải hành
vi của con người.
Thuật ngữ Tâm lý học được dùng lần đầu tiên trong "Yucologia hoc est de
hominis perfectione, anima, ortu", do nhà triết học kinh điển người Đức Rudlof
Goeckel (La tinh hóa Rudolph Goclenius (1547-1628)) viết ra, được phát hành tại

Đỗ Khắc Lợi “Kiểm tra trạng thái biểu cảm của khuôn mặt ngƣời lái xe”
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 25

Marburg vào năm 1590. Tuy nhiên, thuật ngữ này đã được nhà nhân văn học người
Croatia là Marko Marulić (1450-1524) dùng trong thực tế từ sáu thập kỷ trước đó
trong tiêu đề của chuyên luận La tinh của ông "Psichiologia de ratione animae
humanae". Mặc dù chính chuyên luận không được bảo tồn, tiêu đề của nó xuất hiện
trong danh sách các công trình của Marulic được người đồng nghiệp trẻ hơn của
ông là Franjo Bozicevic-Natalis biên dịch trong "Vita Marci Maruli Spalatensis"
của mình (Krstić, 1964). Điều này tất nhiên có thể không phải là việc sử dụng đầu
tiên, nhưng nó là việc sử dụng được ghi lại trên tài liệu sớm nhất hiện tại biết được.
Thuật ngữ đã bắt đầu được dùng rộng rãi kể từ khi nhà triết học duy tâm
người Đức Christian Wolff (1679-1754) dùng nó trong Psychologia empirica and
Psychologia rationalis của ông (1732-1734). Sự phân biệt giữa tâm lý học kinh
nghiệm (empirical) và lý trí (rational) này được đề cập trong Encyclodedie của
Diderot và được Maine de Biran phổ cập tại Pháp.
Nguồn gốc của từ tâm lý học (psychology) là psyche (tâm lý) rất gần giống
với "soul" (linh hồn) trong tiếng Hy Lạp, và tâm lý học trước đây đã được coi như
một nghiên cứu về linh hồn (với ý nghĩa tôn giáo của thuật ngữ này), trong thời kỳ
Thiên Chúa Giáo. Tâm lý học được xem là một ngành y khoa được Thomas Willis
nhắc đến khi nói về tâm lý học (trong Doctrine of the Soul) với các thuật ngữ về
chức năng não, một phần của chuyên luận giải phẫu 1862 của ông là "De Anima
Brutorum" ("Hai thuyết trình về Linh hồn của Brutes").
Người sáng lập của ngành tâm lý học là Wilhelm Wundt. Vào năm 1879 ông
thiết lập phòng thí nghiệm tâm lý học đầu tiên ở Leipzig, Đức. Ông tách Tâm lý
học ra khỏi các khoa học khác, từ đây tâm lý học trở thành khoa học độc lập. Ông
là người theo chủ nghĩa cấu trúc ghestal, quan tâm đến những gì tạo thành ý thức
và mong muốn phân loại não ra thành những mảng nhỏ khác nhau để nghiên cứu
từng phần riêng biệt. Ông sử dụng phương pháp xem xét nội tâm, yêu cầu một
người tự nhìn vào nội tâm và ý thức của bản thân để nghiên cứu. Những người theo

×