Tải bản đầy đủ (.pdf) (78 trang)

Xây dựng hệ thống điểm danh tại trường THPT bình sơn sử dụng phương pháp học bán giám sát

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.38 MB, 78 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------------

LẠI THỊ BẢO UYÊN

XÂY DỰNG HỆ THỐNG ĐIỂM DANH TẠI
TRƢỜNG THPT BÌNH SƠN
SỬ DỤNG PHƢƠNG PHÁP HỌC BÁN GIÁM SÁT

LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH

Đà Nẵng - Năm 2018


ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------------

LẠI THỊ BẢO UYÊN

XÂY DỰNG HỆ THỐNG ĐIỂM DANH TẠI
TRƢỜNG THPT BÌNH SƠN
SỬ DỤNG PHƢƠNG PHÁP HỌC BÁN GIÁM SÁT

Chuyên ngành : Khoa học máy tính
Mã số

:


60480101

LUẬN VĂN THẠC SĨ

Ngƣời hƣớng dẫn khoa học: TS. PHẠM MINH TUẤN

Đà Nẵng - Năm 2018


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
- Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực
tiếp của Thầy TS. Phạm Minh Tuấn.
- Các số liệu, kết quả nêu trong luận văn là trung thực.
- Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và trung thực tên
tác giả, tên công trình, thời gian, địa điểm công bố.
- Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.
Tác giả luận văn

Lại Thị Bảo Uyên


LỜI CẢM ƠN
Trước tiên, tôi xin gởi lời cảm ơn chân thành sâu sắc nhất tới Thầy giáo TS.
Phạm Minh Tuấn, người Thầy đã tận tình hướng dẫn, động viên và giúp đỡ tôi trong
suốt thời gian nghiên cứu và thực hiện luận văn này. Đặc biệt, tôi chân thành cảm ơn
em Phạm Minh Thắng, Đỗ Phúc Hảo, Đoàn Công Danh và các em thuộc Công ty
TNHH MTV Hippotech VietNam, địa chỉ: 236 Đống Đa, phường Thạch Thang, Quận
Hải Châu, Tp Đà Nẵng đã luôn hổ trợ, chỉ dẫn, giúp đỡ tận tình, cũng như động viên

tôi. Sự gần gũi, thân thiện của các em cũng là động lực rất lớn trong suốt chặng đường
làm luận văn thạc sĩ của tôi.
Tôi xin gửi lời cảm ơn tới Ban giám hiệu Trường Đại Học Bách Khoa - Đà
Nẵng, Ban giám hiệu Trường Đại Học Phạm Văn Đồng - Quảng Ngãi, Ban chủ nhiệm
khoa Công nghệ thông tin, Phòng Đào tạo sau đại học của hai trường đã tạo điều kiện
thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận văn. Tôi xin cảm ơn
quí Thầy giáo, Cô giáo những người đã tận tình hướng dẫn và truyền đạt cho tôi những
kiến thức quí báu trong những năm nghiên cứu và học tập. Tôi xin gởi lời cảm ơn tới
Ban giám hiệu, thầy cô giáo cùng các em học sinh trường THPT Bình Sơn – Quảng
Ngãi đã giúp đỡ tạo mọi điều kiện tốt nhất để tôi hoàn thành luận văn.
Và để có được kết quả như ngày hôm nay, tôi rất biết ơn Gia đình đã động viên,
khích lệ, tạo mọi điều kiện thuận lợi nhất trong suốt quá trình nghiên cứu, học tập cũng
như quá trình thực hiện đề tài luận văn tốt nghiệp này.
Mặc dù có rất nhiều cố gắng, nhưng chắc chắn luận văn không tránh khỏi
những thiếu sót nhất định. Tôi rất mong nhận được ý kiến đóng góp quý báu của các
Thầy Cô giáo và các bạn để luận văn ngày càng được hoàn thiện hơn.
Một lần nữa tôi xin chân thành cám ơn!
Tác giả luận văn

Lại Thị Bảo Uyên


MỤC LỤC
MỞ ĐẦU .......................................................................................................................... 1
1. Lý do chọn đề tài .................................................................................................... 1
2. Mục đích nghiên cứu .............................................................................................. 1
3. Đối tượng và phạm vi nghiên cứu .......................................................................... 2
4. Phương pháp nghiên cứu ........................................................................................ 2
5. Ý nghĩa khoa học và thực tiễn của đề tài ............................................................... 3
6. Bố cục của luận văn ................................................................................................ 3

CHƢƠNG 1. CƠ SỞ LÝ THUYẾT VỀ NHẬN DẠNG KHUÔN MẶT.................... 5
1.1. Nhận dạng khuôn mặt ................................................................................................ 5
1.1.1. Khái niệm về nhận dạng khuôn mặt ................................................................. 5
1.1.2. Các bước xây dựng hệ thống nhận dạng khuôn mặt ........................................ 5
1.1.3. Tổng quan về nhận dạng khuôn mặt ................................................................ 6
1.1.4. Tiền xử lý ......................................................................................................... 7
1.1.5. Biểu cảm khuôn mặt người .............................................................................. 8
1.2. Học máy ..................................................................................................................... 8
1.2.1. Khái niệm ......................................................................................................... 8
1.2.2. Các phương pháp học máy ............................................................................... 8
1.2.3. Các mô hình học máy ..................................................................................... 10
1.2.4. Ứng dụng học máy: ....................................................................................... 10
1.3. Tổng quan về xử lý ảnh ........................................................................................... 10
1.3.1. Mục đích của xử lý ảnh gồm .......................................................................... 11
1.3.2. Các bước trong quá trình xử lý ảnh ................................................................ 11
1.3.3. Phạm vi ứng dụng của xử lý ảnh .................................................................... 13
1.3.4. Mức xám của ảnh và biểu diễn ảnh ................................................................ 13
1.4. Các phương pháp nhận dạng đối tượng ................................................................... 16
1.4.1. Phương pháp Principal Component Analysis (PCA). .................................... 16
1.4.2. Phương pháp Support Vector Machine (SVM).............................................. 17
1.4.3. Phương pháp K-láng giềng gần nhất .............................................................. 18
1.4.4. Phương pháp HOG ......................................................................................... 18
1.4.5. Phương pháp Linear Discriminant Analysis .................................................. 19
1.5. Thách thức đối với hệ thống nhận dạng................................................................... 20
1.6. Kết chương ............................................................................................................... 20
CHƢƠNG 2. XÂY DỰNG HỆ THỐNG ĐIỂM DANH HỌC SINH SỬ DỤNG
PHƢƠNG PHÁP HỌC BÁN GIÁM SÁT. ................................................................. 22
2.1. Xây dựng hệ thống ................................................................................................... 22



2.1.1. Giới thiệu bài toán .......................................................................................... 22
2.1.2. Tình trạng của các lớp học và các vấn đề ...................................................... 23
2.1.3. Thiết kế cơ sở dữ liệu ..................................................................................... 23
2.2. Mô hình tổng quát dữ liệu........................................................................................ 25
2.3. Luồng hệ thống ........................................................................................................ 26
2.4. Phát hiện đối tượng .................................................................................................. 28
2.4.1. Đặc trưng Haar-like ........................................................................................ 29
2.4.2. Đặc điểm của thuật toán Haar - Like ............................................................. 32
2.4.3. Số lượng đặc trưng Haar-like ......................................................................... 33
2.4.4. Hình ảnh tích hợp ........................................................................................... 33
2.5. Phân loại yếu ............................................................................................................ 36
2.6. Phân loại mạnh........................................................................................................ 37
2.7. AdaBoost.................................................................................................................. 37
2.8. Mô hình phân tầng Cascade ..................................................................................... 40
2.9. Kết chương ............................................................................................................... 41
CHƢƠNG 3. TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ................... 42
3.1. Môi trường thực nghiệm .......................................................................................... 42
3.1.1. Dữ liệu sử dụng .............................................................................................. 42
3.1.2. Giao diện chương trình................................................................................... 42
3.1.3. Thực nghiệm với tập dữ liệu là khuôn mặt người .......................................... 45
3.2. Tổng quan ................................................................................................................ 48
3.2.1. Tình trạng của các lớp học và các vấn đề ...................................................... 48
3.2.2. Các giải pháp .................................................................................................. 48
3.3. Kết quả xây dựng hệ thống ...................................................................................... 49
3.3.1. Giới thiệu chương trình .................................................................................. 49
3.3.2. Nhận dạng khuôn mặt của học sinh ............................................................... 50
3.3. Tìm kiếm, thống kê thông tin học sinh trong các lớp học ....................................... 51
3.4. Đánh giá về kết quả ................................................................................................. 54
3.4.1. Về lý thuyết .................................................................................................... 54
3.4.2. Về cài đặt ........................................................................................................ 55

3.4.3. Về thực nghiệm .............................................................................................. 55
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................................... 56
TÀI LIỆU THAM KHẢO ............................................................................................ 57
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao)


TÓM TẮT LUẬN VĂN
XÂY DỰNG HỆ THỐNG ĐIỂM DANH TẠI TRƢỜNG THPT BÌNH SƠN
SỬ DỤNG PHƢƠNG PHÁP HỌC BÁN GIÁM SÁT
Lại Thị Bảo Uyên, học viên cao học khóa 33, chuyên ngành Khoa học máy tính.
Mã số: 60480101. Khóa: 33. Trường Đại học Bách khoa – ĐHĐN.
Tóm tắt – Mục đích của luận văn này là để phát triển hệ thống điểm danh học sinh tại
trường THPT Bình Sơn sử dụng phương pháp học bán giám sát. Hệ thống giúp giáo viên dễ
dàng kiểm soát học sinh có đi học đầy đủ hay không. Chương trình nhận dạng khuôn mặt học
sinh bằng một hệ thống camera. Cụ thể hơn, camera sẽ đưa một số hình ảnh trong lớp học. Sau
đó, chương trình áp dụng thuật toán Viola-Jones để phát hiện khuôn mặt trong ảnh. Cuối cùng,
sử dụng phương pháp trích chọn đặc trưng, kỹ thuật phân tích như Principal Component
Analysis (PCA) để xác định khuôn mặt xuất hiện trong các bức ảnh.
Sau mỗi buổi học, các giáo viên sẽ biết được số học sinh tham gia buổi học trên cơ sở
dữ liệu. Camera sẽ ghi lại các học sinh trong lớp học trong suốt tiết học và lưu hình ảnh vào cơ
sở dữ liệu. Sau đó hệ thống sẽ xác định danh tính của các học sinh xuất hiện trong các bức ảnh.
Chương trình sẽ lưu lại những học sinh có tham gia buổi học trong các lớp vào cơ sở dữ liệu.
Cuối cùng, giáo viên có thể kiểm tra danh sách các học sinh có đi học hay không.
Luận văn này sẽ tập trung trình bày các thuật toán viola - jones, kỹ thuật phân tích PCA
để xác định khuôn mặt. Phần cuối cùng của luận văn là phân tích của các học sinh tham gia vào
hệ thống lớp học và đưa ra kết quả cuối cùng là có tham gia trong các buổi học hay không.
Từ khóa – Hệ thống nhận dạng, nhận dạng khuôn mặt, trích chọn đặc trưng, giao tiếp
người - máy, cử chỉ khuôn mặt.
USING HALF SUPERVISING METHODS TO BUILD A BUDDHIST SYSTEM
AT BINH SON HIGH SCHOOL.

Lai Thi Bao Uyen, graduate student of course 33, majoring in Computer Science.
Code: 60480101. Course: 33. The university of Technology – Da Nang university.
Abstract - The purpose of this project is to develop programs that can manage the
attendance of students at Binh Son upper cecandary school by using. University of Science and
Technology. It helps teachers to easily control the attendance of students. The program
identifies students portraits by a camera. More specific, a camera takes some photos in class,
then, the program applies Viola-Jones algorithm to detect faces in photos. Finally, it uses
Principal component analysis (PCA) techniques to identify the faces in the photos.
After class, the teacher manages a number creates a study session on the database. The
camera will record the students in the classroom during the lesson and save the images to the
database. Then the program determines the identities of the students in the photo. Finally, the
program saves the students who are in class into the database. After that, teacher can check the
list of students.
The report will focus on the presentation of viola-jones algorithms and PCA techniques.
The final part of the report is an analysis of the student who attend the system and the final
conlession whether stundents attend the class or not.
Key words - System recognition, facial recognition, feature selection, human - machine
interaction, face recognition.


DANH MỤC CÁC TỪ VIẾT TẮT
Từ đầy đủ

STT

Từ viết tắt

1

PCA


Principal component analysis

2

PCR

Principal component regression

3

CGA

Conformal geometric algebra


DANH MỤC CÁC BẢNG

Số hiệu
bảng

Tên bảng

Trang

2.1.

Chứa thông tin giáo viên

23


2.2.

Chứa thông tin học sinh

24

2.3.

Chứa thông tin về khuôn mặt

24

2.4.

Mô tả thuộc tính học sinh

24

2.5.

Mô tả lớp học.

24


DANH MỤC CÁC HÌNH

Số hiệu
hình


Tên hình

Trang

1.1.

Dữ liệu đưa ra kết quả để nhận dạng khuôn mặt.

6

1.2.

Các bước cơ bản trong xử lý ảnh

11

1.3.

Quan hệ trong vùng lân cận giữa các điểm ảnh.

16

1.4.

Ảnh sau khi tính gradient và chia thành các cell.

19

2.1.


Mối quan hệ của hệ thống.

25

2.2.

Mô hình tổng quát.

25

2.3.

Quá trình thu thập hình ảnh.

26

2.4.

Dữ liệu hình ành đầu vào và kết quả ra

27

2.5.

Quá trình thu thập của hệ thống.

28

2.6.


Quan hệ giữa các khu vực khác nhau trên khuôn mặt.

29

2.7.

Một số mô hình Haar - like.

30

2.8.

Các đặc trưng mở rộng của các đặc trưng Haar-like cơ sở

30

2.9.

Đặc trưng Haar – like Loại 1

31

2.10.

Đặc trưng Haar – like Loại 2

31

2.11.


Đặc trưng Haar – like Loại 3

31

2.12.

Đặc trưng Haar – like Loại 4

31

2.13.

Đặc trưng Haar – like Loại 5

32

2.14.

Đặc trưng Haar – like Loại 6

32

2.15.

Một số đặc điểm của Haar – like.

32

2.16.


Giá trị của hình ảnh tích hợp

34

2.17.

Chuyển thành hình ảnh tích hợp.

34

2.18.

Bằng chứng hình ảnh tích hợp

35

2.19.

Tính giá trị tất cả điểm ảnh vùng D.

35

2.20.

Xác định khuôn mặt dựa trên phân loại yếu.

36

2.21.


Mô tả các bước Adaboost vòng 1

38

2.22.

Mô tả các bước Adaboost vòng 2

39

2.23.

Mô tả các bước Adaboost vòng 3

39

2.24.

Mô tả các bước Adaboost vòng 4

39

2.25.

Mô hình cascade cho nhận dạng đối tượng

40

3.1.


Quá trình tải dữ liệu

42

3.2.

Quá trình tải dữ liệu đã kết thúc

43


Số hiệu
hình

Tên hình

Trang

3.3.

Nhập họ tên một người bất kỳ, dữ liệu bắt đầu phát hiện từ 0%

43

3.4.

Dữ liệu phát hiện từ 10%

44


3.5.

Dữ liệu phát hiện đã kết thúc

45

3.6.

Dữ liệu thu thập thực nghiệm

45

3.7.

Dữ liệu thu thập ở thư mục Test

45

3.8.

Dữ liệu thu thập ở thư mục Train

45

3.9.

Dữ liệu hình ảnh là 2.236 hình ảnh khuôn mặt

46


3.10.

Dữ liệu hình ảnh là 5.260 hình ảnh không phải là khuôn mặt

47

3.11.

Các hình ảnh khuôn mặt được Traning của một người bất kỳ

48

3.12.

CHECK khuôn mặt của học sinh

50

3.13:

Thông tin học sinh sẽ xuất hiện trên hệ thống.

51

3.14.

Danh sách học sinh một số lớp học.

51


3.15.

Dữ liệu học sinh của lớp 10A2.

52

3.16.

Dữ liệu học sinh của lớp 10A4.

52

3.17.

Dữ liệu học sinh của lớp 10A8.

53

3.18.

Dữ liệu học sinh của lớp 10A10

53

3.19.

Dữ liệu học sinh của lớp 10A12

54


3.20.

Tỉ lệ nhận dạng sử dụng phương pháp PCA, dùng khoảng cách
mahalanobis.

55

3.21.

Tỉ lệ nhận dạng sử dụng phương pháp PCA, dùng khoảng cách
Euclid.

55


1
MỞ ĐẦU
1. Lý do chọn đề tài
Với sự phát triển nhanh chóng của các loại máy móc hiện đại như máy ảnh số,
máy quay phim kỹ thuật số, máy vi tính…thì lượng thông tin con người thu được dưới
dạng hình ảnh là khá lớn. Ngày nay các phương pháp xử lý ảnh đã mang lại những tiến
bộ vượt bậc như nhận dạng khuôn mặt, nhận dạng dấu vân tay, nhận dạng đối tượng
khi nó kết hợp với lĩnh vực trí tuệ nhân tạo. Các hệ thống xác định, nhận dạng con
người được ra đời với độ tin cậy cao. Một trong nhưng bài toàn nhận dạng con người
được quan tâm nhất hiện nay đó là nhận dạng qua khuôn mặt. Với một hệ thống máy,
chúng ta có thể làm được rất nhiều việc, tiết kiệm thời gian, kinh phí và công sức. Đặc
biệt là công việc nhận dạng con người.
Trong những thập kỷ qua, nền giáo dục Việt Nam có những bước phát triển, có
những thành tựu đáng ghi nhận, góp phần quan trọng vào nâng cao dân trí, đào tạo

nhân lực cho công cuộc xây dựng, bảo vệ và đổi mới đất nước. Vì vậy, việc nghiên
cứu và ứng dụng các kỹ thuật công nghệ thông tin trong giảng dạy và học tập đang là
vấn đề rất bức thiết hiện nay. Đã có rất nhiều mô hình giảng dạy và học tập cũng như
các hình thức kiểm tra trực tuyến, các cuộc thi toán, tiếng anh, tin học…qua mạng trực
tuyến được đưa ra nhằm tăng chất lượng giáo dục. Tuy nhiên, công việc dạy học tại
lớp vẫn là mô hình truyền thống là không thể thiếu. Một trong những vấn đề cấp thiết
được đưa ra là việc nắm bắt tình hình học tập của học sinh tại các lớp học ở trường
trung học phổ thông.
Hiện nay, tại các trường trung học phổ thông, trung bình một giáo viên đứng lớp
trực tiếp giảng dạy có tổng các tiết học trong tuần với số lượng học sinh là gần năm
trăm học sinh. Công việc điểm danh cũng như kiểm tra nề nếp học sinh làm cho giáo
viên rất vất vả và ảnh hưởng đến thời gian giảng dạy cũng như thời gian học tập của
học sinh. Chính vì vậy, một hệ thống tự động nhận dạng khuôn mặt và phân tích thái
độ học tập của học sinh là điều rất cần thiết.
Bài toán phát hiện các đối tượng trong ảnh như gương mặt người, nụ cười…rất
được quan tâm. Các nhà sản xuất máy ảnh như Canon, Nikon, Samsung…cũng đã tích
hợp các giải thuật nhận dạng vào các sản phẩm của mình để nhận dạng mặt người.
Thuật toán Haar-like – Adaboost của hai tác giả Paul Viola và Micheal J.Jones
là thuật toán xác định mặt người dựa theo hướng tiếp cận trên diện mạo.
Vì những lý do như trên, tôi đề xuất chọn đề tài luận văn thạc sĩ:
“Xây dựng hệ thống điểm danh tại trường THPT Bình Sơn sử dụng phương pháp
học bán giám sát”.
2. Mục đích nghiên cứu


2
Hỗ trợ giáo viên đánh giá học sinh và nâng cao chất lượng dạy học: Tự động
hóa việc điểm danh học sinh trong các lớp học. Tự động đánh giá thái độ học tập của
học sinh, kiểm tra, điểm danh được học sinh vắng học, giáo viên thay đổi phương
pháp giảng dạy hoặc nhắc nhở học sinh trong học tập.

Mục đích chính của đề tài là nghiên cứu sâu thuật toán Haar-like – Adaboost
nhầm nâng cao kết quả nhận dạng khuôn mặt và đánh giá thái độ học tập của học sinh
trong các lớp cụ thể. Để thỏa mãn mục đích này thì đề tài luận văn của tôi sẽ làm rõ
những chi tiết cụ thể sau:
- Sử dụng các thuật toán của Viola – Jones trong nhận dạng đối tượng.
- Xây dựng hệ thống phục vụ điểm danh của học sinh.
- Nghiên cứu thuật toán Haar-like – Adaboost.
- Thu thập dữ liệu, khảo sát nhu cầu, hiện trạng lắp đặt hệ thống giám sát tại
trường học.
- Phân tích, thiết kế hệ thống.
- Ước lượng phân bổ dữ liệu.
- Xây dựng chương trình, cài đặt, kiểm thử và đánh giá.
3. Đối tƣợng và phạm vi nghiên cứu
Đối tượng nghiên cứu
Trong khuôn khổ của luận văn thuộc loại nghiên cứu và xây dựng ứng dụng,
đối tượng nghiên cứu trong luận văn lien quan đến các vấn đề sau:
- Các vấn đề liên quan đến thuật toán nhận dạng khuôn mặt, thuật toán Haar-like
– Adaboost.
- Qui trình xây dựng các thuật toán.
- Công cụ, ngôn ngữ và công nghệ liên quan đến thuật toán nhận dạng khuôn mặt.
- Một số ứng dụng có sẵn của thuật toán nhận dạng khuôn mặt.
- Nghiên cứu những mô đun liên quan đã có sẵn để tiếp thu và phát triển ý
tưởng mới.
Phạm vi nghiên cứu
- Nghiên cứu kỹ thuật xử lý ảnh và nhận dạng đối tượng.
- Nghiên cứu các phương pháp phát hiện khuôn mặt, nhận dạng cử chỉ nụ cười,
khuôn mặt nghiêng, khuôn mặt nhìn lên, xuống ở các góc xoay khác nhau.
- Nhận dạng khuôn mặt học sinh các khối lớp 10, 11, 12 tại trường THPT Bình
Sơn – Quảng Ngãi.
4. Phƣơng pháp nghiên cứu

Phương pháp lý thuyết
- Cơ sở lý thuyết về các kỹ thuật xử lý ảnh.


3
- Nghiên cứu các kỹ thuật biến đổi không gian.
- Tổng quan về thuật toán Haar-like – Adaboost.
- Xây dựng các ước lượng phân bổ dữ liệu.
- Nghiên cứu về phương pháp trích chọn đặc trưng hình học.
Phương pháp thực nghiệm
- Xây dựng hệ thống chương trình demo trên Java dựa trên giải pháp đề xuất.
- Xây dựng phương pháp tiền xử lý dữ liệu ảnh.
- Thực nghiệm trên dữ liệu đầu vào là hình ảnh đó có phải là khuôn mặt hay
không bằng thuật toán Haar-like – Adaboost của hai tác giả Paul Viola và Micheal
J.Jones.
- Kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả.
5. Ý nghĩa khoa học và thực tiễn của đề tài
Ý nghĩa khoa học
- Nghiên cứu thuật toán Haar-like – Adaboost là thuật toán của hai tác giả Paul
Viola và Micheal J.Jones nhằm tăng hiệu quả cho các bài toán nhận dạng, phân lớp
dữ liệu.
- Phát triển hệ thống để góp phần phổ biến và từng bước thâm nhập sâu hơn về
công nghệ này. Kết quả sẽ mở ra một kỹ thuật trích chọn đặc trưng cho các nghiên cứu
sau này.
Ý nghĩa thực tiễn
- Đề xuất giải pháp góp phần tăng hiệu quả việc quản lý đào tạo học sinh, nhằm
nâng cao chất lượng học sinh trong trường trung học phổ thông, đồng thời hỗ trợ giáo
viên trong công tác quản lý học sinh tại trường.
- Triển khai hệ thống điểm danh bán dám sát tại trường trung học phổ thông Bình
Sơn – tỉnh Quảng Ngãi.

6. Bố cục của luận văn
Cấu trúc của luận văn được trình bày bao gồm các phần chính sau:
MỞ ĐẦU: Giới thiệu sơ bộ về lý do chọn đề tài, mục đích nghiên cứu, đối
tượng và phạm vi nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn
của đề tài.
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT VỀ NHẬN DẠNG KHUÔN MẶT.
Giới thiệu hệ thống nhận dạng mặt người, học máy và các phương pháp thường
dùng, các vấn đề đối mặt với hệ thống nhận dạng, đồng thời nên ra các kỹ thuật toán
bản về trích xuất đặc trưng của dữ liệu.
CHƢƠNG 2: XÂY DỰNG HỆ THỐNG ĐIỂM DANH HỌC SINH SỬ
DỤNG PHƢƠNG PHÁP HỌC BÁN GIÁM SÁT.


4
Giới thiệu một số kỹ thuật trích chọn đặc trưng và nhận dạng khuôn mặt người,
mỗi phương pháp đều có các ưu điểm và hạn chế riêng, việc áp dụng phương pháp nào
còn tùy thuộc vào từng bài toán cụ thể. Tổng quan về thuật toán Haar-like – Adaboost,
thuật toán của hai tác giả Paul Viola và Micheal J.Jones nhằm tăng hiệu quả cho các
bài toán nhận dạng, phân lớp dữ liệu. Đồng thời, ở chương này tác giả luận văn sẽ nêu
rõ quá trình xây dựng hệ thống.
CHƢƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ.
Trình bày về hệ thống nhận dạng khuôn mặt học sinh hổ trợ cho giáo viên trong
quá trình điểm danh và đánh giá thái độ của học sinh. Ở chương này, tác giả luận văn
xây dựng quá trình thực nghiệm và đánh giá kết quả.


5
CHƢƠNG 1
CƠ SỞ LÝ THUYẾT VỀ NHẬN DẠNG KHUÔN MẶT.
Chương này giới thiệu hệ thống nhận dạng khuôn mặt người, học máy và các

phương pháp thường dùng, các vấn đề đối mặt với hệ thống nhận dạng, đồng thời nên
ra các kỹ thuật toán bản về trích xuất đặc trưng của dữ liệu.
1.1. Nhận dạng khuôn mặt
1.1.1. Khái niệm về nhận dạng khuôn mặt
Nhận dạng khuôn mặt (Face recognition) là một chủ đề nghiên cứu thuộc lĩnh
vực thị giác máy tính (Computer Vision) đã được phát triển từ đầu những năm 90 của
thế kỷ trước [1].
Cho tới hiện nay, đây vẫn là một chủ đề nghiên cứu mở nhận được sự quan tâm
của nhiều nhà nghiên cứu từ nhiều lĩnh vực nghiên cứu khác nhau như nhận dạng mẫu
(Pattern Recognition), học máy (Machine Learning), thống kê (Statistics), sinh trắc
học (Biometrics). Bên cạnh đó, so với các hệ thống nhận dạng dựa trên các đặc điểm
sinh trắc học khác của con người như nhận dạng mống mắt và vân tay (fingerprint and
iris recoginitions), dáng đi (gait recognition), nhận dạng khuôn mặt có nhiều ưu điểm.
Một hệ thống nhận dạng mặt không đòi hỏi có sự tương tác trực tiếp giữa đối
tượng được nhận dạng và hệ thống.
- Việc thu nhận dữ liệu (ảnh khuôn mặt) cho quá trình nhận dạng một con người
dễ thực hiện hơn so với thu nhận các đặc đặc điểm sinh trắc học khác (như thu nhận
dấu vân tay và mống mắt).
- Dữ liệu về mặt người phổ biến hơn so với các đặc trưng khác do sự bùng nổ
các mạng xã hội (facebook, twitter…), các dịch vụ chia sẻ dữ liệu đa phương tiện và
sự phát triển mạnh mẽ của các thiết bị thu nhận hình ảnh.
- Từ ảnh khuôn mặt của một người ta có thể khai thác nhiều thông tin liên quan
như là mã số học sinh, tên học sinh, học sinh đó học lớp nào, giới tính…
1.1.2. Các bước xây dựng hệ thống nhận dạng khuôn mặt
Xây dựng một hệ thống nhận dạng khuôn mặt trong thực tế được mô tả qua
những bước sau đây:
Bước 1: Thực hiện việc phát hiện khuôn mặt trong dữ liệu đầu vào (Cơ sở dữ
liệu ảnh, video) và cắt lấy phần ảnh mặt để thực hiện nhận dạng (face cropping).
Bước 2: Tiền xử lý ảnh (preprocessing) bao gồm các bước sau:
- Căn chỉnh ảnh (face image alignment).

- Chuẩn hóa ánh sáng (illumination normalization).
- Trích chọn đặc trưng ảnh (feature extraction) để xây dựng một vector đặc


6
trưng thể hiện cho ảnh cần nhận dạng.
Bước 3: Nhận dạng (recognition) hoặc phân lớp (classification).
- Thường sử dụng các phương pháp học máy.
- Dữ liệu sẽ được chia thành 2 tập (tập huấn luyện – tranning và tập để kiểm
nghiệm – testing).
Mục đích của việc huấn luyện: giảm số chiều của các vector đặc trưng vì các
vector này thường có độ dài khá lớn nên nếu để nguyên thì việc tính toán sẽ rất lâu và
phức tạp, thứ hai là làm tăng tính phân biệt (discriminative) giữa các ảnh khác lớp. Ở
đây cần lưu ý là mỗi ảnh là một vector nên có thể dùng khái niệm hàm khoảng cách
giữa hai vector để đo sự khác biệt giữa các ảnh.
1.1.3. Tổng quan về nhận dạng khuôn mặt
Có rất nhiều phương pháp để giải quyết vấn đề xác định khuôn mặt của con
người trên hình ảnh dựa trên phương pháp tiếp cận khác nhau. Giống như Haar-like Adaboost phương pháp được đề xuất bởi hai nhà khoa học Paul Viola và Michael
Jones là phương pháp xác định khuôn mặt con người dựa trên phương pháp tiếp cận
trên khuôn mặt.

+1
Là khuôn mặt.

Ảnh
24 × 24

Thuật toán
Viola - Jones
-1

Không phải là
khuôn mặt.

Hình 1.1: Dữ liệu đưa ra kết quả để nhận dạng khuôn mặt.
Cách tiếp cận trên khuôn mặt có nghĩa là phải đối mặt công nhận hệ thống sẽ
tìm hiểu các mô hình của khuôn mặt từ một hình ảnh mẫu. Sau khi quá trình đào tạo
được thực hiện, hệ thống sẽ có thông số để sử dụng cho quá trình phát hiện khuôn mặt.
Vì vậy, một cách tiếp cận trên khuôn mặt cũng được gọi là một máy học phương pháp
tiếp cận. Phần này sẽ tập trung vào quá trình phát hiện và quá trình đào tạo.


7
Trong các tổng quan, phương pháp Haar-like - Adaboost dựa trên sự kết hợp
của bốn thành phần:
- Các tính năng của phương pháp Haar - like:
o Các tính năng được đặt tại các khu vực trong ảnh dùng để tính toán giá trị
của các tính năng.
o Bằng cách đi qua các giá trị tính năng, sẽ xác định xem các hình ảnh đó có
phải là một khuôn mặt hay không.
- Phân tích hình ảnh:
o Đây là một công cụ tính toán các giá trị nhanh hơn dựa vào phương pháp
Haar - like.
- Tính thích nghi (Adaboost):
o Nó được sử dụng để kết hợp nhiều phân loại yếu thành một phân loại mạnh
để cải thiện hiệu suất của các quá trình phát hiện khuôn mặt.
- Phân loại:
o Là một phân loại với nhiều lớp. Mỗi phân lớp là một phân loại mạnh.
o Tăng tốc quá trình phân loại.
Do đó vấn đề xác định khuôn mặt người trong hình ảnh cũng là vấn đề phân
loại các hình ảnh đưa vào có phải là khuôn mặt hay không phải khuôn mặt.

1.1.4. Tiền xử lý
Phương pháp Haar-like - Adaboost phương pháp thực hiện trên hình ảnh màu
xám. Mỗi điểm ảnh sẽ có một giá trị màu xám của 0-255. Vì vậy, phương pháp này sẽ
không khai thác các đặc tính của màu sắc mặt phát hiện. Việc chuyển đổi này là khá
đơn giản. Giá trị màu xám điểm ảnh là giá trị trung bình của 3 kênh đỏ, xanh lá cây,
xanh nước biển.
Mã Java:
For (int y = 0; y < height; y ++){
For (int x = 0; x < width; x ++){
Int rgb = image.getRGB (x, y);
Int red = (rgb >> 16) & 0xff;
Int green = (rgb >> 8) & 0xff;
Int blue = rgb & 0xff;
Int pixel = (red + green + blue) / 3;
}
}


8
1.1.5. Biểu cảm khuôn mặt người
Biểu cảm của con người có thể phân thành các loại cảm xúc như: hạnh phúc,
ghê tởm, giận dữ, buồn và trung lập. Trạng thái chuyển động của khuôn mặt đóng một
vai trò quan trọng trong việc thể hiện những cảm xúc này để từ đó nhận dạng được
khuôn mặt con người. Các cơ mặt có thể thay đổi, và con người có thể nhận ra những
tín hiệu ngay cả khi chúng được hiển thị một cách tinh tế, đồng thời xử lý thông tin có
được bằng tai và mắt.
1.2. Học máy
1.2.1. Khái niệm
Học máy [2] là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển
các kĩ thuật cho phép các máy tính có thể "học". Cụ thể hơn, học máy là một phương

pháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu.
Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc
phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các
giải thuật trong việc thực thi tính toán. Nhiều bài toán suy luận được xếp vào loại bài
toán khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy
luận xấp xỉ mà có thể xử lý được.
Học máy có tính ứng dụng rất cao bao gồm máy truy tìm dữ liệu, chẩn đoán y
khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi
DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt.
1.2.2. Các phương pháp học máy
1.2.2.1. Học không giám sát
Học không giám sát (Unsupervised Learning) là một phương pháp nhằm tìm ra
một mô hình mà phù hợp với các tập dữ liệu quan sát. Nó khác biệt với học có giám
sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu vào là không biết trước. Trong học
không có giám sát, đầu vào là một tập dữ liệu được thu thập. Học không có giám sát
thường đối xử với các đối tượng đầu vào như là một tập các biến ngẫu nhiên. Sau đó,
một mô hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó. Học không giám sát
cũng hữu ích cho việc nén dữ liệu: về cơ bản, mọi giải thuật nén dữ liệu hoặc là dựa
vào một phân bố xác suất trên một tập đầu vào một cách tường minh hay không tường
minh.
Có rất nhiều thuật toán học không giám sát được ra đời và phát triển nhằm giải
quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chưa gán nhãn
nhiều và rất đa dạng. Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và
mục đích của từng bài toán. Trong đó các thuật toán thường được sử dụng như: Kmean,


9
HAC (Hierarchial Agglomerative Clustering), SOM (Self-Organizing Map),
DBSCAN…
1.2.2.2. Học có giám sát

Học có giám sát (Supervised Learning) là một kĩ thuật của ngành học máy để
xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm
đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn. Đầu ra của một hàm
có thể là một giá trị liên tục (gọi là hồi qui), hay có thể là dự đoán một nhãn phân loại
cho một đối tượng đầu vào (gọi là phân loại).
Học có giám sát có thể dự đoán giá trị của hàm cho một đối tượng bất kì là đầu
vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và
đầu ra tương ứng).
Một số thuật toán thường được lựa chọn khi xây dựng bộ phân lớp gồm có:
Máy vector hỗ trợ (Support Vector Machine – SVM), hạt nhân phân tích biệt thức, K
láng giềng gần nhất (K Nearest Neighbours – KNN), tiếp cận xác suất thống kê (Naive
Bayes – NB), cây quyết định (Decision Tree – DT), mạng nơron (Neural Network –
Nnet), Vector trọng tâm (Centroid–base vector), tuyến tính bình phương nhỏ nhất
(Linear Least Square Fit – LLSF).
1.2.2.3. Học bán giám sát
Theo Xiaojin Zhu [3], khái niệm học bán giám sát được đưa ra năm 1970 khi
bài toán đánh giá quy tắc Linear Discrimination Fisher cùng với dữ liệu chưa gán nhãn
được nhiều sự quan tâm của các nhà khoa học trên thế giới.
Trong khoa học máy tính, học bán giám sát là một phương thức của ngành học
máy sử dụng cả dữ liệu gán nhãn và chưa gán nhãn, nhiều nghiên cứu của ngành học
máy có thể tìm ra được dữ liệu chưa gán nhãn khi sử dụng với một số lượng nhỏ dữ
liệu gán nhãn [4]. Công việc thu được kết quả của dữ liệu gán nhãn thường đòi hỏi ở
trình độ tư duy và khả năng của con người, công việc này tốn nhiều thời gian và chi
phí, do vậy dữ liệu gán nhãn thường rất hiếm và đắt, trong khi dữ liệu chưa gán nhãn
thì lại rất phong phú. Trong trường hợp đó, chúng ta có thể sử dụng học bán giám sát
để thi hành các công việc ở quy mô lớn.
Học bán giám sát bao gồm dữ liệu gán nhãn và chưa gán nhãn. Học bán giám
sát có thể được áp dụng vào việc phân lớp và phân cụm. Mục tiêu của học bán giám sát
là huấn luyện tập phân lớp tốt hơn học có giám sát từ dữ liệu gán nhãn và chưa gán
nhãn.

Như vậy, có thể nói học bán giám sát là phương pháp học có giám sát kết hợp
với việc tận dụng các dữ liệu chưa gán nhãn. Trong phần bổ sung thêm vào cho dữ liệu
gán nhãn, thuật toán cung cấp một vài thông tin giám sát, việc này không cần thiết cho


10
tất cả các mẫu huấn luyện. Thông thường thông tin này sẽ được kết hợp với một vài
mẫu cho trước.
Một số thuật toán thường được sử dụng gồm có: thuật toán Cực đại kỳ vọng
(EM - Expectation Maximization), SVM truyền dẫn (TSVM - Transductive Support
Vector Machine), Self-training, Co-training và các phương pháp dựa trên đồ thị
(graphbased). Việc lựa chọn thuật toán nào dựa trên một số định hướng: nếu các lớp dữ
liệu có tính phân cụm cao thì nên dùng EM với mô hình hỗn hợp sinh; nếu đã sử dụng
SVM thì mở rộng thành TSVM; khi khó nâng cấp mô hình học có giám sát đã có, thì
nên dùng self-training; nếu các đặc trưng của dữ liệu phân chia tự nhiên thành hai phần
riêng rẽ thì nên dùng Co-training; còn nếu hai mẫu dữ liệu có đặc trưng tương tự nhau
hướng tới một lớp thì sử dụng phương pháp dựa trên đồ thị.
1.2.2.4. Học tăng cường
Học tăng cường [5] là phương pháp máy tính đưa ra quyết định hành động
(action) và nhận kết quả phản hồi (response/reward) từ môi trường (environment). Sau
đó máy tính tìm cách chỉnh sửa cách ra quyết định hành động của mình. Các thuật toán
học tăng cường được chia thành hai loại chính đó là: Học dựa trên mô hình và học
không có mô hình. Đại điện cho kiểu học dựa trên mô hình phải kể đến phương pháp
quy hoạch động (Dynamic Programming DP), đại diện cho kiểu học không có mô hình
là phương pháp Monte Carlo và phương pháp TD (Temporal Difference).
1.2.3. Các mô hình học máy
- Mô hình hóa các mật độ xác suất điều kiện; hồi quy và phân loại.
- Mô hình hóa các hàm mật độ xác suất qua các mô hình phát sinh.
- Các kỹ thuật suy luận xấp xỉ đúng.
- Thuật toán tiến hóa.

- Thuật toán bầy đàn.
1.2.4.
-

Ứng dụng học máy:
Máy cảm giác.
Computer vision.
Xử lý ngôn ngữ tự nhiên.
Search Eigine.
Tin sinh học.
Nhận dạng tiếng nói, chữ viết.
Nhận dạng vật thể.

1.3. Tổng quan về xử lý ảnh
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Nó là một ngành
khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất


11
nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên
dụng riêng cho nó. Xử lý ảnh có thể gồm quá trình phân tích, phân lớp các đối tượng,
làm tăng chất lượng, phân đoạn và tách cạnh, gán nhãn cho vùng hay quá trình biên
dịch các thông tin hình ảnh của ảnh. Cũng như xử lý dữ liệu bằng đồ hoạ, xử lý ảnh số
là một lĩnh vực của tin học ứng dụng. Xử lý dữ liệu bằng đồ họa đề cập đến những ảnh
nhân tạo, các ảnh này được xem xét như là một cấu trúc dữ liệu và được tạo bởi các
chương trình. Xử lý ảnh số bao gồm các phương pháp và kỹ thuật biến đổi, để truyền
tải hoặc mã hoá các ảnh tự nhiên.
1.3.1. Mục đích của xử lý ảnh gồm
- Biến đổi ảnh làm tăng chất lượng ảnh.
- Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội dung của ảnh.

- Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình ảnh thành
những phần có ý nghĩa để phân biệt đối tượng này với đối tượng khác, dựa vào đó ta
có thể mô tả cấu trúc của hình ảnh ban đầu. Có thể liệt kê một số phương pháp nhận
dạng cơ bản như nhận dạng ảnh của các đối tượng trên ảnh, tách cạnh, phân đoạn hình
ảnh,…Kỹ thuật này được dùng nhiều trong y học (xử lý tế bào, nhiễm sắc thể), nhận
dạng chữ trong văn bản.
1.3.2. Các bước trong quá trình xử lý ảnh
Để dễ tưởng tượng, xét các bước cần thiết trong xử lý ảnh. Đầu tiên, ảnh tự
nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như Camera, máy chụp ảnh).
Trước đây, ảnh thu qua Camera là các ảnh tương tự (loại Camera ống kiểu CCIR).
Gần đây, với sự phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy ra từ
Camera, sau đó nó được chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo.
(Máy ảnh số hiện nay là một thí dụ gần gũi). Mặt khác, ảnh cũng có thể tiếp nhận từ vệ
tinh; có thể quét từ ảnh chụp bằng máy quét ảnh.

Thu
nhận
ảnh

Tiền xử
lý ảnh

Phân
đoạn
ảnh

Biểu
diễn và
mô tả.


Cơ sở tri thức

Hình 1.2. Các bước cơ bản trong xử lý ảnh

Nhận
dạng
ảnh


12
Sơ đồ này bao gồm các thành phần sau:
a) Phần thu nhận ảnh (Image Acquisition)
Ảnh có thể nhận qua camera màu hoặc đen trắng. Thường ảnh nhận qua camera
là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng
có loại camera đã số hoá (như loại CCD – Change Coupled Device) là loại photodiot
tạo cường độ sáng tại mỗi điểm ảnh.
Camera thường dùng là loại quét dòng; ảnh tạo ra có dạng hai chiều. Chất
lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng,
phong cảnh).
b) Tiền xử lý (Image Processing)
Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ tiền
xử lý để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ
tương phản để làm ảnh rõ hơn, nét hơn.
c) Phân đoạn (Segmentation) hay phân vùng ảnh
Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn
phân tích, nhận dạng ảnh. Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thư
cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên người
thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng. Đây là phần
phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của
ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này.

d) Biểu diễn và mô tả ảnh (Image Representation)
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn)
cộng với mã liên kết với các vùng lận cận. Việc biến đổi các số liệu này thành dạng
thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính. Việc chọn các tính chất để thể
hiện ảnh gọi là trích chọn đặc trưng (Feature Selection) gắn với việc tách các đặc tính
của ảnh dưới dạng các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng
này với đối tượng khác trong phạm vi ảnh nhận được. Ví dụ: trong nhận dạng ký tự
trên phong bì thư, chúng ta miêu tả các đặc trưng của từng ký tự giúp phân biệt ký tự
này với ký tự khác.
e) Nhận dạng và nội suy ảnh (Image Recognition and Interpretation)
Nhận dạng ảnh là quá trình xác định ảnh. Quá trình này thường thu được bằng
cách so sánh với mẫu chuẩn đã được học (hoặc lưu) từ trước. Nội suy là phán đoán
theo ý nghĩa trên cơ sở nhận dạng. Ví dụ: một loạt chữ số và nét gạch ngang trên
phong bì thư có thể được nội suy thành mã điện thoại. Có nhiều cách phân loai ảnh
khác nhau về ảnh. Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh được


13
phân theo hai loại nhận dạng ảnh cơ bản: Nhận dạng theo tham số và nhận dạng theo
cấu trúc.
Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong
khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử), nhận
dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt người…
f) Cơ sở tri thức (Knowledge Base)
Như đã nói ở trên, ảnh là một đối tượng khá phức tạp về đường nét, độ sáng tối,
dung lượng điểm ảnh, môi trường để thu ảnh phong phú kéo theo nhiễu. Trong nhiều
khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các phương pháp toán học đảm
bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình tiếp nhận và xử lý ảnh
theo cách của con người. Trong các bước xử lý đó, nhiều khâu hiện nay đã xử lý theo
các phương pháp trí tuệ con người. Vì vậy, ở đây các cơ sở tri thức được phát huy.

g) Mô tả (biểu diễn ảnh)
Hình 1.2: Các bước cơ bản trong xử lý ảnh, ảnh sau khi số hoá sẽ được lưu vào
bộ nhớ, hoặc chuyển sang các khâu tiếp theo để phân tích. Nếu lưu trữ ảnh trực tiếp từ
các ảnh thô, đòi hỏi dung lượng bộ nhớ cực lớn và không hiệu quả theo quan điểm
ứng dụng và công nghệ.
1.3.3. Phạm vi ứng dụng của xử lý ảnh
Xử lý ảnh đã đem lại nhiều ứng dụng trong nhiều lĩnh vực khác nhau: y học,
khoa học hình hình sự, khí tượng thuỷ văn, quản lý, ... Quản lý là là một trong những
ứng dụng quan trọng của xử lý ảnh. Cùng với sự bùng nổ của kinh tế thị trường. Khối
lượng quản lý càng lớn, như quản lý hồ sơ, quản lý phiếu điều tra trong công tác thống
kê, các câu hỏi trắc nghiệm. Để thực hiện các công việc trên một cách chính xác,
nhanh chóng và hiệu quả. Xử lý ảnh và nhận dạng đã nghiên cứu và phát triển mạnh
mẽ bài toán nhập liệu tự động.
1.3.4. Mức xám của ảnh và biểu diễn ảnh
1.3.4.1. Mức xám của ảnh
Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x, y) của điểm ảnh và độ
xám của nó. Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số
tại điểm đó.
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là mức
phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức
xám dùng 1 byte biểu diễn: 28=256 mức, tức là từ 0 đến 255).
Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với mức
xám ở các điểm ảnh có thể khác nhau.
Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt, mỗi điểm ảnh của ảnh nhị


14
phân chỉ có thể là 0 hoặc 1.
Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế
giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu:

28*3=224≈ 16,7 triệu màu.
1.3.4.2. Biểu diễn ảnh
Quá trình số hóa biến đổi các tín hiệu liên tục sang tín hiệu rời rạc thông qua quá
trình lấy mẫu (rời rạc hóa về không gian) và lượng tử hóa các thành phần giá trị mà về
nguyên tắc bằng mắt thường không thể phân biệt được hai điểm liền kề nhau. Các
điểm như vậy được gọi là các pixel (Picture Element) hay các phần tử ảnh hoặc điểm
ảnh. Ở đây cần phân biệt khái niệm pixel hay đề cập đến trong các hệ thống đồ họa
máy tính. Để tránh nhầm lẫn ta gọi khái niệm pixel này là pixel thiết bị. Khái niệm
pixel thiết bị có thể xem xét như sau: khi ta quan sát màn hình (trong chế độ đồ họa),
màn hình không liên tục mà gồm các điểm nhỏ, gọi là pixel. Mỗi pixel gồm một tập
tọa độ (x, y) và màu.
Như vậy mỗi ảnh là tập hợp các điểm ảnh. Khi được số hóa nó thường được biểu
diễn bởi mảng 2 chiều I (n, p): n là dòng và p là cột. Về mặt toán học có ‫גג‬thể xem ảnh
là một hàm hai biến f (x, y) với x, y là các biến tọa độ. Giá trị số ở điểm (x, y) tương
ứng với giá trị xám hoặc độ sáng của ảnh (x là các cột còn y là các hàng). Giá trị của
hàm ảnh f (x, y) được hạn chế trong phạm vi củacác số nguyên dương.
0 ≤ f(x,y) ≤ fmax.
Với ảnh đen trắng mức xám của ảnh có thể được biểu diễn bởi một số như sau:



f=k

ʃ c(λ) S

BW (λ)



λ =0

Trong đó SBW (λ) là đặc tính phổ của cảm biến được sử dụng và k là hệ số tỷ lệ
xích. Vì sự cảm nhận độ sáng có tầm quan trọng hàng đầu đối với ảnh đen trắng nên
SBW (λ) được chọn giống như là hiệu suất sáng tương đối. Vì f biểu diễn công suất trên
đơn vị diện tích, nên nó bao giờ cũng không âm và hữu hạn.
0 ≤ f ≤ fmax
Trong đó fmax là giá trị lớn nhất mà f đạt được. Trong xử lý ảnh, f được chia
thang sao cho nó nằm trong một phạm vi thuận lợi nào đó. Thông thường đối với ảnh
xám, giá trị fmax là 255 (28=256) bởi vì mỗi phần tử ảnh được mã hóa bởi một byte.
Khi quan tâm đến ảnh màu ta có thể mô tả màu qua ba hàm số: thành phần màu đỏ qua


×