Tải bản đầy đủ (.doc) (67 trang)

Nghiên cứu kỹ thuật định vị, tách và nhân dạng vùng tô trong phiếu trắc nghiệm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.37 MB, 67 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Phạm Đức Toàn

NGHIÊN CỨU KỸ THUẬT ĐỊNH VỊ,
TÁCH VÀ NHẬN DẠNG VÙNG TÔ
TRONG PHIẾU TRẮC NGHIỆM

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Thái nguyên, 2014


ĐẠI HỌC THÁI NGUYÊN
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Phạm Đức Toàn

NGHIÊN CỨU KỸ THUẬT ĐỊNH VỊ,
TÁCH VÀ NHẬN DẠNG VÙNG TÔ
TRONG PHIẾU TRẮC NGHIỆM

Ngành: Công nghệ thông tin
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. ĐỖ NĂNG TOÀN


Thái nguyên, 2014


i

LỜI CAM ĐOAN
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày
trong luận văn là bản thân tôi tự tìm hiểu và nghiên cứu, dưới sự hướng dẫn
khoa học của Thày giáo PGS. TS. Đỗ Năng Toàn.
Các tài liệu, số liệu tham khảo được trích dẫn đầy đủ nguồn gốc. Tôi xin
chịu trách nhiệm trước pháp luật lời cam đoan của mình.
Thái Nguyên, ngày 10 tháng 4 năm 2014
Học viên thực hiện

Phạm Đức Toàn


ii

LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn tới Khoa Công nghệ thông tin Trường Đại học
Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên, nơi các thày cô
đã tận tình truyền đạt các kiến thức quý báu cho tôi trong suốt quá trình học
tập. Xin cảm ơn Ban chủ nhiệm khoa và các cán bộ đã tạo điều kiện tốt nhất
cho chúng tôi học tập và hoàn thành đề tài tốt nghiệp của mình.
Đặc biệt, tôi xin gửi tới thày giáo, PGS. TS. Đỗ Năng Toàn, thày đã tận
tình chỉ bảo tôi trong suốt quá trình thực hiện đề tài lời cảm ơn và biết ơn sâu
sắc nhất. Bên cạnh những kiến thức khoa học, thày đã giúp tôi nhận ra những
bài học về phong cách học tập, làm việc và những kinh nghiệm sống quý báu.
Tôi xin bày tỏ lòng biết ơn tới gia đình, bạn bè, đồng nghiệp và những

người thân đã động viên khích lệ tinh thần và giúp đỡ để tôi hoàn thành luận
văn này.


3

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................. i
LỜI CẢM ƠN .................................................................................................. ii
MỤC LỤC ....................................................................................................... iii
DANH MỤC CÁC HÌNH ............................................................................... v
MỞ ĐẦU .......................................................................................................... 1
Chương 1: KHÁI QUÁT VỀ NHẬP DỮ LIỆU TỰ ĐỘNG VÀ BÀI
TOÁN NHẬN DẠNG PHIẾU TRẮC NGHIỆM ......................................... 3
1.1. Khái quát về nhập dữ liệu tự động ............................................................
3
1.2. Bài toán nhận dạng bài thi trắc nghiệm .................................................... 6
1.2.1. Ảnh số ..................................................................................................... 6
1.2.1.1. Phần tử ảnh................................................................................... 6
1.2.1.2. Mức xám ...................................................................................... 6
1.2.1.3. Ảnh ............................................................................................... 6
1.2.1.4. Phân loại ảnh ................................................................................ 6
1.2.1.5. Biểu diễn ảnh trong máy tính....................................................... 8
1.2.2. Một số vấn đề về nhận dạng.................................................................... 9
1.2.2.1. Không gian biểu diễn đối tượng, không gian diễn dịch............... 9
1.2.2.2. Mô hình và bản chất của quá trình nhận dạng .......................... 10
Chương 2: MỘT SỐ KỸ THUẬT TRONG NHẬN DẠNG PHIẾU TRẮC
NGHIỆM........................................................................................................ 15
2.1. Giới thiệu chung ....................................................................................... 15
2.2. Các kỹ thuật tiền xử lý ............................................................................. 16

2.2.1. Tăng giảm độ sáng ........................................................................ 16
2.2.2. Tăng giảm độ tương phản ............................................................. 16
2.2.3. Tách kênh màu đỏ ......................................................................... 17
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

4

2.2.4. Chuyển xám ảnh............................................................................ 18
2.2.5. Phân ngưỡng ảnh........................................................................... 19
2.2.6. Nhiễu ảnh và một số phương pháp lọc nhiễu ............................... 23
2.2.7. Xoay ảnh ....................................................................................... 27
2.2.8. Làm trơn ảnh, tách biên đối tượng ................................................ 28
2.2.9. Chỉnh góc nghiêng của ảnh .......................................................... 29
2.3. Các kỹ thuật phân vùng ảnh ..................................................................... 32
2.3.1. Phân vùng ảnh dựa trên phương pháp phân lớp ........................... 33
2.3.2. Phân vùng ảnh dựa trên cấu trúc ................................................... 35
2.3.3. Phân vùng dựa vào đường biên..................................................... 38
2.4. Kỹ thuật nhận dạng vùng tô phiếu trả lời trắc nghiệm ............................ 42
2.4.1. Nhận dạng các điểm định vị.......................................................... 42
2.4.2. Tách các vùng được tô .................................................................. 43
2.4.3. Nhận dạng vùng được tô ............................................................... 44
Chương 3: XÂY DƯNG HỆ THỐNG CHẤM THI TRẮC NGHIỆM .... 49
3.1. Quá trình xử lý bài thi trắc nghiệm .......................................................... 49
3.2. Tiền xử lý ảnh quét .................................................................................. 50
3.2.1. Tách kênh màu đỏ của ảnh quét.................................................... 50
3.2.2. Phân ngưỡng ảnh quét................................................................... 52
3.2.3. Lọc nhiễu trên ảnh quét................................................................. 52
3.2.4. Căn chỉnh độ lệch trang của ảnh sau khi quét............................... 53

3.3. Xác định điểm định vị .............................................................................. 54
3.4. Khoanh vùng được tô ............................................................................... 54
3.5. Nhận dạng ô được tô ................................................................................ 54
3.6. Kết quả thử nghiệm .................................................................................. 57
KẾT LUẬN .................................................................................................... 58
TÀI LIỆU THAM KHẢO ............................................................................ 59

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

5

DANH MỤC CÁC HÌNH
Hình 1.1. Mô hình màu RGB ............................................................................ 7
Hình 1.2. Mô hình màu CMY ........................................................................... 8
Hình 1.3. Mô hình cấu trúc của một đối tượng nhà. ....................................... 13
Hình 1.4. Sơ đồ tổng quát một hệ nhận dạng.................................................. 14
Hình 2.1. Ảnh trước khi chuyển xám.............................................................. 19
Hình 2.2. Ảnh đã thực hiện chuyển xám......................................................... 19
Hình 2.3. Chọn ngưỡng theo Zack .................................................................. 21
Hình 2.4. Phương pháp lấy ngưỡng ................................................................ 22
Hình 2.5. Phân ngưỡng theo thuật toán SIS .................................................... 23
Hình 2.6. Ảnh thu được khi qua bộ lọc Mean................................................. 25
Hình 2.7. Ảnh sau khi qua bộ lọc Median ..................................................... 26
Hình 2.8. Ảnh thu được sau khi xử lý qua bộ lọc Gauss ................................ 27
Hình 2.9. Hệ tọa độ khi xoay ảnh ................................................................... 28
Hình 2.10. Phương pháp Postl ........................................................................ 32
Hình 2.11. Lược đồ xám của ảnh .................................................................... 34
Hình 2.12. Thuật toán tam giác ....................................................................... 34

Hình 2.13. Các điểm lân cận gradient ............................................................. 39
Hình 2.14. Căn chỉnh đường biên ................................................................... 41
Hình 2.15. Các điểm định vị trong phiếu trả lời câu hỏi trắc nghiệm ............ 42
Hình 2.16. Vùng số báo danh và mã đề đã qua xử lý ..................................... 44
Hình 2.17. Vùng đáp án đã qua xử lý ............................................................. 44
Hình 2.18. Các dạng tô trong phiếu trả lời trắc nghiệm ................................. 45
Hình 2.19. Ô bị tô trùng .................................................................................. 45
Hình 2.20. Ô bị tô lệch, tô tràn lan.................................................................. 45
Hình 2.21. Ảnh cần kiểm tra tô được chia thành 3 vùng ................................ 46
Hình 3.1. Quá trình xử lý bài thi trắc nghiệm ................................................. 50
Hình 3.2. Ảnh trước khi thực hiện tách kênh màu đỏ..................................... 51
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

6

Hình 3.3. Ảnh sau khi thực hiện tách kênh màu đỏ ........................................ 51
Hình 3.4. Ảnh sau khi thực hiện phân ngưỡng và lọc nhiễu........................... 52
Hình 3.5. Ảnh đã thực hiện căn chỉnh độ lệch ................................................ 53
Hình 3.6. Xác định điểm định vị ..................................................................... 54
Hình 3.7. Vùng chứa số báo danh ................................................................... 55
Hình 3.8. Vùng chứa mã đề ............................................................................ 55
Hình 3.9. Vùng tô chứa đáp án ....................................................................... 55
Hình 3.10. Nhận dạng vùng tô ........................................................................ 56
Hình 3.11. Kết quả nhận dạng phiếu trả lời trắc nghiệm ................................ 56

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>


1

MỞ ĐẦU
Lĩnh vực nhận dạng đối tượng trên ảnh số đã được quan tâm từ lâu và đã
có những thành công đáng kể như: nhận dạng vân tay, nhận dạng mặt người,
nhận dạng biển số xe máy, ...
Ngày nay, với xã hội thông tin phát triển như vũ bão, việc thu thập thông
tin gặp rất nhiều trở ngại do lượng thông tin cần thu thập lớn. Nhận dạng đối
tượng, vùng tô trên phiếu trả lời trắc nghiệm, thăm dò ý kiến nói chung đã và
đang nhận được nhiều quan tâm. Trên cơ sở toán học, phân tích các đặc trưng
của thông tin cần thu thập cũng như việc thiết kế mẫu biểu để thu thập thông
tin, vận dụng các kỹ thuật nhận dạng để thu thập, cập nhật thông tin trong
thực tế là một bài toán khó, đã và đang được phát triển để đưa vào đời sống xã
hội.
Ở nước ta trong vài năm gần đây, Bộ Giáo dục và Đào tạo đã ứng dụng
hình thức thi trắc nghiệm vào thi đại học, làm giảm bớt thời gian chấm thi
một cách đáng kể. Việc chấm bài thi trắc nghiệm đã được nhận dạng, xử lý
qua máy tính, không cần giáo viên hoặc các chuyên gia trong lĩnh vực có mặt
trực tiếp chấm thi như trước đây. Việc chấm các bài thi trắc nghiệm có thể
được thực hiện thông qua giải pháp sử dụng các hệ thống máy chấm thi tự
động. Người dùng chỉ cần đưa các phiếu trả lời câu hỏi trắc nghiệm vào máy
quét chuyên dụng, và hệ thống sẽ tự động thực hiện tất cả các công việc xử lý
như số hóa phiếu trả lời, so khớp đáp án và trả lại kết quả. Tuy nhiên, những
hệ thống này thường có chi phí lớn, mặc dù cho tốc độ xử lý cao nhưng độ
chính xác lại không cao, dẫn đến việc phải chấm lại các bài thi gây tốn kém cả
về thời gian và tiền bạc.
Việc xử lý chấm thi trắc nghiệm cũng có thể được thực hiện bằng cách
áp dụng các kỹ thuật định vị, tách và nhận dạng vùng tô trong phiếu trắc
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


/>

2

nghiệm, từ đó đưa ra được thông tin cũng như các câu trả lời của thí sinh, mã
đề thi và số báo danh của thí sinh. Phương pháp này chỉ cần sử dụng máy quét
chuyên dụng để chuyển các phiếu trả lời trắc nghiệm thành ảnh đưa vào máy
tính. Một phần mềm nhận dạng sẽ xử lý các ảnh đó và trả lại kết quả sau khi
đã so khớp với đáp án được cung cấp. Phương pháp này tuy có tốc độ không
cao bằng cách sử dụng máy nhận dạng bài thi trắc nghiệm chuyên dụng (máy
quang học), nhưng lại giúp tăng độ chính xác trong quá trình nhận dạng bài
thi.
Xuất phát từ những lý do trên, tôi chọn đề tài “Nghiên cứu kỹ thuật
định vị, tách và nhận dạng vùng tô trong phiếu trắc nghiệm”, nhằm trợ
giúp cho việc xử lý bài thi, nhận dạng bài thi trắc nghiệm có độ chính xác cao,
đảm bảo thời gian xử lý.
Nội dung luận văn không kể phần mở đầu, kết luận, tài liệu tham khảo
bao gồm 3 chương:
Chương 1: Khái quát về nhập dữ liệu tự động và bài toán nhận
dạng phiếu trắc nghiệm
Chương 2: Một số kỹ thuật trong nhận dạng phiếu trắc nghiệm
Chương 3: Xây dựng hệ thống chấm thi trắc nghiệm
Tôi xin chân thành cảm ơn sự giúp đỡ của các thày, cô giáo trong khoa
Công nghệ thông tin, Trường Đại học Công nghệ Thông tin và Truyền thông
– Đại học Thái Nguyên, đặc biệt xin trân trọng gửi lời cảm ơn tới thày giáo,
Phó giáo sư, Tiến sĩ Đỗ Năng Toàn – Viện Toán Tin Viện Khoa học Công
nghệ Việt Nam đã trực tiếp giúp đỡ và hướng dẫn tôi hoàn thành đề tài này.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


/>

3

Chương 1
KHÁI QUÁT VỀ NHẬP DỮ LIỆU TỰ ĐỘNG
VÀ BÀI TOÁN NHẬN DẠNG PHIẾU TRẮC NGHIỆM
1.1. Khái quát về nhập dữ liệu tự động
Ngày nay, với những phát triển mạnh mẽ của công nghệ thông tin được
ứng dụng rộng rãi trong các hoạt động kinh tế, văn hóa, y tế, giáo dục, hiệu
quả giải quyết công việc đã được nâng cao, thời gian cũng như tính chính xác
được đảm bảo.
Trên thế giới, việc nhập dữ liệu tự động đã được ứng dụng rộng rãi nhằm
nâng cao hiệu quả công việc. Dữ liệu cần nhập có thể là phiếu điểm của sinh
viên, phiếu điều tra xã hội, phiếu bầu cử..., được số hóa bằng máy quét ảnh
hoặc máy chụp ảnh, từ tệp tin ảnh quét được, hệ thống nhập liệu tự động sẽ
nhận dạng, xử lý dựa trên những đặc điểm cơ bản đã được thống nhất khai
báo trước. Các công đoạn chiếm mất nhiều thời gian, công sức đã được tin
học hóa do đó thời gian thực hiện, tính chính xác dữ liệu đã được đảm bảo và
cải thiện nhiều. Hệ thống nhập dữ liệu tự động được ứng dụng trong một số
lĩnh vực như:
Cá cược đua ngựa ở trường đua: Thẻ cá cược đua ngựa ở Nhật
Bản, những thông tin cần thiết liên quan tới việc đặt cược đua ngựa
được thể hiện trên một mẫu phiếu thống nhất, người cá cược tô vào
vùng chọn theo một quy ước được quy ước trước. Phiếu cá cược
được quét và xử lý tự động bằng hệ thống nhận dạng phiếu cá cược
chuyên biệt. Với việc ứng dụng thẻ cá cược đua ngựa, nhà quản lý có
thể xử lý lượng phiếu đặt cược lớn trong thời gian ngắn, cung cấp
các số liệu về việc đặt cược nhanh nhất trong khoảng thời gian diễn

ra cuộc đua, giúp nâng cao hiệu quả quản lý.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

4

Phiếu nhận dạng trắc nghiệm ở một số trường đại học quốc tế

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>

5

Phiếu nhận dạng bài thi trắc nghiệm ở Việt Nam

Mô hình nhận dạng bài thi trắc nghiệm

Kết
quả

Máy
qué
t

Phiếu trả
lời
trắc

nghiệm

Thu nhận

lưu trữ
ảnh

Nhận
dạng
vùng tô

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Tiền xử
lý ảnh

Phân vùng
các
đối
tượng

/>

1.2. Bài toán nhận dạng bài thi trắc nghiệm
1.2.1. Ảnh số
1.2.1.1. Phần tử ảnh
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng.
Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh. Trong
quá trình số hoá, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông
qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng hoá thành phần

giá trị mà thể về nguyên tắc bằng mắt thường không phân biệt được hai điểm
kề nhau. Trong quá trình này, người ta sử dụng khái niệm Picture element mà
ta quen gọi hay viết là Pixel - phần tử ảnh. Mỗi Pixel bao gồm một cặp tọa độ
chỉ vị trí (x,y) và một mức xám nhất định. Mật độ Pixel trên một ảnh số cho ta
xác định được độ phân giải của ảnh. Ảnh có độ phân giải càng cao thì càng rõ
nét và ngược lại. Ví dụ một ảnh số có độ phân giải là 800 x 600 Pixel nghĩa là
có 800 điểm theo chiều ngang và 600 điểm theo chiều dọc.
1.2.1.2. Mức xám
Mức xám của điểm ảnh là kết quả sự biến đổi tương ứng một cường độ
sáng của điểm ảnh đó với một giá trị số (kết quả của quá trình lượng hoá).
Cách mã hoá kinh điển thường dùng 16, 32 hay 64 mức. Mã hoá 256 mức là
8

phổ dụng nhất do lý do kỹ thuật. Vì 2 = 256 (0, 1, ..., 255), nên với 256 mức
mỗi pixel sẽ được mã hoá bởi 8 bit.
1.2.1.3. Ảnh
Là tập hợp hữu hạn các điểm ảnh, thường được biểu diễn bằng một mảng
hai chiều I(n, m) với n là số hàng, m là số cột. Ta ký hiệu P(x, y) là một điểm
ảnh tại vị trí (x, y). Số lượng điểm ảnh trên mỗi hàng hoặc các hàng xác định
độ phân giải của ảnh.
1.2.1.4. Phân loại ảnh
Ảnh nhị phân


Giá trị xám của tất các các điểm ảnh chỉ nhận giá trị 1 hoặc 0. Như vậy
mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bởi 1 bit.
Ảnh xám
Giá trị xám nằm trong khoảng 0..255. Như vậy mỗi điểm ảnh trong ảnh
nhị phân được biểu diễn bởi 1 byte.
Ảnh mầu

Ta quan tâm và xử lý ảnh với mô hình ba màu, ảnh theo mô hình thụ
cảm sẽ chuyển sang mô hình ba màu trước khi xử lý.
Hệ mầu RGB (RED- GREEN- BLUE): Thông tin con người thu nhận
bằng hình ảnh đều bắt nguồn từ thị giác. Mắt con người có khả năng phân biệt
được rõ nét 3 mầu: đỏ, lục, lam. Các ảnh mầu nói chung đều bao gồm 3 ảnh
xám đối với màu nền đỏ, lục và lam. Tất các màu sắc trong tự nhiên đều có
thể tổng hợp từ 3 thành phần mầu nói trên.
Mô hình RGB còn gọi là mô hình cộng tính, mỗi mức xám của ảnh sẽ
được biểu diễn bởi 3 thành phần: R, G, B (Mỗi thành phần được biểu diễn bởi
1 byte).

Lục(0,1,0)

Vàng(1,1,0)

Đỏ cô ban(0, 1,1)
Đen(0,0,0)

Trắng (1, 1, 1)

Đỏ(1,0,0)

Đỏ lila (1,0,1)

Hình 1.1. Mô hình màu RGB


Hệ mầu CMY( CYAN- MAGENTA- YELLOW): là phần bù của hệ
mầu RGB theo nguyên tắc: C + R = M + G = B + Y =(1, 1, 1). Hệ mầu này
thường dùng để xuất thông tin mầu ra các thiết bị như máy in màu.


Đỏ lila(0,1,0)
Đỏ (0, 1,1)

Lam(1,1,0)
Đen (1, 1, 1)

Trắng(0,0,0)

Đỏ cô ban (1,0,0)

Lục (1,0,1)

Hình 1.2. Mô hình màu CMY
Hệ mầu CMYK( CYAN- MAGENTA- YELLOW- BLACK): Xuất
phát từ hệ mầu CMY với K là độ đậm nhạt của mầu. Với C, M, K được xác
định từ CMY( C1, M1, Y1) như sau: K = min(C1, M1, Y1, K); C = C1-K;
M=M1-K; Y= Y1-K.
1.2.1.5. Biểu diễn ảnh trong máy tính
Trong biểu diễn ảnh, người ta thường dùng các phần tử đặc trưng của
ảnh là pixel. Nhìn chung có thể xem một hàm hai biến chứa các thông tin như
biểu diễn của một ảnh. Các mô hình biểu diễn ảnh cho ta một mô tả lôgic hay
định lượng các tính chất của hàm này. Trong biểu diễn ảnh cần chú ý đến
tính trung thực của ảnh hoặc các tiêu chuẩn “thông minh” để đo chất lượng
ảnh hoặc tính hiệu quả của các kỹ thuật xử lý.
Ta cần xem xét ảnh sẽ được biểu diễn ra sao trong bộ nhớ máy tính. Nếu
lưu trữ trực tiếp ảnh thô theo kiểu bản đồ ảnh, dung lượng sẽ khá lớn, tốn kém
mà nhiều khi không hiệu quả theo quan điểm ứng dụng. Thường người ta
không biểu diễn toàn bộ ảnh thô mà tập trung đặc tả các đặc trưng của ảnh
như: biên ảnh (Boundary) hay các vùng ảnh (Region).



1.2.2. Một số vấn đề về nhận dạng
Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một
mô hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên
gọi) dựa theo những quy luật và các mẫu chuẩn. Quá trình nhận dạng dựa vào
những mẫu học biết trước gọi là nhận dạng

có thầy hay học có thầy

(supervised learning); trong trường hợp ngược lại gọi là học không có thầy
(non supervised learning). Chúng ta sẽ lần lượt tìm hiểu về các khái niệm này
1.2.2.1. Không gian biểu diễn đối tượng, không gian diễn dịch
Không gian biểu diễn đối tượng
Các đối tượng khi quan sát hay thu thập được, thường được biểu diễn bởi
tập các đặc trưng hay đặc tính. Như trong trường hợp xử lý ảnh, ảnh sau khi
được tăng cường để nâng cao chất lượng, phân vùng và trích chọn đặc tính,
được biểu diễn bởi các đặc trưng như biên, miền đồng nhất, v...,v. Người ta
thường phân các đặc trưng này theo các loại như: đặc trưng tô pô, đặc trưng
hình học và đặc trưng chức năng. Việc biểu diễn ảnh theo đặc trưng nào là
phụ thuộc vào ứng dụng tiếp theo.
Ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng. Giả sử
đối tượng X (ảnh, chữ viết, dấu vân tay, v...,v) được biểu diễn bởi n thành
phần (n đặc trưng): X = {x1, x2,..., xn}; mỗi xi biểu diễn một đặc tính. Không
gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X được định
nghĩa:
X = {X1, X2,..., Xm}
trong đó mỗi Xi biểu diễn một đối tượng. Không gian này có thể là vô hạn. Để
tiện xem xét chúng ta chỉ xét tập X là hữu hạn.
Không gian diễn dịch

Không gian diễn dịch là tập các tên gọi của đối tượng. Kết thúc quá
trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không


gian đối tượng hay nói là đã nhận dạng được đối tượng. Một cách hình thức
gọi

là tập tên đối tượng:
= {w1, w2,...,wk} với wi, i = 1, 2,..., k là tên các đối tượng
Quá trình nhận dạng đối tượng f là một ánh xạ f: X --->

với f là tập

các quy luật để xác định một phần tử trong X ứng với một phần tử trong

.

Nếu tập các quy luật và tập tên các đối tượng là biết trước như trong nhận
dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng có thầy.
Trường hợp thứ hai là nhận dạng không có thầy. Trong trường hợp này việc
nhận dạng có khó khăn hơn.
1.2.2.2. Mô hình và bản chất của quá trình nhận dạng
1.2.2.2.1. Mô hình
Việc chọn lựa một quá trình nhận dạng có liên quan mật thiết đến kiểu
mô tả mà người ta sử dụng để đặc tả đối tượng. Trong nhận dạng, người ta
phân chia làm 2 họ lớn:
- Họ mô tả theo tham số
- Họ mô tả theo cấu trúc.
Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng. Như vậy,
chúng ta sẽ có 2 loại mô hình: mô hình theo tham số và mô hình cấu trúc.



Mô hình tham số sử dụng một véctơ để đặc tả đối tượng.

Mỗi
phần tử của véctơ mô tả một đặc tính của đối tượng. Thí dụ như trong các đặc
trưng chức năng, người ta sử dụng các hàm cơ sở trực giao để biểu diễn. Và
như vậy ảnh sẽ được biểu diễn bởi một chuỗi các hàm trực giao. Giả sử C là
đường bao của ảnh và C(i,j) là điểm thứ i trên đường bao, i = 1, 2,..., N
(đường bao gồm N điểm).
Giả sử tiếp :
x0 = 1

N

N
i 1

xi


y0 =

1
N

N

yi


i 1

là toạ độ tâm điểm. Như vậy, moment trung tâm bậc p, q của đường bao
là:
pq

=

1
N

N
i 1

p

q

(xi-x0) (yi-y0)

Véctơ tham số trong trường hợp này chính là các moment

ij

với i=1,

2,...,p và j=1, 2,...,q. Còn trong số các đặc trưng hình học, người ta hay sử
2

dụng chu tuyến , đường bao, diện tích và tỉ lệ T = 4 S/p , với S là diện

tích, p là chu tuyến.
Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng.
Tuy nhiên, việc lựa chọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng
dụng. Thí dụ , trong nhận dạng chữ (sẽ trình bày sau), các tham số là các dấu
hiệu:
- số điểm chạc ba, chạc tư,
- số điểm chu trình,
- số điểm ngoặt,
- số điểm kết thúc,

chẳng hạn với chữ t


có 4 điểm kết thúc, 1 điểm chạc tư,...

Mô hình cấu trúc: Cách tiếp cận của mô hình này dựa vào

việc mô tả đối tượng nhờ một số khái niệm biểu thị các đối tượng cơ sở trong
ngôn ngữ tự nhiên. Để mô tả đối tượng, người ta dùng một số dạng nguyên
thuỷ như đoạn thẳng, cung, v,...,v. Chẳng hạn một hình chữ nhật được định
nghĩa
gồm 4 đoạn thẳng vuông góc với nhau từng đôi một. Trong mô hình này
người ta sử dụng một bộ kí hiệu kết thúc Vt, một bộ kí hiệu không kết thúc


gọi là Vn. Ngoài ra có dùng một tập các luật sản xuất để mô tả cách xây dựng
các đối tượng phù hợp dựa trên các đối tượng đơn giản hơn hoặc đối tượng
nguyên thuỷ (tập Vt). Trong cách tiếp cận này, ta chấp nhận một khẳng đinh
là: cấu trúc một dạng là kết quả của việc áp dụng luật sản xuất theo theo
những nguyên tắc xác định bắt đầu từ một dạng gốc bắt đầu. Một cách hình

thức, ta có thể coi mô hình này tương đương một văn phạm G = (Vt, Vn, P, S)
với:
- Vt là bộ ký hiệu kết thúc,
- Vn là bộ ký hiệu không kết thúc,
- P là luật sản xuất,
- S là dạng (ký hiệu bắt đầu).
Thí dụ, đối tượng nhà gồm mái và tường, mái là một tam giác gồm 3
cạnh là 3 đoạn thẳng, tường là một hình chữ nhật gồm 4 cạnh vuông góc với
nhau từng đôi một sẽ được mô tả thông qua cấu trúc mô tả dựa vào văn phạm
sinh như chỉ ra trong Hình 1.1 dưới đây.
(1)

(2)

(3)
(6)

(4)
(5)

Nhà
Mái

Đoạn 1

Đoạn 2 Đoạn 3 Đoạn 3 Đoạn 4

Tường

Đoạn 5


Đoạn 6
Đoạn 6


Hình 1.3. Mô hình cấu trúc của một đối tượng nhà.
1.2.2.2.2. Bản chất của quá trình nhận dạng
Quá trình nhận dạng gồm 3 giai đoạn chính:
- Lựa chọn mô hình biểu diễn đối tượng.
- Lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy
diễn quá trình học.
- Học nhận dạng.
Khi mô hình biểu diễn đối tượng đã được xác định, có thể là định lượng
(mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng
chuyển sang giai đoạn học. Học là giai đoạn rất quan trọng. Thao tác học
nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp.
Việc nhận dạng chính là tìm ra quy luật và các thuật toán để có thể gán
đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên.
Học có thầy (supervised learning)
Kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có thầy. Đặc điểm
cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn. Mẫu cần
nhận dạng sẽ được đem sánh với mẫu chuẩn để xem nó thuộc loại nào. Thí dụ
như trong một ảnh viễn thám, người ta muốn phân biệt một cánh đồng lúa,
một cánh rừng hay một vùng đất hoang mà đã có các miêu tả về các đối tượng
đó. Vấn đề chủ yếu là thiết kế một hệ thống để có thể đối sánh đối tượng
trong ảnh với mẫu chuẩn và quyết định gán cho chúng vào một lớp. Việc đối
sánh nhờ vào các thủ tục ra quyết định dựa trên một công cụ gọi là hàm phân
lớp hay hàm ra quyết định.
Học không có thầy (unsupervised learning)
Kỹ thuật học này phải tự định ra các lớp khác nhau và xác định các tham

số đặc trưng cho từng lớp. Học không có thầy đương nhiên là khó khăn hơn.
Một mặt, do số lớp không được biết trước, mặt khác những đặc trưng của các


lớp cũng không biết trước. Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm
có thể và chọn lựa cách tốt nhất. Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý
khác nhau nhằm phân lớp và nâng cấp dần để đạt được một phương án phân
loại.
Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ
thống nhận dạng có thể tóm tắt theo sơ đồ sau:

Trích chọn đặc tính

Phân lớp ra

biểu diễn đối tượng

quyết định

Quá trình tiền xử lý

Trả lời

Đánh giá

Khối nhận dạng

Hình 1.4. Sơ đồ tổng quát một hệ nhận dạng.



Chương 2
MỘT SỐ KỸ THUẬT TRONG NHẬN DẠNG PHIẾU TRẮC NGHIỆM
2.1. Giới thiệu chung
Giai đoạn tiền xử lý ảnh là giai đoạn quan trọng, có ảnh hưởng trực tiếp
đến độ chính xác của quá trình nhận dạng, tuy nhiên nó cũng làm tăng thời
gian xử lý chung của toàn bộ hệ thống. Vì vậy, tùy theo chất lượng ảnh thu
nhận được của từng trường hợp cụ thể, mà chúng ta chọn sử dụng một hoặc
một số thủ tục tiền xử lý. Thậm chí, trong trường hợp ảnh đầu vào có chất
lượng tốt và cần ưu tiên tốc độ xử lý, chúng ta có thể bỏ qua giai đoạn tiền xử
lý này.
Đầu vào của quá trình xử lý ảnh là các ảnh gốc ban đầu, thu được qua
scanner. Ảnh ban đầu thường có chất lượng thấp do ảnh hưởng của nhiễu, bị
nghiêng, bị đứt nét nên chúng ta cần phải có một quá trình tiền xử lý ảnh để
nâng cao chất lượng ảnh đầu vào trước khi đưa vào nhận dạng. Quá trình này
bao gồm công đoạn khôi phục ảnh và tăng cường ảnh .
Khôi phục ảnh nhằm mục đích loại bỏ hay làm giảm tối thiểu các ảnh
hưởng của môi trường bên ngoài lên ảnh thu nhận được. Công đoạn khôi
phục ảnh bao gồm các bước như lọc ảnh, khử nhiễu, quay ảnh, qua đó giảm
bớt các biến dạng do quá trình quét ảnh gây ra và đưa ảnh về trang thái gần
như ban đầu.
Tăng cường ảnh là một công đoạn quan trọng, tạo tiền đề cho xử lý
ảnh. Tăng cường ảnh không phải làm tăng lượng thông tin trong ảnh mà là
làm nổi bật những đặc trưng của ảnh giúp cho công việc xử lý phía sau
được hiệu quả hơn. Công đoạn này bao gồm các công việc như lọc độ tương
phản, làm trơn ảnh, nhị phân hóa.
Các giai đoạn cơ bản của tiền xử lý ảnh bao gồm: Tăng giảm độ sáng,
tăng giảm độ tương phản, chuyển xám, phân ngưỡng, lọc nhiễu, xoay ảnh.


2.2. Các kỹ thuật tiền xử lý

2.2.1. Tăng giảm độ sáng
Tăng cường độ sáng (Brightness) của một ảnh có thể được hiểu như sự
phát sáng toàn bộ ảnh. Hay nói một cách cụ thể đó là sự phát sáng toàn bộ của
mọi Pixel trong ảnh đó.
Đây là một kỹ thuật khá đơn giản: để tăng thêm độ sáng, tất cả các Pixel
của ảnh cần được cộng thêm giá trị điều chỉnh vào mọi kênh màu RGB. Tuy
kỹ thuật này đơn giản nhưng nó đem lại hiệu quả khá cao và rất hay được sử
dụng trong lĩnh vực xử lý ảnh. Nó giúp ích rất nhiều trong các ngành như y
học, địa lý, quân sự,... trong việc phân tích và nhận dạng.
Ở đây điều chỉnh Brightness không chỉ được sử dụng để làm sáng lên
những ảnh tối mà còn được sử dụng để làm tối đi các ảnh sáng. Một ảnh sáng
hoàn toàn đơn giản là tất cả các Pixel đều màu trắng trong khi một ảnh tối
hoàn toàn là tất cả các Pixel đều màu tối. Sự khác nhau duy nhất trong làm tối
một ảnh là trừ đi giá trị điều chỉnh vào mỗi kênh màu RGB của ảnh.
Đối với mỗi kênh màu, chúng chỉ nhận các giá trị [0..255]. Chính vì thế
khi tăng cường hay giảm độ sáng của một ảnh ta phải chú ý đến ngưỡng của
các kênh. Điều đó có nghĩa là với mỗi kênh màu của một Pixel nếu nhỏ hơn 0
thì ta phải gán bằng 0 và nếu lớn hơn 255 thì ta phải gán bằng 255.
Biểu thức cho kỹ thuật Brightness có dạng:
g(x,y) = f(x,y) + b
Trong đó b là hằng số cộng thêm vào giá trị màu f(x,y). Độ sáng của ảnh
tăng nếu b > 0, và giảm bớt nếu b < 0.
2.2.2. Tăng giảm độ tương phản
Độ tương phản (Contrast) thể hiện sự thay đổi cường độ sáng của đối
tượng so với nền, hay nói cách khác, độ tương phản là độ nổi của điểm ảnh
hay vùng ảnh so với nền.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

/>


Ảnh số là tập hợp các điểm, mà mỗi điểm có giá trị độ sáng khác nhau.
Ở đây, độ sáng để mắt người dễ cảm nhận ảnh song không phải là quyết định.
Thực tế chỉ ra rằng hai đối tượng có cùng độ sáng nhưng đặt trên hai nền khác
nhau nhau sẽ cho cảm nhận khác nhau. Vì vậy ta có thể thay đổi độ tương
phản của ảnh sao cho phù hợp.
Việc làm tăng độ tương phản rất hữu ích khi tiến hành xử lý trước theo
phương pháp phân ngưỡng. Bằng việc làm tăng độ tương phản, sự khác nhau
của giá trị nền và đối tượng, độ dốc của cạnh đối tượng được tăng lên. Do đó
sau khi làm tăng độ tương phản ta có thể tìm các giá trị màu thích hợp với
một vùng sáng hơn.
Trong một ảnh có độ tương phản cao, có thể xác định được các viền rõ
ràng và chi tiết khác nhau của ảnh đó được nổi bật. Còn trong một ảnh có độ
tương phản thấp, tất cả các màu đều gần như nhau gây khó khăn cho việc xác
định các chi tiết của ảnh.
Biểu thức cho kỹ thuật Contrast có dạng:
g(x,y) = af(x,y)
Trong đó a là hằng số nhân vào giá trị màu tại f(x,y). Độ sáng của ảnh
tăng nếu a > 1, và giảm bớt nếu a < 1.
2.2.3. Tách kênh màu đỏ
Ảnh quét thu được của phiếu trả lời trắc nghiệm trên thực tế chỉ bao gồm
hai màu chủ đạo là đen và đỏ (không xét đến màu bút của thí sinh ghi thông
tin). Màu đỏ dùng để in các thông tin đánh dấu, đường bao và để tô vẽ các
vùng đối tượng đánh dấu đặc biệt. Ưu điểm của việc sử dụng màu đỏ để in
những thông tin này là để trong quá trình xử lý ta sẽ thực hiện tách kênh màu
đỏ làm nổi lên các vùng thông tin cần thiết vì nếu dùng cùng một màu để in,
có thể các vùng này sẽ ảnh hưởng đến các vùng thông tin làm bài của thí sinh,
gây khó khăn trong quá trình nhận dạng hoặc có thể dẫn đến nhận nhầm. Tuy
nhiên việc sử dụng ảnh màu để xử lý cũng yêu cần một điều kiện hết sức cần

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


/>

×