Tải bản đầy đủ (.pdf) (84 trang)

Nâng cao chất lượng hệ thống nhập điểm tự động theo form

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2 MB, 84 trang )

..

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG
----------------  ----------------

Vũ Thị Hồng Thƣ

NÂNG CAO CHẤT LƢỢNG
HỆ THỐNG NHẬP ĐIỂM TỰ ĐỘNG THEO FORM

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Ngun - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG
----------------  ----------------

Vũ Thị Hồng Thƣ

NÂNG CAO CHẤT LƢỢNG
HỆ THỐNG NHẬP ĐIỂM TỰ ĐỘNG THEO FORM

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. Nguyễn Thị Hồng Minh

Thái Nguyên - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




i

LỜI CAM ĐOAN
Tôi xin cam đoan kết quả trong luận văn là sản phẩm của riêng cá nhân
tơi. Trong tồn bộ nội dung của luận văn, những điều được trình bày hoặc là
của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu
tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp.
Tơi xin hồn tồn chịu trách nhiệm theo quy định cho lời cam đoan của
mình.

Thái Nguyên, ngày 10 tháng 10 năm 2012
Người cam đoan

Vũ Thị Hồng Thƣ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





ii

MỤC LỤC
Trang
Trang bìa
Trang phụ bìa
LỜI CAM ĐOAN .............................................................................................. i
MỤC LỤC ........................................................................................................ ii
DANH MỤC CÁC BẢNG ................................................................................ v
DANH MỤC CÁC HÌNH VẼ, ẢNH CHỤP .................................................... vi
MỞ ĐẦU........................................................................................................... 1

Chương 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG FORM MẪU .. 3
1.1. Khái quát về xử lý ảnh ........................................................................ 3
1.1.1. Xử lý ảnh là gì? ............................................................................. 4
1.1.2. Các vấn đề cơ bản của xử lý ảnh ................................................. 6
1.1.2.1. Một số khái niệm cơ bản ......................................................... 6
1.1.2.2. Biểu diễn ảnh trong máy tính ................................................ 10
1.1.2.3. Phân loại ảnh ........................................................................ 11
1.1.2.4. Quan hệ giữa các điểm ảnh .................................................. 12
1.2. Nhận dạng form mẫu ........................................................................ 14
1.2.1. Form mẫu và biểu diễn form mẫu.............................................. 14
1.2.1.1. Khái niệm form mẫu .............................................................. 14
1.2.1.2. Biểu diễn form mẫu ............................................................... 14
1.2.1.3. Phân tách vùng chứa dữ liệu ................................................ 17
1.2.1.4. Tách dịng và tách kí tự ......................................................... 18
1.2.1.5. Trích rút đặc trưng ................................................................ 19
1.2.2. Nhận dạng chữ viết trong form .................................................. 20
1.2.2.1. Sơ đồ tổng quát của một hệ nhận dạng chữ .......................... 20

1.2.2.2. Một số thuật toán nhận dạng chữ ......................................... 21
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iii

Chương 2: MỘT SỐ KỸ THUẬT NÂNG CAO CHẤT LƢỢNG NHẬN DẠNG
FORM ĐIỂM ............................................................................... 30

2.1. Kỹ thuật nâng cao chất lƣợng ảnh form ......................................... 30
2.1.1. Tăng, giảm độ sáng ..................................................................... 30
2.1.2. Tăng, giảm độ tương phản ......................................................... 31
2.1.3. Tách ngưỡng ............................................................................... 32
2.1.3.1. Phương pháp ngưỡng toàn cục ............................................. 32
2.1.3.2. Phương pháp ngưỡng tự động .............................................. 34
2.1.4. Loại bỏ nhiễu ............................................................................... 35
2.1.4.1. Nhiễu ảnh .............................................................................. 36
2.1.4.2. Một số kiểu nhiễu .................................................................. 36
2.1.4.3. Phương pháp lọc nhiễu ......................................................... 37
2.1.5. Các phép biến đổi hình học ........................................................ 47
2.1.5.1. Phép dịch ảnh ........................................................................ 47
2.1.5.2. Phép quay ảnh ....................................................................... 47
2.1.5.3. Phóng to hoặc thu nhỏ .......................................................... 49
2.2. Một số kỹ thuật hiệu chỉnh form mẫu ............................................. 50
2.2.1. Hiệu chỉnh độ dịch chuyển ......................................................... 50
2.2.2. Hiệu chỉnh góc lệch .................................................................... 52
2.2.2.1. Phương pháp chiếu nghiêng ................................................. 52
2.2.2.2. Phương pháp biến đổi Hough ............................................... 54

2.2.2.3. Phương pháp người láng giềng gần nhất ............................. 60
2.3. Một số kỹ thuật nâng cao chất lƣợng chữ viết trong form ........... 61
2.3.1. Khử nhiễu .................................................................................... 61
2.3.2. Làm trơn chữ ............................................................................... 61
2.3.3. Làm đầy chữ ................................................................................ 63
2.3.4. Làm mảnh chữ ............................................................................ 63
2.3.5. Xoay văn bản đi một góc ............................................................. 64

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iv

Chương 3: THIẾT KẾ CHƢƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM .. 65
3.1. Bài tốn............................................................................................... 65
3.2. Phân tích, thiết kế chƣơng trình ...................................................... 65
3.2.1. Chuyển đổi sang ảnh nhị phân .................................................. 66
3.2.2. Loại bỏ nhiễu ............................................................................... 67
3.2.3. Tách dòng và trích rút vùng cần lấy dữ liệu .............................. 68
3.2.4. Tách ký tự trên một dịng ............................................................ 69
3.2.5. Mơ tả chương trình chính .......................................................... 70
3.3. Kết quả chƣơng trình........................................................................ 73
PHẦN KẾT LUẬN ......................................................................................... 74
DANH MỤC TÀI LIỆU THAM KHẢO ......................................................... 75

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





v

DANH MỤC CÁC BẢNG
Số hiệu bảng

Tên bảng

Trang

2.1

Mặt nạ thông thấp

40

2.2

Mặt nạ thông cao

41

3.1

Biểu đồ và ngưỡng tối ưu

65

3.2


Kết quả chuyển đổi ảnh xám sang ảnh nhị phân

66

3.3

Kết quả thực nghiệm

72

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




vi

DANH MỤC CÁC HÌNH VẼ, ẢNH CHỤP
Số hiệu

Tên hình vẽ

hình vẽ

Trang

1.1

Quá trình xử lý ảnh


4

1.2

Các bước cơ bản trong xử lý ảnh

4

1.3

Mơ hình màu RGB

8

1.4

Mơ hình màu CMY

8

1.5

Ảnh nhị phân có kích thước 88

10

1.6

Lân cận các điểm ảnh của toạ độ (x,y)


11

1.7

Ví dụ mơ tả cấu trúc vật lý, logic của tài liệu

15

1.8

Mẫu bảng điểm thu nhận từ máy quét

16

1.9

Ảnh được tách thành 2 vùng để xử lý

17

1.10

Bức ảnh trước khi điều chỉnh kích thước

18

1.11

Bức ảnh sau khi điều chỉnh kích thước thành 75


19

1.12

Sơ đồ q trình nhận dạng chữ

19

1.13

Chữ P

21

1.14

Quá trình nhận dạng theo cấu trúc

23

1.15

Điểm kết thúc và chạc ba

24

1.16

Cấu trúc mạng nơron


25

1.17

Lược đồ thuật toán huấn luyện mạng

26

1.18

Lược đồ thuật toán BackPropagation

28

2.1

Tăng, giảm độ sáng

30

2.2

Tăng, giảm độ tương phản

31

2.3

Ảnh gốc và ảnh thu được qua lọc trung bình


38

2.4

Ảnh gốc và ảnh thu được qua lọc thơng thấp

39

2.5

Sơ đồ lọc thông cao

40

2.6

Ảnh gốc và ảnh thu được qua lọc thông cao

41

2.7

Ảnh gốc và ảnh thu được qua lọc trung vị

43

2.8

Ví dụ bộ lọc giữ biên


44

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




vii

2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
2.17
2.18
2.19
2.20
2.21
2.22
2.23
2.24
2.25
3.1
3.2
3.3

3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15

Các toán tử gờ sai phân
Hệ tọa độ khi xoay ảnh
Ảnh xoay -10o
Ảnh xoay sau khi suy ngược từ ảnh gốc
(a) là ảnh mẫu (b) là ảnh cần nhận dạng
Mô hình biểu đồ tần suất của ảnh mẫu và ảnh cần nhận dạng
Kết quả chiếu ngang và chiếu dọc của một trang tài liệu
Ảnh gốc (a) và ảnh khi bị nghiêng 50
Phép chiếu ngang của hình 2.16
Mảng chỉ số [a, b] và các giá trị
Ví dụ biến đổi Hough cho đường thẳng
Đường thẳng Hough trong tọa độ cực
Áp dụng biến đổi Hough phát hiện góc
Biểu đồ minh hoạ phương pháp người láng giềng gần nhất
Làm trơn biên chữ
Các điểm lân cận gradient
Làm mảnh chữ

Lược đồ thuật tốn nhận dạng kí tự
Ảnh trước khi lọc nhiễu
Ảnh sau khi được lọc nhiễu
Ảnh gốc cần tách thành các dòng riêng biệt
Dòng thứ nhất được tách ra từ ảnh gốc ở hình 3.3
Dịng thứ 2 được tách ra từ ảnh gốc ở hình 3.3
Dịng thứ 3 được tách ra từ ảnh gốc ở hình 3.3
Dòng thứ 4 được tách ra từ ảnh gốc ở hình 3.3
Dịng thứ 5 được tách ra từ ảnh gốc ở hình 3.3
Kết quả của việc tách kí tự trên dịng 1
Kết quả của việc tách kí tự trên dịng 3
Form đăng nhập
Form cho phép người dùng cập nhật điểm từ file ảnh
Kết quả hiển thị file ảnh của form điểm
Dữ liệu điểm được cập nhật vào CSDL quản lý thi

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



45
47
47
48
49
50
52
53
53
55

55
56
57
59
61
62
63
64
66
66
67
67
67
67
67
68
68
68
69
69
70
71


1

MỞ ĐẦU
Một trong những giai đoạn khó khăn nhất của công nghệ thông tin là
làm cho máy tự động thu nhận, hiểu được ngôn ngữ tự nhiên của chữ viết và
tiếng nói. Trong đó nhận dạng chữ viết là một lĩnh vực được nghiên cứu phổ

biến, nó đã được nghiên cứu từ hơn nửa thập kỷ qua. Ngày nay nhận dạng chữ
viết đã nhận được sự quan tâm đáng kể và nhận dạng chữ viết tay là một đề
tài rất quan trọng trong những ứng dụng khác nhau như tình báo, kỹ thuật
robot, ... Đã có nhiều thuật tốn nhận dạng được đưa ra, luôn được cải tiến và
phát triển để đáp ứng được nhu cầu của xã hội. Các nghiên cứu về nhận dạng
chữ viết tay đã đạt được nhiều thành quả thiết thực tại nhiều nước trên thế
giới. Tuy nhiên, ở Việt Nam vẫn cịn ít người nghiên cứu.
Cùng với sự phát triển nhanh chóng về phần cứng máy tính, các phần
mềm càng trở nên đa dạng, phong phú, hoàn thiện hơn và hỗ trợ hiệu quả hơn
cho con người. Ngày nay, các phần mềm mô phỏng nghiệp vụ phức tạp ngày
càng nhiều, hỗ trợ cho người sử dụng một cách thuận tiện, thời gian xử lý
công việc nhanh chóng và một số nghiệp vụ được tự động hóa cao.
Hiện nay, cơng việc quản lý điểm, quản lý thi trong công tác đào tạo của
các trường đã được đơn giản hóa rất nhiều nhờ vào việc sử dụng phần mềm.
Tuy nhiên, một vấn đề làm mất khơng ít thời gian là nhập điểm thi từ phiếu
điểm vào trong cơ sở dữ liệu, đặc biệt là đối với những trường trung học phổ
thơng có số lượng học sinh nhiều và các kỳ thi là thường xuyên (thi khảo sát
đầu năm, thi giữa kỳ I, thi hết học kỳ I, thi giữa kỳ II, thi hết học kỳ II, thi
nghề phổ thông, thi thử tốt nghiệp, và thi tốt nghiệp trung học phổ thơng) thì
đây thực sự là một cơng việc có khối lượng lớn và dễ gây ra nhầm lẫn. Xuất
phát từ thực tế đó, luận văn “Nâng cao chất lượng hệ thống nhập điểm tự
động theo Form” có tính thời sự và có ý nghĩa thực tiễn cao.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




2


Mục đích của luận văn là xây dựng hệ thống nhập điểm tự động. Đây là
một hệ thống có khả năng phân tích hì nh ảnh , nhận dạng chữ viết trên phiếu
điểm được đưa vào chương trình dưới dạng file ảnh. Từ đó xác định các thơng
tin liên quan như: Họ tên học sinh, lớp, điểm các môn thi, ... Cuối cùng
chương trình sẽ cập nhật các thơng tin trên vào cơ sở dữ liệu giúp cho công
tác quản lý được dễ dàng, nhanh chóng và hiệu quả hơn. Các cơng đoạn chính
của hệ thống nhập điểm tự động bao gồm:
- Phiếu điểm viết tay của giáo viên tại trường trung học phổ thông Thụy
Hương - Kiến Thụy - Hải Phịng qua máy qt thu được hình ảnh và đưa vào
máy tính.
- Phân vùng ảnh thành 2 vùng cần thiết: Số báo danh và điểm thi.
- Nhận dạng điểm viết tay tương ứng với số báo danh dựa trên 2 vùng
được trích rút từ form điểm.
- Cập nhật vào cơ sở dữ liệu quản lý thi của trường trung học phổ thơng
Thụy Hương - Kiến Thụy - Hải Phịng.
Hệ thống nhập điểm tự động đã giải quyết được những khó khăn và bất
tiện của chương trình quản lý thi hiện có để lại.
Nội dung của luận văn gồm có 3 chương:
Chương 1: Khái quát về xử lý ảnh và nhận dạng form mẫu.
Chương 1 giới thiệu khái quát về xử lý ảnh và form mẫu, một số thuật
toán nhận dạng chữ viết trong form.
Chương 2: Một số kỹ thuật nâng cao chất lượng nhận dạng form điểm.
Chương 2 cung cấp một số kỹ thuật nâng cao chất lượng ảnh form, chữ
viết trong form và một số kỹ thuật hiệu chỉnh form mẫu.
Chương 3: Chương trình thử nghiệm.
Chương 3 trình bầy về thiết kế hệ thống “Nâng cao chất lượng hệ thống
nhập điểm tự động theo Form” và các kết quả của chương trình thử nghiệm.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





3

Chương 1

KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG FORM MẪU
Ả nh là mộ t dạ ng dữ
trong việ c trao đổ i, xử

liệ u đóng vai trị quan trọ ng
lý, lư u giữ

nhiề u ngành nghề , trong mộ t số

thơng tin... Trong

các loạ i hình cơng việ c,

ngư ờ i ta đề u cầ n đế n hình ả nh để

mơ tả , minh chứ ng

hay diễ n đạ t nhữ ng điề u mà đôi khi chữ

viế t hay ngôn

hế t đư ợ c. Việ c lư u ả nh củ a các


ngữ nói khơng lộ t tả

tài liệ u, các bả n vẽ , … hay sử a đổ i và chuyể n chúng
sang các dạ ng đồ

họ a khác để

dạ ng, đố i sánh mẫ u để

sử

thiế t. Vậ y chúng ta nên tổ
ả nh này như

thế

thuậ n tiệ n cho việ c nhậ n
dụ ng sau này là điề u cầ n

chứ c lư u trữ các dạ ng hình

nào? Có cầ n xử

chúng khơng? Câu trả

lý gì trư ớ c khi lư u

lờ i là có. Do đó xử lý ả nh là việ c

cầ n làm.

1.1. Khái quát về xử lý ảnh
Xử lý ảnh là một trong những mảng quan trọng nhất trong kỹ thuật thị
giác máy tính, là tiền đề cho nhiều nghiên cứu thuộc lĩnh vực này. Hai nhiệm
vụ cơ bản của quá trình xử lý ảnh là nâng cao chất lượng thơng tin hình ảnh
và xử lý số liệu cung cấp cho các q trình khác trong đó có việc ứng dụng thị
giác vào điều khiển.
Các cơng trình nghiên cứu tại nhiều quốc gia từ những năm 1920 đến nay
về xử lý ảnh đã góp phần thúc đẩy tiến bộ trong lĩnh vực này lớn mạnh không
ngừng. Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý
ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




4

cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác
người máy.
1.1.1. Xử lý ảnh là gì?
Xử lý ảnh là một lĩnh vực mang tính khoa học và cơng nghệ. Nó là một
ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát
triển của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc
biệt là máy tính chun dụng riêng cho nó.
Q trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào
nhằm cho ra kết quả mong muốn. Kết quả đầu ra của một q trình xử lý ảnh
có thể là một ảnh “tốt hơn” hoặc một kết luận.[4]

Hình 1.1: Quá trình xử lý ảnh
Để có thể hình dung cấu hình một hệ thống xử lý ảnh chuyên dụng hay

một hệ thống xử lý ảnh trong nghiên cứu, đào tạo, trước hết chúng ta hãy xem
xét các bước cần thiết trong xử lý ảnh.
Thu nhận
ảnh

Xử lý trước

Phân đoạn

Tách các
đặc tính

Phân loại

Hình 1.2: Các bước cơ bản trong xử lý ảnh
Sơ đồ này bao gồm các thành phần sau:
a) Thu nhận ảnh
Đầu tiên, ảnh tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị
thu (như Camera, máy chụp ảnh, máy scanner). Trước đây, ảnh thu qua
Camera là các ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25,
mỗi ảnh 25 dòng). Gần đây, với sự phát triển của cơng nghệ, ảnh màu hoặc
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




5

đen trắng được lấy ra từ Camera, sau đó nó được chuyển trực tiếp thành ảnh
số tạo thuận lợi cho xử lý tiếp theo (máy ảnh số hiện nay là một thí dụ gần

gũi). Mặt khác, ảnh cũng có thể tiếp nhận từ vệ tinh qua các bộ cảm ứng hay
ảnh; có thể quét từ ảnh chụp bằng máy quét ảnh scanner. Sau đó được lưu trữ
trong máy tính. Gồm có 2 q trình:
+ Biến đổi năng lượng quang học sang năng lượng điện
+ Biến đổi năng lượng điện sang dạng ma trận số.
b) Xử lý trước (hay tiền xử lý)
Ảnh sau khi thu nhận có thể bị nhiễu, bị méo, độ tương phản thấp... là do
những nguyên nhân khác nhau: có thể do chất lượng thiết bị thu nhận ảnh, do
nguồn sáng hay do nhiễu ảnh có thể bị suy biến. Vì vậy cần phải tăng cường
và khơi phục lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm
cho ảnh gần giống nhất với trạng thái gốc (trạng thái trước khi ảnh bị biến
dạng) nhằm các mục đích phục vụ cho các bước tiếp theo.
Những mục đích riêng biệt có thể đặt ra cho quá trình tiền xử lý là:
+ Thực hiện điều chỉnh độ chiếu sáng để khắc phục hậu quả của sự
chiếu sáng không đồng đều.
+ Giảm nhỏ thành phần nhiễu.
+ Cải thiện độ tương phản của ảnh màu do khuôn màu không tốt.
+ Hiệu chỉnh độ méo giá trị xám.
+ Loại bỏ tính khơng đồng thể của ảnh gây nên từ tính khơng đồng bộ
của lớp nhạy quang của hệ thống thu nhận ảnh.
+ Chuẩn hóa độ lớn, dạng và màu.
+ Điều chỉnh bộ lọc để khuyếch đại các tần số với những thông tin
quan trọng được khuyếch đại và nén đi các tần số khác.
c) Phân đoạn (hay phân vùng ảnh)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





6

Là quá trình phân chia các đối tượng cần khảo sát ra khỏi phần nội
dung còn lại của ảnh, phân tách các đối tượng tiếp giáp nhau và phân tách
những đối tượng riêng biệt thành những đối tượng con. Một phương pháp
phân đoạn ảnh là sử dụng một ngưỡng giá trị xám để phân tách ảnh thành đối
tượng và nền (những điểm dưới ngưỡng xám thuộc về nền, ngược lại thuộc về
đối tượng).[1]
d) Tách các đặc tính
Dựa trên các thơng tin thu nhận được qua quá trình phân đoạn, kết hợp
với các kỹ thuật xử lý để đưa ra các đặc trưng, đối tượng ảnh cũng như các
thông tin cần thiết trong q trình xử lý. Nhờ các đặc tính có được từ ảnh ta
có thể phân loại các đối tượng khác nhau của ảnh.
e) Phân loại ảnh
Thực hiện công việc sắp xếp một đối tượng vào một lớp đối tượng cho
trước. Để giải quyết bài tốn này thì các đặc tính có ý nghĩa phải được lựa
chọn. Ta tìm thấy các đặc tính có ý nghĩa khi ta phân tích các mẫu được lựa
chọn từ những đối tượng khác nhau.
1.1.2. Các vấn đề cơ bản của xử lý ảnh
1.1.2.1. Một số khái niệm cơ bản
a) Ảnh và điểm ảnh
* Điểm ảnh (hay phần tử ảnh)
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ
sáng. Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hóa ảnh.
Trong q trình số hóa, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc
thơng qua q trình lấy mẫu và lượng hóa thành phần giá trị mà thể về nguyên
tắc bằng mắt thường không phân biệt được hai điểm kề nhau. Trong quá trình
này, người ta sử dụng khái niệm Picture element mà ta quen gọi hay viết là
Pixel - phần tử ảnh. Mỗi Pixel bao gồm một cặp tọa độ chỉ vị trí (x,y) và một


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




7

mức xám nhất định. Mật độ Pixel trên một ảnh số cho ta xác định được độ
phân giải của ảnh. Ảnh có độ phân giải càng cao thì càng rõ nét và ngược lại.
Ví dụ một ảnh số có độ phân giải là 800600 Pixel nghĩa là có 800 điểm theo
chiều ngang và 600 điểm theo chiều dọc.[1]

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




8

* Ảnh: Là tập hợp hữu hạn các điểm ảnh, thường được biểu diễn bằng
một mảng hai chiều I(n,m) với n là số hàng, m là số cột. Ta ký hiệu P(x,y) là
một điểm ảnh tại vị trí (x, y). Số lượng điểm ảnh trên mỗi hàng hoặc các hàng
xác định độ phân giải của ảnh.[1]
b) Mức xám, màu
* Mức xám
Mức xám của điểm ảnh là kết quả sự biến đổi tương ứng một cường
độ sáng của điểm ảnh đó với một giá trị số (kết quả của quá trình lượng hóa).
Cách mã hóa kinh điển thường dùng 16, 32 hay 64 mức. Mã hóa 256 mức là
phổ dụng nhất do lý do kỹ thuật. Vì 28 = 256 (0, 1, ..., 255), nên với 256 mức
mỗi pixel sẽ được mã hóa bởi 8 bit.[1]

Kí hiệu hàm số f tại tọa độ x,y là f(x,y) là mức xám L của ảnh tại tại
điểm đó: Lmin <= L <= Lmax
- Ảnh nhị phân: 0 <= L <= 1
- Ảnh biểu diễn dạng 8 bit : 0 <= L<= 255
- Ảnh biểu diễn dạng 16 bit : 0 <= L <= 216 - 1
* Màu
- Màu sắc: Mắt người có thể phân biệt được vài chục màu nhưng có
thể cảm nhận được hàng ngàn màu. Ba thuộc tính của một màu đó là: Sắc
(Hue), độ tinh khiết (Saturation), và độ sáng hay độ chói (Itensity).
- Mơ hình màu:
+ Mơ hình màu RGB (RED - GREEN - BLUE): Thông tin con
người thu nhận bằng hình ảnh đều bắt nguồn từ thị giác. Mắt con người có
khả năng phân biệt được rõ nét 3 màu: đỏ, lục, lam. Các ảnh màu nói chung
đều bao gồm 3 ảnh xám đối với màu nền đỏ, lục và lam. Tất cả các màu sắc
trong tự nhiên đều có thể tổng hợp từ 3 thành phần màu nói trên.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




9

Mơ hình RGB cịn gọi là mơ hình cộng tính, mỗi mức xám của
ảnh sẽ được biểu diễn bởi 3 thành phần: R, G, B (Mỗi thành phần được biểu
diễn bởi 1 byte).

Lục(0,1,0)

Vàng(1,1,0)


Đỏ cô ban(0, 1,1)
Đen(0,0,0)

Trắng (1, 1, 1)

Lam(0,0,1 )

Đỏ(1,0,0)

Đỏ lila (1,0,1)

Hình 1.3: Mơ hình màu RGB
+ Mơ hình màu CMY( CYAN - MAGENTA - YELLOW): là phần
bù của hệ màu RGB theo nguyên tắc: C + R = M + G = B + Y =(1, 1, 1). Hệ
màu này thường dùng để xuất thông tin màu ra các thiết bị như máy in màu.

Đỏ lila(0,1,0)

Đỏ (0, 1,1)

Lam(1,1,0)

Đen (1, 1, 1)
Trắng(0,0,0)

Vàng(0,0,1

Đỏ cơ ban (1,0,0)


Lục (1,0,1)

Hình 1.4: Mơ hình màu CMY

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




10

+ Mơ hình màu CMYK( CYAN - MAGENTA - YELLOW- BLACK):
Xuất phát từ hệ màu CMY với K là độ đậm nhạt của màu K. Với C, M, K
được xác định từ CMY( C1, M1, Y1) như sau:
K = min(C1, M1, Y1, K); C = C1-K; M = M1-K; Y = Y1-K.
c) Độ phân giải của ảnh
Độ phân giải của ảnh là mật độ điểm ảnh được ấn định trên một ảnh
số được hiển thị.
Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic
Adaptor) là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc *
200 điểm ảnh (320*200). Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn
hơn màn hình CGA 17” độ phân giải 320*200. Lý do: cùng một mật độ (độ
phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các
điểm) kém hơn.[2]
1.1.2.2. Biểu diễn ảnh trong máy tính
Trong biểu diễn ảnh, người ta thường dùng các phần tử đặc trưng của
ảnh là pixel. Nhìn chung có thể xem một hàm hai biến chứa các thơng tin như
biểu diễn của một ảnh. Các mơ hình biểu diễn ảnh cho ta một mô tả lôgic hay
định lượng các tính chất của hàm này. Trong biểu diễn ảnh cần chú ý đến
tính trung thực của ảnh hoặc các tiêu chuẩn “thơng minh” để đo chất lượng

ảnh hoặc tính hiệu quả của các kỹ thuật xử lý.
Ta cần xem xét ảnh sẽ được biểu diễn ra sao trong bộ nhớ máy tính.
Nếu lưu trữ trực tiếp ảnh thơ theo kiểu bản đồ ảnh, dung lượng sẽ khá lớn, tốn
kém mà nhiều khi không hiệu quả theo quan điểm ứng dụng. Thường người ta
khơng biểu diễn tồn bộ ảnh thơ mà tập trung đặc tả các đặc trưng của ảnh
như: biên ảnh (Boundary) hay các vùng ảnh (Region).[1]

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




11

1.1.2.3. Phân loại ảnh
* Ảnh nhị phân (hay ảnh đen trắng)
Ảnh chỉ có 2 mức đen, trắng phân biệt. Với ảnh nhị phân dùng 1 bit
mô tả 21 mức khác nhau, hay nói cách khác: mỗi điểm ảnh của ảnh nhị phân
chỉ có thể là 0 hoặc 1 (0 là màu đen và 1 là màu trắng).
Ví dụ về ảnh nhị phân với tập hợp 88 = 64 điểm ảnh.
1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1
0 0 0 1 1 0 0 0
0 0 0 1 1 0 0 0
0 0 0 1 1 0 0 0
0 0 0 1 1 0 0 0
0 0 0 1 1 0 0 0
0 0 0 1 1 0 0 0
Hình 1.5 : Ảnh nhị phân có kích thước 88
* Ảnh xám

Là ảnh có hai màu đen, trắng (không chứa màu khác) với mức xám ở
các điểm ảnh có thể khác nhau. Giá trị xám nằm trong khoảng 0..255. Như
vậy mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bới 1 byte. Ứng với cấp
xám L bằng 2 là ảnh nhị phân. Còn với L lớn hơn 2, ta có ảnh xám hay cịn
gọi là ảnh đa cấp xám.
Ví dụ: Ảnh 512512 cần ít nhất không gian lưu trữ là 512512 Bytes
hay 256 Kbytes.
* Ảnh màu
Ảnh màu nói chung là ảnh tổ hợp từ 3 màu cơ bản: đỏ (Red), lục
(Green), lam (Blue) và thường thu nhận trên các giải băng tần khác nhau. Với
ảnh màu cách biểu diễn cũng tương tự như ảnh đen trắng chỉ khác là mỗi
Pixel ảnh gồm 3 thành phần màu P=[red, green, blue] nên cần được biểu diễn
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




12

bằng 3 bytes. Mỗi màu cũng phân thành L cấp khác nhau (L thường là 256).
Do vậy, để lưu trữ ảnh màu, người ta có thể lưu trữ từng mặt màu riêng biệt,
mỗi màu lưu trữ như một ảnh đa cấp xám. Do đó khơng gian nhớ dành cho
một ảnh màu lớn gấp 3 lần một ảnh đa cấp xám cùng kích thước.
1.1.2.4. Quan hệ giữa các điểm ảnh
Một ảnh số giả sử được biểu diễn bằng hàm f(x, y). Tập con các điểm
ảnh là S; cặp điểm ảnh có quan hệ với nhau ký hiệu là p, q. Chúng ta nêu một
số các khái niệm sau:
a) Các lân cận của điểm ảnh
Giả sử có điểm ảnh p tại toạ độ (x, y). p có 4 điểm lân cận gần nhất
theo chiều đứng và ngang (có thể coi như lân cận 4 hướng chính: Đơng, Tây,

Nam, Bắc).
{(x-1, y); (x, y-1); (x, y+1); (x+1, y)} = N4(p)
trong đó: số 1 là giá trị logic; N4(p) tập 4 điểm lân cận của p

Hình 1.6: Lân cận các điểm ảnh của toạ độ (x,y)
Các lân cận chéo: Các điểm lân cận chéo NP(p) (Có thể coi lân cận
chéo là 4 hướng: Đơng-Nam, Đơng-Bắc, Tây-Nam, Tây-Bắc)
Np(p) = { (x+1, y+1); (x+1, y-1); (x-1, y+1); (x-1, y-1)}
Tập kết hợp: N8(p) = N4(p) + NP(p) là tập hợp 8 lân cận của điểm ảnh p.
Chú ý: Nếu (x, y) nằm ở biên (mép) ảnh; một số điểm sẽ nằm ngồi ảnh.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




13

b) Các mối liên kết điểm ảnh
Các mối liên kết được sử dụng để xác định giới hạn (Boundaries) của
đối tượng vật thể hoặc xác định vùng trong một ảnh. Một liên kết được đặc
trưng bởi tính liền kề giữa các điểm và mức xám của chúng.
Giả sử V là tập các giá trị mức xám. Một ảnh có các giá trị cường độ
sáng từ thang mức xám từ 32 đến 64 được mô tả như sau :
V={32, 33, … , 63, 64}.
Có 3 loại liên kết.
* Liên kết 4: Hai điểm ảnh p và q được nói là liên kết 4 với các giá
trị cường độ sáng V nếu q nằm trong một các lân cận của p, tức q thuộc N4(p)
* Liên kết 8: Hai điểm ảnh p và q nằm trong một các lân cận 8 của
p, tức q thuộc N8(p)

* Liên kết m (liên kết hỗn hợp): Hai điểm ảnh p và q với các giá trị
cường độ sáng V được nói là liên kết m nếu: - q thuộc N4(p) hoặc
- q thuộc NP(p)
c) Đo khoảng cách giữa các điểm ảnh.
Định nghĩa: Khoảng cách D(p, q) giữa hai điểm ảnh p toạ độ (x, y), q
toạ độ (s, t) là hàm khoảng cách (Distance) hoặc Metric nếu:
- D(p,q) ≥ 0 (Với D(p,q)=0 nếu và chỉ nếu p=q)
- D(p,q) = D(q,p)
- D(p,z) ≤ D(p,q) + D(q,z); z là một điểm ảnh khác.
Khoảng cách Euclide: Khoảng cách Euclide giữa hai điểm ảnh p(x, y)
và q(s, t) được định nghĩa như sau:
De(p, q) = [(x - s)2 + (y - t)2]1/2
Khoảng cách khối: Khoảng cách D4(p, q) được gọi là khoảng cách
khối đồ thị (City-Block Distance) và được xác định như sau:
D4(p,q) = | x - s | + | y - t |

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




14

Giá trị khoảng cách giữa các điểm ảnh r: giá trị bán kính r giữa điểm
ảnh từ tâm điểm ảnh đến tâm điểm ảnh q khác. Ví dụ: Màn hình CGA 12”
(12”*2,54cm = 30,48cm=304,8mm) độ phân giải 320*200; tỷ lệ 4/3 (Chiều
dài/Chiều rộng). Theo định lý Pitago về tam giác vuông, đường chéo sẽ lấy tỷ
lệ 5 phần (5/4/3: đường chéo/chiều dài/chiều rộng màn hình); khi đó độ dài
thật là (305/244/183) chiều rộng màn hình 183mm ứng với màn hình CGA
200 điểm ảnh theo chiều dọc. Như vậy, khoảng cách điểm ảnh lân cận của

CGA 12” là ≈ 1mm.[2]
Khoảng cách D8(p, q) còn gọi là khoảng cách bàn cờ (Chess-Board
Distance) giữa điểm ảnh p, q được xác định như sau:
D8(p,q) = max (| x-s | , | y-t |)
1.2. Nhận dạng form mẫu
1.2.1. Form mẫu và biểu diễn form mẫu
1.2.1.1. Khái niệm form mẫu
Form mẫu là form dùng để nhập dữ liệu, có cấu trúc gồm các trường
mà mỗi trường có tên trường, nội dung, kiểu dữ liệu tương ứng. Ví dụ các loại
phiếu điều tra, phiếu điểm, phiếu trả lời trắc nghiệm…
1.2.1.2. Biểu diễn form mẫu
a) Cấu trúc vật lý
Cấu trúc vật lý của một form tài liệu mô tả vị trí và các đường ranh
giới giữa các vùng có nội dung khác nhau trong một trang tài liệu. Q trình
phân tích bố cục tài liệu là thực hiện việc tách từ một trang tài liệu ban đầu
thành các vùng có nội dung cơ sở như hình ảnh nền, vùng văn bản,…
Để mô tả cấu trúc vật lý của tài liệu người ta sử dụng một cấu trúc
hình học với mỗi đối tượng trong cấu trúc là một phần tử chỉ chứa nội dung
đồng nhất. Các kiểu đối tượng hình học được định nghĩa như sau:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




15

+ Block là đối tượng cơ sở tương ứng với một vùng hình chữ nhật
chứa một phần nội dụng của tài liệu.
+ Frame một đối tượng hỗn hợp tương ứng với một hình chữ nhật

bao gồm một hoặc nhiều block hoặc bao gồm các frame.
+ Page là đối tượng hình học hoặc hỗn hợp các thành phần cơ sở
tương ứng với một vùng hình chữ nhật, nếu là đối tượng hỗn hợp nó chứa một
hoặc nhiều block, một hoặc nhiều frame.
+ Page set (tập trang) là một tập của một hoặc nhiều page.
+ Điểm gốc của cấu trúc (hay nút gốc) là một đối tượng ở mức cao
nhất trong sơ đồ phân cấp của cấu trúc hình học tài liệu. Hình 1.7 cho ví dụ
một cấu trúc hình học mơ tả bố cục vật lý của trang tài liệu tương ứng.
Các thuật tốn phân tích bố cục tài liệu có thể được chia làm ba loại
chính dựa theo phương pháp thực hiện của nó.
- Bottom-up: Ý tưởng chính của các thuật tốn loại này là bắt đầu
phân tích từ những phần tử nhỏ nhất (như từ các pixel hay các phần tử liên
thơng) sau đó nhóm chúng lại thành các vùng lớn hơn (có thể là ký tự), rồi lại
nhóm các vùng này lại thành một khối lớn hơn nữa, và cứ tiếp tục như vậy
cho đến khi phân tích được tồn bộ trang tài liệu.
- Top-down: Thuật tốn này bắt đầu từ tồn bộ trang tài liệu, sau đó sẽ
phân tích trang tài liệu đó thành các vùng nhỏ hơn, các vùng nhỏ hơn này lại
được phân tích thành các vùng nhỏ hơn nữa, thủ tục tách cứ được lặp đi, lặp
lại nhiều lần cho đến khi thỏa mãn các tiêu chuẩn đề ra của bài toán.
- Các thuật tốn khơng theo thứ bậc: như Fractal Signature, Adaptive
splitand-merge …

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




16

b) Cấu trúc logic

Ngoài bố cục vật lý, các trang tài liệu cịn chứa đựng nhiều thơng tin
về ngữ cảnh và nội dung như các tiêu đề, đoạn văn, đề mục… và mỗi vùng
nội dung này lại được gán các nhãn logic hay nhãn theo chức năng tương ứng,
khác biệt hoàn toàn với các nhãn trong bố cục vật lý.
Hầu hết các tài liệu đều có một quy tắc đọc để có thể hiểu hết nội
dung của tài liệu. Với một số ngôn ngữ đặc biệt như tiếng Trung, tiếng Ả rập
lại có quy cách đọc khác biệt (như đọc từ phải qua trái, trên xuống). Tập hợp
tất cả các yếu tố logic và chức năng trong một tài liệu và mối quan hệ giữa
chúng được gọi là cấu trúc logic của tài liệu. Thơng thường pha phân tích cấu
trúc logic của tài liệu được thực hiện trên kết quả của bước phân tích bố cục
vật lý. Tuy nhiên với một số loại tài liệu phức tạp, thì pha phân tích bố cục vật
lý lại cần thêm một số thơng tin logic liên quan đến các vùng để có thể phân
đoạn một cách chính xác.

(a)

Tài liệu

Cấu
trúc
logic
Cấu trúc vật lý

Hình 1.7: Ví dụ mơ tả cấu trúc vật lý, cấu trúc logic của tài liệu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





×