Tải bản đầy đủ (.pdf) (86 trang)

Nghiên cứu phương pháp nhận dạng chữ quang học và ứng dụng nhận dạng thẻ bảo hiểm y tế

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.58 MB, 86 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC SƢ PHẠM

NGÔ TẤN LÂM

NGHIÊN CỨU PHƢƠNG PHÁP NHẬN DẠNG
CHỮ QUANG HỌC VÀ ỨNG DỤNG NHẬN DẠNG
THẺ BẢO HIỂM Y TẾ

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng, Năm 2017


ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC SƢ PHẠM

NGÔ TẤN LÂM

NGHIÊN CỨU PHƢƠNG PHÁP NHẬN DẠNG
CHỮ QUANG HỌC VÀ ỨNG DỤNG NHẬN DẠNG
THẺ BẢO HIỂM Y TẾ

Chuyên ngành: Hệ thống thông tin
Mã số: 61.49.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Ngƣời hƣớng dẫn khoa học: TS. PHẠM ANH PHƢƠNG

Đà Nẵng, Năm 2017





ii

MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................... v
DANH MỤC HÌNH VẼ ............................................................................................vi
MỞ ĐẦU ..................................................................................................................... 1
1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI ................................................................... 1
2. MỤC TIÊU ...................................................................................................... 2
3. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU ................................................ 2
4. PHƢƠNG PHÁP NGHIÊN CỨU ................................................................... 2
5. KẾT QUẢ DỰ KIẾN ...................................................................................... 2
6. BỐ CỤC LUẬN VĂN .................................................................................... 3
CHƢƠNG 1. TỔNG QUAN VỀ NHẬN DẠNG CHỮ QUANG HỌC ................. 4
1.1. GIỚI THIỆU CHUNG .......................................................................................... 4
1.2. MƠ HÌNH NHẬN DẠNG CHỮ TỔNG QT .................................................. 5
1.2.1. Tiền xử lý .................................................................................................. 5
1.2.2. Khối tách chữ ............................................................................................ 8
1.2.3. Trích chọn đặc trƣng ................................................................................. 8
1.2.4. Huấn luyện và nhận dạng ........................................................................ 10
1.2.5. Hậu xử lý ................................................................................................. 10
1.3. CÁC KHÁI NIỆM CƠ BẢN VÀ MỘT SỐ KỸ THUẬT XỬ LÝ ẢNH
TRONG NHẬN DẠNG ............................................................................................. 11
1.3.1. Các khái niệm cơ bản .............................................................................. 11
1.3.2. Một số kỹ thuật trong xử lý ảnh .............................................................. 13
1.3.3. Một số kỹ thuật cải thiện ảnh nhị phân .................................................. 20
1.3.4. Phép biến đổi Hough ............................................................................... 22
1.4. CÁC PHƢƠNG PHÁP NHẬN DẠNG .............................................................. 26

1.4.1. Đối sánh mẫu ........................................................................................... 26
1.4.2. Phƣơng pháp tiếp cận cấu trúc ................................................................ 27
1.4.3. Các phƣơng pháp thống kê ...................................................................... 29
1.4.4. Máy véc tơ hỗ trợ (SVM) ........................................................................ 29


iii

1.4.5. Mạng nơ-ron nhân tạo (ANN) ................................................................. 30
1.5. KẾT CHƯƠNG 1 ................................................................................................ 31
CHƯƠNG 2. MẠNG NƠ-RON NHÂN TẠO ........................................................ 32
2.1. GIỚI THIỆU MẠNG NƠ-RON ......................................................................... 32
2.1.1. Khái niệm cơ bản..................................................................................... 32
2.1.2. Mơ hình mạng nơ-ron nhân tạo ............................................................... 35
2.1.3. Khả năng ứng dụng của mạng nơ-ron nhân tạo ...................................... 38
2.2. MẠNG TRUYỀN THẲNG MỘT LỚP .............................................................. 40
2.2.1. Mạng perceptron một lớp ........................................................................ 40
2.2.2. Quá trình học của mạng truyền thẳng một lớp ........................................ 41
2.3. MẠNG TRUYỀN THẲNG NHIỀU LỚP .......................................................... 42
2.3.1. Mạng perceptron nhiều lớp ..................................................................... 42
2.3.2. Thuật toán học theo phương pháp lan truyền ngược sai số ..................... 42
2.3.3. Huấn luyện mạng theo thuật toán lan truyền ngược ............................... 43
2.3.4. Một số vấn đề khi sử dụng mạng MLP ................................................... 45
2.4. KẾT CHƯƠNG 2 ................................................................................................ 47
CHƯƠNG 3. ỨNG DỤNG NHẬN DẠNG THẺ BHYT ....................................... 48
3.1. BÀI TOÁN NHẬN DẠNG THẺ BẢO HIỂM Y TẾ ......................................... 48
3.2. CƠ SỞ DỮ LIỆU THỰC NGHIỆM ................................................................... 49
3.3. MƠ HÌNH NHẬN DẠNG THẺ BHYT ............................................................. 50
3.3.1. Thẻ BHYT ............................................................................................... 50
3.3.2. Tiền xử lý ................................................................................................ 55

3.3.4. Tách ký tự ảnh của mã thẻ ....................................................................... 58
3.3.5. Huấn luyện và nhận dạng ký tự ............................................................... 59
3.3.6. Hậu xử lý ................................................................................................. 61
3.4. MÔI TRƯỜNG CÀI ĐẶT .................................................................................. 61
3.5. GIAO DIỆN CHƯƠNG TRÌNH......................................................................... 61
3.5.1. Giao diện chính của chương trình ........................................................... 61
3.5.2. Các chức năng trong chương trình .......................................................... 62


iv

3.6. KẾT CHƢƠNG 3 ................................................................................................ 65
KẾT LUẬN ............................................................................................................... 66
TÀI LIỆU THAM KHẢO ....................................................................................... 68
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao)


v

DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt

Thuật ngữ

ANN

Artificial Neural Network

BHYT


Bảo hiểm y tế

CGA

Color Graphic Adaptor

k-NN

k-láng giềng gần nhất

HMM

Hidden Markov Model – mơ hình Markov ẩn

MLP

Multilayer Perceptron

OCR

Optical Character Recognition

SVM

Support Vector Machine

VGA

Video Graphic Array



vi

DANH MỤC HÌNH VẼ

Số hiệu

Tên hình

hình

Trang

1.1

Sơ đồ tổng qt của một hệ thống nhận dạng chữ

5

1.2

Nhị phân hóa ảnh

6

1.3

Nhiễu đốm và nhiễu vệt

6


1.4

Chuẩn hóa kích thƣớc ảnh

7

1.5

Hiệu chỉnh độ nghiêng của ảnh văn bản

8

1.6

Lƣợc đồ xám của ảnh

14

1.7

Giãn độ tƣơng phản

15

1.8

Tách nhiễu và phân ngƣỡng

16


1.9

Lọc trung bình trên ảnh nhị phân

18

1.10

Ảnh sau khi áp dụng lần lƣợt hai kỹ thuật “Giãn” và “Co”

21

2.1

Cấu tạo của tế bào nơ-ron sinh học

33

2.2

Mô hình nơ-ron nhân tạo

34

2.3

Mạng nơ-ron nhân tạo chỉ có một nút và có sự phản hồi

36


2.4

Mạng nơ-ron truyền thẳng một lớp

37

2.5

Mạng nơ-ron truyền thẳng nhiều lớp

37

2.6

Lan truyền tín hiệu theo phƣơng pháp lan truyền ngƣợc

43

2.7

Hàm sigmoid g ( x)  1/ (1  e x )

45

3.1

Một số mẫu ký tự

49


3.2

Mẫu thẻ BHYT dùng để kiểm thử

49

3.3

Mơ hình nhận dạng thẻ BHYT

50

3.4

Thẻ bảo hiểm y tế

50

3.5

Ảnh trƣớc khi quay

56

3.6

Ảnh sau khi quay

56



vii

Số hiệu

Tên hình

hình

Trang

3.7

Ảnh trƣớc khi phân ngƣỡng

58

3.8

Ảnh sau khi phân ngƣỡng

58

3.9

Tách ký tự ảnh của mã thẻ

59


3.10

Giao diện của chƣơng trình

62

3.11

Chọn ảnh thẻ BHYT

62

3.12

Cắt mã thẻ BHYT

63

3.13

Kết quả cắt mã thẻ BHYT

63

3.14

Huấn luyện dựa trên mạng nơ-ron một lớp perceptron

64


3.15

Kết quả nhận dạng thẻ BHYT

65


1

MỞ ĐẦU
1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Trong thời đại hiện nay, với sự phát triển mạnh mẽ của công nghệ thơng tin,
bài tốn nhận dạng là một lĩnh vực đang đƣợc quan tâm và phát triển. Bài toán nhận
dạng đóng vai trị quan trọng trong nhiều ứng dụng thực tế nhƣ: giám sát an ninh,
giao thông, nhận dạng trong y học, nhận dạng đối tƣợng, nhận dạng khuôn mặt,
nhận dạng chữ, nhận dạng tiếng nói, phát hiện chuyển động, theo dõi chuyển
động,…
Cùng với sự thúc đẩy của quá trình tin học hóa trong lĩnh vực y tế, đầu tháng
7 năm 2016, Bảo hiểm xã hội Việt Nam đã triển khai việc cấp phát thẻ BHYT theo
cấu trúc mã thẻ mới có mã vạch 2 chiều cho tất cả các đối tƣợng tham gia BHYT
dựa trên những quy định tại Quyết định số 1351/QĐ-BHXH ngày 16 tháng 11 năm
2015 của Bảo hiểm xã hội Việt Nam về việc ban hành mã số ghi trên thẻ bảo hiểm y
tế; việc sử dụng thẻ BHYT mã vạch 2 chiều đã mang lại nhiều tiện ích cho các cơ
sở khám chữa bệnh và ngƣời dân tham gia BHYT khi đi khám chữa bệnh, đảm bảo
sự chính xác thơng tin trong việc cấp phát thẻ BHYT cho bệnh nhân. Tuy nhiên
trong quá trình triển khai cịn gặp nhiều những khó khăn nhƣ: việc đầu tƣ cơ sở vật
chất chƣa đồng bộ, cần có lộ trình và kinh phí, trình độ tin học, cơng nghệ thông tin
của nhân viên ở các cơ sở khám chữa bệnh vẫn chƣa theo kịp đà phát triển của công
nghệ…, một vấn đề khó khăn nữa là một số thẻ mới phát hành đã bị mờ, mực in bị
bong tróc, không rõ thông tin, máy không đọc đƣợc mã vạch…gây khó khăn cho

ngƣời dân lẫn các cơ sở khám chữa bệnh, nhiều ngƣời ở xa đến, không khám bảo
hiểm đƣợc phải tự chi trả hoặc phải quay về xin cấp lại thẻ, mất thời gian, khó khăn
và tốn kém cho ngƣời bệnh.
Xuất phát từ thực tiễn trên, Tôi ứng dụng sức mạnh của công nghệ thông tin
trong lĩnh vực máy học để thực hiện đề tài “Nghiên cứu phƣơng pháp nhận dạng
chữ quang học và Ứng dụng nhận dạng thẻ bảo hiểm y tế”. Nhận dạng thẻ
BHYT là một chƣơng trình hỗ trợ trong việc quản lý BHYT, từ kết quả nhận dạng
mã số trên thẻ BHYT nó giúp ngƣời quản lý tìm kiếm, trích xuất đƣợc thơng tin về


2

bệnh nhân dựa trên thẻ BHYT một cách nhanh chóng, chính xác, hạn chế tình trạng
trùng thẻ BHYT, đảm bảo cho việc thanh tốn BHYT chính xác đạt hiệu quả cao,
hạn chế tiêu cực, đồng thời theo dõi xuyên suốt quá trình điều trị bệnh của bệnh
nhân. Trong đề tài này, Tôi sẽ nghiên cứu một số phƣơng pháp nhận dạng trong lĩnh
vực nhận dạng chữ quang học. Từ đó, chúng ta sẽ có cách nhìn rõ nét hơn về lĩnh
vực máy học, hiểu đƣợc tầm quan trọng và tính thực tiễn của nó trong cuộc sống
con ngƣời.
2. MỤC TIÊU
Nghiên cứu các phƣơng pháp nhận dạng ảnh, nhận dạng ký tự quang học và
một số phƣơng pháp trích chọn đặc trƣng của ảnh.
Xây dựng, cài đặt thuật toán nhận dạng để giải quyết bài toán nhận dạng thẻ
BHYT dựa trên việc thu thập số liệu, xây dựng cơ sở tri thức và ứng dụng trong
việc nhận dạng thẻ BHYT.
3. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU
3.1. Đối tƣợng nghiên cứu
Các phƣơng pháp nhận dạng ảnh, nhận dạng ký tự quang học.
3.2. Phạm vi nghiên cứu
- Ảnh thẻ BHYT.

- Ảnh chụp trong điều kiện ánh sáng bình thƣờng (khơng chụp ngƣợc ánh
sáng, chụp bằng máy kỹ thuật số hoặc máy scan).
- Các ký tự rời rạc, khơng bị dính.
4. PHƢƠNG PHÁP NGHIÊN CỨU
Để hồn thành mục tiêu đề ra, tơi chọn phƣơng pháp nghiên cứu lý thuyết và
tiến hành ứng dụng thực nghiệm. Cụ thể nhƣ sau:
- Về lý thuyết: Tham khảo các tài liệu lý thuyết liên quan.
- Về thực nghiệm:
+ Thu thập dữ liệu ảnh thẻ BHYT để xây dựng cơ sở tri thức.
+ Ứng dụng nhận dạng thẻ BHYT trên dữ liệu ảnh thu thập đƣợc.
5. KẾT QUẢ DỰ KIẾN
5.1. Lý thuyết
- Nghiên cứu tổng quan về nhận dạng ảnh, nhận dạng ký tự quang học.


3

- Nghiên cứu về lĩnh vực máy học, các phƣơng pháp nhận dạng: phƣơng
pháp Máy vector hỗ trợ (SVM); Mạng nơ-ron nhân tạo (ANN), mơ hình Markov ẩn
(HMN)…để làm cơ sở cho việc phân tích dữ liệu.
- Tìm hiểu về lập trình với CShap (C#), Matlab…
5.2. Thực tiễn
Từ kết quả nhận dạng mã thẻ BHYT, dùng để hỗ trợ cho việc quản lý thẻ
BHYT trong khám chữa bệnh tại các cơ sở y tế.
6. BỐ CỤC LUẬN VĂN
Luận văn dự kiến tổ chức thành 3 chƣơng chính nhƣ sau:
Chƣơng 1: TỔNG QUAN VỀ NHẬN DẠNG CHỮ QUANG HỌC
Chƣơng này giới thiệu khái quát về nhận dạng chữ quang học, mô hình nhận
dạng ký tự tổng quát, các khái niệm cơ bản về xử lý ảnh và một số kỹ thuật, phƣơng
pháp nhận dạng chữ áp dụng trong lĩnh vực nhận dạng.

Chƣơng 2: MẠNG NƠ-RON NHÂN TẠO
Chƣơng này giới thiệu về mạng nơ-ron nhân tạo. Với những đặc trƣng, tính
năng của mạng nơ-ron nhân tạo là mạng có khả năng học và là một hệ thống gồm
nhiều phần tử xử lý đơn giản cùng hoạt động xử lý song song, cho phép nó có thể
đƣợc áp dụng để giải các bài toán từ đơn giản đến phức tạp.
Chƣơng 3: CÀI ĐẶT VÀ THỬ NGHIỆM KẾT QUẢ
Trong chƣơng này, Tôi đƣa ra một chƣơng trình mơ phỏng đƣợc xây dựng và
cài đặt dựa trên thuật toán mạng nơ-ron perceptron một lớp để huấn luyện, nhận
dạng 18 chữ cái từ A đến Y và 10 chữ số từ 0 đến 9 và bộ dữ liệu mẫu gồm 200 file
ảnh dùng để kiểm thử nhận dạng. Đây là các ký tự thƣờng đƣợc dùng trong việc cấp
phát mã số trên thẻ BHYT dùng trong việc khám chữa bệnh tại các cơ sở y tế. Dựa
trên kết quả nhận dạng đƣợc từ chƣơng trình, ngƣời ta có thể dùng truy xuất dữ liệu
và quản lý thẻ BHYT đạt hiệu quả qua đó nâng cao hiệu suất trong quản lý và đồng
thời theo dõi xuyên suốt quá trình khám chữa bệnh cho bệnh nhân.
Cuối cùng là phần kết luận và hƣớng nghiên cứu phát triển của luận văn.


4

CHƢƠNG 1
TỔNG QUAN VỀ NHẬN DẠNG CHỮ QUANG HỌC
Chƣơng này giới thiệu khái quát về nhận dạng chữ quang học, mơ hình nhận
dạng ký tự tổng qt, các khái niệm cơ bản về xử lý ảnh và một số kỹ thuật, phƣơng
pháp nhận dạng chữ áp dụng trong lĩnh vực nhận dạng.
1.1. GIỚI THIỆU CHUNG
Nhận dạng chữ là lĩnh vực đƣợc nhiều nhà nghiên cứu quan tâm và cho đến
nay lĩnh vực này cũng đã đạt đƣợc nhiều thành tựu lớn lao cả về mặt lý thuyết lẫn
ứng dụng thực tế. Lĩnh vực nhận dạng chữ đƣợc chia làm hai loại: nhận dạng chữ in
và nhận dạng chữ viết tay, đƣợc gọi chung là nhận dạng chữ quang học hay còn gọi
là nhận dạng ký tự quang học (OCR). Nhận dạng OCR, dùng các kỹ thuật quang

học chẳng hạn nhƣ gƣơng và ống kính và nhận dạng ký tự số thì sử dụng máy qt
(scanner) và các thuật tốn máy tính, lúc ban đầu đƣợc xem xét nhƣ hai lĩnh vực
khác nhau. Nhƣng do có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực
sự, vì vậy thuật ngữ nhận dạng ký tự quang học đƣợc mở rộng và bao gồm luôn ý
nghĩa nhận dạng ký tự số. Nó đƣợc ứng dụng trong cơng tác qt và lƣu trữ các tài
liệu cũ, đẩy nhanh việc nhập dữ liệu vào máy với ít lỗi hơn.
Hiện nay bài tốn nhận dạng vẫn cịn nhiều vấn đề chƣa đƣợc giải quyết một
cách triệt để, nhƣ vấn đề về tốc độ xử lý, độ chính xác của tách từ, hay độ chính xác
của nhận dạng. Mặt khác, các kiến thức cần thiết để nghiên cứu về lĩnh vực nhận
dạng ký tự tƣơng đối rộng, có liên quan đến nhiều lĩnh vực khác nhau nhƣ [5]:
- Xử lý ảnh (Image processing): Các kỹ thuật xử lý ảnh đƣợc sử dụng trong
các giai đoạn tiền xử lý, tách chữ và trích chọn đặc trƣng. Chẳng hạn nhƣ các thuật
tốn khử nhiễu, tìm xƣơng, phát hiện biên, phân vùng ảnh...
- Học máy (Machine learning): đƣợc sử dụng trong giai đoạn huấn luyện và
nhận dạng, chẳng hạn nhƣ các mạng nơ-ron nhân tạo, SVM….
- Lý thuyết nhận dạng (Pattern recognition): sử dụng các phƣơng pháp luận
phân lớp sử dụng trong công đoạn huấn luyện và nhận dạng.


5

- Xác suất thống kê và toán ứng dụng: lý thuyết xác suất đóng vai trị rất
quan trọng trong các phƣơng pháp phân lớp thống kê nhƣ mơ hình Markov ẩn,
phƣơng pháp k-láng giềng gần nhất,.v.v.
- Ngôn ngữ học và ngơn ngữ học tính tốn (Linguistic and Computational
Linguistic): Các kiến thức về ngữ pháp đóng vai trị quan trọng trong cơng
đoạn hậu xử lý, nâng cao độ chính xác cho các hệ thống nhận dạng.
1.2. MƠ HÌNH NHẬN DẠNG CHỮ TỔNG QUÁT
Nhận dạng [2] là quá trình phân loại các đối tƣợng đƣợc biểu diễn theo một
mơ hình nào đó và gán cho chúng một lớp (gán cho đối tƣợng một tên gọi) dựa theo

những quy luật và các mẫu chuẩn. Quá trình nhận dạng dựa vào những mẫu học biết
trƣớc gọi là nhận dạng có giám sát (supervised learning) trong trƣờng hợp ngƣợc lại
gọi là nhận dạng khơng có giám sát (unsupervised learning).
Mơ hình nhận dạng chữ tổng qt gồm 5 khối cơng việc chính đƣợc mơ tả
một cách tổng quát trên sơ đồ hình 1.1 và đƣợc chia thành các bƣớc cơ bản sau:

Ảnh văn bản
quét vào

Tiền xử lý

Tách chữ

Trích chọn
đặc trƣng

Kết quả nhận
dạng đƣợc

Hậu xử lý

Huấn luyện và
nhận dạng

Hình 1.1. Sơ đồ tổng quát của một hệ thống nhận dạng chữ
1.2.1. Tiền xử lý [5]
Giai đoạn này góp phần làm tăng độ chính xác phân lớp của hệ thống nhận
dạng, tuy nhiên nó cũng làm cho tốc độ nhận dạng của hệ thống chậm lại. Vì vậy,



6

tùy thuộc vào chất lƣợng ảnh quét vào để chọn một hoặc một vài chức năng trong
khối này. Nếu cần ƣu tiên tốc độ xử lý và chất lƣợng của máy qt tốt thì có thể bỏ
qua giai đoạn này. Khối tiền xử lý bao gồm một số chức năng: Nhị phân hóa ảnh,
lọc nhiễu, chuẩn hóa kích thƣớc ảnh, điều chỉnh độ nghiên văn bản...
1.2.1.1. Nhị phân hóa ảnh
Nhị phân hóa ảnh [5] là một kỹ thuật chuyển ảnh đa cấp xám sang ảnh nhị
phân. Trong bất kỳ bài tốn phân tích hoặc nâng cao chất lƣợng ảnh nào, nó cũng
cần thiết để xác định các đối tƣợng quan trọng. Nhị phân hóa ảnh phân chia ảnh
thành 2 phần: phần nền và phần chữ. Hầu hết các phƣơng pháp nhị phân hóa ảnh
hiện nay đều lựa chọn một ngƣỡng thích hợp theo cƣờng độ sáng của ảnh và sau đó
chuyển tất cả các giá trị độ sáng lớn hơn ngƣỡng đó thành một giá trị độ sáng (ví
dụ“trắng”) và tất cả các giá trị bé hơn ngƣỡng thành một giá trị độ sáng khác
(“đen”).

Hình 1.2. Nhị phân hóa ảnh
1.2.1.2. Khử nhiễu
Nhiễu [5] là một tập các điểm sáng thừa trên ảnh. Khử nhiễu là một vấn đề
thƣờng gặp trong nhận dạng, nhiễu có nhiều loại (nhiễu đốm, nhiễu vệt, nhiễu đứt
nét...).

Hình 1.3. Nhiễu đốm và nhiễu vệt
Để khử các nhiễu đốm (các nhiễu với kích thƣớc nhỏ), có thể sử dụng các
phƣơng pháp lọc: lọc trung bình, lọc trung vị.... Tuy nhiên, với các nhiễu vệt (hoặc


7

các nhiễu có kích thƣớc lớn) thì sử dụng phƣơng pháp khử các vùng liên thơng nhỏ

tỏ ra có hiệu quả hơn.
1.2.1.3. Chuẩn hóa kích thước ảnh
Việc chuẩn hóa kích thƣớc ảnh [5] dựa trên việc xác định trọng tâm ảnh, sau
đó xác định khoảng cách lớn nhất từ tâm ảnh đến các cạnh trên, dƣới, trái, phải của
hình chữ nhật bao quanh ảnh. Thông qua khoảng cách lớn nhất đó, có thể xác định
đƣợc một tỷ lệ co, giãn của ảnh gốc so với kích thƣớc đã xác định, từ đó hiệu chỉnh
kích thƣớc ảnh theo tỷ lệ co, giãn này. Nhƣ vậy, thuật tốn chuẩn hóa kích thƣớc
ảnh ln ln đảm bảo đƣợc tính cân bằng khi co giãn ảnh, ảnh sẽ khơng bị biến
dạng hoặc bị lệch.

Hình 1.4. Chuẩn hóa kích thước ảnh
1.2.1.4. Điều chỉnh độ nghiêng của ảnh văn bản
Do ảnh văn bản quét vào không cẩn thận hoặc do sự cố in ấn, các hàng chữ
bị lệch so với lề chuẩn một góc  , điều này gây khó khăn cho cơng đoạn tách chữ,
đơi khi không thể tách đƣợc. Trong những trƣờng hợp nhƣ vậy, phải tính lại tọa độ
điểm ảnh của các chữ bị sai lệch. Có nhiều kỹ thuật để điều chỉnh độ nghiêng, kỹ
thuật phổ biến nhất dựa trên cơ sở biểu đồ chiếu (projection profile) của ảnh tài liệu;
một số kỹ thuật dựa trên cơ sở các phép biến đổi Hough và Fourier [12]; một số kỹ
thuật hiệu chỉnh độ nghiêng khác.


8

Hình 1.5. Hiệu chỉnh độ nghiêng của ảnh văn bản
1.2.2. Khối tách chữ [5]
Khối này có nhiệm vụ tách từng ký tự ra khỏi ảnh văn bản. Chỉ khi nào ảnh
văn bản đƣợc tách và cô lập đúng từng ký tự đơn ra khỏi tổng thể ảnh văn bản thì hệ
thống mới có thể nhận dạng đúng ký tự đó. Sau đây là một số phƣơng pháp tách chữ
thông dụng:
1.2.2.1. Tách chữ theo chiều nằm ngang và thẳng đứng [5]

Phƣơng pháp này thƣờng áp dụng cho chữ in với kích thƣớc và kiểu chữ cố
định, phải tuân theo một số quy định in ấn, các chữ phải nằm gọn trong một khung
nên việc cơ lập một ký tự đơn có thể đồng nhất với việc tìm ra khung bao của chữ
đó tại vị trí của nó trong văn bản. Tách chữ theo chiều nằm ngang và thẳng đứng là
tìm một hình chữ nhật có cạnh thẳng đứng và nằm ngang chứa trọn một ký tự ở bên
trong.
1.2.2.2. Tách chữ theo lược đồ xám
Lƣợc đồ mức xám (histogram) [2] là một hàm cung cấp tần suất xuất hiện
của mỗi mức xám (gray-level) trong ảnh. Histogram cung cấp rất nhiều thông tin về
phân bố mức xám của ảnh và là công cụ khá hữu hiệu dùng trong nhiều công đoạn
của xử lý ảnh.
1.2.3. Trích chọn đặc trƣng
Trích chọn đặc trƣng [5], đóng vai trò cực kỳ quan trọng trong một hệ thống
nhận dạng. Trong trƣờng hợp đơn giản nhất, ảnh đa cấp xám hoặc ảnh nhị phân
đƣợc sử dụng cho việc nhận dạng. Tuy nhiên, trong hầu hết các hệ nhận dạng, để


9

giảm độ phức tạp và tăng độ chính xác của các thuật tốn phân lớp thì địi hỏi các
đặc trƣng đƣợc trích chọn phải rút gọn lại càng nhỏ càng tốt nhƣng vẫn phải đảm
bảo đƣợc thông tin của ký tự. Với mục tiêu này, một tập các đặc trƣng đƣợc trích
chọn cho mỗi lớp sao cho có thể phân biệt đƣợc với các lớp khác. Có rất nhiều
phƣơng pháp trích chọn đặc trƣng cho ảnh văn bản, có thể gom lại thành ba nhóm
chính sau [5]:
1.2.3.1. Biến đổi tồn cục và khai triển chuỗi
Một tín hiệu liên tục thƣờng chứa nhiều thơng tin và chúng có thể sử dụng
làm các đặc trƣng cho mục đích phân lớp. Các đặc trƣng đƣợc trích chọn cũng có
thể đúng đối với việc xấp xỉ các tín hiệu liên tục thành các tín hiệu rời rạc. Một cách
để biểu diễn một tín hiệu là sử dụng một tổ hợp tuyến tính của một dãy các hàm đơn

giản hơn. Các hệ số của tổ hợp tuyến tính cung cấp một tri thức giải mã vừa đủ,
chẳng hạn nhƣ các phép biến đổi hoặc khai triển chuỗi. Một số biến dạng khác nhƣ
các phép dịch chuyển và phép quay là bất biến dƣới các phép biến đổi tồn cục và
khai triển chuỗi. Điển hình là phƣơng pháp biến đổi Fourier, biến đổi Wavelet,
phƣơng pháp mô men…
1.2.3.2. Đặc trưng thống kê
Các đặc trƣng thống kê của ảnh văn bản bảo toàn các kiểu biến đổi đa dạng
về hình dáng của chữ. Mặc dù các kiểu đặc trƣng này khơng thể xây dựng lại ảnh
gốc, nhƣng nó đƣợc sử dụng để thu nhỏ số chiều của tập đặc trƣng nhằm tăng tốc độ
và giảm thiểu độ phức tạp tính tốn. Một số phƣơng pháp đặc trƣng thƣờng dùng để
biểu diễn ảnh nhƣ: phân vùng (zoning), tính các giao điểm và khoảng cách, các
phép chiếu, đặc trƣng hƣớng…
1.2.3.3. Đặc trưng hình học và hình thái
Do các tính chất cục bộ và toàn cục khác nhau của các ký tự có thể đƣợc biểu
diễn bằng các đặc trƣng hình học và hình thái. Các kiểu đặc trƣng này cũng có thể
giải mã một số tri thức về cấu trúc của đối tƣợng ảnh hoặc có thể cung cấp một số
tri thức nhƣ sắp xếp các thành phần để tạo ra đối tƣợng, phổ biến là các loại đặc


10

trƣng nhƣ: trích chọn và đếm các cấu trúc hình thái, đo và xấp xỉ các tính chất hình
học, đồ thị và cây…

Trích chọn đặc trƣng hầu hết đƣợc thực hiện trên ảnh nhị phân. Tuy nhiên,
việc nhị phân hóa ảnh đa cấp xám có thể xóa đi một số thông tin quan trọng của
các ký tự. Trong trƣờng hợp này, cũng có một số cơng trình nghiên cứu để trích
chọn các đặc trƣng trực tiếp từ các ảnh đa cấp xám. Cuối cùng, mục đích chính
của việc trích chọn đặc trƣng là lựa chọn một tập đặc trƣng phục vụ cho việc
phân lớp sao cho hệ thống nhận dạng đạt độ chính xác cao nhất với số lƣợng

phần tử đƣợc trích chọn ít nhất.
1.2.4. Huấn luyện và nhận dạng
Đối với bài toán nhận dạng chữ in hoặc chữ viết tay, quá trình nhận dạng
thƣờng đƣợc thực hiện lần lƣợt theo các bƣớc từ phân vùng ảnh đến tách dòng,
tách từng ô và tách ký tự ra khỏi từng ô. Do các ký tự trong một ô hầu hết là rời
nhau nên việc tách ký tự là khả thi.
Quá trình nhận dạng ký tự có thể hình dung nhƣ các thao tác gán nhãn cho
đối tƣợng dựa trên những tri thức đã học đƣợc, nói cách khác đây là thao tác tìm
kiếm một lớp mẫu phù hợp nhất với đối tƣợng đầu vào. Đây chính là giai đoạn
quan trọng nhất, giai đoạn này quyết định độ chính xác của hệ thống nhận dạng.
Có nhiều phƣơng pháp khác nhau đƣợc áp dụng cho các hệ thống nhận dạng chữ
viết. Các phƣơng pháp này sẽ đƣợc trình bày trong mục 1.4.
1.2.5. Hậu xử lý
Đây là cơng đoạn cuối cùng của q trình nhận dạng. Có thể hiểu hậu
xử lý là bƣớc ghép nối các kí tự đã nhận dạng thành các từ, các câu, các đoạn
văn hoặc dãy các ký tự nhằm để thực hiện một cơng việc nào đó hoặc đƣa ra
một kết luận.


11

1.3. CÁC KHÁI NIỆM CƠ BẢN VÀ MỘT SỐ KỸ THUẬT XỬ LÝ ẢNH
TRONG NHẬN DẠNG
1.3.1. Các khái niệm cơ bản
1.3.1.1. Định nghĩa ảnh số
Ảnh số [1] là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh
gần với ảnh thật.
1.3.1.2. Điểm ảnh (Picture Element)
Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về khơng gian và độ sáng. Để xử
lý bằng máy tính (số), ảnh cần phải đƣợc số hoá. Số hoá ảnh là sự biến đổi gần đúng

một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (khơng gian) và
độ sáng (mức xám). Khoảng cách giữa điểm ảnh đó đƣợc thiết lập sao cho mắt
ngƣời khơng phân biệt đƣợc ranh giới giữa chúng. Mỗi một điểm nhƣ vậy gọi là
điểm ảnh (PEL:Picture Element) hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai
chiều, mỗi Pixel ứng với cặp tọa độ (x,y).
Nhƣ vậy, điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x,y) với độ
xám hoặc màu nhất định. Kích thƣớc và khoảng cách giữa các điểm ảnh đó đƣợc
chọn thích hợp sao cho mắt ngƣời cảm nhận sự liên tục về không gian và mức xám
(hoặc màu) của ảnh số gần nhƣ ảnh thật. Mỗi phần tử trong ma trận đƣợc gọi là một
phần tử ảnh, có thể tìm thấy trong [1]
1.3.1.3. Độ phân giải của ảnh
Độ phân giải (Resolution) của ảnh [1] là mật độ điểm ảnh đƣợc ấn định trên
một ảnh số đƣợc hiển thị. Theo định nghĩa ở trên thì mỗi Pixel gồm một cặp toạ độ
(x,y) và màu. Độ phân giải của ảnh chính là tích số của giá trị lớn nhất của x với giá
trị lớn nhất của y. Ví dụ nhƣ màn hình máy tính có nhiều loại với độ phân giải khác
nhau: màn hình CGA có độ phân giải 320 x 200; màn hình VGA độ phân giải 1280
x 800. Rõ ràng màn hình có độ phân giải càng cao thì ta có cảm giác nó càng „mịn‟
hơn so với loại có độ phân giải thấp hơn.


12

1.3.1.4. Mức xám của ảnh [1]
Mức xám là kết quả sự mã hoá tƣơng ứng một cƣờng độ sáng của mỗi điểm
ảnh với một giá trị số – kết quả của q trình lƣợng tử hố
Các thang giá trị mức xám thơng thƣờng: 16,32,64,128,256. Trong đó mức 256
đƣợc dùng rất phổ biến do máy tính dùng 1 byte (8 bit) để biểu diễn mức xám, mà mức
xám lại dùng 1 byte để biểu diễn: 28=256 mức, tức là từ mức 0 đến mức 255.
Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với mức
xám ở các điểm ảnh có thể khác nhau.

Ảnh nhị phân: ảnh chỉ có 2 mức đen, trắng phân biệt tức dùng 1 bit mô tả 21
mức khác nhau hay mỗi điểm ảnh nhị phân chỉ có 1 trong 2 giá trị hoặc là 1 hoặc là 0.
Ảnh màu: với mỗi điểm ảnh thì ngƣời ta dùng 3 byte để mơ tả mức màu
đƣợc tạo nên từ 3 màu cơ bản: đỏ (red), xanh đậm (blue) và xanh lục (green), do đó
có 28*3 =224=16,7 triệu màu.
1.3.1.5. Một số định dạng ảnh [2]
Ảnh BMP (Bitmap) là ảnh đƣợc mô tả bởi một ma trận các giá trị số xác định
màu và bảng màu của các điểm ảnh tƣơng ứng khi hiển thị. Ƣu điểm của ảnh Bitmap là
tốc độ vẽ và tốc độ xử lý nhanh. Nhƣợc điểm của nó là kích thƣớc rất lớn.
Ảnh JPEG (Joint Photographic Experts Group) là một định dạng ảnh đƣợc hỗ
trợ bởi nhiều trình duyệt web. Ảnh JPEG đƣợc phát triển để nén dung lƣợng và lƣu trữ
ảnh chụp, và đƣợc sử dụng tốt nhất cho đồ họa có nhiều màu sắc, ví dụ nhƣ là ảnh chụp
đƣợc scan. File Ảnh JPEG là ảnh Bitmap đã đƣợc nén lại.
Ảnh GIF (Graphics Interchange Format) đƣợc phát triển dành cho những ảnh có
tính chất thay đổi. Nó đƣợc sử dụng tốt nhất cho đồ họa có ít màu, ví dụ nhƣ là ảnh
hoạt hình hoặc là những bức vẽ với nhiều đƣờng thẳng. File ảnh GIF là những ảnh
Bitmap đƣợc nén lại. Có hai sự khác nhau cơ bản giữa ảnh GIF và ảnh JPEG:


13

 Ảnh GIF nén lại theo cách giữ nguyên toàn bộ dữ liệu ảnh trong khi ảnh
JPEG nén lại nhƣng làm mất một số dữ liệu trong ảnh.
 Ảnh GIF bị giới hạn bởi số màu nhiều nhất là 256 trong khi ảnh JPEG
không giới hạn số màu mà chúng sử dụng.

Ảnh WMF (Windows Metafiles) là một tập hợp các lệnh GDI dùng để mô
tả ảnh và nội dung ảnh. Có hai ƣu điểm khi sử dụng ảnh WMF: kích thƣớc file
WMF nhỏ và ít phụ thuộc vào thiết bị hiển thị hơn so với ảnh Bitmap.
1.3.2. Một số kỹ thuật trong xử lý ảnh

1.3.2.1. Xử lý histogram
Histogram là một đồ thị hiển thị sự phân bố tần số của một tập dữ liệu.
Trong xử lý ảnh, histogram còn đƣợc gọi là lƣợc đồ xám [2] của một ảnh, là một
hàm cung cấp tần suất xuất hiện của mỗi mức xám.
Lƣợc đồ xám đƣợc biểu diễn trong một hệ tọa độ vng góc (x,y). Trong
hệ tọa độ này, trục hồnh biểu diễn số mức xám từ 0 đến L, L là mức xám cực
đại. Trục tung biểu diễn số điểm ảnh cho một mức xám (số lƣợng các điểm ảnh
có cùng mức xám).
Lƣợc đồ xám cung cấp rất nhiều thông tin về phân bố mức xám của ảnh.
- Nếu ảnh đậm, lƣợc đồ xám nằm bên trái (mức xám thấp).
- Nếu ảnh sang, lƣợc đồ xám nằm bên phải (mức xám cao).
Lƣợc đồ xám là công cụ khá hữu hiệu dùng trong nhiều công đoạn của xử
lý ảnh. Từ lƣợc đồ xám ta có thể suy diễn ra các tính chất quan trọng của ảnh
nhờ giá trị xám trung bình hoặc độ tản mạn. Qua cách tác động lên điểm ảnh, sự
phân bố của biểu đồ cột đƣợc thay đổi theo mục đích. Dựa vào lƣợc đồ xám
chúng ta có thể xác định đƣợc ngƣỡng thích hợp cho q trình phân đoạn hoặc
tính đựợc các đại lƣợng đặc trƣng của một ảnh.


14

Hình 1.6. Lược đồ xám của ảnh
1.3.2.2. Cải thiện ảnh dùng toán tử điểm
Toán tử điểm [1] là toán tử khơng bộ nhớ, ở đó một mức xám u  [0,N] đƣợc
ánh xạ sang một mức xám khác v  [0,N]: v=f(u). Ánh xạ f tùy theo các ứng dụng
khác nhau có dạng khác nhau và đƣợc liệt kê nhƣ sau:
1.3.2.3. Tăng độ tương phản (Streching Contrast)
Ảnh số là tập hợp các điểm, mà mỗi điểm có giá trị độ sáng khác nhau. Thức
tế chỉ ra rằng, hai đối tƣợng có cùng độ sáng nhƣng đặt trên hai nền khác nhau sẽ
cho cảm nhận khác nhau. Nhƣ vậy, độ tƣơng phản biểu diễn sự thay đổi đọ sáng của

đối tƣợng so với nền. Hay, độ tƣơng phản là độ nổi của điểm ảnh hay vùng ảnh so
với nền, đƣợc tìm thấy trong [1].
Đối với những ảnh có độ tƣơng phản thấp, thƣờng là do điều kiện sáng
không đủ hay không đều. Để điều chỉnh lại độ tƣơng phản của ảnh, ta điều chỉnh lại
biên độ trên tồn dải hay có giới hạn bằng cách biến đổi tuyến tính biên độ đầu vào
(cũng có thể giới hạn bằng phép biến đổi phi tuyến).
Hàm biến đổi tuyến tính đƣợc cho nhƣ sau:
( )

{

(
(

)
)

(1.1)


15

Chú ý:
 α = β = γ , ảnh kết quả trùng với ảnh gốc.
 α, β, γ >1, giãn độ tƣơng phản.
 α, β, γ <1,co độ tƣơng phản.
Khi dùng hàm tuyến tính các đọ dốc, α, β, γ phải chọn lớn hơn một trong miền
cần giãn. Các tham số a, b (các cận) có thể chọn khi xem xét lƣợc đồ xám của ảnh.

Hình 1.7. Giãn độ tương phản

1.3.2.4. Tách nhiễu và phân ngưỡng
Tách nhiễu [1] là trƣờng hợp đặc biệt của giãn độ tƣơng phản khi hệ số góc α
= γ = 0. Tách nhiễu đƣợc ứng dụng một cách hữu hiệu để giảm nhiễu khi biết tín
hiệu vào nằm trên khoảng [a,b].
Phân ngƣỡng là trƣờng hợp đặc biệt của tách nhiễu khi a = b = const và rõ
ràng trong trƣờng hợp này, ảnh đầu ra là ảnh nhị phân (vì chỉ có hai mức). Phân
ngƣỡng hay dùng trong kỹ thuật in ảnh 2 màu vì ảnh gần nhị phân không thể cho ra
ảnh nhị phân khi quét ảnh bởi có sự xuất hiện của nhiễu do bộ cảm biến và sự biến
đổi của nền.


16

Ví dụ nhƣ trƣờng hợp của ảnh vân tay
Ánh xạ f trong trƣờng hợp tách nhiễu đƣợc cho nhƣ sau:
( )

{

(1.2)

Khi a = b = C = const gọi là phân ngƣỡng, lúc này ánh xạ f:
( )

{

(1.3)

Hình 1.8. Tách nhiễu và phân ngưỡng
1.3.2.5. Cải thiện ảnh dùng toán tử khơng gian

Cải thiện ảnh [1] là làm cho ảnh có chất lƣợng tốt hơn theo ý đồ sử dụng.
Thƣờng là ảnh thu nhận có nhiễu cần phải loại bỏ nhiễu hay ảnh không sắc nét bị
mờ hoặc cần làm tõ các chi tiết nhƣ đƣờng biên ảnh. Các toán tử không gian dùng
trong kỹ thuật tăng cƣờng ảnh đƣợc phân nhóm theo cơng dụng: làm trơn nhiễu, nổi
biên.
Để làm trơn nhiễu hay khử nhiễu, ngƣời ta sử dụng các bộ lọc tuyến tính (lọc
trung bình, thơng thấp) hoặc lọc phi tuyến (trung vị, giả trung vị, lọc đồng hình).
Từ bản chất của nhiễu (thƣờng tƣơng ứng với tần số cao) và từ cơ sở lý thuyết lọc
là: bộ lọc chỉ cho tín hiệu có tần số nào đó thơng qua do đó, để lọc nhiễu ngƣời ta
thƣờng dùng lọc thơng thấp (theo quan điểm tần số không gian) hay lấy tổ hợp


×