Tải bản đầy đủ (.pdf) (100 trang)

Ứng dụng mạng noron nhận dạng chữ viết

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.7 MB, 100 trang )

Mục lục

ọc viên: Lê Minh Đức

Luận văn tốt nghiệp cao học

-I-


Mục lục

ọc viên: Lê Minh Đức

Luận văn tốt nghiệp cao học

-II-


Mục lục

Học viên: Lê Minh Đức

Luận văn tốt nghiệp cao học

-III-


Mục lục

Luận văn tốt nghiệp cao học


LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá
nhân, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Nguyễn Vĩnh An.
Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này trung
thực và chưa từng được công bố dưới bất cứ hình thức nào.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên
Lê Minh Đức

Học viên: Lê Minh Đức

-IV-


Mục lục

Luận văn tốt nghiệp cao học

MỤC LỤC
Mục lục................................................................................................................... I
Danh mục hình vẽ ............................................................................................... IX
Danh mục bảng ................................................................................................... XI
Danh mục các tiếng anh viết tắt ........................................................................ XII
Mở đầu ................................................................................................................... 0
Chương I: Tổng quan quá trình xử lý ảnh trong nhận dạng mẫu ảnh ............... 3
1.1.

Giới thiệu chung........................................................................................ 3

1.1.1. Xử lý ảnh và ứng dụng........................................................................... 3

1.1.2. Các bước của quá trình nhận dạng và xử lý ảnh ..................................... 3
1.1.2.1. Xử lý ảnh (Image processing) ..................................................... 3
1.1.2.2. Nhận dạng mẫu ảnh (Image Patten Recognition)......................... 5
1.2. Các vấn đề cơ bản trong xử lý ảnh ................................................................ 5
1.2.1. Những khái niệm liên quan .................................................................... 5
1.2.1.1. Điểm ảnh (pixel element) .......................................................... 5
1.2.1.2. Độ phân giải của ảnh ................................................................. 6
1.2.1.3. Mức xám của ảnh (Gray level) .................................................. 6
1.2.1.4. Ảnh số....................................................................................... 7
1.2.1.5. Các mối quan hệ cơ bản giữa các điểm ảnh ............................... 8
1.2.1.6. Biểu đồ sắc thái hình ảnh (Histogram)....................................... 9
1.2.2.

Biểu diễn ảnh ................................................................................... 10

1.2.2.1. Biểu diễn bằng mã loạt dài ...................................................... 10
1.2.2.2. Biểu diễn bằng mã xích ........................................................... 11
1.2.2.3. Biểu diễn bằng mã tứ phân ...................................................... 11
1.2.3. Nâng cao chất lượng ảnh...................................................................... 12
1.2.3.1. Nâng cao độ tương phản. ......................................................... 12
1.2.3.2. Lọc nhiễu. ............................................................................... 13
1.2.4. Trích chọn đường biên ......................................................................... 16
1.2.4.1. Toán tử Gradient ..................................................................... 16

Học viên: Lê Minh Đức

-V-


Mục lục


Luận văn tốt nghiệp cao học
1.2.4.2. Kỹ thuật Laplace ..................................................................... 19
1.2.4.3. Trích chọn đường biên theo phương pháp Canny .................... 20

1.2.5.

Phân vùng ảnh.................................................................................. 22

1.2.5.1. Phân vùng dựa vào lấy ngưỡng ................................................ 23
1.2.5.2. Phân vùng dựa vào đường biên ................................................ 23
1.2.5.3. Phân vùng dựa theo miền/vùng ................................................ 24
1.2.6.

Nhận dạng ảnh ................................................................................. 25

Chương II: Mạng nơron.................................................................................... 26
2.1 Giới thiệu chung về mạng nơ-ron ................................................................. 26
2.1.1 Mạng nơron sinh học (Biological Neural Network).............................. 26
2.1.2 Mạng nơron nhân tạo (Artificial Neural Network) ................................ 28
2.1.2.1. Nơron nhân tạo ........................................................................ 28
2.1.2.2. Mạng nơron nhân tạo ............................................................... 28
2.1.3 Lịch sử phát triển của mạng nơron nhân tạo ......................................... 30
2.1.4. Phạm vi ứng dụng của mạng nơron ...................................................... 31
2.1.4.1. Các ứng dụng của mạng nơron nhân tạo ................................... 31
2.1.4.2. Ưu nhược điểm của mạng nơron ............................................... 32
2.2. Mô hình toán học và kiến trúc mạng nơron. ................................................ 32
2.2.1 Mô hình toán học của nơron (Neuron Model) ....................................... 32
2.2.1.1. Mô hình toán học. .................................................................... 32
2.2.1.2. Hàm hoạt hoá ........................................................................... 34

2.2.2 Kiến trúc mạng nơron (Network Architecture) ...................................... 34
2.2.2.1. Kiến trúc mạng một lớp ........................................................... 35
2.2.2.2. Kiến trúc mạng đa lớp.............................................................. 37
2.2.2.3. Kiến trúc mạng hồi qui ............................................................ 39
2.2.2.4. Kiến trúc mạng truyền thẳng : .................................................. 37
2.2.2.5. Kiến trúc mạng tự tổ chức : ...................................................... 39
2.2.3 Một số loại mạng nơron nhân tạo .......................................................... 41
2.3 Sử dụng mạng nơron nhân tạo ...................................................................... 41

Học viên: Lê Minh Đức

-VI-


Mục lục

Luận văn tốt nghiệp cao học

2.3.1 Hoạt động của một mạng nơron ............................................................ 41
2.3.2 Huấn luyện mạng (Training) : ............................................................... 42
2.3.2.1. Huấn luyện không được giám sát Huấn luyện được giám sát : .. 43
2.3.2.2. Huấn luyện được giám sát ......................................................... 42
2.3.3 Một số luật học ..................................................................................... 44
2.3.3.1. Luật học Perceptron .................................................................. 44
2.3.3.2. Luật học Hebbian ...................................................................... 44
2.3.3.3. Luật học lan truyền ngược (back-propagation): ......................... 45
2.3.3.4. Luật học cạnh tranh (competitive rule):..................................... 45
2.4. Nhận dạng với mạng nơron ......................................................................... 46
2.4.1. Mạng Perceptron.................................................................................. 46
2.4.1.1 Kiến trúc mạng .......................................................................... 46

2.4.1.2. Huấn luyện mạng ..................................................................... 47
2.4.1.3. Khả năng ứng dụng cho nhận dạng ảnh .................................... 50
2.4.2. Mạng Perceptron đa lớp ...................................................................... 51
2.4.2.1. Kiến trúc mạng ........................................................................ 51
2.4.2.2. Huấn luyện mạng ..................................................................... 52
2.4.2.3. Khả năng ứng dụng cho nhận dạng ảnh ..................................... 57
Chương III: Chương trình nhận dạng mẫu ảnh xử dụng mạng nơron .......... 60
3.1. Giới thiệu .................................................................................................... 60
3.2. Chương trình nhận dạng kí tự ...................................................................... 62
3.2.1. Xử lý dữ liệu (phân tích ảnh). .............................................................. 62
3.2.1.1. Thu nhận và tiền xử lý ảnh ........................................................ 62
3.2.1.2. Chỉnh góc nghiêng. ................................................................... 63
3.2.1.3. Tách dòng kí tự ......................................................................... 64
3.2.1.4. Tách kí tự ................................................................................. 65
3.2.1.5. Tìm giới hạn kí tự. .................................................................... 66
3.2.2. Chuẩn hóa mẫu ảnh nhận dạng. ........................................................... 67
3.2.3. Xây dựng mạng nơron nhận dạng kí tự ................................................ 68

Học viên: Lê Minh Đức

-VII-


Mục lục

Luận văn tốt nghiệp cao học
3.2.3.1. Cấu hình mạng nơron................................................................ 68
3.2.3.2. Tạo tập ký tự mẫu và phương pháp huấn luyện mạng. .............. 70
3.2.3.3. Nhận dạng kí tự ........................................................................ 72


3.3. Chương trình mô phỏng và thực nghiệm ..................................................... 74
3.3.1. Các chức năng của chương trình. ......................................................... 74
3.3.2. Thực nghiệm. ....................................................................................... 75
3.3.2.1. Thực nghiệm quá trình tính giá trị một số tham số đầu vào ....... 75
3.3.2.2. Thực nghiệm huấn luyện mạng ................................................. 77
3.3.3. Kết quả nhận dạng. .............................................................................. 79
3.3.4. Kết luận chương. ................................................................................. 82
Kết luận: ............................................................................................................. 84
Tài liệu tham khảo: ............................................................................................ 86

Học viên: Lê Minh Đức

-VIII-


Mục lục

Luận văn tốt nghiệp cao học

DANH MỤC HÌNH VẼ
Hình 1-1. Quá trình xử lý ảnh ................................................................................ 4
Hình 1-2. Các giai đoạn chính trong xử lý ảnh ........................................................ 4
Hình 1-3. Ví dụ ảnh số 2D ..................................................................................... 6
Hình 1-4. Ví dụ về ảnh đen trắng ............................................................................ 7
Hình 1-5. Ví dụ ảnh xám ........................................................................................ 7
Hình 1-6. Ví dụ về ảnh màu .................................................................................... 8
Hình 1-7. Lân cận của một điểm ảnh ..................................................................... 9
Hình 1-8. Minh họa biểu đồ histogram................................................................. 10
Hình 1-9. Minh họa ảnh biểu diễn bằng mã loạt dài. ............................................ 11
Hình 1-10. Minh họa biểu diễn bằng mã xích ....................................................... 11

Hình 1-11. Ví dụ tăng độ tương phản của ảnh ....................................................... 13
Hình 1-12. Ví dụ lọc nhiễu bằng bộ lọc trung vị ................................................... 15
Hình 1-13. Sơ đồ khối lọc đồng hình .................................................................... 16
Hình 1-14. Mặt nạ 8 hướng ................................................................................... 18
Hình 1-15. Ví dụ trích chọn đường biên sử dụng kỹ thuật Gradient ..................... 19
Hình 1-16. Biên ảnh theo phương pháp Canny..................................................... 22
Hình 2-1. Cấu tạo của các tế bào thần kinh sinh học(nơron) ................................ 27
Hình 2-2. Mô hình nơron nhân tạo ........................................................................ 28
Hình 2-3. Cấu hình mạng nơron nhân tạo ............................................................. 29
Hình 2-4. Mô hình toán học của nơron nhân tạo ................................................... 33
Hình 2-5. Nơron 1 đầu vào với hàm hoạt hóa là hàm Hardlimit ............................ 34
Hình 2-6. Kiến trúc mạng 1 lớp ............................................................................ 35
Hình 2-7. Kiến trúc mạng truyền thẳng điển hình ................................................. 39
Hình 2-8. Khối trễ................................................................................................. 38
Hình 2-9. Kiến trúc mạng hồi quy Elman.............................................................. 38
Hình 2-10. Liên kết bên ........................................................................................ 40
Hình 2-11 Kiến trúc mạng Kohonen ..................................................................... 41
Hình 2-12. Huấn luyện được giám sát ................................................................... 43

Học viên: Lê Minh Đức

-IX-


Mục lục

Luận văn tốt nghiệp cao học

Hình 2-13. Kiến trúc mạng Perceptron.................................................................. 46
Hình 2-14. Biên quyết định trong không gian mẫu ................................................ 48

Hình 2-15. Không gian mẫu khả tách tuyến tính ................................................... 49
Hình 2-16. Không gian mẫu không khả tách tuyến tính ....................................... 50
Hình 2-17. Phân tách không gian mẫu với mạng Perceptron 2 nơron lớp ra ......... 50
Hình 2-18 Mạng Perceptron đa lớp ....................................................................... 51
Hình 2-19. Mạng MLP giải quyết bài toán hàm XOR của Minsky và Papert ........ 52
Hình 2-20 Phân lớp mẫu với mạng MLP 3 lớp..................................................... 58
Hình 3-1. Tiến trình xử lý ảnh trước khi đưa và nhận dạng ................................... 61
Hình 3-2. Minh họa biến đổi Hough phát hiện góc nghiêng .................................. 64
Hình 3-3 Quá trình tách dòng kí tự ....................................................................... 65
Hình 3-4. Quá trình tách kí tự ............................................................................... 66
Hình 3-5. Tìm giới hạn kí tự ................................................................................. 67
Hình 3-6. Sơ đồ mạng neural thiết kế ................................................................... 69
Hình 3-7. Mẫu kí tự font Arial .............................................................................. 70
Hình 3-8. Mẫu kí tự font Tahoma ......................................................................... 70
Hình 3-9. Mẫu kí tự font Times new roman .......................................................... 71
Hình 3-10. Lưu đồ quá trình huấn luyện mạng nơron ............................................ 72
Hình 3-11. Lưu đồ nhận dạng kí tự ....................................................................... 73
Hình 3-12. Giao diện chương trình nhận dạng mẫu ảnh sử.................................... 74
Hình 3-13: Ảnh đầu vào dùng để huấn luyện ....................................................... 78
Hình 3-14. File là đầu ra mong muốn................................................................... 78
Hình 3-15 : Kết quả sau khi huấn luyện ................................................................ 79
Hình 3-16. Ảnh đầu vào font Arial .......................................................................... 80
Hình 3-17. Kết quả nhận dạng mẫu ảnh font Arial ................................................ 80
Hình 3-18. Ảnh đầu vào font Tahoma ...................................................................... 81
Hình 3-19. Kết quả nhận dạng mẫu ảnh font Tahoma ........................................... 81
Hình 3-20. Ảnh đầu vào font Times new roman ....................................................... 81
Hình 3-21. Kết quả nhận dạng mẫu ảnh font Times new roman ............................ 82

Học viên: Lê Minh Đức


-X-


Mục lục

Luận văn tốt nghiệp cao học

DANH MỤC BẢNG
Bảng 2.1. Một số hàm hoạt hóa ............................................................................. 34
Bảng 3.1. Thực nghiệm tìm số lần lặp ................................................................... 75
Bảng 3.2. Thực nghiệm tìm số kí tự ....................................................................... 76
Bảng 3.3. Thực nghiệm tìm tốc độ học .................................................................. 77
Bảng 3.4. Thống kê kết quả huấn luyện: ................................................................ 79

Học viên: Lê Minh Đức

-XI-


Mục lục

Luận văn tốt nghiệp cao học

DANH MỤC CÁC TỪ TIẾNG ANH VIẾT TẮT
STT

Từ viết tắt

Từ viết tường minh


1

CCD

Charge Coupled Device

2

CGA

Color Graphic Adaptor

3

R

Red

4

G

Green

5

B

Blue


6

MIT

7

IJCNN

8

ANN

Artificial Neural Network

9

SOM

Self Organizing Neural Network

10

MLP

Multi Layer Perceptron

Massachurehs Insritute of technology
International Joint Conference out Neural Network

Học viên: Lê Minh Đức


-XII-


Mở đầu

Luận văn tốt nghiệp cao học

MỞ ĐẦU
- Lý do lựa chọn đề tài:
Mạng nơron nhân tạo (Artificial Neural Network: ANN) là sự tái tạo bằng kỹ
thuật những chức năng của hệ thần kinh cin người với vô số các nơron được liên kết
truyền thông tin với nhau qua mạng. Giống như con người, ANNs được học bởi
kinh nghiệm, lưu những kinh nghiệm đó và sử dụng trong những tình huống phù
hợp.
Trong kỹ thuật nhận dạng ký tự, các phương pháp ra quyết định trong nhận
dạng truyền thống thường được cài đặt tĩnh trong chương trình, khi muốn bổ sung
thêm các mẫu học mới phải thiết kế lại chương trình. Trong khi với mạng nơron, chỉ
cần cung cấp một tập mẫu vào ra của dữ liệu mới cho pha huấn luyện là có thể bổ
sung vào “bộ nhớ mạng” những kiểu dữ liệu mới mà không ảnh hưởng đến cấu trúc
chương trình ban đầu.
Thực tế hiện nay thì bài toán nhận dạng ký tự quang (ký tự in) đã được thực
hiện khá thành công và đã có nhiều sản phẩm thương mại trên thị trường. Ví dụ như
phần mềm VnDOCR, VietOCR,… Tuy nhiên, việc nhận dạng chữ in bằng tay, chữ
thảo bằng tay, vẫn còn là một đề tài của các nghiên cứu.
Giải pháp thường được sử dụng phổ biến cho bài toán nhận dạng ký tự này là
sử dụng các kỹ thuật liên quan đến xử lý ảnh như: dãy điểm đặc trưng, phân tích
đường biên, phân tích đường trơn, sơ đồ hình chiếu, đối sánh mẫu,… hoặc kết hợp
sử dụng mạng noron truyền thẳng trong việc quyết định nhận dạng. Tuy nhiên,
mang noron truyền thẳng lại có một nhược điểm cơ bản là không thể lưu lại các kết

quả huấn luyện của tất cả các ký tự đồng thời. Do đó để thực hiện việc nhận dạng ta
phải lưu lại kết quả huấn luyện của từng ký tự, điều này làm cho tốc độ xử lý của
chương trình chậm hơn và đặc biệt không hiệu quả khi các mẫu ký tự đầu vào thực
sự hết sức đa dạng.
Việc thực hiện thu nhận thông tin dạng ký tự có thể thực hiện theo 2 cách:
thủ công và tự động hóa. Phương pháp thủ công mất nhiều thời gian, công sức, do
vậy người ta mong muốn sử dụng phương pháp nhận dạng ký tự một cách tự động.

Học viên: Lê Minh Đức

-0-


Mở đầu

Luận văn tốt nghiệp cao học

Thông thường những ký tự này sẽ được ghi nhận lại dưới dạng hình ảnh (ảnh số)
bằng các thiết bị chụp ảnh (ví dụ: biển số xe), quét ảnh (ví dụ: tài liệu in trên giấy,
chữ viết tay,...). Bằng chương trình máy tính các ký tự này sẽ được nhận dạng một
cách tự động từ các hình ảnh thu nhận được.
Thực tế cho thấy rằng nhận dạng ký tự là một bài toán quan trọng, cốt lõi của
rất nhiều các ứng dụng trong thực tiễn như:
+ Số hóa tài liệu: lưu trữ văn bản, phân loại thư tín, thư viện,..
+ Nhận dạng biển số xe: trông giữ xe tự động, theo dõi an ninh,..
+ Nhận dạng chữ ký điện tử: sử dụng trong các giao dịch điện tử
+ Chấm thi trắc nghiệm, thống kê tự động các phiếu điều tra
+ Nhận dạng chữ viết: sử dụng trên các thiết bị cảm ứng
Do vậy, nên tôi đã lựa chọn đề tài: “Ứng dụng mạng Nơron nhận dạng chữ


viết”. Việc nghiên cứu một giải pháp nhận dạng ký tự tự động là thực sự cần thiết và có
tính khả thi cao trong thực tiễn. Nghiên cứu trích chọn đặc trưng của ký tự và áp dụng

mạng noron để nhận dạng ký tự. Kết quả nghiên cứu có thể tiếp tục phát triển thành
một module lõi khi tiến hành giải quyết các bài toán ứng dụng thực tiễn như ở trên.
Ngoài ra, giải pháp đưa ra cũng phấn đấu để đạt được một số kết quả nhất định đối
với dạng chữ viết tay. Tuy nhiên do hạn chế về mặt thời gian, cũng như độ phức tạp
của bài toán và khả năng lập trình có hạn mà trong khuôn khổ, thời lượng của luận
văn, tôi chỉ đi sâu nghiên cứu và xây dựng một chương trình mô phỏng nhận
dạng ký tự chữ in với một số font cơ bản Arial, Tahoma, Times new Romann,
Vntime.... sử dụng mạng nơron Perceptron đa lớp.
- Bố cục luận văn:
Luận văn đuợc trình bày trong 3 chương, có phần mở đầu, phần kết luận, phần
mục lục, phần tài liệu tham khảo. Các nội dung cơ bản của luận văn được trình bày
theo cấu trúc như sau:
Chương 1: Tổng quan quá trình xử lý ảnh trong nhận dạng ảnh
Trình bày khái quát về các vấn đề trong xử lý ảnh và các phương pháp xử lý
ảnh như biểu diễn ảnh, nâng cao chất lượng ảnh, trích chọn đường biên, phân vùng
Học viên: Lê Minh Đức

-1-


Mở đầu

Luận văn tốt nghiệp cao học

ảnh và nhận dạng ảnh.
Chương 2: Mạng nơron
Trình bày khái quát về mạng nơron nhân tạo, mô hình mạng nơron nhân tạo,

sử dụng mạng nơron nhân tạo, nhận dạng với mạng nơron Perceptron.
Chương 3: Mô phỏng chương trình nhận dạng chữ viết sử dụng mạng
nơron
Trình bày khái quát về xử lí ảnh kí tự, xây dựng và huấn luyện mạng nơron,
nhận dạng kí tự sử dụng mạng Perceptron đa lớp.
Trong khuôn khổ luận văn tôi đã xây dựng được chương trình nhận dạng chữ
viết với ba loại font : Arial, Tahoma và Times new roman đạt được kết quả tốt,
nhưng còn một số tồn tại cần được phát triển để đạt kết quả cao hơn.
- Phương pháp nghiên cứu.
Nghiên cứu lý thuyết: thu nhận từ internet, các tài liệu từ thầy hướng dẫn.
Thu thập tài liệu, đọc, hiểu
Tổng hợp đánh giá, phân tích những vấn đề về cơ sở khoa học, cơ sở lý luận
của lĩnh vực nghiên cứu.
Nghiên cứu lý thuyết tổng hợp và xây dựng chương trình mô phỏng
Tôi xin chân thành cảm ơn Thầy giáo, TS. Nguyễn Vĩnh An đã tận tình chỉ
dạy, hướng dẫn tôi trong suốt thời gian nghiên cứu và thực hiện luận văn. Tôi cũng
xin chân thành cảm ơn các Thầy, Cô giáo đã giảng dạy, giúp đỡ tôi trong suốt thời
gian học tập.
Xin cảm ơn các bạn bè, đồng nghiệp và gia đình đã tạo diều kiện cũng như đã
chỉ bảo tôi rất nhiều trong thời gian thực hiện luận văn này.

Học viên: Lê Minh Đức

-2-


Chương 1: Tổng quan quá trình xử lý ảnh

Luận văn tốt nghiệp cao học


CHƯƠNG I
TỔNG QUAN QUÁ TRÌNH XỬ LÝ ẢNH TRONG NHẬN
DẠNG MẪU ẢNH
1.1.

Giới thiệu chung

1.1.1. Xử lý ảnh và ứng dụng
Xử lý ảnh là ngành khoa học nghiên cứu các quá trính xử lý thông tin dạng
hình ảnh (một dạng thông tin phong phú nhất đối với con người). Xử lý ảnh là một
trong những lĩnh vực có nhiều ứng dụng trong thực tiễn như:
-

Nén và mã hóa ảnh, xử lý ảnh động … trong truyền hình số, truyền
thông.

-

Xử lý ảnh X quang, siêu âm, ảnh cắt lớp … trong y tế.

-

Xử lý các ảnh chụp vũ trụ, địa hình, lập bản đồ … trong không gian vũ
trụ.

-

Phân tích ảnh chụp địa hình phát hiện khoáng … trong khai khoáng.

-


Kỹ xảo phim ảnh, nâng cao chất lượng ảnh, chế bản ảnh chất lượng cao
…trong chế tác phim ảnh, chế bản điện tử.

-

Các hệ thống nhận dạng, máy nhìn … trong hệ thống tự động và Robot.

-

Mô phỏng không gian thực … trong giải trí.

1.1.2. Các bước của quá trình nhận dạng và xử lý ảnh
Nhận dạng và xử lý ảnh bao gồm hai giai đoạn chính.
1.1.2.1. Xử lý ảnh (Image processing)
Trong giai đoạn này, ảnh của đối tượng trong tự nhiên được thu lại thành ảnh
số (số hóa để lưu trữ và xử lý trong máy tính). Sau đó ảnh được biến đổi để nâng
cao chất lượng ảnh nhằm thu được nhiều thông tin hơn, có thể quan sát bằng mắt.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm
cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một
ảnh “tốt hơn” hoặc một kết luận.

Học viên: Lê Minh Đức

-3-


Chương 1: Tổng
ng quan quá trình
tr

xử lý ảnh

Luận văn tốt
ốt nghi
nghiệp cao học

Hình 1-1. Quá trình xử lý ảnh
Để có thể hình
ình dung cấu
c hình một hệ thống xử lý ảnh chuyên
ên ddụng hay một
hệ thống xử lý ảnh dùng
ùng trong nghiên ccứu, đào tạo, trước hếtt chúng ta xem xét các
bước cần thiết trong xử
ử lý ảnh.

Hình 1-2.
1 Các giai đoạn chính trong xử lý ảnh
Trước hết làà quá trình thu nhận
nh ảnh. Ảnh có thể thu nhậ
nhận qua camera.
Thường ảnh thu nhận
n qua camera llà tín hiệu tương tự (loại camera ống ki
kiểu CCIR),
nhưng cũng có thể làà tín hi
hiệu số hóa (loại CCD – Charge Coupled Device).
Ngoài ra, ảnh cũng
ng có thể thu nhận từ vệ tinh qua các bộ cảm ứng
ng (sensor) hay ảnh,
tranh được quét trên

ên scanner.
Tiếp theo làà quá trình số hóa (digitalizer) để biến đổii tín hiệu ttương tự sang
tín hiệu rời rạc (lấy mẫu)
ẫu) và
v số hóa bằng lượng tử hóa, trướcc khi chuy
chuyển sang giai
đoạn xử lý, phân tích hay llưu trữ lại.

Học viên: Lê Minh Đức
ức

-4-


Chương 1: Tổng quan quá trình xử lý ảnh

Luận văn tốt nghiệp cao học

Quá trình phân tích ảnh thực chất bao gồm nhiều công đoạn nhỏ. Trước hết
là công việc tăng cường ảnh. Do những nguyên nhân khác nhau: có thể do chất
lượng thiết bị thu nhận ảnh, do nguồn sáng hay do nhiễu mà ảnh có thể bị suy biến.
Do vậy cần phải tăng cường và khôi phục ảnh để làm nổi bật một số đặc tính của
ảnh, hay làm cho ảnh gần giống với trạng thái gốc – trạng thái trước khi ảnh bị biến
dạng. Giai đoạn tiếp theo là phát hiện các đặc tính như: biên, phân vùng ảnh, trích
chọn các đặc tính, v.v…
Cuối cùng, tùy theo mục đích của ứng dụng mà sẽ là giai đoạn nhận dạng,
phân lớp hay các quyết định khác.
1.1.2.2. Nhận dạng mẫu ảnh (Image Patten Recognition)
Hệ thống sẽ xử lý để đưa ra các đặc trưng của ảnh hay các đối tượng trong
ảnh. Sau đó hệ thống sẽ đánh giá nội dung ảnh hoặc nhận biết các mẫu trong ảnh.

1.2. Các vấn đề cơ bản trong xử lý ảnh
1.2.1. Những khái niệm liên quan
1.2.1.1. Điểm ảnh (pixel element)
Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng. Để xử lý
bằng máy tính (số), ảnh cần phải được số hoá. Số hoá ảnh là sự biến đổi gần đúng
một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và
độ sáng (mức xám). Mỗi một điểm như vậy được biết dưới tên gọi là Pixel. Trong
khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa độ (x, y). Điểm ảnh (Pixel) là
một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định. Kích thước
và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm
nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh
thật.

Học viên: Lê Minh Đức

-5-


Chương 1: Tổng quan quá trình xử lý ảnh

Luận văn tốt nghiệp cao học

Điểm ảnh
(Pixel)

Ma trận 2 chiều các điểm ảnh

Ảnh số 2D
Hình 1-3. Ví dụ ảnh số 2D
1.2.1.2.


Độ phân giải của ảnh

Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một
ảnh số được hiển thị.
Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt
người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo
nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y
trong không gian hai chiều.
Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là
một lưới điểm theo chiều ngang màn hình:320 điểm * chiều dọc:200 điểm ảnh
(320*200). Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA
17” độ phân giải 320*200. Lý do: cùng một mật độ (độ phân giải) nhưng diện tích
màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn.
1.2.1.3. Mức xám của ảnh (Gray level)
Ảnh xám chỉ bao gồm 2 màu: màu đen và màu trắng. Người ta phân mức xám
thành nhiều mức, thường là 16, 32, 64, 128, 256 (Mức 256 là mức phổ dụng). Lý
do: trong kỹ thuật máy tính thường dùng 1 byte (8 bit) để biểu diễn mức xám nên số
mức xám có thể biểu diễn được là: 28 =256 mức. Mỗi mức xám được biểu diễn dưới

Học viên: Lê Minh Đức

-6-


Chương 1: Tổng quan quá trình xử lý ảnh

Luận văn tốt nghiệp cao học

dạng là một số nguyên nằm trong khoảng từ 0 đến 255, với mức 0 biểu diễn cho

mức cường độ đen nhất và 255 biểu diễn cho mức cường độ sáng nhất.
1.2.1.4. Ảnh số
Là tập hợp hữu hạn các điểm ảnh, thường được biểu diễn bằng một mảng hai
chiều I(m,n) với m là số hàng, n là số cột. Ta ký hiệu P(x,y) là một điểm ảnh tại vị
trí (x, y). Số lượng điểm ảnh trên mỗi hàng hoặc các hàng xác định độ phân giải của
ảnh. Ảnh số được chia làm 3 loại:
• Ảnh nhị phân
Ảnh nhị phân là ảnh số mà trong đó giá trị mỗi điểm ảnh có thể nhận một trong hai
giá trị 0 hoặc 1. Như vậy mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bới 1 bit.

Hình 1-4. Ví dụ về ảnh đen trắng
• Ảnh xám
Ảnh xám là ảnh số mà trong đó mức xám nằm trong khoảng 0…255. Như vậy mỗi
điểm ảnh trong ảnh xám được biểu diễn bới 1 byte.

Hình 1-5. Ví dụ ảnh xám

Học viên: Lê Minh Đức

-7-


Chương 1: Tổng quan quá trình xử lý ảnh

Luận văn tốt nghiệp cao học

• Ảnh màu
Ảnh màu theo lý thuyết của Thomas là ảnh tổ hợp từ 3 màu cơ bản: đỏ (R), lục
(G), lơ (B) và thường thu nhận trên các dải băng tần khác nhau. Với ảnh màu, cách
biểu diễn cũng tương tự như với ảnh đen trắng, chỉ khác là các số tại mỗi phần tử

của ma trận biểu diễn cho ba màu riêng rẽ gồm: đỏ (red), lục (green) và lam (blue).
Để biểu diễn cho một điểm ảnh màu cần 24 bit. 24 bit này được chia thành ba
khoảng 8 bit. Mỗi màu cũng phân thành L cấp màu khác nhau (thường L=256). Mỗi
khoảng này biểu diễn cho cường độ sáng của một trong các màu chính.
Mỗi pixel ảnh màu ký hiệu Px, được viết: (T: trong công thức dưới đây là ký
hiệu chuyển vị).
T
Px = [red , green, blue]
(1.1)

Hình 1-6. Ví dụ về ảnh màu
1.2.1.5. Các mối quan hệ cơ bản giữa các điểm ảnh
• Lân cận của một điểm ảnh
Một điểm ảnh P với tọa độ (x, y), khi đó bốn điểm
N1(x-1, y), N2(x, y+1), N3(x+1, y), N4(x, y-1)
được gọi là lân cận bốn của điểm P. và các điểm
N5(x-1, y+1), N6(x+1, y+1), N7(x+1, y-1), N8(x-1, y-1)
được gọi là lân cận chéo của điểm P
Tám điểm từ N1 đến N8 được gọi là lân cận tám của điểm P.

Học viên: Lê Minh Đức

-8-


Chương 1: Tổng quan quá trình xử lý ảnh

Luận văn tốt nghiệp cao học

Hình 1-7. Lân cận của một điểm ảnh

• Liên kết giữa các điểm ảnh
Các mối liên kết được sử dụng để xác định giới hạn (Boundaries) của đối
tượng vật thể hoặc xác định vùng trong một ảnh. Một liên kết được đặc trưng bởi
tính liền kề giữa các điểm và mức xám của chúng.
Hai điểm ảnh P1 và P2 được gọi là liên kết bốn với nhau nếu có một trong hai
điều kiện:
-

P2 là lân cận bốn với P1 (hoặc P1là lân cận bốn với P2)

-

Tồn tại điểm P3 mà P3 là lân cận bốn của P2 và P3 là lân cận bốn của P1.

Hai điểm P1 và P2 được gọi là liên kết tám với nhau nếu có một trong hai điều
kiện:
-

P2 là lân cận tám với P1 (hoặc P1 là lân cận tám với P2)

-

Tồn tại điểm P3 mà P3 là lân cận tám của P2 và P3 là lân cận tám của P1.

1.2.1.6.

Biểu đồ sắc thái hình ảnh (Histogram)

Histogram là đồ thị mô tả mối quan hệ giữa mức xám và số điểm ảnh có chung
mức xám, với trục hoành là mức xám và trục tung là số lượng điểm ảnh ở những

mức xám tương ứng.
Histogram là một đặt trưng quan trọng của ảnh, dựa vào biểu đồ histogram,
chúng ta có thể nhận dạng sơ về ảnh, có kết luận cơ bản về ảnh: ảnh sáng, tối, độ
tương phản thấp, cao….

Học viên: Lê Minh Đức

-9-


Chương 1: Tổng quan quá trình xử lý ảnh

Luận văn tốt nghiệp cao học

Hình 1-8. Minh họa biểu đồ histogram
1.2.2.

Biểu diễn ảnh

Ảnh sau khi số hoá sẽ được lưu vào bộ nhớ, hoặc chuyển sang các khâu tiếp
theo để phân tích. Nếu lưu trữ ảnh trực tiếp từ các ảnh thô, đòi hỏi dung lượng bộ
nhớ cực lớn và không hiệu quả theo quan điểm ứng dụng và công nghệ. Thông
thường, các ảnh thô đó được đặc tả (biểu diễn) lại (hay đơn giản là mã hoá) theo các
đặc điểm của ảnh được gọi là các đặc trưng ảnh (Image Features) như: biên ảnh
(Boundary), vùng ảnh (Region). Một số phương pháp biểu diễn thường dùng:
• Biểu diễn bằng mã chạy (Run-Length Code)
• Biểu diễn bằng mã xích (Chaine -Code)
• Biểu diễn bằng mã tứ phân (Quad-Tree Code)
1.2.2.1. Biểu diễn bằng mã loạt dài
Phương pháp này thường biểu diễn cho vùng ảnh và áp dụng cho ảnh nhị

phân. Một vùng ảnh R có thể mã hoá đơn giản nhờ một ma trận nhị phân:
U(m,n) = 1 nếu (m, n) thuộc R
U(m,n) = 0 nếu (m, n) không thuộc R

(1.2)

Trong đó: U(m, n) là hàm mô tả mức xám ảnh tại tọa độ (m, n). Với cách
biểu diễn trên, một vùng ảnh được mô tả bằng một tập các chuỗi số 0 hoặc 1. Giả sử
chúng ta mô tả ảnh nhị phân của một vùng ảnh được thể hiện theo toạ độ (x, y) theo
các chiều và đặc tả chỉ đối với giá trị “1”. Khi đó dạng mô tả có thể là: (x, y)r; trong
đó (x, y) là toạ độ, r là số lượng các bit có giá trị “1” liên tục theo chiều ngang hoặc
dọc.

Học viên: Lê Minh Đức

- 10 -


Chương 1: Tổng quan quá trình xử lý ảnh

Luận văn tốt nghiệp cao học

Ảnh được biểu diễn: (2,7)2; (3,2)2; (3,6)4; (4,1)9; (5,0)8; (6,0)6; (7,1)3
Hình 1-9. Minh họa ảnh biểu diễn bằng mã loạt dài.
1.2.2.2. Biểu diễn bằng mã xích
Phương pháp này thường dùng để biểu diễn đường biên ảnh. Thay vì lưu trữ
toàn bộ ảnh, người ta lưu trữ dãy các điểm ảnh như A, B, …, M. Theo phương pháp
này, 8 hướng của vectơ nối 2 điểm biên liên tục được mã hóa. Khi đó ảnh được biểu
diễn qua điểm ảnh bắt đầu A cùng với chuỗi các từ mã. Điều này được minh họa
trong hình dưới đây:


Hình 1-10. Minh họa biểu diễn bằng mã xích
Hướng các điểm biên và mã tương ứng là: A11070110764545454432
1.2.2.3. Biểu diễn bằng mã tứ phân
Theo phương pháp mã tứ phân, một vùng của ảnh coi như bao kín bời một
hình chữ nhật. Vùng này được chia làm 4 vùng con. Nếu vùng con gồm toàn điểm
đen(1) hay toàn điểm trắng (0) thì không cần chia tiếp. Trong trường hợp ngược lại,

Học viên: Lê Minh Đức

- 11 -


Chương 1: Tổng quan quá trình xử lý ảnh

Luận văn tốt nghiệp cao học

vùng con gồm cả đen và trắng gọi là vùng xám lại tiếp tục được chia làm 4 vùng
con tiếp. Quá trình chia dừng lại khi không thể chia tiếp được nữa, có nghĩa là vùng
con chỉ chứa thuần nhất điểm đen hay trắng. Như vậy, cây biểu diễn gồm một chuỗi
các kí kiệu b(black), w(white) và g (grey) kèm theo ký hiệu mã hóa 4 vùng con.
Biểu diễn theo phương pháp này ưu việt hơn so với các phương pháp trên, nhất là so
với mã loạt dài. Tuy nhiên, để tính toán số đo các hình như chu vi, mo men là tương
đối khó khăn.
1.2.3. Nâng cao chất lượng ảnh
Nâng cao chất lượng ảnh là bước quan trọng, tạo tiền đề cho xử lý ảnh. Nâng
cao chất lượng ảnh nhằm hoàn thiện các đặc tính của ảnh như:

• Nâng cao độ tương phản, điều chỉnh mức xám của ảnh.
• Lọc nhiễu, hay làm trơn ảnh..

• Làm nổi biên ảnh.
Các thuật toán triển khai việc nâng cao chất lượng ảnh hầu hết dựa trên các kỹ
thuật trong miền điểm, không gian và tần số.
1.2.3.1. Nâng cao độ tương phản.
Ảnh số là tập hợp các điểm, mỗi điểm có giá trị độ sáng khác nhau. Ở đây, độ
sáng để mắt người dễ cảm nhận ảnh song không phải là quyết định. Thực tế chỉ ra
rằng hai đối tượng có cùng độ sáng nhưng đặt trên hai nền khác nhau sẽ cho cảm
nhận sáng khác nhau. Như vậy, độ tương phản biểu diễn sự thay đổi độ sáng của đối
tượng so với nền. Nói một cách khác, độ tương phản là độ nổi của điểm ảnh hay
vùng ảnh so với nền. Như vậy, nếu ảnh có độ tương phản kém, ta có thể thay đổi
tùy ý theo ý muốn.
Ảnh với độ tương phản thấp có thể do điều kiện sáng không đủ hay không
đều, hoặc do tính không tuyến tính hay biến động nhỏ của bộ cảm nhận ảnh. Để
điều chỉnh lại độ tương phản của ảnh, cần điều chỉnh lại biên độ trên toàn dải hay
trên dải có giới hạn bằng cách biến đổi tuyến tính biên độ đầu vào (dùng hàm biến
đổi là hàm tuyến tính) hay phi tuyến (hàm mũ hay hàm lôgarit).

Học viên: Lê Minh Đức

- 12 -


×