Tải bản đầy đủ (.pdf) (95 trang)

Ứng dụng mạng nơron mờ cho nhận dạng chữ viết tay (hạn chế)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.44 MB, 95 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-----------------------

NGUYỄN PHƯƠNG HUY

ỨNG DỤNG MẠNG NƠRON MỜ CHO NHẬN DẠNG CHỮ
VIẾT TAY (HẠN CHẾ)

LUẬN VĂN THẠC SĨ KỸ THUẬT

ĐIỆN TỬ VIỄN THÔNG

Hà Nội – 2005


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-----------------------

NGUYỄN PHƯƠNG HUY

ỨNG DỤNG MẠNG NƠRON MỜ CHO NHẬN DẠNG CHỮ
VIẾT TAY (HẠN CHẾ)

LUẬN VĂN THẠC SĨ KỸ THUẬT

ĐIỆN TỬ VIỄN THÔNG
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. LÊ BÁ DŨNG


Hà Nội - 2005


danh mục hình vẽ
Hình 1.1. Toán tử tuyến tính..9
Hình 1.2. Mặt nạ bộ lọc tuyến tính 3x3..10
Hình 1.3.Toán tử điểm ảnh..11
Hình 1.4. Mô hình nhiễu12
Hình 1.5. Lọc ng-ợc khôi phục ảnh nguyên gốc14
Hình1.6. Một số các mặt nạ không gian trung bình..18
Hình1.7. Mặt nạ bộ lọc thông thấp18
Hình1.8. Cửa sổ lọc giả trung vị20
Hình 1.9. Ph-ơng pháp l-ới24
Hình1.10. Ph-ơng pháp cung ……………………………………………….25
H×nh1.11. BiĨu diƠn mÉu b»ng tËp kÝ hiƯu…………………………………..27
H×nh 2.1. Cấu trúc cơ bản của nơron sinh học....28
Hình 2.2. Nơron nhân tạo ..31
Hình 2.3. Mô hình toán học mạng nơron nhân tạo 33
Hình 2.4. Nơron 1 đầu vào với hàm hoạt hoá là hàm hardlimit..35
Hình 2.5. Một số dạng hàm hoạt hóa trong mạng nơron nhân tạo36
Hình2.6. Liên kết bên trên lớp cạnh tranh.38
Hình 2.7. Kiến trúc mạng Kohonen39
Hình 2.8. Học có giám sát..40
Hình 2.9. Học không có giám sát...41
Hình 2.10. Học tăng c-ờng..41
Hình 2.11.Kiến trúc mạng Perceptron.44
Hình2.12. Biên quyết định trong không gian mẫu...46
Hình2.13. Không gian mẫu khả tách tuyến tính..48
Hình2.14. Không gian mẫu không khả tách tuyến tính...48
Hình2.15. Phân tách không gian mẫu với mạng Perceptron 2 nơron líp ra…49



Hình2.16. Mạng Perceptron đa lớp (MLP)..50
Hình2.17. Mạng MLP giải quyết bài toán XOR.51
Hình 2.18. Không gian mẫu55
Hình2.19. Phân lớp mẫu với mạng MLP 3 lớp...56
Hình 2.20. Quan hệ lân cận trong lớp Kohonen..57
Hình 2.21. MÃ hoá vecto đầu vào với mạng SOFM.59
Hình 3.1. Một số dạng hàm thuộc cơ bản..62
Hình 3.2. Bảng chân lý chuẩn AND, OR, NOT63
Hình 3.3. Đồ thị minh họa nguyên lý suy rộng mờ...67
Hình 3.4. Hàm liên thuộc của biến ngôn ngữ T(tuổi)69
Hình 3.5. Mô hình suy luận mờ với một luật-một tiền đề.72
Hình 3.6. Mô hình suy luận mờ một luật-nhiều tiền đề.73
Hình 3.7. Mô hình suy luận mờ hai luật hai tiền đề..74
Hình 3.8. Mô hình suy diễn mờ Mamdani75
Hình 3.9. Ví dụ về mô hình Mamdani một đầu vào một đầu ra77
Hình 3.10. Mô hình mờ Sugeno..78
Hình 3.11. Mô hình suy luận mờ Sugeno hai đầu vào một đầu ra...79
Hình 3.12. Mô hình suy luận mờ Tsukamoto..79
Hình 3.13. Ví dụ mô hình Tsukamoto một đầu vào-một đầu ra..80
Hình 4.1. Mô hình Sugeno bậc nhất hai đầu vào (a) và mạng ANFIS t-ơng
đ-ơng (b).84
Hình 4.2. Kiến trúc mạng ANFIS cho mô hình mờ Sugeno với quá trình chuẩn
hoá ở lớp cuối..86
Hình 4.3. Mô hình suy luận mờ Tsukamoto hai đầu vào (a) và kiến trúc mạng
ANFIS t-ơng đ-ơng(b)86
Hình 4.4. Kiến trúc mạng ANFIS với mô hình mờ Sugeno hai đầu vào và
không gian đầu vào t-ơng ứng với 4 miền mờ.87



Hình4.5. Hai quá trình lan truyền trong thuật toán học lai áp dụng cho mạng
ANFIS..93
Hình4.6. Hàm liên thuộc của các biến đầu vào tr-ớc và sau khi luyện mạng.95
Hình4.7. Bề mặt của không gian mẫu luyện mạng và không gian tái tạo...96
Hình4.8. Bảng chân lý của XOR.97
Hình 4.9.Phép AND với tích bên trái và min bên phải98
Hình 4.10.Mặt suy diễn mờ cho XOR.99
Hình 4.11.Hai sáu chữ in đ-ợc xây dựng trong ma trận 7x5.100
Hình 4.12.Sơ đồ suy diễn mờ.100
Hình 4.13.Dạng hàm thuộc các tín hiệu vào..101
Hình 4.14.Hệ luật mờ cho nhận dạng chữ in.102
Hình 5.1. Các công đoạn của bài toán nhận dạng ảnh...106
Hình 5.2. Ba mẫu chữ cần học...109
Hình5.3. Ký tự cần nhận dạng..110
Hình 5.4. Giao diện ch-ơng trình nhËn d¹ng……………………………….111


Mục lục
Nội dung
Mở đầu
Ch-ơng I. Lý thuyết xử lý và nhận dạng ảnh...

1

1.1.ảnh số và các khái niệm cơ bản

1

1.1.1.Khái niệm ảnh số..


1

1.1.2.Phân loại ảnh số

1

1.1.3.Khái niệm mức xám đồ

2

1.2. Thu nhận và l-u trữ ảnh số..

2

1.2.1.Thu nhận ảnh

2

1.2.1.1.Thiết bị thu nhận ảnh

2

1.2.1.2.Quá trình số hoá ảnh

4

1.2.2.L-u trữ ảnh.......

5


1.3.Một số lý thuyết xử lý và nhận dạng ảnh.....

5

1.3.1.Lý thuyết xử lý ảnh 2D.....

5

1.3.1.1.Khảo sát trực tiếp trong miền không gian điểm ảnh
1.3.1.2.Thực hiện phép biến đổi không gian.

8
11

1.3.2.Nâng cao chất l-ợng ảnh..

12

1.3.2.1.Khôi phục ảnh..

12

1.3.2.2.Tăng c-ờng ảnh

16

1.3.3.Phân đoạn ảnh và tìm biên ảnh.

21


1.3.3.1.Khái niệm biên ảnh và ph-ơng pháp xác định biên.

21

1.3.3.2.Kỹ thuật phân đoạn ảnh...

21

1.3.4.Lý thuyết nhận dạng ảnh..

22

1.3.4.1.Các khái niệm cơ bản...

22

1.3.4.2.Ph-ơng pháp số nhận dạng ảnh..

24


1.3.4.3.Ph-ơng pháp nhận dạng theo cấu trúc

26

Ch-ơng 2 Mạng nơrơn với bài toán nhận dạng ảnh.

28


2.1.Các khái niệm chung về mạng nơron...

28

2.1.1.Mạng nơron sinh học....

28

2.1.2.Mạng nơron nhân tạo...

30

2.1.2.1.Nơron nhân tạo....

30

2.1.2.2.Mạng nơron nhân tạo..

31

2.1.2.3.Các ứng dụng của mạng nơron

32

2.2.Mô hình toán học và kiến trúc mạng nơron ...

33

2.2.1.Mô hình toán học của mạng nơron .


33

2.2.1.1.Mô hình toán học của một nơron nhân tạo......

33

2.2.1.2.Cấu trúc mạng nhân tạo...

34

2.2.1.3.Hàm truyền (Hàm hoạt hoá)

35

2.2.2.Kiến trúc mạng....

36

2.3.Huấn luyện mạng....

39

2.3.1.Hoạt động của mạng.....

39

2.3.2.Huấn luyện mạng.

40


2.3.2.1.Học có giám sát

40

2.3.2.2.Học không có giám sát.

40

2.3.2.3.Học tăng c-ờng.

41

2.3.3.Một số luật học.....

42

2.4.Mạng Perceptron....

44

2.4.1.Kiến trúc mạng....

44

2.4.2.Huấn luyện mạng..

45

2.4.3.Khả năng ứng dụng cho nhận dạng ảnh.......


49

2.5.Mạng Perceptron đa lớp

49

2.5.1.Kiến trúc mạng....

50


2.5.2.Huấn luyện mạng.............

51

2.5.3.Khả năng ứng dụng cho nhận dạng ảnh...

54

2.6.Mạng Kohonen (SOFM)....

56

2.6.1.Kiến trúc mạng.....

56

2.6.2.Huấn luyện mạng......

58


2.6.3. Khả năng ứng dụng cho nhận dạng ảnh..

59

Ch-ơng 3. logic mờ...

61

3.1. Khái niệm chung vỊ logic mê…………………..…………………..

61

3.2. Tht to¸n cđa logic mê……………..……………………………..

62

3.3. C¸c phÐp toán trên tập mờ...

63

3.3.1.Phép giao..

63

3.3.2.Phép hợp.......

64

3.3.3.Phép phủ định.......


65

3.4.Luật mờ và suy luận mờ.....

66

3.4.1.Nguyên lý suy rộng và quan hệ mờ......

66

3.4.1.1.Nguyên lý suy rộng...

66

3.4.1.2.Quan hệ mờ..

67

3.4.2.Luật nếu thì mờ...

69

3.4.2.1.Biến ngôn ngữ...

69

3.4.2.2.Luật nÕu-th× mê……………………………………………

70


3.4.3.Suy diƠn mê……………………………………………………..

71

3.4.3.1.Suy diƠn víi mét lt víi mét tiỊn ®Ị……………………....

72

3.4.3.2.Suy ln mét lt víi nhiỊu tiỊn ®Ị………………………..

73

3.4.3.3.NhiỊu lt mờ với nhiều tiền đề...

74

3.5.Một số mô hình suy luận mờ..

75

3.5.1.Hệ mờ của Mamdani....

75

3.5.2.Mô hình mờ Sugeno.....

77



3.5.3.Mô hình Tsukamoto.

79

Ch-ơng 4. Mạng nơ ron mờ và bài toán nhận dạng..
82
ảnh
4.1.Giới thiệu chung......

82

4.2.Kiến trúc mạng...

83

4.3. Thuật toán học lai..

87

4.3.1.Ước l-ợng bình ph-ơng tối thiểu.....

88

4.3.2.Ph-ơng pháp độ dốc lớn nhất.......

91

4.4.Thuật toán học lai trong mạng ANFIS.....

93


4.5.Mạng ANFIS với ứng dụng mô hình hoá hàm phi tuyến....

95

4.6.Mạng ANFIS cho nhận dạng chữ in.

97

Ch-ơng 5: Thiết kế ứng dụng..

105

5.1.Đặt vấn đề...

105

5.2.Thu nhận và xử lý mẫu..

106

5.2.1.Thu nhận ảnh....

106

5.2.2.Xử lý nâng cao chất l-ợng ảnh.....

107

5.2.3.Nhị phân hoá ảnh..


107

5.2.4.Tách mẫu và chuẩn hoá. ..

108

5.3.Xây dựng th- viện mẫu..

109

5.4.Xây dựng hệ suy luận dạng chữ viết.

110

5.5.Xây dựng phần mềm..

111


lời mở đầu
Trong lịch sử phát tồn tại và phát triển của mình, con ng-ời với sức
sáng tạo phi th-ờng luôn cải tạo tự nhiên, phát minh ra nhiều máy móc để
phục vụ cho cuộc sống. ở các giai đoạn tr-ớc, việc truyền đạt cho máy luôn
cần thiết phải đảm bảo tính chính xác và duy nhất trong từng tập lệnh, điều
này làm cho các thao tác của máy trở nên khô cứng và tạo ra một khoảng cách
rất xa giữa người và máy về độ thông minh trong việc giải quyết các bài
toán kỹ thuật cũng nh- trong cuộc sống hàng ngày. Chính vì vậy, mong muốn
tạo ra một thế hệ máy móc mới có khả năng học và sáng tạo đà hình
thành từ lâu và với sự trợ giúp của các ngành khoa học hiện đại việc tự nhiên

hoá các hệ thống kỹ thuật hay còn có thể nói là người hoá máy móc đà và
đang đạt đ-ợc những thành tựu đáng kể.
Hai lĩnh vực quan trọng phải kể đến là lý thuyết về mạng nơron và logic
mờ, chúng là chìa khoá để tạo ra các hệ thống kỹ thuật vừa đảm bảo tính xác
và nhanh chóng trong vận hành, vừa có khả năng học từ các mẫu dữ liệu thống
kê, lại có khả năng thông minh và mềm hoá trong quá trình ra quyết định.
Hơn nữa, việc kết hợp hai lý thuyết trên sẽ tạo ra nhiều b-ớc đột phá mới.Có
thể nói rằng, mạng nơron mờ sẽ là công nghệ của t-ơng lai.
Đối với các cán bộ kỹ thuật trong ngành Điện tử viễn thông, lý thuyết
về xử lý tín hiệu trong đó có tín hiệu hình ảnh là những kiến thức không thể
thiếu. Nhận dạng ảnh, đặc biệt là nhận dạng ký tự cũng là một mảng đề tài
đáng quan tâm. Việc nhận dạng ký tự nhất là với chữ viết tay sẽ tiết kiệm rất
nhiều thời gian cho viêc nhập và l-u trữ dữ liệu.
ý thức đ-ợc vấn đề trên, với sự h-ớng dẫn tận tình của Giảng viên T.S
Lê Bá Dũng, tôi xin hoàn thành luận văn tốt nghiệp cao học với đề tài “ T×m


hiểu ứng dụng của mạng nơron mờ cho nhận dạng chữ viết tay. Nội dung đề
tài gồm những vấn đề sau:
Ch-ơng 1

: Lý thuyết xử lý và nhận dạng ảnh

Ch-ơng 2

: Mạng Nơron với bài toán nhận dạng

Ch-ơng 3

: Logic mờ


Ch-ơng 4

: Mạng nơron mờ và bài toán nhận dạng ảnh

Ch-ơng 5

:Thiết kế ứng dụng

Do hạn chế về khả năng, thời gian cũng nh- tài liệu, luận văn trên
không tránh khỏi những sai sót nhất định. Rất mong d-ợc sự chỉ bảo của các
thầy cô giáo và các ý kiến quan tâm của các bạn học.
Xin chân thành cảm ơn!


1

Ch-ơng I
Lý thuyết xử lý và nhận dạng ảnh
1.1.ảnh số và các khái niệm cơ bản
1.1.1.Khái niệm ảnh số
ảnh trong thực tế là một ảnh liên tục về không gian và giá trị c-ờng độ
sáng. Để có thể xử lý ảnh bằng máy tính ng-ời ta cần thiết phải số hóa ảnh.
Trong quá trình số hóa, ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông
qua quá trình lấy mẫu (rời rạc hóa về không gian) và l-ợng hóa thành phần giá
trị mà về nguyên tắc bằng mắt th-ờng không phân biệt đ-ợc hai điểm kề nhau.
Một ảnh sẽ là một tập hợp các phần tử ảnh (Picture element) hay còn đ-ợc gọi
là Pixel.
Nh- vậy, ảnh số là một tập hợp các điểm ảnh. Khi đ-ợc số hóa, nó
th-ờng đ-ợc biểu diễn bởi một mảng hai chiều I(n,p) với n là số dòng và p là

số cột. Ta nãi ¶nh gåm nxp pixels. Ng-êi ta th-êng ký hiệu I(x,y) để chỉ một
pixel I chính là giá trị c-ờng độ sáng của ảnh tại pixel đó. Th-ờng giá trị n
chọn bằng p và bằng 256. ảnh có thể đ-ợc biểu diễn với các độ phân giải
khác nhau. Một pixel có thể đ-ợc l-u trữ trên 1, 4, 8 hay 24 bit tùy thuộc vào
các mức c-ờng độ sáng cần phân biệt cuả ảnh và số l-ợng thành phần mầu cơ
bản chứa trong ảnh đó.
1.1.2.Phân loại ảnh số
Ng-ời ta th-ờng chia ảnh số ra làm ba loại chính là:
ã ảnh đen trắng: Mỗi phần tử ảnh nhận một trong hai giá trị t-ơng ứng với
hai mức sáng đen và trắng (còn gọi là ảnh nhị phân)
ã ảnh xám (ảnh đa mức xám): Các phần tử ảnh chứa thông số vể c-ờng độ
sáng đà đ-ợc mà hoá thành N mức (8, 256 hoặc nhiều hơn) t-ơng ứng với 3


2

bít, 8 bít hoặc hơn nũa. ảnh xám có một đặc tr-ng là l-ợc đồ xám
(histogram). ảnh xám đ-ợc gọi là ảnh grayscale.
ã ảnh mầu: Mỗi phần tử ảnh đ-ợc l-u trữ trong ảnh d-ới dạng một cấu trúc
có 3 tr-ờng chứa thông tin về 3 màu cơ bản là đỏ, xanh, lơ (red, blue,
green). Màu của ảnh sẽ là tổng hợp của 3 giá trị trên. Mỗi tr-ờng biểu diễn
giá trị màu có thể dùng 8 bít, 16 bít h-ợc 24 bit để mà hoá.
Nh- vậy ảnh màu là ảnh mang thông tin về đối t-ợng đầy đủ nhất so với
ảnh đen trắng và ảnh xám. Tuy nhiên tất cả cách biểu diễn này đều chỉ là sự
mô phỏng hệ màu trong tự nhiên. Thực tế thì một màu đ-ợc phân biệt qua 3
thuộc tính là độ chói (Brightness), sắc thái màu (Hue) và độ bÃo hoà
(Saturation). Tuy nhiên với khả năng cảm nhận của mắt ng-ời thì cách biểu
diễn ảnh d-ới dạng cấu trúc 3 màu RGB chất l-ợng ảnh thu đ-ợc là có thể
chấp nhận đ-ợc.
1.1.3.Khái niệm mức xám đồ

ở trên đà chỉ ra rằng đối với cách biểu diễn ảnh d-ới dạng ảnh xám thì ta
có một đặc tr-ng là l-ợc đồ xám.
L-ợc đồ xám là một hàm đ-a ra tần suất xuất hiện của mỗi mức xám
(gray level) của các điểm ảnh. L-ợc đồ này đ-ợc biểu diễn trong một hệ toạ
độ vuông góc x,y. Trục hoành x của hệ toạ độ biểu diễn số mức xám từ 0 đến
N (th-ờng N=255). Trục tung y biểu diễn số điểm ảnh trong ảnh ứng với mức
xám t-ơng ứng trên trục hoành. Nh- vậy ta có thể biểu diễn mức xám đồ bằng
hàm y=f(x), với f(x) là một hàm rời rạc có giá trị bằng số điểm ảnh trong ảnh
có mức xám x.
1.2. Thu nhận và l-u trữ ảnh số
1.2.1.Thu nhận ảnh
1.2.1.1.Thiết bị thu nhận ảnh:


3

Hai thiết bị thu nhận ảnh th-ờng đ-ợc sử dụng là Camera và Scanner.
Chúng có nhiều loại khác nhau nh-ng cấu tạo và nguyên lý hoạt động của
chúng thì nhìn chung là giống nhau.
Camera:
Camera là thiết bị thu hình phổ biến nhất. Camera thu nhận các tia sáng
phản xạ từ các vật trong tự nhiên và hội tụ chùm sáng đó trên một màn nhận
ảnh với các phần tử cảm nhận ánh sáng tạo thành. Cấu trúc của Camera nhìn
chung có thể đ-ợc chia thành 3 phần:


Phần quang học: Bao gåm c¸c thÊu kÝnh héi tơ c¸c kÝnh läc và cơ cấu

điều chỉnh khả năng thu nhận sáng và hội tụ.



Phần cảm nhận ánh sáng: Là một màn nhận ảnh với các phần tử cảm

nhận ánh sáng. Đây là bộ phận quan trọng nhất của Camera với chức năng
chuyển đổi quang -điện và tạo dòng tín hiệu Video.


Phần xử lý tín hiệu Video thu đ-ợc và các mạch điều khiển đồng bộ hệ

thống: Với các Camera số thì phần này có chức năng chuyển đổi tín hiệu ảnh
sang dạng sè. HiƯn nay trong xư lý ¶nh sè, ng-êi ta th-êng dïng Camera sè
CCD (Charge couple Device). Tªn cđa Camera đ-ợc gọi theo tên của bộ phận
cảm nhận ảnh (Image Sensors). CCD là một thiết bị mạch tổ hợp của các phần
tử tổ hợp ánh sáng (photosensitive elements). Mỗi phần tử này sẽ cảm nhận
c-ờng độ ánh sáng t-ơng ứng với một điểm ảnh( tức là một phần tử ảnh) và
biến đổi chúng thành tín hiệu điện.Các phần tử này đ-ợc bố trí thành mảng hai
chiều. Nh- vậy mật độ của các phần tử này sẽ quyết định chất l-ợng thu nhận
ảnh. Ví dụ trong một Camera CCD độ phân giải cao th-ờng là 486 dòng với
768 phần tử cảm quang đ-ợc bố trí trong mắt l-ới kích th-ớc 10.5x11m.
Scanner:
Là một thiết bị thu nhận ảnh chuyển đổi hình ảnh thu đ-ợc thành ảnh đồ
hoạ dạng l-ới (raster graphic image). Các loại đối t-ợng dùng scanner th-ờng


4

là các văn bản cá bức ảnh hoặc tranh vẽ. Ngoài ra thì ngày nay còn có cả các
scanner quét vân tay.
Cấu trúc của Scanner có thể kể đến 2 thành phần chính là:



Các phần tử cảm nhận ánh sáng: Đ-ợc bố trí trên một băng với mật độ

cao. Chúng thực hiện nhiệm vụ quét từng dòng ảnh và chuyển các giá trị nhận
đ-ợcthành các tín hiệu điện. Băng này cũng đ-ợc gọi là CCD.


Phần cơ khí: Nhằm tạo ra chuyển động tịnh tiến của băng quét dọc theo

vật cần xử lý. Phần này cũng bao gồm các cơ cấu điều chỉnh hoạt động của
thiết bị.
Khi bắt đầu thực hiện thu nhận ảnh thì đối t-ợng sẽ đ-ợc chiếu sáng bởi
một nguồn sáng trong máy quét và bộ phận điều khiển sẽ thực hiện một
chuyển động tịnh tiến để d-a băng quét CCD quét qua đối t-ợng một l-ợt và
thu nhận ánh sáng phản xạ từ đối t-ợng. Máy Scanner đ-ợc nối với máy tính
và các tín hiệu thu nhận đ-ợc sẽ đ-ợc gửi về xử lý tại máy tính. Tại đây các
mạch điều khiển xử lý và các phần mềm sẽ thực hiện chuyển đổi, xắp xếp các
tín hiệu thu đ-ợc thành các ảnh đồ họa.
Độ phân giải của Scanner một chiều phụ thuộc vào độ tích hợp (mật độ )
của các phần tử CCD trên băng quét, chiều kia phụ thuộc vào b-ớc chuyển
động của hệ thông cơ học điều khiển băng quét. Th-ờng thì độ phân giải của
Scanner vào khoảng 600x600 dpi. Một số máy quét có độ phân giải cao có thể
đến 1600x1600 dpi.
1.2.1.2.Quá trình số hoá ảnh:
ảnh sau khi thu nhận cần đ-ợc số hoá để l-u trữ và thực hiện các biện
pháp xử lý ảnh.Quá trình số hoá ảnh cũng tuân theo các nguyên tắc đà có nhđối với các quá trình số hoá tín hiệu khác. Tức là nó cũng chia 3 b-ớc là: lấy
mẫu, l-ợng tử hoá và mà hoá.
Lấy mẫu(Sampling):



5

Chùm sáng phản xạ từ vật thể là liên tục về không gian và c-ờng độ sáng
nh-ng ở các thiết bị thu nhận ảnh hiện nay thì bộ phận thu nhận tín hiệu ( màn
nhận ảnh CCD ) là một mạng l-ới rời rạc với mỗi ô mắt l-ới là một phần tử
cảm nhận c-ờng độ ánh sáng. Nh- vậy chÝnh bé phËn thu nhËn tÝn hiƯu ®·
thùc hiƯn lÊy mẫu tín hiệu c-ờng độ sáng theo hai chiều. Mỗi phần tử CCD sẽ
thực hiện lấy mẫu tại một điểm. Nh- vậy, quá trình lấy mẫu đà thực hiện
chuyển đổi một hàm liên tục trong không gian 2D (đối với Scanner) hoặc 3D
(đối với Camera) về một hàm rời rạc cho bởi ma trận hai chiều.
Để đảm bảo có thể tái tạo lại ảnh gốc từ sau ảnh lấy mẫu mà không mất
thông tin (ảnh không bị sai khác) thì quá trình lấy mẫu cần tuân theo định lý
lấy mẫu.
L-ợng tử hóa ( Quantization):
Sau khi lấy mẫu, giá trị c-ờng độ sáng của các phần tử của ma trận ảnh
vẫn là các giá trị liên tục. Tuy nhiên trong kỹ thuật số thì ta cần những giá trị
rời rạc. L-ợng tử hoá sẽ thực hiện quá trình rời rạc hoá giá trị c-ờng độ của
các điểm ảnh.
Một ph-ơng pháp l-ợng tử th-ờng hay đ-ợc sử dụng là l-ợng tử hoá đều.
Tức là chia khoảng cách giữa mức c-ờng độ lớn nhất và nhỏ nhất cuả ma trận
lấy mẫu thành các khoảng đều nhau. Khoảng cách giữa các b-ớc kề nhau là
g đ-ợc gọi là khoảng cách l-ợng tử. Các giá trị liên tục sẽ đ-ợc quy tròn về
các giá tị l-ợng tử. Việc quy tròn này sẽ gây ra sai số. Sai số này phụ thuộc
vào số mức l-ợng tử. Nếu số mức l-ợng tử càng lớn thì sai số này càng nhỏ và
ng-ợc lại. Tuy nhiên nếu số mức l-ợng tử lớn thì sẽ kéo theo chi phí tốn kém
khi ta mà hoá.
MÃ hoá:
Trong thông tin số thì thông tin đ-ợc l-u trữ và xử lý d-ới dạng tín hiệu
nhị phân gồm hai mức là 0 và 1. Bởi vậy sau khi l-ợng tử hoá các giá trị l-ợng
tử hoá rời rạc phải đ-ợc mà hoá bằng một tổ hợp các bit có giá trị 0,1. Mỗi bit



6

có thể mà hoá đ-ợc 2 giá trị mức l-ợng tử. Giả sử dùng N bit để mà hoá các
mức l-ợng tử thì sẽ biểu diễn đ-ợc 2N mức l-ợng tử. Nh- vậy nếu số mức
l-ợng tử càng lớn thì càng yêu cầu dùng nhiều bit hơn để mà hoá. Đây là cái
giá phải trả cho việc giảm sai số l-ợng tử hoá.Ví dụ dối với ảnh đen trắng ta
chỉ cần dùng 1 bit để biểu diễn giá trị mức c-ờng độ sáng còn đối với ảnh đa
mức xám 256 mức thì cần 8 bit để biểu diễn giá trị c-ờng độ sáng của mỗi
phần tử ảnh. Đối với ảnh màu thì số bít cần để biểu diễn phần tử ¶nh cã thĨ lµ
8, 16, 24, 32 t theo sè l-ợng màu cần biểu diễn.
1.2.2.L-u trữ ảnh
ảnh số đ-ợc l-u trữ d-ới các file với các kiểu định dạng khác nhau nhđịnh dạng bitmap, định dạng TIFF, định dạng GIF, định dạng PCX, định dạng
JPG...ở đây ta không xét cụ thể các định dạng này mà chỉ xét một cách sơ bộ
nhất về cấu trúc file l-u giữ thông tin ảnh. Một file định dạng chuẩn th-ờng có
3 phần là:
Phần Header: Chứa các thông tin xác định kiểu định dạng, các thông số
mô tả chung về ảnh nh- chiều rộng, chiều cao của ảnh, độ phân giải, số
màu...
Phần bảng màu: Xác định các giá trị màu chuẩn cho các điểm ảnh.
Phần dữ liệu ảnh: L-u giữ các thông tin về các điểm ảnh. Th-ờng đ-ợc
l-u giữ theo thứ tự t-ơng ứng với điểm ảnh. Việc nén dữ liệu ảnh nếu có
sẽ đ-ợc thực hiện ở phần này.
Trong các định dạng đà kể ở trên thì định dạng bitmap t-ơng đối thuận
tiện trong việc xử lý và hiển thị cho nên định dạng này hay đ-ợc sử dụng mặc
dù file ảnh có kích th-ớc khá lớn.
1.3.Một số lý thuyết xử lý và nhận dạng ảnh
1.3.1.Lý thuyết xử lý ¶nh 2D



7

ảnh thu đ-ợc sau quá trình thu nhận ảnh th-ờng là ảnh 2D, tức là một
ma trận hai chiều l-u giữ các giá trị c-ờng độ sáng của các điểm ¶nh liªn
tơc.Nh- vËy cã thĨ coi tÝn hiƯu ¶nh thu đ-ợc là một tín hiệu hai chiều liên tục
trong không gian đ-ợc biểu diễn bằng hàm hai biến g(x,y). Quá trình số hoá
biến đổi ảnh liên tục sang dạng rời rạc.Lúc này tín hiệu ảnh số 2D đ-ợc biểu
diễn bởi một ma trận các phần tử ảnh g[m,n], nh- vậy ở đây ta đà áp dụng lý
thuyết xử lý số tín hiệu trong một không gian hai chiều thay vì kh«ng gian
mét chiỊu nh- th«ng th-êng.
Mét hƯ thèng xư lý ảnh sẽ tiếp nhận ảnh số g[m,n] và đ-a ra ảnh đà đ-ợc
xử lý g[m,n]. Trên ph-ơng diện xử lý tín hiệu số thì chức năng của hệ thống
này sẽ đ-ợc đặc tr-ng bằng hàm truyền đạt H của nó. Ta có thể thể hiện mối
quan hệ này nh- sau:
g[m,n]=H(g[m,n])
(1.1)
Đối với không gian 2D ta cũng có các cách tiếp cận khác nhau để khảo
sát hệ thống. Cách thứ nhất là có thể thực hiện khảo sát trực tiếp trong miền
không gian điểm ảnh [m,n]. Những tác động của hàm truyền H sẽ đ-ợc tính
toán trực tiếp với các điểm ảnh. Một số công cụ cơ bản th-ờng đ-ợc sử dụng
là toán tử điểm ảnh, tích chập hay các bộ läc.
C¸ch tiÕp cËn thø hai cđa hƯ thèng xư lý số 2D là biến đổi tín hiệu sang
một miền không gian khác và thực hiện khảo sát trong miền không gian đó.
Sau khi khảo sát xong ở miền không gian này ta lại biến đổi ng-ợc để đ-a tín
hiệu quay về miền không gian điểm ảnh. Việc biến đổi tín hiệu sang xử lý ở
một miền không gian khác là nhằm làm nổi bật các đặc tính của tín hiệu nhằm
làm cho việc phân tích và xử lý thuận tiện h¬n. Trong lý thut xư lý tÝn hiƯu
sè ta cã thể thực hiện biến đổi về miền không gian thời gian hay miền không
gian tần số nhằm thực hiện các xư lý thÝch hỵp.



8

D-ới đây chúng ta sẽ tiến hành xem xét một số các khái niệm cơ bản
trong một hệ thống xử lý số tín hiệu hai chiều.
1.3.1.1.Khảo sát trực tiếp trong miền không gian điểm ảnh:
Đáp ứng xung:
T-ơng tự nh- trong kh«ng gian mét chiỊu, trong kh«ng gian 2D ta cũng
có khái niệm về xung đơn vị nh- sau. Xung đơn vị [m,n] đ-ợc định nghĩa
theo công thức:
1 khi m  0, n  0
0 khi m, n  0

 [m, n]

(1.2)

Đáp ứng xung của một hệ thống chính là tín hiệu đầu ra khi tín hiệu đầu
vào là xung đơn vị. Nh- vậy đáp ứng xung h[m,n] của hệ thống có thể định
nghĩa nh- sau:
h[m,n]=H([m,n])

(1.3)

Với một dịch chuyển [,] ta có đáp ứng xung h[m,n;,] (đ-ợc gọi là
hàm phân tán điểm-PSP: Point Spread Function) nh- sau:
h[m,n;,]=H([m-,n-])

(1.4)


Toán tư tun tÝnh:
Th-êng c¸c hƯ thèng xư lý sè tÝn hiệu là tuyến tính và bất biến, thoả mÃn
tính chất xếp chồng và tính dịch chuyển.
H(ax1[n,n] + bx2[m,n]) = aH(x1[m,n]) +bH( x2[m,n])= ay1[m,n] +by2[m,n]
H(x[m-,n-]=y[m-,n-]

(1.5)

Với các hệ thống nh- vậy đáp ứng xung hoàn toàn có thể đặc tr-ng cho
chức năng của hệ thống. Nh- vậy có thể coi hoạt động của hệ thống xử lý ảnh
tuyến tính là sự tác động liên tục lên ảnh đầu vào g[m,n] bằng đáp ứng xung
h[m,n] để thu đ-ợc ảnh đầu ra g[m,n]. Ng-ời ta gọi h[m,n] là toán tử tuyến
tính, h[m,n] thoả mÃn tính chất xếp chồng và dịch chuyển.


9

Đầu vào
h[m,n]
x[m,n]

Đầu ra
y[m,n]

Hình1.1 : Toán tử tuyến tính

Tích chập:
Tích chËp trong miỊn kh«ng gian tun tÝnh bÊt biÕn thĨ hiện mối quan
hệ giữa đầu ra, đầu vào của hệ thống và đáp ứng xung h[m,n] đ-ợc cho theo

công thức sau:
g '[m, n]  h[m, n] * g[m, n] 





  h[m  k , n  l ].g[k , l ]

k l

(1.6)

Đáp ứng xung h[m,n] th-ờng có dạng ma trận kích th-ớc KxL bằng 3x3,
5x5, 7x7, hoặc 9x9. Còn g[m,n] là ma trận điểm ảnh có kích th-íc MxN.
TÝch chËp hai ma trËn h[m,n] víi g[m,n] cho ma trËn g’[m,n]. KÝch
th-íc cđa ma trËn g’[m,n] lµ PxQ víi P=M+K-L cßn Q=N+L-1.
 g 00

 g10


 g po

g 01  g 0q 
 f 00
 h11 h12 h13  
g11  g1q  
 *  f10


h
h
h
21
22
23
 

  
 h31 h 32 h 33  
g p1  g pq 
 f mo

f 01  f 0n 
f11  f1n 




f m1  f mn 

(1.7)

g [m, n]  h[m, n] * f [m, n]

➢ Kü thuËt läc số
Kỹ thuật lọc số ảnh đ-ợc sử dụng nhằm lọc bỏ thành phần không mong
muốn để giữ lại những thành phần quan trọng của ảnh. Th-ờng thì mục tiêu
chính của việc sử dụng kỹ thuật lọc ảnh là nhằm loại bỏ nhiễu. Ngoài ra còn
sử dụng một số bộ lọc với mục đích tách các chi tiết của ảnh để xư lý riªng.



10

Trong miền không gian điểm ảnh, bộ lọc th-ờng sử dụng là một mặt nạ
di chuyển khắp mặt phẳng ảnh. Tâm của cửa sổ mặt nạ sẽ là điểm chịu tác
động lọc. Giá trị của các điểm lân cận trong mặt nạ sẽ có ảnh h-ởng đến giá
trị ra của điểm trung tâm. Tuỳ theo quan hệ giá trị ra của điểm trung tâm với
giá trị của các điểm lân cËn mµ ta chia thµnh hai bé läc tuyÕn tÝnh và phi
tuyến.
ã Lọc tuyến tính:
Điểm trung tâm của mặt nạ sẽ có giá trị bằng tổng số trọng số của các
điểm thuộc mặt nạ (bao gồm giá trị của chính bản thân nó). Tổng này là một
tổ hợp tuyến tính của các điểm lân cận.Chính vì thế mà nó đ-ợc gọi là lọc
tuyến tính. Giả sử ta xét một mặt nạ lọc 3x3.
W1 W2

W3

W4

W5

W6

W7

W8

W9


Hình 1.2: Mặt nạ bộ lọc tuyến tính 3x3

Điểm trung tâm của mặt nạ p5 sẽ đ-ợc tính toán theo công thức sau:
p5=w1p1+ w2p2+ w3p3+ w4p4+ w5p5+ w6p6+ w7p7+ w8p8+ w9p9

(1.8)

ở đây, các giá trị p1,...p9 là các giá trị của các điểm ảnh nằm trong vùng
ma trận 3x3 hiện thời, w1,....w9 là giá trị các trọng số của các phần tử trong bộ
lọc.
ã Lọc phi tuyến:
Bộ läc phi tun cịng t-¬ng tù bé läc tun tÝnh. Tuy nhiên đối với lọc
phi tuyến thì giá trị ra của điểm trung tâm không phải là tổ hợp tuyến tính của
các điểm lân cận mà nó biểu diễn bởi một hàm phi tuyến.
Toán tử điểm ảnh:


11

Phần trên đà xét một số các phép biến đổi tác động lên không gian điểm
ảnh nhằm biến đổi ảnh. Bây giờ ta sẽ xét đến phép biến đổi tác động lên từng
điểm ảnh để biến đổi giá trị c-ờng ®é cđa nã. Hµm biÕn ®ỉi nh- vËy gäi lµ
hµm toán tử điểm ảnh.
Tác động của toán tử điểm ảnh có thể đ-ợc mô tả nh- sau. Giả sử giá trị
c-ờng độ sáng của điểm ảnh ban đầu g[m,n] là u và giá trị c-ờng độ sáng của
điểm ảnh sau khi biến đổi g[m,n] là v và gọi hàm toán tử điểm ảnh là T thì:
g[m,n]=T(g[m,n]) v=T(u) với 0 < u,v (1.9)
Với N là số mức c-ờng độ sáng của ảnh tr-ớc khi biến đổi g[m,n]. Hàm

T có thể là một hàm tuyến tính hoặc hàm phi tuyến.
Toán tử điểm ảnh có thể coi nh- hoạt động giống nh- mét b¶ng tra LUT
(Look Up Table) víi N cét tra. Nó thực hiện phép biến đổi nhanh giữa các giá
trị u và các giá trị v mà không cần phải tính toán. T-ơng ứng với mỗi giá trị u
vào sẽ có một giá trị v ra. Điều này làm cho quá trình biến đổi ảnh nhanh hơn
rất nhiều.
v
T(u)
T(k)

u
k

N-1

Hình 1.3: Toán tử điểm ảnh

1.3.1.2.Thực hiện phép biến đổi không gian:
Phép biến đổi không gian nh- trên đà nói là nhằm đ-a tín hiệu biểu diễn
sang một vùng không gian mới mà tại không gian đó các đặc tr-ng của tín
hiệu sẽ thể hiện rõ hơn và bởi vậy mà giúp cho quá trình xử lý thuận tiện hơn.


12

Trong kü tht xư lý ¶nh, ta th-êng dïng phÐp biến đổi Fourier để đ-a
tín hiệu ảnh về miền không gian tần số. Sau khi xử lý ta lại dùng biến đổi
Fourier ng-ợc để đ-a tín hiệu quay về không gian điểm ảnh. Hai phép biến
đổi Fourier th-ờng đ-ợc sử dụng nhiều là biến đổi Fourier rời rạc (DFT) và
biến đổi Fourier nhanh (FFT).

1.3.2.Nâng cao chất l-ợng ảnh
1.3.2.1.Khôi phục ảnh
Nhiễu và mô hình nhiễu
ảnh đ-ợc coi là một miền đồng nhất về mức xám, tức là các điểm ảnh
lân cận có sự biến đổi liên tục về mức xám. Nh- vậy sau quá trình số hoá thì
trong mỗi cửa sổ đang xét các điểm ảnh đều có giá trị gần bằng nh- nhau.
Thực tế quan sát có những điểm ảnh có giá trị khác hơn nhiều so với các điểm
ảnh khác. Đó chính là nhiễu. Nh- vậy, nhiễu trong ảnh số đ-ợc xem nh- là sự
dịch chuyển đột ngột của tín hiệu thu nhận trên một khoảng cách nhỏ.
ã Mô hình liên tục
Hệ thống thu nhận ảnh chuyển các hình ảnh thực của môi tr-ờng xung
quanh g(x,y) thành dạng tín hiệu ảnh g(x,y). Tuy nhiên trong quá trình
chuyển đổi có nhiều yếu tố tác động tạo thành nhiễu. Do đó tín hiệu g(x,y)
có thể chứa các thành phần nhiễu trong đó. Quá trình thu nhận ảnh có nhiễu
có thể mô tả một cách trực quan nh- sau:

Tín hiệu
nhiễu (x,y)

ảnh gốc
g(x,y)

Hệ thống thu
nhận ảnh H

Hình1.4: Mô hình nhiễu

ã Mô hình rời rạc:

Tín hiệu ảnh

g(x,y)


13

Trên cơ sở mô hình nhiễu liên tục, ta có thể xây dựng một mô hình nhiễu
rời rạc t-ơng ứng với ảnh số. Khi đó g(x,y) sẽ chuyển thành ảnh rời rạc g[m,n],
ảnh liên tục g(x,y) sẽ chuyển thành ma trận điểm ảnh g[m,n] và nhiễu
cũng phân bố rời rạc tại các điểm ảnh [m,n]. Giả sử H là hàm tuyến tính bất
biến trong phạm vi MxN (kích th-ớc ảnh) th× ta cã:
g'[m,n]  h[m,n]*g[m,n]  η[m,n]





  h[m k,n l].g[k,l]  η[m,n] (1.10)

k  l 

§èi víi xư lý số ảnh thì ta chỉ sử dụng mô hình nhiễu rời rạc.
ã Các loại nhiễu:
Các tín hiệu nhiễu th-ờng đ-ợc chia thành các loại chính nh- sau:
Nhiễu do thiết bị thu nhận ảnh là loại nhiễu gây ra do giới hạn nhiễu xạ
và quang sai của thấu kính, nhiễu do bộ phận cảm quang, ảnh mờ nhòe do ống
kính, nhiễu do rung động thiết bị trong quá trình thu nhận.
Nhiễu nhẫu nhiên độc lập là các loại nhiễu gây ra do ảnh h-ởng của môi
tr-ờng xung quanh, do ảnh h-ởng của khí quyển.
Nhiễu do vật quan sát. Đây là nhiễu gây ra do bề mặt của bản thân vật có
độ nhám gồ ghề. Chính nhiễu này gây hiện t-ợng tán xạ của các tia đơn sắc và

sinh ra hiện t-ợng nhiễu lốm đốm.
Th-ờng ng-ời ta xấp xỉ các loại nhiễu bằng các quá trình tuyến tính bất
biến vì có nhiều công cụ tuyến tính có thể giải quyết vấn đề khôi phục ảnh
hơn là các công cụ phi tuyến. Vịêc xư lý nhiƠu b»ng c¸ch xÊp xØ tun tÝnh
cịng gióp cho công việc dễ dàng hơn trong tr-ờng hợp dùng cách biến đổi phi
tuyến.
Các kỹ thuật lọc nhiễu
ã Lọc nhiễu tuyến tính
Trong phần này ta sẽ xét hai kỹ thuật lọc tuyến tính hay sử dụng là lọc
ng-ợc và lọc giả ng-ợc.
Lọc ng-ợc ( inverse filter ):


14

Nguyên lý của lọc ng-ợc là sử dụng hàm ng-ợc của đáp ứng xung h[m,n]
để khôi phục lại một ảnh xấp xỉ ảnh nguyên gốc g[m,n] từ ảnh g[m,n] đÃ
biết nguyên lý này đ-ợc biễu diễn mô tả theo sơ đồ sau:
g(m,n)

g(m,n)

h(m,n)

h-1(m,n)

g*(m,n)

Hình 1.5 :Lọc ng-ợc khôi phục ảnh nguyên gốc


Nh- vậy ảnh khôi phục g*[m,n] sẽ đ-ợc tính theo công thức:
g*[m,n]= g[m,n]* h-1[m,n]
(1.11)
Trong đó h-1[m,n] chính là hàm của bộ lọc ng-ợc. Vì H-1(H(x))=x nên ta
có giá trị đầu ra g*[m,n] cũng bằng giá trị vào g[m,n] . Nh- vậy ta đà khôi
phục đ-ợc ảnh g[m,n] nhờ dùng hàm ng-ợc của đáp ứng xung h[m,n] .
Nếu dùng biến đổi Fourier ta cã:
G[u, v]  G ' [u, v].H T [u, v] 

G ' [u, v]
H [u, v]

(1.12)

Qua ®ã ta thÊy, đáp ứng tần số của bộ lọc ng-ợc là nghịch đảo của đáp
ứng tần số của hệ thu nhận ảnh. Nếu đánh giá đ-ợc mức nhiễu ta có thể xấp xỉ
gần hơn với ảnh nguyên gốc:
G ' [u, v] N[u, v]
G[u, v]

với N[u,v] là nhiễu -ớc l-ợng
H [u, v] H [u, v]

(1.13)

Nếu H[u,v]=0 hoặc khá nhỏ thì hệ thống khôi phục sẽ không ổn định (
hàm HT[u,v] không xác định). Đây chính là nh-ợc điểm của ph-ơng pháp lọc
ng-ợc. Tuy bộ lọc ng-ợc có khả năng ngăn nhiễu do hệ thống nhận ảnh gây ra
khá tốt nh-ng việc thiết kế bộ lọc này lại là khá phức tạp.
Lọc giả ng-ợc (Pseudoinverse filter) :

Kỹ thuật lọc này khắc phục đ-ợc nh-ợc điểm của kỹ thuật lọc ng-ợc là
làm cho hàm HT[u,v] luôn xác định:


×