GIÁO TRÌNH
NHẬN DẠNG VÀ XỬ LÝ ẢNH
Biên soạn: TS. Hồng Văn Dũng
Tháng 5 năm 2018
Lời nói đầu
Cùng với sự phát triển nhanh chóng của khoa học cơng nghệ, các kỹ thuật dựa
trên trí tuệ nhân tạo và thị giác máy tính ứng dụng trong các hệ thống thông minh đạt
được những kết quả vượt bậc, có nhiều triển vọng. Cuộc cách mạng cơng nghiệp lần
thứ 4 (Industry 4.0) hiện đang diễn ra tại trên phạm vi tồn cầu, đặc biệt ở các nước có
nền khoa học kỹ thuật phát triển…. Industry 4.0 tập trung vào sản xuất và dịch vụ
thông minh chủ yếu dựa trên các hệ thống tương tác thực ảo, các hệ thống thông minh
dần thay thế con người. Nền tảng của các hệ thống thơng minh có thể nói bắt nguồn từ
lĩnh vực trí tuệ nhân tạo và thị giác máy. Trong đó, thị giác máy là một trong những
giác quan máy quan trọng nhất giúp cho quá trình thu nhận tín hiệu, xử lý, phân tích
nhằm đưa ra tri thức phục vụ các hệ thống ra quyết định.
Trong thời gian qua, các kỹ thuật mới trong lĩnh vực thị giác máy tính, mà cụ thể
hơn là xử lý ảnh và nhận dạng đã được nhiều nhà khoa học, tập đoàn công nghệ chú
trọng nghiên cứu, phát triển, làm thay đổi hướng tiếp cận truyền thống ví dụ như các
kỹ thuật học sâu. Vì thế, các kiến thức về xử lý ảnh, nhận dạng mẫu, trí tuệ nhân tạo,
học máy đã trở thành môn học quan trọng đối với sinh viên các chun ngành liên
quan đến khoa học máy tính, cơng nghệ thơng tin, tự động hóa trong các trường đại
học ở Việt Nam hiện nay. Tuy nhiên, tài liệu tiếng Việt cho sinh viên và những người
quan tâm lại có giới hạn về cập nhật công nghệ, kỹ thuật. Giáo trình Nhận dạng và xử
lý ảnh nhằm cung cấp những kiến thức cơ bản về kỹ thuật xử lý hình ảnh cũng như
giới thiệu một số phương pháp trí tuệ nhân tạo được áp dụng phân tích hình ảnh và
nhận dạng mẫu. Kỹ thuật học sâu là hướng tiếp cận mới đang được nhiều nhà khoa học
nghiên cứu và các công ty công nghệ quan tâm và khả năng ứng dụng cao trong thực
tế cũng được trình bày trong tài liệu này.
Nội dung giáo trình gồm 7 chương lần lượt trình bày những kiến thức nhập mơn
về xử lý ảnh, các phương pháp nâng cao trong phân tích, nhận dạng mẫu, kỹ thuật học
sâu như: các phép biến đổi, điều chỉnh nâng cao chất lượng ảnh; biến đổi ảnh màu, ảnh
đa mức xám, tốn tử tích chập, các bộ lọc ảnh và phép biến đổi khơng gian ảnh, biến
đổi hình thái học ứng dụng trong phân tích vùng ảnh, trích biên đối tượng; phương
pháp phân đoạn ảnh theo phân ngưỡng thủ cơng, phân ngưỡng tự động; phương pháp
phân tích ảnh như phân đoạn ảnh bằng thuật toán phân cụm k-means, Meanshift,
Watershed, trích chọn đặc trưng cơ bản như kỹ thuật trích chọn cạnh, điểm chính
(keypoint) và mơ tả vùng đặc trưng vùng ảnh. Giáo trình cũng giới thiệu một số
phương pháp trích chọn đặc trưng nâng cao như SIFT, SUFT, HOG, Haar-like feature;
phương pháp so khớp đặc trưng giữa các ảnh phục vụ phát hiện đối tượng tương đồng
và nhận dạng mẫu cùng với kỹ thuật lọc loại trừ nhiễu trong so khớp ảnh. Phần cuối
trình bày những kỹ thuật nhận dạng mẫu và phân loại đối tượng từ cách tiếp cận truyền
thống như cây quyết định, rừng ngẫu nhiên, boosting, máy phân loại hỗ trợ vector
SVM, mạng neural nhân tạo và đến kỹ thuật học sâu, mạng neural tích chập như mạng
LeNet, AlexNet, ZFNet, GooLeNet, VGGNet, R-CNN và kiến trúc mạng mô tả ngữ
nghĩa ảnh.
Tài liệu này được biên soạn dựa trên kinh nghiệm tích lũy qua q trình nghiên
cứu và giảng dạy của tác giả liên quan đến lĩnh vực thị giác máy tính, trí tuệ nhân tạo
và các hệ thống thơng minh. Hy vọng, giáo trình là tài liệu hữu ích phục vụ học tập,
tham khảo cho sinh viên các ngành liên quan đến khoa học máy tính, cơng nghệ thơng
tin, cũng như độc giả quan tâm đến lĩnh vực nhận dạng xử lý ảnh và ứng dụng trí tuệ
nhân tạo trong nhận dạng mẫu.
Tác giả xin chân thành cảm ơn các ý kiến đóng góp, hỗ trợ của đồng nghiệp và
đặc biệt là sự quan tâm của Lãnh đạo Trường Đại học Quảng Bình trong quá trình biên
soạn tài liệu này.
Trong quá trình biên soạn, giáo trình chắc chắn khơng thể tránh khỏi những thiếu
sót. Tác giả rất mong nhận được những ý kiến đóng góp của q thầy cơ, nhà nghiên
cứu, sinh viên và độc giả để tác giả có thể điều chỉnh hợp lý, kịp thời.
Góp ý xin gửi về:
Hồng Văn Dũng
Trường Đại học Quảng Bình
312 Lý Thường Kiệt, TP. Đồng Hới, Quảng Bình
Email:
Người biên soạn: Hồng Văn Dũng
MỤC LỤC
CHƯƠNG 1. NHẬP MÔN XỬ LÝ ẢNH ............................................................... 1
1.1. Tổng quan về xử lý ảnh ................................................................................... 1
1.1.1. Các khái niệm về ảnh số, điểm ảnh .......................................................... 1
1.1.2. Các thành phần trong hệ thống xử lý ảnh................................................. 3
1.1.3. Các ứng dụng............................................................................................ 4
1.2. Hệ màu và loại ảnh .......................................................................................... 4
1.2.1. Các hệ màu thông dụng ............................................................................ 4
1.2.2. Một số loại ảnh thông dụng ...................................................................... 7
1.3. Cấu trúc dữ liệu ảnh ........................................................................................ 9
1.3.1. Cấu trúc ảnh vector................................................................................... 9
1.3.2. Cấu trúc ảnh raster.................................................................................. 10
1.4. Một số định dạng ảnh phổ biến ..................................................................... 10
1.4.1. Định dạng ảnh TIFF ............................................................................... 11
1.4.2. Định dạng ảnh GIF ................................................................................. 11
1.4.3. Định dạng hình ảnh JPG......................................................................... 12
1.4.4. Định dạng ảnh BMP ............................................................................... 12
1.4.5. Định dạng ảnh PNG................................................................................ 13
1.4.6. So sánh các chuẩn định dạng.................................................................. 13
Câu hỏi và bài tập ................................................................................................. 13
CHƯƠNG 2. BIẾN ĐỔI XỬ LÝ ẢNH................................................................. 15
2.1. Khái niệm ...................................................................................................... 15
2.2. Các phép biến đổi trên điểm ảnh ................................................................... 16
2.2.1. Lược đồ ảnh............................................................................................ 16
2.2.2. Điều chỉnh mức sáng .............................................................................. 16
2.2.3. Điều chỉnh độ tương phản ...................................................................... 17
2.2.4. Cân bằng lược đồ ảnh............................................................................. 18
2.2.5. Biến đổi ảnh màu và đa mức xám .......................................................... 20
2.3. Các phương pháp xử lý ảnh thơng dụng........................................................ 22
2.3.1. Phương pháp tích chập ........................................................................... 22
2.3.2. Các kỹ thuật lọc thông dụng................................................................... 23
2.4. Các phép biển đổi toàn cục............................................................................ 28
2.4.1. Biến đổi cosin rời rạc.............................................................................. 28
2.4.2. Biến đổi Fourier rời rạc .......................................................................... 31
2.5. Biến đổi hình thái học.................................................................................... 34
2.5.1. Phần tử cấu trúc ...................................................................................... 34
2.5.2. Phép co ảnh – Erosion ............................................................................ 35
i
2.5.3. Phép giãn ảnh – Dilation ........................................................................ 36
2.5.4. Phép mở ảnh – Openning ....................................................................... 36
2.5.5. Phép đóng ảnh- Closing.......................................................................... 37
2.5.6. Phép biến đổi "Hit or miss" .................................................................... 37
2.5.7. Ứng dụng của kỹ thuật hình thái học ..................................................... 39
Câu hỏi và bài tập ................................................................................................. 43
CHƯƠNG 3. PHƯƠNG PHÁP PHÂN ĐOẠN ẢNH ........................................... 46
3.1. Tổng quan về phân đoạn ảnh......................................................................... 46
3.2. Phân đoạn bằng ngưỡng ................................................................................ 47
3.2.1. Phân ngưỡng thủ công ............................................................................ 48
3.2.2. Phân đoạn ngưỡng tự động..................................................................... 48
3.2.3. Phân đoạn bằng kỹ thuật Otsu ................................................................ 53
3.3. Phân đoạn bằng k-means ............................................................................... 55
3.4. Kỹ thuật phân đoạn MeanShift...................................................................... 58
3.5. Phân đoạn bằng kỹ thuật Watershed ............................................................. 59
3.6. Phân đoạn phân cấp ....................................................................................... 62
Câu hỏi và bài tập ................................................................................................. 63
CHƯƠNG 4. TRÍCH CHỌN ĐẶC TRƯNG CƠ BẢN ........................................ 65
4.1. Các khái niệm ................................................................................................ 65
4.1.1. Đặc trưng và trích chọn đặc trưng ảnh ................................................... 65
4.1.2. Đặc trưng mức thấp ................................................................................ 66
4.1.3. Đặc trưng mức cao ................................................................................. 67
4.2. Kỹ thuật trích chọn đặc trưng cạnh ............................................................... 67
4.2.1. Trích chọn biên bằng tốn tử Sobel........................................................ 68
4.2.2. Trích chọn biên bằng tốn tử Prewitt ..................................................... 69
4.2.3. Trích chọn biên bằng tốn tử Robert...................................................... 70
4.2.4. Trích chọn biên bằng phương pháp Canny ............................................ 70
4.3. Kỹ thuật trích chọn đặc trưng điểm chính ..................................................... 72
4.3.1. Trích xuất điểm góc................................................................................ 72
4.3.2. Trích xuất đặc trưng đốm ....................................................................... 77
Câu hỏi và bài tập ................................................................................................. 80
CHƯƠNG 5. ĐẶC TRƯNG NÂNG CAO VÀ SO KHỚP ẢNH ......................... 83
5.1. Giới thiệu chung ............................................................................................ 83
5.2. Mô tả đặc trưng SIFT .................................................................................... 83
5.2.1. Đặc trưng SIFT....................................................................................... 83
5.2.2. Q trình xử lý SIFT .............................................................................. 84
5.3. Mơ tả đặc trưng SURF .................................................................................. 89
ii
5.3.1. Giới thiệu về đặc trưng SURF................................................................ 89
5.3.2. Phát hiện keypoint .................................................................................. 90
5.3.3. Mô tả đặc trưng SURF ........................................................................... 92
5.4. Mô tả đặc trưng Haar..................................................................................... 94
5.4.1. Đặc trưng Haar ....................................................................................... 94
5.4.2. Trích xuất đặc trưng Haar....................................................................... 94
5.4.3. Mở rộng đặc trưng Haar ......................................................................... 95
5.5. Mô tả đặc trưng HOG.................................................................................... 97
5.5.1. Đặc trưng HOG ...................................................................................... 97
5.5.2. Q trình trích rút đặc trưng HOG ......................................................... 98
5.5.3. Các biến thể của biểu diễn đặc trưng HOG.......................................... 101
5.6. So khớp ảnh ................................................................................................. 102
5.6.1. Giới thiệu về so khớp ảnh..................................................................... 102
5.6.2. Thuật toán Brute- Force........................................................................ 103
5.6.3. So khớp ảnh dùng bộ mô tả SIFT......................................................... 103
5.6.4. So khớp ảnh dùng bộ mô tả SURF ....................................................... 104
5.6.5. So khớp dựa vào điểm góc Harris ........................................................ 105
5.7. Kỹ thuật lọc nhiễu trong so khớp ảnh ......................................................... 106
5.7.1. Lọc theo bình phương tối thiểu ............................................................ 106
5.7.2. Phương pháp đồng thuận ngẫu nhiên ................................................... 107
5.8. Ví dụ áp dụng trong nhận dạng ................................................................... 110
Câu hỏi và bài tập ............................................................................................... 112
CHƯƠNG 6. KỸ THUẬT NHẬN DẠNG .......................................................... 114
6.1. Giới thiệu chung .......................................................................................... 114
6.2. Cây quyết định............................................................................................. 115
6.2.1. Khái niệm ............................................................................................. 115
6.2.2. Thuật toán ID3 xây dựng cây quyết định ............................................. 115
6.2.3. Thuật toán C4.5 xây dựng cây quyết định............................................ 118
6.2.4. Rừng ngẫu nhiên................................................................................... 119
6.3. Kỹ thuật Boosting........................................................................................ 120
6.4. Máy phân loại vector hỗ trợ ........................................................................ 122
6.4.1. Giới thiệu .............................................................................................. 122
6.4.2. Phân loại tuyến tính .............................................................................. 123
6.4.3. Phân loại tuyến tính lề mềm ................................................................. 125
6.4.4. Hàm nhân.............................................................................................. 126
6.4.5. Tuyến tính hóa phân loại phi tuyến ...................................................... 127
6.5. Mạng neural nhân tạo .................................................................................. 128
iii
6.6. Kỹ thuật trượt window trong nhận dạng ..................................................... 131
6.6.1. Vấn đề trượt window ............................................................................ 131
6.6.2. Gom các mẫu nhận dạng chồng lấp...................................................... 132
6.6.3. Huấn luyện mơ hình ............................................................................. 133
6.6.4. Nhận dạng đối tượng trong ảnh ............................................................ 134
Câu hỏi và bài tập ............................................................................................... 135
CHƯƠNG 7. KỸ THUẬT HỌC SÂU................................................................. 137
7.1. Tổng quan về học sâu .................................................................................. 137
7.2. Mạng neural sâu .......................................................................................... 139
7.3. Mạng neural tích chập ................................................................................. 140
7.3.1. Lớp tích chập ........................................................................................ 141
7.3.2. Lớp pooling .......................................................................................... 142
7.3.3. Lớp hiệu chỉnh...................................................................................... 144
7.3.4. Lớp chuẩn hóa ...................................................................................... 145
7.3.5. Lớp kết nối đầy đủ:............................................................................... 145
7.3.6. Lớp Dropout: ........................................................................................ 146
7.3.7. Lớp đầu ra............................................................................................. 146
7.3.8. Tạo mạng học sâu với Matlab .............................................................. 147
7.4. Một số kiến trúc mạng tích chập học sâu .................................................... 150
7.4.1. Mạng LeNet .......................................................................................... 150
7.4.2. Mạng AlexNet ...................................................................................... 151
7.4.3. Mạng ZFNet ......................................................................................... 153
7.4.4. Mạng GoogLeNet ................................................................................. 154
7.4.5. Mạng VGGNet ..................................................................................... 156
7.4.6. Mạng R-CNN ....................................................................................... 157
7.5. Mô tả ngữ nghĩa ảnh với học sâu ................................................................ 159
7.5.1. Bộ mơ tả ảnh......................................................................................... 159
7.5.2. Mơ hình suy diễn mối liên kết.............................................................. 160
7.5.3. Mơ hình sinh diễn tả ảnh ...................................................................... 161
Câu hỏi và bài tập ............................................................................................... 161
Tài liệu tham khảo .................................................................................................. 163
iv
CHƯƠNG 1.NHẬP MÔN XỬ LÝ ẢNH
Chương này giới thiệu kiến thức nhập môn về xử lý ảnh như: Những khái niệm liên
quan đến ảnh kỹ thuật số, các thành phần hệ thống xử lý ảnh, các loại hệ màu cơ bản,
loại ảnh thông dụng, các cấu trúc dữ liệu ảnh và kiểu định dạng phổ biến trong ảnh số.
1.1. Tổng quan về xử lý ảnh
1.1.1. Các khái niệm về ảnh số, điểm ảnh
1.1.1.1. Ảnh số
Ảnh số (digital image) có thể được xem là một biểu diễn dữ liệu rời rạc thể hiện
thông tin về không gian và cường độ màu). Ảnh số gồm một tập hợp hữu hạn các phần
tử được biểu diễn bởi giá trị số. Ảnh số có thể được biểu diễn dưới dạng ma trận hai
chiều, mỗi phần tử của ảnh số gọi là điểm ảnh (pixel)[1]. Tùy thuộc vào độ phân giải
là cố định hay biến đổi mà điểm ảnh có thể được biểu diễn dưới dạng vector hoặc dạng
bitmap. Ảnh số được xác định theo mảng hai chiều biểu diễn cường độ sáng của điểm
ảnh với giá trị cố định, cũng có thể được xác định theo hàm hai chiều f(x, y), trong đó x
và y là các tọa độ trong không gian và độ lớn (amplitude) của hàm f được gọi là độ
sáng (intensity) hay độ xám (gray level) của ảnh tại điểm đó.
Ảnh rời rạc hai chiều, I(m,n) biểu diễn thông tin thu được từ cảm biến của một
chuỗi các vị trí cố định (m = 1, 2, ... , M; n= 1, 2, ... , N) trong tọa độ Cartesian hai
chiều được biến đổi từ tín hiệu liên tục khơng gian 2 chiều thơng qua q trình xử lý
tần số liên tục sang miền rời rạc.
1.1.1.2. Điểm ảnh
Thuật ngữ điểm ảnh được dịch ra từ thuật ngữ gốc là pixel (viết tắt cụm từ picture
element) nghĩa là một phần tử ảnh[1]. Phần tử ảnh được xác định theo toạ độ (x, y)
tương ứng với số thứ tự cột và hàng trong ảnh. Giá trị mỗi phần tử ảnh được xác định
bởi giá trị cường độ mức xám hoặc màu nhất định. Kích thước và khoảng cách giữa
các điểm ảnh được biểu diễn thích hợp sao cho mắt người cảm nhận sự liên tục về
không gian và mức xám (màu) của ảnh số gần với như hình ảnh của nó trong khơng
gian thật. Số điểm ảnh trên mỗi diện tích biểu diễn xác định độ phân giải của ảnh số.
Ảnh có độ phân giải càng cao thì càng thể hiện rõ nét các đặc điểm của hình ảnh, càng
làm cho hình ảnh trở nên gần với thực tế thực và sắc nét hơn,...
1.1.1.3. Các dạng ảnh
Nội dung thông tin của các điểm ảnh có thể được xem xét dưới nhiều khía cạnh
khác nhau tùy thuộc vào dạng của ảnh. Ví dụ ảnh màu (colour image), ảnh đa mức
xám (grey image), ảnh nhị phân (binary image), ảnh hồng ngoại (infrared image),...
1
– Ảnh màu: Ảnh màu thường là các ảnh chứa thông tin về đối tượng được biểu diễn
dưới dạng màu sắc mà mắt thường có thể quan sát được. Mỗi điểm ảnh có cấu trúc
gồm nhiều kênh màu khác nhau, thơng thường trong máy tính, nó biểu diễn ba lớp
màu cơ bản RGB, gồm màu đỏ (red), xanh lá cây (green) và xanh lam (blue).
– Ảnh đa mức xám: Ảnh đa mức xám thường biểu diễn thông tin liên quan đến
cường độ đa mức xám của đối tượng trong không gian mà không được thể hiện bởi
màu sắc thực của nó.
- Ảnh nhị phân: Ảnh biểu diễn đối tượng bởi hai mức 0 hoặc 1, thường được dùng
để biểu diễn, phân biệt sự xuất hiện đối tượng và nền trong mỗi bức ảnh.
- Ảnh hồng ngoại: Biểu diễn trực quan quang phổ, liên quan đến phổ điện từ. Ảnh
hồng ngoại cung cấp thông tin ảnh dựa trên phản xạ ánh sáng hồng ngoại hoặc bức xạ
hồng ngoại mà các đối tượng trong khung nhìn phát ra. Dựa vào khả năng thu nhận
phản xạ hoặc bức xạ hồng ngoại mà các loại camera hồng ngoại thu được hình ảnh
trong điều kiện khơng có ánh sáng nhìn thấy hoặc ánh sáng kém.
1.1.1.4. Mức xám
Giá trị mức xám là kết quả của ánh xạ giá trị độ sáng của một điểm ảnh màu trong
không gian thực với một giá trị số nguyên dương thể hiện mức độ sáng tối của điểm
ảnh đó. Các thang giá trị mức xám thường dùng là 2, 16, 32, 64, 128, 256. Ảnh đa mức
xám thường dùng là 256, như vậy mức xám thường xác định trong khoảng [0, 255] tuỳ
thuộc vào giá trị mà mỗi điểm ảnh được biểu diễn.
1.1.1.5. Độ phân giải của ảnh
Kính thước của lưới pixel hai chiều cùng với kích thước dữ liệu lưu trữ cho mỗi
pixel xác định độ phân giải không gian và chất lượng màu của mỗi ảnh[1]. Xét về mặt
khơng gian của độ phân giải thì số cột và số hàng của ảnh xác định số lượng pixel
được sử dụng để biểu diễn hình ảnh thu được từ thế giới thực. Như vậy, độ phân giải
không gian (spatial resolution) của ảnh là mật độ pixel được xác định trên một ảnh số.
Một số độ phân giải thông thường được sử dụng trong các thiết bị hiển thị và lĩnh vực
xử lý ảnh như 640× 480, 800 × 600, 1024 × 768 (HD), 192 × 1080 (full HD), 3840 ×
2160 (UHD),…
Độ phân giải bit liên quan đến chất lượng ảnh, nó được định nghĩa là số lượng các
giá trị khác nhau có thể biểu diễn về cường độ sáng hoặc màu sắc. Ví dụ ảnh nhị phân
thì chỉ biểu diễn được hai trạng thái giá trị khác nhau (đen hoặc trắng) mỗi pixel loại
này dùng 1 bit, ảnh đa mức xám dùng 8bit cho mỗi pixel, biểu diễn được 256 giá trị
khác nhau từ màu đen (giá trị 0) đến trắng (giá trị 255), ảnh màu RGB dùng 24 bit có
thể biểu diễn được hơn 16 triệu màu (224=16.777.216).
Độ phân giải bit của một ảnh không nhất thiết phải tương ứng với độ phân giải của
hệ thống ảnh. Thông thường các máy ảnh hiện đại ngày nay tự động điều chỉnh để đáp
2
ứng tối đa và tối thiểu của trường ảnh thu nhận được và phạm vi này được chia tự
động thành một số lượng phù hợp các bit, ví dụ như chia thành N mức. Trong trường
hợp như vậy, độ phân giải bit của ảnh thường thấp hơn độ chính xác của thiết bị.
1.1.2. Các thành phần trong hệ thống xử lý ảnh
Một hệ thống xử lý ảnh thường bao gồm các thành phần chính như thiết bị phần
cứng (máy ảnh) để chụp hình và lưu trữ dữ liệu, các cơng cụ phần mềm phục vụ xử lý
và giải quyết yêu cầu của chức năng hệ thống đề ra. Trong lĩnh vực khoa học máy tính,
hệ thống xử lý ảnh là đối tượng nghiên cứu liên quan đến kỹ thuật thị giác máy
(computer vision), là quá trình biến đổi từ một ảnh ban đầu được thu nhận từ thiết bị
sang một khơng gian mới sao cho làm nổi bật đặc tính dữ liệu, thuận lợi cho q trình
xử lý thơng tin và nâng cao độ chính xác[2]. Một hệ thống xử lý ảnh thường gồm một
số thành phần chính sau:
Thu
Tiền
Trích chọn
Phân loại, nhận
nhận
xử lý
đặc trưng
dạng mẫu
Ra
Biểu diễn
quyết định
tri thức
Hình 1.1. Sơ đồ tổng quát hệ thống xử lý ảnh
Thu nhận ảnh là việc hình ảnh về thế giới thực được thu nhận và chuyển qua tín
hiệu ảnh rời rạc thơng qua máy ảnh kỹ thuật số hoặc các thiết bị thu hình ảnh khác.
Tiền xử lý là bước xử lý trên ảnh đầu vào nhằm khử nhiễu, làm nổi bật một số tính
chất của ảnh nhằm nâng cao chất lượng các bước xử lý sau.
Trích chọn đặc trưng là q trình biến đổi dữ liệu ảnh đầu vào thành tập các đặc
trưng. Các đặc trưng thường có đặc tính phân biệt cao của mẫu đầu vào giúp cho việc
phân biệt mẫu dữ liệu ảnh dễ dàng hơn nhằm nâng cao chất lượng phân loại mẫu so
với xử lý dữ liệu thô trên giá trị pixel ảnh. Việc trích chọn đặc trưng cũng có thể làm
giảm kích thước thể hiện thơng tin trong ảnh trong khi dữ liệu về đặc trưng ảnh có tính
phân biệt cao.
Phân loại, nhận dạng mẫu là q trình xử lý dữ liệu bằng các kỹ thuật, phương
pháp phân tích đặc trưng để phân loại mẫu về các nhóm có một số tính chất chung.
Các phương pháp phân loại, nhận dạng mẫu thường liên quan đến kỹ thuật học máy,
bao gồm cả học có giám sát và học khơng có giám sát.
Biểu diễn tri thức là bước thể hiện mức cao của biểu diễn dữ liệu, các mẫu dữ liệu
sau khi phân loại, nhận dạng được biểu diễn dưới dạng tri thức giúp hệ thống có khả
năng “hiểu biết” ngữ nghĩa của nó theo từng kiểu ứng dụng khác nhau trong hệ thống
trí tuệ nhân tạo và hệ thống thông minh.
3
Ra quyết định là bước cuối cùng của một hệ thống trong lĩnh vực hệ thống thông
minh. Các mẫu được biểu diễn dưới dạng tri thức và được suy luận ngữ nghĩa để đưa
ra các quyết định thực hiện một nhiệm vụ nào đó. Ví dụ trong hệ thống robot di
chuyển tự động, khi phát hiện chướng ngại vật, robot sẽ tự động ra quyết định tìm
kiếm đường đi mới và di chuyển theo đường đi khả thi.
1.1.3. Các ứng dụng
Ngày nay, với sự hỗ trợ của các hệ thống tính tốn lớn, các thuật tốn tiên tiến ra
đời cho phép máy tính có thể hiểu biết và quyết định tốt hơn con người trong một số
lĩnh vực nhất định. Ví dụ hệ thống xử lý ảnh bằng mạng neural nhân tạo học sâu có thể
nhận dạng, phân loại các kiểu đối tượng khác nhau tốt hơn và nhanh hơn con người.
Xử lý ảnh có rất nhiều ứng dụng trong hầu hết các lĩnh vực của đời sống xã hội dân sự,
an ninh quốc phịng, hàng khơng vũ trụ như:
Lĩnh vực quân sự, an ninh, quốc phòng: Tự động nhận dạng, phát hiện tội phạm,
theo vết và truy tìm thủ phậm thơng qua hình ảnh hiện trường phạm tội và các vấn đề
hỗ trợ do tìm tội phạm qua hệ thống giám sát an ninh toàn cầu, quốc gia.
Trong lĩnh vực y tế: Phân tích hình ảnh, chẩn đốn bệnh qua các loại hình ảnh tia
Gamma, X-quang, scan PET/CT (cắt lớp phát xạ), ảnh cực tím và đặc biệt với sự thành
công của kỹ thuật học sâu đã giúp cho các chẩn đốn hình ảnh y học đạt kết quả cao.
Trong lĩnh vực viễn thám, vũ trụ: Thám hiểm vũ trụ, do thám, phân tích và phát
hiện vật thể trong vũ trụ.
Trong lĩnh vực giao thông, dân sự: Các hệ thống khôi phục ảnh, chỉnh sửa, điều
chỉnh độ phân giải, xử lý màu sắc, mã hóa và truyền tin, nhận dạng và phân loại hành
động trong các hệ thống giám sát an ninh; hệ thống xe không người lái, giám sát sản
phẩm sản xuất công nghiệp, robot phục vụ dân sự, giám sát bãi xe thơng minh, kiểm
sốt- điều khiển giao thông thông minh.
1.2. Hệ màu và loại ảnh
1.2.1. Các hệ màu thông dụng
1.2.1.1. Hệ màu RGB
Ảnh số trong hệ màu RGB (Red- Green- Blue) được biểu diễn bởi 3 kênh màu, gồm
đỏ (red), xanh lá cây (green), xanh lam (xanh da trời - blue). Hệ màu RGB là hệ màu
được sử dụng trong kỹ thuật hiển thị hình ảnh trên thiết bị điện tử như máy tính, TV.
Trong biểu diễn và xử lý hệ màu RGB, mỗi kênh màu được mã hóa bằng 1 byte (8
bit) thể hiện 256 giá trị cường độ sáng khác nhau với dải giá trị trong khoảng từ 0 đến
255. Trường hợp mỗi kênh màu mã hóa bằng 1 byte được gọi là ảnh 24 bit màu (8 bit
× 3 kênh- 24 bit). Ảnh màu 24 bit có thể mã hóa được 256× 256× 256 = 16.777.216
giá trị màu khác nhau.
4
Hình 1.2. Phối trộn màu trong hệ màu R-G-B
Một số màu đặc biệt được thể hiện trong bảng sau:
Màu
Đen
Trắng
Đỏ
Xanh lục
Xanh lam
Vàng
Xanh ngọc
Hồng cánh sen
Giá trị
[0, 0, 0]
[255, 255, 255]
[255, 0, 0]
[0, 255, 0]
[0, 0, 255]
[255, 255, 0]
[0, 255, 255]
[255, 0, 255]
Bảng 1.1. Một số màu đặc biệt
1.2.1.2. Hệ màu HSV
Hệ màu HSV (Hue Saturation Value) có tên gọi khác là là HSI (Hue Saturation
Intensity) hoặc HSL (Hue Saturation Lightness). Hệ màu HSV gồm bộ ba giá trị H, S,
V. Mô hình hệ màu này do tác giả Alvy Ray Smith đề xuất năm 1978[3]. Hệ màu này
dựa trên các đặc tính màu trực quan được như sắc (tint), bóng (shade) và tông màu
(tone) hoặc họ màu, độ thuần khiết và độ sáng của hình ảnh trong thực tế để biểu diễn.
Hình 1.3. Khơng gian màu H-S-V1
Trong mơ hình này, một hệ tọa độ hình trụ được dùng để biểu diễn không gian màu:
– Hue là giá trị thể hiện sắc màu của hình ảnh (hay cịn gọi là vùng màu), sắc màu
thông thường được dùng để chỉ tên gọi của màu như đỏ, lục, lam, chàm, tím,… Các
sắc màu khác nhau được biểu diễn trên một vòng tròn chỉ màu, giá trị từ 0 đến 360°.
- Saturation là giá trị thể hiện mức độ bão hòa màu. Giá trị của nó để chỉ mức độ
thuần khiết của màu. Nói cách khác, khi ảnh có độ bão hịa cao, màu sẽ trong và rực rỡ
hơn giá trị bão hòa thấp. Giá trị của S (saturation) nằm trong đoạn [0, 1], trong đó S
1
/>
5
đạt giá trị cao nhất (giá trị 1) là màu tinh khiết nhất, hồn tồn khơng pha trắng, nghĩa
là S càng lớn thì màu càng tinh khiết, nguyên chất.
- Value là giá trị đo độ sáng của màu (intensity hoặc lightness). Thành phần V có
giá trị trong đoạn [0, 1] với giá trị đặt biệt V = 0 thì ảnh là hoàn toàn tối (đen), ngược
lại V = 1 là hồn tồn sáng. Giá trị V càng lớn thì màu càng sáng.
1.2.1.3. Hệ màu Lab
Không gian màu Lab thể hiện mơ hình tốn học của tất cả các màu mà con người
cảm nhận được trong không gian 3 chiều với giá trị L thể hiện cho màu sáng, a và b là
các thành phần màu xanh đỏ (green–red) và xanh vàng (blue–yellow). Hệ màu Lab
được xem là mơ hình màu độc lập đối với thiết bị và thường được sử dụng làm cơ sở
tham chiếu khi chuyển đổi từ một không gian màu này sang một không gian màu khác.
Hệ màu này sau đó phát triển theo các phiên bản CIELab (đề xuất bởi Hunter) và
CIEL*a*b* (đề xuất năm 1976). Theo mơ hình Lab, tất cả các màu có cùng một độ
sáng sẽ nằm trên cùng một mặt phẳng có dạng hình trịn theo 2 trục a và b. Màu có giá
trị a dương thì ngả đỏ, màu có giá trị a âm thì ngả lục. Tương tự b dương thì ngả vàng
và b âm thì ngả lam. Cịn độ sáng của màu thì thay đổi theo trục dọc.
Hình 1.4. Thể hiện màu trong không gian màu Lab2
1.2.1.4. Hệ màu YCbCr
Các hệ màu YCbCr và Y'CbCr còn được gọi với các tên khác như YCBCR và
Y'CBCR tương ứng, hai hệ màu này là một họ không gian màu được sử dụng nhiều
trong các hệ thống video, ảnh kỹ thuật số và các hệ thống thiết bị phát hình điện tử.
Trong hệ màu YCbCr, thành phần Y đại diện cho độ sáng của ảnh và Cb và Cr là các
thành phần màu tương ứng với màu xanh lam (blue) và màu đỏ (red). Hệ màu YCbCr
trong ảnh kỹ thuật số tương đương với hệ màu YUV trong ảnh tín hiệu tuần tự
(analog). Không gian màu YCbCr được định nghĩa trong hệ tọa độ tương ứng với
không gian màu RGB. Giá trị các kênh màu R, G và B tại mỗi pixel được sử dụng để
tổng hợp lại với nhau tạo ra giá trị đơn của thành phần Y biểu diễn độ sáng chung tại
pixel tương ứng. Các thành phần Cb và Cr được tổng hợp từ các giá trị của thành phần
Y và các kênh màu B và R tương ứng trong hệ màu RGB.
2
/>
6
Hình 1.5. Mặt phẳng thể hiện màu theo Cb và Cr với hệ số Y'=0.5(3)
1.2.2. Một số loại ảnh thông dụng
1.2.2.1. Ảnh màu
Ảnh màu được hiểu chung là ảnh thể hiện các đối tượng theo màu sắc của nó mà
mắt thường cảm nhận được. Nói cách khác, ảnh màu được hiểu là một ảnh chứa một
hoặc nhiều kênh màu xác định màu sắc tại các vị trí cụ thể của ảnh I(x,y)[1]. Theo
Thomas Young thì ảnh màu được tổ hợp từ 3 màu cơ bản là đỏ (R-red), xanh lục (Ggreen), xanh lam (B-blue) và thường thu nhận trên các dải băng tần khác nhau. Không
gian màu RGB thường được dùng nhiều trong các thiết bị hiển thị điện tử so với các
không gian màu khác như HSV, YCbCr. Một ảnh màu thường được lưu trữ trong bộ
nhớ như là một bản đồ rapter hay bản đồ pixel (bitmap) bởi một mảng hai chiều với
mỗi phần tử là bộ ba giá trị màu tương ứng với mỗi kênh màu. Trong ảnh RGB, thông
thường mỗi kênh màu dùng 8 bit để để biểu diễn cho một điểm ảnh, vậy một điểm ảnh
màu cần 24 bit tương ứng với 3 kênh màu thành phần. Giá trị mỗi kênh màu được chia
thành n mức màu khác nhau tương ứng từ 0 đến n-1, nếu 8 bit thì có 256 từ 0 đến 255.
Mỗi giá trị thể hiện cường độ sáng của kênh màu tương ứng. Trong hệ màu RGB, việc
lưu trữ ảnh màu theo từng kênh màu riêng biệt rất dễ dàng.
Hình 1.6. Tạo màu theo nguyên lý R-G-B4
1.2.2.2. Ảnh đa mức xám
Trong kỹ thuật xử lý ảnh, ảnh đa mức xám (grey image) còn được gọi là ảnh đơn
sắc (monochromatic). Ảnh đa mức xám dùng một kênh để thể hiện cường độ sáng của
điểm ảnh. Mỗi điểm ảnh có một giá trị mức xám độ sáng từ màu đen (giá trị nhỏ nhất
3
4
/> />
7
0) đến màu trắng (giá trị lớn nhất). Như vậy, khác với ảnh màu RGB, ảnh đa mức xám
chỉ dùng một thành phần giá trị nên nếu dùng cùng độ bit để mã hóa cho mỗi thành
phần thì ảnh đa mức xám có kích thước bằng 1/3 so với ảnh màu RGB.
Một số loại ảnh đa mức xám phổ biến phân theo kích thước bit dùng cho mỗi pixel:
- Ảnh 256 mức xám: Loại ảnh này cần dùng 8 bit cho mỗi điểm ảnh, có giá trị nằm
trong khoảng [0, 255] tương ứng với biến đổi cường độ sáng từ đen qua trắng.
- Ảnh 8 mức xám: Loại ảnh này cần dùng 3 bit cho mỗi điểm ảnh, giá trị nằm trong
khoảng [0, 7]. Như vậy, loại ảnh này có độ phân giải màu thấp hơn so với loại ảnh
8bit. Giá trị điểm ảnh bằng 0 nghĩa là điểm ảnh đó tối (đen), giá trị điểm ảnh lớn nhất
nghĩa là điểm ảnh đó trắng. Giá trị điểm ảnh càng lớn thì điểm ảnh đó càng sáng.
- Ảnh 2 mức xám: Mỗi pixel chỉ biểu diễn 2 mức cường độ sáng tương ứng với đen
(0) và trắng (1). Để tránh nhầm lẫn ảnh đen trắng với ảnh đa mức xám, người ta
thường gọi là ảnh nhị phân hay ảnh đen trắng nhị phân. Như vậy mỗi pixel chỉ cần
dùng 1 bit để biểu diễn. Ảnh đen trắng thường được dùng để biểu diễn đối tượng và
nền trong ảnh.
Trong một số trường hợp, màu sắc của hình ảnh khơng quan trọng và màu có thể
nhạy cảm với các nguồn sáng mà chỉ cần biểu diễn hình dáng theo mức độ sáng tối của
đối tượng trong hình ảnh thì ảnh đa mức xám được sử dụng để giảm dung lượng lưu
trữ và giảm thiểu ảnh hưởng của nguồn sáng.
a)
b)
Hình 1.7. Biểu diễn ảnh trong các loại ảnh: (a) ảnh màu RGB, (b) ảnh đa mức xám
1.2.2.3. Ảnh đen trắng
Hình 1.8. Ảnh nhị phân trong biểu diễn cạnh
Như đã đề cập ở mục trước, ảnh đen trắng là trường hợp đặc biệt của ảnh đa mức
xám chỉ gồm 2 màu là đen và trắng, thường gọi là ảnh nhị phân. Ảnh nhị phân khá đơn
8
giản, các phần tử ảnh có thể coi như các phần tử nhị phân. Ảnh nhị phân thường được
dùng để biểu diễn trạng thái đối tượng, phân biệt đối tượng trong ảnh với nền, hoặc để
biểu diễn các đường biên đối tượng, vùng ảnh.
1.2.2.4. Ảnh quang phổ
Ảnh quang phổ là trường hợp tổng quát của hình ảnh với các loại tín hiệu tương ứng
với các loại bước sóng đặc biệt nào đó, bao gồm cả các loại bước sóng nhìn thấy (đối
với ảnh số thơng thường). Ảnh quang phổ có thể biểu diễn dưới dạng ảnh màu hoặc
ảnh đa mức xám, ảnh nhị phân. Có nhiều loại ảnh quang phổ khác nhau như ảnh quang
phổ X-ray, ảnh quang phổ hồng ngoại,… Ảnh phổ hồng ngoại là hình ảnh thu được từ
tia hồng ngoại do bức xạ điện từ có bước sóng dài hơn ánh sáng nhìn thấy nhưng ngắn
hơn tia bức xạ vi ba. Hồng ngoại có nghĩa là bước sóng ngồi mức đỏ, là bước sóng
dài nhất trong ánh sáng nhìn thấy được.
(a)
(b)
Hình 1.9. Ảnh hồng ngoại: (a) ảnh thấy bằng mắt thường, (b) bức xạ hồng ngoại5
Hiện nay loại camera hồng ngoại trở nên phổ biến, đặc biệt là các loại camera giám
sát an ninh, camera trong các hệ thống tự động hóa. Camera hồng ngoại có khả năng
thu bức xạ hồng ngoại để chuyển đổi qua ảnh hiển thị trong ngưỡng nhìn thấy bằng
mắt thường. Do vậy, camera hồng ngoại được sử dụng nhiều trong các ứng dụng ban
đêm và các điều kiện thiếu ảnh sáng.
1.3. Cấu trúc dữ liệu ảnh
Trong tổ chức lưu trữ và xử lý hình ảnh có hai dạng cấu trúc dữ liệu cơ bản là dạng
ảnh bitmap (hay còn gọi là raster) và dạng ảnh vector[4].
1.3.1. Cấu trúc ảnh vector
Xét về mặt cấu trúc tổ chức, ảnh vector được tạo nên từ những yếu tố chính của
hình học như điểm rời rạc, các đường thẳng, đường cong, đa giác và các vùng tương
ứng với các đối tượng. Trên cơ sở đó vector được tạo thành dựa trên những biểu thức
toán học (hoặc xấp xỉ), các vector này đi qua các điểm chính với mỗi điểm có một tọa
độ x, y nhất định trên hệ trục tọa độ. Nhờ vậy, các điểm ảnh chi tiết trên đối tượng khi
phóng sẽ được nội suy dựa vào những điểm chính và biểu thức tốn học để tính giá trị
điểm ảnh giữa các điểm chính.
5
/>
9
Hình 1.10. Ảnh vector khi phóng to vẫn giữ ngun được đối tượng
Ưu điểm của ảnh vector là khi phóng to hoặc thu nhỏ ảnh không bị vỡ, đường biên
giữa các vùng khơng bị hiện tượng răng cưa. Kích thước ảnh vector thường nhỏ, chứa
đối tượng đơn giản. Ảnh vector được dùng nhiều trong các trường hợp thiết kế logo,
icon avatar, ảnh nghệ thuật vector.
Hạn chế của ảnh vector là hình ảnh hiển thị thường khơng “tự nhiên”, có sự chuyển
màu và không sắc nét với ảnh ngoại cảnh, phân phối màu phức tạp.
1.3.2. Cấu trúc ảnh raster
Ảnh raster hay ảnh bitmap tổ chức biểu diễn theo cấu trúc lưới các điểm màu thể
hiện các pixel, nó được tạo ra bởi các điểm ảnh rời rạc, chứa giá trị mỗi màu nhất định.
Như vậy, ở độ phân giải chuẩn, ảnh raster nguyên gốc thể hiện hình ảnh đối tượng
giống với tự nhiên hơn ảnh vector do khơng phải tính dựa vào các biểu thức tốn học
để tính ra các điểm ảnh giữa trên cơ sở các điểm chính. Hầu hết các ảnh được lưu trữ
theo các định dạng thông thường đều theo dạng cấu trúc raster và các biến thể nén như
GIF, JPEG và PNG. Ảnh dạng raster thường có kích thước lớn hơn ảnh vector.
Hình 1.11. Ảnh raster khi phóng to bị vỡ hình và răng cưa
Khác với ảnh vector, ảnh raster khi phóng to thường bị hiện răng cưa, đối tượng
khơng sắc nét. Nếu ảnh gốc kích thước nhỏ, khi phóng quá to so với ban đầu đối tượng
thường không giữ lại được diện mạo, bị mờ.
1.4. Một số định dạng ảnh phổ biến
Ngày nay có rất nhiều kiểu định dạng ảnh khác nhau, một số loại định dạng được
dùng phổ biến như JPG, PNG, GIF, TIFF và BMP. Ứng với mỗi định dạng ảnh cụ thể
sẽ có các thuộc tính khác nhau, phương pháp mã hóa, lưu trữ khác nhau và được tạo ra
để sử dụng vào những mục đích khác nhau.
10
1.4.1. Định dạng ảnh TIFF
Định dạng TIFF (tagged image format file) được nghiên cứu và giới thiệu vào năm
1986 bởi công ty Aldus Corp., là một định dạng file ảnh chất lượng cao và được sử
dụng nhiều trong các ứng dụng thu nhận ảnh từ máy scan. Chuẩn định dạng TIFF là
một trong những tiêu chuẩn quan trọng, được sử dụng nhiều trong ngành công nghiệp
in ấn và xuất bản. File ảnh dạng TIFF thường có kích thước lớn hơn nhiều so với các
file ảnh nén theo chuẩn JPEG. Định dạng TIFF lưu trữ dữ liệu hình ảnh dạng nén hoặc
khơng nén và có thể sử dụng các kỹ thuật nén không mất dữ liệu hoặc mất thông tin.
Khác với định dạng JPEG, định dạng TIFF có thể có độ sâu màu từ 8 bits/channel đến
16 bits/channel và có thể có nhiều lớp ảnh được lưu trữ đồng thời trong cùng file ảnh
TIFF. Định dạng TIFF thường có các kiểu nén là LZW, ZIP và JPGE.
Đặc điểm của ảnh theo định dạng TIFF là thường không bị mất dữ liệu hình ảnh khi
lưu trữ ra thiết bị nhớ và đọc lại để xử lý trong máy tính, thường được sử dụng để biểu
diễn hình ảnh có màu sắc phức tạp. Ảnh định dạng TIFF sử dụng trong các trường hợp
đòi hỏi chất lượng cao như hình ảnh in ấn, phân tích mẫu.
1.4.2. Định dạng ảnh GIF
Định dạng GIF (graphics interchange format) được phát triển từ năm 1987, thường
được dùng trong biểu diễn và truyền hình ảnh trong mơi trường Web. Ảnh định dạng
GIF thường biểu diễn hình ảnh thành các frame để tạo ảnh chuyển động. Với mục đích
tạo ra định dạng trao đổi hình ảnh nên các file ảnh theo định dạng GIF thường có kích
thước nhỏ, chất lượng hình ảnh vừa phải, đáp ứng được trong mơi trường mạng. Khác
với JPGE, GIF sử dụng thuật tốn nén ít mất thơng tin (lossless) mà khơng làm giảm
chất lượng hình ảnh sau khi nén. Trong kỹ thuật nén ảnh theo chuẩn GIF, dữ liệu lưu
bằng cách sử dụng màu chỉ mục (index), mỗi hình ảnh có thể bao gồm 256 màu.
Một trong những ưu điểm của GIF là nén theo chuẩn Lossless nên ảnh thường
không bị mất dữ liệu khi nén, hình ảnh dạng GIF được tự động nhận biết trên hầu hết
các trình duyệt web. Vì chuẩn GIF lưu trữ dữ liệu theo bảng chỉ mục nên nó thường
được dùng để tạo các khung nhìn khác nhau tạo nên hiệu ứng chuyển động, vì hình
ảnh giữa các frame có mức độ tương tự cao nên sẽ tiết kiệm được không gian nhớ so
với video thông thường. Ảnh GIF sử dụng tốt đối với các trường hợp biểu diễn hình
ảnh đơn giản như những bản vẽ chỉ có nét, bảng màu sắc và những minh họa đơn giản,
tạo những hình ảnh động, hình ảnh Web khơng có q nhiều màu sắc, những ảnh
avatar có kích thước nhỏ. Hình mơ phỏng về hình ảnh chuyển động của hai con lắc
minh họa thí nghiệm của Newton được tạo thành từ các ảnh đơn lẻ. Phần lớn các đối
tượng đều không thay đổi, chỉ có hai quả cầu ở hai bên ngồi cùng chuyển động luân
phiên nhau. Các ảnh này được nén theo chuẩn GIF cho ảnh chất lượng cao trong khi
dung lượng file ảnh khơng tăng nhiều so với kích thước của một ảnh đơn lẻ vì phần
11
lớn dữ liệu ảnh đều giống nhau, chỉ một vài chi tiết nhỏ thay đổi, do vậy bảng chỉ mục
nhỏ chỉ cần tham chiếu đến các frame.
Hình 1.12. Ảnh động GIF được tạo thành từ tập các ảnh liên tục
1.4.3. Định dạng hình ảnh JPG
Định dạng JPG được đề xuất năm 1992 trong công bố của tác giả Haines [5]. Định
dạng JPG được gắn liền với chuẩn nén ảnh JPGE (joint photographic experts group) và
lưu trữ trong máy tính theo file JPG. Định dạng JPG là một trong những phương pháp
được sử dụng phổ biến nhất hiện nay cho các file ảnh kỹ thuật số và xử lý tính tốn
trong máy tính. Định dạng JPG gắn liền với thuật tốn nén mất thông tin (lossy), tức là
khi nén dữ liệu để lưu trữ, thông tin sẽ bị mất trong quá trình nén và giải nén. Do đó,
chất lượng hình ảnh sẽ bị giảm so với ảnh ban đầu. Tuy nhiên, với phương pháp nén
mất thơng tin thì kích thước file lưu trữ của ảnh cũng giảm đáng kể. Phương pháp nén
JPEG thường được dùng để nén ảnh số có mất mát thông tin. Các file ảnh dùng nén
theo chuẩn JPEG thường có tên file mở rộng là *.jpg, *.jpeg,*.jfif hay *.jpe.
Thông thường, định dạng JPG dùng 24bit để biểu diễn màu với mỗi kênh màu
chiếm 8bit (1 byte). Như vậy, ảnh JPG 24bit có thể biểu diễn được hơn 16 triệu màu
khác nhau (224=16.777.216). Dung lượng lưu trữ file ảnh nhỏ hơn rất nhiều so với ảnh
không nén (dạng Bitmap). Các ảnh sử dụng phương pháp nén JPGE tương thích với
hầu hết các trình duyệt web hiện nay. Ảnh JPG sử dụng tốt và hiệu quả đối với các loại
ảnh tĩnh, ảnh có màu sắc phức tạp, ảnh đa mức xám, ảnh ngoại cảnh và chân dung.
1.4.4. Định dạng ảnh BMP
BMP là loại định dạng bitmap, được phát triển vào năm 1994. BMP là loại định
dạng và lưu trữ file ảnh đồ họa dạng lưới (raster) được sử dụng để lưu trữ ảnh số dạng
thô. File ảnh dạng BMP thường có kích thước lớn và dữ liệu khơng nén do vậy cũng
khơng mất thơng tin trong q trình lưu file và đọc ảnh từ file. Dữ liệu hình ảnh BMP
độc lập với các thiết bị hiển thị như Graphics adapter, đặc biệt trên các ứng dụng chạy
trong môi trường Microsoft Windows và hệ điều hành OS/2.
Định dạng BMP có ưu điểm là không làm mất thông tin của ảnh đang xử lý, nên nó
phù hợp cho việc in ấn, chỉnh sửa hình ảnh. Mặt khác, vì ảnh khơng nén nên file ảnh
BMP được đọc dễ dàng bằng các chương trình phần mềm dùng chung với những thuật
toán đơn giản. Tuy nhiên, ảnh không hỗ trợ nén cũng ảnh hưởng không tốt cho việc
lưu trữ vì dung lượng file thường lớn hơn các loại định dạng khác.
12
1.4.5. Định dạng ảnh PNG
PNG (Portable Network Graphics) được đề xuất năm 1996 là một định dạng file đồ
họa dạng raster. PNG hỗ trợ nén dữ liệu không bị mất thơng tin (lossless- ít mất thơng
tin). Định dạng PNG được xem là một dạng cải tiến và thay thế cho GIF trong môi
trường ảnh vector và được sử dụng nhiều trên internet. Chuẩn định dạng PNG thường
sử dụng hai dạng khác nhau là PNG-8 và PNG-24. Trong trường hợp ảnh có màu sắc
phức tạp, khơng phân bố theo dạng vector thì PNG có dung lượng lớn hơn JPGE.
Ưu điểm của định dạng PNG là hình ảnh các đối tượng khơng bị cạnh răng cưa khi
phóng to ảnh, điểm ảnh được biểu diễn dạng vector. Ảnh định dạng PNG được nén
theo chuẩn không mất thông tin do vậy khi giải nén ảnh vẫn giữ nguyên được chất
lượng ban đầu trước khi nén.
Ảnh dạng PNG thích hợp với các loại hình ảnh chứa đối tượng phân phối màu đơn
giản, tuân theo quy luật như văn bản, các loại hình vẽ. Với các loại hình ảnh mà nền
trong suốt hoặc có thể được thiết lập giữa mờ đục lưu trữ theo định dạng PNG cho ảnh
chất lượng cao với kích thước file nhỏ. Bên cạnh đó, nó cũng được dùng trong q
trình chỉnh sửa hình ảnh nhằm khơng làm mất thơng tin của ảnh đang xử lý. Ngoài ra,
định dạng PNG sử dụng tốt cho các hình ảnh web/blog, những mảng màu phẳng, thiết
kế logo, hình ảnh có nền trong suốt hoặc bán trong suốt.
1.4.6. So sánh các chuẩn định dạng
Định
dạng
Nén không Cấu trúc Chỉ mục Hỗ trợ ảnh Nhiều
màu
trong suốt trang
mất thông tin lưu trữ
Ảnh
động
Quản lý
màu
BMP
Raster
×
×
GIF
Raster
×
JPEG
×
Raster
×
×
×
×
PNG
Raster
×
×
TIFF
Cả 2
×
Câu hỏi và bài tập
1. Ảnh kỹ thuật số khác với ảnh phim như thế nào?
2. Hãy cho biết mối liên hệ giữa kích thước ảnh và số điểm ảnh.
3. Hãy cho biết mối liên hệ kích thước ảnh và độ phân giải ảnh.
4. Hãy phân biệt ảnh màu, ảnh đa mức xám và ảnh nhị phân.
5. Đọc vào một ảnh định dạng RGB, chuyển qua ảnh HSV, Lab và YcbCr và hiển
thị từng ảnh trên các cửa sổ khác nhau.
6. Đọc vào một ảnh định dạng RGB, chuyển qua ảnh HSV, sau đó tăng giá trị thành
phần màu V lên 150%, chuyển qua ảnh RGB và hiển thị ảnh gốc và ảnh sau khi điều
chỉnh. Hãy nhận xét sự thay đổi của ảnh.
13
7. Đọc vào một ảnh có định dạng JPG, thay đổi ảnh về kích thước 256×256 pixels,
sau đó lưu ra các file ảnh theo các định dạng GIF, PNG, BMP và TIFF. Dùng phần
mềm Paint thay đổi kích thước ảnh đã lưu thành 1.000×1.000 pixels. Đọc ảnh và hiển
thị các ảnh theo các định dạng đã tạo và cho nhận xét về chất lượng ảnh.
8. Dùng phần mềm Paint để tạo ảnh kích thước 480×480 pixels có chứa một số hình
đơn giản có sẵn trong Paint, tơ đầy một màu cho mỗi đối tượng. Lưu ảnh thành các
định dạng JPG, PNG, GIF, BMP và TIFF. Hãy nhận xét về dung lượng lưu trữ theo
mỗi định dạng. Đọc các ảnh và hiển thị, đánh giá chất lượng hình ảnh tương ứng.
9. Dùng phần mềm Paint để thay đổi kích thước các ảnh ở câu 1.8 thành 1.024×
1.024 pixels. Cho biết dung lượng lưu trữ và chất lượng các ảnh theo các định dạng
tương ứng.
14
CHƯƠNG 2.BIẾN ĐỔI XỬ LÝ ẢNH
Chương này giới thiệu những kiến thức về kỹ thuật xử lý ảnh số như phép biến đổi
trên điểm ảnh, các phép điều chỉnh nâng cao chất lượng ảnh cũng như cách biến đổi
qua lại giữa ảnh màu, ảnh đa mức xám và giữa hệ màu, các phép tốn trên ảnh như
tốn tử tích chập, các bộ lọc ảnh thông dụng và phép biến đổi khơng gian ảnh. Bên
cạnh đó, chương này cũng tập trung trình bày các phương pháp biến đổi hình thái học,
là những kỹ thuật quan trọng xử lý điểm ảnh và phân tích vùng ảnh, trích biên đối
tượng và một số ứng dụng của biến đổi hình thái học.
2.1. Khái niệm
Biến đổi ảnh là việc áp dụng phương pháp nào đó để biến đổi ảnh đầu vào I và thu
được kết quả đầu ra I' theo mong muốn.
I
f(I)
ảnh đầu vào
biến đổi ảnh
I'
ảnh đầu ra
(a)
Hough
transform
(b)
Hình 2.1. Biến đổi ảnh (a) sơ đồ tổng quát (b) biến đổi ảnh bằng Hough6
Trong lĩnh vực xử lý ảnh, đối tượng dữ liệu ảnh có số phần tử điểm ảnh lớn, cần sử
dụng tính tốn nhiều (độ phức tạp tính tốn cao) dẫn đến u cầu dung lượng bộ nhớ
lớn cho lưu trữ ngoài và lưu trữ tạm thời trong quá trình xử lý đồng thời thời gian tính
tốn lâu. Việc sử dụng các phương pháp xử lý dữ liệu truyền thống cho đối tượng dữ
liệu ảnh khó khả thi với độ chính xác cao và thời gian tính tốn lớn. Do vậy, người ta
thường sử dụng các phép toán tương đương hoặc biến đổi từ miền dữ liệu này sang
miền dữ liệu khác nhằm giúp xử lý, tính tốn dễ dàng hơn. Sau khi ảnh được biến đổi
và thực hiện xử lý tính tốn xong, dữ liệu đầu ra sẽ được biến đổi ngược để đưa về
miền xác định ban đầu. Các biến đổi thường gặp trong xử lý ảnh là:
- Biến đổi Hough: thường dùng để phát hiện các cạnh có trong ảnh.
- Biến đổi Radon: thường được dùng để tái tạo lại hình ảnh từ các dữ liệu tia chiếu
chùm (fan beam) và tia chiếu song song.
6
/>
15
- Biến đổi Fourier rời rạc (discrete Fourier): Dùng để lọc và phân tích tần số.
- Biến đổi Cosin rời rạc (discrete Cosin): Dùng trong các kỹ thuật nén ảnh và video.
- Biến đổi tích chập (convolution) để lọc ảnh, làm mịn ảnh như lọc cảnh Sobel, làm
mờ bằng tích chập mặt nạ Gaussian.
+ Biến đổi Wavelet: Thường được dùng để thực hiện việc phân tích wavelet rời rạc,
khử nhiễu, trộn ảnh.
2.2. Các phép biến đổi trên điểm ảnh
2.2.1. Lược đồ ảnh
Lược đồ ảnh (histogram) là một đồ thị biểu diễn tần số xuất hiện của cường độ sáng
điểm ảnh theo các mức. Nói cách khác lược đồ Histogram của một hình ảnh biểu diễn
lược đồ về sự phân bố các mức cường độ xám của một bức ảnh.
Ví dụ: Cho ảnh đa mức xám đầu vào có kích thước là 640×480 pixels. Như vậy, số
lượng điểm ảnh 640×480 bằng 307.200 điểm ảnh. Với ảnh đa mức xám 8bit thì các
điểm ảnh có giá trị nằm trong khoảng từ 0 đến 255. Lược đồ ảnh là kết quả của việc
thực hiện thống kê có bao nhiêu điểm ảnh có giá trị 0 từ 307.200 điểm ảnh đã cho,
tương tự thống kê số lượng điểm ảnh có giá trị bằng 1, thực hiện lặp lại cho các giá trị
cường độ sáng bằng 2,…255. Như vậy, tổng các điểm ảnh phân phối theo các cường
độ sáng từ 0 đến 255 này bằng 307.200. Lược đồ có thể tính theo từng giá trị hoặc có
thể tính trong các khoảng giá trị.
Hình 2.2. Lược đồ ảnh đa mức xám
2.2.2. Điều chỉnh mức sáng
Mức sáng của ảnh là thuộc tính quan trọng, được dùng để biểu diễn giá trị độ
sáng của điểm ảnh. Mức sáng liên quan đến mức độ sáng tối của ảnh. Điểm ảnh có
mức sáng càng thấp (càng tối) thì giá trị điểm ảnh đó càng nhỏ (tối nhất là 0) và ngược
lại ảnh càng sáng thì giá trị điểm ảnh càng lớn.
Điều chỉnh mức sáng (brightness adjustment) là một kỹ thuật khá cơ bản và đơn
giản trong lĩnh vực xử lý ảnh.
16
Ví dụ thay đổi mức sáng ảnh tại mỗi pixel theo công thức I'(x,y)= I(x,y)+b, với b là
hệ số điều chỉnh mức sáng, nếu b>0 thì thực hiện tăng mức sáng của điểm ảnh (làm
cho ảnh sáng hơn), ngược lại b<0 thì thực hiện giảm độ sáng của điểm ảnh (làm cho
ảnh trở nên tối hơn).
Đối với ảnh màu trong hệ không gian màu RGB, việc thay đổi mức sáng có thể thực
hiện thay đổi trên từng kênh màu R-G-B. Đối với hệ khơng gian màu HSV thì V là
thành phần biểu diễn mức sáng, việc thay đổi mức sáng tương ứng với thay đổi thành
phần V tương ứng.
Im=imread('Lena.bmp');
imshow(Im)
Im1=Im-100;
Im1(Im1<0)=0;
imshow(Im1)
Im2=Im+100;
Im2(Im2>255)=255;
imshow(Im2);
(a)
(b)
(c)
Hình 2.3. Điều chỉnh độ sáng của ảnh màu RGB: (a) ảnh gốc, (b) giảm 100 đơn vị,
(c) tăng 100 đơn vị.
Im=imread('Lena.bmp');
imshow(Im);
ImHSV=rgb2hsv(Im);
V=ImHSV(:,:,3);
V1=V-0.3;
V1(V1<0)=0;
ImHSV(:,:,3)=V1;
ImRGB= hsv2rgb(ImHSV);
imshow(ImRGB)
V2=V+0.3;
V2(V2>1)=1;
ImHSV(:,:,3)=V2;
ImRGB= hsv2rgb(ImHSV);
imshow(ImRGB)
(a)
(b)
(c)
Hình 2.4. Điều chỉnh độ sáng của ảnh màu HSV: (a) ảnh gốc, (b) giảm thành phần
độ sáng V1=V - 0.3, (c) Tăng thành phần độ sáng V2=V + 0.3
2.2.3. Điều chỉnh độ tương phản
Thuộc tính về mức sáng tạo ra ảnh sáng hoặc tối, trong khi đó độ tương phản
(contrast adjustment) của ảnh tạo ra độ “dễ nhìn” (tương phản giữa các đối tượng) của
mỗi ảnh. Độ tương phản được hiểu là mức độ chênh lệch về độ sáng giữa các đối
tượng lân cận nhau, hoặc với các vùng ảnh nền trong ảnh. Nếu mức độ chênh lệch về
độ sáng của đối tượng với vùng nền càng thấp thì ta nói ảnh đó có độ tương phản thấp
và ngược lại độ chênh lệch càng cao có nghĩa là độ tương phản ảnh càng cao. Một ảnh
17
có độ tương phản thấp thì khi quan sát thấy ảnh ít có sự sắc nét giữa các thành phần
sáng-tối (đen- trắng) với nhau.
Ví dụ hình minh họa các ảnh có độ tương phản thấp với các giá trị cường độ sáng
phân bố tập trung ở khoảng giữa của dải cường độ sáng [0, 255]. Khi ảnh được điều
chỉnh độ tương phản cao hơn với các giá trị cường độ sáng phân phối tương đối đều
trong khoảng [0, 255], thì ảnh sáng rõ nét hơn với các vùng sáng tối.
(b)
(b)
Hình 2.5. Độ tương phản ảnh: (a) độ tương phản thấp, (b) độ tương phản cao
Có nhiều kỹ thuật khác nhau để điều chỉnh độ tương phản ảnh.
Ví dụ lập trình Matlab điều chỉnh độ tương phản:
Thực thi trên CPU
RGB= imread('football.jpg');
RGB2= imadjust(RGB,[.2,.3,0;0.6,0.7,1],[]);
subplot(1,2,1); imshow(RGB);
title('Original image');
subplot(1,2,2); imshow(RGB2);
title('Contrast adjustment image');
Thực thi trên GPU
RGB = gpuArray(imread('football.jpg'));
RGB2 = imadjust(RGB,[.2 .3 0; .6 .7 1],[]);
subplot(1,2,1); imshow(RGB);
title('Original image');
subplot(1,2,2); imshow(RGB2);
title('Contrast adjustment image');
Hình 2.6. Điều chỉnh độ tương phản ảnh với các mức khác nhau
2.2.4. Cân bằng lược đồ ảnh
Kỹ thuật cân bằng lược đồ ảnh (Histogram equalization) thường được sử dụng để
tăng cường độ tương phản ảnh. Ví dụ ảnh có lược đồ đa mức xám có giá trị điểm ảnh
18