Tải bản đầy đủ (.pdf) (101 trang)

NGHIÊN CỨU GIẢI PHÁP NHẬN DẠNG BIỂN SỐ XE TRÊN CƠ SỞ CÔNG NGHỆ XỬ LÝ ẢNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.72 MB, 101 trang )

I



TRÍCH YẾU LUẬN VĂN CAO HỌC

Họ và tên học viên: CAO HỮU VINH Năm sinh: 1987
Cơ quan công tác: ĐẠI HỌC GIAO THÔNG VẬN TẢI TP HỒ CHÍ MINH
Khóa: K19
Chuyên ngành: Kỹ Thuật Điện Tử Mã Số : 60.52.70
Cán bộ hướng dẫn: TS. NGUYỄN THANH HẢI Bộ môn: Kỹ thuật viễn thông
1. Tên đề tài luận văn: NGHIÊN CỨU GIẢI PHÁP NHẬN DẠNG BIỂN SỐ XE
TRÊN CƠ SỞ CÔNG NGHỆ XỬ LÝ ẢNH
2. Mục đích nghiên cứu của đề tài
Mục tiêu của luận văn là ứng dụng thuật toán phân tích phổ tần số trên cơ sở
công nghệ xử lý ảnh để trích biển số xe mô tô và phân tích biểu đồ mức xám trong
việc tách ký tự. Xây dựng chương trình nhận dạng trực tuyến xe mô tô hai bánh,
xây dựng chương trình nhận dạng ký tự đơn trên biển số ứng dụng mạng neural
dùng ngôn ngữ lập trình Csharp và thư viện AForge trong xử lý ảnh
3. Phương pháp nghiên cứu và kết quả đạt được:
Ứng dụng các thuật toán về xử lý ảnh để xử lý trích lọc biển số xe và xây dựng
kết quả nghiên cứu trên nền Visual Studio Dot Net (Cshap).
Ứng dụng được thư viện AForge trong xử lý ảnh và thu nhận tín hiệu video.
Ứng dụng mạng neural để nhận dạng ký tự.
4. Điểm bình quân môn học: Điểm bảo vệ luận văn

Xác nhận của cán bộ hướng dẫn : Học viên thực hiện



Xác nhận của bộ môn :



CAO HỮU VINH
II



LỜI NÓI ĐẦU

1. Tính cấp thiết của đề tài
Cùng với sự phát triển của khoa học kỹ thuật và nhu cầu đi lại ngày càng tăng
và số lượng các phương tiện giao thông trên đường xuất hiện ngày càng nhiều. Với
số lượng phương tiện giao thông lớn và ngày càng tăng nhanh làm nảy sinh nhiều
vấn đề trong việc quản lý và kiểm soát các phương tiện giao thông. Để giải quyết
vấn đề này yêu cầu đặt ra là áp dụng các giải pháp quản lý tự động.
Một trong những giải pháp như vậy là nhận dạng biển số xe trên cơ sở công
nghệ xử lý ảnh. Nhận dạng và xử lý ảnh cũng là một trong những giải pháp có tầm
ứng dụng to lớn. Có thể kể ra hàng loạt các lĩnh vực đã áp dụng kỹ thuật nhận dạng
ảnh như: xử lý ảnh chụp vệ tinh, dự báo thời tiết, điều khiển giao thông công cộng,
nhận dạng chữ viết tay, phân tích chữ ký, nhận dạng vân tay, nhận dạng mặt
người,…Với mục đích ứng dụng công nghệ xử lý ảnh trong quản lý các phương tiện
giao thông nên đề tài “ Nghiên cứu giải pháp nhận dạng biển số xe trên cơ sở
công nghệ xử lý ảnh” được em lựa chọn với mong muốn có thể ứng dụng công
nghệ vào trong vấn để quản lý các phương tiện giao thông.
Ở đề tài này tôi sẽ trình bày phương pháp nhận dạng biển số xe thông qua
camera, sau đó qua các quá trình xử lý ảnh, tách ký tự, nhận dạng ký tự ta sẽ nhận
được kết quả của biển số xe.
Giải pháp này được ứng dụng rất nhiều trong các hệ thống nhận dạng quản lý
phương tiện giao thông tại các trạm thu phí, trạm cân, bãi giữ xe tự động, kiểm soát
lưu lượng giao thông hay trong các ứng dụng an ninh như tìm kiếm xe bị mất cắp
2. Đối tượng nghiên cứu

Xử lý ảnh số
Nhận dạng và ứng dụng mạng neural trong nhận dạng ảnh
Nghiên cứu các thuật toán và ngôn ngữ lập trình để xây dựng phần mềm mô
phỏng.
3. Phạm vi nghiên cứu
III



Phân tích ảnh và nhận dạng biển số xe.
4. Mục tiêu nghiên cứu của đề tài
Nghiên cứu về lý thuyết ảnh số, xử lý ảnh, mạng neural, các thuật toán trích
lọc vùng chứa biển số xe, tách ký tự và nhận dạng ký tự.
Xử lý ảnh từ Data có sẵn và thu ảnh trực tiếp từ camera chuyên dùng.
Xây dựng phần mềm mô phỏng đề tài.
5. Phương pháp nghiên cứu
Nghiên cứu lý thuyết và xây dựng phần mềm mô phỏng trên máy tính.
6. Kết cấu của luận văn
Chương 1: Lý thuyết xử lý ảnh
Chương 2: Công nghệ xử lý ảnh trong giao thông
Chương 3: Giải pháp nhận dạng biển số xe
Chương 4: Xây dựng phần mềm nhận dạng biển số xe
Kết luận và hướng phát triển của đề tài.















IV



MỤC LỤC

Trích yếu luận văn cao học I
Lời nói đầu II
1. Tính cấp thiết của đề tài II
2. Đối tượng nghiên cứu II
3. Phạm vi nghiên cứu II
4. Mục tiêu nghiên cứu III
5. Phương pháp nghiên cứu III
6. Kết cấu luận văn III
Mục Lục IV
Danh mục các ký hiệu, thuật ngữ viết tắt VIII
Danh mục các bảng biểu và hình vẽ IX
Chương 1: Lý thuyết xử lý ảnh 1
1.1 Biểu diễn hệ thống ảnh 2
1.1.1 Hệ thống ảnh tuyến tính 3
1.1.2 Hệ thống ảnh phi tuyến 4
1.2 Khái niệm xử lý ảnh số 5
1.2.1 Khái niệm về phần tử ảnh 5

1.2.2 Ảnh xám 6
1.2.3 Ảnh trắng đen hay ảnh nhị phân 6
1.2.4 Ảnh màu và mô hình màu RGB 6
1.2.5 Hệ tọa độ pixel 9
1.2.6 Các định dạng ảnh 9
1.3 Các vấn đề trong quá trình xử lý ảnh 15
1.3.1 Mục đích của việc xử lý ảnh số 15
1.3.2 Kỹ thuật nâng cao chất lượng ảnh 15
1.3.3 Biến đổi lược đồ mức xám (Histogram) 16
V



1.3.3.1 Lọc tuyến tính 16
1.3.3.2 Lọc phi tuyến 16
1.3.4 Kỹ thuật tăng độ sắc nét của ảnh 17
1.3.4.1 Khái niệm biên 17
1.3.4.2 Làm nổi biên 18
1.3.4.3 Kỹ thuật tách biên 18
1.3.5 Phân vùng ảnh 29
1.3.6 Nhận dạng ảnh 29
1.4 Kết luận chương 1 30
Chương 2: Công nghệ xử lý ảnh trong giao thông 31
2.1 Ứng dụng hệ thống giao thông thông minh 31
2.2 Một số ứng dụng hệ thống giao thông thông minh ở Việt Nam 35
2.2.1 Xây dựng các trạm thu phí tự động 35
2.2.2 Hệ thống thu phí một dừng 35
2.2.3 Hệ thông thu phí mở không dừng 35
2.2.4 Hệ thống thu phí kín 36
2.2.5 Hệ thống kiểm soát trọng tải 36

2.2.6 VOV giao thông 37
2.3 Các ứng dụng hệ thống giao thông thông minh ở Việt Nam trong tương lai.37
2.3.1 Hệ thống điều khiển giao thông thông minh 37
2.3.2 Hệ thống tự động báo kẹt xe 38
2.4 Kết luận chương 2 38
Chương 3: Giải pháp nhận dạng biển số xe 39
3.1 Các phương pháp nhận dạng biển số xe 39
3.1.1 Trích biển số xe 40
3.1.2 Cách ly các ký tự 42
3.1.3 Nhận dạng ký tự 44
3.2 Xử lý ảnh và nhận dạng 44
3.2.1 Kỹ thuật chuyển ảnh sang ảnh mức xám (Gray Level) 45
VI



3.2.2 Lược đồ mức xám (Histogram) 45
3.2.3 Xử lý ảnh bằng thuật toán K-means 46
3.2.4 Lọc trung vi (Median) 48
3.2.5 Bộ lọc BlobsFiltering 49
3.3 Mạng Neural nhân tạo 50
3.3.1 Giới thiệu 50
3.3.2 Ứng dụng của Neural Network 51
3.3.3 Mô hình một Neural nhân tạo 52
3.3.4 Thiết lập mạng Neural 54
3.3.5 Các bước chuẩn bị thiết lập mạng 54
3.3.5.1 Thu thập dữ liệu để huấn luyện mạng 54
3.3.5.2 Dữ liệu số 55
3.3.5.3 Dữ liệu phi số 55
3.3.5.4 Huấn luyện 56

3.3.5.5 Các bước thiết kế 56
3.4 Phân loại cấu trúc mạng 56
3.4.1 Mạng có cấu trúc tiến 56
3.4.2 Mạng có cấu trúc lan truyền ngược 57
3.4.2.1 Các loại neural ( Tansig, Logsig, Purelin ) 57
3.4.2.2 Cấu trúc các lớp trong mạng lan truyền ngược 58
3.4.2.3 Huấn luyện cho mạng lan truyền ngược 59
3.4.2.4 Nguyên lý chung 59
3.4.2.5 Vấn đề quá khớp và năng lực của mạng 60
3.5 Ứng dụng mạng Neural trong lĩnh vực nhận dạng 61
3.5.1 Nhiệm vụ 61
3.5.2 Cách tiếp cận 62
3.6 Kết luận chương 3 63
Chương 4: Xây dựng phần mềm nhận dạng biển số xe 64
4.1Mô hình tổng quát hệ thống nhận dạng trực tuyến xe mô tô hai bánh 64
VII



4.1.1 Thu nhận ảnh 64
4.1.2 Nhận ảnh và các tham số đầu vào 64
4.2 Trích biển số, xử lý ảnh biển số và tách ký tự chữ số xe mô tô 64
4.2.1 Thuật toán trích biển số dùng phương pháp phân tích phổ tần số (Fast
Fourier Transform) 65
4.2.2 Tổng kết thuật toán trích biển số 71
4.2.3 Tiền xử lý 71
4.2.4 Thuật toán tách ký tự 73
4.3 Nhận dạng ký tự đơn trên biển số bằng mạng Neural nhân tạo 76
4.3.1 Mô hình mạng 76
4.3.2 Tạo mạng 76

4.3.2.1 Mạng chữ 76
4.3.2.2 Mạng số 77
4.3.3 Khởi tạo trọng số 77
4.3.4 Huấn luyện mạng 78
4.4 Xây dựng hệ thống nhận dạng biển số 79
4.4.1 Xây dựng hệ thống 79
4.4.2 Giao diện chương trình 80
4.5 Thử nghiệm và đánh giá kết quả 81
4.5.1 Dữ liệu thử nghiệm 81
4.5.2 Kết quả thử nghiệm 82
4.5.3 Đánh giá kết quả 82
4.6 Một số kết quả minh họa thử nghiệm thuật toán 83
4.6.1 Trường hợp ảnh chụp ban ngày 83
4.6.2 Trường hợp ảnh chụp ban đem 84
4.7 Kết luận chương 4 84
Kết Luận và hướng phát triển đề tài 85
5.1 Các mặt đã đạt được 85
5.2 Các mặt còn hạn chế 85
VIII



5.3 Đề xuất hướng phát triển 85
5.4 Sử dụng một số chức năng trong thư viện Aforge 86
Lời cảm ơn 88
Tài liệu tham khảo 89


























IX



DANH MỤC CÁC KÝ HIỆU, THUẬT NGỮ VIẾT TẮT

Chữ viết tắt Tiếng Anh Tiếng Việt
RGB Red – Green - Blue Đỏ - Xanh - Lam
R Red Đỏ

G Green Xanh
B Blue Lam
TIFF Targed image file format Định dạng tập tin ảnh
IFD Image file directory Thư mục tập tin hình ảnh
DE Directory entry Thư mục nhập
GIF Graphics interchanger
format
Định dạng trao đổi hình ảnh
TRIP Traffic research using image
processing
Hệ thống đánh giá giao thông
bằng phương pháp xử lý ảnh
DSRC Dedicated short range
communication
Giao tiếp tầm ngắn chuyên
dụng
GPS Global Positioning System Hệ thống định vị toàn cầu
GSM Global System for mobile Hệ thống thông tin di dộng
toàn cầu
LZW Lempel ziv weleh Phương pháp nén được phát
minh bởi Lempel –Zip và
Welch
PST Point spread function






X




DANH MỤC CÁC BẢNG BIỂU VÀ HÌNH VẼ
Hình 1.1 Biểu diễn hệ thống ảnh 3
Hình 1.2 Hệ thống ảnh phi tuyến 4
Hình 1.3 Ma trận số 5
Hình 1.4 Mảng hai chiều của một file ảnh 6
Hình 1.5 Mô hình màu RGB 7
Hình 1.6 Hệ tọa độ pixel 9
Hình 1.7 Lượt đồ xám 16
Hình 1.8 Hương biên 19
Hình 1.9 Ý nghĩa đạo hàm trong dò biên 22
Hình 1.10 Mô tả biến đổi Radon 25
Hình 1.11 Biểu diễn hình chiếu theo một góc  trong biến đổi Radon 26
Hình 1.12 Biểu diễn phép biến đổi Radon dưới dạng hình học 26
Hình 1.13 Biến đổi ảnh sang ảnh nhị phân 27
Hình 1.14 Hình thể hiện miền Radon 27
Hình 1.15 Hình thể hiện sự phát hiện các đường thẳng trong biển đổi Radon 28
Hình 1.16 Trường hợp các đường thẳng lệch về phía dưới 28
Hình 1.17 Trường hợp đường thẳng lệch về phía trên 29
Hình 2.1 Quan hệ giữa HTXLA và các HT khác trong giao thông 31
Hình 2.2 Dòng giao thông ở Hong Kong (Trái) và ở Hà Nội (Phải) 32
Hình 2.3 Hệ thống giao thông thông minh 35
Hình 2.4 Hệ thống thu phí mở không dừng 35
Hình 2.5 Hệ thống thu phí kín 36
Hình 3.1 Lược đồ xám của các loại ảnh 46
Hình 3.2 Phân cụm ảnh 46
Hình 3.3 Các bước của thuật toán K - means 47
Hình 3.4 Mang neural 50

Hình 3.5 Mô hình toán học tổng quát của mạng neural 50
Hình 3.6 Neural một ngõ vào 52
XI



Hình 3.7 Neural có nhiều ngõ vào 53
Hình 3.8 Các hàm truyền cơ bản 53
Hình 3.9 Cấu trúc mạng neural tiến 56
Hình 3.10 Cấu tạo một neural 57
Hình 3.11 Hàm truyền logsig 57
Hình 3.12 Hàm truyền tansig 57
Hình 3.13 Hàm truyền pureline 58
Hình 3.14 Cấu trúc mạng một lớp 58
Hình 3.15 Mạng 2 lớp dùng neural tagsig và pureline 59
Bảng 4.1 Bảng mô tả thông tin biển số xe mô tô 65
Hình 4.1 Phân tích phổ ngang cho ảnh chứa biển số 68
Hình 4.2 Tách dòng chứa biển số 68
Hình 4.3 Phân tích phổ ngang cho ảnh chứa biển số 69
Hình 4.4 Tách biển số 69
Hình 4.5 Một số ảnh sau khi tách được biển số 71
Hình 4.6 Tiền xử lý ảnh 72
Hình 4.7 Lược đồ trích ngang để tách dòng 73
Hình 4.8 Lược đồ chiều dọc để tách ký tự 73
Hình 4.9 Kết quả tách ký tự 73
Hình 4.10 Chuẩn hóa ký tự về 20x10 76
Hình 4.11 Sơ đồ mạng neural nhận dạng ký tự chữ 77
Hình 4.12 Sơ đồ mạng neural nhận dạng ký tự số 77
Hình 4.13 Giao diện chính của chương trình 80
Hình 4.14 Chụp ảnh biển số xe 81

Hình 4.15 Nhận dạng và lưu xuống cơ sở dữ liệu 81
Bảng 4.2 Mô tả nguồn dữ liệu để text 82
Bảng 4.3 Bảng thống kê kết quả thử nghiệm trên tập dữ liệu test 82
Hình 4.16 Các bước trích biển số trong trường hợp 1 84
Hình 4.17 Các bước trích biển số trong trường hợp 2 84
1



CHƯƠNG 1: LÝ THUYẾT XỬ LÝ ẢNH
Khái niệm:
Khái niệm về ảnh số xuất hiện từ năm 1964. Chẳng bao lâu, một nhánh mới
của khoa học gọi là xử lý ảnh số ra đời. Kể từ đó, liên tục phát triển và tạo ra các kỹ
thuật quan trọng ảnh hưởng trực tiếp đến các lĩnh vực truyền thông, truyền hình, kỹ
xảo đồ họa
Trong những năm gần đây, kỹ thuật xử lý ảnh ngày càng sử dụng phổ biến
trong các hệ thống thông tin và tự động, các hệ thống này ngày càng thông minh
hơn, không chỉ dừng lại ở việc xử lý để nâng cao chất lượng ảnh, lưu trữ ảnh hay
phân tích kết cấu của ảnh mà còn tự động nhận dạng các đối tượng trong ảnh để có
thể rút ra những thông tin chứa trong ảnh. Chẳng hạn trong lĩnh vực thám không,
các hình chụp từ trên không gian ( bằng máy bay, vệ tinh ) nhờ hệ thống xử lý ảnh
tự động để có thể xác định một thông tin về một vùng nào đó dưới mặt đất hay một
hiện tượng tự nhiên đang diễn ra nhằm dự báo các hiện tượng tương tự trong tương
lai. Hay trong lĩnh vực y học cũng sử dụng kỹ thuật xử lý ảnh chụp cắt lớp cơ thể
người, ảnh chụp siêu âm, ảnh chụp tế bào, nhiễm sắc thể để nhận dạng và chuẩn
đoán bệnh. Hay trong lĩnh vực xử lý đo lường cũng cần xử lý ảnh chụp các quá
trình để nhận dạng, đo lường như mực nước ở các đập nước đo liều lượng, đo tốc độ
dòng chảy, năng lượng của các hạt nguyên tử.
Cùng với sự phát triển mạnh mẽ của máy tính số, xử lý ảnh số với sự hỗ trợ
của máy tính cũng được phát triển và có nhiều ứng dụng. Các ứng dụng cụ thể như:

Trong lãnh vực truyền hình, cũng như việc lấy hình ảnh từ vệ tinh về trái đất thì ảnh
có thể giảm chất lượng do tác động của nhiễu từ môi trường hay nhiễu trong các
thiết bị xuất nhập. Trong đo đạc bản đồ phục vụ cho việc xây dựng các bản đồ,
trong quá trình chụp ảnh đôi khi bản đồ bị mờ, nhoè hoặc bị nhiễu do điều kiện
khách quan của môi trường chụp. Do đó việc xử lý khôi phục lại ảnh gốc là rất quan
trọng.
Vấn đề xử lý hình ảnh bằng kỹ thuật số đã được quan tâm, có thể tóm tắt các
hướng nghiên cứu chính trong xử lý hình ảnh bằng phương pháp số như sau:
2



- Mã hóa, xấp xỉ và nén hình ảnh (digitalization, approximation, compression).
- Khôi phục ảnh, làm nổi bật các đặc trưng lọc, biến đổi, tạo lại hình ảnh
(restoration, filtering, enhancement, transforms, reconstruction).
- Nhận dạng hình ảnh (pictorial pattern recognition).
- Các đặc trưng phân đoạn, phân tích ảnh (feature detection, segmentation
image analysis).
- Ghép (matching) và biến đổi thời gian (time varying imaging).
- Tạo dạng và mẫu (shape, pattern).
Hình ảnh của một đối tượng là sự sao chụp lại đối tượng đó. Mắt ta cảm thụ
hình ảnh một cách gián tiếp. Ảnh được hình thành qua hệ thống ảnh. Trong thực tế
ảnh sao chụp không phải là lý tưởng, ảnh bị méo, sai lệch với nhiều mức độ khác
nhau, vì vậy việc xử lý khôi phục hình ảnh là nhằm khôi phục lại ảnh nguyên gốc
theo một tiêu chuẩn nào đó.
Hình ảnh được phân chia thành hai loại:
- Hình ảnh tĩnh (static image).
- Hình ảnh động (dynamic image).
Hình ảnh được biểu diễn theo nhiều chiều (hai hoặc ba chiều).Tất nhiên hình
ảnh nhiều chiều sẽ phức tạp hơn hình ảnh một chiều khi biểu diễn và xử lý.

Xử lý hình ảnh là thực hiện các phép toán lên các tín hiệu số của hình ảnh.
Khối lượng thông tin trong một bức ảnh là rất lớn (đến vài trăm mêga bít/ảnh). Bản
chất các thông số ảnh có tính vectơ. Để xử lý với tốc độ nhanh, cần có yêu cầu thích
hợp về dung lượng bộ nhớ. Các phương pháp mã hóa có hiệu quả, giảm độ dư thừa
về thông tin trong ảnh và các thuật toán xử lý nhanh.
Trong đề tài này, quá trình xử lý ảnh nhằm trích vùng chứa biển số xe, phân
đoạn những ký tự riêng biệt, trích đặc trưng của ký tự, rồi đưa những đặc trưng này
vào mạng neural so sánh với tập dữ liệu đã được huấn luyện trước để có thể nhận
dạng được từng ký tự của biển số xe.
1.1 Biểu diễn hệ thống ảnh
Một hệ thống ảnh có thể biểu diễn như sau:
3









Với H : Hệ thống ảnh tuyến tính
f(i,j) : Vật thể.
g(x,y) : Ảnh.
Vật thể (đối tượng) nằm trong mặt phẳng (i,j) được mô tả bằng một hàm 2
biến (ảnh 2 chiều), f(i,j) là độ chói của vật tại (i,j). Qua hệ thống tạo ảnh ta có ảnh
của vật (i,j) là g(x,y) nằm trong mặt phẳng ảnh, g(x,y) gọi là hàm chói của ảnh. Đối
tượng được chiếu sáng bằng một hàm nào đó được truyền qua hệ thống tạo ảnh. Kết
quả là ảnh của vật được tạo.
Trên mặt phẳng (x,y). Hệ thống tạo ra điểm ảnh (x,y ) bằng năng lượng phát ra

từ vật thể. Hệ thống ảnh nhận các thành phần năng lượng bức xạ từ điểm (i,j) và từ
các điểm ảnh lân cận. Nếu lân cận được giới hạn thì gọi là quá trình tạo điểm ảnh.
Hệ thống tạo ảnh có thể là tuyến tính hoặc phi tuyến.
1.1.1 Hệ thống ảnh tuyến tính
Ta giả thiết hệ thống ảnh h(x,y,i,j) là tuyến tính chỉ phụ thuộc và các điểm ảnh
được chọn và các điểm ảnh lân cận. Ta có thể biểu diễn như sau:
g(x,y)=


(
,,,
)
(,)
∞
∞
(1.1)
Với giả thiết h (x,y,i,j) chỉ phụ thuốc giữa điểm ảnh được chọn và điểm ảnh
lân cận.
h(x,y,i,j) = h(x-i,y-j)
Công thức (1.1) có thể xác định như sau:
g(x,y)=


(
−,−,
)
(,)
∞
∞
(1.2)

với f(x,y): hàm biểu diễn vật thể.
H

j



i

i

f(i,j
)
y



x

x

g(x, y)
Hình 1.1 Biểu diễn hệ thống ảnh

4



g(x,y): hm biu din nh.
h( x,y,i,j): hm phõn tỏn im PST ( point spread function)

hoc
g(x,y)=h(x,y)*f(x,y) (1.3)
ú l quỏ trỡnh to nh bng h thng tuyn tớnh.
Trong h thng to nh tuyn tớnh, hm h(x,y,i,j) ph thuc vo cỏc giỏ
tr u vo f(i,j). Lng ỏnh sỏng bc x t vt th (khụng gian 3 chiu) ph
thuc vo sõu v cu trỳc ca vt th iu ú nh hng n vic to nh
Hm phõn tỏn im (ch xột 2 chiu).
h=h[x,y,i,j,f(i,j)] (1.4)
Hm biu din nh.
g(x,y)=


[(
,,,
)

(
,
)]
.(,)


(1.5)
Nu h[ x,y,i ,j , f(i, j) ] l hm cú tớnh Gauss, thỡ cú th o hm theo
f(i,j) v phõn tớch h[x, y, i, j, f(i,j)] thnh chui Taylor.
Nu gii hn n hai thnh phn iu kin ca chui Taylor thỡ ta thy
rng h[x, y, i, j, f(i,j) ] l hm tuyn tớnh.
1.1.2 H thng nh phi tuyn
Trong thc t ta gp nhiu h thng (camera truyn hỡnh, nh quang
tuyn, chp nh ) biu din nh s cú nhiu phng phỏp nh biu din

ma trn, biu din vect, biu din thụng kờ, biu din thnh 3 thnh phn
(phn biờn, phn tn thp, phn cu trỳc).






Vi f(i, j, z) : vt th
H

Hỡnh 1.2 : H thng nh phi tuyn
j


Hỡnh 2.2 Heọ thoỏng aỷnh phi tuyeỏn
y
i
x
i

5



H: Hệ thống tạo ảnh
G(x,y) : Ảnh
Ảnh số có thể biểu diễn bởi ma trận I (nxm) như sau :
I =



(
1,1
)

(
1.2
)
…
(
1,
)

(
2,1
)

(
2,2
)
…
(
2,
)
(,1) (,2) …(,)


Hình 1.3 ma trận ảnh số
Ảnh hai chiều được biểu diễn bởi ma trận 2 chiều. Mỗi số I (n, m) biểu
diễn một giá trị mức xám (hay màu) của một điểm ảnh tương ứng. Nếu biết số

bít dùng để lưu giá trị mức xám ( hay màu) của một điểm ảnh là 8 bit, thì số
mức xám (hay màu) cho phép là 2

(hay 256) giá trị mức xám hay màu có thể.
Giá trị mức xám này thường gán giá trị nguyên dãy 0 đến 255, với 0 là biểu
diễn cho mức cường độ tối (màu đen) và 255 biểu diễn cho mức cường độ
sáng nhất (màu trắng). Mỗi phần tử trong ma trận được gọi là phần tử ảnh (a
picture element).
1.2 Khái niệm xử lý ảnh số
1.2.1 Khái niệm về phần tử ảnh:
Ảnh trong thực tế liên tục về không gian và độ sáng, để ảnh có thể xử lý
bằng máy tính ta cần thiết phải số hóa ảnh. Quá trình này người ta biến đổi tín
hiệu tương tự thành tín hiệu rời rạc thông qua quá trình lấy mẫu và lượng
thành phần giá trị mà về mặt nguyên tắc bằng mắt thường không phân biệt
được hai điểm liền kề nhau. Quá trình này người ta sử dụng khái niệm phần tử
ảnh mà ta thường gọi là pixel, nó là phần tử nhỏ nhất của ảnh. Như vậy, một
ảnh là một tập hợp các pixel.
Một ảnh số là một mảng các điểm ảnh được số hóa và đưa vào bộ nhớ
của máy tính. Một số nhị phân chứa trong mỗi điểm ảnh thể hiện cường độ
hay bước sóng ánh sáng trong ảnh.
6



Độ phân giải của một ảnh là khu vực của mỗi điểm ảnh, thông thường nó
là số điểm ảnh trên mỗi hàng của ảnh, nó là một hàm của khoảng cách từ
camera đến khung nhìn, chiều dài hội tụ của thấu kính và số điểm ảnh mỗi
hàng của ảnh. Như màn hình máy tính có nhiều loại với độ phân giải khác
nhau: màn hình CGA có độ phân giải 320x200, màn hình VGA là 640x350.
Cấu trúc một file ảnh

Tổng quát, một file ảnh là một tập hợp nhiều điểm ảnh, mỗi điểm ảnh
được biểu như thế nào còn tùy vào file ảnh đó là màu hay xám, nhưng cơ bản
ảnh vẫn là mảng hai chiều.

Hình 1.4: Mảng hai chiều của một file ảnh
1.2.2 Ảnh xám
Với ảnh này, mỗi pixel được xác định bằng cặp tọa độ (x,y). Vậy toàn bộ
ảnh là mảng 2 chiều mà giá trị của mỗi phần tử mảng chính là giá trị mức xám
từ 0 đến 255.
1.2.3 Ảnh trắng đen hay ảnh nhị phân
Ảnh trắng đen cũng tương tự như ảnh xám, chỉ khác ở chỗ ảnh trắng đen
chỉ có hai mức xám là 0 (trắng) và 1 (đen).
1.2.4 Ảnh màu và mô hình màu RGB
Màu của một pixel được xây dựng trên nhiều mô hình: RGB, HSV.
7



Ánh sáng trắng được hình thành từ bảy màu khác nhau: đỏ, cam, vàng,
lục, lam, chàm, tím. Các màu này tạo nên một dãy màu liên tục mà ta không
thấy được ranh giới giữa chúng. Nhưng xét về cấu tạo của mắt và việc nhìn thì
tất cả các màu đều được liên kết bởi các màu cơ bản sau:
 Red : (R) = 700nm.
 Green: (G) = 546.1 nm.
 Blue : (B) = 435.8 nm.
Trong mô hình RGB, mỗi màu xuất hiện trong các thành phần phổ sơ
cấp R, G và B. Mô hình dựa trên cơ sở hệ thống tọa độ Cartesian (tọa độ
decac).

Hình 1.5: Mô hình màu RGB

Các màu R, G, B nằm ở đỉnh của khối lập phương. Màu lam - lục, đỏ -
lam, vàng nằm ở ba đỉnh bên kia của khối lập phương. Màu đen nằm ở gốc tọa
độ. Màu trắng nằm ở đỉnh xa gốc tọa độ nhất. Thang mức xám kéo dài từ đen
đến trắng (đường nối gốc tọa độ và đỉnh màu trắng).
Mỗi màu cơ bản được mã hóa bởi 8 bit, vậy với ba màu phối hợp nhau
tạo thành 255x255x255=16.581.375 màu thứ cấp mà mắt người có thể cảm
nhận được.
Thường ta giả thiết là tất cả các giá trị màu được chuẩn hóa (khối hình
lập phương là hình khối đơn vị). Tất cả các giá trị màu R, G, B nằm trong
đoạn [0 1].
8



Mô hình màu R, G, B bao gồm ba mặt phẳng độc lập (một mặt phẳng
dùng cho một màu độc lập). Nếu đưa mô hình RGB vào monitor RGB thì ba
màu này phối hợp nhau tạo thành ảnh màu hoàn chỉnh. Vì vậy, để sử dụng mô
hình RGB cho xử lý ảnh có ý nghĩa thì các ảnh phải được biểu diễn theo một
mặt phẳng màu.
Phân ngưỡng ảnh bằng phương pháp Otsu:
Cho một ảnh thang xám 2D chứa N pixel với giá trị mức xám thay đổi từ
1 đến L, số pixel tương ứng với giá trị mức xám I được ký hiệu là 

, xác suất
xuất hiện của mức xám I trong ảnh là:


=




(1.6)
Trong trường hợp phân ngưỡng 2 mức ảnh, các pixel được phân chia
thành 2 lớp (class),

với mức xám [1, ,t] và 

với mức xám [t+1, ,L).
Khi đó sự phân bố xác xuất mức xám của 2 lớp như sau:


:

/⍵

(), ,

/⍵

()


:

/⍵

(), ,

/⍵


()
Với ⍵

(t) =





và ⍵

(t) =






Trung bình của lớp 

và 

được tính như sau:
µ

=







/ ⍵

(t) và µ

=





/ ⍵

(t)
Gọi µ

là trung bình của toàn ảnh, ta nhận thấy rằng :


µ

+ ⍵

µ

= µ





+ ⍵

= 1
Otsu đã chứng minh định nghĩa phương sai giữa 2 lớp của ảnh được phân
ngưỡng
σ


= ⍵

µ

−µ



+ ⍵

µ

−µ



(1.7)
Đối với phân ngưỡng 2 mức, Otsu đã kiểm nghiệm rằng giá trị ngưỡng tối ưu


được chọn sao cho phương sai σ



đạt cực đại.


= ArgMax{ σ


(

)
} 1 < t < L
9



1.2.5 Hệ tọa độ pixel:
Thông thường để thuận tiện trong việc định vị trong ảnh, người ta sử
dụng hệ tọa độ pixel. Trong hệ tọa độ này ảnh được xem như một lưới các
phần tử. Số cột tăng dần từ trái qua phải và số hàng tăng dần từ trên xuống
dưới. Đơn vị của tọa độ là các số nguyên, các tọa độ lẻ là không có ý nghĩa
trong hệ tọa độ này.

Hình 1.6 Hệ tọa độ pixel
1.2.6 Các định dạng ảnh
Ảnh thu được sau quá trình số hóa có nhiều loại khác nhau phụ thuộc vào
kỹ thuật số hóa ảnh. Ở các phần trên ta đã biết ảnh được chia làm hai loại: ảnh
đen trắng và ảnh màu. Ảnh thu nhận được có thể lưu trữ trên tệp để tiện cho
các bước xử lý tiếp theo. Phần bên dưới sẽ trình bày một số kiểu định dạng
ảnh thông dụng hay dùng trong kỹ thuật xử lý ảnh hiện nay.

a. Định dạng ảnh IMG
Ảnh IMG là ảnh đen trắng. Phần đầu của ảnh IMG có 16 byte chứa các
thông tin cần biết:
Sáu byte đầu dùng để đánh dấu định dạng ảnh IMG. Giá trị của sáu byte
này viết dưới dạng số Hexa: 0x0001 0x0008 0x0001.
Hai byte tiếp theo chứa độ dài mẫu tin. Đó là độ dài của dãy các byte kề
liền nhau mà dãy này sẽ được lặp lại một số lần nào đó. Số lần lặp lại này sẽ
được lưu trong byte đếm. Nhiều dãy giống nhau được lưu trong một byte.
10



Bốn byte tiếp mô tả kích cỡ pixel.
Hai byte tiếp mô tả số pixel trên một dòng ảnh.
Hai byte cuối là số dòng ảnh trong ảnh.
Ảnh IMG được nén theo từng dòng, mỗi dòng bao gồm các gói (pack).
Các dòng giống nhau cũng được nén thành một gói. Có bốn loại gói sau:
Loại 1: Gói các dòng giống nhau. Quy cách gói tin này như sau: 0x00
0x00 0xFF Count. Ba byte đầu cho biết số các dãy giống nhau, byte cuối cho
biết số các dòng giống nhau.
Loại 2: Gói các dãy giống nhau. Quy cách gói tin này như sau: 0x00
Count. Byte thứ hai cho biết số các dãy giống nhau được nén trong gói. Độ dài
của dãy ghi ở đầu tệp.
Loại 3: Dãy các pixel không giống nhau, không lặp lại và không nén
được. Quy cách như sau: 0x80 Count. Byte thứ hai cho biết độ dài dãy các
pixel không giống nhau không nén được.
Loại 4: Dãy các pixel giống nhau. Tùy theo các bit cao của byte đầu
được bật hay tắt. Nếu bit cao được bật (giá trị 1) thì đây là gói nén các byte chỉ
gồm bit 0, số các byte được nén được tính bởi bảy bit thấp còn lại. Nếu bit cao
tắt (giá trị 0) thì đây là gói nén các byte gồm toàn bit 1, số các byte được nén

được tính bởi bảy bit thấp còn lại.
Các gói tin của file IMG phong phú như vậy là do ảnh IMG là ảnh đen
trắng. Do vậy, chỉ cần một bit cho một pixel thay vì bốn hay tám như đã nói ở
trên. Toàn bộ ảnh chỉ có điểm sáng và tối tương ứng giá trị 1 hoặc giá trị 0. Tỉ
lệ nén của kiểu định dạng này là khá cao.
b. Định dạng ảnh PCX
Định dạng ảnh PCX là một trong những kiểu định dạng cổ điển nhất. Nó
sử dụng phương pháp mã loạt dài RLE (Run Length Encoded) để nén dữ liệu
ảnh. Quá trình nén và giải nén được thực hiện trên từng dòng ảnh. Thực tế
phương pháp giải nén PCX kém hiệu quả hơn so với kiểu IMG. Tệp PCX gồm
ba phần: đầu tệp (header), dữ liệu ảnh (image data), bảng màu mở rộng.
11



Header của tệp PCX có kích thước cố định gồm 128 byte và được phân bố như
sau:
+Một byte: chỉ kiểu định dạng, nếu là kiểu PCX/PCC nó luôn có giá trị là
0Ah.
+ Một byte: chỉ ra version sử dụng để nén ảnh, có thể có các giá trị sau: 0:
version 2.5; 2: version 2.8 với bảng màu; 3: version 2.8 hay 3.0 không có bảng
màu;5: version 3.0 có bảng màu.
+ Một byte: chỉ ra phương pháp mã hóa. Nếu là 0 thì mã hóa theo phương
pháp BYTE PACKED, nếu là 1 thì mã hóa theo phương pháp RLE.
+ Một byte: số bit cho một điểm ảnh plane.
+ Một word: tọa độ góc trái trên của ảnh. Với kiểu PCX nó có giá trị là (0,
0), còn PCC thì khác (0, 0).
+ Một word: tọa độ góc phải dưới.
+ Một word: kích thước bề rộng và bề cao ảnh.
+ Một word: số điểm ảnh.

+ Một word: độ phân giải màn hình.
+ 48 byte: chia thành 16 nhóm, mỗi nhóm ba byte. Mỗi nhóm này chứa
thong tin về một thanh ghi màu. Như vậy ta có 16 thanh ghi màu.
+ Một byte: không dùng đến và luôn đạt là 0.
+ Một byte: số bit plane mà ảnh sử dụng. Với ảnh 16 màu, giá trị này là
bốn,
với ảnh 256 màu (1pixel/8bit) thì số bit plane lại là một.
+ Một byte: số byte cho một dòng quét ảnh.
+ Một word: kiểu bảng màu.
+ 58 byte: không dùng.
Tóm lại, định dạng ảnh PCX thường được dùng để lưu trữ ảnh vì thao tác
đơn giản, cho phép nén và giải nén nhanh. Tuy nhiên vì cấu trúc của nó cố
định nên trong một số trường hợp nó làm tăng kích thước lưu trữ. Và vì vậy
12



mà một số ứng dụng lại sử dụng một kiểu định dạng khác mềm dẻo hơn đó là
TIFF.
c. Định dạng ảnh TIFF (Targed Image File Format)
Kiểu định dạng TIFF được thiết kế để làm nhẹ bớt các vấn đề liên quan
đến việc mở rộng tệp ảnh cố định. Về cấu trúc nó cũng có ba phần chính:
Phần Header (IFH): có trong tất cả các tệp TIFF và gồm tám byte:
+ Một word: chỉ ra kiểu tạo tệp trên máy tính PC hay Macinfosh. Hai loại
này khác nhau rất lớn ở thứ tự các byte lưu trữ trong các số dài hai hay bốn
byte. Nếu trường này có giá trị là 4D4Dh thì đó là ảnh cho máy Macintosh;
nếu là 4949h là của máy PC.
+ Một word: version. Từ này luôn có giá trị là 42. Có thể coi đó là đặc
trưng của file TIFF vì nó không thay đổi.
+ Hai word: giá trị Offset theo byte tính từ đầu file tới cấu trúc IFD (Image

File Directory) là cấu trúc thứ hai của file. Thứ tự các byte ở đây phụ thuộc
vào dấu hiệu trường đầu tiên.
Phần thứ hai (IFD): Nó không ở ngay sau cấu trúc IFH mà vị trí nó
được xác định bởi trường Offset trong đầu tệp. Có thể có một hay nhiều IFD
cùng tồn tại trong file (nếu file có nhiều hơn một ảnh).
Một IFD gồm:
+ Hai byte: chứa các DE (Directory Entry).
+ 12 byte là các DE xếp liên tiếp, mỗi DE chiếm mười hai byte.
+ Bốn byte: chứa Offset trỏ tới IFD tiếp theo. Nếu đây là IFD cuối cùng thì
trường này có giá trị là 0.
Phần dữ liệu thứ ba (các DE): các DE có độ dài cố định gồm 12 byte
chia làm bốn phần:
+ Hai byte: chỉ ra dấu hiệu mà tệp ảnh đã được xây dựng.
+ Hai byte: kiểu dữ liệu của tham số ảnh. Có năm kiểu tham số cơ bản:
1: BYTE (1 byte)

13



2: ASCII (1 byte)
3: SHORT (2 byte)
4: LONG (4 byte)
5: RATIONAL (8 byte)
+ Bốn byte : trường độ dài (bộ đếm) chứa số lương chỉ mục của kiểu dữ
liệu đã chỉ ra. Nó không phải là tổng số byte cần thiết để lưu trữ. Để có dữ liệu
này ta cần nhân tham số chỉ mục với kiểu dữ liệu đã dùng.
+ Bốn byte : đó là Offset tới điểm bắt đầu dữ liệu thực liên quan tới dấu
hiệu, tức là dữ liệu liên quan với DE không phải lưu trữ vật lý cùng với nó
nằm ở một vị trí nào đó trong file.

Dữ liệu chứa trong tệp thường được tổ chức thành các nhóm dòng (cột)
quét của dữ liệu ảnh. Cách tổ chức này làm giảm bộ nhớ cần thiết cho việc đọc
tệp. Việc giải nén được thực hiện theo bốn kiểu khác nhau được lưu trữ trong
ba dấu hiệu nén. Như đã nói ở trên, file ảnh TIFF là dùng để giải quyết vấn đề
khó mở rộng của file PCX. Tuy nhiên, với cùng một ảnh thì việc dùng file
PCX chiếm ít không gian nhớ hơn.
d. Định dạng ảnh GIF (Graphics Interchanger Format)
Cách lưu trữ kiểu PCX có lợi về không gian lưu trữ với ảnh đen trắng
kích thước tệp có thể nhỏ hơn bản gốc từ năm đến bảy lần. Với 16 màu kích
thước ảnh nhỏ hơn ảnh gốc hai đến ba lần, có trường hợp có thể xấp xỉ ảnh
gốc. Tuy nhiên, với ảnh 256 màu thì nó bộc lộ rõ khả năng nén rất kém. Điều
này có thể lý giải như sau: khi số màu tăng lên các loạt dài xuất hiện ít hơn và
vì thế lưu trữ theo kiểu PCX không còn lợi nữa. Hơn nữa, nếu ta muốn lưu trữ
nhiều đối tượng trên một tệp ảnh như kiểu định dạng TIFF đòi hỏi có một định
dạng khác thích hợp.
Định dạng ảnh GIF do hãng ComputServer Incorporated (Mỹ) đề xuất
lần đầu tiên vào năm 1990. Với định dạng GIF, những vướng mắc mà các định
dạng khác gặp phải khi số màu trong ảnh tăng lên không còn nữa. Khi số màu
càng tăng thì ưu thế của định dạng GIF càng nổi trội. Những ưu thế này có
14



được là do GIF tiếp cận các thuật toán nén LZW (Lempel Ziv Weleh). Bản
chất của kỹ thuật nén LZW là dựa vào sự lặp lại của một nhóm điểm chứ
không phải loạt dài giống nhau. Do vậy, dữ liệu càng lớn thì sự lặp lại càng
nhiều. Dạng ảnh GIF cho chất lượng cao, độ phân giải đồ họa cũng đạt cao,
cho phép hiển thị trên hầu hết các phần cứng đồ họa. Định dạng tổng quát của
ảnh GIF như sau:
- Chữ ký của ảnh: có giá trị GIF87a. Nó gồm sáu ký tự, ba ký tự đầu chỉ ra

kiểu định dạng, ba ký tự sau chỉ ra version của ảnh.
- Bộ hình hiển thị: chứa mô tả các thông số cho toàn bộ ảnh GIF.
- Bản đồ màu tổng thể: mô tả bộ màu tối ưu đòi hỏi khi bit M = 1. Khi bộ màu
tổng thể được thể hiện, nó sẽ xác lập ngay bộ mô tả hình hiển thị. Số lượng
thực thể bản đồ màu lấy theo bộ mô tả hình hiển thị ở trên và bằng 2

, với m
là lượng bit trên một pixel khi mỗi thực thể chứa đựng ba byte (biểu diễn
cường độ màu cơ bản Red-Green-Blue).
Bộ mô tả ảnh: định nghĩa vị trí thực tế và phần mở rộng của ảnh trong
phạm vi không gian ảnh đã có trong phần mô tả hình hiển thị. Nếu ảnh biểu
diễn theo ánh xạ bản đồ màu cục bộ thì cờ định nghĩa phải được thiết lập. Mỗi
bộ mô tả ảnh được chỉ ra bởi ký tự kết nối ảnh. Ký tự này chỉ được dùng khi
định dạng GIF có từ hai ảnh trở lên. Ký tự này có giá trị 0x2c (ký tự dấu
phẩy).
Bản đồ màu cục bộ: chỉ được chọn khi bit M của byte thứ 10 là 1. Khi
bản đồ màu được chọn, bản đồ màu sẽ chiếu theo bộ mô tả ảnh mà lấy vào cho
đúng. Tại phần cuối ảnh, bản đồ màu sẽ lấy lại phần xác lập sau bộ mô tả hình
hiển thị. Lưu ý đây là trường “pixel” của byte thứ 10 chỉ được dùng khi bản đồ
màu được chỉ định. Các tham số này không chỉ cho biết kích thước ảnh theo
pixel mà còn chỉ ra số thực thể bản đồ màu của nó.
Dữ liệu ảnh: chuỗi các giá trị có thứ tự của các pixel màu tạo nên ảnh.
Các pixel được xếp liên tục trên một dòng ảnh từ trái qua phải. Các dòng ảnh
được xếp từ trên xuống dưới.

×