Tải bản đầy đủ (.pdf) (87 trang)

Nghiên cứu phương pháp phân đoạn ảnh và ứng dụng cho ảnh tài liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.68 MB, 87 trang )

1

LỜI CẢM ƠN
Trong thời gian thực hiện luận văn thạc sỹ em đã nhận được rất nhiều
sự khích lệ, động viên, giúp đỡ từ phía thầy cô, cha mẹ và bạn bè xung quanh.
Em xin bày tỏ lòng biết ơn chân thành nhất tới thầy giáo, PGS.TS Ngô
Quốc Tạo, người đã trực tiếp hướng dẫn em hoàn thành luận văn thạc sỹ này.
Cảm ơn đề tài: “ Hệ thống đeo tay hỗ trợ đọc sách tiếng Việt dành cho
người khiếm thị” Mã số VAST01.07/15-16 hỗ trợ trong thực hiện luận văn.
Em xin gửi lời cảm ơn chân thành tới các thầy cô trong trường Đại học
Sư phạm Hà Nội 2.
Em đã cố gắng học tập và hoàn thành luận văn thạc sỹ nhưng có thể
luận văn thạc sỹ vẫn còn thiếu sót. Em rất mong nhận được sự góp ý, chỉ bảo
của các thầy cô và các bạn để luận văn thạc sỹ hoàn thiện hơn.
Hà nội, ngày 01 tháng 07 năm 2015
Tác giả luận văn

Nguyễn Đức Toàn


2

LỜI CAM ĐOAN
Tôi xin cam đoan r ng số liệu và kết quả nghiên cứu trong luận văn này
là trung thực và không tr ng l p với các đề tài khác. Tôi c ng xin cam đoan
r ng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các
thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc.
Hà nội, ngày 01 tháng 07 năm 2015
Tác giả luận văn

Nguyễn Đức Toàn




3

MỤC LỤC
MỞ ĐẦU ........................................................................................................ 8
1. Lý do chọn đề tài ....................................................................................... 8
2. Mục đích nghiên cứu ................................................................................. 8
3. Nhiệm vụ nghiên cứu ................................................................................ 8
4. Đối tƣợng và phạm vi nghiên cứu............................................................ 9
5. Phƣơng pháp nghiên cứu.......................................................................... 9
CHƢƠNG 1: KHÁI NIỆM VỀ PHÂN ĐOẠN ẢNH ............................... 11
1.1. Xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh. .................................. 11
1.2. Quá trình xử lý ảnh .............................................................................. 11
1.2.1. Thu nhận ảnh (Image Acquisition) ............................................................13
1.2.2. Tiền xử lý (Image Processing) .....................................................................14
1.2.3. Phân đoạn (Segmentation) hay phân vùng ảnh .......................................14
1.2.4. Biểu diễn ảnh (Image Representation) ......................................................15
1.2.5. Nhận dạng và nội suy ảnh (Image Recognition and Interpretation)....15
1.2.6. Cơ sở tri thức (Knowledge Base) ................................................................16
1.2.7. Mô tả ảnh ........................................................................................... 16
1.3. Phân đoạn ảnh ..................................................................................... 19
1.3.1. Điểm ảnh (Picture Element) ........................................................................19
1.3.2. Độ phân giải của ảnh ....................................................................................20
1.3.3. Mức xám của ảnh ..........................................................................................20
1.3.4. Quan hệ giữa các điểm ảnh .........................................................................21
1.3.4.1. Các lân cận của điểm ảnh (Image Neighbors) ............................. 21
1.3.4.2. Khoảng cách giữa các điểm ảnh ................................................... 22
1.3.4.3. Các thành phần cơ bản của hệ thống xử lý ảnh .......................... 24
1.3.5. Những vấn đề khác trong xử lý ảnh ................................................ 25



4

1.3.5.1. Biến đổi ảnh (Image Transform) ...............................................................25
1.3.5.2. Nén ảnh .........................................................................................................25
1.3.5.3. Các định dạng cơ bản trong xử lý ảnh........................................... 26
CHƢƠNG 2: PHƢƠNG PHÁP PHÂN ĐOẠN ẢNH .............................. 27
Trộn các vùng ............................................................................................................38
2.1. Phƣơng pháp phân đoạn ảnh dựa trên miền đồng nhất. ................ 47
2.1.1. Phƣơng pháp tách cây tứ phân ........................................................ 48
2.1.2. Phƣơng pháp cục bộ ......................................................................... 50
2.2. Phƣơng pháp phân đoạn ảnh dựa trên LPB (Local Binary Pattern–
Mẫu nhị phân cục bộ). ................................................................................ 52
2.2.1. LBP trong miền không gian ............................................................. 53
2.2.2. LBP spatiotemporal .......................................................................... 55
2.2.3. Mô tả mặt bằng LBP......................................................................... 57
2.2.4. Mở rộng và các ứng dụng ................................................................. 59
2.3. Phƣơng pháp phân đoạn ảnh dựa trên Histogram (Ngƣỡng) ....... 60
2.3.1. Thao tác với ảnh nhị phân ...........................................................................70
2.3.1.1. Điểm ảnh và các điểm láng riềng ............................................................70
2.3.1.2. Connected components labeling ..............................................................71
2.3.1.3. Xác định số từ trong ảnh tài liệu..............................................................78
CHƢƠNG 3: ỨNG DỤNG PHÂN ĐOẠN CHO ẢNH TÀI LIỆU ......... 80
3.1. Yêu cầu bài toán: Giải quyết bài viết của học sinh. ......................... 80
3.2. Cách giải quyết yêu cầu của bài toán ................................................ 80
3.3. Xây dựng DEMO................................................................................. 80
3.3.1. Giao diện chính: ................................................................................ 80
3.3.2. Nhập hình ảnh ................................................................................... 81
3.3.3. Sử dụng thuật toán Gray .................................................................. 81

3.3.4. Sử dụng thuật toán Segmentation ................................................... 82


5

3.3.5. Sử dụng thuật toán Sobel ................................................................. 82
3.4. So sánh với ảnh phong cảnh. .............................................................. 83
3.4.1. Giao diện chính.................................................................................. 83
3.4.2. Nhập hình ảnh ................................................................................... 83
3.4.3. Sử dụng thuật toán Gray .................................................................. 84
3.4.4. Sử dụng thuật toán Segmentation ................................................... 84
3.4.5. Sử dụng thuật toán Sobel ................................................................. 85
KẾT LUẬN VÀ KIẾN NGHỊ .................................................................... 86
TÀI LIỆU THAM KHẢO .......................................................................... 87


6

DANH MỤC BẢNG
Hình 2.1 Các phương pháp phân đoạn ảnh ................................................... 28
Bảng 2.2.Ưu nhược điểm của các phương pháp phân v ng ......................... 28
Bảng 2.3 Bảng tra màu .................................................................................. 33
Bảng 2.3 Biểu đồ tần xuất histogram của ảnh I ............................................ 61
Bảng 2.4 : Định nghĩa thành phần liên thông ............................................... 72
Bảng 2.5. Ảnh nhị phân và nhãn của các thành phần ................................... 72
Bảng 2.6. Cấu trúc Union - Find với hai tập nhãn ........................................ 73
Bảng 2.7 Giả mã cho thủ tục Find ................................................................ 74
Bảng 2.8 : Giả mã cho thủ tục Union ............................................................ 74
Bảng 2.9. Giả mã thuật toán và gán nhãn cho các thành phần liên thông .... 76
Bảng 2.10 Ứng dụng thuật toán gán nhãn cho các thành phần liên thông .. 78



7

DANH MỤC HÌNH
Hình 2.1 Các phương pháp phân đoạn ảnh ................................................... 28
Bảng 2.2.Ưu nhược điểm của các phương pháp phân v ng ......................... 28
Bảng 2.3 Bảng tra màu .................................................................................. 33
Bảng 2.3 Biểu đồ tần xuất histogram của ảnh I ............................................ 61
Bảng 2.4 : Định nghĩa thành phần liên thông ............................................... 72
Bảng 2.5. Ảnh nhị phân và nhãn của các thành phần ................................... 72
Bảng 2.6. Cấu trúc Union - Find với hai tập nhãn ........................................ 73
Bảng 2.7 Giả mã cho thủ tục Find ................................................................ 74
Bảng 2.8 : Giả mã cho thủ tục Union ............................................................ 74
Bảng 2.9. Giả mã thuật toán và gán nhãn cho các thành phần liên thông .... 76
Bảng 2.10 Ứng dụng thuật toán gán nhãn cho các thành phần liên thông .. 78


8

MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây công nghệ thông tin phát triển với tốc độ
nhanh chóng. Sự phát triển của công nghệ thông tin đã thúc đẩy sự phát triển
của nhiều lĩnh vực xã hội khác như: y học, giáo dục, giải trí, kinh tế…
Lĩnh vực xử lý ảnh c ng như công nghệ thực tại ảo đã ra đời và thâm
nhập mạnh mẽ vào đời sống của con người.
Ảnh thu được sau qua trình thu nhận ảnh ho c các phép biến đổi không
tránh khỏi nhiễu ho c khuyết thiếu. Sự sai sót này một phần bởi các thiết bị
quang học và điện tử, phần khác bởi bản thân các phép biến đổi không phải là

toàn ánh, nên có sự ánh xạ thiếu hụt đến những điểm trên ảnh kết quả.
Việc khắc phục các nhược điểm này luôn là vấn đề đ t ra cho các hệ
thống xử lý ảnh vì vậy các nhà khoa học đã phân đoạn ảnh ra để làm rõ nét
hơn cho bức ảnh cần xử lý và tăng cường nâng cao chất lượng ảnh.
Xuất phát trong hoàn cảnh đó “Nghiên cứu phương pháp phân đoạn
ảnh và ứng dụng cho ảnh tài liệu” được em chọn làm đề tài.

2. Mục đích nghiên cứu
Tìm hiểu tổng quan về phân đoạn ảnh, các phương pháp phân đoạn ảnh
và chọn ra phương pháp phân đoạn ảnh cụ thể.
Trên cơ sở các kiến thức đã thu thập và nghiên cứu, tổng hợp các kỹ
thuật để hướng đến các ứng dụng thực tế phân đoạn cho ảnh tài liệu.

3. Nhiệm vụ nghiên cứu
Tìm hiểu khái niệm phân đoạn ảnh.
Các phương pháp phân đoạn ảnh.
Ứng dụng phương pháp phân đoạn cho ảnh tài liệu.


9

4. Đối tƣợng và phạm vi nghiên cứu
Đối tượng, phạm vi nghiên cứu về tổng quan về phân đoạn ảnh, các
phương pháp phân đoạn ảnh và chọn ra phương pháp phân đoạn cho ảnh cụ
thể và các ứng dụng thực tế phân đoạn cho ảnh tài liệu.

5. Phƣơng pháp nghiên cứu
Thu thập tài liệu, phân tích, suy luận, tổng hợp, đánh giá. Từ đó đề xuất
nghiên cứu và tìm hiểu: “Nghiên cứu phương pháp phân đoạn ảnh và ứng
dụng cho ảnh tài liệu”.



10

NỘI DUNG
Chƣơng 1: Khái niệm về phân đoạn ảnh
1.1 Xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh.
1.2 Quá trình xử lý ảnh.
1.3 Phân đoạn ảnh.
Chƣơng 2: Phƣơng pháp phân đoạn ảnh
2.1 Phương pháp phân đoạn ảnh dựa trên miền đồng nhất.
2.2 Phương pháp phân đoạn ảnh dựa trên LBP (Local Binary Pattern)
( Mẫu nhị phân cục bộ).
2.3 Phương pháp phân đoạn ảnh dựa trên Histogram (Ngưỡng).
Chƣơng 3: Ứng dụng phƣơng pháp phân đoạn cho ảnh tài liệu.
- Yêu cầu bài toán: Giải quyết bài viết của học sinh.
- Đ c th của ảnh sau khi phân đoạn: là ảnh đen trắng (ảnh đơn màu).
- Thử nghiệm với các dữ liệu.


11

CHƢƠNG 1: KHÁI NIỆM VỀ PHÂN ĐOẠN ẢNH
1.1. Xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh.
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng
vai trò quan trọng nhất. Xử lý ảnh là một lĩnh vực mang tính khoa học và
công nghệ. Những năm trở lại đây với sự phát triển của phần cứng máy tính,
xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng
trong cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong
tương tác người và máy.

Quá trình xử lý ảnh là một quá trình thao tác nh m phân tích, biến đổi
một ảnh đầu vào để đưa ra một kết quả mong muốn. Kết quả của quá trình xử
lý ảnh có thể là một ảnh tốt hơn ho c một kết luận. Điều này t y thuộc vào
mục đích yêu cầu của quá trình. Như vậy, mục tiêu của xử lý ảnh có thể phân
làm ba hướng như sau:
 Xử lý ảnh ban đầu để có được một ảnh mới theo yêu cầu xác định (ví
dụ như ảnh mờ cần xử lý để được ảnh rõ hơn, lọc nhiễu, phân đoạn
ảnh để lấy được những yêu cầu cần thiết...).
 Phân tích ảnh để thu được các thông tin đ c trưng giúp cho việc phân
loại, nhận dạng ảnh (Ví dụ như phân tích nhận dạng vân tay, nhận
dạng chữ viết, nhận dạng ảnh tài liệu...).
 Đưa ra một kết luận ở mức cao hơn, sâu hơn (ví dụ như từ ảnh một tai
nạn giao thông phác họa hiện trường tai nạn…
1.2. Quá trình xử lý ảnh
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ, là một
ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát
triển rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đ c biệt là
máy tính chuyên dụng riêng.


12

Xử lý ảnh liên quan đến nhiều lĩnh vực và cần nhiều kiến thức cơ sở
khác. Đầu tiên phải kể đến Xử lý tín hiệu số là một môn học hết sức cơ bản
cho xử lý tín hiệu chung, các khái niệm về tích chập, các biến đổi Fourier,
biến đổi Laplace, các bộ lọc hữu hạn… Thứ hai, các công cụ toán như Đại số
tuyến tính, Xác xuất, thống kê. Một số kiến thứ cần thiết như Trí tuệ nhân tao,
Mạng nơron nhân tạo c ng được đề cập trong quá trình phân tích và nhận
dạng ảnh. Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính: nâng
cao chất lượng ảnh và phân tích ảnh.

Ứng dụng đầu tiên được biết đến là nâng cao chất lượng ảnh báo được
truyền qua cáp từ Luân Đôn đến New York từ những năm 1920. Vấn đề nâng
cao chất lượng ảnh có liên quan tới phân bố mức sáng và độ phân giải của
ảnh. Việc nâng cao chất lượng ảnh được phát triển vào khoảng những năm
1955. Điều này có thể giải thích được vì sau thế chiến thứ hai, máy tính phát
triển nhanh tạo điều kiện cho quá trình xử lý ảnh sô thuận lợi. Năm 1964, máy
tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ m t trăng và vệ tinh
Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh. Từ năm 1964 đến
nay, các phương tiện xử lý, nâng cao chất lượng, nhận dạng ảnh phát triển
không ngừng.
Các phương pháp tri thức nhân tạo như mạng nơron nhân tạo, các thuật
toán xử lý hiện đại và cải tiến, các công cụ nén ảnh ngày càng được áp dụng
rộng rãi và thu nhiều kết quả khả quan.
Để dễ tưởng tượng, xét các bước cần thiết trong xử lý ảnh. Đầu tiên,
ảnh tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như
Camera, máy chụp ảnh). Trước đây, ảnh thu qua Camera là các ảnh tương tự
(loại Camera ống kiểu CCIR). Gần đây, với sự phát triển của công nghệ, ảnh
màu ho c đen trắng được lấy ra từ Camera, sau đó nó được chuyển trực tiếp
thành ảnh số tạo thuận lợi cho xử lý tiếp theo. (Máy ảnh số hiện nay là một thí


13

dụ gần g i). M t khác, ảnh c ng có thể tiếp nhận từ vệ tinh; có thể quét từ ảnh
chụp b ng máy quét ảnh.
Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính như nâng
cao chất lượng ảnh và phân tích ảnh.
Do vậy, quá trình xử lý ảnh bao giờ c ng bắt đầu b ng công việc thu
nhận ảnh và kết thúc là việc nhận dạng ảnh ho c một phán đoán theo ý nghĩa
trên cơ sở nhận dạng ảnh. Cụ thể, các bước cơ bản trong quá trình xử lý ảnh

được thể hiện thông qua hình dưới đây:

Hình 1.1 Các bước cơ bản trong xử lý ảnh
1.2.1. Thu nhận ảnh (Image Acquisition)
Đây là bước đầu tiên trong quá trình xử lý ảnh. Đầu ra của giai đoạn
này là ảnh đã được số hoá. Vì vậy, công việc cụ thể ở giai đoạn này là thu ảnh
qua một bộ thu ảnh và số hoá những tín hiệu liên tục được sinh ra bởi bộ thu
ảnh đó.
Bộ thu ảnh có thể là máy chụp ảnh đơn sắc hay màu, máy quét ảnh,
máy quay… Nếu bộ thu ảnh cung cấp chưa phải dạng số hoá thì phải chuyển
đổi hay số hoá ảnh.
Ảnh có thể nhận qua camera màu ho c đen trắng. Thường ảnh nhận qua
camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh
25 dòng), c ng có loại camera đã số hoá (như loại CCD - Change Coupled
Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh. Camera thường


14

d ng là loại quét dòng ; ảnh tạo ra có dạng hai chiều. Chất lượng một ảnh thu
nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh).
1.2.2. Tiền xử lý (Image Processing)
Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào
bộ tiền xử lý để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là lọc
nhiễu, nâng độ tương phản để làm ảnh rõ hơn, nét hơn.
Mục đích của các công việc này là làm cho chất lượng ảnh trở lên tốt
hơn chuẩn bị cho các bước xử lý tiếp theo.
Khử nhiễu: Nhiễu được chia thành hai loại là nhiễu hệ thống và nhiễu
ngẫu nhiên. Đ c trưng của nhiễu hệ thống là tính tuần hoàn. Do vậy, có thể
khử nhiễu hệ thống b ng việc sử dụng phép biến đổi Fourie và loại bỏ các

đỉnh điểm. Đối với nhiễu ngẫu nhiên, trường hợp đơn giản là các vết bẩn
tương ứng với các điểm sáng hay tối thì có thể khử b ng phương pháp nội
suy, lọc trung vị và lọc trung bình.
Chỉnh độ tƣơng phản: Công việc cụ thể là chỉnh sửa tính không đồng
đều của thiết bị thu nhận ho c độ tương phản giữa các v ng ảnh.
1.2.3. Phân đoạn (Segmentation) hay phân vùng ảnh
Phân v ng ảnh là tách một ảnh đầu vào thành các v ng thành phần để
biểu diễn phân tích, nhận dạng ảnh. Ví dụ: để nhận dạng chữ (ho c mã vạch)
trên phong bì thư cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về
địa chỉ ho c tên người thành các từ, các chữ, các số (ho c các vạch) riêng biệt
để nhận dạng. Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và c ng dễ
gây lỗi, làm mất độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất
nhiều vào công đoạn này.
Kết quả của bước phân đoạn ảnh thường được cho dưới dạng dữ liệu
điểm ảnh thô, trong đó hàm chứa biên của v ng ảnh ho c tập hợp tất cả các
điểm ảnh thuộc về chính v ng ảnh đó. Trong cả hai trường hợp, sự chuyển đổi


15

dữ liệu thô này thành một dạng thích hợp hơn cho việc xử lý trong máy tính là
hết sức cần thiết, nghĩa là nên biểu diễn một v ng ảnh dưới dạng biên hay
dưới dạng một v ng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó.
1.2.4. Biểu diễn ảnh (Image Representation)
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của v ng ảnh (ảnh đã
phân đoạn) cộng với mã liên kết với các v ng lận cận. Việc biến đổi các số
liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo b ng máy tính.
Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đ c trưng (Feature
Selection) gắn với việc tách các đ c tính của ảnh dưới dạng các thông tin định
lượng ho c làm cơ sở để phân biệt lớp đối tượng này với đối tượng khác trong

phạm vi ảnh nhận được.
Ví dụ: trong nhận dạng ký tự trên phong bì thư, chúng ta miêu tả các
đ c trưng của từng ký tự giúp phân biệt ký tự này với ký tự khác.
Ảnh sau khi số hoá sẽ được lưu vào bộ nhớ ho c chuyển sang các khâu
tiếp theo để phân tích. Nếu lưu trữ ảnh trực tiếp từ các ảnh thô đòi hỏi dung
lượng bộ nhớ rất lớn và không hiệu quả theo quan điểm ứng dụng và công
nghệ. Thông thường, các ảnh thô đó được biểu diễn lại theo các đ c điểm của
ảnh được gọi là các đ c trưng ảnh như: biên ảnh, v ng ảnh. - Biểu diễn dạng
biên cho một v ng ph hợp với những ứng dụng chỉ quan tâm đến các đ c
trưng hình dạng bên ngoài của đối tượng.
Ví dụ như các góc cạnh và điểm uốn trên biên.
Biểu diễn dạng v ng thích hợp cho những ứng dụng khai thác các tính
chất bên trong của đối tượng. Ví dụ như vân ảnh ho c cấu trúc xương của nó.
Trong một số ứng dụng thì cả hai cách biểu diễn trên đều cần thiết.
1.2.5. Nhận dạng và nội suy ảnh (Image Recognition and Interpretation)
Nhận dạng ảnh là quá trình xác định ảnh b ng cách so sánh ảnh với
mẫu chuẩn đã được lưu từ trước.


16

Nội suy là phán đoán theo ý nghĩa trên cơ sở nhận dạng ảnh.
Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thư có thể nội
suy thành mã điện thoại. Có nhiều cách phân loại khác nhau về ảnh. Theo lý
thuyết về nhận dạng, các mô hình toán học về ảnh được phân theo hai loại
nhận dạng sau:
- Nhận dạng theo tham số.
- Nhận dạng theo cấu trúc.
Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng
trong khoa học và công nghệ là: Nhận dạng ký tự (chữ in, chữ viết tay, chữ ký

điện tử), nhận dạng văn bản, nhận dạng vân tay, nhận dạng mã vạch, nhận
dạng m t người...
1.2.6. Cơ sở tri thức (Knowledge Base)
Ảnh là một đối tượng khá phức tạp về đường nét, độ sáng tối, dung
lượng điểm ảnh, nhiễu do môi trường thu ảnh phong phú. Trong nhiều khâu
xử lý và phân tích ảnh, ngoài việc đơn giản hoá các phương pháp toán học
đảm bảo tiện lợi cho xử lý thì chúng ta luôn hướng đến việc xây dựng hệ
thống tự động tiếp nhận và xử lý theo cách của con người. Vì vậy, nhiều khâu
hiện nay đã được xử lý theo các phương pháp trí tuệ nhân tạo, sử dụng cơ sở
tri thức của con người.
1.2.7. Mô tả ảnh
Từ Hình 1.1, ảnh sau khi số hoá sẽ được lưu vào bộ nhớ, ho c chuyển
sang các khâu tiếp theo để phân tích. Nếu lưu trữ ảnh trực tiếp từ các ảnh thô,
đòi hỏi dung lượng bộ nhớ cực lớn và không hiệu quả theo quan điểm ứng
dụng và công nghệ. Thông thường, các ảnh thô đó được đ c tả (biểu diễn) lại
(hay đơn giản là mã hoá) theo các đ c điểm của ảnh được gọi là các đ c trưng
ảnh (Image Features) như: biên ảnh (Boundary), v ng ảnh (Region). Một số
phương pháp biểu diễn thường d ng:


17

• Biểu diễn b ng mã chạy (Run-Length Code)
• Biểu diễn b ng mã xích (Chaine -Code)
• Biểu diễn b ng mã tứ phân (Quad-Tree Code)
- Biểu diễn bằng mã chạy
Phương pháp này thường biểu diễn cho v ng ảnh và áp dụng cho ảnh nhị
phân. Một v ng ảnh R có thể mã hoá đơn giản nhờ một ma trận nhị phân:
U(m, n) = 1 nếu (m, n) thuộc R
U( m, n) = 0 nếu (m, n) không thuộc R

Trong đó: U(m n), là hàm mô tả mức xám ảnh tại tọa độ (m, n). Với cách
biểu diễn trên, một v ng ảnh được mô tả b ng một tập các chuỗi số 0 ho c 1.
Giả sử chúng ta mô tả ảnh nhị phân của một v ng ảnh được thể hiện theo toạ
độ (x, y) theo các chiều và đ c tả chỉ đối với giá trị “1” khi đó dạng mô tả có
thể là: (x, y)r; trong đó (x, y) là toạ độ, r là số lượng các bit có giá trị “1” liên
tục theo chiều ngang ho c dọc.
- Biểu diễn bằng mã xích
Phương pháp này thường d ng để biểu diễn đường biên ảnh. Một đường
bất kỳ được chia thành các đoạn nhỏ. Nối các điểm chia, ta có các đoạn thẳng
kế tiếp được gán hướng cho đoạn thẳng đó tạo thành một dây xích gồm các
đoạn. Các hướng có thể chọn 4, 8, 12, 24… mỗi hướng được mã hoá theo số
thập phân ho c số nhị phân thành mã của hướng.
- Biểu diễn bằng mã tứ phân
Phương pháp mã tứ phân được d ng để mã hoá cho v ng ảnh. V ng ảnh
đầu tiên được chia làm bốn phần thường là b ng nhau. Nếu mỗi v ng đã đồng
nhất (chứa toàn điểm đen (1) hay trắng (0)) thì gán cho v ng đó một mã và
không chia tiếp. Các v ng không đồng nhất được chia tiếp làm bốn phần theo
thủ tục trên cho đến khi tất cả các v ng đều đồng nhất. Các mã phân chia
thành các v ng con tạo thành một cây phân chia các v ng đồng nhất.


18

Trên đây là các thành phần cơ bản trong các khâu xử lý ảnh. Trong thực
tế, các quá trình sử dụng ảnh số không nhất thiết phải qua hết các khâu đó t y
theo đ c điểm ứng dụng. Hình 1.2 cho sơ đồ phân tích và xử lý ảnh và lưu đồ
thông tin giữa các khối một cách khá đầy đủ. Ảnh sau khi được số hóa được
nén, lưu lại để truyền cho các hệ thống khác sử dụng ho c để xử lý tiếp theo.
M t khác, ảnh sau khi số hóa có thể bỏ qua công đoạn nâng cao chất lượng
(khi ảnh đủ chất lượng theo một yêu cầu nào đó) để chuyển tới khâu phân

đoạn ho c bỏ tiếp khâu phân đoạn chuyển trực tiếp tới khâu trích chọn đ c
trưng. Hình 1.2 c ng chia các nhánh song song như: nâng cao chất lượng ảnh
có hai nhánh phân biệt: nâng cao chất lượng ảnh (tăng độ sáng, độ tương
phản, lọc nhiễu) ho c khôi phục ảnh (hồi phục lại ảnh thật khi ảnh nhận được
bị méo) v.v…

Cảnh
quan
(Scenne)

Thu
ảnh

Nén
ảnh

Số
hóa

Ảnh tương tự

Thu nhận ảnh

Lưu
ảnh

Truyền
ảnh

Nâng

chất
lượng
ảnh

Ảnh
được
cải
tiến

Trích
chọn
đ c
trưng

Phân
đoạn
Khôi
phục
ảnh

Phân
Tích
Thống
Kê/
cấu
trúc

Trích
chọn
quan

hệ

Hình 1.2 Sơ đồ phân tích và xử lý ảnh và lưu đồ thông tin giữa các khối


tả

Nội
suy


19

1.3. Phân đoạn ảnh
Phân đoạn ảnh là một thao tác ở mức thấp và là bước then chốt trong
quá trình xử lý ảnh. Giai đoạn này nh m phân tích ảnh thành những v ng rời
rạc có c ng tính chất nào đó dựa vào việc xác định biên và các v ng liên
thông cho từng v ng. Tiêu chuẩn để xác định các v ng liên thông có thể là
c ng mức xám, c ng màu hay c ng độ nhám… Các v ng ảnh này thông
thường sẽ tương ứng với toàn bộ hay từng phần của đối tượng thật bên trong
ảnh.
Mỗi v ng ảnh là một tập hợp các điểm có c ng ho c gần c ng một tính
chất nào đó như mức xám, mức màu, độ nhám… Đường bao quanh một v ng
ảnh là biên ảnh. Các điểm ảnh trong một v ng ảnh có độ biến thiên giá trị
mức xám tương đối đồng đều hay tinh kết cấu tương đồng.
Dựa vào đ c tính vật lý của ảnh người ta có nhiều kỹ thuật phân v ng
như phân v ng dựa theo miền liên thông gọi là phân v ng dựa theo miền đồng
nhất hay miền kề; phân v ng dựa và biên gọi là phân v ng biên. Ngoài ra còn
có các kỹ thuật phân v ng khác dựa vào biên độ, dựa vào kết cấu…
1.3.1. Điểm ảnh (Picture Element)

Gốc của ảnh là ảnh liên tục về không gian và độ sáng. Để xử lý ảnh
b ng máy tính thì ảnh cần phải được số hóa. Số hóa ảnh là sự biến đổi gần
đúng một ảnh liên tục thành một tập điểm ph hợp với ảnh thật về vị trí và độ
sáng. Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt người
không phân biệt được ranh giới giữa chúng. Mỗi điểm như vậy gọi là điểm
ảnh – Picture Element (PEL) hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai
chiều, mỗi pixel ứng với c p tọa độ (x,y).
Như vậy, điểm ảnh (Pixel) là một phần tử của ảnh số tại tọa độ (x,y) với
độ xám ho c màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó
được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian


20

và mức xám (ho c màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma
trận được gọi là một phần tử ảnh.
1.3.2. Độ phân giải của ảnh
Định nghĩa
Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định
trên một ảnh số được hiển thị.
Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao
cho mắt người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách
thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân
bố theo trục x, y trong không gian hai chiều.
Ví dụ: Độ phân giải của màn hình CGA (Color Graphic Adaptor) là
một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm
ảnh (320*200). C ng loại màn hình CGA và ở c ng độ phân giải 320*200, ta
sẽ thấy màn hình CGA 12‟‟ mịn hơn màn hình CGA 17‟‟. Lý do chính là ở
c ng một độ phân giải nhưng diện tích màn hình rộng hơn thì độ mịn hay tính
liên tục của các điểm ảnh sẽ thấp hơn

1.3.3. Mức xám của ảnh
Mức xám của điểm ảnh là cường độ sáng của nó được gán b ng giá trị
số tại điểm đó.
Các giá trị mức xám thông thường như: 16, 32, 64, 128, 256. Trong đó,
mức 256 là mức phổ dụng cho các máy tính ngày nay do máy tính d ng 1
byte (8 bit) để biểu diễn mức xám nên sẽ có 28=256 mức.
Ảnh đen trắng: là ảnh có hai màu đen trắng với mức xám ở các điểm
ảnh có thể khác nhau.
Ảnh nhị phân: là ảnh chỉ có 2 mức đen trắng phân biệt d ng 1 bit mô
tả 2 mức khác nhau. Như vậy, mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0
ho c 1.


21

Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo
nên thế giới màu người ta thường d ng 3 byte để mô tả mức màu. Khi đó mỗi
điểm ảnh có thể nhận số giá trị màu là 28*3=224 ≈ 16,7 triệu màu.
1.3.4. Quan hệ giữa các điểm ảnh
Một ảnh số giả sử được biểu diễn b ng hàm f(x,y). Tập con các điểm
ảnh là S; c p điểm ảnh có quan hệ với nhau là p,q. Để thể hiện quan hệ giữa
các điểm ảnh chúng ta có một số khái niệm sau:
1.3.4.1. Các lân cận của điểm ảnh (Image Neighbors)
Giả sử có điểm ảnh p tại tọa độ (x,y). p có 4 điểm lân cận gần nhất theo
chiều đứng và ngang (có thể coi như lân cận 4 hướng chính: Đông, Tây, Nam,
Bắc).
N4(p) = {(x-1,y); (x,y-1); (x,y+1); (x+1,y)}
Trong đó: số 1 là giá trị logic; N4(p) là tập 4 điểm lân cận của p.

Hình 1.3 Lân cận các điểm ảnh của tọa độ (x,y)

Các điểm lân cận chéo Np(p) (Có thể coi lân cận chéo là 4 hướng:
Đông-Nam, Đông-Bắc, Tây-Nam, Tây-Bắc)
Np(p) = {(x+1,y+1); (x+1,y-1); (x-1,y+1); (x-1;y-1)}
Tập kết hợp: N8(p) = N4(p) + Np(p) là tập hợp 8 lân cận của điểm ảnh p.


22

Chú ý: Nếu (x,y) n m ở biên ảnh thì một số điểm lân cận sẽ n m ngoài
ảnh.
1.3.4.2. Khoảng cách giữa các điểm ảnh
Định nghĩa: Khoảng cách D(p,q) giữa hai điểm ảnh p tọa độ (x,y), q
tọa độ (s,t) là hàm khoảng cách (Distance) nếu:
1. D(p,q) ≥ 0 (Với D(p,q)=0 nếu và chỉ nếu p≡q)
2. D(p,q) = D(q,p)
3. D(p,z) ≤ D(p,q) + D(q,z); z là một điểm ảnh khác.
Khoảng cách Euclide: Khoảng cách Euclide giữa hai điểm ảnh p(x,y)
và q(s,t) được định nghĩa như sau:
De(p,q) = (x - s)2  (y - t)2
Khoảng cách Euclide giữa hai điểm p và q là chiều dài đoạn thẳng

.

Trong hệ tọa độ Descartes, nếu p = (p1, p2,..., pn) và q = (q1, q2,..., qn) là hai
điểm trong không gian Euclidn chiều, thì khoảng cách từ p đến q b ng:

Dạng chuẩn Euclid là khoảng cách của một điểm đến điểm gốc trong không
gian Euclid:

trong đó phương trình sau c ng là tích vô hướng. Đây là chiều dài của p, khi

ta xem nó là một Véc-tơ Euclid có gốc n m ở gốc tọa độ. Khoảng cách khi đó
b ng


23

Khoảng cách khối: Khoảng cách D4(p,q) được gọi là khoảng cách
khối đồ thị (City – Block Distance) và được xác định như sau:
D4(p,q) = | x-s| + |y-t|
Giá trị khoảng cách giữa các điểm ảnh r: giá trị bán kính r giữa điểm
ảnh từ tâm điểm ảnh đến tâm điểm ảnh q khác. Ví dụ: màn hình CGA 12”
(12”*2,54cm=30,48cm=304,8mm) độ phân giải 320*200; tỷ lệ 4/3 (Chiều
dài/Chiều rộng). Theo định lý Pitago về tam giác vuông, đường chéo sẽ lấy tỷ
lệ 5 phần (5/4/3: đường chéo/chiều dài/chiều rộng); khi đó độ dài thật là
(505/244/183) chiều rộng màn hình 183mm ứng với màn hình CGA 200 điểm
ảnh theo chiều dọc. Như vậy, khoảng cách điểm ảnh lân cận của CGA 12” là
≈ 1mm.
Khoảng cách hay khoảng cách nhỏ nhất

của một mã khối là số kí tự khác

nhau nhỏ nhất giữa hai mã tự bất kì, và khoảng cách tương đối là tỉ lệ
Một cách cụ thể hơn, với hai mã tự
Hamming giữa



khoảng cách nhỏ nhất

,đ t


là khoảng cách

, nghĩa là số vị trí khác nhau giữa
của mã

.



. Định nghĩa


.

Do mọi mã đều là đơn ánh, khoảng cách nhỏ nhất luôn lớn hơn ho c
b ng .
Khoảng cách lớn hơn cho phép phát hiện và sửa nhiều lỗi hơn. Chẳng hạn,
nếu ta chỉ xét trường hợp lỗi làm thay đổi kí tự trong mã tự gửi đi nhưng
không thêm hay xóa bớt kí tự thì số lỗi chính là số vị trí khác nhau giữa
khối gửi đi và khối nhận được. Một mã với khoảng cách
hiện

lỗi vì sau khi thay đổi không quá

cho phép phát

vị trí của một mã tự, ta

không thể thu được một mã tự mới. Ngoài ra, nếu chỉ có không



24

quá

lỗi, người nhận có thể sửa lỗi và tìm ra mã tự gửi đi. Đó là

vì trong khoảng cách

từ khối tự nhận được chỉ có đúng một mã

tự. Nếu có nhiều hơn

lỗi thì người nhận không thể tìm ra chính

xác mã tự gửi đi. Một phương thức đối phó với trường hợp này là sử
dụng giải mã danh sách, trong đó người nhận liệt kê tất cả các mã tự n m
trong một bán kính nhất định.
Khoảng cách bàn cờ: Khoảng cách D8(p,q) còn gọi là khoảng cách
bàn cờ (Chess-Board Distance) giữa điểm ảnh p,q được xác định như sau:
D8(p,q) = max(|x-s , |y-t|)
1.3.4.3. Các thành phần cơ bản của hệ thống xử lý ảnh
Bộ nhớ

Đầu đo

Bộ số hóa

Máy tính số


Bộ hiển thị

Hình 1.4 Các thành phần chính của hệ thống xử lý ảnh
Theo quan điểm của quy trình xử lý, chúng ta đã thể hiện các khối cơ
bản trên Hình 1.1, các khối chi tiết và luồng thông tin trên Hình 1.2. Theo
quan điểm của hệ thống xử lý trên máy tính số, hệ thống gồm các đầu đo (thu
nhận ảnh); bộ số hóa ; máy tính số; Bộ hiển thị; Bộ nhớ. Một hệ thống xử lý
ảnh cơ bản có thể gồm: máy tính cá nhân kèm theo vỉ mạch chuyển đổi đồ
hoạ VGA ho c SVGA, đĩa chứa các ảnh d ng để kiểm tra các thuật toán và
một màn hình có hỗ trợ VGA ho c SVGA.


25

Ảnh mức xám được áp dụng trong nhiều lĩnh vực như sinh vật học ho c
trong công nghiệp. Thực tế chỉ ra r ng bất kỳ ứng dụng nào trên ảnh, mức
xám c ng ứng dụng được trên ảnh màu. Với lý do đó, hệ thống ban đầu nên
chỉ bao gồm các thiết bị thu nhận và hiển thị ảnh đen trắng. Với ảnh màu, nên
sử dụng một hệ thống mới như Hình 1.4, trừ trường hợp cần một camera TV
màu và một màn hình đa tần số (ví dụ như NEC MultiSync, Sony Multiscan,
ho c Mitsubishi Diamond Scan) để hiển thị ảnh màu. Nếu khả năng hạn chế,
có thể d ng PC kèm theo vỉ mạch VGA và màn hình VGA, để dựng ảnh
được.
1.3.5. Những vấn đề khác trong xử lý ảnh
1.3.5.1. Biến đổi ảnh (Image Transform)
Trong xử lý ảnh, do số điểm ảnh lớn, các tính toán nhiều (độ phức tạp
tính toán cao) đòi hỏi dung lượng bộ nhớ lớn, thời gian tính toán lâu. Các
phương pháp khoa học kinh điển áp dụng cho xử lý ảnh hầu hết khó khả thi.
Vì vậy, chúng ta sử dụng các phép toán tương đương ho c biến đổi ảnh sang

miền xử lý khác để dễ tính toán.
Sau khi xử lý xong, chúng ta d ng biến đổi ngược để đưa ảnh về miền
xác định ban đầu. Các phép biến đổi thường g p trong xử lý ảnh gồm:
- Biến đổi Fourier, Cosin, Sin,
- Biến đổi (mô tả) ảnh b ng tích chập, tích Kronecker,
- Các biến đổi khác như KL (Karhumen Loeve), Hadamard…
Một số các công cụ sác xuất thông kê c ng được sử dụng trong xử lý
ảnh
1.3.5.2. Nén ảnh
Ảnh d ở dạng nào vẫn chiếm không gian nhớ rất lớn. Vì vậy, khi mô
tả ảnh có thể sử dụng kỹ thuật nén ảnh để thu thu gọn dung lượng nhớ dành
cho ảnh. Các giai đoạn nén ảnh có thể chia ra thành 2 thế hệ là thế hệ 1và thế


×