Tải bản đầy đủ (.pdf) (68 trang)

Nâng cao chất lượng hệ thống nhập dữ liệu tự động theo FORM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 68 trang )

1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
=======   ======



Nguyễn Quang

NÂNG CAO CHẤT LƢỢNG
HỆ THỐNG NHẬP DỮ LIỆU TỰ ĐỘNG THEO FORM



LUẬN VĂN THẠC SĨ






Hà Nội - 2010
2

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
=======   ======


NGUYỄN QUANG



NÂNG CAO CHẤT LƢỢNG
HỆ THỐNG NHẬP DỮ LIỆU TỰ ĐỘNG THEO FORM

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05

LUẬN VĂN THẠC SĨ


Ngƣời hƣớng dẫn khoa học: PGS. TS Đỗ Năng Toàn



Hà Nội - 2010
5


MỤC LỤC

LỜI CAM ĐOAN 3
LỜI CẢM ƠN 4
PHẦN MỞ ĐẦU 7
CHƢƠNG 1 : KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ FORM TÀI LIỆU 10
1.1. KHÁI QUÁT VỀ XỬ LÝ ẢNH 10
1.1.1. Xử lý ảnh là gì 10
1.1.2. Các vấn đề cơ bản trong xử lý ảnh 12
1.1.2.1. Picture Element: phần tử ảnh 13
1.1.2.2. Grey level: mức xám 13

1.1.2.3. Quan hệ giữa các điểm ảnh 14
1.2. BIỂU DIỄN FORM TÀI LIỆU 17
1.2.1. Các mô hình biểu diễn ảnh 17
1.2.1.1. Mô hình Raster 17
1.2.1.2. Mô hình Vector 18
1.2.2. Các phƣơng pháp biểu diễn ảnh 18
1.2.2.1. Biểu diễn mã loạt dài (Run – Length code) 19
1.2.2.2. Biểu diễn mã xích (Chain Code) 19
1.2.2.3. Biểu diễn mã tứ phân (Quad Tree Code) 20
1.2.3. Biểu diễn Form tài liệu 21
1.2.3.1. Cấu trúc vật lý 22
1.2.3.1. Cấu trúc logic 23
CHƢƠNG 2 : MỘT SỐ KỸ THUẬT NÂNG CAO CHẤT LƢỢNG HỆ THỐNG NHẬP
DỮ LIỆU TỰ ĐỘNG THEO FORM 25
2.1 KHỬ NHIỄU 25
2.1.1. Nhiễu ảnh 25
2.1.2. Khử nhiễu 26
2.1.2.1. Lọc tuyến tính (Linear Filter) 26
2.1.2.1.1. Lọc trung bình không gian 26
2.1.2.1.2. Lọc thông thấp (Spacial Low- Pass Filter) 28
2.1.2.1.3. Lọc đồng hình (Homomorphic filter) 30
2.1.2.2. Lọc phi tuyến (NonLinear Filter) 30
2.1.2.2.1. Lọc trung vị (Median filter) 31
2.1.2.2.2. Lọc ngoài (Outlier filter) 32
2.1.2.2.3. Bộ lọc giữ biên (Kuwahara filter) 33
2.1.2.3. Mặt nạ gờ sai phân và làm nhăn (Unharp Masking and Crispering) 33
6

2.1.2.4. Lọc thông thấp, thông cao và lọc dải thông 34
2.2 PHÁT HIỆN VÀ HIỆU CHỈNH GÓC NGHIÊNG 36

2.2.1. Biến đổi Hough 37
2.2.1.1. Biến đổi Hough cho đƣờng thẳng 37
2.2.1.2. Biến đổi Hough cho đƣờng thẳng trong toạ độ cực 39
2.2.1.3. Áp dụng biến đổi Hough trong phát hiện và hiệu chỉnh góc nghiêng văn bản 40
2.2.2. Phép chiếu nghiêng (Projection Profiles) 43
2.2.2.1. Giới thiệu về phép chiếu nghiêng 43
2.2.2.2. Áp dụng phép chiếu nghiêng trong việc phát hiện và hiệu chỉnh góc nghiêng văn
bản 46
2.2.3. Phƣơng pháp láng giềng gần nhất (Nearest Neighbor) 47
2.2.3.1. Một số định nghĩa 48
2.2.3.2. Thuật toán phát hiện góc nghiêng dựa trên phƣơng pháp láng giềng gần nhất 51
2.2.4. Biến đổi Morphology 52
2.2.4.1. Tiền xử lý 52
2.2.4.2. Ƣớc lƣợng thô 52
2.2.4.3. Áp dụng các phép biến đổi Morphology 55
2.2.4.4. Ƣớc lƣợng tinh 60
CHƢƠNG 3 : CHƢƠNG TRÌNH THỬ NGHIỆM 63
3.1. BÀI TOÁN 63
3.2. CHƢƠNG TRÌNH THỬ NGHIỆM 63
PHẦN KẾT LUẬN 67
TÀI LIỆU THAM KHẢO 69


7


PHẦN MỞ ĐẦU

Ngày nay, với sự thịnh hành của máy tính và sự phát triển của xã hội, số
lƣợng những tài liệu lƣu trữ trên giấy đã tăng lên đáng kể. Hàng tỷ tỷ những trang

giấy đƣợc tạo ra mỗi năm dƣới nhiều hình thức khác nhau nhƣ sách báo, tạp chí,
bản tin, văn bản, thƣ từ, biểu mẫu, bảng ghi nhớ, … trên khắp thế giới, và việc sử
dụng giấy để lƣu trữ tài liệu trong một số mục đích vẫn không thể thay thế đƣợc
(nhƣ sách báo, công văn, văn bản pháp luật…). Trong số những tài liệu này, có rất
nhiều thông tin cần phải đƣợc lƣu trữ vào máy tính để xử lý, chẳng hạn nhƣ các
phiếu điều tra của các nhà sản xuất muốn điều tra thị hiếu và mức tiêu thụ sản
phẩm, các nhà hoạch định chính sách muốn có những cuộc điều tra để xây dựng
những chính sách phù hợp với thực tế, các k thi trắc nghiệm trên giấy, hoặc các
tờ kê khai thuế mà doanh nghiệp phải nộp cho cơ quan thuế, hải quan, và rất nhiều
lý do khác. Các tài liệu giấy có thể đƣợc số hoá và lƣu trữ trong máy tính bằng máy
quét, máy fax, nhƣng làm thế nào để chuyển từ tài liệu giấy thành dạng máy có thể
hiểu và xử lý đƣợc? Câu hỏi đó đã khiến các chuyên gia trong lĩnh vực Công nghệ
thông tin phải đầu tƣ, nghiên cứu. Cách thủ công nhất đó là nhập lại nội dung của
văn bản thông qua bàn phím và tất nhiên, đó là công việc đòi hỏi tốn rất nhiều công
sức, thời gian và nhân lực, thậm chí không thể thực hiện đƣợc với một số lƣợng cực
lớn những tài liệu giấy. Hiện nay chúng ta đã có các máy Scan với tốc độ cao, công
nghệ xử lý của máy tính ngày càng siêu việt với tốc độ tính toán cao, vậy tại sao
chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản
một cách tự động?
Vấn đề ở đây là khi quét vào máy tính chúng ta không thu đƣợc ngay các
dòng văn bản từ các trang tài liệu kia để có thể soạn thảo, sửa chữa và tìm kiếm
nhƣ làm trên Office. Tất cả những gì thu đƣợc chỉ là các tấm ảnh của các trang văn
bản, máy tính lại đối xử công bằng nhƣ nhau với mọi điểm ảnh, máy tính không có
“mắt” nhƣ chúng ta để biết đâu là điểm ảnh của chữ, đâu là điểm ảnh của đối tƣợng
đồ họa. Một giải pháp có thể đáp ứng đƣợc những yêu cầu đó là xây dựng một hệ
thống nhận dạng quang học (OCR - Optical Character Recognition system), ở đó,
8

mỗi văn bản sẽ đƣợc scan bằng máy scaner thành một file ảnh, hệ thống OCR sẽ
phân tích file ảnh đó để nhận biết nội dung của tài liệu đó là gì (xem hình 0.1):


Hình 0.1: Hệ thống OCR
Một cách tổng quát thì cách thức làm việc của một hệ thống nhận dạng chữ
nhƣ sau:
1. Chụp ảnh, scan các trang tài liệu trên giấy và lƣu lại trong máy tính dƣới
dạng hình ảnh.
2. Sử dụng một chƣơng trình xử lý ảnh để phân tích hình ảnh sau khi quét,
đọc đƣợc ký tự trên hình ảnh đó và ghi lại vào máy tính theo cách mà máy tính
quản lý đƣợc thông tin đó.
a. Bƣớc 1 là phân tích cấu trúc của ảnh tài liệu, từ đó xác định đâu là phần
chứa chữ, đâu là phần chứa cả ảnh lẫn ký tự và đâu chỉ chứa hình ảnh. Bƣớc này
thực sự quan trọng cho bƣớc nhận dạng. Bởi nó định vị chính xác cho việc áp dụng
các thuật toán nhận dạng lên vùng đã xác định tính chất.
b. Bƣớc 2 nhận dạng ký tự dựa vào các tính chất của ký tự, ví dụ nhƣ sắp xếp
theo dòng, khoảng cách giữa 2 từ lớn hơn khoảng cách giữa 2 ký tự, dùng trí tuệ
nhân tạo để dự đoán các ký tự kề nhau phải nhƣ thế nào, các từ trong câu phải nhƣ
thế nào để câu có nghĩa. Từ đó có nội dung đúng để lƣu trữ, quản lý….
Hệ thống nhập liệu tự động OCR là bài toán ngày càng thu hút nhiều sự chú
ý vì khả năng áp dụng rộng rãi vào thực tế và những hiệu quả mà nó mang lại, có
thể kể đến một số ứng dụng nhƣ:
- Sắp xếp thƣ tín, dựa vào việc nhận dạng mã bƣu chính (Zipcode) hay địa
chỉ gửi tới.
9

- Tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ lao
động.
- Hệ thống tự động kiểm tra trong ngân hàng (tự động xác nhận chữ ký)
- Tự động xử lý các hóa đơn hay các yêu cầu thanh toán
- Hệ thống tự động đọc và kiểm tra passport
- Tự động phục hồi và copy tài liệu từ các ảnh quét.

- Máy đọc cho những ngƣời khiếm thính
- Các ứng dụng Datamining
- …
Kỹ thuật nhập liệu tự động liên quan chặt chẽ với đồ hoạ, nhận dạng và thuật
xử lý ảnh. Sự phát triển nhanh chóng của công nghệ thông tin trên cả hai lĩnh vực
phần cứng và phần mềm đã cho phép kỹ thuật nhập liệu tự động phát triển theo
nhiều phƣơng hƣớng khác nhau và đã đạt đƣợc những thành công nhất định. Tuy
vậy trong thực tế, việc hiện thực một hệ thống OCR để có thể đƣa ra đƣợc những
kết quả chính xác một cách tự động, không cần bất cứ một sự chỉnh sửa nào là một
vấn đề vô cùng khó khăn. Những vấn đề thƣờng gặp phải trong quá trình thu nhận
đó là: nhiễu, độ lệch, độ dịch chuyển, xoay, biến dạng v.v của phiếu điều tra, cũng
nhƣ vấn đề tách đƣợc các đối tƣợng hình học đƣợc dùng để đánh dấu trong phiếu.
Xuất phát từ thực tế đó, luận văn nhằm nghiên cứu một số kỹ thuật xử lý ảnh
giúp nâng cao chất lƣợng ảnh Form đầu vào nhằm nâng cao chất lƣợng các hệ
thống nhận dạng Form mẫu. Đây là một việc làm có ý nghĩa khoa học và ý nghĩa
thực tiễn trong hoàn cảnh của Việt Nam.
Luận văn đƣợc trình bày 3 chƣơng nhƣ sau:
Chƣơng 1 trình bày tổng quan về xử lý ảnh, các phƣơng pháp biểu diễn ảnh,
biểu diễn Form tài liệu.
Chƣơng 2 trình bày một số kỹ thuật phát hiện và hiệu chỉnh góc nghiêng ảnh
văn bản, độ dịch chuyển, khử nhiễu, …
Chƣơng 3 cài đặt chƣơng trình thử nghiệm phát hiện góc nghiêng văn bản và
chỉnh lại văn bản nhờ các kỹ thuật tìm hiểu đƣợc, qua đó giúp nâng cao chất lƣợng
ảnh form dữ liệu đầu vào cho các hệ thống nhận dạng Form mẫu

10



Chƣơng 1 : KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ FORM TÀI LIỆU


1.1. KHÁI QUÁT VỀ XỬ LÝ ẢNH
1.1.1. Xử lý ảnh là gì
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Nó là một
ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhƣng tốc độ phát triển
của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy
tính chuyên dụng riêng cho nó.
Quá trình xử lý ảnh đƣợc xem nhƣ là quá trình thao tác ảnh đầu vào nhằm
cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là
một ảnh “tốt hơn” hoặc một kết luận.

Hình 1.1: Quá trình xử lý ảnh
Để dễ tƣởng tƣợng, xét các bƣớc cần thiết trong xử lý ảnh. Đầu tiên, ảnh tự
nhiên từ thế giới ngoài đƣợc thu nhận qua các thiết bị thu (nhƣ Camera, máy chụp
ảnh, máy scanner). Trƣớc đây, ảnh thu qua Camera là các ảnh tƣơng tự (loại
Camera ống kiểu CCIR). Gần đây, với sự phát triển của công nghệ, ảnh màu hoặc
đen trắng đƣợc lấy ra từ Camera, sau đó nó đƣợc chuyển trực tiếp thành ảnh số tạo
thuận lợi cho xử lý tiếp theo. (Máy ảnh số hiện nay là một thí dụ gần gũi). Mặt
khác, ảnh cũng có thể tiếp nhận từ vệ tinh; có thể quét từ ảnh chụp bằng máy quét
ảnh. Hình 1.2 dƣới đây mô tả các bƣớc cơ bản trong xử lý ảnh.
11


Hình 1.1: Các bƣớc cơ bản trong xử lý ảnh
Sơ đồ này bao gồm các thành phần sau:
a) Phần thu nhận ảnh (Image Acquisition)
Ảnh có thể nhận qua camera màu hoặc đen trắng. Thƣờng ảnh nhận qua
camera là ảnh tƣơng tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25
dòng), cũng có loại camera đã số hoá (nhƣ loại CCD – Change Coupled Device) là
loại photodiot tạo cƣờng độ sáng tại mỗi điểm ảnh.

Camera thƣờng dùng là loại quét dòng, ảnh tạo ra có dạng hai chiều. Chất
lƣợng một ảnh thu nhận đƣợc phụ thuộc vào thiết bị thu, vào môi trƣờng (ánh sáng,
phong cảnh)
b) Tiền xử lý (Image Processing)
Sau bộ thu nhận, ảnh có thể nhiễu độ tƣơng phản thấp nên cần đƣa vào bộ
tiền xử lý để nâng cao chất lƣợng. Chức năng chính của bộ tiền xử lý là lọc nhiễu,
nâng độ tƣơng phản, nổi biên, làm trơn biên ảnh, khuyếch đại ảnh… để làm ảnh rõ
hơn, nét hơn.
c) Phân đoạn (Segmentation) hay phân vùng ảnh
Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu
diễn phân tích, nhận dạng ảnh. Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong
bì thƣ cho mục đích phân loại bƣu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên
ngƣời thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng. Đây là
phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính
xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này.
d) Biểu diễn ảnh (Image Representation)
12

Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân
đoạn) cộng với mã liên kết với các vùng lận cận. Việc biến đổi các số liệu này
thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính. Việc chọn các
tính chất để thể hiện ảnh gọi là trích chọn đặc trƣng (Feature Selection) gắn với
việc tách các đặc tính của ảnh dƣới dạng các thông tin định lƣợng hoặc làm cơ sở
để phân biệt lớp đối tƣợng này với đối tƣợng khác trong phạm vi ảnh nhận đƣợc.
Ví dụ: trong nhận dạng ký tự trên phong bì thƣ, chúng ta miêu tả các đặc trƣng của
từng ký tự giúp phân biệt ký tự này với ký tự khác.
e) Nhận dạng và nội suy ảnh (Image Recognition and Interpretation)
Nhận dạng ảnh là quá trình xác định ảnh. Quá trình này thƣờng thu đƣợc
bằng cách so sánh với mẫu chuẩn đã đƣợc học (hoặc lƣu) từ trƣớc. Nội suy là phán
đoán theo ý nghĩa trên cơ sở nhận dạng. Ví dụ: một loạt chữ số và nét gạch ngang

trên phong bì thƣ có thể đƣợc nội suy thành mã điện thoại. Có nhiều cách phân loai
ảnh khác nhau về ảnh. Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh
đƣợc phân theo hai loại nhận dạng ảnh cơ bản:
- Nhận dạng theo tham số.
- Nhận dạng theo cấu trúc.
Một số đối tƣợng nhận dạng khá phổ biến hiện nay đang đƣợc áp dụng trong
khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử),
nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt
ngƣời…
f) Cơ sở tri thức (Knowledge Base)
Nhƣ đã nói ở trên, ảnh là một đối tƣợng khá phức tạp về đƣờng nét, độ sáng
tối, dung lƣợng điểm ảnh, môi trƣờng để thu ảnh phong phú kéo theo nhiễu. Trong
nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các phƣơng pháp toán
học đảm bảo tiện lợi cho xử lý, ngƣời ta mong muốn bắt chƣớc quy trình tiếp nhận
và xử lý ảnh theo cách của con ngƣời. Trong các bƣớc xử lý đó, nhiều khâu hiện
nay đã xử lý theo các phƣơng pháp trí tuệ con ngƣời. Vì vậy, ở đây các cơ sở tri
thức đƣợc phát huy.

1.1.2. Các vấn đề cơ bản trong xử lý ảnh
13

Nhƣ đã đề cập trong phần trƣớc, chúng ta đã thấy đƣợc một cách khái quát
các vấn đề chính trong xử lý ảnh. Để hiểu chi tiết hơn, trƣớc tiên ta xem xét hai
khái niệm (thuật ngữ) thƣờng dùng trong xử lý ảnh đó là Picture Element (phần tử
ảnh) và grey level (mức xám).
1.1.2.1. Picture Element: phần tử ảnh
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng. Để
có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh. Số hoá ảnh là
sự biến đổi gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về
vị trí (không gian) và độ sáng (mức xám). Khoảng cách giữa các điểm ảnh đó đƣợc

thiết lập sao cho mắt ngƣời không phân biệt đƣợc ranh giới giữa chúng. Mỗi một
điểm nhƣ vậy gọi là điểm ảnh (PEL: Picture Element) hay gọi tắt là Pixel (điểm
ảnh). Trong khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa độ (x, y).
Theo định nghĩa Pixel, khoảng cách giữa các điểm ảnh phải đƣợc chọn sao
cho mắt ngƣời vẫn thấy đƣợc sự liên tục của ảnh. Việc lựa chọn khoảng cách thích
hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và đƣợc phân bố theo
trục x và y trong không gian hai chiều. Ví dụ: Độ phân giải của ảnh trên màn hình
CGA (Color Graphic Adaptor) là một lƣới điểm theo chiều ngang màn hình: 320
điểm chiều dọc * 200 điểm ảnh (320*200). Rõ ràng, cùng màn hình CGA 12" ta
nhận thấy mịn hơn màn hình CGA 17" độ phân giải 320*200. Lý do: cùng một mật
độ (độ phân giải) nhƣng diện tích màn hình rộng hơn thì độ mịn (liên tục của các
điểm) kém hơn.
Nhƣ vậy, một ảnh là một tập hợp các điểm ảnh. Khi đƣợc số hoá, nó thƣờng
đƣợc biểu diễn bởi bảng hai chiều I(n,p): n dòng và p cột. Ta nói ảnh gồm n x p
pixels. Ngƣời ta thƣờng kí hiệu I(x,y) để chỉ một pixel. Thƣờng giá trị của n chọn
bằng p và bằng 256.
1.1.2.2. Grey level: mức xám
Mức xám là kết quả sự mã hoá tƣơng ứng một cƣờng độ sáng của mỗi điểm
ảnh với một giá trị số - kết quả của quá trình lƣợng hoá. Các thang giá trị mức xám
thƣờng dùng là 16, 32 hay 64 mức. Mã hoá 256 mức là phổ dụng nhất do lý do kỹ
thuật máy tính dùng 1 byte (8 bít) để biểu diễn mức xám. Mức xám dùng 1 byte
biểu diễn: 28=256 mức, tức là từ 0 đến 255)
14

Lƣợc đồ xám: là một hàm rời rạc cung cấp tần suất xuất hiện của mỗi mức
xám:
h(s
k
) = n
k


trong đó: s
k
là mức xám thứ k
n
k
là số các điểm ảnh có cùng mức xám thứ k
n là tổng số các điểm ảnh
Biểu diễn lƣợc đồ xám:
 Trục tung biểu diễn số điểm ảnh cho một mức xám (hoặc tỷ lệ số điểm
ảnh có cùng mức xám trên tổng số điểm ảnh)
 Trục hoàng biểu diễn các mức xám
Ví dụ:

Hình 1.2: Ví dụ lƣợc đồ xám
Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với
mức xám ở các điểm ảnh có thể khác nhau.
Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô tả 2
1

mức khác nhau, hay nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0
hoặc 1.
Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên
thế giới màu, ngƣời ta thƣờng dùng 3 byte để mô tả mức màu, khi đó các giá trị
màu: 2
8*3
=2
24
≈ 16,7 triệu màu.
Nhƣ vậy từ những lý thuyết trên có thể nói ảnh số là tập hợp các điểm ảnh

với mức xám phù hợp dùng để mô tả ảnh gần với ảnh thật

1.1.2.3. Quan hệ giữa các điểm ảnh
15

Một ảnh số giả sử đƣợc biểu diễn bằng hàm f(x, y). Tập con các điểm ảnh là
S; cặp điểm ảnh có quan hệ với nhau ký hiệu là p, q. Chúng ta nêu một số các khái
niệm sau:
a) Các lân cận của điểm ảnh (Image Neighbors)
Giả sử có điểm ảnh p tại toạ độ (x, y). p có 4 điểm lân cận gần nhất theo
chiều đứng và ngang (có thể coi nhƣ lân cận 4 hƣớng chính: Đông, Tây, Nam,
Bắc).
{(x-1, y); (x, y-1); (x, y+1); (x+1, y)} = N4(p)
trong đó: số 1 là giá trị logic; N4(p) tập 4 điểm lân cận của p

Hình 1.4: Lân cận các điểm ảnh của toạ độ (x,y)
Các lân cận chéo: Các điểm lân cận chéo NP(p) (Có thể coi lân cận chéo la 4
hƣớng: Đông-Nam, Đông-Bắc, Tây-Nam, Tây-Bắc)
Np(p) = { (x+1, y+1); (x+1, y-1); (x-1, y+1); (x-1, y-1)}
Tập kết hợp: N8(p) = N4(p) + NP(p) là tập hợp 8 lân cận của điểm ảnh p.
Chú ý: Nếu (x, y) nằm ở biên (mép) ảnh; một số điểm sẽ nằm ngoài ảnh.

b) Các mối liên kết điểm ảnh
Các mối liên kết đƣợc sử dụng để xác định giới hạn (Boundaries) của đối
tƣợng vật thể hoặc xác định vùng trong một ảnh. Một liên kết đƣợc đặc trƣng bởi
tính liền kề giữa các điểm và mức xám của chúng.
Giả sử V là tập các giá trị mức xám. Một ảnh có các giá trị cƣờng độ sáng từ
thang mức xám từ 32 đến 64 đƣợc mô tả nhƣ sau :
V={32, 33, … , 63, 64}.
Có 3 loại liên kết.

16

* Liên kết 4: Hai điểm ảnh p và q đƣợc nói là liên kết 4 với các giá trị cƣờng
độ sáng V nếu q nằm trong một các lân cận của p, tức q thuộc N4(p)
* Liên kết 8: Hai điểm ảnh p và q nằm trong một các lân cận 8 của p, tức q
thuộc N8(p)
* Liên kết m (liên kết hỗn hợp): Hai điểm ảnh p và q với các giá trị cƣờng độ
sáng V đƣợc nói là liên kết m nếu.
- q thuộc N4(p) hoặc
- q thuộc NP(p)

c) Đo khoảng cách giữa các điểm ảnh.
Định nghĩa: Khoảng cách D(p, q) giữa hai điểm ảnh p toạ độ (x, y), q toạ độ
(s, t) là hàm khoảng cách (Distance) hoặc Metric nếu:
- D(p,q) ≥ 0 (Với D(p,q)=0 nếu và chỉ nếu p=q)
- D(p,q) = D(q,p)
- D(p,z) ≤ D(p,q) + D(q,z); z là một điểm ảnh khác.
Khoảng cách Euclide: Khoảng cách Euclide giữa hai điểm ảnh p(x, y) và q(s,
t) đƣợc định nghĩa nhƣ sau:
De(p, q) = [(x - s)
2
+ (y - t)
2
]
1/2

Khoảng cách khối: Khoảng cách D4(p, q) đƣợc gọi là khoảng cách khối đồ
thị (City-Block Distance) và đƣợc xác định nhƣ sau:
D4(p,q) = | x - s | + | y - t |
Giá trị khoảng cách giữa các điểm ảnh r: giá trị bán kính r giữa điểm ảnh từ

tâm điểm ảnh đến tâm điểm ảnh q khác. Ví dụ: Màn hình CGA 12” (12”*2,54cm =
30,48cm=304,8mm) độ phân giải 320*200; tỷ lệ 4/3 (Chiều dài/Chiều rộng). Theo
định lý Pitago về tam giác vuông, đƣờng chéo sẽ lấy tỷ lệ 5 phần (5/4/3: đƣờng
chéo/chiều dài/chiều rộng màn hình); khi đó độ dài thật là (305/244/183) chiều
rộng màn hình 183mm ứng với màn hình CGA 200 điểm ảnh theo chiều dọc. Nhƣ
vậy, khoảng cách điểm ảnh lân cận của CGA 12” là ≈ 1mm.
Khoảng cách D8(p, q) còn gọi là khoảng cách bàn cờ (Chess-Board
Distance) giữa điểm ảnh p, q đƣợc xác định nhƣ sau:
D8(p,q) = max (| x-s | , | y-t |)
17

1.2. BIỂU DIỄN FORM TÀI LIỆU
Sau bƣớc số hóa, ảnh sẽ đƣợc lƣu trữ hay chuyển sang giai đoạn phân tích.
Trƣớc khi đề cập đến vấn đề lƣu trữ ảnh, cần xem xét ảnh sẽ đƣợc biểu diễn ra sao
trong bộ nhớ máy tính.
1.2.1. Các mô hình biểu diễn ảnh
1.2.1.1. Mô hình Raster
Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh đƣợc biểu diễn
dƣới dạng ma trận các điểm (điểm ảnh). Thƣờng thu nhận qua các thiết bị nhƣ
camera, scanner. Tu theo yêu cầu thực thế mà mỗi điểm ảnh đƣợc biểu diễn qua 1
hay nhiều bít
Mô hình Raster thuận lợi cho hiển thị và in ấn. Ngày nay công nghệ phần
cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất
lƣợng cao cho cả đầu vào và đầu ra. Một thuận lợi cho việc hiển thị trong môi
trƣờng Windows là Microsoft đƣa ra khuôn dạng ảnh DIB (Device Independent
Bitmap) làm trung gian. Hình 2.4 thể hình quy trình chung để hiển thị ảnh Raster
thông qua DIB

Hình 1.5: Quá trình hiển thị, chỉnh sửa và lƣu trữ ảnh thông qua DIB
Một trong những hƣớng nghiên cứu cơ bản trên mô hình biểu diễn này là kỹ

thuật nén ảnh, các kỹ thuật nén ảnh lại chia ra theo 2 khuynh hƣớng là nén bảo toàn
và không bảo toàn thông tin, nén bảo toàn có khả năng phục hồi hoàn toàn dữ liệu
ban đầu còn nếu không bảo toàn chỉ có khả năng phục hồi độ sai số cho phép nào
đó. Theo cách tiếp cận này ngƣời ta đã đề ra nhiều quy cách khác nhau nhƣ BMP,
TIF, GIF, PCX…
18

Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm cả
trong đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén có khả năng
phục hồi với độ sai số nhận đƣợc.
1.2.1.2. Mô hình Vector
Biểu diễn ảnh ngoài mục đích tiết kiệm không gian lƣu trữ dễ dàng cho hiển
thị và in ấn còn đảm bảo dễ dàng trong lựa chọn sao chép di chuyển tìm kiếm…
Theo những yêu cầu này kỹ thuật biểu diễn vector tỏ ra ƣu việt hơn.
Trong mô hình vector ngƣời ta sử dụng hƣớng giữa các vector của điểm ảnh
lân cận để mã hoá và tái tạo hình ảnh ban đầu ảnh vector đƣợc thu nhận trực tiếp từ
các thiết bị số hoá nhƣ Digital hoặc đƣợc chuyển đổi từ ảnh Raster thông qua các
chƣơng trình số hoá
Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất
lƣợng cho cả đầu vào và ra nhƣng lại chỉ hỗ trợ cho ảnh Raster. Do vậy, những
nghiên cứu về biểu diễn vectơ đều tập trung từ chuyển đổi từ ảnh Raster.

Hình 1.6: Sự chuyển đổi giữa các mô hình biểu diễn ảnh
1.2.2. Các phƣơng pháp biểu diễn ảnh
Việc lƣu trữ thông tin ảnh trong bộ nhớ có ảnh hƣởng rất lớn đến việc hiển
thị, in ấn và xử lý ảnh đƣợc xem nhƣ là 1 tập hợp các điểm với cùng kích thƣớc,
nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện
rõ hơn chi tiết của ảnh. Ảnh nếu lƣu trữ ảnh trực tiếp từ các ảnh thô, đòi hỏi dung
lƣợng bộ nhớ cực lớn và không hiệu quả theo quan điểm ứng dụng và công nghệ.
Quá trình lƣu trữ ảnh nhằm 2 mục đích:

• Tiết kiệm bộ nhớ
• Giảm thời gian xử lý
Thông thƣờng, các ảnh thô đó đƣợc đặc tả (biểu diễn) lại (hay đơn giản là mã
hoá) theo các đặc điểm của ảnh đƣợc gọi là các đặc trƣng ảnh (Image Features)
nhƣ: biên ảnh (Boundary), vùng ảnh (Region). Một số phƣơng pháp biểu diễn
thƣờng dùng:
19

• Biểu diễn bằng mã chạy (Run-Length Code)
• Biểu diễn bằng mã xích (Chaine -Code)
• Biểu diễn bằng mã tứ phân (Quad-Tree Code)
1.2.2.1. Biểu diễn mã loạt dài (Run – Length code)
Phƣơng pháp này hay dùng để biểu diễn cho vùng ảnh hay ảnh nhị phân. Một
vùng ảnh R có thể biểu diễn đơn giản nhờ một ma trận nhị phân:

Trong đó: U(m, n) là hàm mô tả mức xám ảnh tại tọa độ (m, n).
Với cách biểu diễn trên, một vùng ảnh hay ảnh nhị phân đƣợc xem nhƣ chuỗi
0 hay 1 đan xen. Các chuỗi này đƣợc gọi là mạch (run).
Giả sử chúng ta mô tả ảnh nhị phân của một vùng ảnh đƣợc thể hiện theo toạ
độ (x, y) theo các chiều và đặc tả chỉ đối với giá trị “1” khi đó dạng mô tả có thể là:
(x, y)r; trong đó (x, y) là toạ độ, r là số lƣợng các bit có giá trị “1” liên tục theo
chiều ngang hoặc dọc. Theo phƣơng pháp này, mỗi mạch sẽ đƣợc biểu diễn bởi địa
chỉ bắt đầu của mạch và chiều dài mạch theo dạng {<hàng,cột>, chiều dài}. Ví dụ:

Hình 1.7: Ảnh nhị phân và các biểu diễn mã loạt dài tƣơng ứng
1.2.2.2. Biểu diễn mã xích (Chain Code)
Mã xích thƣờng đƣợc dùng để biểu diễn biên của ảnh. Thay vì lƣu trữ toàn
bộ ảnh, ngƣời ta lƣu trữ lại dãy các điểm biên của ảnh theo hƣớng số. Theo phƣơng
pháp này, các vectơ nối 2 điểm biên liên tục đƣợc mã hóa. Khi đó ảnh đƣợc biểu
diễn qua 1 điểm ảnh bắt đầu cùng với chuỗi các từ mã. Điều này đƣợc minh họa

trong hình dƣới đây:
20


r

Hình 1.8: Minh hoạ mã xích

1.2.2.3. Biểu diễn mã tứ phân (Quad Tree Code)
Theo phƣơng pháp mã tứ phân, một vùng ảnh coi nhƣ bao kín một hình chứ
nhật. Vùng này đƣợc chia làm 4 vùng con (Quadrant). Nếu một vùng con gồm toàn
điểm đen (1) hay toàn điểm trắng (0) thì không cần chia tiếp. Trong trƣờng hợp
ngƣợc lại, vùng con gồm cả điểm đen và trắng gọi là vùng không đồng nhất, ta tiếp
tục chia thành 4 vùng con tiếp và kiểm tra tính đồng nhất của các vùng con đó. Quá
trình chia dừng lại khi mỗi vùng con chỉ chứa thuần nhất điểm đen hoặc điểm
21

trắng. Quá trình đó tạo thành một cây chia theo bốn phần gọi là cây tứ phân. Nhƣ
vậy, cây biểu diễn ảnh gồm một chuỗi các ký hiệu b (black), w (white) và g (grey)
kèm theo ký hiệu mã hóa 4 vùng con.
Biểu diễn theo phƣơng pháp này ƣu việt hơn so với các phƣơng pháp trên,
nhất là so với mã loạt dài. Tuy nhiên, để tính toán số đo các hình nhƣ chu vi, mô
men là tƣơng đối khó khăn.


1.2.3. Biểu diễn Form tài liệu
Form tài liệu là các file ảnh số hoá thu đƣợc bằng cách quét các trang tài liệu
dùng máy scanner, máy ảnh số, hay nhận từ một máy fax (Hình 1.9)

Hình 1.9: Tổng quan quá trình tạo ảnh tài liệu

Form tài liệu chứa rất nhiều loại vùng thông tin khác nhau nhƣ các block,
lines, words, figures, tables và background. Ta có thể gọi các vùng này theo chức
năng của nó trong tài liệu hoặc gán cho nó các nhãn logic nhƣ sentences, titles,
22

captions, address,… Để biểu diễn đƣợc Form tài liệu, ảnh tài liệu cần đƣợc tách
vùng văn bản ra khỏi nền và đồ họa để có thể đƣa vào hệ thống xử lý, đó là quá
trình chia nhỏ ảnh văn bản thành các khối thuần nhất, có nghĩa là, các khối này chỉ
chứa một loại thông tin, hoặc là text, hoặc là ảnh, hoặc là bảng… Rõ ràng độ chính
xác của quá trình này ảnh hƣởng rất lớn đến hiệu quả của của khâu nhận dạng nếu
sử dụng mẫu hay các chuỗi văn bản đầu ra của nó
Một khái niệm mấu chốt trong biểu diễn form tài liệu đó là cấu trúc của tài
liệu. Cấu trúc tài liệu thu đƣợc từ việc liên tiếp chia nhỏ nội dung của tài liệu thành
các phần nhỏ đơn vị (tức không thể phân chia đƣợc nữa) và chúng đƣợc gọi là các
đối tƣợng cơ sở (basic objects). Còn tất cả các đối tƣợng khác đƣợc gọi là các đối
tƣợng hỗn hợp.
Có hai loại cấu trúc của tài liệu đƣợc quan tâm ở đây đó là cấu trúc vật lý
(hay bố cục vật lý) và cấu trúc logic mô tả mối quan hệ logic giữa các vùng đối
tƣợng trong form tài liệu.
1.2.3.1. Cấu trúc vật lý
Cấu trúc vật lý của một form tài liệu mô tả vị trí và các đƣờng ranh giới giữa
các vùng có nội dung khác nhau trong một trang tài liệu. Quá trình phân tích bố cục
tài liệu là thực hiện việc tách từ một trang tài liệu ban đầu thành các vùng có nội
dung cơ sở nhƣ hình ảnh nền, vùng văn bản,…
Để mô tả cấu trúc vật lý của tài liệu ngƣời ta sử dụng một cấu trúc hình học
với mỗi đối tƣợng trong cấu trúc là một phần tử chỉ chứa nội dung đồng nhất. Các
kiểu đối tƣợng hình học đƣợc định nghĩa nhƣ sau:
+ Block là đối tƣợng cơ sở tƣơng ứng với một vùng hình chữ nhật chứa một
phần nội dụng của tài liệu.
+ Frame một đối tƣợng hỗn hợp tƣơng ứng với một hình chữ nhật bao gồm

một hoặc nhiều block hoặc bao gồm các frame.
+ Page là đối tƣợng hình học hoặc hỗn hợp các thành phần cơ sở tƣơng ứng
với một vùng hình chữ nhật, nếu là đối tƣợng hỗn hợp nó chứa một hoặc
nhiều block, một hoặc nhiều frame.
+ Page set (tập trang) là một tập của một hoặc nhiều page.
+ Điểm gốc của cấu trúc (hay nút gốc) là một đối tƣợng ở mức cao nhất
trong sơ đồ phân cấp của cấu trúc hình học tài liệu. Hình 1.10 cho ví dụ
một cấu trúc hình học mô tả bố cục vật lý của trang tài liệu tƣơng ứng.
23

Các thuật toán phân tích bố cục tài liệu có thể đƣợc chia làm ba loại chính
dựa theo phƣơng pháp thực hiện của nó.
- Bottom-up: Ý tƣởng chính của các thuật toán loại này là bắt đầu phân tích
từ những phần tử nhỏ nhất (nhƣ từ các pixel hay các phần tử liên thông) sau đó
nhóm chúng lại thành các vùng lớn hơn (có thể là ký tự), rồi lại nhóm các vùng này
lại thành một khối lớn hơn nữa, và cứ tiếp tục nhƣ vậy cho đến khi phân tích đƣợc
toàn bộ trang tài liệu.
- Top-down: Thuật toán này bắt đầu từ toàn bộ trang tài liệu, sau đó sẽ phân
tích trang tài liệu đó thành các vùng nhỏ hơn, các vùng nhỏ hơn này lại đƣợc phân
tích thành các vùng nhỏ hơn nữa, thủ tục tách cứ đƣợc lặp đi, lặp lại nhiều lần cho
đến khi thỏa mãn các tiêu chuẩn đề ra của bài toán.
- Các thuật toán không theo thứ bậc: nhƣ Fractal Signature, Adaptive
splitand-merge …
1.2.3.1. Cấu trúc logic
Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về ngữ
cảnh và nội dung nhƣ các tiêu đề, đoạn văn, đề mục, …và mỗi vùng nội dung này
lại đƣợc gán các nhãn logic hay nhãn theo chức năng tƣơng ứng, khác biệt hoàn
toàn với các nhãn trong bố cục vật lý.
Hầu hết các tài liệu đều có một quy tắc đọc để có thể hiểu hết nội dung của
tài liệu. Với một số ngôn ngữ đặc biệt nhƣ tiếng Trung, tiếng Ả rập lại có quy cách

đọc khác biệt (nhƣ đọc từ phải qua trái, trên xuống). Tập hợp tất cả các yếu tố logic
và chức năng trong một tài liệu và mối quan hệ giữa chúng đƣợc gọi là cấu trúc
logic của tài liệu. Thông thƣờng pha phân tích cấu trúc logic của tài liệu đƣợc thực
hiện trên kết quả của bƣớc phân tích bố cục vật lý. Tuy nhiên với một số loại tài
liệu phức tạp, thì pha phân tích bố cục vật lý lại cần thêm một số thông tin logic
liên quan đến các vùng để có thể phân đoạn một cách chính xác. Hình 1.10 mô tả
một ví dụ cấu trúc logic của tài liệu.
24




25

Hình 1.10: a-Tài liệu; b-Cấu trúc vật lý; c, d: Cấu trúc logic của tài liệu

Chƣơng 2 : MỘT SỐ KỸ THUẬT NÂNG CAO CHẤT LƢỢNG
HỆ THỐNG NHẬP DỮ LIỆU TỰ ĐỘNG THEO FORM

2.1 KHỬ NHIỄU
2.1.1. Nhiễu ảnh
Nhiễu là một hiện tƣợng ngẫu nhiên có mặt trong mọi hệ thống xử lý tín hiệu
thực. Nhiễu ảnh thƣờng xuất hiện khi scan ảnh, photo ảnh hay do ảnh lâu ngày bị
nhạt đi. Nhiễu thƣờng gặp trong các ảnh nhị phân, chúng có thể là các đốm đen,
nhỏ, phân bố ngẫu nhiên trên nền trắng hoặc những đốm trắng phân bố ngẫu nhiên
trên nền đen, dẫn đến ảnh không sắc nét, bị mờ hoặc cần làm rõ các chi tiết nhƣ
đƣờng biên ảnh…, gây cho ta những khó khăn khi phân tích và xử lý tín hiệu. Có
rất nhiều nguồn tạo ra nhiễu, ví dụ nhƣ do sự thay đổi độ nhạy của cảm biến, sự
biến đổi của môi trƣờng, sai số của quá trình lƣợng tử hóa, sai số của kênh
truyền… dẫn đến nhiều loại nhiễu. Trong các hệ thống xử lý ảnh, ngƣời ta thƣờng

xem xét 3 loại nhiễu chính và phổ biến, gọi một cách khoa học là: nhiễu cộng,
nhiễu nhân và nhiễu xung:
- Nhiễu cộng (Additive noise): thƣờng phân bố khắp ảnh và đƣợc biểu diễn bởi:
Y = X + n với Y: ảnh quan sát, X: ảnh gốc và n là nhiễu.
- Nhiễu nhân: cũng thƣờng phân bố khắp ảnh và đƣợc biểu diễn bởi: Y = X.n
- Nhiễu xung (Impulse noise): là một loại nhiễu khá đặc biệt có thể sinh ra bởi
nhiều lý do khác nhau chẳng hạn: lỗi truyền tín hiệu, lỗi bộ nhớ, hay lỗi định
thời trong quá trình lƣợng tử hóa. Nhiễu này thƣờng gây đột biến tại một số
điểm ảnh.
Nhiễu muối tiêu (Salt-pepper noise) - một ví dụ điển hình nhất của loại nhiễu
xung này – sẽ cho thấy rõ hơn tính chất “đột biến” của nó. Các điểm ảnh bị nhiễu
(noise pixel) có thể nhận các giá trị cực đại hoặc cực tiểu trong khoảng giá trị [0,
255]. Với ảnh mức xám (gray scale), nếu một điểm ảnh có giá trị cực đại (tức
cƣờng độ sáng bằng 255) thì nó sẽ tạo ra một đốm trắng trên ảnh, trông giống nhƣ
26

hạt “muối”. Và ngƣợc lại nếu một điểm ảnh có giá trị cực tiểu (tức cƣờng độ sáng
bằng 0) thì sẽ tạo ra một đốm đen, giống nhƣ “tiêu”. Vậy nên còn gọi là ảnh muối
tiêu. Thông thƣờng, khi nói một ảnh nhiễu muối tiêu 30% nghĩa là trong đó tỉ lệ các
điểm ảnh nhiễu mang gia trị cực tiểu là 15% và cực đại là 15%.
2.1.2. Khử nhiễu
Ta đã biết nhiễu có thể làm ảnh bị mờ đi, không sắc nét, nổi đốm trắng hoặc
đen. Do đó trƣớc khi tiến hành phân tích và xử lý ảnh thì phải tiến hành công việc
loại bỏ nhiễu, đây là bƣớc hết sức quan trọng. Để làm trơn và tách nhiễu, ngƣời ta
sử dụng các bộ lọc tuyến tính (lọc trung bình, thông thấp) hay lọc phi tuyến (trung
vị, giả trung vị, lọc đồng hình). Từ bản chất của nhiễu (thƣờng tƣơng ứng với tần số
cao) và từ cơ sở lý thuyết lọc là: bộ lọc chỉ cho tín hiệu có tần số nào đó thông qua
do đó, để lọc nhiễu ngƣời ta thƣờng dùng lọc thông thấp (theo quan điểm tần số
không gian) hay lấy tổ hợp tuyến tính để san bằng (lọc trung bình). Để làm nổi
cạnh (ứng với tần số cao), ngƣời ta dùng các bộ lọc thông cao, lọc Laplace.

2.1.2.1. Lọc tuyến tính (Linear Filter)
Do có nhiều loại nhiễu can thiệp vào quá trình xử lý ảnh nên cần có nhiều bộ
lọc thích hợp. Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc thông thấp, trung
bình và lọc đồng hình (Homomorphie); với nhiễu xung ta dùng lọc trung bị, giả
trung vị, lọc ngoài (Outlier).
2.1.2.1.1. Lọc trung bình không gian
Mục đích: san bằng ảnh, làm mịn ảnh, loại bỏ các thành phần nhiễu muối, tiêu.
Ý tƣởng: mỗi điểm ảnh đƣợc thay thế bằng tổng trọng số hay trung bình trọng số
của các điểm lân cận.
Công thức toán học biểu diễn nhƣ sau:
 


Wlk
lnkmylkanmv
),(
),(),(),(

Nếu trong kỹ thuật lọc trên, ta dùng các trọng số nhƣ nhau thì:
 


Wlk
lnkmy
N
nmv
w
),(
),(
1

),(

với - y(m,n) : ảnh đầu vào
- v(m,n) : ảnh đầu ra
27

- w(m,n) : là cửa sổ lọc
- a(k,l) : là trọng số lọc
với
Nw
1
= l)a(k,
và Nw là số điểm ảnh trong cửa sổ lọc W.

Lọc trung bình có trọng số chính là thực hiện chập ảnh đầu vào với nhân
chập H. Nhân chập H trong trƣờng hợp này có dạng:

Trong lọc trung bình, đôi khi ngƣời ta ƣu tiên cho các hƣớng để bảo vệ biên
của ảnh khỏi bị mờ đi do làm trơn ảnh.
Giả sử ảnh đầu vào biểu diễn bởi ma trận I:

ảnh số thu đƣợc bởi lọc trung bình Y = H  I có dạng:
Y =















1122333524
1234484336
2734494336
2731463935
1619313626
9
1

×