Tải bản đầy đủ (.doc) (64 trang)

Nghiên cứu hệ thống tự động nhận dạng, đếm và phân loại đối tượng trên cơ sở xử lý ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.65 MB, 64 trang )

MỤC LỤC
LỜI MỞ ĐẦU..................................................................................................................................3
TÓM TẮT ĐỒ ÁN..........................................................................................................................4
DANH MỤC HÌNH VẼ.................................................................................................................5
DANH MỤC BẢNG BIỂU...........................................................................................................7
DANH MỤC CÁC TỪ VIẾT TẮT...............................................................................................8
CHƯƠNG 1: TỔNG QUAN VỀ ĐỂ TÀI....................................................................................9
1.1. Giới thiệu về đề tài.........................................................................................9
1.1.1. Lý do chọn đề tài..............................................................................................9
1.1.2. Mục đích chọn đề tài........................................................................................9
1.1.3. Đối tượng và phạm vi nghiên cứu................................................................10
1.1.4. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài.......................................10
1.1.5. Tóm tắt nội dung đồ án..................................................................................11
1.2. Tổng quan về công nghệ xử lý ảnh và hệ thống phân loại ảnh......................11
1.2.1. Tổng quan về hệ thống xử lý ảnh.................................................................15
1.2.2. Giới thiệu về ảnh và phân loại ảnh...............................................................20
1.2.3. Khái niệm ảnh đen trắng và ảnh màu...........................................................29
1.2.4. Giới thiệu về LabView và công cụ xử lý ảnh dùng LabView...................31
1.3. Giới thiệu về camera.....................................................................................41
1.3.1. Khái niệm camera quan sát...........................................................................41
1.3.2. Phân loại camera quan sát theo kỹ thuật hình ảnh......................................41
1.3.3. Phân loại camera quan sát theo kỹ thuật đường truyền.............................43
1.3.4. Phân loại theo tính năng sử dụng..................................................................44

1


CHƯƠNG 2. NGHIÊN CỨU HỆ THỐNG TỰ ĐỘNG NHẬN DẠNG, ĐẾM VÀ PHÂN
LOẠI ĐỐI TƯỢNG TRÊN CƠ SỞ XỬ LÝ ẢNH .................................................................47
2.1. Phương án thiết kế........................................................................................47
2.2. Thiết kế mô phỏng và lập trình cho hệ thống đếm........................................48


2.2.1. Sơ đồ mô phỏng bằng phần mềm labview..................................................48
2.2.2. Chức năng các khối sử dụng.........................................................................48
2.3. Nghiên cứu hệ thống nhận dạng ảnh trong xử lý ảnh……………………….56

2.3.1. Hệ thống nhận dạng ảnh………………………………………………..56
2.3.2. Khối nhận dạng ảnh Vision Builder Al………………………………...57
CHƯƠNG 3. MÔ PHỎNG HỆ THỐNG NHẬN DẠNG, ĐẾM VÀ PHÂN LOẠI ĐỐI
TƯỢNG..........................................................................................................................................58
3.1. Kết quả đạt được...........................................................................................58
3.1.1. Test webcam....................................................................................................58
3.1.2. Xử lý ảnh nhận dạng dấu chấm đen.............................................................58
3.1.3. Kết quả thử nghiệm bằng phần mềm labview.............................................60
3.2. Đánh giá kết quả đạt được............................................................................60
3.3. Định hướng phát triển của đề tài...................................................................61
KẾT LUẬN....................................................................................................................................62
TÀI LIỆU THAM KHẢO............................................................................................................63

2


LỜI MỞ ĐẦU

Hiện nay trong công nghiệp hóa hiện đại hóa đất nước, yêu cầu ứng dụng tự
động hóa ngày càng cao vào trong đời sống sinh hoạt, sản xuất (yêu cầu điều khiển
tự động, linh hoạt, gọn nhẹ, tiện lợi…). Mặt khác nhờ công nghệ thông tin, công
nghệ điện tử đã phát triển nhanh chóng làm xuất hiện các loại thiết bị điều khiển và
giám sát trong đó có camera. Nhận thức được xu hướng chung, với những ưu điểm
mà camera mang lại, việc đầu tư vào lĩnh vực này là cần thiết, quan trọng đối với
các nhà khoa học, doanh nghiệp, và chính sách định hướng, quan tâm của nhà nước.
Lĩnh vực nào cũng vậy, để phát triển bền vững, vươn lên tầm cao mới, điều kiện

tiên quyết là cần phải đi đôi xây dựng cơ sở khoa học làm nền tảng, cập nhật, ứng
dụng các công nghệ hiện đại, và triển khai thành các sản phẩm ứng dụng phù hợp
nhu cầu thực tế. Theo tinh thần và tiêu chí trên, đề tài này đã được lựa chọn và từng
bước đáp ứng nghiên cứu về công nghệ xử lý ảnh, thiết kế, thi công hệ thống cơ
khí, lập trình phần mềm cho hệ thống đếm, chạy thử nghiệm, đánh giá và định
hướng để tốt hơn, đáp ứng thực tế cũng như các tiêu chí khoa học hơn. Đề tài thực
hiện: “Nghiên cứu hệ thống tự động nhận dạng, đếm và phân loại đối tượng
trên cơ sở xử lý ảnh”.
Em xin gửi lời cảm ơn chân thành đến thầy giáo Th.S Hồ Sỹ Phương đã
hướng dẫn tận tình, quan tâm, tạo điều kiện thuận lợi về mặt tinh thần, định hướng,
kiến thức cho em trong thời gian qua, giúp đề tài được hoàn thành tốt nhất. Em
nhận thấy, do hạn chế về mặt kinh nghiệm thực tiễn, khả năng bản thân, thời gian
thực hiện, chắc chắn sẽ không tránh khỏi những thiếu sót, những phương án chưa
tốt, và cần sự tranh luận góp ý để phát triển. Vì vậy, em hy vọng sẽ nhận được nhiều
lời khuyên, định hướng, góp ý từ các Thầy cô.
Em xin chân thành cảm ơn!
Sinh viên thực hiện:

Võ Văn Thanh

3


TÓM TẮT ĐỒ ÁN

Các ứng dụng lên quan đến thu thập và xử lý hình ảnh theo thời gian thực
được sử dụng rộng rãi trong rôbốt phục vụ (vệ sinh, trông nom nhà cửa, công
nghiệp thực phẩm, tìm kiếm cứu nạn, kiểm tra, giám sát, ứng dụng y tế, cứu hỏa,..)
rôbốt công nghiệp, cũng như các hoạt động chiến tranh v.v.. Việc sử dụng các ứng
dụng này giúp cho các hệ thống quan sát và nhận biết rõ về môi trường làm việc

qua đó sẽ có sự tương tác hiệu quả hơn. Ngoài ra các ứng dụng này còn là các điều
kiện cần thiết cho sự phát triển các ứng dụng đa ngành khác. Việc lập trình cho các
ứng dụng này là vô cùng phức tạp khi sử dụng các phần mềm như: Matlab,
OpenCV, Mathcad, DirectShow. Tuy nhiên dùng công cụ Vision Acquisition and
Vision Assistant trong phần mềm LabView tạo ra các VI (Virtual Instrument) sẽ
giúp cho việc tạo các ứng dụng lập trình xử lý ảnh một cách dễ dàng.

ABSTRACT

The applications relating to real time image acquisition and processing are
being used widely in service robots (Cleaning, housekeeping, food industry, search
rescue, inspection, surveillance, medical applications, fire fighters, and so on),
industrial robots, and warfare operations, etc. They offer to complex systems the
capacity to see and understand their environment in order to interact in a more
efficient way. In addition, they are necessary conditions for the development of
multidisciplinary applications. It is very difficult to program them on available
software such as: Matlab, OpenCV, Mathcad, DirectShow. However, using
LabView with the Vision Acquisition and Vision Assistant

to create VIs will

programmable image processing facilitate these processes.

4


DANH MỤC HÌNH VẼ
Hình 1.1: Các giai đoạn chính trong xử lý ảnh..........................................................................11
Hình 1.2: Một số hệ thống tích hợp quang-điện tử trong quân sự và chiến đấu...................12
Hình 1.3: Camera nhận dạng khuôn mặt....................................................................................13

Hình 1.4: Vệ tinh Kaguya của Nhật Bản....................................................................................13
Hình 1.5: Hệ thống kiểm tra chất lượng sản phẩm...................................................................14
Hình 1.6: Các bước cơ bản trong xử lý ảnh...............................................................................16
Hình 1.7: Sơ đồ phân tích và xử lý ảnh lưu đồ thông tin giữa các khối.................................20
Hình 1.8: Ảnh màu........................................................................................................................21
Hình 1.9: Các màu cơ sở..............................................................................................................22
Hình 1.10: Mô hình màu RGB....................................................................................................23
Hình 1.11: Ảnh GIF......................................................................................................................25
Hình 1.12: Ảnh dạng JPEG.........................................................................................................26
Hình 1.13: Bảng giao diện New VI của Labview.....................................................................32
Hình 1.14: Thanh công cụ giao diện...........................................................................................33
Hình 1.15: Sơ đồ khối của LabView...........................................................................................34
Hình 1.16: Ví dụ về sơ đồ khối....................................................................................................34
Hình 1.17: Bảng Tools palette.....................................................................................................35
Hình 1.18: Bảng mã controls.......................................................................................................36
Hình 1.19: Bảng Function............................................................................................................36
Hình 1.20: Acquisition sử dụng IMAQ vision toolbox............................................................38
Hình 1.21: RGB and Grayscale Image Acquisition..................................................................39
Hình 1.22: Biểu đồ hình xám…………………………………………………………...…39

5


Hình 1.23: Biểu đồ ảnh màu RGB..............................................................................................39
Hình 1.24: Sơ đồ khối hệ thống nhận dạng mẫu.......................................................................40
Hình 1.25: Camera áp trần...........................................................................................................44
Hình 1.26: Camera hình hộp.......................................................................................................44
Hình 1.27: Camera hồng ngoại...................................................................................................45
Hình 2.1 : Camera webcam..........................................................................................................46
Hình 2.2: Sơ đồ mô phỏng...........................................................................................................47

Hình 2.3: Khối Vision Acquisition..............................................................................................47
Hình 2.4: Giao diện khối Vision Acquisition Express..............................................................48
Hình 2.5: Khối Vision Assistant..................................................................................................49
Hình 2.6: Giao diện khối NI Vision assistant.............................................................................50
Hình 2.7: Cửa sổ thu nhận hình ảnh............................................................................................51
Hình 2.8: Thẻ Browse Images.....................................................................................................53
Hình 2.9: Sơ đồ chân khối màu IMAQ ExtractSingleColorPlane VI.....................................53
Hình 2.10: Sơ đồ xây dựng mảng................................................................................................54
Hình 2.11: Sơ đồ mảng Array To Cluster...................................................................................55
Hình 2.12: Sơ đồ chân lớp phủ IMAQ Overlay Rectangle VI................................................55
Hình 2.13: Giao diện khối Vision Builder Al……………………………………………..57
Hình 3.1: Hình ảnh thu được từ webcam...................................................................................58
Hình 3.2: Sơ đồ VI của hệ thống.................................................................................................58
Hình 3.3: Cửa sổ nhận dạng dấu chấm đen................................................................................59
Hình 3.4: Hình ảnh thu được sau khi xử lý................................................................................60

6


7


DANH MỤC BẢNG BIỂU

Bảng 1 : Pixel p và các pixel lân cận của p
Bảng 2 : Bảng giá trị màu color Plane

8



DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết

Tiếng Anh

tắt
HMI
Human Machine Inteface
LabView Laboratory Virtual Instrument
GPS
CCD
RGB
JPEG
GIF
ĐTDD
PEL
TV
NTSC
VI
NI
IP
CMOS
PTZ

Engineering Workbench
Global Positioning System
Change Coupled Device
Red Green Blue
Joint Photographic Experts Group

Graphics Interchange Format

Tiếng Việt
Giao diện người máy

Picture Element
Television
National Television System

Hệ thống định vị toàn cầu
Camera đã số hóa
Ba màu gốc trong ánh sáng
Phương pháp nén ảnh hiệu quả
Định dạng trao đổi hình ảnh
Điện thoại di động
Điểm ảnh
Tivi
Ủy ban hệ thống truyền thông quốc gia

Committee
Virtual Instrument
National Instruments
National Instruments
Complementary metal oxide
Pan Tilt Zoom

Thiết bị ảo
Công ty National Instruments Hoa Kỳ
Giao thức internet
Chất bán dẫn có bổ sung oxit kim loại

Phóng to, thu nhỏ

9


CHƯƠNG 1: TỔNG QUAN VỀ ĐỂ TÀI

1.1.Giới thiệu về đề tài.
1.1.1. Lý do chọn đề tài.
Nhận thức được xu hướng chung, với những ưu điểm mà camera mang lại
trong việc xử lý ảnh nhận dạng mẫu vật, việc đầu tư vào lĩnh vực này là cần thiết,
quan trọng đối với các nhà khoa học, doanh nghiệp và chính sách định hướng, quan
tâm của nhà nước. Lĩnh vực nào cũng vậy, để phát triển bền vững, vươn lên tầm cao
mới, điều kiện tiên quyết là cần phải đi đôi xây dựng cơ sở khoa học làm nền tảng,
cập nhật, ứng dụng các công nghệ hiện đại, và triển khai thành các sản phẩm ứng
dụng phù hợp nhu cầu thực tế. Theo tinh thần và tiêu chí trên, đề tài này đã được
lựa chọn. Đề tài: “Nghiên cứu hệ thống tự động nhận dạng, đếm và phân loại đối
tượng trên cơ sở xử lý ảnh” giúp em có được nên tảng vưng chắc hơn về mặt lý
thuyết và thực tiễn để có thể tiến sâu hơn trong quá trình phát triển và nghiên cứu
các ứng dụng của camera vào đời sống trong tương lai.
1.1.2. Mục đích chọn đề tài.
Mục đích của đề tài là xây dựng hệ thống nhận dạng và đếm số đối tượng trên
cơ sở xử lý ảnh. Bên cạnh đó, đề tài cần đi sâu nghiên cứu đảm bảo các tiêu chí là
điều kiện tiên quyết: cần phải đi đôi xây dựng cơ sở khoa học làm nền tảng cập
nhật, ứng dụng các công nghệ hiện đại, và triển khai thành các sản phẩm ứng dụng
phù hợp với nhu cầu thực tế. Để đạt được mục đích trên, các công việc cần thực
hiện: nghiên cứu về công nghệ xử lý ảnh, camera quan sát, lập trình phần mềm cho
hệ thống nhận dạng mẫu vật, chạy thử nghiệm, đánh giá và định hướng để tốt hơn,
đáp ứng thực tế cũng như các tiêu chí khoa học hơn.
1.1.3. Đối tượng và phạm vi nghiên cứu.

Đối tượng nghiên cứu chung của đồ án là nghiên cứu hệ thống nhận dạng,
đếm số đối tượng bằng xử lý ảnh. Đối với hệ thống này: Phần cơ khí của hệ thống
gồm: một camera. Phần công nghệ xử lý ảnh, xây dựng các ứng dụng trong thị giác

10


máy tính. Xây dựng hệ thống điều khiển với bộ điều khiển sử dụng các ứng dụng
của phần mềm lập trình đồ họa LabView.
1.1.4. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài.
 Ý nghĩa khoa học:
Đề tài này đã từng bước xây dựng cơ sở khoa học làm nền tảng: nghiên cứu
về công nghệ xử lý ảnh, lập trình phần mềm cho hệ thống đếm số lượng. Đó là
những cơ sở cần thiết, quan trọng để tiếp tục phát triển các hệ thống phức tạp hơn,
hiện đại hơn.
 Ý nghĩa thực tiễn:
Đề tài phần nào đưa ra một cái khung cơ bản cho quá trình xây dựng và phát
triển nghiên cứu hệ thống nhận dạng, đếm số đối tượng. Nó là cơ sở cho quá trình
phát triển, ứng dụng nhận dạng mẫu vật. Đã có sự vận dụng công nghệ hiện đại:
công nghệ xử lý ảnh và thử nghiệm thuật toán thông minh.
1.1.5. Tóm tắt nội dung đồ án.
 Chương 1: Tổng quan về đề tài.
Nội dung chính của chương gồm 3 phần: giới thiệu đề tài, giới thiệu về
hệ thống xử lý ảnh, giới thiệu về camera. Trong phần giới thiệu đề tài gồm: lý do
chọn đề tài, mục đích chọn đề tài, đối tượng và phạm vi nghiên cứu, ý nghĩa khoa
học và thực tiễn của đề tài, tóm tắt nội dung, đã cho ta cái nhìn tổng thể về quá trình
thực hiện đề tài, để biết được mục đích, định hướng, cũng như đối tượng và phạm
vi được đề cập trong đề tài rõ ràng, cụ thể, là kim chỉ nam theo suốt quá trình
nghiên cứu. Phần tiếp theo là nghiên cứu về lý thuyết là cơ sở khoa học làm nền
tảng.

 Chương 2: Nghiên cứu hệ thống tự động nhận dạng, đếm và phân loại đối
tượng trên cơ sở xử lý ảnh.
Đây là phần thực nghiệm, được thực hiện trên nền tảng lý thuyết ở chương 1,
gồm: thiết kế mô phỏng, lập trình phần mềm được tiến hành: Phần lập trình phần
mềm, được tiến hành theo quy trình: xây dựng lưu đồ thuật toán, triển khai chương

11


trình với ngôn ngữ trên môi trường tương ứng gồm: xây dựng chương trình xử lý
ảnh, thiết kế giao diện người dùng HMI cho LabView
 Chương 3: Mô phỏng hệ thống nhận dạng, đếm và phân loại đối tượng
Tiến hành chạy thử nghiệm, chỉnh định, đánh giá kết quả đạt được và chưa đạt
được. Từ đó, vạch ra các định hướng phát triển, để đáp ứng tốt hơn thực tế cũng
như các tiêu chí khoa học.
1.2.

Tổng quan về công nghệ xử lý ảnh và hệ thống phân loại ảnh
Một hệ thống xử lý ảnh điển hình được cho như sau:

Hình 1.1: Các giai đoạn chính trong xử lý ảnh.
Xử lý ảnh bao gồm lý thuyết và các kỹ thuật liên quan nhằm mục đích tạo ra
một hệ thống nhân tạo có thể tiếp nhận thông tin từ các hình ảnh thu được, hoặc các
tập dữ liệu đa chiều. Các thiết bị ngày nay không chỉ nhận tín hiệu đơn lẻ mà còn
được tích hợp Thị giác máy giúp có cái nhìn thật hơn với thế giới bên ngoài. Thông
tin hình ảnh nhận về qua quá trình phân tích, kết hợp với các mô hình giúp hệ thống
phân loại sản phẩm tiến dần tới một hệ thống nhân tạo có khả năng ra quyết định
thông minh, linh hoạt và đúng đắn nhiều hơn. LabView (Laboratory Virtual
Instrument Engineering Workbench) là ngôn ngữ lập trình đồ họa mà sử dụng các
biểu tượng thay vì các hàng văn bản để tạo ra các ứng dụng, nó đáp ứng được

những yêu cầu của lĩnh vực xử lý ảnh. Một số lĩnh vực ứng dụng công nghệ xử lý
ảnh mang tính đột phá :

12


 Trong lĩnh vực quân sự:
Các hệ thống có tích hợp quang hồng ngoại (đóng vai trò là Thị giác máy)
có khả năng tự động điều khiển dàn hỏa lực (pháo, tên lửa) được lắp đặt trên trận
địa cao xạ, trên xe tăng, tàu chiến, máy bay, vệ tinh. Chúng được thay thế, hỗ trợ
các dàn radar dễ bị nhiễu trong việc tự động phát hiện, cảnh giới, bám bắt mục tiêu.
Đặc biệt, có những loại lắp trên máy bay có khả năng điều khiển hỏa lực đánh phá
hàng chục mục tiêu cùng một lúc, và cũng cần phải kể đến các đầu tự dẫn tên lửa và
đạn thông minh.

Hình 1.2: Một số hệ thống tích hợp quang-điện tử trong quân sự và chiến đấu
 Trong an ninh, phòng chống tội phạm và bảo vệ pháp luật:
Các hệ thống Camera nhận dạng khuôn mặt, vân tay tự động cũng như phát
hiện, theo dõi, cảnh báo các âm mưu và hoạt động khủng bố. Các xe Robot tự hành
có gắn Camera cũng được ứng dụng hoạt động trong các môi trường độc hại, dò
phá bom mìn.

13


Hình 1.3: Camera nhận dạng khuôn mặt
 Trong lĩnh vực hàng không vũ trụ:
Các hệ thống ống kính chụp ảnh viễn thám lắp trên các vệ tinh bay quanh trái
đất có thể chụp và quan sát được các vật kích cỡ 0.5 m từ độ cao 750 Km. Việc
ghép nối các ống kính này với hệ thống GPS (Global Positioning System, hệ thống

định vị toàn cầu) sẽ cho phép xây dựng các bản đồ số được ứng dụng vào nhiều lĩnh
vực cực kỳ quan trọng trong an ninh quốc phòng, phát triển kinh tế-xã hội.

Hình 1.4: Vệ tinh Kaguya của Nhật Bản

14


 Trong công nghiệp, giao thông, xây dựng:
Hệ thống quang điện tử đóng vai trò thị giác máy có khả năng tự động đo
đạc kiểm tra chất lượng sản phẩm trong các dây chuyền sản xuất: phân loại hạt ngũ
cốc, cà phê, tìm lỗi lắp ráp linh kiện các bản vi mạch và khuyết tật các mối hàn…
Các hệ thống quang điện tử được ứng dụng nhiều trong giao thông như đo tốc độ,
tự động kiểm soát điều khiển và phân luồng giao thông.

Hình 1.5: Hệ thống kiểm tra chất lượng sản phẩm.
 Trong nghiên cứu y sinh dược học:
Các kính hiển vi có khả năng tự động nhận dạng và đo đếm các tế bào với độ
chính xác cao. Các kính hiển vi có hệ thống dẫn đường Laser cho phép thực hiện
những phẫu thuật rất phức tạp như mổ u não, một công nghệ đòi hỏi độ chính xác
trên micromet.
 Trong công nghiệp giải trí, truyền hình:
Các hệ thống tích hợp tự động điều khiển Camera kích thước và khối lượng
lớn bám theo các đối tượng chuyển động nhanh như bóng đang bay, đua xe…

15


1.2.1. Tổng quan về hệ thống xử lý ảnh.
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Nó là một ngành

khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó
rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính
chuyên dụng riêng cho nó.
Xử lý ảnh được đưa vào giảng dạy ở bậc đại học ở nước ta khoảng chục năm
nay. Nó là môn học liên quan đến nhiều lĩnh vực và cần nhiều kiến thức cơ sở khác.
Đầu tiên phải kể đến xử lý tín hiệu số là một môn học hết sức cơ bản cho xử lý tín
hiệu chung, các khái niệm về tích chập, các biến đổi Fourier, biến đổi Laplace, các
bộ lọc hữu hạn… Thứ hai, các công cụ toán như Đại số tuyến tính, xác xuất, thống
kê. Một số kiến thứ cần thiết như trí tuệ nhân tạo, mạng nơ ron nhân tạo cũng được
đề cập trong quá trình phân tích và nhận dạng ảnh.
Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính: nâng cao chất
lượng ảnh và phân tích ảnh. Ứng dụng đầu tiên được biết đến là nâng cao chất
lượng ảnh báo được truyền qua cáp từ Luân đôn đến New York từ những năm 1920.
Vấn đề nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng và độ phân giải
của ảnh. Việc nâng cao chất lượng ảnh được phát triển vào khoảng những năm
1955. Điều này có thể giải thích được vì sau thế chiến thứ hai, máy tính phát triển
nhanh tạo điều kiện cho quá trình xử lý ảnh sô thuận lợi. Năm 1964, máy tính đã có
khả năng xử lý và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ
bao gồm: làm nổi đường biên, lưu ảnh. Từ năm 1964 đến nay, các phương tiện xử
lý, nâng cao chất lượng, nhận dạng ảnh phát triển không ngừng. Các phương pháp
tri thức nhân tạo như mạng nơ ron nhân tạo, các thuật toán xử lý hiện đại và cải
tiến, các công cụ nén ảnh ngày càng được áp dụng rộng rãi và thu nhiều kết quả khả
quan.
Để dễ tưởng tượng, xét các bước cần thiết trong xử lý ảnh. Đầu tiên, ảnh tự
nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như Camera, máy chụp
ảnh). Trước đây, ảnh thu qua Camera là các ảnh tương tự (loại Camera ống kiểu
CCIR). Gần đây, với sự phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy
ra từ Camera, sau đó nó được chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý

16



tiếp theo. (Máy ảnh số hiện nay là một thí dụ gần gũi). Mặt khác, ảnh cũng có thể
tiếp nhận từ vệ tinh; có thể quét từ ảnh chụp bằng máy quét ảnh. Hình 1.10 dưới
đây mô tả các bước cơ bản trong xử lý ảnh.

Hình 1.6: Các bước cơ bản trong xử lý ảnh
Sơ đồ này bao gồm các thành phần sau:
1.2.1.1.

Phần thu nhận ảnh (Image Acquisition).

Ảnh có thể nhận qua camera màu hoặc đen trắng. Thường ảnh nhận qua
camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25
dòng), cũng có loại camera đã số hoá (như loại CCD – Change Coupled Device) là
loại photodiot tạo cường độ sáng tại mỗi điểm ảnh.
Camera thường dùng là loại quét dòng ; ảnh tạo ra có dạng hai chiều. Chất
lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng,
phong cảnh)
1.2.1.2.

Tiền xử lý (Image Processing).

Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ
tiền xử lý để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là lọc nhiễu,
nâng độ tương phản để làm ảnh rõ hơn, nét hơn.
1.2.1.3. Phân đoạn (Segmentation) hay phân vùng ảnh.
Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu
diễn phân tích, nhận dạng ảnh. Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong
bì thư cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên

người thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng. Đây là

17


phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính
xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này.
1.2.1.4. Biểu diễn ảnh (Image Representation).
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân
đoạn) cộng với mã liên kết với các vùng lận cận. Việc biến đổi các số liệu này thành
dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính. Việc chọn các tính
chất để thể hiện ảnh gọi là trích chọn đặc trưng (Feature Selection) gắn với việc
tách các đặc tính của ảnh dưới dạng các thông tin định lượng hoặc làm cơ sở để
phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh nhận được. Ví
dụ: trong nhận dạng ký tự trên phong bì thư, chúng ta miêu tả các đặc trưng của
từng ký tự giúp phân biệt ký tự này với ký tự khác.
1.2.1.5. Nhận dạng và nội suy ảnh (Image Recognition and Interpretation.
Nhận dạng ảnh là quá trình xác định ảnh. Quá trình này thường thu được
bằng cách so sánh với mẫu chuẩn đã được học (hoặc lưu) từ trước. Nội suy là phán
đoán theo ý nghĩa trên cơ sở nhận dạng. Ví dụ: một loạt chữ số và nét gạch ngang
trên phong bì thư có thể được nội suy thành mã điện thoại. Có nhiều cách phân loai
ảnh khác nhau về ảnh. Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh
được phân theo hai loại nhận dạng ảnh cơ bản:
- Nhận dạng theo tham số.
- Nhận dạng theo cấu trúc.
Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong
khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử),
nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt
người…
1.2.1.6. Cơ sở tri thức (Knowledge Base).

Như đã nói ở trên, ảnh là một đối tượng khá phức tạp về đường nét, độ sáng
tối, dung lượng điểm ảnh, môi trường để thu ảnh phong phú kéo theo nhiễu. Trong
nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các phương pháp toán
học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình tiếp nhận
18


và xử lý ảnh theo cách của con người. Trong các bước xử lý đó, nhiều khâu hiện
nay đã xử lý theo các phương pháp trí tuệ con người. Vì vậy, ở đây các cơ sở tri
thức được phát huy.
1.2.1.7. Mô tả (biểu diễn ảnh).
Từ hình 1.10, ảnh sau khi số hoá sẽ được lưu vào bộ nhớ, hoặc chuyển sang
các khâu tiếp theo để phân tích. Nếu lưu trữ ảnh trực tiếp từ các ảnh thô, đòi hỏi
dung lượng bộ nhớ cực lớn và không hiệu quả theo quan điểm ứng dụng và công
nghệ. Thông thường, các ảnh thô đó được đặc tả (biểu diễn) lại (hay đơn giản là mã
hoá) theo các đặc điểm của ảnh được gọi là các đặc trưng ảnh (Image Features)
như: biên ảnh (Boundary), vùng ảnh (Region). Một số phương pháp biểu diễn
thường dùng:
• Biểu diễn bằng mã chạy (Run-Length Code)
• Biểu diễn bằng mã xích (Chaine -Code)
• Biểu diễn bằng mã tứ phân (Quad-Tree Code)
Biểu diễn bằng mã chạy
Phương pháp này thường biểu diễn cho vùng ảnh và áp dụng cho ảnh nhị
phân. Một vùng ảnh R có thể mã hoá đơn giản nhờ một ma trận nhị phân:
U(m, n) = 1 nếu (m, n) thuộc R
U( m, n) = 0 nếu (m, n) không thuộc R
Trong đó: U(m, n) là hàm mô tả mức xám ảnh tại tọa độ (m, n). Với cách
biểu diễn trên, một vùng ảnh được mô tả bằng một tập các chuỗi số 0 hoặc 1. Giả sử
chúng ta mô tả ảnh nhị phân của một vùng ảnh được thể hiện theo toạ độ (x, y) theo
các chiều và đặc tả chỉ đối với giá trị “1” khi đó dạng mô tả có thể là: (x, y)r; trong

đó (x, y) là toạ độ, r là số lượng các bit có giá trị “1” liên tục theo chiều ngang hoặc
dọc.

Biểu diễn bằng mã xích
19


Phương pháp này thường dùng để biểu diễn đường biên ảnh. Một đường bất
kỳ được chia thành các đoạn nhỏ. Nối các điểm chia, ta có các đoạn thẳng kế tiếp
được gán hướng cho đoạn thẳng đó tạo thành một dây xích gồm các đoạn. Các
hướng có thể chọn 4, 8, 12, 24,… mỗi hướng được mã hoá theo số thập phân hoặc
số nhị phân thành mã của hướng.
Biểu diễn bằng mã tứ phân
Phương pháp mã tứ phân được dùng để mã hoá cho vùng ảnh. Vùng ảnh đầu
tiên được chia làm bốn phần thường là bằng nhau. Nếu mỗi vùng đã đồng nhất
(chứa toàn điểm đen (1) hay trắng (0)), thì gán cho vùng đó một mã và không chia
tiếp. Các vùng không đồng nhất được chia tiếp làm bốn phần theo thủ tục trên cho
đến khi tất cả các vùng đều đồng nhất. Các mã phân chia thành các vùng con tạo
thành một cây phân chia các vùng đồng nhất.
Trên đây là các thành phần cơ bản trong các khâu xử lý ảnh. Trong thực tế,
các quá trình sử dụng ảnh số không nhất thiết phải qua hết các khâu đó tùy theo đặc
điểm ứng dụng. Hình 1.11 cho sơ đồ phân tích và xử lý ảnh và lưu đồ thông tin giữa
các khối một cách khá đầy đủ. Ảnh sau khi được số hóa được nén, lưu lại để truyền
cho các hệ thống khác sử dụng hoặc để xử lý tiếp theo. Mặt khác, ảnh sau khi số
hóa có thể bỏ qua công đoạn nâng cao chất lượng (khi ảnh đủ chất lượng theo một
yêu cầu nào đó) để chuyển tới khâu phân đoạn hoặc bỏ tiếp khâu phân đoạn chuyển
trực tiếp tới khâu trích chọn đặc trưng. Hình 1.11 cũng chia các nhánh song song
như: nâng cao chất lượng ảnh có hai nhánh phân biệt: nâng cao chất lượng ảnh
(tăng độ sáng, độ tương phản, lọc nhiễu) hoặc khôi phục ảnh (hồi phục lại ảnh thật
khi ảnh nhận được bị méo) v.v…


20


Hình 1.7: Sơ đồ phân tích và xử lý ảnh lưu đồ thông tin giữa các khối.
1.2.2. Giới thiệu về ảnh và phân loại ảnh.
Ở đồ án này, ảnh ta dùng để phân loại sản phẩm là ảnh số nên em xin giới
thiệu qua đôi nét về ảnh số và các khái niệm liên quan như pixel, pixel lân cận….
1.2.2.1. Ảnh số.
Ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần
với ảnh thật. Ảnh là một sự vật đại diện cho con người, sinh vật hay sự vật nào
đó..., ảnh động như ta thấy trên truyền hình thực chất là tập hợp của rất nhiều ảnh
tĩnh liên tiếp. khi một ảnh được số hóa thì nó trở thành ảnh số và ảnh số này lại là
một tập hợp của rất nhiều phần tử ảnh được gọi là điểm ảnh hay là “pixel”. Mỗi
điểm ảnh lại được biểu diễn dưới dạng một số hữu hạn các bit. Ta có thể chia ảnh ra
làm ba loại khác nhau:
 Ảnh đen trắng: mỗi điểm ảnh được biểu diễn bởi một bit.
 Ảnh Gray–scale: mỗi điểm ảnh được biểu diễn bằng các mức chói khác
nhau, thường thì ảnh này được biểu diễn bằng 256 mức chói hay là 8 bit cho mỗi
diểm ảnh.
 Ảnh màu: mỗi điểm ảnh chia ra thành tín hiệu chói và tín hiệu màu.

21


Hình 1.8: Ảnh màu
1.2.2.2. Biểu diễn ảnh số.
Trong biểu diễn ảnh, người ta thường dùng các phần tử đặc trưng của ảnh là
Pixel. Nhìn chung có thể xem một hàm 2 biến chưa các thông tin biểu diễn của một
ảnh. Các mô hình biểu diễn ảnh cho ta một mô tả logic hay định lượng các tính chất

của hàm này. Việc xử lý ảnh số phải được lấy mẫu và lượng tử hóa. Việc lượng tử
hóa là chuyển đổi tín hiệu tương tự sang tín hiệu số của một ảnh đã lấy mẫu sang
một số hữu hạn mức xám. Một số mô hình thường dùng biểu diễn ảnh: mô hình
toán, mô hình thống kê.
1.2.2.3. Ảnh màu.
- Cơ sở về ảnh màu:
Như ta đã biết thì khi cho ánh sáng trắng đi qua lăng kính ta sẽ thu được một
dãy phổ màu bao gồm 6 màu rộng: tím, lam, lục, vàng, cam, đỏ. Nếu nhìn kỹ thì sẽ
không có ranh giới rõ ràng giữa các màu mà màu này sẽ từ từ chuyển sang màu kia.
Mắt chúng ta nhìn thấy được là do ánh sáng phản xạ từ vật thể.
Tất cả các màu được tạo ra từ 3 màu cơ bản (màu sơ cấp) là : đỏ (R), lam (B)
và lục (G). Các màu cơ bản trộn lại với nhau theo một tỉ lệ nhất định để tạo ra các
màu thứ cấp.

22


Phương trình màu :
Y= 0.2989*R +0.58662*G + 0.11448*B

Hình 1.9: Các màu cơ sở.
Ví dụ : đỏ + lục = vàng; Lục + lam = xanh
Trộn ba màu sơ cấp hoặc trộn một màu thứ cấp với màu sơ cấp ngược với nó
sẽ tạo ra được ánh sáng trắng.
Các màu gốc có liên quan đến các khái niệm sinh học hơn là vật lý, nó dựa
trên cơ sở phản ứng sinh lý học của mắt người đối với ánh sáng. Mắt người có
các tế bào cảm quang có hình nón nên còn được gọi là tế bào hình nón, các tế bào
này thông thường có phản ứng cực đại với ánh sáng vàng - xanh lá cây (tế bào hình
nón L), xanh lá cây (tế bào hình nón M) và xanh lam (tế bào hình nón S) tương ứng
với các bước sóng khoảng 564 nm, 534 nm và 420 nm. Ví dụ, màu vàng thấy được

khi các tế bào cảm nhận màu xanh ánh vàng được kích thích nhiều hơn một chút so
với tế bào cảm nhận màu xanh lá cây và màu đỏ cảm nhận được khi các tế bào cảm
nhận màu vàng - xanh lá cây được kích thích nhiều hơn so với tế bào cảm nhận màu
xanh lá cây.
Các đặc trưng dùng để phân biệt một màu với màu khác là: độ sáng
(brightness), sắc màu (hue) và độ bão hòa màu (Saturation).

23


+ Màu sắc có liên quan đến bước sóng ánh sáng .Thông thường, sắc màu
chính là tên của màu. Ví dụ: đỏ, cam, lục…
+ Độ sáng thể hiện về cường độ ánh sáng: mô tả nó sáng hay tối như thế nào.
+ Độ bão hòa màu: thể hiện độ thuần khiết của màu. Khi độ bão hòa cao, màu
sẽ sạch và rực rỡ.
Có nhiều mô hình màu như RGB, CYM, YIQ, CIE...Ở đây chỉ trình bày về
mô hình màu RGB.
Lam

(0.0.1)

Trắng
Đen

Đỏ

(0.1.0)
Lục
Vàng


(1.0.0)

Hình 1.10: Mô hình màu RGB.
Các màu R, G, B nằm ở các đỉnh trên trục tọa độ của khối vuông. Màu đen
nằm ở gốc tọa độ, màu trắng nằm ở góc xa nhất so với điểm gốc.Thang màu xám
kéo dài từ đen đến trắng (đường chấm).
Hình ảnh trong mô hình màu RGB bao gồm 3 mặt phẳng ảnh độc lập (dùng
cho các màu sơ cấp).
Thường thì ta giả thiết là tất cả các giá trị màu được chuẩn hóa (tức là khối
vuông là khối đơn vị), tất cả các giá trị màu nằm trong khoảng [0,1].
Vì vậy trong hệ màu RGB các màu có thể mô tả như là những điểm bên trong
hình lập phương. Ở gốc tọa độ (0; 0; 0) là màu đen. Trên các trục tọa độ dương là
các màu đỏ lục, lam. Khi đó ánh sáng từ các điểm riêng biệt sẽ được cộng với nhau
để tạo ra các màu khác nhau.
+ (0, 0, 0) là màu đen

24


+ (255, 255, 255) là màu trắng
+ (255, 0, 0) là màu đỏ
+ (0, 255, 0) là màu xanh lá cây
+ (0, 0, 255) là màu xanh lam
+ (255, 255, 0) là màu vàng
+ (0, 255, 255) là màu xanh ngọc
+ (255, 0, 255) là màu hồng sẫm
1.2.2.4. Các định dạng ảnh cơ bản trong xử lý ảnh.
Ảnh thu được sau quá trình số hóa thường được lưu lại cho các quá trình xử
lý tiếp theo hay truyền đi .Trong quá trình phát triển của kỹ thuật xử lý ảnh, tồn tại
nhiều định dạng ảnh khác nhau từ ảnh đen trắng (với định dạng IMG), ảnh đa cấp

xám cho đến ảnh màu: (BMP, GIF, JPEG…).
Định dạng ảnh GIF:GIF (viết tắt của Graphics Interchange Format; trong
tiếng Anh nghĩa là "Định dạng trao đổi hình ảnh") là một định dạng tập tin hình ảnh
bitmap cho các hình ảnh dùng ít hơn 256 màu sắc khác nhau và các hoạt hình dùng
ít hơn 256 màu cho mỗi khung hình. GIF là định dạng nén dữ liệu đặc biệt hữu ích
cho việc truyền hình ảnh qua đường truyền lưu lượng nhỏ. Định dạng này được
CompuServe cho ra đời vào năm 1987 và nhanh chóng được dùng rộng rãi trên
World Wide Web cho đến nay.Tập tin GIF dùng nén dữ liệu bảo toàn trong đó kích
thước tập tin có thể được giảm mà không làm giảm chất lượng hình ảnh, cho những
hình ảnh có ít hơn 256 màu. Số lượng tối đa 256 màu làm cho định dạng này không
phù hợp cho các hình chụp (thường có nhiều màu sắc), tuy nhiên các kiểu nén dữ
liệu bảo toàn cho hình chụp nhiều màu cũng có kích thước quá lớn đối với truyền
dữ liệu trên mạng hiện nay. Định dạng JPEG là nén dữ liệu thất thoát có thể được
dùng cho các ảnh chụp, nhưng lại làm giảm chất lượng cho các bức vẽ ít màu, tạo
nên những chỗ nhòe thay cho các đường sắc nét, đồng thời độ nén cũng thấp cho
các hình vẽ ít màu. Như vậy, GIF thường được dùng cho sơ đồ, hình vẽ nút bấm và
các hình ít màu, còn JPEG được dùng cho ảnh chụp. Định dạng GIF dựa vào các

25


×