BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
oOo
TIỂU LUẬN MÔN HỌC XỬ LÝ ẢNH
ĐỀ TÀI:
COMUTER VISION
THỊ GIÁC NHÂN TẠO
Giảng viên hướng dẫn : TS. Ngô Văn Sỹ
Học viên thực hiện : Lý Thị Thanh Đào
Trần Nguyên Độ
Lê Xuân Đức
Huỳnh Văn Đông
Nhóm : 1
Lớp : K25.KĐT.ĐN
Đà Nẵng, 02 - 2014
Tiểu luận môn học xử lý ảnh
Trang 2
Tiểu luận môn học xử lý ảnh
LỜI MỞ ĐẦU
Thị giác máy là một lĩnh vực đã và đang phát triển mạnh mẽ trên thế giới
hiện nay. Khái niệm về thị giác máy tính – Computer Vision có liên quan tới nhiều
ngành học và có nhiều hướng nghiên cứu khác nhau.
Cùng với sự phát triển của xã hội, vấn đề an ninh bảo mật ngày càng có
những yêu cầu khắt khe. Các hệ thống xác định, nhận dạng con người được ra đời
với độ tin cậy cao. Một trong những bài toán nhận dạng con người được ưa chuộng
là nhận dạng thông qua khuôn mặt bởi nó chính là cách mà con người sử dụng để
phân biệt lẫn nhau. Bên cạnh đó, việc thu thập, xử lý thông tin qua ảnh để nhận
biết đối tượng đang được quan tâm và ứng dụng rộng rãi. Với phương pháp này,
người ta có thể thu nhận được nhiều thông tin từ đối tượng mà không cần phải tác
động nhiều tới đối tượng đó. Với sự hỗ trợ của máy tính, bài toán nhận dạng mặt
người từ ảnh số đã có được môi trường phát triển thuận lợi. Các hệ thống nhận
dạng mặt người online, offline đã ra đời và đã đạt độ tin cậy nhất định.
Dựa trên các lý thuyết về xử lý ảnh số, tách mặt người và nhận dạng mặt
người, nhóm chúng em đã cùng nhau nghiên cứu thực hiện tiểu luận “THỊ GIÁC
NHÂN TẠO” và đã thu được một số kết quả nhất định.
Nhóm chúng em xin chân thành cảm ơn thầy TS Ngô Văn Sỹ đã cung cấp cho
chúng em những kiến thức hữu ích trong môn học Xử lý ảnh số cũng như kinh
nghiệm làm tiểu luận
Đà Nẵng, 27 tháng 04 năm 2014
Trang 3
Tiểu luận môn học xử lý ảnh
MỤC LỤC
LỜI MỞ ĐẦU
MỤC LỤC
Trang 4
Tiểu luận môn học xử lý ảnh
Chương 1
GIỚI THIỆU VỀ THỊ GIÁC NHÂN TẠO
COMPUTER VISION
Không còn nghi ngờ gì khi nói máy móc có thể “nhìn”, ví dụ hệ thống giám
sát giao thông tự động ở những thành phố lớn trên thế giới, những máy rút tiền tự
động ATM có thể quét mắt người để nhận diện chủ thẻ và những xe ô tô có thể
được lái bởi một máy tính sử dụng đầu vào là một máy camera. Chương này sẽ giới
thiệu cái nhìn tổng thể về một số vấn đề và phương pháp của thị giác nhân tạo.
Mục tiêu của thị giác nhân tạo là đưa ra quyết định hữu ích về đối tượng vật
lý và cảnh thực dựa trên hình ảnh cảm nhận được.
Để đưa ra quyết định về các đối tượng thực, việc luôn luôn cần thiết là xây
dựng một số mô tả hoặc mô hình của các đối tượng từ các hình ảnh của chúng. Bởi
vì điều này, nhiều chuyên gia sẽ nói rằng
“mục tiêu của thị giác nhân tạo là xây
dựng bản mô tả cảnh trong những hình ảnh”.
Vấn đề quan trọng được nêu ra trong chương này và nghiên cứu trong phần
còn lại của tiểu luận bao gồm:
- Cảm biến: Làm thế nào để các cảm biến có được hình ảnh của thế giới
thực? Làm thế nào để những hình ảnh mã hóa các thuộc tính của thế giới thực,
chẳng hạn như vật liệu, hình dáng, ánh sáng và các mối quan hệ không gian?
- Thông tin được mã hóa: Làm thế nào để những hình ảnh mang lại thông tin
hiểu thế giới thực 3D, bao gồm cả hình học, kết cấu, chuyển động, và nhận dạng
của các đối tượng trong nó?
- Cách biểu diễn: Cách biểu diễn nào nên được sử dụng cho các mô tả lưu trữ
của các đối tượng, các bộ phận, các thuộc tính và các mối quan hệ của chúng?
- Các thuật toán: Những phương pháp nào dùng để xử lý thông tin hình ảnh
và xây dựng mô tả của thế giới thực và đối tượng của nó?
Những vấn đề này sẽ được nghiên cứu trong các chương tiếp theo. Trong
chương này giới thiệu các ứng dụng và một số vấn đề quan trọng khác nảy sinh
trong bối cảnh của chúng.
1.1. Các vấn đề ứng dụng
Các ứng dụng của máy tính trong phân tích ảnh gần như vô hạn. Chỉ một
phần nhỏ trong các ứng dụng có thể trình bày ở đây nhưng chúng sẽ phục vụ cho
sự chuyển động và định hướng trong các lĩnh vực nghiên cứu.
Trang 5
Tiểu luận môn học xử lý ảnh
1.1.1. Bản xem trước của ảnh số
Một ảnh kỹ thuật số có thể biểu diễn cho một phim hoạt hình, một trang văn
bản, khuôn mặt của một người, một bản đồ của Katmandu, hoặc một sản phẩm
mua từ một cửa hàng. Một ảnh kỹ thuật số chứa một số cố định hàng và cột của
của những điểm ảnh, viết tắt là các thành phần của hình ảnh. Những điểm ảnh như
các giá trị lượng tử vuông nhỏ - thường được đánh số từ 0 đến 255, đại diện cho
độ sáng tại các điểm của hình ảnh. Tùy thuộc vào các phương pháp mã hóa, 0 có
thể là tối nhất và 255 là sáng nhất, hoặc ngược lại.
Hình 1.1 -
Ảnh bên trái, phía trên: ảnh của một khuôn mặt.
Ảnh giữa, phía trên: ảnh phóng to của 8x8 điểm ảnh từ vùng mắt bên phải.
Ảnh bên phải, phía trên: vị trí mắt phát hiện bởi chương trình máy tính.
Ảnh phía dưới: bảng giá trị cường độ từ ảnh phóng to 8x8.
Ảnh bên trái phía trên trong hình 1.1 là một ảnh kỹ thuật số của một khuôn
mặt 257 hàng (cao) và 172 cột (rộng). Ảnh ở giữa phía trên là ảnh 8x8 phóng to từ
con mắt bên phải của ảnh bên trái. Ở dưới cùng của hình là biểu diễn 64 giá trị độ
sáng của các điểm ảnh trong ảnh phóng to. Những giá trị dưới 100 biểu diễn cho sự
Trang 6
Tiểu luận môn học xử lý ảnh
phản xạ thấp hơn từ độ tối của mắt, trong khi các con số cao hơn biểu diễn cho độ
trắng sáng của mắt.
1.1.2. Truy vấn cơ sở dữ liệu ảnh
Bộ nhớ số lớn, truyền tải băng thông cao và máy tính cá nhân đa phương
tiện đã tạo điều kiện cho sự phát triển của cơ sở dữ liệu hình ảnh. Sử dụng tốt
nhiều hình ảnh hiện tại đòi hỏi các phương pháp phục hồi tốt. Các kỹ thuật cơ sở
dữ liệu tiêu chuẩn áp dụng cho các hình ảnh đã được tăng cường với các khóa văn
bản, tuy nhiên, phục hồi dựa trên nội dung là cần thiết và là một chủ đề của nhiều
nghiên cứu hiện nay.
Hình 1.2 - Hình ảnh truy vấn (trái) và hai hình tương tự tạo ra
bởi một hệ thống cơ sở dữ liệu ảnh
1.1.3. Kiểm tra bên trong đầu người
Thiết bị ảnh cộng hưởng từ tính (MRI) có thể cảm nhận được vật liệu bên
trong những đối tượng 3D. Hình 1.3 cho thấy hình ảnh bên trong đầu người: phần
sáng có liên quan đến chuyển động của vật chất, vì vậy đây thực sự là một ảnh
dòng chảy của máu, có thể “nhìn thấy” các mạch máu quan trọng.
Trang 7
Tiểu luận môn học xử lý ảnh
Hình 1.3 - Ảnh cộng hưởng từ (bên trái), nơi sáng liên quan đến dòng máu
và ảnh nhị phân (bên phải) kết quả từ sự thay đổi tất cả các điểm ảnh
với giá trị 208 hoặc cao hơn đến 255 và những giá trị dưới 208 đến 0.
Kỹ thuật thị giác máy thường được sử dụng trong phân tích hình ảnh y tế. Sẽ
thật tuyệt vời nếu chúng ta có thể “xem” những gì xảy ra trong não. MRI có thể
cảm nhận được hoạt động hữu cơ liên quan đến quá trình suy nghĩ và điều này là
một lĩnh vực hiện rất thú vị của nghiên cứu.
1.1.4. Xử lý quét các trang văn bản
Một vấn đề thường gặp là chuyển thông tin từ tài liệu giấy sang dạng số cho
các hệ thống thông tin. Ví dụ, chúng ta có thể muốn tạo một cuốn sách cũ có sẵn
trên Internet, hoặc có thể cần phải chuyển đổi một kế hoạch chi tiết của một số đối
tượng thành một tập tin hình học để các phần có thể được tạo bởi một công cụ
bằng máy điều khiển số.
1.1.5. Tính toán độ phủ của tuyết sử dụng ảnh vệ tinh
Phần lớn bề mặt trái đất được quét thường xuyên từ vệ tinh và vệ tinh truyền
tải ảnh về trái đất dưới dạng số. Những hình ảnh này sau đó có thể được xử lý để
trích nhiều thông tin. Ví dụ, thống kê số lượng tuyết trong lưu vực của một dòng
sông có thể là quan trọng đối với việc điều chỉnh một đập cho dòng điều khiển,
cung cấp nước, hoặc môi trường sống động vật hoang dã. Ước tính khối lượng
tuyết có thể được thực hiện bằng cách tính toán số lượng điểm ảnh như tuyết xuất
hiện trong ảnh. Một điểm ảnh từ một ảnh vệ tinh có kết quả từ cảm nhận một ô
10m x 10m của trái đất, nhưng một số vệ tinh báo cáo có thể thấy những ô nhỏ
Trang 8
Tiểu luận môn học xử lý ảnh
hơn nhiều hơn thế. Thông thường, ảnh vệ tinh phải được so sánh với bản đồ hoặc
hình ảnh khác để xác định điểm ảnh trong một khu vực cụ thể hoặc lưu vực sông.
Máy tính được biết đến với khả năng xử lý một lượng lớn dữ liệu, chắc chắn
các vệ tinh quét mặt đất sẽ tạo ra một lượng lớn dữ liệu hữu ích cho nhiều mục
đích. Ví dụ, số lượng và vị trí của các điểm ảnh tuyết có thể là đầu vào cho một
chương trình máy tính mô phỏng chế độ thủy văn của vùng đó (thông tin nhiệt độ
cho khu vực là đầu vào cho chương trình).
Một ứng dụng khác có liên quan đang tiến hành kiểm kê các loại cây trồng và
dự đoán thu hoạch.
1.1.6. “Nhìn” từng bộ phận
Tại nhiều điểm của quá trình sản xuất, các bộ phận được chuyển trên băng
tải hoặc trong hộp. Các bộ phận phải được đặt riêng lẻ trong máy, đóng gói, kiểm
tra Nếu hoạt động phức tạp, một robot dẫn đường có thể cung cấp một giải
pháp.
Hình 1.4 cho thấy ba phần trong các bộ phận của một thiết bị trong không
gian làm việc. Bằng cách nhận biết các cạnh và lỗ, hệ thống thị giác của robot có
thể đoán ở cả nhận dạng của một phần và vị trí của nó trong không gian làm việc.
Sử dụng một mô hình 3D được thực hiện bởi CAD (thiết kế với hỗ trợ của máy tính)
cho mỗi phần dự đoán và vị trí dự đoán của nó, hệ thống thị giác sau đó so sánh
các dữ liệu hình ảnh cảm nhận với một đồ họa máy tính được tạo ra từ mô hình và
vị trí của nó trong không gian. Các vạch sáng trong hình 1.4 cho thấy ba thành
phần chính giữa ảnh và các mô hình của các đối tượng trong nó. Cuối cùng, mắt
robot có thể nói với cánh tay robot làm thế nào để nâng một phần và nơi để đặt nó.
Hình 1.4 - Việc kiểm tra, lắp ráp robot phù hợp với các mô hình lưu trữ 3D
để cảm nhận một hình ảnh 2D.
Trang 9
Tiểu luận môn học xử lý ảnh
1.1.7. Nhận dạng mặt người
Nhận dạng khuôn mặt là cách dễ dàng nhất mà con người sử dụng để phân
biệt những người khác nhau. Tuy nhiên, công việc có thể xem là dễ dàng với con
người này lại là một vấn đề phức tạp khi thực hiện bằng công cụ toán học.
Nhận diện mặt người là một dạng của nhận diện vật mẫu (pattern
recognition) dựa trên những đặc điểm của một khuôn mặt. Khuôn mặt cần nhận
diện được đem so sánh với với khuôn mặt mẫu theo một cách nào đó. Kết quả của
quá trình nhận diện này cho biết khuôn mặt có trong ảnh đầu vào là “đã được biết
đến” hay “chưa được biết đến”. Trong một hệ thống điều khiển, kết quả đó sẽ được
sử dụng để thực hiện các chức năng của điều khiển hệ thống.
Phần sau của tiểu luận sẽ tập trung xử lý bài toán nhận dạng mặt người này.
1.2. Các hoạt động trong ảnh
Hoạt động có thể được chia thành các các nhóm khác nhau tùy thuộc vào cấu
trúc, mức độ, hoặc mục đích. Một số hoạt động với mục đích cải thiện hình ảnh,
trong khi các hoạt động khác yêu cầu tách thông tin để xử lý đầu ra tự động. Một
số hoạt động tạo mới hình ảnh đầu ra, trong khi những hoạt động khác không cho
hình ảnh mô tả đầu ra.
1.2.1. Thay đổi những điểm ảnh trong vùng lân cận nhỏ
Giá trị điểm ảnh có thể được thay đổi theo cách thức liên quan đến một số
lượng nhỏ các điểm ảnh lân cận, ví dụ như các vùng lân cận trong hàng hoặc cột
liền kề. Thông thường được cho giá trị 1 hoặc 0 trong một hình ảnh nhị phân sẽ bị
đảo ngược để làm cho nó giống như các vùng lân cận.
Mục đích của hoạt động này có thể loại bỏ khả năng nhiễu từ các quá trình
số hóa. Hoặc nó có thể chỉ là để đơn giản hóa nội dung hình ảnh, ví dụ như để bỏ
qua hòn đảo nhỏ trong một hồ nước hoặc điểm không hoàn hảo trong một tờ giấy.
Hình 1.5 cho thấy một hình ảnh nhị phân của một số các tế bào hồng cầu đã được
làm sạch bằng cách loại bỏ các khu vực nhỏ trong một nền lớn hơn.
Trang 10
Tiểu luận môn học xử lý ảnh
Hình 1.5 - (trên cùng bên trái) Ảnh nhị phân qua kính hiển vi của các tế bào máu:
kết quả từ việc loại bỏ vùng tối nhỏ trong vùng sáng hoặc ngược lại; (dưới) mẫu
cho thấy cách vùng lân cận điểm ảnh có thể được làm sạch
1.2.2. Tăng cường trong toàn bộ ảnh
Một số hoạt động xử lí toàn bộ hình ảnh theo một cách thống nhất. Các hình
ảnh có thể quá tối (giá trị độ tối đa của nó là 120), vì vậy tất cả các giá trị độ tối có
thể được nhân 2 để cải thiện sự hiển thị.
Nhiễu hoặc chi tiết không cần thiết có thể được loại bỏ bằng cách thay thế
giá trị của mỗi điểm ảnh đầu vào với mức trung bình của tất cả chín điểm ảnh trong
khu vực gần nhất của nó.
Ngoài ra, các chi tiết có thể được tăng cường bằng cách thay thế mỗi giá trị
điểm ảnh bởi sự tương phản giữa nó và các vùng lân cận.
Hình 1.6 cho thấy một tính toán đơn giản tương phản áp dụng tại tất cả các
điểm ảnh của một ảnh đầu vào. Lưu ý làm thế nào các ranh giới của hầu hết các
đối tượng được phát hiện tốt. Các kết quả hình ảnh đầu ra từ các tính toán chỉ thực
hiện trên các vùng 3x3 đường lân cận của hình ảnh đầu vào.
Một hình ảnh được chụp bằng ống kính và muốn tạo ra một hình ảnh đầu ra
với độ biến dạng ít hơn. Trong trường hợp này, phải "di chuyển" các giá trị điểm
ảnh đến các địa điểm khác trong hình ảnh di chuyển đến gần hơn với trung tâm
hình ảnh.
Trang 11
Tiểu luận môn học xử lý ảnh
Hình 1.6 - Độ tương phản trong hình ảnh bên trái được thể hiện trong hình ảnh bên
phải. Trên 10% điểm ảnh về độ tương phản được làm sáng trong khi thấp hơn 90%
được thực hiện tối. Tương phản là tính từ khu vực 3x3 của mỗi điểm ảnh.
1.2.3. Kết hợp nhiều ảnh
Một hình ảnh có thể được tạo ra bằng cách thêm hoặc trừ đi hai hình ảnh
đầu vào. Hình ảnh trừ nhau thường được sử dụng để phát hiện sự thay đổi theo
thời gian. Hình 1.7 cho thấy hai hình ảnh của một bộ phận chuyển động và hình
ảnh khác do trừ đi giá trị điểm ảnh tương ứng của hình ảnh thứ hai từ những hình
ảnh đầu tiên. Hình ảnh trừ nắm bắt được ranh giới của các đối tượng di chuyển,
nhưng không hoàn hảo (các giá trị âm, điểm ảnh không được sử dụng, tất cả
những không thay đổi đã được lưu lại trong hình ảnh đầu ra).
Hình 1.7 – Hình ảnh của một bộ phận chuyển động (trái và trung tâm)
và một ảnh khác (bên phải) nắm bắt được ranh giới của phần này.
1.2.4. Tính năng tính toán từ một ảnh
Trang 12
Tiểu luận môn học xử lý ảnh
Tổng quát trong bài toán tính lỗ, các vùng mang giá trị 0 tương ứng với lỗ
hổng trong quá trình kiểm tra có thể là hình ảnh của các đối tượng, thường được
gọi là các đốm màu. Tính năng quan trọng có thể là diện tích trung bình đối tượng,
chu vi … Chúng ta có thể muốn đầu ra các tính năng quan trọng riêng cho mỗi đối
tượng phát hiện.
1.2.5. Tách những đại diện ảnh không mang tính biểu tượng
Hoạt động cấp cao hơn thường trích xuất đại diện của hình ảnh mà không
mang tính biểu tượng, đó là, cấu trúc dữ liệu không giống như một hình ảnh.
1.3. Sử dụng máy tính và phần mềm
Máy vi tính là kì diệu cho tính toán chính xác của thông tin định lượng. Gần
đây, với bộ nhớ khổng lồ và bộ vi xử lý có tốc độ cao, người ta có thể tính toán với
những hình ảnh bằng nhiều cách khác nhau. Cách đơn giản nhất là có một chương
trình có thể thực hiện rất nhiều các hoạt động hình ảnh. Thư viện phần mềm có sẵn
nhiều chương trình con để xử lý hình ảnh: người dùng viết một chương trình ứng
dụng trong đó gọi các thư viện để thực hiện các hoạt động cần thiết trên dữ liệu
hình ảnh.
Hầu hết các công ty bán các thiết bị đầu vào cho thị giác máy cũng cung cấp
các hoạt động cho thư viện hình ảnh và thậm chí cả các chương trình điều khiển với
giao diện người dùng đồ họa đẹp (GUI). Phần cứng chuyên dụng có sẵn để tăng
tốc hoạt động của hình ảnh có thể mất nhiều giây, hoặc thậm chí vài phút, trên một
bộ xử lý mục đích chung.
Các máy tính song song được thiết kế với nhiệm vụ chính là xử lý hình ảnh.
Thông thường, phần cứng chỉ cần thiết cho tốc độ xử lí cao hoặc phản ứng thời
gian thực.
Ngôn ngữ lập trình đặc biệt với các hình ảnh và các hoạt động hình ảnh như
ngôn ngữ cấp thấp đã được xác định, đôi khi, những điều này đã được kết hợp với
các hoạt động để điều khiển một robot công nghiệp. Ngày nay, có rất nhiều chương
trình có thể xử lý hình ảnh tốt và sẽ được thực hiện bằng một ngôn ngữ phổ biến
cho nhiều mục đích, chẳng hạn như C, và một máy tính đa mục đích có sẵn.
1.4. Các lĩnh vực liên quan
Thị giác máy tính có liên quan đến nhiều ngành khác. Đầu tiên, điều quan
trọng là phải phân biệt giữa xử lý hình ảnh và sự hiểu biết hình ảnh. Xử lý hình ảnh
chủ yếu liên quan tới việc chuyển đổi hình ảnh thành nhiều ảnh, trong khi đó, sự
Trang 13
Tiểu luận môn học xử lý ảnh
hiểu biết hình ảnh liên quan đến việc ra quyết định dựa trên hình ảnh và xây dựng
một cách rõ ràng các mô tả cảnh cần thiết để làm như vậy. Xử lý ảnh được sử dụng
phổ biến trong hỗ trợ của sự hiểu biết hình ảnh.
Việc xử lý hình ảnh thường được dựa trên mô hình của một hình ảnh như là
một hàm liên tục f(x, y) của hai thông số không gian x và y hoặc các mô hình của
một hình ảnh như là một mảng 2D rời rạc I[r, c] mẫu số nguyên về độ sáng tối.
Nhận thức tâm lý con người rất quan trọng vì hai lý do, đầu tiên, bức ảnh cho
người dùng phải nắm các đặc tính của khách hàng, và thứ hai, nghiên cứu về khả
năng của con người trong sự hiểu biết hình ảnh có thể hướng dẫn sự phát triển của
chúng ta về các thuật toán.
Trang 14
Tiểu luận môn học xử lý ảnh
Chương 2
CƠ SỞ LÝ THUYẾT TẠO ẢNH VÀ BIỂU DIỄN ẢNH
Chúng ta lấy được rất nhiều thông tin về thế giới thông qua cảm giác thị giác.
Ánh sáng phản chiếu đối tượng và thông qua các đối tượng để tạo ra một hình ảnh
trên võng mạc của mắt. Từ những hình ảnh này cho ta hình dung về cấu trúc của
môi trường 3D. Các thành phần quan trọng là: (a) một cảnh của các đối tượng, (b)
chiếu sáng của các đối tượng, và (c) cảm nhận được ánh sáng phản chiếu của các
đối tượng.
Mục đích chính của chương này là để mô tả cách tạo ra hình ảnh cảm biến kỹ
thuật số của cảnh 2D hoặc 3D. Các loại bức xạ khác nhau phản xạ hoặc thâm nhập
vào các đối tượng trong thế giới vật chất có thể được cảm nhận bởi thiết bị hình
ảnh. Hình ảnh kỹ thuật số 2D là một loạt các mẫu cường độ phản xạ hoặc truyền
qua các đối tượng. Hình ảnh này được xử lý bởi một máy tính hoặc chương trình
máy tính để đưa ra quyết định về những cảnh.
Thông thường, một hình ảnh 2D đại diện cho một phóng chiếu của một cảnh
3D, đây là đại diện phổ biến nhất được sử dụng trong thị giác máy và trong cuốn
sách này. Cuối chương này, chúng tôi thảo luận một số mối quan hệ giữa các cấu
trúc trong thế giới 3D và cấu trúc trong hình ảnh 2D.
2.1. Cảm biến ánh sáng
Lịch sử khoa học cho biết về sự tiến bộ của các thiết bị tạo ra để cảm biến và
sản xuất các loại khác nhau của bức xạ điện từ, chẳng hạn như sóng radio, tia X, lò
vi sóng … Hóa chất trong các thụ thể của mắt người là nhạy cảm với bức xạ (ánh
sáng) với các bước sóng khác nhau, từ khoảng 400nm (màu tím) đến 800 nm (màu
đỏ). Cảm biến CCD có thể cảm nhận bước sóng dài hơn 800 nanomet (hồng ngoại).
Có các thiết bị để phát hiện chiều dài rất ngắn X-quang và những người mà phát
hiện sóng radio. Bước sóng khác nhau của bức xạ có tính chất khác nhau, ví dụ như
chụp X-quang có thể xuyên qua xương con người trong khi bước sóng dài hơn tia
hồng ngoại có thể không thâm nhập ngay cả những đám mây.
Trang 15
Tiểu luận môn học xử lý ảnh
Hình 2.1 - Phản ánh của bức xạ nhận được từ một nguồn duy nhất của chiếu sáng
Hình 2.1 cho thấy một mô hình đơn giản của nhiếp ảnh thông thường: một
yếu tố bề mặt, được chiếu sáng bởi một nguồn duy nhất (mặt trời hoặc một bóng
đèn flash) phản chiếu bức xạ về phía máy ảnh, mà giác quan của nó qua các hóa
chất trên phim. Bước sóng trong phạm vi kết quả ánh sáng tạo ra hoặc phản ánh
cơ chế rất gần bề mặt của đối tượng. Kỹ thuật ứng dụng đòi hỏi phải có một số
kiến thức của vật liệu được cảm biến và bức xạ và sử dụng cảm biến.
2.2. Thiết bị tạo ảnh
Có nhiều thiết bị khác nhau tạo ra hình ảnh kỹ thuật số. Chúng khác nhau về
hiện tượng cảm nhận cũng như trong thiết kế điện tử. Một số cảm biến sẽ được mô
tả trong chương này. Mục đích của chúng tôi là để tiết lộ những khía cạnh quan
trọng trong chức năng và khái niệm của mỗi cảm biến, để lại thông tin kỹ thuật
nhất để đọc bên ngoài.
2.2.1. Cảm biến CCD
Hình 2.2 cho thấy một máy ảnh được xây dựng sử dụng thiết bị công nghệ
tích điện kép (CCD), thiết bị đầu vào linh hoạt nhất và phổ biến cho các hệ thống
thị giác máy. Máy ảnh CCD là rất nhiều như một máy ảnh phim 35mm thường được
sử dụng cho các bức ảnh gia đình, ngoại trừ trên mặt phẳng ảnh, thay vì bộ phim
hóa học phản ứng với ánh sáng, các tế bào trạng thái rắn nhỏ chuyển đổi năng
lượng ánh sáng thành điện tích. Mỗi tế bào chuyển đổi năng lượng ánh sáng mà nó
nhận được vào điện tích.
Trang 16
Tiểu luận môn học xử lý ảnh
Hình 2.2 - Máy ảnh CCD (Thiết bị tích điện kép) phản xạ hình ảnh một chiếc bình,
các cell rời rạc chuyển đổi năng lượng ánh sáng thành điện tích, được biểu diễn
như là con số nhỏ khi đầu vào với một máy tính.
Tất cả các tế bào đầu tiên được xóa về 0, và sau đó họ bắt đầu tích hợp vào
các hoạt động năng lượng ánh sáng chiếu vào chúng. Một màn trập có thể có hoặc
có thể không cần thiết để kiểm soát thời gian cảm biến. Mặt phẳng ảnh hoạt động
như một bộ nhớ kỹ thuật số có thể được đọc từng hàng của một quá trình đầu vào
máy tính. Con số này cho thấy một máy ảnh đơn giản.
Nếu hình ảnh kỹ thuật số có kích thước 500 dòng và 500 cột của các giá trị
màu xám, một mảng bộ nhớ của một phần tư của một triệu byte thu được. Một
máy ảnh CCD đôi khi cắm vào một máy tính bảng, được gọi là một cài đặt đơn giản
khung, trong đó có bộ nhớ cho hình ảnh và có thể kiểm soát của máy ảnh. Thiết kế
mới hiện nay cho phép truyền thông kỹ thuật số trực tiếp (ví dụ như sử dụng các
tiêu chuẩn IEEE 1394). Ngày nay, các nhà sản xuất máy ảnh lớn cung cấp máy ảnh
kỹ thuật số có thể lưu trữ một vài chục hình ảnh trong bộ nhớ trong thân máy, một
số chứa một đĩa mềm cho mục đích này. Những hình ảnh này có thể là đầu vào cho
chế biến máy tính bất cứ lúc nào.
Hình 2.3 phác họa một hệ thống máy tính toàn bộ với cả hai đầu vào và đầu
ra máy ảnh đồ họa.
Trang 17
Tiểu luận môn học xử lý ảnh
Hình 2.3 - Vai trò trung tâm của bộ đệm khung trong xử lý hình ảnh.
Đây là một hệ thống điển hình làm nhiệm vụ tầm nhìn hoặc công việc chụp
ảnh y khoa. Nó cũng là điển hình cho các máy tính đa phương tiện, trong đó có thể
có một máy ảnh rẻ tiền có sẵn để có hình ảnh cho các mục đích teleconferencing.
Vai trò của một bộ đệm khung hình như một cửa hàng hình ảnh tốc độ cao là trung
tâm ở đây: máy ảnh cung cấp một hình ảnh đầu vào được lưu trữ ở dạng kỹ thuật
số trong bộ đệm khung hình sau tương tự để chuyển đổi kỹ thuật số mà nó có sẵn
để hiển thị cho người sử dụng và chế biến bằng cách các thuật toán máy tính khác
nhau. Bộ đệm khung hình thực sự có thể lưu trữ nhiều hình ảnh hoặc các dẫn xuất
của họ.
Hình 2.4 - mảng hình học: (a) tròn, (b) thẳng tuyến tính, (c) ROSA.
2.2.2. Thông tin hình ảnh
Hình học của hình ảnh có thể được định nghĩa là sự phản chiếu của mỗi điểm
của cảnh 3D thông qua các trung tâm chiếu hoặc trung tâm ống kính vào mặt
phẳng ảnh. Cường độ tại điểm hình ảnh có liên quan đến cường độ tỏa ra từ các
điểm bề mặt 3D mối quan hệ thực tế phức tạp. Mô hình dự báo này có thể được
thể chất hợp lý từ một máy ảnh pin-lỗ thực sự có thể được thực hiện bằng cách sử
dụng một hộp máy ảnh với một lỗ nhỏ và không có ống kính ở tất cả.
Trang 18
Tiểu luận môn học xử lý ảnh
Một máy ảnh CCD thường sẽ sử dụng cùng một loại ống kính như máy ảnh
phim 35mm được sử dụng cho các bức ảnh gia đình. Một ống kính duy nhất với hai
bề mặt lồi được thể hiện trong hình 2.2, nhưng ống kính thực tế nhất là hợp chất
với hơn hai bề mặt khúc xạ. Có hai điểm rất quan trọng được thực hiện. Đầu tiên,
ống kính là một ánh sáng thu ánh sáng đạt đến điểm hình ảnh thông qua toàn bộ
một hình nón của các tia đạt ống kính từ điểm 3D. Ba tia được thể hiện quy hoạch
từ đầu của bình hoa trong hình 2.2, chúng xác định những thái cực của hình nón
của các tia thu thập bởi các ống kính chỉ trên cùng của chiếc bình. Một hình nón
tương tự như tia tồn tại cho tất cả các điểm trường khác. Vì sự không hoàn hảo
hình học trong ống kính, uốn khác nhau của màu sắc khác nhau của ánh sáng, và
các hiện tượng, hình nón của các tia thực sự kết quả trong một đêm hoặc tại chỗ
mờ trên mặt phẳng ảnh được gọi là vòng tròn của sự nhầm lẫn. Thứ hai, các mảng
cảm biến CCD được xây dựng từ các đơn vị vật lý rời rạc, do đó, mỗi tế bào cảm
biến tích hợp các tia nhận được ở nhiều điểm lân cận của một bề mặt 3D. Hai hiệu
ứng làm mờ hình ảnh và độ sắc nét hạn chế của nó và kích thước của các chi tiết
cảnh nhỏ nhất có thể được cảm nhận.
Mảng CCD được sản xuất trên chip thường dài khoảng 1cm x 1cm. Nếu mảng
có 640x480 điểm ảnh hoặc 512x512 điểm ảnh, mỗi điểm ảnh có chiều rộng thực tế
của khoảng 0,001 inch. Có những cách hữu ích khác của việc đặt các tế bào cảm
biến CCD trên mặt phẳng ảnh (hoặc dòng hình ảnh) như thể hiện trong hình 2.4.
Một mảng tuyến tính có thể được sử dụng trong trường hợp chúng ta chỉ cần đo
chiều rộng của các đối tượng hoặc nơi chúng tôi có thể chụp ảnh và kiểm tra một
trang web liên tục của vật liệu do bởi máy ảnh. Với một mảng tuyến tính, 1000 đến
5000 điểm ảnh có sẵn trong một hàng duy nhất. Một mảng như vậy có thể được sử
dụng mà cảm biến tuyến tính được chuyển qua các tài liệu được quét như thực hiện
với một máy quét cầm tay hoặc máy quét cơ khí chính xác cao, chẳng hạn như tại
máy quét dạng phẳng.
Hiện nay, nhiều máy quét dạng phẳng có sẵn cho một vài trăm đô la và được
sử dụng để có được hình ảnh kỹ thuật số từ các bức ảnh màu hoặc phương tiện
truyền thông in ấn. Ống kính hình trụ thường được sử dụng để tập trung một dòng
trong thế giới thực vào mảng CCD tuyến tính. Mảng tròn sẽ được thuận tiện để
kiểm tra quay số tương tự như trên đồng hồ đo tốc độ hoặc đối tượng được đặt cẩn
thận liên quan đến máy ảnh và các mảng tròn được quét để kiểm tra hình ảnh của
kim. Phân vùng ROSA thú vị thể hiện trong hình 2.4 cung cấp giải pháp phần cứng
Trang 19
Tiểu luận môn học xử lý ảnh
để tích hợp tất cả các năng lượng ánh sáng chiếu vào một trong hai lĩnh vực hoặc
ban nhạc của vòng tròn. Nó được thiết kế cho lượng tử hóa phổ sức mạnh của hình
ảnh một, nhưng có thể có sử dụng đơn giản khác.
2.2.3. Máy quay phim
Máy quay phim tạo ra hình ảnh bằng cách tạo ra các khung hình với tốc độ
30 hình mỗi giây, cho phép một đại diện của đối tượng chuyển động theo thời gian,
thêm vào các tính năng không gian thể hiện trong những hình ảnh đơn hoặc khung.
Để tạo ra cảm giác chuyển động mịn cho người xem, 60 nửa khung hình mỗi giây
được sử dụng: những khung hình một nửa là tất cả các hàng hình ảnh kỳ lạ tiếp
theo tất cả các hàng hình ảnh thậm chí liên tiếp thay thế. Một tín hiệu âm thanh
cũng được mã hóa.
Hình 2.5 - Bản phác thảo thô của mắt người như máy ảnh.
Khung của một chuỗi phim được phân cách bởi các dấu hiệu và một số
chương trình nén ảnh được sử dụng để giảm dung lượng hình ảnh. Các tiêu chuẩn
truyền hình tương tự đã được thiết kế cẩn thận để đáp ứng nhiều yêu cầu: các tính
năng thú vị nhất cho phép các tín hiệu tương tự được sử dụng cho màu hoặc TV
trắng đen và mang theo âm thanh hoặc văn bản tín hiệu là tốt.
Công nghệ máy ảnh CCD cho máy thị giác đôi khi bị tiêu chuẩn màn hình
hiển thị được thiết kế cho người sử dụng. Đầu tiên, xen kẽ các khung chẵn/lẻ trong
một chuỗi video, không cần thiết để tạo ra một hình ảnh mịn như để người một con
người cảm nhận được như là trên thiết bị máy thị giác. Thứ hai, nhiều mảng CCD
đã có điểm ảnh với tỷ lệ 4:3 của chiều rộng và chiều cao vì hầu hết các màn hình
cho con người có một tỷ lệ kích thước 4:3. Điểm ảnh vuông và một tham số quy mô
duy nhất sẽ được hưởng lợi thị giác máy.
2.2.4. Mắt con người
Trang 20
Tiểu luận môn học xử lý ảnh
Mắt người có một camera hình cầu với một ống kính tiêu cự 20mm ở bên
ngoài tập trung các hình ảnh trên võng mạc là đối diện với ống kính và cố định bên
trong của mặt cầu như hình 2.5. Mống mắt kiểm soát lượng ánh sáng truyền qua
ống kính bằng cách kiểm soát kích thước của động tử. Mỗi mắt có một trăm triệu tế
bào thụ thể - khá nhiều so với một mảng CCD điển hình. Hơn nữa, võng mạc không
tập trung đều với các tế bào cảm biến. Một khu vực gần trung tâm của võng mạc,
được gọi là hố mắt, có nồng độ rất dày đặc của các thụ thể màu sắc, được gọi là tế
bào hình nón. Cách xa trung tâm, mật độ của tế bào hình nón giảm trong khi mật
độ của các thụ thể đen-trắng, tế bào hình que tăng lên.
Các giác quan mắt người có ba cường độ màu sắc riêng biệt cho ba thành
phần của một bề mặt hình ảnh điểm duy nhất trên hố mắt, bởi vì ánh sáng nhận
được từ chỗ đó rơi vào 3 loại tế bào hình nón. Mỗi loại hình nón có một sắc tố đặc
biệt nhạy cảm với bước sóng của ánh sáng trong một phạm vi nhất định. Một trong
những đặc tính hấp dẫn nhất của con người mắt não là khả năng nhận thức suốt
một thế giới 3D liên tục và ổn định ngay cả khi mắt thường xuyên di chuyển.
Những lực kéo của mắt là cần thiết cho nhận thức thị giác con người thích hợp. Một
phần đáng kể của não người là tham gia vào xử lý tín hiệu vào thị giác.
2.3. Những vấn đề về ảnh số
Một số vấn đề ảnh hưởng đến quá trình cảm nhận, một số quan trọng nhất
trong số đó được liệt kê dưới đây. Hiệu quả tổng thể của sự kết hợp của những vấn
đề này là một hình ảnh mà có một số biến dạng trong cả hình học và cường độ của
nó.
2.3.1. Biến dạng hình học
Biến dạng hình học có mặt trong một số cách trong quá trình chụp ảnh. Ống
kính có thể không hoàn hảo để các chùm ánh sáng được thu thập từ một yếu tố bề
mặt cảnh không bị cong chính xác như dự định. Hình ảnh bị méo thường được
quan sát cho các ống kính độ dài tiêu cự nhỏ, đường thẳng ở ngoại vi của cảnh
xuất hiện từ trung tâm của hình ảnh khi hiển thị ở bên phải trong hình 2.6.
Trang 21
Tiểu luận môn học xử lý ảnh
Hình 2.6 - Hình ảnh cho thấy biến dạng khác nhau.
(Trái) Grey mức cắt trong A/D chuyển đổi xảy ra tại giao lộ của một số sọc
sáng;
(Trung tâm) nở làm tăng cường độ tại các vùng lân cận của điểm ảnh sáng;
(Phải) méo thường được quan sát thấy khi ống kính có độ dài tiêu cự ngắn
hạn
2.3.2. Phân tán
Chùm bức xạ có thể uốn cong hoặc phân tán bởi môi trường mà họ đi qua.
Hình ảnh trên không và vệ tinh đặc biệt dễ bị ảnh hưởng như vậy, đó là do hơi
nước hoặc nhiệt độ cho ống kính giống như đặc điểm khí quyển.
2.3.3. Giãn nở
Vì phát hiện rời rạc, chẳng hạn như tế bào CCD, không hoàn toàn cách điện
với nhau, kết quả thu được tại một tế bào có thể bị rò rỉ vào một tế bào lân cận.
Các nở hạn phát sinh từ hiện tượng nơi rò rỉ như vậy lây lan ra từ một khu vực rất
tươi sáng trên mặt phẳng ảnh, kết quả là "hoa" tươi sáng trong hình ảnh có nghĩa
là lớn hơn nó thực sự phải được thể hiện trong hình 2.6 (hình giữa).
2.3.4. Các biến thể CCD
Do khiếm khuyết trong sản xuất, có thể có sự thay đổi trong các phản ứng
của các tế bào khác nhau để cường độ ánh sáng giống hệt nhau. Để giải thích
chính xác về cường độ, nó có thể là cần thiết để xác định đầy đủ các yếu tố tỉ lệ s[r,
c] và thay đổi t[r, c], một cho mỗi điểm ảnh, bằng cách điều chỉnh theo ánh sáng
cường độ để có thể được phục hồi như I
2
[r, c] = s[r, c]. I
1
[r, c] + t[r, c]. Trong một
trường hợp xấu, các mảng CCD có thể có một số tế bào chết mà không cho phản
ứng nào cả. Khuyết tật như vậy có thể được phát hiện qua sự kiểm tra: một biện
Trang 22
Tiểu luận môn học xử lý ảnh
pháp khắc phục phần mềm là giao phản ứng của tế bào chết là bằng trung bình của
những tế bào lân cận.
2.3.5. Xén hoặc bọc xung quanh
Trong chuyển đổi tương tự sang kỹ thuật số, một cường độ rất cao có thể
được cắt bớt một giá trị tối đa, hoặc, thứ tự bit cao của nó có thể bị mất, làm cho
giá trị được bao bọc xung quanh vào một số mã hóa cho một cường độ thấp hơn.
Kết quả của bọc xung quanh được nhìn thấy trong một hình ảnh màu xám quy mô
như một vùng sáng với một lõi tối hơn, trong một hình ảnh màu sắc nó có thể dẫn
đến một sự thay đổi đáng chú ý trong màu sắc. Hình ảnh ở bên trái trong hình 2.6
cho thấy bọc xung quanh: một số nút giao của đường sáng kết quả trong những
điểm ảnh nào đậm hơn so với hai dòng.
2.3.6. Biến dạng màu sắc
Bước sóng khác nhau của ánh sáng bị bẻ cong khác nhau bởi một ống kính
(chỉ số khúc xạ của ống kính thay đổi theo bước sóng). Kết quả là, năng lượng
trong các bước sóng ánh sáng khác nhau từ vị trí cùng một cảnh thực sự có thể
hình ảnh một vài điểm ảnh ngoài trên các máy dò. Ví dụ, hình ảnh của một ranh
giới đen-trắng rất sắc nét ở ngoại vi của cảnh có thể dẫn đến một đoạn đường của
sự thay đổi cường độ trải rộng trên nhiều điểm ảnh trong hình ảnh.
2.3.7. Hiệu ứng lượng tử
Quá trình số hóa thu thập một mẫu của cường độ từ một khu vực riêng biệt
của cảnh và ánh xạ tới một trong một tập hợp rời rạc của các giá trị màu xám và do
đó dễ bị trong cả việc trộn và các vấn đề làm tròn.
2.4. Hàm biểu diễn ảnh và hình ảnh kỹ thuật số
2.4.1. Các loại hình ảnh
Trong tính toán với các hình ảnh, thuận tiện để làm việc với cả các khái niệm
về hình ảnh tương tự và hình ảnh kỹ thuật số. Chức năng hình ảnh là một mô hình
toán học thường được sử dụng trong phân tích rất hiệu quả để xem xét các hình
ảnh như một hàm hai biến. Tất cả các phân tích chức năng sau đó có sẵn để phân
tích hình ảnh. Hình ảnh kỹ thuật số chỉ là một mảng hình chữ nhật 2D của các giá
trị rời rạc. Cả hai không gian hình ảnh và phạm vi cường độ được lượng tử hóa
thành một tập hợp rời rạc của các giá trị, cho phép hình ảnh được lưu trữ trong một
cấu trúc bộ nhớ máy tính 2D. Nó được phổ biến để ghi lại cường độ như một số 8-
bit (1 byte) cho phép các giá trị từ 0 đến 255. 256 cấp độ khác nhau thường là tất
Trang 23
Tiểu luận môn học xử lý ảnh
cả các độ chính xác có sẵn từ các cảm biến và thường là đủ để đáp ứng người sử
dụng. Ví dụ, một hình ảnh có thể được công bố trong một chương trình C như
I[512][512]. Mỗi điểm ảnh của một hình ảnh màu sẽ yêu cầu 3 giá trị đó. Trong
một số ứng dụng y tế, mã hóa 10-bit được sử dụng, cho phép 1024 giá trị cường
độ khác nhau.
Các định nghĩa sau đây được dùng để làm rõ các khái niệm quan trọng và
còn để thiết lập ký hiệu sử dụng trong suốt cuốn sách này. Chúng tôi bắt đầu với
một khái niệm lý tưởng của một hình ảnh tương tự được tạo ra bởi một hệ thống
quang học lý tưởng, chúng tôi giả định để có độ chính xác vô hạn. Hình ảnh kỹ
thuật số được hình thành bằng cách lấy mẫu hình ảnh này tương tự tại các địa
điểm rời rạc và đại diện cho cường độ tại một vị trí như một giá trị riêng biệt. Tất
cả các hình ảnh thực tế bị ảnh hưởng bởi quá trình vật lý hạn chế độ chính xác
trong cả hai vị trí và cường độ.
2.4.2. Các định nghĩa
- Ảnh tương tự: là một hình ảnh 2D F(x, y) trong đó có chính xác vô hạn
trong các thông số không gian x và y và chính xác vô hạn về cường độ tại mỗi điểm
không gian (x, y).
- Ảnh kỹ thuật số: là một hình ảnh 2D I[r, c] đại diện bởi một mảng 2D rời
rạc về cường độ lấy mẫu, mỗi mẫu được thể hiện bằng cách sử dụng hạn chế chính
xác. Mô hình toán học của một hình ảnh như một hàm của hai biến số trong không
gian. Thực tế là rất hữu ích trong cả hai hình ảnh mô tả và xác định các hoạt động
trên chúng. Hình 2.7 (d) cho thấy các điểm ảnh của một hình ảnh là mẫu của một
hình ảnh liên tục thực hiện tại các điểm khác nhau [x, y] của mặt phẳng ảnh. Nếu
có những mẫu M trong hướng X qua một khoảng cách của w, x khoảng cách X giữa
các điểm ảnh là w/M. Công thức liên quan điểm trung tâm của một điểm ảnh để
các tế bào mảng chứa các mẫu cường độ được đưa ra trong hình ảnh bên phải.
- Hàm biểu diễn hình ảnh: là một đại diện toán học hàm f(x, y) của một bức
hình như một hàm hai biến trong không gian x và y. Trong đó, x và y là các giá trị
thực xác định vị trí của điểm ảnh và f(x, y) giá trị xác định cường độ của điểm ảnh
tại điểm (x, y).
Trang 24
Tiểu luận môn học xử lý ảnh
Hình 2.7 – Các hệ thống phối hợp khác nhau cho ảnh:
(a) raster oriented sử dụng hàng và cột phối hợp bắt đầu tại [0,0] từ trên
cùng bên trái; (b) Cartesian phối hợp các khung [0,0] dưới cùng bên trái; (c)
Cartesian phối hợp các khung [0,0] tại trng tâm ảnh; (d) Mối liên hệ giữa
điểm ảnh trung tâm [x,y] dến các phần tử mẫu trong mảng phần tử I[i,j]
- Hình ảnh màu trắng đen: là một hình ảnh kỹ thuật số đơn sắc I[r, c] với
một giá trị cường độ cho mỗi điểm ảnh.
- Hình ảnh đa phổ: là một hình ảnh 2D M[x, y] trong đó có một vector của
các giá trị tại mỗi điểm không gian hoặc điểm ảnh. Nếu hình ảnh thực sự là một
hình ảnh màu sắc, sau đó các vector có 3 yếu tố.
- Hình ảnh nhị phân: là hình ảnh kỹ thuật số với tất cả các giá trị điểm ảnh 0
hoặc 1.
- Hình ảnh được dán nhãn: là một hình ảnh kỹ thuật số L[r, c] có giá trị điểm
ảnh là biểu tượng từ một bảng chữ cái hữu hạn. Giá trị biểu tượng của một điểm
ảnh biểu thị kết quả của một số quyết định cho điểm ảnh đó. Khái niệm liên quan là
hình ảnh theo chủ đề và hình ảnh màu giả.
Hệ tọa độ phải được sử dụng để giải quyết từng điểm ảnh của một hình ảnh,
hoạt động trên nó trong một chương trình máy tính, để đề cập đến nó trong một
công thức toán học, hoặc để giải quyết nó liên quan đến tọa độ thiết bị. Hệ thống
khác nhau được sử dụng trong cuốn sách này và những nơi khác được thể hiện
trong hình 2.7.
- Lượng tử hoá hình ảnh và đo lường không gian: Mỗi điểm ảnh của một hình
ảnh kỹ thuật số đại diện cho một mẫu của một số khu vực nguyên tố của các hình
Trang 25