Tải bản đầy đủ (.pdf) (78 trang)

Tìm hiểu phương pháp ghép ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.01 MB, 78 trang )
















































ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ








LUYỆN TUẤN ANH









TÌM HIỂU PHƯƠNG PHÁP
GHÉP ẢNH










LUẬN VĂN THẠC SĨ














HÀ NỘI - NĂM 2008


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ






LUYỆN TUẤN ANH






TÌM HIỂU PHƯƠNG PHÁP
GHÉP ẢNH





Ngành: Công nghệ Thông tin
Chuyên ngành: Khoa học Máy tính
Mã số: 60 48 01




LUẬN VĂN THẠC SĨ




NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Ngô Quốc Tạo











HÀ NỘI - NĂM 2008


3
MỤC LỤC


CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT 6

DANH MỤC CÁC HÌNH 7
MỞ ĐẦU 8
Chương 1 – TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ GHÉP ẢNH 10

1.1 Xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh 10
1.1.1 Xử lý ảnh là gì? 10
1.1.2 Các vấn đề cơ bản trong xử lý ảnh 12
1.1.2.1 Biểu diễn ảnh 12
1.1.2.2 Nắn chỉnh biến dạng 13
1.1.2.3 Khử nhiễu 15
1.1.2.4 Nhận dạng ảnh 15
1.2 Ảnh ghép và các phương pháp ghép ảnh 15
1.2.1 Ảnh ghép 15
1.2.2 Các phương pháp ghép ảnh cơ bản 16
Chương 2 – CÁC PHÉP CHUYỂN ĐỔI KHÔNG GIAN ẢNH 18
2.1 Định nghĩa 19
2.2 Ánh xạ xuôi 19
2.3 Ánh xạ ngược 21
2.4. Các phép chuyển đổi tuyến tính 21
2.4.1. Phép tịnh tiến 22
2.4.2. Phép quay 23
2.4.3. Phép co dãn 23
2.4.4. Phép trượt 23
2.4.5. Phép chuyển đổi kết hợp 23
2.4.6. Phép chuyển đổi ngược. 24
2.4.7. Kết luận về phép chuyển đổi tuyến tính 24
2.5. Chuyển đổi phối cảnh 25


4
2.5.1. Kết luận về phép chuyển đổi phối cảnh 25
2.5.1.1. Trường hợp 1: Hình vuông-Tứ giác 26
2.5.1.2. Trường hợp 2: Hình tứ giác-Hình vuông 27
2.5.1.3. Trường hợp 3: Hình tứ giác-Hình tứ giác 27

2.6. Chuyển đổi song tuyến 27
2.6.1. Nội suy song tuyến 28
2.6.2. Phân tách 29
2.6.3. Ánh xạ ngược 29
2.6.4. Lưới nội suy 30
2.7. Phép chuyển đổi đa thức 30
2.7.1. Phương pháp giả nghịch đảo 32
2.7.2. Bình phương cực tiểu với đa thức thường 33
2.7.3. Bình phương cực tiểu với đa thức trực giao 34
2.7.4. Bình phương cực tiểu với trọng số 37
2.8. Các phép chuyển đổi đa thức liên tục từng phần 38
2.8.1. Bề mặt phù hợp với mô hình trong nắn chỉnh hình học 38
2.8.2. Nội dung phép chuyển đổi đa thức liên tục từng phần 39
2.8.3. Phép đạc tam giác 40
2.8.4. Các mặt tam giác tuyến tính 40
2.8.5. Mặt tam giác bậc ba 41
Chương 3 – MỘT SỐ KỸ THUẬT GHÉP ẢNH 44
3.1 Ghép ảnh bằng cách trộn các điểm ảnh của các ảnh ghép 44
3.1.1 Công thức của Alvy Ray Smith và Ed Catmull 45
3.1.2 Công thức của Bruce Wallace và Marc Levoy 45
3.2 Ghép ảnh dựa vào nắn chỉnh hình học 45
3.2.1. Phương án giải quyết 45
3.2.2. Xây dựng hàm biến đổi 46
3.2.3. Phương pháp xác định sai số cho các điểm CP 47
3.2.4. Phương pháp HouseHoulder 49


5
3.2.5. Xác định các điểm điều khiển (CP) 52
3.2.6. Đánh giá sai số 53

3.3 Ghép ảnh theo phương pháp khảm (Mosaicing) 54
3.3.1. Giới thiệu 54
3.3.2. Hình học xạ ảnh 55
3.3.3. Đăng ký hình ảnh 57
3.3.3.1 Tương quan pha 57
3.3.3.2 Phương pháp dựa vào đặc trưng 59
3.3.3.3 Đăng ký ảnh toàn cục 63
3.3.4 Tái tạo hình ảnh (composing) 64
3.3.4.1 Phép chiếu (projection) 64
3.3.4.2 Hợp (blending) 64
3.3.4.3 Bù trừ phơi sáng (exposure compensation) 66
Chương 4 – ỨNG DỤNG 68
4.1 Các ứng dụng của các kỹ thuật ghép ảnh 68
4.2 Cài đặt kỹ thuật ghép ảnh dựa trên nắn chỉnh hình dạng 71
KẾT LUẬN 74
TÀI LIỆU THAM KHẢO 76
Tiếng Việt: 76
Tiếng Anh: 76
PHỤ LỤC 77


6
CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT



2-D 2- Dimension
3-D 3- Dimension
LS Least Squares
CCD Change Coupled Divice

DFT Discrete Fourier Transform
IFT Inverse Fourier Transform
FT Fourier Transform
FFT Fast Fourier Transform
IDFT Inverse Discrete Fourier Transform
DPI Dots Per Inch


7
DANH MỤC CÁC HÌNH

Hình 1.1. Các giai đoạn chính trong xử lý ảnh 11
Hình 1.2. Các thành phần chính trong hệ thống xử lý ảnh 11
Hình 1.3. Ảnh thu nhận 14
Hình 1.4. Ảnh mong muốn 14
Hình 1.5. Minh họa về việc giả mạo ảnh 16
Hình 1.6. Hai ảnh được ghép cùng tỷ lệ 50% 16
Hình 1.7. Hai ảnh được ghép với nhau dựa vào 17
hai tập các điểm đặc trưng được trọn trên 2 ảnh 17
Hình 1.8. Ảnh toàn cảnh được ghép từ 28 ảnh gốc 17
Hình 2.1. Ánh xạ xuôi 19
Hình 2.2. Mảng tích luỹ 20
Hình 2.3. Ánh x
ạ ngược 21
Hình 2.4. Một số phép nắn chỉnh tuyến tính 22
Hình 2.5. Ánh xạ tứ giác - tứ giác 26
Hình 2.6. Nội suy song tuyến 28
Hình 2.7. Nội suy song tuyến phân tách 29
Hình 2.8. Nội suy hình học của lưới nội suy 30
Hình 2.9. Các biến dạng hình học phổ biến 31

Hình 3.1. Trộn ảnh 44
Hình 3.2. Sơ đồ kỹ thuật ghép ảnh dựa vào nắn chình hình dạng 46
Hình 3.7. Sơ đồ quá trình khảm ảnh 54
Hình 3.8. Biến đổi xạ ảnh thông thường 55
Hình 3.9. Biến đổ
i xạ ảnh “single view - point” 56
Hình 3.10. Tham số hoá hình cầu 56
Hình 3.11. IDFT của chuẩn hoá độ lớn phổ 58
Hình 3.12. Các bước trích chọn đặc trưng 60
Hình 3.13. Tham số hoá logarit cực 61
Hình 3.14. Tăng cường đăng ký 62
Hình 3.15. Đặc trưng trong ảnh bên trái và bên phải 62
Hình 3.16. Kết quả đăng ký 62
Hình 3.17. Một số hình ảnh đã đăng ký 65
Hình 3.18. Ảnh tái tạo hợp và không hợp 66
Hình 4.1. Ảnh ghép được tạo ra bằng việc trộn các điểm ảnh c
ủa hai ảnh vào
nhau với một tỷ lệ nhất định gọi là tỷ lệ trộn alpha. 68
Hình 4.2. Ghép ảnh bản đồ 70
Hình 4.3. Ghép ảnh toàn cảnh 71


8
MỞ ĐẦU


Ngày nay, với sự phát triển mạnh mẽ của ngành Khoa học máy tính cũng
như sự bùng nổ của lĩnh vực Công nghệ thông tin đã đẩy nhanh sự phát triển của
nhiều lĩnh vực như quân sự, y học, giáo dục, kinh tế, giải trí v.v Sự phát triển
của phần cứng cả về phương diện thu nhận, hiển thị, cùng với tốc độ xử lý đã mở

ra nhi
ều hướng mới cho sự phát triển phần mềm, đặc biệt là Công nghệ xử lý ảnh
đã ra đời và phát triển nhanh. Sức mạnh của các phần mềm soạn thảo và xử lý
ảnh như Photoshop đã giúp cho việc tạo ra ảnh ghép ngày càng dễ dàng hơn.
Người ta tạo ra các ảnh ghép thường nhằm vào các mục đích như tạo ra các ảnh
có độ phân giải cao như ảnh bản đồ, tạo ra ảnh nghệ
thuật, tạo hình ảnh trong
phim hoạt hình, tái tạo hình ảnh tội phạm từ những mô tả v.v Do vậy, việc tạo
ra ảnh ghép là vấn đề phải đặt ra ngày càng cấp bách và càng trở nên khó khăn.
Mặc dù nhu cầu về việc ghép ảnh số đã được công nhận bởi cộng đồng các
nhà nghiên cứu, nhưng hiện nay rất ít tài liệu có giá trị về lĩnh vực này. Trong
thực tế, người ta thường có tấ
m ảnh bản đồ to, hay một chuỗi các biến đổi ảnh
con dê Æ ảnh con gà Æ ảnh con hổ Æ ảnh người đàn bà, hay những bức ảnh
toàn cảnh có góc xem rộng hơn so với một tập ảnh gốc. Ngày nay nhờ sự phát
triển của khoa học kỹ thuật, người ta đã lưu trữ những bức ảnh trên trong máy
tính. Vậy làm sao để có thể chuyển được những b
ức ảnh này vào máy tính?
Người ta dùng scanner để quét bản đồ vào máy tính, những bức ảnh riêng rẽ
của bức ảnh toàn cảnh được chụp từ máy ảnh. Tuy nhiên, scanner không thể quét
được cả một bản đồ to mà nó chỉ quét được từng phần và máy ảnh không thể
chụp được những bức ảnh có góc xem rộng tuỳ ý mà phụ thuộc vào thấu kính
của chúng. Vấn đề đặt ra là làm cách nào có thể ghép các phần ghép vào với
nhau để thành m
ột bản đồ đúng và những bức ảnh nhỏ vào với nhau để thành
một ảnh toàn cảnh có góc xem rộng.
Trên đây đã điểm qua tầm quan trọng của vấn đề ghép ảnh và điều đó cho ta
thấy rõ tính cần thiết cũng như tính thời sự đồng thời là ý nghĩa khoa học và thực
tiễn của vấn đề. Nhận thức được điều này, tôi đ
ã chọn đề tài: “Tìm hiểu phương

pháp ghép ảnh” cho luận văn của mình.

Bố cục của luận văn bao gồm phần mở đầu, phần kết luận và ba chương nội
dung được tổ chức như sau:
Chương 1: Tổng quan về xử lý ảnh và ghép ảnh


9
Chương này trình bày tổng quan về một hệ thống xử lý ảnh, các vấn đề cơ
bản trong xử lý ảnh, đồng thời trình bày tổng quan về ghép ảnh, cụ thể là các
dạng ảnh ghép cơ bản cùng các cách tiếp cận chính ghép ảnh.
Chương 2: Các phép biến đổi không gian ảnh
Chường này trình bày các cơ sở toán học của các phép biến đổi không gian
thường được sử dụng trong xử lý ảnh.
Chương 3: Một s
ố phương pháp ghép ảnh
Chương này trình bày một số kỹ thuật ghép ảnh như: ghép ảnh bằng cách
trộn các điểm ảnh, ghép ảnh bằng cách nắn chỉnh hình dạng và ghép ảnh bằng
cách khảm ảnh (image mosaicing) để tạo ra ảnh toàn cảnh (panorama).
Chương 4: Ứng dụng
Trình bày ứng dụng của các phương pháp ghép ảnh và sử dụng Visual C++
cài đặt hai phương pháp ghép ảnh đó là phương pháp trộn đ
iểm ảnh và phương
pháp ghép ảnh dựa vào nắn chỉnh hình học.
Kết luận
Trình bày các kết quả đã đạt được của luận văn và đưa ra hướng pháp triển



















10
Chương 1 –
TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ GHÉP ẢNH


Chương này trình bày tổng quan về một hệ thống xử lý ảnh, các vấn đề cơ bản
trong xử lý ảnh, đồng thời trình bày tổng quan về ghép ảnh, cụ thể là các dạng ảnh
ghép cơ bản cùng với các cách tiếp cận chính để ghép ảnh.

1.1 Xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh
1.1.1 Xử lý ảnh là gì?
Xử lý ảnh là một khoa học tương đối mới mẻ so với nhiều ngành khoa học
khác, nhất là trong quy mô công nghiệp, song trong xử lý ảnh đã bắt đầu xuất hiện
những máy tính chuyên dụng. Để có thể hình dung cấu hình một hệ thống xử lý ảnh
chuyên dụng hay một hệ thống xử lý ảnh dùng trong nghiên cứu, đào tạo, trước hết
chúng ta sẽ xem xét các bước cần thiết trong xử lý ảnh.

Trướ
c hết là quá trình thu nhận ảnh. Ảnh có thể thu nhận qua camera.
Thường ảnh thu nhận qua camera là tín hiệu tương tự (loại camera ống kiểu
CCIR), nhưng cũng có thể là tín hiệu số hóa (loại CCD-Change Coupled
Device).
Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng (sensor), hay ảnh,
tranh được quét trên scanner. Tiếp theo là quá trình số hóa để biến đổi tín hiệu
liên tục sang tín hiệu rời rạc (lấy mẫu) và số hóa bằng lượng hóa, trướ
c khi
chuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại.
Quá trình phân tích ảnh bao gồm nhiều công đoạn nhỏ. Trước hết là công
việc tăng cường ảnh để nâng cao chất lượng ảnh. Do những nguyên nhân khác
nhau: có thể do chất lượng thiết bị thu nhận ảnh, do nguồn sáng hay do nhiễu,
ảnh có thể bị suy biến. Do vậy cần phải tăng cường và khôi phục lại ảnh để làm
nổi bậ
t một số đặc tính chính của ảnh, hay làm cho ảnh gần giống nhất với trạng
thái gốc – trạng thái trước khi ảnh bị biến dạng. Giai đoạn tiếp theo là phát hiện
các đặc tính như biên, phân vùng ảnh, trích chọn các đặc tính, v.v
Cuối cùng, tùy theo mục đích của người sử dụng, sẽ là giai đoạn nhận dạng,
phân lớp hay các quyết định khác. Các giai đoạn chính trong quá trình xử lý ảnh
được mô tả qua hình 1.1[1].


11


Hình 1.1. Các giai đoạn chính trong xử lý ảnh

Với các giai đoạn trên, một hệ thống xử lý ảnh gồm các thành phần tối thiểu
như hình sau:


Hình 1.2. Các thành phần chính trong hệ thống xử lý ảnh

• Đối với một hệ thống xử lý ảnh thu nhận qua camera - camera như là con mắt
của hệ thống. Có 2 loại camera: camera ống loại CCIR và camera CCD. Loại
camera ứng với chuẩn CCIR quét ảnh với tần số 1/25 và mỗi ảnh gồm 625
dòng. Loại CCD gồm các photo điốt và làm tương ứng một cường độ sáng tại
Thu nhận
(Camera, scanner,
sensor, )
Tiền xử lý
(Nắn chỉnh, xóa
nhiễu, )
Trích chọn
đặc trưng
Hậu xử lý
(Chính xác hóa, rút
gọn, )

Kết luận
Lưu trữ
Hệ quyết định
Máy in
Bộ nhớ
ngoài
Camera
Màn hình Bàn phím
Máy chủ
Bộ xử lý
ảnh số

Bộ nhớ ảnh
Bộ xử lý
tương tự
Màn hình
đồ họa


12
một điểm ảnh với một phần tử ảnh (pixel). Như vậy, ảnh là tập hợp các điểm
ảnh. Số pixel tạo nên một ảnh gọi là độ phân giải.
• Bộ xử lý tương tự thực hiện các chức năng sau:
• Chọn camera thích hợp nếu hệ thống có nhiều camera.
• Chọn màn hình hiển thị tín hiệu.
• Thu nhận tín hiệu video b
ởi bộ số hóa. Thực hiện lấy mẫu và mã hóa.
• Tiền xử lý ảnh khi thu nhận: dùng kỹ thuật bảng tra (Look Up Table).
• Bộ xử lý ảnh số gồm nhiều bộ xử lý chuyên dụng: xử lý lọc, trích chọn đường
bao, nhị phân hóa ảnh.
• Máy chủ đóng vai trò điều khiển các thành phần miêu tả ở trên.
• Bộ nhớ ngoài: Dữ liệu ảnh cũng như các d
ữ liệu khác, để có thể chuyển giao
cho các quá trình khác, nó cần được lưu trữ.
 Các khái niệm cơ bản trong xử lý ảnh
Điểm ảnh (pixel): Biểu diễn cường độ sáng hay một dấu hiệu nào đó tại
một tọa độ nào đó của đối tượng trong không gian. Điểm ảnh là một hàm nhiều
biến P(x
1
, x
2
, , x

n
) trong đó n là số chiều của ảnh.
Ảnh: là một tập hợp các điểm ảnh, thông thường được biểu diễn dưới dạng
ma trận các điểm ảnh.
Mức xám: là kết quả của sự mã hóa tương ứng một cường độ sáng của một
điểm ảnh với một giá trị số - kết quả của quá trình lượng hóa. Cách mã hóa kinh
điển th
ường dùng 16, 32 hay 64 mức.
Biểu đồ tần suất: Biều đồ tần suất của một mức xám g của ảnh I là số điểm
ảnh của I có mức xám g.
1.1.2 Các vấn đề cơ bản trong xử lý ảnh
1.1.2.1 Biểu diễn ảnh
Ảnh được thu nhận từ các thiết bị thu nhận ảnh. Sau khi thu nhận, ảnh được
lưu trữ trên máy tính. Quá trình lưu trữ gồm 2 mục đích: tiết kiệm bộ nhớ và
giảm thời gian xử lý.
Ảnh được lưu trữ trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in ấn
và xử lý. Ảnh là tập hợp các điể
m ảnh có cùng kích thước do đó nếu sử dụng
càng nhiều điểm ảnh thì ảnh càng mịn càng đẹp và càng thể hiện rõ hơn chi tiết


13
của ảnh, người ta gọi đặc điểm này là độ phân giải. Việc lựa chọn độ phân giải
phụ thuộc vào nhu cầu sử dụng và đặc trưng của từng loại ảnh cụ thể. Chẳng
hạn, ảnh dùng trong văn bản thường thể hiện dưới dạng đen trắng có độ phân
giải 300 DPI, ảnh bản vẽ, bản đồ có độ phân giải 200DPI.
Trên c
ơ sở đó, các ảnh được biểu diễn theo 2 mô hình cơ bản là RASTER
và VECTOR.
Mô hình RASTER:

Theo mô hình này, ảnh được biểu diễn dưới dạng ma trận các điểm ảnh.
Tùy theo yêu cầu thực tế mà mỗi điểm ảnh được biểu diễn bằng một hoặc
nhiều bít.
Ngày nay thiết bị phần cứng phát triển nhưng chủ yếu là theo định hướng
Raster cho cả thiết bị đầu vào c
ũng như đầu ra. Ví dụ: máy in, máy quét v.v
Một trong những nghiên cứu chủ yếu trong mô hình raster là kỹ thuật nén
ảnh, chia ra 2 khuynh hướng là nén bảo toàn và nén không bảo toàn thông tin.
Nén bảo toàn thông tin là có khả năng phục hồi hoàn toàn dữ liệu ban đầu. Nén
không bảo toàn thông tin là có khả năng phục hồi dữ liệu ban đầu nhưng với sai
số chấp nhận được. Trên cơ sở đó người ta đã xây dựng được nhiều khuôn dạng
ảnh khác nhau: *.pcx, *.tif, *.gif, *.jpg, *.jpeg, v.v
Mô hình VECTOR:

nh lưu trữ trên máy tính ngoài yêu cầu về giảm không gian lưu trữ, thời
gian xử lý, dễ dàng cho hiển thị và in ấn còn phải đảm bảo dễ dàng trong lựa
chọn, sao chép, di chuyển và tìm kiếm. Theo những yêu cầu này, kỹ thuật biểu
diễn Vector tỏ ra ưu việt hơn.
Trong mô hình Vector, ảnh được biểu diễn bởi các điểm ảnh và các đường
thể hiện hướng của một điểm. Ả
nh dạng Vector được thu nhận từ các thiết bị
như sensor, digitalier, v.v
Ngày nay, các thiết bị phần cứng phát triển mạnh theo hướng Raster cho cả
đầu vào và đầu ra nên một trong những nghiên cứu chủ yếu của mô hình Vector
là tập trung cho chuyển đổi từ ảnh Raster sang ảnh Vector.
1.1.2.2 Nắn chỉnh biến dạng
Ảnh thu được sau quá trình thu nhận thường bị biến dạng do những thiết bị
quang học và điện tử. Do đ
ó cần phải có khâu nắn chỉnh biến dạng.




14





Hình 1.3. Ảnh thu nhận






Hình 1.4. Ảnh mong muốn
Để nắn chỉnh biến dạng ta dựa vào tập các điểm điều khiển
'
( , ) ( 1, , ).
ii
PP i n=
Cần tìm hàm:
:()
ii
f
PfP→
sao cho:
2
'
1

() min
n
ii
i
fP P
=
−→


Giả sử ảnh bị biến đổi chỉ bao gồm: Tịnh tiến, quay, tỷ lệ, biến dạng bậc
nhất tuyến tính. Khi đó hàm f có dạng:
f (x, y) = (a
1
x + b
1
y + c
1
, a
2
x + b
2
y + c
2
)
Ta có:

Để cho Φ Æ min





15
Giải hệ phương trình tuyến tính tìm được a
1
, b
1
, c
1

Tương tự tìm được a
2
, b
2
, c
2
Æ Xác định được hàm f
1.1.2.3 Khử nhiễu
Trong quá trình thu nhận ảnh không thể tránh khỏi bị nhiễu. Có 2 loại nhiễu
cơ bản:
- Nhiễu hệ thống: là loại nhiễu gây ra bởi hệ thống, như vết xước hoặc
nguồn sáng ngoại lai. Loại nhiễu này có tính chất chu kỳ và có thể dễ khắc phục
bằng các phép biến đổi.
- Nhiễu ngẫu nhiên: là các vết bẩn không rõ nguyên nhân. Loại nhiễu này
th
ường khó khử, tùy vào từng ảnh cụ thể mà có cách khắc phục. Thông thường
sử dụng các phép lọc.
1.1.2.4 Nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta
muốn đặc tả nó. Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc
tính chủ yếu của đối tượng. Có hai kiểu mô tả đối tượng:

- Mô tả tham số (nhận dạng theo tham số).
- Mô tả theo c
ấu trúc (nhận dạng theo cấu trúc).
Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công với
nhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ (chữ cái,
chữ số, chữ có dấu).
Nhận dạng chữ in hoặc đánh máy phục vụ cho việc tự động hóa quá trình đọc
tài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính.
Nhận dạng chữ viết tay (với mức độ ràng buộc khác nhau về cách viết, kiểu
chữ, v.v ) phục vụ cho nhiều lĩnh vực.
Ngoài hai kỹ thuật nhận dạng trên, hiện nay một kỹ thuật nhận dạng mới
dựa vào kỹ thuật mạng nơron đang được áp dụng và cho kết quả khả quan.
1.2 Ảnh ghép và các phương pháp ghép ảnh
1.2.1 Ảnh ghép
Ảnh ghép được xem là ảnh không có thật, vi
ệc có được ảnh là do sự ngụy
tạo bởi các chương trình xử lý ảnh hoặc quá trình thu nhận ảnh.
Sức mạnh của các chương trình xử lý ảnh số như PhotoShop, Corel Draw,
v.v giúp việc tạo ra các ảnh ghép từ một hay nhiều ảnh khác nhau trở nên dễ
dàng. Một trong những ví dụ cho việc ghép ảnh này là hình 1.3. Hình này được


16
tạo lập từ 3 bức ảnh: Nhà trắng, Bill Clinton và Saddam Hussein. Bill Clinton và
Saddam Hussein được cắt và dán vào bức ảnh Nhà trắng. Các hiệu ứng về bóng
và ánh sáng cũng được tạo ra làm cho bức ảnh nhìn có vẻ hoàn toàn như thật.

Hình 1.5. Minh họa về việc giả mạo ảnh

1.2.2 Các phương pháp ghép ảnh cơ bản

Ghép ảnh thường chia làm hai loại chính. Loại thứ nhất là ghép ảnh trong
(Transparent Image Merging), tức là các vùng ảnh được ghép với nhau một cách
trong suốt, chúng ta có thể quan sát được tất cả các vùng ảnh của các ảnh ghép.
Loại thứ hai là ghép ảnh đục (Opaque Image Merging) là các phần ghép thêm
vào thì che đi các vùng trên ảnh bị ghép.
Ghép ảnh trong bao gồm các kỹ thuật sau: Trộn ảnh thông thường với một
tỷ lệ nào đó (Hình 1.5 Hai ả
nh được ghép với nhau với cùng tỷ lệ 50%); Ghép
ảnh dựa vào nắn chỉnh hình dạng (Hình 1.6 Hai ảnh được ghép với nhau dựa vào
các phép nắn chỉnh theo hai tập các điểm đặc trưng được trọn trên 2 ảnh).








Hình 1.6. Hai ảnh được ghép cùng tỷ lệ 50%


17









Hình 1.7. Hai ảnh được ghép với nhau dựa vào
hai tập các điểm đặc trưng được trọn trên 2 ảnh
Ghép ảnh đục bao gồm các kỹ thuật sau: kỹ thuật để tạo ra ảnh toàn cảnh
(panorama) hay image mosaicing (Khảm ảnh), kỹ thuật ghép ảnh bản đồ. Trong
ví dụ ở dưới ảnh toàn cảnh được tạo ra từ 28 ảnh nhỏ khác [10].








Hình 1.8. Ảnh toàn cảnh được ghép từ 28 ảnh gốc






18
Chương 2 –
CÁC PHÉP CHUYỂN ĐỔI KHÔNG GIAN ẢNH

Vấn đề cơ bản của các phép chuyển đổi hình học là ánh xạ từ một hệ toạ độ
này sang một hệ toạ độ khác. Đó chính là phép chuyển đổi không gian. Phép
chuyển đổi không gian là một hàm ánh xạ thiết lập một không gian tương ứng
giữa tất cả các điểm trong ảnh và ảnh đã biến đổi. Cho một phép chuyển đổi
không gian, mỗi một điểm ở
ảnh đầu ra sẽ có một điểm tương ứng ở ảnh đầu

vào.
Tuỳ thuộc vào các ứng dụng, các hàm ánh xạ chuyển đổi không gian sẽ có
công thức khác nhau. Các phép chuyển đổi cơ bản bao gồm affine, chiếu, song
tuyến và chuyển đổi đa thức. Các hàm ánh xạ phức tạp hơn có thể được xác định
từ các điểm điều khiển (control points) rời rạc mà trong đ
ó không gian tương
ứng đã biết.
Các công thức cơ bản đề cập tới ở đây là các phép chuyển đổi ma trận
thuần nhất. Có hai lớp ánh xạ không gian hai chiều đồng phẳng: Chuyển đổi
tuyến tính (affine transformations) và chuyển đổi phối cảnh (perspective
transformations). Những biến đổi không đồng phẳng phổ biến hơn đối với phép
chuyển đổi tuyến tính là các phép biến đổi song tuyến (bilinear
transformations). Sau đây sẽ đề cập tới đặc tính hình học của ba phép chuyển
đổi này và điểm qua các công thức toán học cần thiết cho phép chuyển đổi
ngược và đưa ra các kết luận về các ánh xạ này.
Trong nhiều trường hợp, biến dạng ảnh thường được đặc trưng bởi phép
chuyển đổi đa thức. Nó phổ biến trong các ứng dụng hiệu chỉnh hình học
(geometric correction), trong đ
ó các mô hình biến dạng không gian thích hợp
với đa thức bậc thấp. Điều quang trọng ở đây là phải đưa ra được các hệ số của
đa thức một cách chính xác. Trong phần này sẽ giới thiệu một vài phương pháp
phân tích số để giải ra các hệ số này. Trường hợp biến dạng cục bộ người ta sử
dụng phép chuyển đổi đa thức liên tục từng đ
oạn. Nó cho phép các hệ số biến
thiên trong khoảng nào đó.
Trong trường hợp tổng quát, biểu diễn dưới dạng bề mặt nội suy để đưa ra
cái nhìn sâu sắc hơn đối với vấn đề này (và các giải pháp của nó). Cái nhìn rộng
lớn hơn này xuất phát từ nhận thức rằng các hàm ánh xạ có thể biểu diễn như là
hai bề mặt, mỗi bề mặt gắn với một song ánh giữ
a các điểm hai chiều trong ảnh

gốc và ảnh nắn chỉnh. Cách tiếp cận này làm đơn giản hoá việc sử dụng hàm ánh


19
xạ phức tạp hơn các hàm đa thức. Sau đây sẽ đề cập tới các thuật toán nội suy bề
mặt.
2.1 Định nghĩa
Phép chuyển đổi không gian xác định mối quan hệ hình học giữa các điểm
ở ảnh đầu vào và ảnh đầu ra. Ảnh đầu vào bao gồm toàn bộ các điểm tham chiếu
mà toạ độ của nó được biết trước một cách chính xác. Ảnh đầu ra gồm thông tin
về các điểm quan sát tức là các điểm đã được nắn chỉnh (warped data). Hàm ánh
xạ tổng quát có thể có hai dạng: quan hệ giữa hệ toạ độ vào với hệ toạ độ ra và
ngược lại. Nói một cách khác ta có thể biểu diễn hàm ánh xạ dưới dạng sau:
[x, y] = [X(u, v), Y(u, v)]
hoặc
[u, v] = [U(x, y), V(x, y)]
trong đó [u, v] là toạ độ của ảnh đầu vào tương ứng với điểm ảnh [x, y] ở
đầu ra.
X, Y, U và V là các hàm ánh xạ tuỳ ý xác định phép chuyển đổi không gian duy
nhất. Nếu X và Y ánh xạ đầu vào thành đầu ra, ta có ánh xạ xuôi. Ta có ánh xạ
ngược khi U và V ánh xạ các điểm đầu ra thành đầu vào.
2.2 Ánh xạ xuôi







Hình 2.1. Ánh xạ xuôi

Ánh xạ xuôi là ánh xạ các điểm ảnh vào thành các điểm ảnh đầu ra tại các
vị trí được xác định bởi hàm ánh xạ X, Y. Mỗi một điểm ảnh đầu vào qua các
phép chuyển đổi không gian tạo nên giá trị toạ độ mới. Toạ độ các điểm ảnh bao
giờ cũng là các số nguyên nhưng khi qua phép chuyển đổi không gian thì chúng
có giá trị thực. Vì vậy các điểm ảnh vào được ánh xạ từ t
ập các số nguyên sang
tập các số thực.
Trong miền liên tục, các điểm ảnh được coi như các điểm, hàm ánh xạ là
ánh xạ xuôi. Tuy nhiên, trong miền rời rạc, các điểm ảnh được xem như là các
phần tử hữu hạn nằm trên dãy số nguyên. Như vậy sẽ gây ra tính không tương
thích khi thực hiện phép chuyển đổi không gian mà nó được coi là ánh xạ điểm
thành điểm. Nếu vậy thì gặp phả
i hai vấn đề: lỗ (holes) và phần đè lên nhau
(overlaps). Lỗ là vị trí các điểm ảnh không được xác định. Vấn đề này xảy ra khi


20
ánh xạ liên tục các mẫu vào sang các vị trí rời rạc ở đầu ra. Chẳng hạn như trong
hình thì E’ là lỗ. Ngược lại phần đè lên nhau xảy ra khi một loạt các mẫu vào
ánh xạ tới một điểm ảnh ra như trong hình là điểm F’. Điều này thường xảy ra
do các phép làm tròn số trong hàm ánh xạ hoặc do ánh xạ nhiều - một từ đầu vào
tới đầu ra.
Các lỗi của ánh xạ điể
m - điểm có thể tránh được nếu sử dụng ánh xạ 4 góc
(four-corner mapping). Coi các điểm ảnh vào như là một mặt hình vuông và ta
ánh xạ hình vuông này thành một hình bốn cạnh tuỳ ý ở đầu ra. Nó cho các điểm
vẫn liên tục sau phép ánh xạ.
Do các mẫu vào sau phép ánh xạ nó có thể nằm ở bất kỳ vị trí nào ở đầu ra
nên các điểm ảnh đầu vào sau phép ánh xạ có thể nằm trên một vài điểm ả
nh

hoặc nằm gọn trong một điểm ảnh nào đó. Hai trường hợp này được đưa ra trong
hình sau:







Hình 2.2. Mảng tích luỹ
Như vậy cần phải có một mảng tích luỹ để tổ hợp các sự đóng góp của đầu
vào tại mỗi điểm ảnh ra. Do đó, phải xác định các đoạn đóng góp tại mỗi điểm
ảnh ra và tổ hợp tất cả các đoạn đóng góp. Các đóng góp cục bộ ( từng phần)
được xử lý bằng cách lấy tỷ lệ cường độ
đầu vào với phần của điểm ảnh được
che phủ. Như vậy phải có các điểm tra giao để tính độ che phủ. Mỗi một vị trí
trong mảng tích luỹ được định giá là

=
N
i
ii
fw
0
, trong đó f
i
là giá trị đầu vào, w
i

trọng số phản ánh độ che phủ của nó tại đầu ra, N là tổng số các điểm tích luỹ tại

điểm ảnh ra này.
Ánh xạ bốn góc cho phép tránh được lỗ trên các ảnh ra. Tuy nhiên, mô hình
này dẫn tới hai vấn đề trong quá trình ánh xạ xuôi. Đầu tiên, giá phải trả cho
việc kiểm tra phần giao phải dựa trên trọng số. Thứ hai, sự phóng to có thể là
nguyên nhân của việc cùng một điểm vào được ánh xạ thành nhiề
u điểm ra trừ
khi ta thêm vào các điều kiện lọc.
Cả hai vấn đề trên có thể được giải quyết lại bằng cách lấy mẫu phù hợp đầu vào
dựa trên kích thước của hình tứ giác được chiếu. Nói một cách khác, nếu các



21
điểm ảnh vào được ánh xạ thành một vùng trên ảnh ra thì lặp lại việc chia nhỏ
điểm ảnh vào cho đến khi vùng chiếu đạt tới một giới hạn nhỏ nhất chấp nhận
được, chẳng hạn là một điểm ảnh. Khi tỷ lệ mẫu tăng, trọng số hội tụ tới một giá
trị đơn.
Mẫu đồng dạng của ảnh vào không đả
m bảo mẫu đồng dạng của ảnh ra trừ
khi X và Y là ánh xạ tuyến tính. Đối với ánh xạ phi tuyến (phối cảnh hoặc song
tuyến….) thì mẫu vào phải được lấy theo một tỷ lệ của sự biến đổi không gian.
Một cách tổng quát, ánh xạ xuôi rất có lợi khi ảnh vào được đọc liên tục hoặc
khi nó không chiếm toàn bộ bộ nhớ.
2.3 Ánh xạ ngược








Hình 2.3. Ánh xạ ngược
Ánh xạ ngược ánh xạ các toạ độ ra thành toạ độ vào qua hàm U và V. Hình
vẽ trên cho thấy ánh xạ ngược. Mỗi một điểm ở đầu ra được ánh xạ ngược lại
thành điểm ở đầu vào qua hàm ánh xạ chuyển đổi không gian. Các điểm ảnh ở
đầu ra có giá trị toạ độ là các số nguyên. Nó được ánh xạ thành các điểm ở đầu
vào có giá trị thực. Như vậy phải có mộ
t bước nội suy để lấy ra các giá trị vào ở
các vị trí không xác định.
Không giống như ánh xạ xuôi điểm-điểm, ánh xạ ngược đảm bảo tất cả các
điểm ra đều được tính. Do vậy, nó hay được dùng để lấp lỗ của ảnh sau khi nắn
chỉnh.
Nói chung, các hàm ánh xạ xuôi và ngược được sử dụng trong hiệu chỉnh
hình học và biến dạng hình học. Nó được thể hiệ
n dưới nhiều công thức khác
nhau. Sau đây sẽ đề cập tới một số công thức này dùng cho các phép chuyển đổi
không gian.
2.4. Các phép chuyển đổi tuyến tính.
Rất nhiều phép chuyển đổi không gian đều sử dụng ma trận chuyển đổi T
3x3. Ở đây, chỉ đề cập tới các phép chuyển đổi ảnh hai chiều tức là ánh xạ gữa
hai hệ toạ độ uv và xy. Trong trường hợp tổng quát, ta có:
[x’, y’, w’] = [x, y, w]T


22
trong đó











=
333231
232221
131211
aaa
aaa
aaa
T

Ma trận này chứa đựng các phép co dãn (scaling), trượt (shearing), quay
(rotation), tịnh tiến (translation) và phối cảnh trong ảnh hai chiều
Cách biểu diễn tổng quát của phép chuyển đổi tuyến tính là:
[][]










=

1
0
0
1,,1,,
3231
2232
1211
aa
aa
aa
vuyx

Ánh xạ tuyến tính được đặc trưng bởi ma trận chuyển đổi trong đó cột cuối
cùng tương đương với [0, 0, 1]
T
. Nó tương ứng với mặt phẳng chiếu song song
(parallet plane projecion) hoặc trực giao (orthographic) từ mặt phẳng nguồn uv
sang mặt phẳng đích xy. Ánh xạ tuyến tính bảo toàn tính song song của các
đường thẳng, cho phép ta tránh được các trục bị ngắn lại khi biểu diễn chiếu hai
chiều. Hơn thế nữa nó còn bảo toàn tính cách đều nhau của các điểm (mặc dù
khoảng cách này trong hai hệ toạ độ thực sự là khác nhau). Ánh xạ tuy
ến tính
chứa đựng ánh xạ mặt phẳng. Chẳng hạn, nó ánh xạ tam giác thành tam giác.
Tuy nhiên nó không đủ tổng quát để ánh xạ tứ giác thành tứ giác.
Đối với phép chuyển đổi tuyến tính, các hàm ánh xạ xuôi sẽ là:
x = a
11
u + a
12
v + a

13
y = a
21
u + a
22
v + a
23






Hình 2.4. Một số phép nắn chỉnh tuyến tính
Nó bao gồm các phép tịnh tiến, co dãn và trượt. Sau đây sẽ đề cập tới một số
trường hợp đặc biệt của phép chuyển đổi tuyến tính và các đặc tính của chúng.
2.4.1. Phép tịnh tiến
Tất cả các điểm được dịch tới vị trí mới bằng cách cộng thêm T
u
và T
v
vào
u và v. Phép chuyển đổi tịnh tiến như sau:



23
[][]











=
1
010
001
1,,1,,
vu
TT
vuyx

2.4.2. Phép quay
Tất cả các điểm trong mặt phẳng uv được quay quanh gốc theo ngược chiều
kim đồng hồ một góc là
θ
.
[][]











−=
100
0cossin
0sincos
1,,1,,
θθ
θθ
vuyx

2.4.3. Phép co dãn
Tất cả các điểm được co dãn bởi hệ số co dãn S
u
và S
v
cho toạ độ u và v.
Phép co dãn phóng to (thu nhỏ) được xác định bởi hệ số co dãn dương và ảnh
thu được sẽ lớn hơn (nhỏ hơn) ảnh ban đầu. Hệ số co dãn âm dẫn tới ảnh đối
xứng, chẳng hạn như ảnh phản chiếu. Hệ số co dãn không đều nhau thì dẫn tới
ảnh bị méo.
[][]











=
100
00
00
1,,1,,
v
u
S
S
vuyx

2.4.4. Phép trượt
Toạ độ co dãn được mô tả ở trên liên quan tới số hạng nằm trên đường chéo
a
11
và a
22
. Xét trường hợp a
11
= a
22
=1 và a
21
=0. Nếu a
12
≠ 0, x sẽ độc lập tuyến
tính đối với u và v trong khi y vẫn phụ thuộc v. Phép toán tương tự được áp

dụng với trục v để tính giá trị mới cho y trong khi x vẫn không bị thay đổi. Kết
quả là ta có phép trượt. Phép trượt dọc theo trục u là:
[][]










=
100
01
001
1,,1,,
v
Hvuyx

H
v
tạo cho x độc lập tuyến tính với v. Tương tự, trượt dọc theo trục v là:
[][]











=
100
010
01
1,,1,,
u
H
vuyx

2.4.5. Phép chuyển đổi kết hợp
Ta có thể kết hợp nhiều phép chuyển đổi thành một phép chuyển đổi kết
hợp đơn. Sau đây là ví dụ về cách biểu diễn chuyển đổi kết hợp của các phép
tịnh tiến rồi đến quay rồi đến co dãn.


24
[x, y, 1]=[u, v, 1]M
comp
, trong đó
































=
100
00
00
100

0cossin
0sincos
1
010
001
v
u
vu
comp
S
S
TT
M
θθ
θθ

()()










+−
−=
1cossinsincos

0cossin
0sincos
θθθθ
θθ
θθ
vuvvuu
vu
vu
TTSTTS
SS
SS

2.4.6. Phép chuyển đổi ngược.
Theo như trên, ánh xạ xuôi là ánh xạ từ mặt phẳng có hệ toạ độ uv sang mặt
phẳng có hệ toạ độ xy. Như vậy ánh xạ ngược sẽ là ánh xạ từ mặt phẳng có hệ
toạ độ xy sang mặt phẳng có hệ toạ độ uv nghĩa là từ mặt phẳng đích sang mặt
phẳng nguồn.
Hàm ánh xạ ngược có dạng sau:
[][]










=

1
0
0
1,,1,,
3231
2221
1211
AA
AA
AA
yxvu

2.4.7. Kết luận về phép chuyển đổi tuyến tính.
Một phép chuyển đổi tuyến tính có sáu bậc tự do, quan hệ trực tiếp với sáu
hệ số a
11
, a
21
, a
31
, a
12
, a
22
và a
32
. Nếu coi ánh xạ tuyến tính tương đương với việc
mô tả các phép chuyển đổi thì sáu hệ số này lấy được từ toạ độ tương ứng của ba
điểm không thẳng hàng hoặc ba điểm độc lập tuyến tính trên hai ảnh. Giả sử (u
k

,
v
k
) và (x
k
, y
k
) với k = 0, 1, 2 là ba điểm trên ảnh tham chiếu và ảnh quan sát.
Phương trình sau sẽ biểu diễn mối quan hệ giữa chúng dưới dạng phương trình
ma trận. Sáu hệ số của ánh xạ tuyến tính được xác định bằng cách giải hệ sáu
phương trình tuyến tính trong phương trình sau:





















=










0
0
0
1
1
1
1
1
1
3231
2221
1211
22
11
00
22
11
00

aa
aa
aa
vu
vu
vu
yx
yx
yx

Viết gọn lại ta có X = UA.
Để xác định các hệ số, ta phải giải A: A = U
-1
X.
Như vậy, ở đây phải tính ma trận nghịch đảo U
-1
.

Khi có nhiều hơn ba điểm thì ma trận U là không vuông và ta xác định xấp
xỉ các hệ số bằng giải hệ phương trình quá xác định (overdetermined). Trong
trường hợp này, ma trận U không phải là 3x3 mà là ma trận không vuông với số
hàng nhiều hơn số cột. Do vậy phải dùng phương pháp bình phương cực tiểu để
giải.


25
Như vậy, chỉ cần ba điểm là đủ để kết luận ánh xạ tuyến tính. Về cơ bản, nó
có thể ánh xạ một tam giác vào thành một tam giác tuỳ ý ở đầu ra. Một hình chữ
nhật vào có thể được ánh xạ thành hình bình hành ở đầu ra. Biến dạng tổng quát
thì không thể dùng được chuyển đổi tuyến tính. Chẳng hạn, ánh xạ một hình chữ

nhật vào thành một hình tứ giác tuỳ ý đòi h
ỏi chuyển đổi phối cảnh, song tuyến
hoặc các phép chuyển đổi phức tạp khác.
2.5. Chuyển đổi phối cảnh
Biểu diễn tổng quát của phép chuyển đổi phối cảnh là.
[][]










=
333231
232221
131211
,,',','
aaa
aaa
aaa
wvuwyx
trong đó x=x’/w’ và y=y’/w’.
Khi [a
13
a
23

]
T
khác 0, ta có phép chuyển đổi phối cảnh. Chuyển đổi phối
cảnh bảo toàn tính song song của các đường thẳng khi chúng song song với mặt
phẳng chiếu. Trong các trường hợp khác, các đường thẳng hội tụ. Phép chuyển
đổi này có tính chất là làm khoảng cách giữa các đường thẳng ngắn lại. Đó là
một trong các kỹ thuật để biểu hiện những ảnh thật. Hàm ánh xạ xuôi của phép
chuyển đổi phối cảnh là.
332313
312111
'
'
avaua
avaua
w
x
x
++
+
+
== ,
332313
322212
'
'
avaua
avaua
w
y
y

++
+
+
==
w’ được phép biến thiên tại mỗi điểm. Chia cho w’ tương đương với phép chiếu
sử dụng các tia qua gốc. Chuyển đổi tuyến tính là trường hợp đặc biệt của
chuyển đổi phối cảnh trong đó w’ là hằng số trong toàn bộ ảnh, chẳng hạn a
13
=
a
23
= 0.
Chuyển đổi phối cảnh cũng có một số đặc tính quan trọng như chuyển đổi
tuyến tính. Nó là hàm ánh xạ mặt phẳng và các phép chuyển đổi xuôi và ngược
của chúng có giá trị đơn. Nó bảo toàn các đường thẳng theo mọi hướng. Như
vậy đường thẳng sẽ được ánh xạ thành đường thẳng (mặc dù chúng không cùng
hướng). Tám bậc tự do trong phương trình chuyển đổi phối cảnh cho phép
chúng ta ánh xạ tứ giác thành t
ứ giác. Ngược lại trong ánh xạ tuyến tính chỉ có
sáu bậc tự do và chỉ cho phép ánh xạ tam giác thành tam giác.
2.5.1. Kết luận về phép chuyển đổi phối cảnh.
Phép chuyển đổi phối cảnh được biểu diễn bởi chín số hạng trong ma trận T
3x3. Không giảm tổng quát giả sử rằng a
33
= 1. Tám hệ số còn lại xác định tương
ứng giữa bốn điểm vào và bốn điểm ra. Đặt (u
k
, v
k
) và (x

k
, y
k
) là cặp bốn điểm
tương ứng giữa đầu vào và đầu ra. Phương trình giải x và y có thể được viết lại
như sau.

×