Tải bản đầy đủ (.pdf) (63 trang)

Ứng dụng xử lý ảnh trong điều khiển cánh tay robot công nghiệp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.16 MB, 63 trang )


Số hóa bởi trung tâm học liệu

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌ



ĐỖ VĂN CHUYÊN



ỨNG DỤNG XỬ LÝ ẢNH TRONG
ĐIỀU KHIỂN CÁNH TAY ROBOT CÔNG NGHIỆP
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01



LUẬN VĂN THẠ


Ngƣ : TS. Phạm Đức Long



Thái Nguyên – 2013

Số hóa bởi trung tâm học liệu

i


LỜI CAM ĐOAN
Tôi xin cam đoan toàn bộ nội dung đƣợc trình bày trong bản luận văn này là
kết quả tìm hiểu và nghiên cứu của riêng tôi, trong quá trình nghiên cứu luận văn
“Ứng dụng xử lý ảnh trong điều khiển cánh tay robot công nghiệp” các kết quả
và dữ liệu đƣợc nêu ra là hoàn toàn trung thực dƣới sự hƣớng dẫn của TS. Phạm
Đức Long. Mọi thông tin trích dẫn dẫn đều đƣợc tuân theo luật sở hữu trí tuệ, có liệt
kê rõ ràng các tài liệu tham khảo. Tôi xin chịu hoàn toàn trách nhiệm với những nội
dung đƣợc viết trong luận văn này.

Thái Nguyên, ngày 19 tháng 11 năm 2013
HỌC VIÊN


Đỗ Văn Chuyên

Số hóa bởi trung tâm học liệu

ii
LỜI CẢM ƠN
Luận văn đƣợc thực hiện tại Trƣờng Đại học Công nghệ Thông tin và Truyền
Thông - Đại học Thái Nguyên dƣới sự hƣớng dẫn của thầy TS. Phạm Đức Long.
Trƣớc hết em xin bày tỏ lòng biết ơn sâu sắc tới thầy TS.Phạm Đức Long,
Trƣờng Đại học Công nghệ Thông tin và Truyền Thông - Đại học Thái Nguyên,
ngƣời đã tận tình hƣớng dẫn giúp đỡ để em hoàn thành tốt luận văn của mình.
Em xin gửi lời cảm ơn chân thành đến các thầy cô giáo Trƣờng Đại học
Công nghệ Thông tin và Truyền Thông - Đại học Thái Nguyên, cùng các thầy cô
giáo đã nhiệt tình giảng dạy, truyền đạt kiến thức cho em trong suốt quá trình học
tập tại trƣờng cũng nhƣ quá trình làm luận văn này.
Cuối cùng em xin gửi lời cảm ơn đến gia đình, bạn bè, các đồng nghiệp
những ngƣời đã động viên, giúp đỡ và tạo điều kiện cho em trong quá trình học tập

và hoàn thành luận văn.

Thái Nguyên, ngày 19 tháng 11 năm 2013
HỌC VIÊN


Đỗ Văn Chuyên


Số hóa bởi trung tâm học liệu

iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v
DANH MỤC CÁC HÌNH v
Chƣơng 1: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH 2
1.1. Lý thuyết về xử lý ảnh [1] 2
1.1.1. Hệ thống xử lý ảnh 2
1.1.2. Các vấn đề cơ bản trong xử lý ảnh 2
1.1.3. Thu nhận ảnh và số hóa 5
1.1.4. Phân tích ảnh 5
1.1.5. Hệ quyết định 5
1.2. Thu nhận ảnh và lƣu trữ ảnh 5
1.2.1. Thu nhận ảnh[7] 5
1.2.2. Lƣu trữ ảnh 7
1.3. Phân tích ảnh 11
1.3.1. Khái niệm pixel và pixel lân cận 11

1.3.2. Một số không gian màu 11
1.3.3. Một số kỹ thuật trợ giúp xử lý ảnh 14
1.3.4. Biên và các phƣơng pháp phát hiện biên[1][4][7] 14
1.4. Biến đổi Hough 15
1.4.1. Biến đổi Hough tổng quát [9] 15
1.4.2 Biến đổi Hough tìm hình chữ nhật [11] 20
1.4.2. Biến đổi Hough tìm đƣờng tròn 23
Chƣơng 2: GIỚI THIỆU CHUNG VỀ ROBOT CÔNG NGHIỆP 26
2.1. Sơ lƣợc quá trình phát triển của robot công nghiệp 26
2.2. Ứng dụng robot công nghiệp trong quá trình sản xuất 27

Số hóa bởi trung tâm học liệu

iv
2.3. Các khái niệm và định nghĩa về robot công nghiệp 28
2.3.1. Định nghĩa robot công nghiệp 28
2.3.2. Bậc tự do của robot (DOF: Degrees Of Freedom) 29
2.3.3. Hệ tọa độ (Coordinate frames) 29
2.3.4. Trƣờng công tác của robot 31
2.4. Cấu trúc cơ bản của robot công nghiệp 31
2.4.1. Các thành phần chính của robot công nghiệp 31
2.4.2. Kết cấu của tay máy 33
2.5. Phân loại robot công nghiệp 36
2.5.1. Phân loại theo kết cấu 36
2.5.2. Phân loại theo hệ thống truyền động 36
2.5.3. Phân loại theo ứng dụng 36
2.5.4. Phân loại theo cách thức và đặc trƣng của phƣơng pháp điều khiển 36
Chƣơng 3: ĐĐIỀU KHIỂN CÁNH TAY ROBOT BẰNG XỬ LÝ ẢNH 38
3.1. Ứng dụng xử lý ảnh trong công nghiệp 38
3.2. Cánh tay robot điều khiển bằng thông tin chiết xuất từ ảnh. 39

3.3. Giới thiệu camera Eye-RIC 41
3.4. Xác định vị trí đối tƣợng bằng xử lý ảnh 45
3.4.1. Xác định vị trí đối tƣợng hình tròn 45
3.4.2. Xác định vị trí đối tƣợng hình vuông 47
3.4.3. Xác định vị trí đối tƣợng hình tròn lẫn với các đối tƣợng hình
vuông trong mặt phẳng chi chi tiết máy 48
3.4.4. Kết quả thực nghiệm 50
KẾT LUẬN 54
TÀI LIỆU THAM KHẢO 55



Số hóa bởi trung tâm học liệu

v
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
KÝ HIỆU/TỪ
VIẾT TẮT
Ý NGHĨA
CCD
Charge Coupled Device
CMOS
Conplementary Metal – Oxide – Semiconductor
BMP
Bitmap
PCX
Personal Computer Exchange
RLE
Run – Length – Encoded
TIFF

Targed Image File Format
RGB
Red- green- blue
CMY
Cyan-Magenta- Yellow
HSV
Hue-Saturation-Value
AMF
American machijne and Foundry Company
NC
Numerically Controlled machine tool
CNC
Computer(ized) Numerical(ly) Control(led)
AFNOR
Association Française de Normalisation
RIA
Robot institule of America
DOF
Degrees Of Freedom
SCARA
Selective Compliant Articulated Robot Arm
AI
Artificial intelligence
CNN
Cellular neural network
PC
Personal computer




Số hóa bởi trung tâm học liệu

vi
DANH MỤC CÁC HÌNH

Hình 1.1 Hệ thống xử lý ảnh. 2
Hình 1.2: Tọa độ P và tọa độ các điểm lân cận 11
Hình 1.3: Mô hình màu RGB. 12
Hình 1.4: và biểu diễn một đƣờng thẳng. 16
Hình 1.5: Đƣờng thẳng Hough trong trục tọa độ. 18
Hình 1.6: a) Original image b) Image after gradiant filtering 20
Hình 1.7: c) Hough array visualization d) Image with detected lines 20
Hình 1.8: Hình chữ nhật có gốc tọa độ nằm ở giữa. 21
Hình 1.9: Hình chữ nhật trong không gian Hough. 22
Hình 1.10: Ảnh nhị phân 24
Hình 1.11: Hiển thị ma trận của phép biến đổi Hough. 25
Hình 1.12: Tâm của vòng tròn với bán kính R. 26
Hình 2.1. Các tọa độ suy rộng của robot. 30
Hình 2.2: Qui tắc bàn tay phải 30
Hình 2.4. Các thành phần chính của hệ thống robot. 32
Hình 2.5. Robot kiển tạo độ Đề các. 33
Hình 2.6. Robot kiểu tọa độ trụ. 34
Hình 2.7. Robot kiểu tọa độ cầu. 34
Hình 2.8. Robot hoạt động theo kiểu hệ tọa độ góc. 35
Hình 2.9. Robot kiểu SCARA. 36
Hình 3.1. a) Vòng bi b) Vòng đệm máy 47
Hình 3.2. a) Ốc máy b) Phụ tùng máy 40
Hình 3.3. Quá trình xử lý 40
Hình 3.4. Cánh tay robot điều khiển bằng thông tin chiết xuất từ hình ảnh 41
Hình 3.5. Sơ đồ hệ thống điều khiển cánh tay robot 50

Hình 3.6. Cameta EyE Rics 42

Số hóa bởi trung tâm học liệu

vii
Hình 3.7. Cài đặt phần mềm ứng dụng 44
Hình 3.8. Bƣớc chọn thƣ mục cài đặt 44
Hình 3.9. Kết thúc quá trình cài đặt. 45
Hình 3.10. Giao diện chính của phần mềm Eye-RIS ADK 10.2 45
Hình 3.11. Tìm tâm hình học của một hình bất kỳ. 46
Hình 3.12. Tìm đỉnh và góc lệch của hình vuông 48
Hình 3.13. Không gian thực 56
Hình 3.14. Không gian thực chỉ còn hình tròn 57
Hình 3.15. Thuật toán chung 57
Hình 3.16. Các đuối tƣợng hình tròn nằm đối xứng nhau 58
Hình 3.17. Thu ảnh hình chòn từ camera Eye-Ric 50
Hình 3.18. Kết quả sau khi xử lý 51
Hình 3.19. Kết quả tính toán 51
Hình 3.20. Thu ảnh từ camera 51
Hình 3.21. Kết quả sau khi xử lý 52
Hình 3.22. Kết quả tính toán 52
Hình 3.23. Thu ảnh từ camera 52
Hình 3.24. Kết quả thu đƣợc sau quá trình xử lý. 53
Hình 3.25. Kết quả tìm tọa độ các đỉnh và góc lệch. 53

Số hóa bởi trung tâm học liệu

1
MỞ ĐẦU
Trong ngành khoa học máy tính, xử lý ảnh đã đƣợc nghiêm cứu và ứng dụng

mạnh mẽ trong đời sống nhƣ trong y học xử lý ảnh xử dụng trong nhận dạng khối u, cải
thiện ảnh X-quang. Trong cuộc sống gia đình xử lý ảnh dùng để cải thiện chất lƣợng ảnh
truyền hình. Trong Điều khiển và Tự động hóa xử lý ảnh đã có những đóng góp quan
trọng đặc biệt là trong lĩnh vực Robot. Robot thông minh ngày nay không thể thiếu xử lý
ảnh để thực hiện. Nhận dạng đối tƣợng ngoài môi trƣờng nói chung hay trong nhà máy
xí nghiệp. Từ việc nhận dạng có thể giải quyết rất nhiều bài toán nhƣ gắp vật, tránh vật
cản, dò đƣờng,…Các chƣơng trình ứng dụng nhƣ: nhận dạng mặt ngƣời, nhận dạng vân
tay trong điều tra hình sự, xử lý ảnh vệ tinh, kiểm soát giao thông, xử lý ảnh chụp cắt lớp,
MRI, chuẩn đoán tế bào trong y học, các chƣơng trình nhận dạng chữ viết đã đem lại
nhiều ứng dụng tiện ích cho con ngƣời.
Nhận dạng đối tƣợng trong ảnh là vấn đề đƣợc nhiều nhà khoa học quan tâm.
Mục đích chính nhằm tìm ra những đối tƣợng trong ảnh với thời gian nhỏ nhất.
Thuật toán tìm kiếm đối tƣợng dựa trên biến đổi Hough là một trong nhiều phƣơng
pháp tìm kiếm đối tƣợng trong ảnh.
Biến đổi Hough là một kỹ thuật có thể dùng để tách ra các đặc điểm của một
hình dáng cụ thể trong một ảnh nhị phân. Đối tƣợng có thể có hình dạng bất kỳ
miễn là có thể biểu diễn đƣợc bằng phƣơng trình toán. Các bài toán tìm kiếm từ
những mức đơn giản nhƣ tìm đƣờng thẳng tới các bài toán phức tạp hơn nhƣ tìm
hình tròn, hình elipse, hình vuông hoặc các hình phức tạp đều có thể thực hiện bằng
biến đổi Hough.
Luận văn bao gồm các nội dung chính nhƣ sau:
Chƣơng 1: Cở sở lý thuyết xử lý ảnh
Chƣơng 2: Giới thiệu chung về robot công nghiệp
Chƣơng 3: Điều khiển cánh tay robot bằng xử lý ảnh
Do thời gian và trình độ còn hạn chế nên luận văn khó tránh khỏi những
thiếu sót, kính mong nhận đƣợc sự đóng góp, chỉ bảo của các thầy giáo, cô giáo và
các bạn đồng nghiệp.

Số hóa bởi trung tâm học liệu


2
Chƣơng 1
CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH

1.1. Lý thuyết về xử lý ảnh [1]
1.1.1. Hệ thống xử lý ảnh
Hệ thống xử lý ảnh điển hình thƣờng bao gồm những thành phần sau:

Hình 1.1 Hệ thống xử lý ảnh
Từ hình vẽ ta thấy một hệ thống xử lý ảnh bao gồm thu nhận ảnh, số hóa ảnh,
phân tích ảnh và cuối cùng là quyết định (tùy thuộc vào yêu cầu ứng dụng cụ thể mà
đƣa ra quyết định phù hợp)
1.1.2. Các vấn đề cơ bản trong xử lý ảnh
Một số khái niệm cơ bản
- Ảnh và điểm ảnh:
Điểm ảnh đƣợc xem nhƣ là dấu hiệu hay cƣờng độ sáng tại 1 tọa độ trong
không gian của đối tƣợng và ảnh đƣợc xem nhƣ là 1 tập hợp các điểm ảnh.
- Mức xám, màu:
Là số các giá trị có thể có của các điểm ảnh của ảnh.
Khử nhiễu
- Có hai loại nhiễu cơ bản trong quá trình thu nhận ảnh.

Số hóa bởi trung tâm học liệu

3
+ Nhiễu hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi.
+ Nhiễu ngẫu nhiên: là vết bẩn không rõ nguyên nhân → khắc phục
bằng các phép lọc.
Chỉnh mức xám
- Nhằm khắc phục tính không đồng đều của hệ thống gây ra. Thông thƣờng

có 2 hƣớng tiếp cận.
+ Giảm số mức xám: thực hiện bằng cánh nhóm các mức xám gần nhau
thành một bó. Trƣờng hợp chỉ có 2 mức xám thì chính là chuyển về ảnh
đen trắng. Ứng dụng in ảnh màu ra máy in đen trắng.
+ Tăng số mức xám: thực hiện nội suy ra các mức xám trung gian bằng
kỹ thuật nội suy. Kỹ thuật này tăng cƣờng độ mịn cho ảnh.
Trích chọn đặc điểm
- Các đặc điểm của đối tƣợng đƣợc trích chọn tùy theo mục đích nhận dạng
trong quá trình xử lý ảnh. Có thể nêu ra một số đặc điểm của ảnh sau đây:
o Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên
độ, điểm uốn…
o Đặc điểm biến đổi: Các đặc điểm loại này đƣợc trích chọn bằng
việc thực hiện lọc vùng (zonal filtering). Các bộ vùng đƣợc gọi là
“mặt nạ đặc điểm” (feature mask) thƣờng là các khe hẹp với hình
dạng khác nhau (chữ nhật, tam giác, cung tròn…)
o Đặc điểm biên và đƣờng biên: rất hữu ích trong việc trích trọn các
thuộc tính bất biến đƣợc dùng khi nhận dạng đối tƣợng. Các đặc
điểm này có thể đƣợc trích chọn nhờ toán tử Gradient, toán tử la
bàn, toán tử Laplace,… Việc trích chọn hiệu quả các đặc điểm
giúp cho việc nhận dạng các đối tƣợng ảnh chính xác, tốc độ tính
toán cao và dung lƣợng nhớ lƣu trữ giảm xuống.
Nhận dạng[1][4].
- Nhận dạng tự động (automatic recognition), mô tả đối tƣợng, phân loại và
phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, đƣợc

Số hóa bởi trung tâm học liệu

4
ứng dụng trong nhiều ngành khoa học khác nhau. Trong công việc này
một câu hỏi quan trọng đƣợc đặt ra là: mẫu (pattern) là gì? Watanabe,

một trong những ngƣời đi đầu trong lĩnh vực này đã định nghĩa: “Ngƣợc
lại với hỗn loạn (chaos), mẫu là một thực thể (entity), đƣợc xác định một
cách ang áng (vaguely defined) và có thể gán cho nó một tên gọi nào đó”.
Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một vật nào đó đƣợc chụp,
một chữ viết, khuôn mặt ngƣời hoặc một ký đồ tín hiệu tiếng nói. Khi biết
một mẫu nào đó, để nhận dạng hoặc phân loại mẫu đó có thể:
o Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân
tích phân biệt (discriminant analyis), trong đó mẫu đầu vào đƣợc
định danh nhƣ một thành phần của một lớp đã xác định.
o Hoặc phân loại không có mẫu (unsupervised classification hay
clustering) trong đó các mẫu đƣợc gán vào các lớp khác nhau dựa
trên một tiêu chuẩn đồng dạng nào đó. Các lớp này cho đến thời
điểm phân loại vẫn chƣa biết hay chƣa đƣợc định danh. Hệ thống
nhận dạng tự động bao gồm ba khâu tƣơng ứng với ba giai đoạn
chủ yếu sau đây:
 Thu nhận dữ liệu và tiền xử lý.
 Biểu diễn dữ liệu.
 Nhận dạng, ra quyết định.
Bốn bƣớc tiếp cận khác nhau trong lý thuyết nhận dạng là:
 Đối sánh mẫu dựa trên các đặc trƣng đƣợc trích chọn.
 Phân loại thống kê.
 Đối sánh cấu trúc.
 Phân loại dựa trên mạng nơ-ron nhân tạo.
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn
lẻ để phân loại “tối ƣu” do vậy cần sử dụng cùng một lúc nhiều phƣơng pháp và
cách tiếp cận khác nhau. Do vậy, các phƣơng thức phân loại tổ hợp hay đƣợc sử

Số hóa bởi trung tâm học liệu

5

dụng khi nhận dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các
hệ thống lai (hybrid system) bao gồm nhiều mô hình kết hợp.
Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh
trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra
những yêu cầu về tốc độ tính toán. Đặc điểm chung của tất cả những ứng dụng đó là
những đặc điểm đặc trƣng cần thiết thƣờng là nhiều, không thể do chuyên gia đề
xuất, mà phải đƣợc trích chọn dựa trên các thủ tục phân tích dữ liệu.
1.1.3. Thu nhận ảnh và số hóa
Thu nhận ảnh có thể thông qua camera. Các camera có thể là tƣơng tự hoặc
là camera số (loại camera kiểu CCD - Charge Coupled Device). Ảnh cũng có thể
đƣợc thu qua các thiết bị khác nhƣ máy quét… Nếu nhận ảnh đƣợc là tƣơng tự nó
phải đƣợc số hóa nhờ quá trình lấy mẫu và lƣợng tử hóa trƣớc khi phân tích, xử lý
hay lƣu trữ ảnh.
1.1.4. Phân tích ảnh
Ở giai đoạn này ảnh đƣợc xử lý theo nhiều công đoạn nhỏ nhƣ: cải thiện ảnh,
khôi phục ảnh để làm nổi bật một số đặc tính chính của ảnh hay làm ảnh gần với
trạng thái gốc.
1.1.5. Hệ quyết định
Cuối cùng tùy theo mục đích của ứng dụng sẽ là giai đoạn nhận dạng hay các
quyết định khác.
1.2. Thu nhận ảnh và lƣu trữ ảnh
1.2.1. Thu nhận ảnh[7]
Ảnh có thể đƣợc thu nhận qua camera ở đạng tín hiệu tƣơng tự với tần số
1/25, mỗi ảnh có 625 dòng hoặc ở dạng tín hiệu số là loại photodiode tạo ra cƣờng
độ sáng tại mỗi điểm ảnh. Mặt khác, ảnh cũng có thể tiếp nhận từ vệ tinh qua các bộ
cảm biến, có thể quét ảnh từ ảnh chụp bằng máy tính quét ảnh.
Cấu tạo của camera (webcam).
Webcam là một loại thiết bị thu nhận ảnh dƣới dạng tín hiệu số cấu tạo
chung nhƣ sau.


Số hóa bởi trung tâm học liệu

6
- Ống kính (Lens): Bao gồm một hệ thống nhiều thấu kính có thể
điều chỉnh tiêu cự của camera bằng cách xoay ống kính.
- Cảm biến hình ảnh (Image sensors): có thể là CCD hay CMOS
(Conplementary Metal – Oxide – Semiconductor)
- Một số thiết bị khác.
Cảm biến hình ảnh là thiết bị có khả năng chụp và số hóa ảnh dựa trên
nguyên lý tích điện dƣới tác dụng của ánh sáng thu nhận đƣợc sau đó đƣợc số hóa
thông qua tính hiệu điện đã đƣợc chuyển đổi, trên nguyên tắc làm việc chung đó,
cảm biến hình ảnh đƣợc chia làm hai lại: CCD và CMOS. Tuy nhiên hai cảm biến
này đƣợc chế tạo theo hai kỹ thuật hoàn toàn khác nhau.
+ Cảm biến CCD:
Thành phần cơ bản của sensor CCD quét dòng là một hàng phần tử ảnh silic
gọi là photosites. Các photo hình ảnh cho qua một cấu trúc cổng đa tinh thể trong
suốt và đƣợc hấp thụ trong tinh thể silic, do đó tạo nên một cặp lỗ electron. Các
quang điện tử tạo ra đƣợc tập hợp vào các photosite, lƣợng điện thích đƣợc tập hợp
trong mỗi photosite tỷ lệ với cƣờng độ chiếu sáng tại điểm đó. Một sensor quét
dòng điển hình gồm một hàng các phân tử ảnh photosite, hai cổng truyền đƣợc sử
dụng để chốt nội dung của các thanh ghi vận chuyển và một cổng lối ra đƣợc sử
dụng để chốt nội dung của các thanh ghi vận chuyển vào bộ khuếch đại, lối ra của
bộ khuếch đại này là một tín hiệu điện áp tỷ lệ với các nội dung của hàng photosite.
Để máy tính có thể xử lý, điểm ảnh (x, y) phải đƣợc số hóa và về không gian
lẫn biên độ (cƣờng độ). Việc số hóa các tọa độ không gian (x, y) đƣợc coi nhƣ là
việc lấy mẫu hình ảnh, trong khi đó việc số hóa biên độ đƣợc coi là lƣợng tử hóa
cƣờng độ cho những hình ảnh đơn sắc và phản ảnh bản chất của các ảnh này là biến
thiên từ đen tới trắng theo các mức xám khác nhau. Hai thuật ngữ cƣờng độ sáng và
mức xám có thể dùng hoán chuyển cho nhau.


Số hóa bởi trung tâm học liệu

7
+ Cảm biến CMOS:
Cũng giống nhƣ cảm viến CCD, CMOS cũng hấp thụ ánh sáng thông qua
mảng diode quang. Tuy nhiên, bên trong mỗi pixel diode này đƣợc tích hợp một
mạch khuếch đại, lọc nhiễu và mạch số hóa để có thể tự động dò tìm photon ảnh
sáng hấp thụ đƣợc chuyển đổi thành điện áp và trực tiếp truyền tính hiệu đến ngõ ra.
Vì thế tín hiệu điện ở ngõ ra là tín hiệu ở dạng số.
1.2.2. Lưu trữ ảnh
Ảnh trên máy tính là kết quả thu nhận theo các phƣơng pháp số hóa đƣợc
nhúng trong các thiết bị kỹ thuật khác nhau. Quá trình lƣu ảnh nhằm 2 mục đích:
+ Tiết kiệm bộ nhớ
+ Giảm thời gian xử lý
Việc lƣu trữ trông tin trong bộ nhớ có ảnh hƣởng rất lớn đến việc hiển thị, in
ấn và xử lý ảnh đƣợc xem nhƣ là một tập hợp các điểm với cùng kích thƣớc nếu sử
dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn
chi tiết của ảnh ngƣời ta gọi đặc điểm ngày là độ phân giải.
Để lƣu trữ ảnh trên máy tính, một số định dạng ảnh nhƣ BMP, IMG, PCX, TIFF…
+ Định dạng ảnh BMP:
Trong đồ họa máy vi tính tập tin ảnh Windows bitmap, là một định dạng tập
tin hình ảnh khá phổ biến. Các tập tin đồ họa lƣu dƣới dạng BMP thƣờng có đuôi
là .BMP hoặc .DIB (Device Independent Bitmap).
Các thuộc tính tiêu biểu của một tập tin ảnh BMP (cũng nhƣ file ảnh nói
chung) là số bit trên mỗi điểm ảnh (bit per pixel), thƣờng đƣợc ký hiệu bởi n. Một
ảnh BMP n-bit có 2
n
màu. Giá trị n càng lớn thì ảnh càng có nhiều màu, và càng rõ
nét hơn. Giá trị tiêu biểu của n là 1 (ảnh đen trắng), 4 (ảnh 16 màu), 8 (ảnh 256
màu), 16 (ảnh 65536 màu) và 24 (ảnh 16 triệu màu). Ảnh BMP 24-bit có chất lƣợng

hình ảnh trung thực nhất.
+ Chiều cao của ảnh (height), cho bởi điểm ảnh (pixel).
+ Chiều rộng của ảnh (width), cho bởi điểm ảnh.

Số hóa bởi trung tâm học liệu

8
Cấu trúc tập tin ảnh BMP bao gồm 4 phần
Bitmap Header (14 bytes): giúp nhận dạng tập tin bitmap.
Bitmap Information (40 bytes): lƣu một số thông tin chi tiết giúp hiển thị ảnh.
Color Palette (4*x bytes), x là số màu của ảnh: định nghĩa các màu sẽ đƣợc
sử dụng trong ảnh.
Bitmap Data: lƣu dữ liệu ảnh.
Đặc điểm nổi bật nhất của định dạng BMP là tập tin hình ảnh thƣờng không
đƣợc nén bằng bất kỳ thuật toán nào. Khi lƣu ảnh, các điểm ảnh đƣợc ghi trực tiếp
vào tập tin - một điểm ảnh sẽ đƣợc mô tả bởi một hay nhiều byte tùy thuộc vào giá
trị n của ảnh. Do đó, một hình ảnh lƣu dƣới dạng BMP thƣờng có kích cỡ rất lớn,
gấp nhiều lần so với các ảnh đƣợc nén (chẳng hạn GIF, JPEG hay PNG).
Định dạng BMP đƣợc hỗ trợ bởi hầu hết các phần mềm đồ họa chạy
trên Windows, và cả một số ứng dụng chạy trên MS-DOS. Ngay từ Windows 3.1,
Microsoft đã cho ra đời phần mềm PaintBrush, một phần mềm hỗ trợ vẽ hình ảnh
đơn giản và lƣu hình ảnh đƣợc vẽ dƣới dạng BMP 16 hay 256 màu. Tuy nhiên, do
kích thƣớc tập tin ảnh BMP quá lớn, định dạng BMP không phù hợp để trao đổi
hình ảnh qua mạng Internet (do hạn chế về tốc độ truyền dữ liệu). Do đó, các trang
web thƣờng sử dụng ảnh dạng GIF, JPEG hay PNG. Các định dạng này hỗ trợ các
thuật toán nén hình ảnh, vì vậy có thể giảm bớt kích cỡ của ảnh.
+ Định dạng ảnh IMG:
Ảnh IMG là ảnh đen trắng, phần đầu của ảnh IMG có 16 byte chứa các thông tin:
- 6 byte đầu: dùng để đánh dấu định dạng ảnh. Giá trị của 6 byte này viết
dƣới dạng Hexa: 0x00010x0008 0x0001

- 2 byte tiếp theo: chứa độ dài mẫu tin. Đó là độ dài của dãy các byte kề liền
nhau mà dãy này sẽ đƣợc lặp lại một số lần nào đó. Số lần lặp này sẽ đƣợc lƣu trong
byte đếm. Nhiều dãy giống nhau đƣợc lƣu trong một byte.
- 4 byte tiếp: mô tả kích cỡ pixel.
- 2 byte tiếp: số pixel trên một dòng ảnh.

Số hóa bởi trung tâm học liệu

9
- 2 byte cuối: số dòng ảnh trong ảnh.
Ảnh IMG đƣợc nén theo từng dòng, mỗi dòng bao gồm các gói (pack). Các
dòng giống nhau cũng đƣợc nén thành một gói. Có 4 loại gói sau:
Loại 1: Gói các dòng giống nhau. Quy cách gói tin này nhƣ sau: 0x00 0x00
0xFF Count. Ba byte đầu tiên cho biết số các dãy giống nhau, byte cuối cho biết số
các dòng giống nhau.
Loại 2: Gói các dãy giống nhau. Quy cách gói tin này nhƣ sau: 0x00 Count.
Byte thứ hai cho biết số các dãy giống nhau đƣợc nén trong gói. Độ dài của dãy ghi
ở đầu tệp.
Loại 3: Dãy các Pixel không giống nhau, không lặp lại và không nén đƣợc.
Quy cách gói tin này nhƣ sau: 0x80 Count. Byte thứ hai cho biết độ dài dãy các
pixel không giống nhau không nén đƣợc.
Loại 4: Dãy các Pixel giống nhau. Tuỳ theo các bít cao của byte đầu tiên
đƣợc bật hay tắt. Nếu bít cao đƣợc bật (giá trị 1) thì đây là gói nén các byte chỉ gồm
bít 0, số các byte đƣợc nén đƣợc tính bởi 7 bít thấp còn lại. Nếu bớt cao tắt (giá trị
0) thì đây là gói nén các byte gồm toán bít 1. Số các byte đƣợc nén đƣợc tính bởi 7
bít còn lại.
Các gói tin của file IMG rất đa dạng do ảnh IMG là ảnh đen trắng, do vậy chỉ
cần 1 bít cho 1 pixel thay vì 4 hoặc 8 nhƣ đã nói ở trên. Toàn bộ ảnh chỉ có những
điểm sáng và tối tƣơng ứng với giá trị 1 hoặc 0. Tỷ lệ nén của kiểu định dạng này là
khá cao.

+ Định dạng ảnh PCX:
Định dạng ảnh PCX là một trong những định dạng ảnh cổ điển. Nó sử dụng
phƣơng pháp mã hóa loạt dài RLE (Run – Length – Encoded) để nén dữ liệu ảnh.
Quá trình nén và giải nén đƣợc thực hiện trên từng dạng ảnh. Thực tế, phƣơng pháp
giải nén PCX kém hiệu quả hơn so với kiểu IMG. Tệp PCX gồm 3 phần: đầu tệp
(header), dữ liệu ảnh (Image data) và bảng màu mở rộng. Header của tệp PCX có
kích thƣớc cố định gồm 128 byte và đƣợc phân bố nhƣ sau:

Số hóa bởi trung tâm học liệu

10
- 1 byte: chỉ ra kiểu định dạng. Nếu là PCX/PCC thì nó luôn có giá trị là 0Ah.
- 1 byte: chỉ ra version sử dụng để nén ảnh, có thể có các giá trị sau:
+ 0: version 2.5.
+ 2: version 2.8 với bảng màu.
+ 3: version 2.8 hay 3.0 không có bảng màu.
+ 5: version 3.0 có bảng màu.
+ 1 byte: chỉ ra phƣơng pháp mã hoá. Nếu là 0 thì mã hoá theo phƣơng pháp
BYTE PACKED, ngƣợc lại là phƣơng pháp RLE.
- 1 byte: Số bít cho một điểm ảnh plane.
- 1 word: toạ độ góc trái của ảnh. Với kiểu PCX nó có giá trị là (0, 0), còn
PCC thì khác (0, 0).
- 1 word: toạ độ góc phải dƣới.
- 1 word: kích thƣớc chiều rộng và chiều cao của ảnh.
- 1 word: số điểm ảnh.
- 1 word: độ phân giải màn hình.
- 1 word.
- 48 byte: chia nó thành 16 nhóm, mỗi nhóm 3 byte. Mỗi nhóm này chứa
thông tin về một thanh ghi màu. Nhƣ vậy ta có 16 thanh ghi màu.
- 1 byte: không dùng đến và luôn đặt là 0.

- 1 byte: số bit plane mà ảnh sử dụng. Với ảnh 16 màu, giá trị này là 4, với
ảnh 256 màu (1pixel/8bits) thì số bít plane lại là 1.
- 1 byte: số bytes cho một dòng quét ảnh.
- 1 word: kiểu bảng màu.
- 58 byte: không dùng.
Định dạng ảnh PCX thƣờng đƣợc dùng để lƣu trữ ảnh và thao tác đơn giản, cho
phép nén và giải nén nhanh. Tuy nhiên, vì cấu trúc của nó cố định, nên trong một số

Số hóa bởi trung tâm học liệu

11
trƣờng hợp làm tăng kích thƣớc lƣu trữ. Cũng vì nhƣợc điểm này mà một số ứng
dụng sử dụng một kiểu định dạng khác mềm dẻo hơn: định dạng TIFF (Targed
Image File Format).
1.3. Phân tích ảnh
1.3.1. Khái niệm pixel và pixel lân cận
Pixel là phân tử nhỏ nhất cấu tạo nên hình ảnh. Mỗi pixel có một tọa độ (x,
y) và màu xác định.
P
1
(x-1,y-1)
P
2
(x-1,y)
P
3
(x-1,y+1)
P
4
(x,y-1)

P (x,y)
P
5
(x,y+1)
P
6
(x+1, y-1)
P
7
(x+1, y)
P
8
(x+1,y+1)
Hình 1.2. Tọa độ P và tọa độ các điểm lân cận
Mỗi pixel P tại các tọa độ (x, y) có ô pixel lân cận theo chiều dọc và chiều
ngang và tọa độ tƣơng ứng của các pixel này, nhƣ hình trên là:
P
2
(x-1,y) P
7
(x+1,y)
P
4
(x,y-1) P
5
(x,y+1)
Tập các pixel này gọi là lân cận của P và ký hiệu là N4(p). Mỗi pixel lân cận
cách (x, y) một đơn vị và nếu (x, y) ở mép của màn hình thì sẽ có một số pixel lân
cận của p nằm ở ngoài hình ảnh. Ngoài 4 pixel chéo góc có các tọa độ tƣơng ứng là:
P

1
(x-1,y-1) P
3
(x-1,y+1)
P
6
(x+1,y-1) P
8
(x+1,y+1)
Tập các pixel này đƣợc ký hiệu là ND(p). Bốn pixel này cùng với 4 pixel ở
trên tạo thành 8 pixel lân cận của P và đƣợc ký hiệu là N8(p). Tập hợp này cũng sẽ
có một số pixel ở bên ngoài hình ảnh nếu (x, y) nằm ở mép ngoài của hình ảnh.
1.3.2. Một số không gian màu
Không gian màu RGB:

Số hóa bởi trung tâm học liệu

12
+ Mô hình màu RGB sử dụng mô hình bổ sung trong đó ánh sáng đỏ, xanh
lá cây và xanh lam đƣợc tổ hợp với nhau theo nhiều phƣơng thức khác nhau để tạo
thành các màu khác. Từ viết tắt RGB trong tiếng Anh có nghĩa là đỏ (red), xanh lá
cây (green) và xanh lam (blue), là ba màu gốc trong các mô hình ánh sáng bổ sung.

Hình 1.3: Mô hình màu RGB
+ Cũng lƣu ý rằng mô hình màu RGB tự bản thân nó không định nghĩa thế
nào là “đỏ”, “xanh lá cây” và “xanh lam” một cách chính xác, vì thế với cùng các
giá trị nhƣ nhau của RGB có thể mô tả các màu tƣơng đối khác nhau trên các thiết
bị khác nhau có cùng một mô hình màu. Trong khi chúng cùng chia sẻ một mô hình
màu chung, không gian màu thực sự của chúng là dao động một cách đáng kể.
Mô hình màu CMY

+ Từ CMYK (hay đôi khi là YMCK) là từ viết tắt trong tiếng Anh để
chỉ mô hình màu loại trừ sử dụng trong in ấn màu. Mô hình màu này dựa trên
cơ sở trộn các chất màu của các màu sau:
C=Cyan trong tiếng Anh có nghĩa là màu xanh lơ
M=Magenta trong tiếng Anh có nghĩa là màu hồng sẫm
Y=Yellow trong tiếng Anh có nghĩa là màu vàng

Số hóa bởi trung tâm học liệu

13
K=Key (trong tiếng Anh nên hiểu theo nghĩa là cái gì đó then
chốt hay chủ yếu để ám chỉ màu đen mặc dù màu này có tên tiếng
Anh là black do chữ B đã đƣợc sử dụng để chỉ màu xanh lam (blue)
trong mô hình màu RGB để tạo các màu khác.
+ Hỗn hợp của các màu CMY lý tƣởng là loại trừ (các màu này khi in cùng
một chỗ trên nền trắng sẽ tạo ra màu đen). Nguyên lý làm việc của CMYK là
trên cơ sở hấp thụ ánh sáng. Màu mà ngƣời ta nhìn thấy là từ phần của ánh
sáng không bị hấp thụ. Trong CMYK hồng sẫm cộng với vàng sẽ cho
màu đỏ, hồng sẫm cộng với xanh lơ cho màu xanh lam, xanh lơ cộng với
vàng sinh ra màu xanh lá câyvà tổ hợp của các màu xanh lơ, hồng sẫm và
vàng tạo ra màu đen.
+ Vì màu “đen” sinh ra bởi việc trộn các màu gốc loại trừ là không thực sự
giống nhƣ mực đen thật sự hay màu đen của vật đen tuyệt đối (là vật hấp thụ
toàn bộ ánh sáng), việc in ấn trên cơ sở bốn màu (đôi khi gọi là in các
màu mặc dù điều này không chính xác) phải sử dụng mực đen để bổ sung
thêm vào với các màu gốc loại trừ là các màu vàng, hồng sẫm và xanh lơ.
+ Việc sử dụng công nghệ in ấn bốn màu sinh ra kết quả in ấn cuối cùng rất
cao cấp với độ tƣơng phản cao hơn. Tuy nhiên màu của vật thể mà ngƣời ta
nhìn thấy trên màn hình máy tính thông thƣờng có sự sai khác chút ít với
màu của nó khi in ra vì các mô hình màu CMYK và RGB (sử dụng trong

màn hình máy tính) có các gam màu khác nhau. Mô hình màu RGB là mô
hình dựa trên cơ sở phát xạ ánh sáng (màu bổ sung) trong khi mô hình
CMYK làm việc theo cơ chế hấp thụ ánh sáng (màu loại trừ).
Mô hình màu HSV
+ Là một không gian màu dựa trên ba số liệu:
H: (Hue) Vùng màu
S: (Saturation) Độ bão hòa màu
V: (Value) Độ sáng

Số hóa bởi trung tâm học liệu

14
1.3.3. Một số kỹ thuật trợ giúp xử lý ảnh
Kỹ thuật lọc số.
o Chất lƣợng hình ảnh kém do rất nhiều nguyên nhân nhƣ do nhiễm
điện từ của máy thu hay chất lƣợng bộ số hóa kém. Nhiễu ảnh số
đƣợc xem nhƣ là sự dịch chuyển nhanh của tín hiệu thu nhận trên
một khoảng cách ngắn. Về mặt tần số, nhiễu ứng với các thành
phần tần số cao trong ảnh. Nhƣng vậy để xử lý nhiễu ta có thể lọc
các thành phần tần số cao. Việc lọc dựa vào tính dƣ thừa thông tin
không gian: các pixel lân cận có thể có ảnh gốc. Tùy theo cách tổ
hợp điểm đang xét với các điểm lân cận mà ta có kỹ thuật lọc
tuyến tính hay kỹ thuật lọc phi tuyến. Điểm ảnh chịu tác động của
biến đổi là điểm ở tâm của mặt nạ. Các kỹ thuật lọc này đƣợc trình
bày kỹ trong phần làm trơn ảnh.
1.3.4. Biên và các phương pháp phát hiện biên[1][4][7]
Biên là vấn đề quan trọng trong trích chọn đặc điểm nhằm tiến tới hiểu ảnh.
Cho đến nay chƣa có định nghĩa chính xác về biên, trong mỗi ứng dụng ngƣời ta
đƣa ra các độ đo khác nhau về biên, một trong các độ đo đó là một độ đo về sự thay
đổi đột ngột về cấp xám.

Ví dụ: Đối với khung ảnh đen trắng, một điểm đƣợc gọi là điểm biên nếu nó
là điểm đen có ít nhất một điển trắng bên cạnh. Tập hợp các điểm biên tạo nên biên
hay đƣờng bao của đối tƣợng. Xuất phát từ cơ sở này ngƣời ta thƣờng sử dụng hai
phƣơng pháp phát hiện biên cơ bản:
Phƣơng pháp phát hiện biên trực tiếp: Phƣơng pháp này làm nổi biên dựa
vào sự biến thiên mức xám của ảnh. Kỹ thuật chủ yếu dùng để phát hiện biên ở đây
là kỹ thuật lấy đạo hàm. Nếu lấy đạo hàm bậc nhất của ảnh ta có các kỹ thuật
Gradient, nếu lấy đạo hàm bậc hai của ảnh ta có kỹ thuật Laplace. Ngoài ra còn có
một số các tiếp cận khác.

Số hóa bởi trung tâm học liệu

15
Phát hiện biên gián tiếp: Nếu bằng cách nào đó ta phân đƣợc ảnh thành các
vùng thì ranh giới giữa các vùng đó gọi là biên. Kỹ thuật tìm biên và phân vùng ảnh
là hai bài toàn đối ngẫu nhau vì tìm biên để thực hiện phân lớp đối tƣợng mà khi đã
phân lớp xong nghĩa là đã phân vùng đƣợc ảnh và ngƣợc lại, khi đã phân vùng ảnh
đã đƣợc phân lớp thành các đối tƣợng, do đó có thể phát hiện đƣợc biên.
Phƣơng pháp phát hiện biên trực tiếp tỏ ra khá hiệu quả và ít chịu ảnh hƣởng
của nhiễu, song nếu sự biến thiên độ sáng không đột ngột, phƣơng pháp tỏ ra kém
hiệu quả, phƣơng pháp phát hiện biên gián tiếp tuy khó cài đặt, song lại khá tốt
trong trƣờng hợp này. Sự khác biệt cơ bản giữa hai phƣơng pháp này là: Phƣơng
pháp phát hiện biên trực tiếp cho ta kết quả là ảnh biên, còn phƣơng pháp phát hiện
biên trực tiếp cho ta kết quả là đƣờng biên.
1.4. Biến đổi Hough
1.4.1. Biến đổi Hough tổng quát [9]
Biến đổi Hough là một kỹ thuật có thể dùng để tách ra các đặc điểm của một
hình dáng cụ thể trong một ảnh nhị phân. Khi dùng các chƣơng trình máy tính để
nhận diện một đối tƣợng nào đó có hình dạng bất kỳ, phƣơng pháp hữu hiệu hiện
nay là sử dụng biến đổi Hough. Các bài toán tìm kiếm từ những mức đơn giản nhƣ

tìm đƣờng thẳng tới các bài toán phức tạp hơn nhƣ tìm hình tròn, hình elipse hoặc
các hình phức tạp đều có thể thực hiện bằng biến đổi Hough (với điều kiện các hình
dạng này biểu diễn toán học đƣợc).
- Biến đổi Hough tìm đƣờng thẳng
Không gian ảnh và không gian tham số trong biến đổi Hough


Số hóa bởi trung tâm học liệu

16

Hình 1.4: và biểu diễn một đƣờng thẳng.
Mỗi một đƣờng thẳng có một bộ thông số ( , ).
Trên hệ toạ độ Đề các một đƣờng thẳng có hình dạng nhƣ trên hình 1.4
Mỗi một điểm sẽ có một toạ độ (x
i
, y
i
) trong trục toạ độ này. Nếu chúng ta
dùng tham số (độ dài đƣờng vuông góc từ gốc toạ độ đến đƣờng thẳng) và (góc
giữa đƣờng vuông góc với trục x) để biểu diễn đƣờng thẳng thì chúng ta đã biểu
diễn đƣờng thẳng qua thông gian tham số.
Chúng ta có quan hệ
)sin(
*
)sin(
)cos(
xy
hay = x*cos( )+y*sin( ) (1.1)
Các giá trị và có giới hạn trong giới hạn [0, 360

0
] hoặc [0, 2 ] radian.
trong giới hạn [−D, D] trong đó D là đƣờng chéo của ảnh. Nhƣ vậy một đƣờng có
thể biến đổi thành một điểm trong không gian tham số với các thông số và ,
không gian này cũng đƣợc gọi là không gian Hough. Kết quả của biến đổi Hough
đƣợc lƣu giữ trong một ma trận gọi là accumulator. Một chiều của ma trận này là
các giá trị (giá trị góc) và chiều kia là các giá trị (khoảng cách). and each
element has a value telling how many points/pixels are on the line with the
parameters (rho, theta). So the element with the highest value tells what line is most
represented in the input image.
Các bƣớc biến đổi Hough đơn giản cho đƣờng thẳng:
1. Nạp ảnh

Số hóa bởi trung tâm học liệu

17
2. Tìm các biên trong ảnh (dùng một trong các phƣơng pháp tìm biên)
3. Với mọi pixels trong ảnh
Nếu pixel (x, y) là một điểm biên (edge) với mọi giá trị góc tính và góc
( ) với mọi pixel (x, y) tăng vị trí ( , ) trong accumulator
4. Vẽ không gian Hough.
5. Tìm giá trị lớn nhất trong accumulator
6. Vẽ đƣờng với giá trị lớn nhất trong ảnh đầu vào
Để tìm các đƣờng tròn sử dụng biểu thức
(x -a)
2
+ (y-b)
2
= r
2

(1.2)
Chúng ta có 3 tham số. Nếu viết lại phƣơng trình trên chúng ta nhận đƣợc
a = x – r*cos( ) (1.3)
b = y - r*sin( ) (1.4)
Nhƣ vậy chúng ta cần một mảng cấu trúc dữ liệu accumulator 3 chiều (3D)
lấy trong giới hạn 360
0
. Sau khi ảnh toàn thể đã đƣợc xử lý, accumulator sẽ trông
giống nhƣ hình bên phải. Mảng accumulator thì đƣợc vẽ với r trên trục y và theta
cắt chéo qua trục x (across the x-axis). Các đƣờng trong đƣờng cong accumulator -
đƣờng vật lý mạnh nhất trong ảnh đầu vào tƣơng ứng với các vùng đen nhất trên
accumulator.
Ví dụ biến đổi Hough tìm đƣờng thẳng [10]
Ý tƣởng: Tìm các đƣờng thẳng trong một ảnh đƣợc thông số hoá ở
dạng: r = xcos + ysin , trong đó r là khoảng cách vuông góc từ gốc toạ độ
đến đƣờng thẳng và là góc của r với trục x. Với mọi điểm (x, y) trên đƣờng
này r và là hằng số. Với N điểm thẳng hàng trong toạ độ Đề các có phƣơng
trình r = xcos + ysin . Biến đổi Hough sẽ chuyển N điểm này thành N đƣờng
hình sin trong mặt phẳng (r, ), chúng giao nhau ở điểm (r, ).

×