Tải bản đầy đủ (.doc) (68 trang)

Gán nhãn đối tượng dựa vào kỹ thuật nhận dạng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.37 MB, 68 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN

NGUYỄN VŨ QUANG

GÁN NHÃN ĐỐI TƯỢNG DỰA VÀO KỸ THUẬT
NHẬN DẠNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN

NGUYỄN VŨ QUANG

GÁN NHÃN ĐỐI TƯỢNG DỰA VÀO KỸ THUẬT
NHẬN DẠNG

Ngành

: Công nghệ thông tin

Chuyên ngành

: Quản lý Hệ thống thông tin

Mã số


: Chuyên ngành đào tạo thí điểm

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Đỗ Năng Toàn

Hà Nội - 2015


LỜI CAM ĐOAN
Tơi xin cam đoan tồn bộ nội dung bản luận văn này là do tôi tự sưu tầm, tra
cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài.
Nội dung luận văn này chưa từng được cơng bố hay xuất bản dưới bất kỳ
hình thức nào và cũng không sao chép từ bất kỳ một cơng trình nghiên cứu nào.
Tất cả phần mã nguồn của chương trình đều do tơi tự thiết kế và xây dựng,
trong đó có sử dụng một số thư viện chuẩn và các mã nguồn mở mà các tác giả xuất
bản cơng khai và miễn phí trên mạng Internet.
Nếu sai tơi xin hồn tồn chịu trách nhiệm.
Hà Nội, ngày 11 tháng 12 năm 2015
Học viên thực hiện


LỜI CẢM ƠN
Trong suốt thời gian học tập và nghiên cứu tại lớp cao học CIO-04 Viện
Công nghệ thông tin – Đại học Quốc Gia Hà Nội, tôi đã nhận được rất nhiều sự bảo
ban, quan tâm, định hướng, nhiệt tình của các thầy cơ trong Viện. Các thầy cơ đã
ln giúp đỡ tạo điều kiện giúp tơi có thể học tập cũng như nghiên cứu một cách tốt
trong suốt thời gian học tập tại trường. Nhân dịp này, tôi xin bày tỏ lời cảm ơn chân
thành tới tập thể các thầy cô trong Viện Công nghệ thông tin – Đại học Quốc Gia
Hà Nội.

Tôi xin chân thành cảm ơn sâu sắc tới Thầy PGS.TS Đỗ Năng Tồn đã cho
tơi nhiều sự chỉ bảo quý báu, đã tận tình hướng dẫn và tạo điều kiện cho tơi hồn
thành tốt luận văn tốt nghiệp này.
Tôi xin cảm ơn các đồng nghiệp và người thân đã động viên, giúp đỡ tôi
trong quá trình nghiên cứu và thực hiện luận văn này.
Quá trình thực hiện đề tài khơng tránh khỏi các thiếu sót, rất mong tiếp tục
nhận được sự đóng góp ý kiến của các thầy, các cô giáo, các bạn đồng nghiệp đối
với đề tài nghiên cứu của tôi để đề tài được hồn thiện hơn.
Tơi xin trân trọng cảm ơn!


MỤC LỤC
MỤC LỤC.................................................................................................................................5
CÁC CHỮ VIẾT TẮT.............................................................................................................6
MỞ ĐẦU....................................................................................................................................8
2.1.3. Mơ hình nơron..................................................................................................28
2.1.5. Ứng dụng của mạng nơron nhân tạo..............................................................32
2.4.1. Khả năng sử dụng mạng nơron trong nhận dạng..........................................50
2.4.2. Mơ hình nhận dạng hệ thống sử dụng mạng nơron.......................................51
2.4.3. Nhận dạng hệ thống sử dụng mạng nơron.....................................................52


CÁC CHỮ VIẾT TẮT
Từ viết tắt

Ý nghĩa

MCP

Mơ hình McCulloch và Pitts


MSE

Mean-Square Error


DANH MỤC HÌNH VẼ
MỤC LỤC.................................................................................................................................5
CÁC CHỮ VIẾT TẮT.............................................................................................................6
MỞ ĐẦU....................................................................................................................................8
2.1.3. Mơ hình nơron..................................................................................................28
2.1.5. Ứng dụng của mạng nơron nhân tạo..............................................................32
2.4.1. Khả năng sử dụng mạng nơron trong nhận dạng..........................................50
2.4.2. Mơ hình nhận dạng hệ thống sử dụng mạng nơron.......................................51
2.4.3. Nhận dạng hệ thống sử dụng mạng nơron.....................................................52


8

MỞ ĐẦU
Cùng với sự phát triển ngày càng mạnh mẽ của khoa học kĩ thuật trong một
vài thập kỷ gần đây, xử lý ảnh tuy là một ngành khoa học còn tương đối mới mẻ so
với nhiều ngành khoa học khác nhưng hiện nay nó đang là một trong những lĩnh
vực phát triển rất nhanh và thu hút sự quan tâm đặc biệt từ các nhà khoa học, thúc
đẩy các trung tâm nghiên cứu, ứng dụng về lĩnh vực hấp dẫn này.
Nhận dạng và gán nhãn cho hình ảnh đóng vai trò quan trọng trong nhiều
ứng dụng thực tế về khoa học kĩ thuật cũng như trong cuộc sống thường ngày như:
sản xuất và kiểm tra chất lượng, sự di chuyển của Robot, các phương tiện đi lại tự
trị, công cụ hướng dẫn cho người mù, an ninh và giám sát, nhận dạng đối tượng,
nhận dạng mặt, các ứng dụng trong y học, sản xuất, hiệu chỉnh video,…

Một trong những ứng dụng quan trọng, là việc nhận dạng và gán nhãn cho
các loại hình ảnh …. Tự động nhận dạng ảnh và đặt vị trí nhãn là một lĩnh vực trong
trực quan hóa thơng tin. Nhãn là các đoạn văn bản nhằm truyền đạt thông tin, làm rõ
ý nghĩa của các cấu trúc phức tạp được biểu diễn ở dạng đồ họa.
Bài toán nhận dạng và gán nhãn đã được đề cập, nghiên cứu nhiều trên thế
giới. Tại Việt Nam bài toán này cũng đang rất được chú trọng và được ứng dụng
trong rất nhiều lĩnh vực. Vì vậy, đề tài này được xây dựng với các mục đích: Tìm
hiểu về bài tốn nhận dạng hình ảnh và gán nhãn, ứng dụng của nó trong các lĩnh
vực; Tìm hiểu một số vấn đề, các thuật toán liên quan; Đặt nền tảng cho cá nhân
nghiên cứu, tìm hiểu sâu hơn về vấn đề này. Từ đó thiết kế một chương trình thử
nghiệm nhận dạng và gán nhãn cho một ảnh cụ thể.
Luận văn bao gồm 3 chương, nội dung các chương như sau:
Chương 1: Khái quát về gán nhãn và bài toán nhận dạng đối tượng
Chương này khái quát lại cơ bản những kiến thức về bài toán gán nhãn gồm
xử lý ảnh và gán nhãn trong xử lý ảnh. Đồng thời nói về bài tốn nhận dạng đối


9

tượng, vai trị và tầm quan trọng của bài tốn nhận dạng đối tượng, các phương
pháp nhận dạng đối tượng cũng như một số hệ thống nhận dạng đối tượng nổi tiếng
trên thế giới
Chương 2: Một số vấn đề trong nhận dạng đối tượng sử dụng mạng nơron
Chương 2 đề cập đến một số vấn đề trong nhận dạng đối tượng sử dụng
mạng nơron. Mô tả kiến trúc của một hệ thống nhận dạng đối tượng sử dụng mạng
nơron nhân tạo và cách thiết kế, huấn luyện mạng nơron nhân tạo cho việc nhận
dạng.
Chương 3: Chương trình thử nghiệm
Chương này áp dụng các kiến thức nghiên cứu trong chương 1 và chương 2,
sử dụng mạng nơron nhiều lớp lan truyền ngược và kỹ thuật gán nhãn để xây dựng

một chương trình nhận dạng ký tự.


10

CHƯƠNG 1: KHÁI QUÁT VỀ GÁN NHÃN VÀ BÀI TOÁN
NHẬN DẠNG ĐỐI TƯỢNG
Chương này khái quát lại cơ bản những kiến thức về bài toán gán nhãn gồm
xử lý ảnh và gán nhãn trong xử lý ảnh. Đồng thời nói về bài tốn nhận dạng đối
tượng, vai trị và tầm quan trọng của bài toán nhận dạng đối tượng, các phương
pháp nhận dạng đối tượng cũng như một số hệ thống nhận dạng đối tượng nổi tiếng
trên thế giới.

1.1. Khái qt về gán nhãn
1.1.1. Xử lý ảnh
Hình ảnh tĩnh có thể được biểu diễn bởi hàm hai chiều f(x,y), trong đó, x và
y là tọa độ khơng gian phẳng (2 chiều). Khi xét ảnh "đen-trắng", giá trị hàm f tại
một điểm được xác định bởi tọa độ (x,y) được gọi là độ chói (mức xám) của ảnh tại
điểm này. Nếu x,y,và f là một số hiện hữu các giá trị rời rạc, chúng ta có ảnh số.
Xử lý ảnh số là q trình biến đổi ảnh số trên máy tính (PC). Như vậy, ảnh số được
tạo ra bởi một số hữu hạn các điểm ảnh, mỗi điểm ảnh nằm tại một vị trí nhất định
và có 1 giá trị nhất định. Một điểm ảnh trong một ảnh còn được gọi là một pixel.
Thị giác có vai trị rất quan trọng với con người trong việc nhận biết thế giới
xung quanh. Chúng ta nhìn khơng chỉ để xác định và phân loại các vật thể, mà cịn
để tìm ra sự khác biệt và để có được một cảm nhận tổng thể, sơ bộ, cho một khung
cảnh. Thị giác con người rất chính xác: ta có thể nhận biết một khn mặt trong một
vài giây, ta có thể phân biệt màu sắc, có thể xử lý một lượng lớn thơng tin hình ảnh
rất nhanh. Cùng với ngôn ngữ, các thông tin dưới dạng hình ảnh đóng một vai trị
rất quan trọng trong việc trao đổi thơng tin. Chính vì vậy những năm gần đây đã có
sự kết hợp rất chặt chẽ giữa ảnh và đồ họa trong lĩnh vực xử lý thông tin. Trong

công nghệ thông tin, xử lý ảnh chiếm một vị trí rất quan trọng, bởi các ứng dụng đa
dạng và phong phú của nó trong nhiều lĩnh vực khoa học. Lĩnh vực xử lý ảnh luôn
thu hút được sự quan tâm của nhiều nhà khoa học bởi khả năng ứng dụng và lợi ích
to lớn của nó trong nhiều lĩnh vực của xã hội như quốc phịng, giải trí, y học, viễn


11

thám và giao thông. Như chúng ta biết, thông tin hình ảnh đóng vai trị rất quan
trọng trong trao đổi thông tin, bởi phần lớn thông tin mà con người thu được thông
qua thị giác. Do vậy, vấn đề nhận dạng trong xử lý ảnh, đặc biệt là so khớp, phân
loại, nhận dạng đối tượng ảnh chuyển động đang được quan tâm của nhiều nhà
nghiên cứu bởi tính khoa học và ứng dụng đa dạng. Đồng thời, với sự phát triển
không ngừng của khoa học và tốc độ xử lý của máy tính thì ứng dụng lĩnh vực thị
giác máy tính và xử lý ảnh đang ngày càng được phát triển và nghiên cứu mạnh mẽ.
Xử lý ảnh là một phần của lĩnh vực xử lý tín hiệu số. Tăng cường chất lượng
thơng tin hình ảnh đối với q trình tri giác của con người và biễu diễn trên máy
tính. Xử lý ảnh số bao gồm các phương pháp và kỹ thuật để biến đổi, để truyền tải
hoặc mã hóa các ảnh tự nhiên.
Xử lý ảnh liên quan đến việc thay đổi hình ảnh để đạt được một trong hai
mục đích:
Thứ nhất: biến đổi ảnh và làm đẹp ảnh.
Thứ hai: tự động phân tích nhận dạng ảnh hay đốn nhận ảnh và đánh giá
các nội dung của ảnh.
Lý do phải xử lý ảnh:
Ảnh có thể bị lỗi trong q trình thu ảnh, truyền dẫn và hiển thị (hồi phục,
nâng cao chất lượng ảnh, nội suy)
Ảnh có thể mang các nội dung nhạy cảm (vd, chống lại copy không hợp
pháp, giả mạo và lừa đảo)
Tạo các bức ảnh có hiệu ứng nghệ thuật

Có thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức tạp của
thuật toán xử lý như sau:
Xử lý ảnh mức thấp: là các quá trình biến đổi đơn giản như thực hiện các bộ
lọc nhằm khử nhiễu trong ảnh, tăng cường độ tương phản hay độ nét của ảnh. Trong
trường hợp này, tín hiệu đưa vào hệ thống xử lý và tín hiệu đầu ra là ảnh quang học.


12

Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường được sử dụng để
phân lớp, phân đọan ảnh, xác định và dự đóan biên ảnh, nén anh để lưu trữ hoặc
truyền phát. Đặc điểm của các hệ thống xử lý ảnh mức trung là tín hiệu đầu vào là
hình ảnh, cịn tín hiệu đầu ra là các thành phần được tách ra từ hình ảnh gốc, hoặc
luồng dữ liệu nhận được sau khi nén ảnh.
Xử lý ảnh mức cao: là q trình phân tích và nhận dạng hình ảnh. Đây cũng
là quá trình xử lý được thực hiện trong hệ thống thì giác của con người
Các giai đoạn xử lý ảnh

Hình 1.1. Các giai đoạn xử lý ảnh

Thu nhận ảnh:
Ảnh được thu nhận từ thế giới thực qua máy chụp hình,từ tranh ảnh qua máy
quét hoặc từ vệ tinh thông qua bộ cảm biến số hoặc tương tự. Nhìn chung các hệ
thống thu nhận ảnh thực hiện 1 quá trình Cảm biến: biến đổi năng lượng quang học
thành năng lượng điện (giai đoạn lấy đối tượng). Tổng hợp năng lượng điện thành
ảnh (giai đoạn lượng tử hóa).
Số hóa ảnh:
Số hóa các ảnh thu nhận được để lưu trữ vào máy tính. Biến đổi ảnh tương tự
thành ảnh rời rạc để xử lý bằng máy tính: Thơng qua q trình lấy đối tượng (rời rạc
về mặt khơng gian) và lượng tử hóa (rời rạc về mặt biên độ).



13

Xử lý số:
Là một tiến trình gồm nhiều cơng đoạn nhỏ: Tăng cường ảnh (Enhancement),
khôi phục ảnh (Restoration), phát hiện biên (Egde Detection), phân vùng ảnh
(Segmentation), trích chọn các đặc tính (Feature Extraction)...
+ Tăng cường ảnh (Image Enhancement): Làm nổi bật các đặc trưng đã chọn
để nâng cao chất lượng hình ảnh. Các kỹ thuật được chọn: lọc độ tương phản, khử
nhiễu, nổi màu, nổi biên, giãn độ tương phản.
+ Khôi phục ảnh (Image Restoration): Loại bỏ hay tối thiểu hóa các ảnh
hưởng của mơi trường bên ngồi hay hệ thống thu nhận ảnh gây ra. Kết quả thu
được là ảnh gần giống với ảnh gốc.
Do những nguyên nhân khác nhau: có thể do thiết bị thu nhận ảnh, do nguồn
sáng hay do nhiễu, ảnh có thể bị suy biến nên cần tăng cường và khôi phục ảnh để
làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống với trạng thái
gốc (trạng thái trước khi ảnh bị biến dạng)
+ Phân vùng ảnh (Segmentation): Phân chia một ảnh thành các bộ phận cấu
thành, hoặc xác định một số thành phần trong ảnh như tìm đường thẳng, hình trịn,
hoặc hình dạng khác biệt trong ảnh.
+ Phương pháp phát hiện đường biên trực tiếp dựa trên các phân tích về sự
thay đổi độ chói của ảnh. Kỹ thuật chủ yếu dùng để phát hiện biên là dùng đạo hàm.
Khi lấy đạo hàm bậc nhất của ảnh ta có phương pháp gradient, khi lấy đạo hàm bậc
hai ta có kỹ thuật Laplace.
- Hệ quyết định
Tùy mục đích của ứng dụng mà chuyển sang giai đoạn khác là hiển thị, nhận
dạng, phân lớp, truyền thông…
+ Nhận dạng ảnh: Là quá trình phân loại đối tượng được biễu diễn theo một
mơ hình nào đó và gán chúng vào một lớp dựa theo những quy luật và các đối tượng

chuẩn.Nhận dạng áp dụng trong việc bảo mật, an ninh, nhận dạng chữ viết, ...Các


14

phương pháp nhận dạng: Nhận dạng dựa vào phân hoạch không gian, nhận dạng
theo cấu trúc, nhận dạng dựa theo mạng nơron, mơ hình Markov ẩn.
+ Biểu diễn ảnh (Image Representation): Các phần tử đặc trưng cơ bản của
ảnh là điểm ảnh. Các mơ hình thường sử dụng là: mơ hình tốn học –biểu diễn ảnh
thơng qua các hàm hai biến trực giao, mơ hình thống kê –biểu diễn thơng qua các
đại lượng kỳ vọng, phương sai, moment.
Một số phương pháp biểu diễn thường dùng:
• Biểu diễn bằng mã chạy (Run-Length Code)
• Biểu diễn bằng mã xích (Chaine -Code)
• Biểu diễn bằng mã tứ phân (Quad-Tree Code)
Chúng ta có thể thấy rằng, không phải bất kỳ một ứng dụng xử lý ảnh nào cũng bắt
buộc phải tuân theo các bước xử lý đã nêu ở trên, ví dụ như các ứng dụng chỉnh sửa
ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý. Một cách tổng quát thì những chức
năng xử lý bao gồm cả nhận dạng và giải thích thường chỉ có mặt trong hệ thống
phân tích ảnh tự động hoặc bán tự động, được dùng để rút trích ra những thơng tin
quan trọng từ ảnh, ví dụ như các ứng dụng nhận dạng kí tự quang học, nhận dạng
chữ viết tay vv….

1.1.2. Gán nhãn trong xử lý ảnh
Nhãn là các đoạn văn bản nhằm truyền đạt thông tin, làm rõ ý nghĩa của các
cấu trúc phức tạp được biểu diễn ở dạng đồ họa. Bài toán tự động gán nhãn được
xác định là một lĩnh vực nghiên cứu quan trọng của ACM Computational Geometry
Task Force (Đội tính tốn hình học ACM)
Gán nhãn là nguồn của nhiều bài tốn tối ưu hóa hình học. Ngay cả khi nhãn
được đặt vào vị trí cố định tương ứng với một điểm, đây vẫn là bài toán NP-hard.

Các bản đồ cần được gán nhãn, vậy cần có các giải thuật hiệu quả, giải thuật
heuristics để xác định những ràng buộc, vị trí có thể.
Gán nhãn cho đối tượng là xác định nhãn phân loại cho từng thành phần
trong đối tượng quan sát được. Gán nhãn cho đối tượng được sử dụng nhiều trong


15

các bài tốn gán nhãn từ loại, nhận dạng hình ảnh, âm thanh hay các bài toán về dự
đoán gen.
Đây là bài tốn có ứng dụng trong nhiều lĩnh vực bao gồm vẽ bản đồ, hệ
thống thông tin địa lý và vẽ đồ thị. Hiện trên thế giới đã có nhiều cơng trình nghiên
cứu về bài tốn gán nhãn tự động. Tuy nhiên ở Việt Nam, bài tốn này cịn được đề
cập đến một cách hạn chế.
Do quá trình gán nhãn là nhiệm vụ đơn điệu nhưng lại rất cần thiết nên rất
thích hợp cho tự động hóa. Rất khó để định lượng tất cả các đặc tính của một vị trí
tốt để gán nhãn do những vị trí này còn phụ thuộc vào cảm nhận của con người như
trực giác và kinh nghiệm..., đặc biệt là khi những cảm giác, kinh nghiệm này được
hoàn thiện qua nhiều thế kỷ bởi những nhà vẽ bản đồ và được họ nâng lên thành
một nghệ thuật. Vì vậy các vị trí nhãn do các hệ thống máy tính cung cấp khó có thể
có chất lượng tương đương so với làm thủ cơng bởi những người làm bản đồ có
kinh nghiệm. Tuy vậy vẫn có nhiều lĩnh vực khơng có nhiều địi hỏi cao, nghiêm
ngặt về tính thẩm mĩ, các kỹ thuật tự động gán nhãn có thể được áp dụng trong
những trường hợp này. Ví dụ có thể áp dụng để gán nhãn tức thời cho những hệ
thống thông tin địa lý trực tuyến, tìm kiếm bản đồ trên internet hay một số bản đồ
với mục đích đặc biệt khác như hiển thị điều tra dân số, thăm dị dầu khí, điều tra
đất. Hiện tại, các hệ thống tương tác bán tự động có thể là hướng tiếp cận phổ biến
nhất cho nghiên cứu gán nhãn tự động. Các hệ thống có thể cung cấp các vị trí
nhãn, những vị trí này sau đó được chỉnh sửa thủ cơng để đạt được kết quả như
mong muốn. Hơn nữa toàn bộ khái niệm của gán nhãn bản đồ tự động có thể thay

đổi phụ thuộc vào khả năng của máy tính. Bản đồ có thể được thể hiện dưới dạng
điện tử, cho phép tương tác với người dùng để hiển thị những thông tin theo u cầu
thay vì hiển thị tồn bộ mọi thơng tin.
Trong bài tốn gán nhãn cho đối tượng thành công, nhãn phải được đặt sao
cho người xem dễ đọc và theo tiêu chuẩn chất lượng thẩm mỹ cơ bản. Nhãn phải
được đặt ở vị trí tốt nhất có sẵn theo một số quy tắc cơ bản: Nhãn phải được dễ
dàng đọc, nhanh chóng xác định vị trí một nhãn và đối tượng mà nó thuộc về thì


16

nên được dễ dàng thừa nhận, nhãn phải được đặt rất gần với các đối tượng của
chúng, nhãn không được che khuất các nhãn khác hoặc các đối tượng khác, một
nhãn phải được đặt ở vị trí thích hợp nhất trong số tất cả các vị trí dễ đọc. Tóm tắt
các đánh giá chất lượng gán nhãn trong ba quy tắc cơ bản sau đây:
- Khơng có sự chồng chéo của một nhãn với các nhãn khác, các đối tượng
đồ họa khác của bản vẽ.
- Mỗi nhãn có thể dễ dàng được xác định là của đối tượng nào trong hình vẽ.
- Mỗi nhãn phải được đặt ở vị trí tốt nhất có thể (trong số tất cả các nhãn có
vị trí chấp nhận được). Thứ tự hiển thị ưu tiên giữa các vị trí nhãn có thể thay đổi
tùy theo ứng dụng cụ thể.
Phần lớn nghiên cứu giải quyết các bài toán gán nhãn đã được tập trung vào
việc ghi nhãn cho đối tượng của bản đồ địa lý và kỹ thuật. Vấn đề vị trí nhãn thường
được phân chia thành ba nhiệm vụ: ghi nhãn điểm, ghi nhãn đường, và ghi nhãn
khu vực.
Đã có nhiều nghiên cứu để giải quyết bài toán gán nhãn cho một tập hợp các
điểm hoặc các nút, bài tốn vị trí nút nhãn (NLP: Node Label Placement).
Việc gán nhãn cho một tập hợp các đường hoặc cạnh, cũng được gọi là Bài
toán vị trí cạnh nhãn (ELP: Edge Label Placement). Bài tốn ghi nhãn tổng hợp, bài
tốn vị trí nhãn các tính năng đồ họa (GFLP: Graphical Feature Label Placement)

nơi một đặc điểm đồ họa có thể là một điểm, đường, hoặc khu vực, đã được giải
quyết chủ yếu trong khuôn khổ của ngành bản đồ; Tuy nhiên, nó đã trực tiếp ứng
dụng trong lĩnh vực vẽ đồ thị. Trong nhiều ứng dụng thực tế, mỗi đặc điểm đồ họa
có thể có nhiều hơn một nhãn. Sự cần thiết phải chỉ định nhiều nhãn không chỉ khi
các đối tượng được gán lớn hoặc dài, nhưng cũng khi nó là cần thiết để hiển thị các
thuộc tính khác nhau của một đối tượng. Vấn đề này được gọi là Bài tốn vị trí đa
nhãn (MLP: Multiple Label Placement) và đã được giải quyết.

1.2. Bài toán nhận dạng đối tượng
1.2.1. Giới thiệu


17

Như chúng ta biết, sự xuất hiện hình ảnh của một bề mặt phụ thuộc vào
nhiều yếu tố: Ánh sáng, các thông số máy ảnh và định vị máy ảnh. Trong rất nhiều
lĩnh vực như điều khiển, tự động hóa, công nghệ thông tin…, nhận dạng được đối
tượng là vấn đề mấu chốt quyết định sự thành công của bài toán. Nhận dạng là bước
đầu tiên và quan trọng nhất của nhiều lĩnh vực khoa học, đặc biệt trong lĩnh vực
điều khiển và tự động hóa nếu khơng nhận dạng chính xác đối tượng điều khiển thì
sẽ khơng có giải pháp tối ưu nhất để điều khiển chúng. Từ việc một đối tượng phải
được nhận dạng từ sự xuất hiện của nhiều vật thể, sự phức tạp của nhận dạng đối
tượng phụ thuộc vào nhiều yếu tố. Nhận dạng là quá trình phân loại các đối tượng
được biểu diễn theo một mơ hình nào đó và gán chúng một tên (gán cho đối tượng
một tên gọi, tức là một dạng) dựa theo những quy luật và mẫu chuẩn.
Vấn đề nhận dạng đối tượng có thể được định nghĩa như là một vấn đề ghi
nhãn dựa trên mơ hình của các đối trượng được biết đến. Thơng thường, đưa ra một
hình ảnh bao gồm một hoặc nhiều đối tượng được quan tâm (cả nền) và một tập hợp
các nhãn tương ứng với một tập hợp các nhãn tương ứng tới tập hợp các mơ hình
được biết đến tới hệ thống, hệ thống sẽ gán nhãn đúng khu vực,hoặc thiết lập một

khu vực, trong hình ảnh. Vấn đề nhận dạng đối tượng liên quan chặt chẽ đến vấn đề
Segment: Nếu thiếu bất kỳ một phần nào nhận dạng của đối tượng segment ko thể
hoàn thiện, và thiếu Segmentation, việc nhận dạng đối tượng là ko thể.
Bài toán nhận dạng đối tượng là bài tốn nhận dạng các đối tượng có trong
ảnh và gán nhãn cho chúng một cách chính xác. Là quá trình liên quan đến việc mơ
tả các đối tượng mà người ta muốn đặc tả nó. Q trình nhận dạng thường đi sau
q trình trích chọn các đặc tính chủ yếu của đối tượng.
Nhận dạng đối tượng ảnh là một quá trình phân hoạch ảnh thành các đối
tượng ảnh con, chúng được gán vào từng lớp nhãn để được đối sánh với mẫu và đối
sánh theo các quy luật biết trước nào đó.


18

Hình 1.2. Tổng quát hệ nhận dạng ảnh
Nhận dạng đối tượng là giai đoạn cuối của các hệ thống xử lý ảnh. Nhận
dạng đối tượng dựa trên lý thuyết nhận dạng (Pattern Recognition) đã được đề cập
trong nhiều sách về nhận dạng. Trong lý thuyết về nhận dạng nói chung và nhận
dạng ảnh nói riêng có một số cách tiếp cận khác nhau:
- Nhận dạng đối tượng dùng thống kê.
- Nhận dạng dựa vào cấu trúc.
- Nhận dạng dựa vào kỹ thuật mạng neural
Hai cách tiếp cận đầu là cách tiếp cận kinh điển. Các đối tượng ảnh quan sát
và thu nhận được phải trải qua giai đoạn tiền xử lý nhằm tăng cường chất lượng,
làm nổi các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc trưng, cuối cùng
mới là giai đoạn nhận dạng. Cách tiếp cận thứ ba hồn tồn khác. Nó dựa vào cơ
chế đốn nhận, lưu trữ và phân biệt đối tượng mơ phỏng theo hoạt động của hệ thần
kinh con người. Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác người
không cần qua giai đoạn cải thiện mà chuyển ngay sang giai đoạn tổng hợp, đối
sánh với các mẫu đã lưu trữ để nhận dạng.


1.2.2. Các cách tiếp cận
1.2.2.1. Nhận dạng đối tượng dùng thống kê
Khái niệm: Nhận dạng đối tượng dùng thống kê là một phương pháp nhận
dạng đối tượng dựa vào các đặc tính thống kê của các đối tượng. Nhận dạng đối
tượng dùng thống kê sử dụng các phương pháp máy học dựa trên thống kê để học
và rút ra đối tượng tham khảo từ một lượng dữ liệu lớn.


19

Hệ thống nhận dạng đối tượng dùng thống kê

Hình 1.3: Sơ đồ khối cho phương pháp nhận dạng đối tượng dùng thống kê
Trong hình 1.3:
Bộ chuyển đổi: Được sử dụng để đo các thuộc tính khác nhau
của mơ hình.
Khai thác đặc điểm: Từ các phép đo, trích xuất số lượng đặc điểm cần thiết
để mô tả đối tượng và phân loại.
Lựa chọn đặc điểm: Tùy thuộc vào từng mục đích, bộ lựa chọn đặc điểm sẽ
lựa chọn một con số tối thiểu các đặc điểm đủ để phân loại đối tượng.
Học: Sau khi đã lựa chọn được các đặc điểm đủ để phân loại, hệ thống phân
loại theo thống kê sẽ vào giai đoạn học và phân loại các đối tượng đầu vào.
Phân loại: Dựa vào các đặc điểm phân loại được học, hệ thống tiến hành
phân loại các đối tượng.
1.2.2.2. Nhận dạng dựa theo cấu trúc
Biểu diễn định tính
Trong cách biểu diễn này, người ta quan tâm đến các dạng và mối quan hệ
giữa chúng. Giả thiết rằng, mỗi đối tượng được biểu diễn bởi một dãy ký tự, các đặc
tính biểu diễn bởi cùng một số ký tự. Phương pháp nhận dạng ở đây là nhận dạng

logic, dựa vào hàm phân biệt là hàm Bool. Cách nhận dạng là nhận dạng các từ có
cùng độ dài.
Thủ tục phân loại và nhận dạng ở đây gồm hai giai đoạn:
• Giai đoạn 1: xác định các quy tắc xây dựng, tương đương với việc nghiên
cứu một văn phạm trong một ngơn ngữ chính thống


20

• Giai đoạn 2: xem xét tập các dạng trong khơng gian mẫu có được sinh ra
hồn tồn từ các dạng cơ bản đó khơng. Nếu nó thuộc tập đó thì coi như đã phân
loại xong.
Tuy nhiên, ở phương pháp này, văn phạm là một vấn đề lớn khá phức tạp và
khó có thể tìm được loại phù hợp một cách hồn hảo với mọi đối tượng. Vì vậy,
trong nhận dạng dự theo cấu trúc, ta chỉ sử dụng được một phần rất nhỏ.
Ngồi ra cịn có rất nhiều văn phạm khác nhau từ chính tắc đến phi ngữ cảnh.
Một văn phạm sẽ được sử dụng trong nhận dạng bởi một ngơn ngữ hình thức, trong
đó điển hình cho nhận dạng cấu trúc là PLD (Picture Language Description).
Trong ngôn ngữ PLD, các từ vựng là các vạch có hướng. Có bốn từ vựng cơ
bản:

Các từ vựng cơ bản của ngôn ngữ hình thức PLD
Các phép tốn cho các từ vựng trên được định nghĩa như sau:

Hình 1.4. Các phép tốn trong ngôn ngữ LCD


21

Các bước nhận dạng

Các đối tượng cần được nhận dạng theo phương pháp này được biểu diễn bởi
một câu trong ngơn ngữ, gọi là L(G). Khi đó thao tác phân lớp chính là xem xet một
đối tương có thuộc văn phạm L(G) khơng. Nói cách khác, nó có được sinh ra bởi
các luật của văn phạm G hay không.
Như vậy các bước cần phải thực hiện là:
• Xác định tập chung cho tất cả mọi đối tượng
• Xác định các quy tắc để sản sinh ra một câu và chúng khác nhau đối với
mỗi lớp
• Thực hiện q trình học với các câu biểu diễn các đối tượng mẫu nhằm xác
định văn phạm G.
• Ra quyết định .
Việc nhận dạng dựa theo cấu trúc vẫn còn là một ý tưởng và còn nhiều điều
cần nghiên cứu.
1.2.2.3. Nhận dạng dựa trên mạng nơron
Giới thiệu
Xét trường hợp đối tượng phi tuyến có độ phức tạp cao, nếu sử dụng phương
pháp giải tích thơng thường để nhận dạng sẽ rất khó khăn, thậm chí khơng thực hiện
được do sự hiểu biết nghèo nàn về đối tượng. Vì vậy các nhà khoa học đã đưa ra ý
tưởng là sử dụng cơng cụ tính tốn mềm như hệ mờ, mạng nơron, đại số gia tử để
xấp xỉ -chính là nhận dạng đối tượng. Mạng nơron là một trong những công cụ hữu
hiệu để nhận dạng mơ hình đối tượng, bằng phương pháp này ta khơng biết được
mơ hình tốn thực sự của đối tượng nhưng hồn tồn có thể sử dụng kết quả xấp xỉ
để thay thế đối tượng.
Mạng neural trong một vài năm trở lại đây đã được nhiều người quan tâm và
đã áp dụng thành công trong nhiều lĩnh vực khác nhau, như tài chính, y tế, địa chất
và vật lý. Thật vậy, bất cứ ở đâu có vấn đề về dự báo, phân loại và điều khiển, mạng


22


neural đều có thể ứng dụng được. Ví dụ như khả năng nhận dạng mặt người trong
các hệ thống quản lý thông tin liên quan đến con người (quản lý nhân sự ở các công
sở, doanh nghiệp; quản lý học sinh, sinh viên trong các trường trung học, đại học và
cao đẳng;…); các ngành khoa học hình sự, tội phạm; khoa học tướng số, tử vi,…
Mạng neural nhân tạo (Artificial Neural Networks : ANN) ra đời xuất phát
từ ý tưởng mô phỏng hoạt động của bộ não con người. Mạng neural nhân tạo là sự
tái tạo bằng kỹ thuật những chức năng của hệ thần kinh con người với vô số các
neural được liên kết truyền thông với nhau qua mạng. Giống như con người, ANN
được học bởi kinh nghiệm, lưu những kinh nghiệm đó và sử dụng trong những tình
huống phù hợp.
Kết hợp chặt chẽ với logic mờ, mạng neural nhân tạo đã tạo nên cuộc cách
mạng thực sự trong việc thơng minh hóa và vạn năng hóa các bộ điều khiển kỹ thuật
cao cho cả hiện nay và trong tương lai. Ví dụ như ứng dụng tự động điều khiển hệ
thống lái tàu, hệ thống dự báo sự cố,… Mạng neural dựa trên việc mô phỏng cấp
thấp hệ thống neural sinh học. Trong tương lai với sự phát triển mơ phỏng neural
sinh học, chúng ta có thể có loại máy tính thơng minh thật sự.
Cấu trúc neural nhân tạo
Mơ hình nơron nhân tạo gồm 3 phần chính: Bộ tổng liên kết đầu vào, bộ
động học tuyến tính và bộ phi tuyến.

1.2.3. Một số hệ thống nhận dạng đối tượng hiện nay
Dưới đây là hình ảnh một số hệ thống nhận dạng đối tượng nổi tiếng trên thế giới:

Hình 1.5: Hệ thống nhận dạng chữ viết tay của Google


23

Hình 1.6: Hệ thống nhận dạng vân tay


Hình 1.7: Hệ thống nhận dạng sinh học

Hình 1.8: Hệ thống nhận dạng biển số xe để kiểm sốt giao thơng


24

Hình 1.9: Hệ thống phát hiện và phân loại ung thư sử dụng dữ liệu mơ nhỏ.

Hình 1.10: Hệ thống phân loại mã vạch


25

1.2.4. Quy trình hoạt động của một hệ thống nhận dạng đối tượng
Quy trình hoạt động của một hệ thống nhận dạng đối tượng được mơ tả
như hình 1.11:
Dữ liệu đầu vào

Quá trình học

Thu thập dữ liệu

Tiền xử lý

Tiền xử lý

Lựa chọn/tách thuộc
tính


Tách thuộc tính

Thuộc tính

Thuộc tính
Mơ hình
hình
HìnhPhân
1.11:loại
Q trình hoạt động của một hệ thống nhậnMô
dạng
đốihọc
tượng
Hậu xử
lý động của hệ thống nhận dạng đối tượng trình tự như sau:
Quy trình
hoạt
Thu thập dữ liệu thông qua thiết bị cảm biến:
- Ra
Giới
hạnđịnh
các thông số vật lý
quyết
- Một số vấn đề cần lưu ý khi thu thập dữ liệu bao gồm: băng thông, độ

trễ, độ biến dạng, độ nhạy, độ phân giải…
Tiền xử lý:
- Loại bỏ nhiễu dữ liệu.
- Phân nhóm các đối tượng.
Trích xuất thuộc tính:

- Tìm kiếm một thể hiện mới cho thuộc tính.
Mơ hình học và dự đốn:
- Học phép ánh xạ giữa các thuộc tính và các nhóm đối tượng, phân lớp.
Phân loại:
- Sử dụng các thuộc tính và mơ hình học để gán một đối tượng cho một
phân lớp.
Hậu xử lý:
- Đánh giá sự tự tin trong quyết định đưa ra.
- Khai thác bối cảnh để cải thiện hiệu xuất.
Q trình học
Thu thập
dữ liệu

Lựa chọn
thuộc tính

Lựa
chọn mơ
hình

Học
phân loại

Đánh giá
phân loại


×