Tải bản đầy đủ (.ppt) (30 trang)

TÌM HIỂU “ CÔNG NGHỆ NHẬN DẠNG HÌNH ẢNH”

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.71 MB, 30 trang )

GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
TÌM HIỂU
“CÔNG NGHỆ NHẬN DẠNG HÌNH ẢNH”
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
Trước tiên, em xin gửi lời cảm ơn tới Khoa CNTT – trường Cao
Đẳng Kinh tế Công nghệ Tp.HCM đã tạo điều kiện và cho em cơ
hội được thực hiện luận văn tốt nghiệp này.
Thầy Trần Đức Hy, người trực tiếp hướng dẫn em trong
thời gian thực hiện báo cáo luận văn tốt nghiệp. Cảm ơn thầy đã
tạo điều kiện thuận lợi để em hoàn thành tốt bài báo cáo.
Cảm ơn thầy đã tận tình chỉ bảo, hướng dẫn và giải đáp các
vướng mắc trong quá trình nghiên cứu đề tài…
Các chị trong Ban thư kí khoa CNTT đã tạo điều kiện
cho em được hoàn thành tốt bài luận của mình trong thời
gian qua.
Qua bài báo cáo này, em cũng xin chân thành cảm ơn :
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
Các anh chị trong hai phòng Xử lí dữ liệu và Công nghệ phần
mềm thuộc Trung tâm thống kê tin học- Cục Thống Kê
Tp.HCM đã giúp đỡ em rất nhiều trong quá trình nghiên cứu đề tài.
Anh Nguyễn Quang Trung, Phó phòng Xử lí thông tin, Trung tâm
Tin học thống kê khu vực II – Cục Thống kê Tp.HCM, người đã
hướng dẫn em trong việc tìm hiểu “Công nghệ nhận dạng hỉnh
ảnh và ứng dụng của nó trong việc nhập và lưu trữ dữ liệu”.
Cũng xin cám ơn các bạn Nguyễn Thiện Lâm, Nguyễn Đức
Tuấn và bạn Lê Quang Đức đã cùng chia sẻ những khó khăn và


kinh nghiệm trong quá trình nghiên cứu và thực hiện luận văn.
Cuối cùng em xin gửi tới cha mẹ, cô chú em lời cảm ơn, biết ơn
chân thành nhất. Cảm ơn cha mẹ, cô chú đã tạo mọi điều thuận lợi
nhất giúp con hoàn thành tốt việc học của mình !
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh

CHƯƠNG 1
MỞ ĐẦU

CHƯƠNG 2
CÔNG NGHỆ NHẬN DẠNG HÌNH ẢNH

CHƯƠNG 3
CÔNG NGHỆ NHẬN DẠNG KÍ TỰ QUANG HỌC [OCR]

CHƯƠNG 4
HƯỚNG PHÁT TRIỂN
CÁC NỘI DUNG CHÍNH
CÁC NỘI DUNG CHÍNH
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
LÝ DO LỰA CHỌN ĐỀ TÀI
LÝ DO LỰA CHỌN ĐỀ TÀI
KẾT QUẢ CỤ THỂ ĐẠT ĐƯỢC
KẾT QUẢ CỤ THỂ ĐẠT ĐƯỢC
MỞ ĐẦU
MỞ ĐẦU

GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
Ngày nay, kể cả những người không chuyên đều ít nhiều nghe
nói đến công nghệ nhận dạng hình ảnh qua các quảng cáo,
giới thiệu các sản phẩm công nghệ số, các sản phẩm kĩ thuật
cao(Hi-Tech).
Chúng ta có thể đã quá quen thuộc với những dòng máy ảnh
được quảng bá là có tích hợp công nghệ nhận diện hình
ảnh(nhận diện khuôn mặt, nụ cười, ánh mắt…), các dòng máy
Laptop(máy tính xách tay) có tích hợp công nghệ nhận diện
khuôn mặt, hay dấu vân tay nhằm phục vụ cho cơ chế bảo
mật…
LÝ DO
LÝ DO
KẾT QUẢ CỤ THỂ ĐẠT ĐƯỢC
KẾT QUẢ CỤ THỂ ĐẠT ĐƯỢC
Đã hiểu được một cách tổng quan về : Công nghệ
nhận dạng, Công nghệ nhận dạng hình ảnh nói
chung và Công nghệ nhận dạng kí tự Quang học
(OCR) nói riêng.
Nắm bắt được khái quát một quy trình xử lý
ảnh, nhận dạng ảnh, quy trình số hóa dữ liệu, tài
liệu…



Tiếp cận với một số thuật toán điển hình sử dụng
trong nhận dạng
Tiếp cận khái niêm mạng Nơ-ron và ứng dụng
mạng Nơ-ron lan truyền ngược trong nhận dạng kí

tự quang học…

Trong quá trình nghiên cứu đề tài, em cũng được ôn
lại một số kiến thức môn Xác suất thống kê như định
luật Bayer…;được hiểu thêm về môn “Trí thông minh
nhân tạo”, …

Tiếp cận sử dụng hai phần mềm nhận dạng kí tự :
VNDOCR 4.0 (phiên bản Demo) và Accent
Capture 7.5; và sử dụng tính năng nhận dạng kí tự
quang học của bộ phần mềm ứng dụng văn phòng
Microsoft Office ( phiên bản 2003 profesional )

GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
NHẬN
DẠNG
TIẾNG
NÓI
NHẬN
DẠNG
HÌNH
ẢNH
CÔNG NGHỆ
CÔNG NGHỆ
NHẬN DẠNG HÌNH ẢNH
NHẬN DẠNG HÌNH ẢNH
NHẬN

DẠNG
MẪU
NHẬN
DẠNG
THEO
MẠNG
NƠRON
MẠNG
NƠRON
LAN
TRUYỀN
NGƯỢC
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
NHẬN DẠNG MẪU
NHẬN DẠNG MẪU
Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo
một mô hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng
một tên gọi) dựa theo những quy luật và các mẫu chuẩn.
Nhận dạng mẫu( pattern recognition ) là quá trình nhận dạng dựa
vào mẫu học đã biết trước. Ta gọi đó là quá trình Học có giám sát
(supervised learning).

Nhận dạng mẫu nhằm mục đích phân loại dữ liệu (là các
mẫu) dựa trên: hoặc là kiến thức tiên nghiệm (a priori)
hoặc dựa vào thông tin thống kê được trích rút từ các mẫu
có sẵn.
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
NHẬN DẠNG TIẾNG NÓI

NHẬN DẠNG TIẾNG NÓI
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với
mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu
tiếng nói thành một dãy tuần tự các mẫu đã được học trước
đó và lưu trữ trong bộ nhớ.
Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ,
hoặc các âm vị.
NHẬN DẠNG HÌNH ẢNH
NHẬN DẠNG HÌNH ẢNH
Là giai đoạn cuối cùng trong các hệ thống sử lý ảnh và cũng
là đích đến của toàn bộ quá trình xử lý hình ảnh. Nhận dạng
hình ảnh cũng dựa trên lý thuyết nhận dạng mẫu nói chung.
Có 3 phương pháp tiếp cận chính trong Nhận dạng hình ảnh :
1: Phương pháp nhận dạng dựa vào phân hoạch không gian;
2: Phương pháp nhận dạng cấu trúc;
3: Phương pháp nhận dạng dựa vào kĩ thuật mạng Nơ-ron
(Neural Networks).
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
NHẬN DẠNG DỰA THEO MẠNG NƠ-RON
NHẬN DẠNG DỰA THEO MẠNG NƠ-RON
Nơron sinh vật có nhiều dạng khác nhau như dạng hình tháp, dạng
tổ ong, dạng rễ cây. Tuy khác nhau về hình dạng, chúng có cấu trúc
và nguyên lý hoạt động chung.

Một tế bào nơron gồm bốn phần cơ bản:
- Các nhánh và rễ
- Thân thần kinh (Soma)
- Dây thần kinh (Axon
- Khớp thần kinh .

Trên cơ sở cấu trúc của nơron sinh học tổng quát người ta đề
xuất mô hình nơron nhân tạo gồm 3 phần chính:
- Bộ tổng liên kết đầu vào
- Bộ động học tuyến tính
- Bộ phi tuyến.
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
MẠNG NƠ-RON LAN TRUYỀN NGƯỢC
MẠNG NƠ-RON LAN TRUYỀN NGƯỢC
Thuật học lan truyền ngược là một trong những phát triển
quan trọng trong mạng nơron.Thuật toán này được áp dụng
cho các mạng nhiều lớp truyền thẳng (FeedForward) gồm các
phần tử xử lý với hàm kích hoạt liên tục. Các mạng như vậy
kết hợp với thuật toán học lan truyền ngược được gọi là mạng
lan truyền.
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
SỐ
HÓA
TÀI
LIỆU

GÌ ?
LỢI
ÍCH
CỦA
SỐ
HÓA

TÀI
LIỆU
NHẬN
DẠNG

TỰ
QUANG
HỌC
CÁC
HỆ
NHẬN
DẠNG
CHỮ
[OCR]
QUY
TRÌNH
SỐ
HÓA
DEMO
DEMO
CÔNG NGHỆ NHẬN DẠNG
CÔNG NGHỆ NHẬN DẠNG
KÍ TỰ QUANG HỌC [OCR]
KÍ TỰ QUANG HỌC [OCR]
LỊCH
SỬ
PHÁT
TRIỂN
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh

SỐ HÓA TÀI LIỆU LÀ GÌ ?
SỐ HÓA TÀI LIỆU LÀ GÌ ?

 Là việc chuyển đổi các loại tài liệu đang được lưu
trữ bằng các phương tiện thông thường (tài liệu in,
viết tay, hình ảnh, âm thanh, Microfilm, ) sang dạng
dữ liệu số để từ đó có thể dễ dàng ứng dụng Tin học
trong các công tác lưu trữ, quản lý, vận chuyển và
khai thác.
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
LỢI ÍCH CỦA VIỆC SỐ HÓA DỮ LIỆU
 Tiết kiệm không gian lưu trữ;
 Dễ dàng vận chuyển;
 Khả năng truy xuất dữ liệu nhanh;
 Độ bền và tính an toàn cao hơn;
 Có thể hiệu chỉnh, sửa chữa khi cần thiết;
 Chi phí giảm hơn so với phương pháp truyền thống;

 Dễ dàng ứng dụng công nghệ hiện đại trong quá trình ứng
dụng và khai thác.
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
NHẬN DẠNG KÍ TỰ QUANG HỌC
Nhận dạng ký tự quang học (Optical Character Recognition,
viết tắt là OCR), là loại phần mềm máy tính tạo ra để chuyển các hình
ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy
scanner) thành các văn bản tài liệu. OCR được hình thành từ một lĩnh
vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo, và machine vision.
Hệ thống nhận dạng yêu cầu phải được huấn luyện với các

mẫu của các ký tự cụ thể. Các hệ thống "thông minh" với độ chính xác
nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ
biến.
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
CÁC HỆ NHẬN DẠNG CHỮ
 Bài toán nhận dạng chữ là một bài toán lớn và được quan tâm từ lâu.
Bài toán này được phân thành 2 nhánh lớn:
 Nhận dạng chữ in để phục vụ cho công tác đọc tự
động văn bản, đẩy nhanh việc nhập thông tin vào máy.
 Nhận dạng chữ viết tay với các font chữ khác nhau, phục vụ
cho các ứng dụng đọc và xử lý hoá đơn, văn bản,v, ,v.
 Về cơ chế, một hệ thống nhận dạng chữ thường gồm các khối
chính, phù hợp với các giai đoạn xử lý sau:
- Khối xử lý sơ bộ;
- Khối tách chữ;
- Khối nhận dạng chữ;
- Khối phục hồi chữ (hoàn thiện về nội dung và hình thức,
chữa lỗi, v, v.
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
Lưu trữ văn bản
S
-File
File nén
File làm việc
Xử lý sơ bộ
Tách vùng chữ ra khỏi văn bản
Tách ký tự ra khỏi từ
Nhận dạng chữ

File ASCII của máy
Tìm kiếm văn bản
Trình bày lại văn bản theo bản gốc
Văn bản scanner
Học kiểu chữ


đồ
đồ


tổng
tổng


quát
quát


hệ
hệ


thống
thống


nhận
nhận



dạng
dạng


chữ
chữ


viết
viết
CÁC HỆ NHẬN DẠNG CHỮ
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
QUY TRÌNH SỐ HÓA TÀI LIỆU
GVHD : Thầy Trần Đức Hy SVTH :
Vũ Linh
QC / Quét lại
Chuần bị
tài liệu
***
chuẩn bị
giấy
***
Tạo các nhóm
cùng loại
***
Tổ chức các
file nhập
***

Thiết lập
e-mail
Các máy
chủ
nhận dạng
kí tự
quang học
***
Làm sạch
ảnh
***
Mã lớp
***
OCR/ICR/
OMR
***
Đọc mã
vạch
Kiểm tra và
Chứng thực
***
chứng thực
và kiểm tra
dữ liệu
***
sửa lỗi dữ
liệu
***
nhập liệu
thông

thường
***
chứng thực
CSDL
***
Xác nhận
các bản gốc
Chương
trình
Tạo PDF
***
Chỉ tạo
ảnh các
file PDF
***
Tạo ảnh
và chữ
của các
file PDF
Quét
***
Số hóa
giấy tờ
***
Nhập các
File
***
Xem lại
ảnh
Xtrata

Server
***
Vùng
Phân loại
***
Phân loại
Lớp
***
đăng kí
mẫu
Máy chủ
Phát tán
***
Chuyển đổi
định dạng
File
***
Nén các anh
***
Xuất dữ liệu
***
Xuất file
PDF và các
văn bản đã
được nhận
dạng đầy đủ
QUY TRÌNH SỐ HÓA TÀI LIỆU

×