Nâng cao hiệu quả hoạt động ngân hàng bằng công nghệ nhận diện chữ viết
trong hình ảnh
Trong thời đại của kỷ nguyên chuyển đổi số và cuộc Cách mạng công
nghiệp lần thứ tư (CMCN 4.0), vi ệc các ngân hàng ứng dụng trí tuệ nhân
tạo (Artificial Intelligence - AI) đã trở thành một xu hướng tất yếu. Bài
tốn số hóa các văn bản tự động từ dạng bản cứng (trên giấy) thành các dữ
liệu được lưu trữ dưới dạng số không những giúp ngân hàng tránh m ất mát
thông tin, đồng thời, người sử dụng có thể dễ dàng tìm kiếm và truy xuất
thông tin. Bài viết đề xuất cách giải quyết khâu quan trọng nhất trong việc
số hóa tài liệu, đó là nhận dạng chữ viết trong hình ảnh (Optical Character
Recognition - OCR). Trên thực tế, các dạng chữ viết trên văn bản rất đa
dạng và nhiều kiểu từ chữ in hoa, chữ in thường và cả chữ viết tay, thậm
chí lại có nhiều kiểu định dạng như in đậm, in nghiêng... gây tốn kém thời
gian của nhân viên để thao tác các hoạt động truyền thống như kiểm tra,
lưu trữ các biên lai, chứng minh thư... Từ nhu cầu thực tế đó, việc sử dụng
AI để chuyển hóa chữ viết từ hình ảnh của văn bản thành các văn bản số
hóa là một giải pháp cần thiết. Quy trình này sẽ bao gồm các bước: Chuyển
dữ liệu gốc ban đầu về dạng ảnh; nhận diện thông tin từ các ảnh chụp
chuyển thể thành các văn bản, hoặc bóc tách thành các trư ờng thơng tin có
ý nghĩa. Để giải quyết bài tốn nhận dạng chữ viết từ hình ảnh của văn
bản, các mơ hình phát hiện chữ (text detection) và nhận diện chữ (text
recognition) bằng các mạng thần kinh tích chập (Convolutional Neural
Network - CNN), mạng thần kinh hồi quy (Recurrent Neural Network RNN), cơ chế chú ý (Attention Mechan ism) được sử dụng. Kết quả thử
nghiệm giải pháp đề xuất trên bộ dữ liệu chữ viết tay của người Việt đạt độ
chính xác cao, có thể ứng dụng trong thực tiễn.
I. Giới thiệu
Bài toán nhận diện chữ trong ảnh hay kỹ thuật OCR đã có từ những năm 90
của thế kỷ trước. Lần đầu tiên OCR bắt đầu được mọi người biết đến rộng
rãi vào năm 1913 khi Ti ến sĩ Edmund Fournier d’Albe phát minh ra máy th ị
âm để quét và chuyển hóa văn bản thành âm thanh cho ngư ời mù. Từ đó
đến nay, OCR đã phát triển nhanh chóng trên thế giới trong mọi lĩnh vực
liên quan đến xử lý hình ảnh. Việc ứng dụng của OCR rất đa dạng trong
các ngành công nghiệp như xe tự lái (Self-driving Car), dịch máy (Imagebased Machine Translation), h ệ thống thu phí thơng minh b ằng hình ảnh
(Electronic Toll Collectio n - ETC), tự động hóa quy trình bằng robot
(Robotic Process Automation - RPA) hay lưu trữ sổ khám bệnh, đơn thuốc
trong y tế mà chúng ta đã bi ết. Đối với lĩnh vực ngân hàng, từ phía người
dùng, ứng dụng của OCR rõ hơn qua các tiện nghi mà các ứng dụng ngân
hàng mang lại như làm thẻ online từ xa nhờ định danh khách hàng điện tử
(electronic Know Your Customer - eKYC), rút tiền bằng chứng minh thư.
Thời gian thực hiện giao dịch được giảm xuống nhờ việc kiểm tra thơng tin
có thể được thực hiện bằng máy móc mà khơng cần tới sự kiểm tra thủ cơng
của con người.
Với sự gia tăng nhanh chóng về số lượng tài khoản ngân hàng và các giao
dịch chi tiêu online, cũng như các ứng dụng đi động kết nối tới tài khoản
ngân hàng, khối lượng dữ liệu đổ về ngân hàng với các giao dịch người
dùng ngày một lớn hơn theo cấp số nhân. Ứng dụng OCR là điều kiện tiên
quyết cho các ngân hàng đảm bảo đáp ứng được sự gia tăng dữ liệu này.
Nếu mọi loại giấy tờ từ giấy vay, chứng minh thư, căn cư ớc cơng dân, các
loại hợp đồng, hóa đơn, ghi ch ú ngân hàng, gi ấy ủy quyền, báo cáo tài
chính... đều được xử lý thủ cơng như truyền thống thì khó đáp ứng được
u cầu về thời gian xử lý nhanh chóng như kỳ vọng. Sử dụng OCR, các
ngân hàng có lợi thế hơn trong việc số hóa các tài liệu về một khối thống
nhất, giúp ngân hàng chu ẩn hóa được các dữ liệu, vận hành 24/7, đơn giản
hóa quy trình, giảm các gánh nặng về hành chính, tối ưu hóa chí phí kinh
doanh.
Trên thế giới, cụm từ AI từ năm 2019 đã trở thành một cụm từ phổ biến
trong giới tài chính. Theo báo c áo tồn cầu của Phòng Thương mại quốc tế
(ICC) năm 2020, 28% s ố lượng ngân hàng sử dụng OCR cho việc bóc tách
dữ liệu và số hóa văn bản, bao gồm các ngân hàng l ớn trong lĩnh vực tài
chính như HSBC, Standard Chartered cùng v ới nhiều tổ chức tài chính
khác. Nhiều ngân hàng khác ở Trung Quốc cịn sử dụng OCR kết hợp với
nhận diện khuôn mặt để cung cấp bảo mật 2 lớp ở cây ATM.
Tại Việt Nam, theo Chương trình Chuy ển đổi số quốc gia đến năm 2025,
định hướng đến năm 2030 của Chính phủ đã nêu rõ vai trị c ủa các tổ chức
tài chính ngân hàng trong công cu ộc chuyển đổi số của đất nước. Bên cạnh
đó, sự ảnh hưởng của đại dịch Covid-19 trên thế giới đã phần nào làm đẩy
nhanh hơn q trình s ố hóa tồn diện ngành Ngân hàng tại nước ta. Xu
hướng này được áp dụng ở hầu hết các ngân hàng lớn như Ngân hàng
TMCP Tiên Phong (TPBank) có h ệ thống ATM tự động chạy 24/7
(LiveBank) hay Ngân hàng TMCP Bưu đi ện Liên Việt có LienViet24h...
Đặc biệt là TPBank và Ngân hàng TMCP Quân đ ội (MB) đã ghi nh ận hơn
80% giao dịch trên nền tảng số. Qua đó, thấy được một bức tranh toàn diện
hơn về bối cảnh áp dụng số hóa ở Việt Nam hiện nay rất phù hợp cho ứng
dụng OCR nói riêng và AI nói chung.
Ngày nay, OCR không chỉ phát triển mạnh với tiếng Latin mà cịn có thể
giải quyết các ngơn ngữ khác trên thế giới từ tiếng Ả Rập, Ấn Độ, Trung
Quốc... kể cả các chữ tượng hình. Nó có th ể xác định được cả văn bản scan
và hình ảnh khơng phân bi ệt là chữ in hay chữ viết tay, hệ thống đều có thể
xử lý được với độ chính xác cao. V ới các quy định rất gắt gao về an tồn
dữ liệu, bảo mật của ngành Tài chính, OCR có th ể chạy trên cả các máy
server của ngân hàng hay trên điện toán đám mây như là một dịch vụ thông
qua các giao thức API.
Về phương pháp thực hiện, việc nhận diện chữ viết trong hình ảnh sẽ gồm
04 pha chính là tiền xử lý (Preprocessing); xác định vị trí chữ (Text
Detection); nhận diện chữ (Text Recognition) và hậu xử lý
(Postprocessing). V ới pha 1 - tiền xử lý, ta sẽ loại bỏ các nhiễu trong hình
ảnh, xoay ảnh về đúng chiều và chỉnh kích thước của ảnh. Pha 2 sẽ sử dụng
hình ảnh sau khi đã đư ợc căn chỉnh sử dụng mơ hình học sâu để nhận biết
được đâu là các vùng có chữ viết trên hình ảnh. Sau đó sử dụng mơ hình
mạng thần kinh kết hợp với cơ chế chú ý (Attention Mechanism) đ ể nhận
diện các chữ viết tương ứng với các vùng chữ để cho ra được các chữ cái
trong bảng chữ cái. Pha cuối cùng là bước hiệu chỉnh chữ thu được từ pha
3, giúp cải thiện kết quả thu được sao cho đúng chuẩn chữ tiếng Việt. Trên
thế giới, cũng có rất nhiều cách thức và phương pháp khác nhau trong việc
giải quyết bài toán OCR này cho ti ếng Anh như: DB, CRAFT... Nghiên c ứu
này sử dụng hai trong số các mơ hình đang đạt kết quả tốt nhất trên tiếng
Anh hiện nay là CRAFT (để phát hiện chữ) và CLOVA_AI (để nhận diện
chữ). Tuy nhiên, để đạt được kết quả tốt trên bộ dữ liệu của tiếng Việt thì
nghiên cứu đã thực hiện một số thay đổi và cải tiến. Để minh chứng cho sự
hiệu quả của giải pháp được đề xuất, các tác giả đã thực hiện kiểm thử với
bộ dữ liệu SROIE 2019 tiếng Anh và VNOnDB gồm 1.146 đoạn văn tiếng
Việt bao gồm 7.296 dòng v ới hơn 380.000 ký tự viết bởi 200 người khác
nhau.
II. Tóm tắt cơ sở lý thuyết
1. Một số cơng nghệ chính được sử dụng trong giải pháp đề xuất
- Mạng thần kinh tích chập - CNN: Là một loại mạng thần kinh nhân tạo,
nhận đầu vào thường là ảnh và sử dụng phép tốn tích ch ập nhằm trích xuất
thông tin của đối tượng.
- Mạng thần kinh hồi quy - RNN: Là mạng dùng để xử lý các bài tốn dữ
liệu dạng chuỗi với các đầu vào có kích thư ớc khác nhau. Nó sử dụng
thơng tin đầu vào hiện tại và đầu vào trong quá khứ đã có để cho ra kết
quả. Nói cách khác, theo trình t ự thời gian, RNN kết nối các nút tạo thành
một đồ thị dọc, cùng một đầu vào thì có thể tạo một đầu ra khác nhau dựa
theo các đầu vào trước đó.
- Cơ chế chú ý (Attention Mechanism): Theo như nghiên c ứu về nhận thức
của con người, trong 3s đầu chúng ta cần xác định một vật thể là gì chỉ
bằng một số đặc điểm nổi bật nhất của nó. Áp dụng tư tưởng đó, kỹ thuật
Attention giúp mơ hình t ập trung vào những yếu tố nhất định, đặc trưng
nhất trong dữ liệu. Trong lĩnh vực xử lý ảnh, Attention thường gồm 03
phần chính là bộ mã hóa (encoder), b ộ giải mã (decoder), xen giữa nó là
một vector biểu diễn ngữ cảnh (context vector). Encoder v ới đầu vào là ma
trận các điểm ảnh, đầu ra cuối cùng là một context vector - nơi tóm gọn
tồn bộ lượng thơng tin c ủa encoder. Từ đó, decoder dùng chính context
vector, cùng trạng thái ẩn và đầu ra trước đó để dự đốn thơng tin tiếp theo
tại decoder qua từng bước thời gian (timestep).
- Mạng Resnet, mạng Unet, mạng VGG-16: Là các kiến trúc mạng CNN,
được tạo thành từ một loạt các tầng CNN được thiết kế khác nhau.
- Batch normalization: Đây là một phương pháp chuẩn hóa dữ liệu, giúp
việc huấn luyện một cách dễ dàng và nhanh chóng hơn b ằng cách tối ưu
hàm mục tiêu. Ngồi ra, nó cịn giúp cho mơ hình gi ảm được sự phụ thuộc
vào các giá trị khởi tạo và tránh được phần nào sự quá khớp với bộ dữ liệu
được huấn luyện.
- Skip connection: Cơ chế bỏ qua một số lớp trong mạng Neural và lấy đầu
ra của một lớp làm đầu vào cho các lớp tiếp theo. Nó có vai trị nâng cao
khả năng giữ những thơng tin cần thiết, tránh mất mát thông tin khi ta tăng
số lớp trong khi huấn luyện mạng học sâu.
2. Tổng quan giải pháp và quy trình đề xuất
Như đã đề cập, bài tốn nhận dạng chữ viết trong hình ảnh có đầu vào là
một ảnh và đầu ra là các từ tương ứng đúng với vị trí trên bức ảnh đó.
Phương pháp đư ợc mơ tả gồm 04 pha (Hình 1):
- Pha 1: Tiền xử lý, chuẩn hóa hình ảnh: chỉnh nhăn (dewarp), chỉnh lệch
(deskew), chỉnh kích cỡ (resize).
- Pha 2: Sử dụng mơ hình phát hiện ký tự văn bản (text detection) đ ể tìm
các vùng có chữ và xác định vị trí của nó trong bức ảnh.
- Pha 3: Nhận diện chữ trong các ảnh từ pha 2 bằng mơ hình nhận diện ký
tự văn bản (text recognition).
- Pha 4: Sửa lỗi văn bản đầu ra để gia tăng độ chính xác.
3. Mơ tả chi tiết từng pha trong quy trình
Pha 1: Tiền xử lý
Ban đầu, hệ thống sẽ áp dụng các thuật toán liên quan đến xử lý ảnh để
tăng chất lượng ảnh đầu vào. Lý do là bởi trong khi chúng ta scan tài li ệu
hay chụp ảnh tài liệu, bức ảnh thường bị nghiêng đi một góc tương đối so
với chiều đúng của văn bản. Thêm vào đó, việc xử lý ảnh phóng to hay thu
nhỏ sao cho tương thích với hệ thống không bị nghẽn khi ảnh quá lớn hay
chất lượng tối thiểu khi ảnh quá nhỏ là điều cần thiết. Ngoài ra, v ới các
văn bản giấy tờ trong ngân hàng hay các kh ối dịch vụ nói chung thư ờng
bao gồm rất nhiều dấu chấm nhỏ hay các nhiễu như hình ảnh chìm mà
khơng cần thiết cho việc nhận diện chữ. Chúng ta sẽ loại bỏ các điểm ảnh
này nhằm giảm bớt những vùng mà hệ thống cần dự đốn, giảm thiểu
những lỗi có thể gặp phải.
Pha 2: Phát hiện vùng chứa chữ
Trong pha này, ta s ẽ thực hiện việc phát hiện chữ viết trong ảnh. Như
chúng ta đã biết, ảnh là một tập hợp bao gồm rất nhiều điểm ảnh, xác định
bởi hai tọa độ theo chiều dọc và chiều ngang. Với các mạng thần kinh phát
hiện chữ truyền thống chủ yếu là gộp các mạng CNN và RNN v ới nhau để
trích chọn đặc trưng của chữ trong ảnh dựa trên từng điểm ảnh đó. Các đặc
trưng ở đây được hiểu một cách đơn giản là các đặc điểm giúp ta nhận biết
được đâu là chữ, đâu là ảnh nền, đâu là con dấu... dựa trên các đặc tính như
đường nét, độ đậm nhạt, màu sắc, kích cỡ... của chữ. Những thơng tin này
trải qua việc huấn luyện các mạng thần kinh sẽ được học dần qua việc huấn
luyện mơ hình qua các b ộ dữ liệu.
Đi sâu vào chi tiết mơ hình phát hi ện chữ ngun bản mơ hình CRAFT phát
hiện chữ mà chúng tơi áp dụng, mạng gồm có cấu trúc cơ bản với khung là
VGG-16 gồm 06 lớp CNN với batch normalization và các skip connection
tương tự mạng U-net liên kết với các đặc trưng cấp thấp. Ta sẽ sử dụng mơ
hình mạng Neural để xác định vùng của các ký tự và vùng nối của các ký tự
liền nhau làm đặc điểm chính để xác định phần nào của ảnh là ký tự chữ ở
tầng cuối cùng của đầu ra. Thông thư ờng việc đánh nhãn dữ liệu ở mức ký
tự (đánh từng ký tự một của từ - character) là rất khó vì số lượng q lớn
với mỗi văn bản có chữ (thường sẽ được gán ở mức từ - word hoặc dịng line). Do đó, để có thể được phát hiện ở mức ký tự trong phương pháp này,
ta sẽ dùng dữ liệu từ 2 tập: Một là dữ liệu thực tế được gán nhãn ở mức từ
và hai là dữ liệu không thực tế (ảnh được sinh ra hay tự tạo ra - Synthetic
Image). Do tập dữ liệu thứ 2 là chúng ta tự tạo ra nên ta có thể kiểm sốt
được vị trí các ký tự trên bức ảnh một cách dễ dàng. Ta sẽ huấn luyện mơ
hình với bộ dữ liệu được tự gen trước để model học được các đặc trưng
được model 1. Sau đó ta dùng model này đ ể train với một phần ảnh thực tế
được đánh nhãn ở mức từ tạo ra model 2. Ta sẽ tạo giả nhãn (pseudo
ground truth) cho phần ảnh thực tế này bằng thuật toán watershed r ồi điều
chỉnh sao cho độ chính xác model 2 sẽ khơng thấp hơn độ chính xác của
model 1. Kiểu huấn luyện với bộ data này được gọi là học có giám sát yếu
(weakly supervised learning). Cu ối cùng, ta sẽ dùng model này làm
pretrain model (model đã đư ợc huấn luyện) để điều chỉnh tiếp với các data
chưa được tạo nhãn giả dựa trên độ dài các từ (thông thường các nhãn của
ảnh trên mức từ ta sẽ tính được độ dài ký tự trong đó). Nếu model 2 dự
đốn ảnh từ tập này mà ngắn hơn so với nhãn của ảnh thì ta sẽ điều chỉnh
lại. Cứ thế, ta sẽ điều chỉnh đến khi độ chính xác của mơ hình đạt được kết
quả cao. Đầu ra của pha này là các vùng ch ữ tương ứng với vị trí của nó
(gồm 04 vị trí: Trái trên, phải trên, phải dưới, trái dưới tương ứng của
khung chữ nhật).
Pha 3: Nhận diện các chữ
Pha này gồm 4 thành phần:
- Thành phần 1 (sự biến đổi): Chuẩn hóa và làm thẳng lại các chữ nghiêng,
cong thành chữ nằm ngang bằng việc sử dụng mơ hình STN.
- Thành phần 2 (trích chọn đặc trưng): Ta sử dụng cấu trúc Resnet làm cơ
sở để trích xuất ra các thông tin. Đầu ra là một vector đặc trưng của ảnh.
- Thành phần 3 (mơ hình hóa tuần tự): Ghi lại các thông tin trong m ột
chuỗi tuần tự các ký tự để dự đốn chứ ta khơng dự đoán từng ký tự trong
một từ.
- Thành phần 4 (dự đốn): Giải mã chuỗi đặc trưng dạng mã hóa ở phần 3
thành các ký tự chữ bằng việc sử dụng cơ chế Attention.
Về cơ bản, mơ hình nhận diện sử dụng sức mạnh của sự kết hợp các mạng
CNN và RNN rồi mở rộng với sự thêm mới thành phần chỉnh hình ảnh chữ
trong không gian (thành ph ần biến đổi) và cải thiện q trình dự đốn ở
thành phần cuối bằng cơ chế Attention. Chúng tôi m ở rộng so với mô hình
ban đầu là tăng giới hạn của tham số độ dài tuần tự của trong một ảnh mà
mơ hình dự đoán và tăng số lượng trạng thái ẩn để thu giữ nhiều thông tin
hơn. Việc điều chỉnh này tuy nhỏ nhưng có vai trị quan tr ọng trong việc dự
đốn kết quả chính xác hơn. Ở đây, chúng tơi thay vì d ự đốn từng từ
tương ứng với mỗi vùng được xác định từ pha 3 thì có thể nhận diện được
cả một cụm các từ trong ảnh (ảnh chỉ gồm 1 dịng các từ, theo chiều
ngang). Do đó ta có th ể nhận ra ngay, khi mà pha 3 xác đ ịnh vùng không
phải lúc nào cũng chỉ ra tương ứng mỗi ảnh là 1 từ thì ở đây với mỗi ảnh
mà có 2 hay 3 từ thì việc dự đốn cũng có thể thực hiện được. Mặt khác,
việc thay đổi này cũng giảm thời gian đánh nhãn c ủa chúng ta, trở nên
thuận tiện hơn bởi với mô hình gốc ta cần đánh nhãn mỗi ảnh (chỉ gồm 1
từ) với chữ của nó, khiến số lượng cần làm rất lớn. (Hình 2)
Pha 4: Sửa lỗi
Trong phần này, chúng ta sẽ sửa lỗi các từ có khả năng cao mắc lỗi từ kết
quả pha 3. Chúng ta sử dụng 3 khả năng (dựa trên độ chính xác) từ phần
nhận diện chữ kết hợp với một tập từ điển các từ thơng dụng ở Việt Nam.
Ngồi ra, nếu các từ được xác định trong ảnh thuộc về cùng một lĩnh vực
hay ngành nghề thì ta có thể thu thập thêm các từ phổ biến của nó tạo thành
một bộ các từ phổ biến trong lĩnh vực đó. Sau đó, ta gán tr ọng số theo thứ
tự ưu tiên lần lượt cho: Kết quả từ pha 3, từ phổ biến trong từ điển gần
giống nhất từ đó, từ phổ biến trong lĩnh vực gần giống từ đó. Chúng ta sẽ
sắp xếp từ cao xuống thấp điểm của các từ ứng viên (candidate). Cơ ch ế
này ta gọi là “scoring mechanism”. Cu ối cùng, ta chọn từ ứng viên có điểm
cao nhất làm kết quả cuối cùng của hệ thống.
III. Tính tốn thử nghiệm
1. Mô tả dữ liệu
Chúng tôi sử dụng bộ dữ liệu Sroie 2019 cho mơ hình phát hi ện từ và bộ dữ
liệu VNOnDB ở mức từ và câu để đánh giá kết quả của mơ hình nhận diện.
- Sroie 2019: Bộ dữ liệu bao gồm các ảnh hóa đơn từ hơn 1.000 ngư ời nước
ngoài. Chúng được chia làm 2 phần là tập huấn luyện/đánh giá gồm 600
ảnh và tập kiểm tra gồm 400 ảnh. Tương ứng với mỗi ảnh sẽ bao gồm các
vùng chữ và nội dung của nó.
- VNOnDB: Bộ dữ liệu là các ảnh chữ viết tay của người Việt. Dữ liệu ban
đầu là dạng ảnh tương ứng với các nét chữ online dạng xml, ta sẽ chuyển
dữ liệu về dạng ảnh và chữ tương ứng trong ảnh đó. Ta chia b ộ dữ liệu làm
3 phần: (Bảng 1, Hình 3)
- Phần dữ liệu Training: Dùng để huấn luyện mô hình.
- Phần dữ liệu Validation: Dùng để đánh giá mơ hình khi hu ấn luyện.
- Phần dữ liệu Testing: Dùng để kiểm tra kết quả của mơ hình.
2. Tiêu chí đánh giá
Với module phát hi ện chữ, ta sẽ đánh giá kết quả theo 3 tiêu chí g ồm
Precision, Recall, Hmean.
- Precision đo lư ờng tỉ lệ dự đốn của mơ hình là chính xác trong s ố các dự
đốn.
- Recall là tỉ lệ mơ hình dự đốn đúng trên cả bộ dữ liệu được gán nhãn.
- Chỉ số Hmean là giá trị cân đối giữa Precision và Recall:
Trong đó:
- TP (True Positive): Là đối tượng được nhận dạng đúng với tỉ lệ IOU>0,5.
- FP (False Positive): Là đối tượng được nhận dạng đúng với tỉ lệ
IOU<0,5.
- FN (False negative): Là đối tượng không đư ợc nhận dạng.
- IOU (Intersection over union): Là tỉ lệ giữa hai đường bao (thường là
đường bao dự đoán - Predicted bounding box và đư ờng bao thực - Ground
truth bounding box) đ ể xác định hai khung hình có bị đè chồng lên nhau
khơng. Nó được tính bằng tỉ lệ diện tích giao nhau trên t ổng hai diện tích.
(Hình 4)
Tỉ lệ lỗi của các ký tự (Character error rate - CER) được sử dụng để đánh
giá độ hiệu quả của mơ hình nhận diện. Chỉ số CER được tính dựa trên độ
đo khoảng cách (Edit distance). Gi ả sử hệ thống dự đoán ra là chuỗi A và
nhãn thực tế của ảnh là B thì CER trên ảnh đó là:
Trong đó: Levenshtein (A,B) là kho ảng cách giữa chuỗi A và chuỗi B. Đó
là số bước ít nhất để biến chuỗi A thành chuỗi B thông qua các phép bi ến
đổi cơ bản; len(A), len(B) là độ dài của chuỗi A và độ dài của chuỗi B.
3. Kết quả thử nghiệm
- Kết quả thử nghiệm của mơ hình phát hi ện trên tập Sroie 2019 (Bảng 2,
Hình 5)
- Kết quả thử nghiệm của mơ hình nhận diện trên tập VNOnDB (Bảng 3,
Hình 6, Hình 7)
4. Đánh giá, nhận xét
Qua hai thử nghiệm về độ hiệu quả của mơ hình ta thấy, hệ thống nhận
dạng chữ viết có kết quả tốt trên cả bộ chữ in và chữ viết tay trong các
điều kiện khác nhau. Từ đó ta có cái nhìn t ổng thể hơn về các thuận lợi và
khó khăn của việc áp dụng mơ hình này vào các t ổ chức tài chính, ngân
hàng là:
Về thuận lợi:
- Dạng module dễ mở rộng.
- Có thể áp dụng với các kiểu chữ và ngôn ngữ khác nhau.
- Là cầu nối để chuyển đổi số, dễ dàng liên kết với các hệ thống trong ngân
hàng như RPA, ERP.
Về khó khăn:
- Độ chính xác chỉ từ 90 - 99% => Cần người để sửa lỗi còn lại (BPO Business process outsourcing).
- Cần xây dựng đội ngũ phát triển của các ngân hàng đ ể hiểu nghiệp vụ và
bóc tách các thông tin c ần thiết sau OCR.
IV. Kết luận
Bài toán nhận diện chữ trong ảnh là một trong những bài toán kinh điển và
quan trọng trong lĩnh vực ngân hàng nói riêng và c ác ngành cơng nghiệp
ứng dụng khác nói chung. Các ngân hàng c ần nhanh chóng đào tạo, bồi
dưỡng, bổ sung cho cán bộ, nhân viên các kiến thức và hiểu biết nhất định
về các cơng nghệ lõi để có thể triển khai một cách hiệu quả nhất bởi
chuyển đổi số là xu thế tất yếu hiện nay. Khi mà dữ liệu ngày càng bùng
nổ, ngân hàng nào có th ể nắm bắt thì có thể phát triển rất nhanh chóng.
OCR chính là cây c ầu nối để thúc đẩy tiến trình đó. Bài vi ết đã mô tả chi
tiết về một hệ thống nhận diện chữ viết bằng việc sử dụng các mơ hình AI
và học sâu để có thể nhận diện chữ tiếng Việt. Phương pháp áp d ụng 04
thành phần cơ bản là tiền xử lý, phát hiện chữ, nhận diện chữ và hậu xử lý
nhằm tìm ra các đặc trưng nhất để dự đoán các chữ trong ảnh. Với phương
pháp này, các ngân hàng có t hể tùy biến thêm, bớt các thành phần tùy theo
từng điều kiện, trường hợp cụ thể một cách thích hợp nhất. Phương pháp
hoạt động tương đối tốt với dữ liệu là các loại chữ Latin bao gồm có tiếng
Việt. Bên cạnh đó, nó cũng có thể phát triển để có thể áp dụng cho nhiều
loại ngơn ngữ khác.
Lời cảm ơn
Cơng trình nghiên c ứu này được thực hiện bởi sự hỗ trợ của trường Đại học
Bách khoa Hà Nội và Tập đoàn FPT.