Tải bản đầy đủ (.pdf) (49 trang)

Nhận dạng và sửa lỗi văn bản ocr sử dụng các mẫu ký tự sửa lỗi và thuật toán tối ưu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (737.19 KB, 49 trang )

ỦY BAN NHÂN DÂN

THÀNH ĐỒN TP. HỒ CHÍ MINH

THÀNH PHỐ HỒ CHÍ MINH

TRUNG TÂM PHÁT TRIỂN

SỞ KHOA HỌC VÀ CƠNG NGHỆ

KHOA HỌC VÀ CƠNG NGHỆ TRẺ

CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP THÀNH PHỐ

BÁO CÁO TỔNG HỢP
KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ

NHẬN DẠNG VÀ SỬA LỖI VĂN BẢN OCR SỬ DỤNG
CÁC MẪU KÝ TỰ SỬA LỖI VÀ THUẬT TỐN TỐI ƯU

Cơ quan chủ trì nhiệm vụ: TRUNG TÂM PHÁT TRIỂN KHOA HỌC
VÀ CÔNG NGHỆ TRẺ
Chủ nhiệm nhiệm vụ: ThS. PHẠM TOÀN ĐỊNH

Thành phố Hồ Chí Minh - 2021

1


ỦY BAN NHÂN DÂN


THÀNH ĐỒN TP. HỒ CHÍ MINH

THÀNH PHỐ HỒ CHÍ MINH

TRUNG TÂM PHÁT TRIỂN

SỞ KHOA HỌC VÀ CƠNG NGHỆ

KHOA HỌC VÀ CƠNG NGHỆ TRẺ

CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP THÀNH PHỐ

BÁO CÁO TỔNG HỢP
KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ

NHẬN DẠNG VÀ SỬA LỖI VĂN BẢN OCR SỬ DỤNG
CÁC MẪU KÝ TỰ SỬA LỖI VÀ THUẬT TOÁN TỐI ƯU
(Đã chỉnh sửa theo kết luận của Hội đồng nghiệm thu ngày
…/…/20…)

Chủ nhiệm nhiệm vụ:
(ký tên)
Chủ tịch Hội đồng nghiệm thu
(Ký và ghi rõ họ tên)

Phạm Tồn Định
Cơ quan chủ trì nhiệm vụ

Đồn Kim Thành


Thành phố Hồ Chí Minh - 2021

2


THÀNH ĐỒN TP. HỒ CHÍ MINH
TRUNG TÂM PHÁT TRIỂN
KHOA HỌC VÀ CƠNG NGHỆ TRẺ

CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

__________________

TP.HCM, ngày tháng

năm 2021

BÁO CÁO THỐNG KÊ
KẾT QUẢ THỰC HIỆN NHIỆM VỤ NGHIÊN CỨU KH&CN
I. THƠNG TIN CHUNG
1. Tên nhiệm vụ:
Thuộc: Chương trình/lĩnh vực (tên chương trình/lĩnh vực): Vườn ươm Sáng tạo
Khoa học và Công nghệ trẻ
2. Chủ nhiệm nhiệm vụ:
Họ và tên: Phạm Toàn Định
Ngày, tháng, năm sinh: 06/07/1993

Nam/ Nữ: Nam


Học hàm, học vị: Thạc sĩ
Chức danh khoa học: .....................................Chức vụ: Giảng viên, Nghiên cứu sinh
Điện thoại: Tổ chức: (028) 71099244 Nhà riêng: ................ Mobile: 0376697608
Fax: ....................................... E-mail:
Tên tổ chức đang công tác: Trường Đại học Văn Lang
Địa chỉ tổ chức: 45 Nguyễn Khắc Nhu, phường Cô Giang, Q.1, Tp. Hồ Chí Minh
Địa chỉ nhà riêng: 50/15/10A Dương Quảng Hàm, Phường 5, Quận Gị Vấp
3. Tổ chức chủ trì nhiệm vụ:
Tên tổ chức chủ trì nhiệm vụ: Trung tâm Phát triển Khoa học và Công nghệ Trẻ
Điện thoại: 028.38.230.780

Fax: ..................................................

E-mail:
Website: khoahoctre.com.vn
Địa chỉ: Số 01 Phạm Ngọc Thạch, Phường Bến Nghé, Quận 1
Họ và tên thủ trưởng tổ chức: Đoàn Kim Thành
Số tài khoản: 3713.0.1083277.00000
Kho bạc: Kho bạc Nhà nước Quận 1
Tên cơ quan chủ quản đề tài: Trung tâm Phát triển Khoa học và Cơng nghệ Trẻ
II. TÌNH HÌNH THỰC HIỆN
1. Thời gian thực hiện nhiệm vụ:
- Theo Hợp đồng đã ký kết: từ tháng 12/2020 đến tháng 11/2021
- Thực tế thực hiện: từ tháng 12/2020 đến tháng 11/2021
- Được gia hạn (nếu có):
3


- Lần 1 từ tháng…. năm…. đến tháng…. năm….
- Lần 2 ….

2. Kinh phí và sử dụng kinh phí:
a) Tổng số kinh phí thực hiện: 90 tr.đ, trong đó:
+ Kính phí hỗ trợ từ ngân sách khoa học: 90 tr.đ.
+ Kinh phí từ các nguồn khác: ……………….tr.đ.
b) Tình hình cấp và sử dụng kinh phí từ nguồn ngân sách khoa học:
Số
TT

Theo kế hoạch
Thời gian
Kinh phí
(Tháng, năm)
(Tr.đ)

Thực tế đạt được
Thời gian
Kinh phí
(Tháng, năm)
(Tr.đ)

Ghi chú
(Số đề nghị
quyết tốn)

1
2

c) Kết quả sử dụng kinh phí theo các khoản chi:
Đối với đề tài:
Đơn vị tính: Triệu đồng

Số
TT
1
2
3
4
5

Nội dung
các khoản chi
Trả cơng lao động
(khoa học, phổ
thơng)
Ngun, vật liệu,
năng lượng
Thiết bị, máy móc
Xây dựng, sửa chữa
nhỏ
Chi khác
Tổng cộng

Theo kế hoạch
Tổng

NSKH

Nguồn
khác

Thực tế đạt được

Tổng

NSKH

83,565

83,565

83,565

83,565

6,435
90

6,435
90

6,435
90

6,435
90

Nguồn
khác

- Lý do thay đổi (nếu có):
Đối với dự án:
Đơn vị tính: Triệu đồng

Số
TT

Nội dung
các khoản chi

1

Thiết bị, máy móc
mua mới
Nhà xưởng xây dựng
mới, cải tạo
Kinh phí hỗ trợ cơng
nghệ
Chi phí lao động
Ngun vật liệu,
năng lượng

2
3
4
5

Theo kế hoạch
Tổng

NSKH

4


Nguồn
khác

Thực tế đạt được
Tổng

NSKH

Nguồn
khác


6
7

Thuê thiết bị, nhà
xưởng
Khác
Tổng cộng

- Lý do thay đổi (nếu có):
3. Các văn bản hành chính trong q trình thực hiện đề tài/dự án:
(Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xét duyệt, phê duyệt kinh phí, hợp
đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện... nếu có); văn bản của tổ chức chủ trì nhiệm
vụ (đơn, kiến nghị điều chỉnh ... nếu có)
Số
TT
1
2


Số, thời gian ban
hành văn bản
34x-QĐ/KHCNT,
ngày 25/11/2020
64-TB/KHCNT,
ngày 29/12/2020

Tên văn bản

Ghi chú

V/v thành lập Hội đồng xét duyệt đề
tài NCKH thuộc chương trình Vườn
ươm sáng tạo KH và CNT
V/v phê duyệt và cấp kinh phí NCKH
và cơng nghệ thuộc chương trình
Vườn ươm sáng tạo KH và CNT

4. Tổ chức phối hợp thực hiện nhiệm vụ:
Số
TT
1

2

Tên tổ chức
Tên tổ chức đã
đăng ký theo
tham gia thực
Thuyết minh

hiện
Trường Đại học Trường Đại học
Cơng nghệ
Sài Gịn
thơng tin,
ĐHQG TPHCM

Nội dung
tham gia chủ
yếu
- Nghiên cứu
và xây dựng
mơ hình postprocessing bao
gồm các bước
xử lý cần thiết

Viện Kỹ thuật
Cơng nghệ cao
NTT, Đại học
Nguyễn Tất
Thành

- Đề xuất mơ
hình áp dụng
thuật toán tối
ưu trong việc
phát hiện và
tạo từ sửa lỗi
- Tổng hợp, xử
lý số liệu và

viết bài báo
khoa học

Viện Kỹ thuật
Công nghệ cao
NTT, Đại học
Nguyễn Tất
Thành

Sản phẩm
chủ yếu đạt
được
- Mơ hình
postprocessing
được đề xuất
và chương
trình chạy
mơ hình
tương ứng
- Mơ hình áp
dụng thuật
toán tối ưu
trong phát
hiện và tạo từ
sửa lỗi
- Bài báo
khoa học,
báo cáo
nghiệm thu


Ghi chú*

...
- Lý do thay đổi (nếu có): Thành viên Phan Nguyệt Minh chuyển đơn vị cơng tác từ Trường
Đại học Công nghệ thông tin về Trường Đại học Sài Gòn từ tháng 4/2021.
5. Cá nhân tham gia thực hiện nhiệm vụ:
(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10 người
kể cả chủ nhiệm)
Số
TT

Tên cá nhân
đăng ký theo

Tên cá nhân đã
tham gia thực

Nội dung tham
gia chính
5

Sản phẩm
chủ yếu đạt

Ghi
chú*


1


Thuyết minh
Phạm Toàn Định

hiện
Phạm Toàn
Định

2

Lê Thị Kim
Ngọc

Lê Thị Kim
Ngọc

3

Lê Đức Anh

Lê Đức Anh

4

Nguyễn Quốc
Dũng

Nguyễn Quốc
Dũng

- Xây dựng

thuyết minh chi
tiết được duyệt
- Chuẩn bị, tìm
kiếm và xây
dựng các tập dữ
liệu training và
test tiêu chuẩn
- Thiết kế và
viết các chương
trình, mơ hình
nhận dạng và
sửa lỗi văn bản
OCR
- Chạy, kiểm
tra, và sửa lỗi
các chương
trình, mơ hình
nhận dạng và
sửa lỗi văn bản
OCR
- Tổng hợp, xử
lý số liệu, viết
bài báo khoa
học
- Chuẩn bị, tìm
kiếm và xây
dựng các tập dữ
liệu training và
test tiêu chuẩn
- Tổng hợp, xử

lý số liệu

- Thiết kế mơ
hình nhận dạng
và sửa lỗi văn
bản OCR
- Hướng dẫn
nghiên cứu, đọc
và góp ý cho
các bài báo
khoa học trước
khi gửi đến tạp
chí, hội nghị
- Xây dựng
thuyết minh chi
6

được
- Cuốn thuyết
minh đề
cương
- Tập dữ liệu
training dùng
để huấn luyện
mơ hình, tập
dữ liệu test để
đánh giá mơ
hình
- Mơ hình hậu
xử lý văn bản

OCR và
chương trình
chạy mơ hình
tương ứng
- Bài báo
khoa học, báo
cáo nghiệm
thu

- Tập dữ liệu
training dùng
để huấn luyện
mô hình, tập
dữ liệu test để
đánh giá mơ
hình
- Số liệu thí
nghiệm đánh
giá các mơ
hình phục vụ
cho bài báo
- Mơ hình hậu
xử lý văn bản
OCR và
chương trình
chạy mơ hình
tương ứng
- Bài báo
khoa học


- Cuốn thuyết
minh đề


tiết được duyệt
- Thiết kế và
viết các chương
trình, mơ hình
nhận dạng và
sửa lỗi văn bản
OCR

5

Phan Nguyệt
Minh

Phan Nguyệt
Minh

6

Huỳnh Nhật
Triều

Huỳnh Nhật
Triều

- Chạy, kiểm
tra, và sửa lỗi

các chương
trình, mơ hình
nhận dạng và
sửa lỗi văn bản
OCR
- Tổng hợp, xử
lý số liệu, viết
bài báo khoa
học
- Thiết kế và
viết các chương
trình, mơ hình
nhận dạng và
sửa lỗi văn bản
OCR
- Chạy, kiểm
tra, và sửa lỗi
các chương
trình, mơ hình
nhận dạng và
sửa lỗi văn bản
OCR
- Chuẩn bị, tìm
kiếm và xây
dựng các tập dữ
liệu training và
test tiêu chuẩn
- Tổng hợp, xử
lý số liệu


cương
- Mơ hình hậu
xử lý văn bản
OCR và
chương trình
chạy mơ hình
tương ứng
- Bài báo
khoa học, báo
cáo nghiệm
thu

- Mơ hình hậu
xử lý văn bản
OCR và
chương trình
chạy mơ hình
tương ứng

- Tập dữ liệu
training dùng
để huấn luyện
mơ hình, tập
dữ liệu test để
đánh giá mơ
hình
- Số liệu thí
nghiệm đánh
giá các mơ
hình phục vụ

cho bài báo

- Lý do thay đổi ( nếu có):
6. Tình hình hợp tác quốc tế:
Số
TT

Theo kế hoạch
(Nội dung, thời gian, kinh phí, địa
điểm, tên tổ chức hợp tác, số
đồn, số lượng người tham gia...)

Thực tế đạt được
(Nội dung, thời gian, kinh phí, địa
điểm, tên tổ chức hợp tác, số
đồn, số lượng người tham gia...)

1
7

Ghi chú*


2
...
- Lý do thay đổi (nếu có):
7. Tình hình tổ chức hội thảo, hội nghị:
Theo kế hoạch
Số
(Nội dung, thời gian, kinh phí, địa

TT
điểm )
1
Hội thảo đề tài NCKH “Nhận
dạng và sửa lỗi văn bản OCR sử
dụng các mẫu ký tự sửa lỗi và
thuật toán tối ưu”
Thời gian: 9h45 ngày 16/10/2021
Kinh phí: 4.9 triệu đồng
Địa điểm: Nền tảng phịng họp
trực tuyến Google Meet
2
...

Thực tế đạt được
(Nội dung, thời gian, kinh
phí, địa điểm )
Buổi hội thảo đề tài NCKH
diễn ra với nội dung, thời
gian, kinh phí và địa điểm
như kế hoạch

Ghi chú*

- Lý do thay đổi (nếu có):
8. Tóm tắt các nội dung, công việc chủ yếu:
(Nêu tại mục 15 của thuyết minh, không bao gồm: Hội thảo khoa học, điều tra khảo sát trong
nước và nước ngồi)
Số
TT


Các nội dung, cơng việc
chủ yếu
(Các mốc đánh giá chủ yếu)

Thời gian
(Bắt đầu, kết thúc
- tháng … năm)
Theo kế
Thực tế đạt
hoạch
được
01/202101/202102/2021
02/2021

1

Xây dựng thuyết minh chi tiết
được duyệt

2

Xây dựng các tập dữ liệu training
và test tiêu chuẩn, trong đó dữ liệu
văn bản training cần được canh
hàng theo mức từ và mức ký tự

02/202103/2021

02/202103/2021


3

Nghiên cứu và xây dựng các bảng
sửa lỗi ký tự từ tập dữ liệu
training, và viết chương trình tạo
bảng sửa lỗi ký tự tương ứng

03/202104/2021

02/202103/2021

4

Nghiên cứu và xây dựng mơ hình
post-processing bao gồm các bước
xử lý tách từ, phát hiện lỗi từ, tạo
từ sửa lỗi và xếp hạng từ sửa lỗi;

04/202108/2021

03/202106/2021

8

Người,
cơ quan
thực hiện
Phạm Toàn
Định, Nguyễn

Quốc Dũng
(ĐH Văn
Lang)
Phạm Toàn
Định, Lê Thị
Kim Ngọc,
Huỳnh Nhật
Triều (ĐH Văn
Lang)
Phạm Tồn
Định, Nguyễn
Quốc Dũng
(ĐH Văn
Lang),
Phan Nguyệt
Minh (ĐH Sài
Gịn)
Phạm Tồn
Định, Nguyễn
Quốc Dũng
(ĐH Văn


viết chương trình chạy mơ hình
tương ứng

5

Đề xuất mơ hình áp dụng thuật
05/2021toán tối ưu trong việc phát hiện và 09/2021

tạo từ sửa lỗi; viết chương trình
cho mơ hình áp dụng thuật toán tối
ưu tương ứng

03/202106/2021

6

So sánh, đánh giá kết quả phát
hiện và sửa lỗi của mơ hình đề
xuất với các mơ hình khác; phân
tích tính khác biệt, ưu điểm, hạn
chế (nếu có) của mơ hình đề xuất
so với các mơ hình khác

08/202110/2021

04/202107/2021

7

Tổng hợp, xử lý số liệu và viết bài
báo khoa học, báo cáo nghiệm thu

10/202112/2021

05/202111/2021

Lang),
Lê Đức Anh

(ĐH Nguyễn
Tất Thành),
Phan Nguyệt
Minh (ĐH Sài
Gịn)
Phạm Tồn
Định, Nguyễn
Quốc Dũng
(ĐH Văn
Lang),
Lê Đức Anh
(ĐH Nguyễn
Tất Thành)
Phạm Toàn
Định, Nguyễn
Quốc Dũng
(ĐH Văn
Lang),
Lê Đức Anh
(ĐH Nguyễn
Tất Thành),
Phan Nguyệt
Minh (ĐH Sài
Gịn)
Phạm Tồn
Định, Lê Thị
Kim Ngọc,
Nguyễn Quốc
Dũng (ĐH
Văn Lang),

Lê Đức Anh
(ĐH Nguyễn
Tất Thành),
Phan Nguyệt
Minh (ĐH Sài
Gòn)

- Lý do thay đổi (nếu có):
III. SẢN PHẨM KH&CN CỦA NHIỆM VỤ
1. Sản phẩm KH&CN đã tạo ra:
a) Sản phẩm Dạng I:
Số
TT

Tên sản phẩm và chỉ
tiêu chất lượng chủ
yếu

Đơn
vị đo

Số lượng

1
2
...
- Lý do thay đổi (nếu có):
9

Theo kế

hoạch

Thực tế
đạt được


b) Sản phẩm Dạng II:
Số
TT

Tên sản phẩm

Yêu cầu khoa học
cần đạt
Theo kế hoạch
Thực tế
đạt được

Ghi chú

Yêu cầu khoa học
cần đạt
Theo
Thực tế
kế hoạch
đạt được
Được chấp nhận Đã được xuất
đăng trên tạp
bản trên tạp
chí/hội nghị

chí/hội nghị
quốc tế thuộc
quốc tế thuộc
danh mục
danh mục
SCOPUS
SCOPUS

Số lượng, nơi
cơng bố
(Tạp chí, nhà
xuất bản)
01
(AIP
Conference
Proceedings
2406, tháng
09/2021)

1
2
...
- Lý do thay đổi (nếu có):
c) Sản phẩm Dạng III:
Số
TT
1

Tên sản phẩm
Bài báo khoa học


2
...
- Lý do thay đổi (nếu có):
d) Kết quả đào tạo:
Số
TT

Cấp đào tạo, Chuyên ngành
đào tạo

1
2

Thạc sỹ
Tiến sỹ

Số lượng
Theo kế hoạch
Thực tế đạt
được

Ghi chú
(Thời gian kết
thúc)

- Lý do thay đổi (nếu có):
đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp:
Số
TT


Tên sản phẩm
đăng ký

Kết quả
Theo
kế hoạch

Thực tế
đạt được

Ghi chú
(Thời gian kết
thúc)

1
2
...
- Lý do thay đổi (nếu có):
e) Thống kê danh mục sản phẩm KHCN đã được ứng dụng vào thực tế
Số
TT

Tên kết quả
đã được ứng dụng

Thời gian

1
10


Địa điểm
(Ghi rõ tên, địa
chỉ nơi ứng dụng)

Kết quả
sơ bộ


2
2. Đánh giá về hiệu quả do nhiệm vụ mang lại:
a) Hiệu quả về khoa học và công nghệ:
- Cung cấp giải pháp/mơ hình hiệu quả cho bài tốn nhận dạng và sửa lỗi OCR trong các văn
bản, tài liệu được số hóa và cịn chứa nhiều lỗi.
- Áp dụng được cho các văn bản OCR trong các lĩnh vực khác nhau, cũng như cho các ngôn
ngữ khác nhau.
- Hợp tác với các nhóm nghiên cứu khác ở các Trường đại học, các công ty công nghệ để ứng
dụng, mở rộng kết quả nghiên cứu vào các lĩnh vực liên quan của xử lý ngôn ngữ tự nhiên
như nâng cao chất lượng nhận dạng hình ảnh văn bản hay tích hợp vào các hệ thống OCR
hiện có.
b) Hiệu quả về kinh tế xã hội:
Kết quả của đề tài có thể mở rộng triển khai ứng dụng để phát triển thành công cụ nhận dạng
và sửa lỗi văn bản OCR tiếng Việt dưới dạng ứng dụng trên web hay di động phục vụ người
dùng Việt Nam, góp phần nâng cao chất lượng văn bản tiếng Việt đã được số hóa qua các
cơng cụ OCR. Hơn thế nữa, nghiên cứu này có thể được ứng dụng triển khai ứng dụng cải tiến
chất lượng các văn bản, tài liệu số được lưu trữ tại các thư viện, các cơ sở dữ liệu số.
3. Tình hình thực hiện chế độ báo cáo, kiểm tra của nhiệm vụ:
Số
TT
I


II
III

Nội dung

Thời gian
thực hiện

Báo cáo tiến độ
Lần 1

06/2021

Lần 2

11/2021

Báo cáo giám định
Lần 1
….
Nghiệm thu cơ sở
Hội thảo đề tài NCKH “Nhận
dạng và sửa lỗi văn bản OCR sử
dụng các mẫu ký tự sửa lỗi và
thuật toán tối ưu”

16/10/2021

Ghi chú

(Tóm tắt kết quả, kết luận
chính, người chủ trì…)
Đã thực hiện và hoàn thành
đầy đủ 05/07 nội dung theo
như kế hoạch đề ra
Đã thực hiện và hoàn thành
đầy đủ 07/07 nội dung theo
như kế hoạch đề ra

Buổi hội thảo diễn ra với nội
dung, thời gian, kinh phí và
địa điểm như kế hoạch đề ra

Chủ nhiệm đề tài
(Họ tên, chữ ký)

Thủ trưởng tổ chức chủ trì
(Họ tên, chữ ký và đóng dấu)

Phạm Toàn Định

Đoàn Kim Thành
11


MỤC LỤC
MỤC LỤC ........................................................................................................... 12
DANH MỤC TỪ VIẾT TẮT ............................................................................... 13
DANH MỤC CÁC BẢNG ................................................................................... 14
DANH MỤC CÁC HÌNH VẼ .............................................................................. 15

LỜI MỞ ĐẦU ...................................................................................................... 16
CHƯƠNG 1 – MỤC TIÊU .................................................................................. 18
1.1
1.2

MỤC TIÊU TỔNG QUÁT ......................................................................................18
MỤC TIÊU CỤ THỂ .............................................................................................18

CHƯƠNG 2 – TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU ................................ 20
CHƯƠNG 3 – PHƯƠNG PHÁP NGHIÊN CỨU, KỸ THUẬT SỬ DỤNG ......... 22
3.1
3.2
3.3

CÁCH TIẾP CẬN .................................................................................................22
PHƯƠNG PHÁP NGHIÊN CỨU, KỸ THUẬT SỬ DỤNG ............................................23
TÍNH MỚI, TÍNH ĐỘC ĐÁO, TÍNH SÁNG TẠO .......................................................23

CHƯƠNG 4 – NỘI DUNG ĐÃ THỰC HIỆN ...................................................... 25
CHƯƠNG 5 – CÁC KẾT QUẢ THU ĐƯỢC ...................................................... 29
5.1 MÔ HÌNH ĐỀ XUẤT ............................................................................................29
5.1.1 TÁCH TỪ ...........................................................................................................30
5.1.2 PHÁT HIỆN LỖI ..................................................................................................30
5.1.3 TẠO TỪ SỬA LỖI................................................................................................30
5.1.4 SỬA LỖI ............................................................................................................34
5.2 KẾT QUẢ THÍ NGHIỆM VÀ THẢO LUẬN ..............................................................37
5.2.1 TẬP DỮ LIỆU ĐÁNH GIÁ ....................................................................................37
5.2.2 KẾT QUẢ THÍ NGHIỆM .......................................................................................38
5.2.3.1 CÁC BỘ TRỌNG SỐ MƠ HÌNH ..........................................................................39
5.2.3.2 TÍNH NGẪU NHIÊN VÀ ỔN ĐỊNH CỦA MƠ HÌNH...............................................42

CHƯƠNG 6 – KẾT LUẬN VÀ KIẾN NGHỊ ...................................................... 45
TÀI LIỆU THAM KHẢO ................................................................................... 46

12


DANH MỤC TỪ VIẾT TẮT
Viết tắt

Chú thích

OCR

Nhận dạng ký tự quang học

SMT

Mơ hình dịch máy thống kê

NMT

Mơ hình dịch máy sử dụng mạng nơron

ICDAR

Hội nghị quốc tế về phân tích và nhận dạng văn bản

GT

Văn bản gốc đúng


HC

Thuật toán tối ưu leo đồi

PST

Bảng chỉnh sửa mẫu ký tự dựa trên các phép chỉnh
sửa ký tự như chèn, xóa, thay thế

LV

Khoảng cách chỉnh sửa ký tự Levenshtein để đo sự
khác biệt giữa hai chuỗi ký tự

SLM

Mơ hình ngơn ngữ thống kê

WFST-PostOCR

Giải pháp hậu xử lý văn bản OCR sử dụng các mơ
hình ngơn ngữ và mơ hình xác suất lỗi ở mức ký tự

EFP

Giải pháp hậu xử lý văn bản OCR dựa trên các mẫu
sửa lỗi theo tần suất

CLAM


Giải pháp hậu xử lý văn bản OCR sử dụng mơ hình
dịch máy nơron tích hợp cơ chế atttention ở mức ký
tự dựa trên mã nguồn mở OpenNMT

MMDT

Giải pháp hậu xử lý văn bản OCR được điều chỉnh
theo miền đa mô-đun

Char-SMT/NMT Giải pháp hậu xử lý văn bản OCR dựa trên các mơ
hình dịch máy thống kê và nơron ở mức ký tự
PST/SOMA

Mô hình hậu xử lý văn bản OCR sử dụng các mẫu
ký tự sửa lỗi và thuật tốn tiến hóa SOMA

PST/HC

Mơ hình hậu xử lý văn bản OCR sử dụng các mẫu
ký tự sửa lỗi và thuật toán tối ưu HC

13


DANH MỤC CÁC BẢNG
Bảng 4.1. Các nội dung thực hiện và kết quả đạt được. ..................................... 25
Bảng 5.1. Ví dụ các văn bản OCR-GT được canh hàng ở mức ký tự. ............... 31
Bảng 5.2. Các phép chỉnh sửa mẫu ký tự. ........................................................... 32
Bảng 5.3. Cấu hình tham số của mơ hình sử dụng thuật tốn HC. ..................... 34

Bảng 5.4. Kết quả sửa lỗi văn bản OCR trên tập văn bản chuyên khảo tiếng Anh.
............................................................................................................................. 39
Bảng 5.5. Kết quả sửa lỗi của mơ hình đề xuất cho các bộ trọng số khác nhau. 40
Bảng 5.6. Kết quả sửa lỗi của mô hình đề xuất cho các kết hợp khác nhau của
tính năng chỉnh sửa ký tự và tính tương tự. ........................................................ 41
Bảng 5.7. Kết quả sửa lỗi của mơ hình đề xuất cho các kết hợp đặc biệt của các
tính năng n-gram. ................................................................................................ 42
Bảng 5.8. Tỷ lệ cải thiện lỗi của mơ hình đề xuất sử dụng thuật tốn HC. ........ 43
Bảng 5.9. Tỷ lệ cải thiện lỗi của các bộ trọng số khác nhau. .............................. 44

14


DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Hậu xử lý văn bản OCR là bước cuối cùng của quá trình OCR. ........ 18
Hình 5.1. Các giai đoạn xử lý trong mơ hình đề xuất. ........................................ 30

15


LỜI MỞ ĐẦU
Optical character recognition (OCR) là phần mềm/công cụ chuyển đổi các
văn bản, hình ảnh của tài liệu in, scan, hay viết tay thành văn bản số, được lưu
trữ trên máy tính. Các văn bản, tài liệu, sách báo được số hóa thơng qua các thiết
bị/cơng cụ OCR thường chứa rất nhiều lỗi bao gồm lỗi từ sai chính tả và lỗi từ
sai ngữ cảnh, đặc biệt trong các tài liệu lịch sử, nguyên nhân là do chất lượng in
thấp, ảnh hưởng của việc bảo quản theo thời gian, định dạng chữ (font) hay cách
bố trí văn bản (layout) khác biệt. Những lỗi này làm giảm chất lượng và gây
hiểu sai đối với các văn bản OCR; đồng thời các tài liệu này không thể dùng
ngay phục vụ cho việc nghiên cứu. Do đó việc phát hiện, nhận dạng và sửa lỗi từ

trong các văn bản OCR là quan trọng và cần thiết.
Hậu xử lý văn bản OCR (OCR post-processing) là một bước quan trọng để
nâng cao chất lượng của các văn bản, tài liệu số và là bước cuối cùng của q
trình OCR. Mục đích của bước hậu xử lý văn bản OCR là để phát hiện và sửa
các lỗi từ ngữ trong văn bản OCR. Mơ hình hậu xử lý văn bản OCR có thể được
áp dụng trực tiếp lên văn bản OCR bị lỗi hoặc được tích hợp vào q trình số
hóa văn bản của hệ thống OCR.
Nghiên cứu đề xuất mơ hình mới tự động sửa lỗi văn bản OCR bằng cách sử
dụng các mô hình ngơn ngữ và khai thác các đặc tính lỗi OCR (chẳng hạn như
các mẫu ký tự sửa lỗi ngẫu nhiên) được điều khiển bởi thuật toán tối ưu. Đây là
mơ hình và giải pháp mới được đề xuất cho bài toán sửa lỗi văn bản OCR.
Nghiên cứu sẽ đưa ra các phương pháp và thuật toán khai thác các đặc tính
lỗi OCR thơng qua các mẫu ký tự sửa lỗi khác nhau bao hàm tất cả các phép
chỉnh sửa ký tự như xóa, chèn, thay thế và chuyển vị. Các mẫu ký tự sửa lỗi
được học trực tiếp từ tập dữ liệu training, giúp đơn giản hóa q trình học các
đặc tính lỗi OCR so với các giải pháp và mơ hình khác sử dụng các phương
pháp phức tạp hơn như machine learning hoặc statistical/neural machine
translation để trích xuất các đặc tính lỗi OCR.
Mơ hình sửa lỗi văn bản OCR được đề xuất sẽ khai thác các đặc tính ngơn
ngữ khi tạo các từ sửa lỗi như tính tương tự của từ, tần suất xuất hiện của từ, xác
16


suất chỉnh sửa ký tự, và ngữ cảnh của từ thơng qua các từ điển n-gram. Mơ hình
đề xuất được kết hợp với thuật toán tối ưu sử dụng hàm mục tiêu được tùy chỉnh
cho văn bản OCR để tạo ra các từ ngữ sửa lỗi và lựa chọn từ ngữ sửa lỗi có xếp
hạng cao nhất.
Các kết quả thí nghiệm của mơ hình được so sánh với các giải pháp/mơ hình
mới nhất khác (state-of-the-art model) đã được cơng bố trên cùng tập dữ liệu
tiêu chuẩn.

Mơ hình đề xuất có thể được sử dụng như là một công cụ dùng cho việc phát
hiện, nhận dạng và sửa lỗi cho các tài liệu, văn bản OCR trong các lĩnh vực khác
nhau. Đồng thời, các giải pháp, mơ hình và kết quả thu được từ nghiên cứu này
có thể được mở rộng để phát triển thành các ứng dụng trên web hay trên di động
triển khai trong thực tế.

17


Chương 1 – MỤC TIÊU
1.1

Mục tiêu tổng quát
Hậu xử lý văn bản OCR (Hình 1.1) là một bước quan trọng và cần thiết của

quá trình OCR nhằm phát hiện, nhận dạng và sửa các lỗi OCR trong các văn bản
được số hóa.

Hình 1.1. Hậu xử lý văn bản OCR là bước cuối cùng của quá trình OCR.
Nghiên cứu này đề xuất mơ hình hậu xử lý văn bản OCR mới và cải tiến kết
hợp giữa các mơ hình ngơn ngữ và mơ hình lỗi OCR (học từ dữ liệu training), và
sử dụng các phương pháp thống kê và thuật toán tối ưu để phát hiện các lỗi OCR
cũng như đề xuất các từ ngữ sửa lỗi và lựa chọn từ ngữ sửa lỗi phù hợp nhất.
Nghiên cứu sẽ đánh giá mơ hình đề xuất và so sánh với các mơ hình khác
dựa trên các bộ dữ liệu training tiêu chuẩn; phân tích tính khác biệt, ưu điểm của
mơ hình đề xuất so với các mơ hình khác, và làm rõ hạn chế (nếu có). Mơ hình
đề xuất được chạy thí nghiệm và huấn luyện trên tập dữ liệu training tiêu chuẩn
và được đánh giá trên tập dữ liệu test.
Các giải pháp và kết quả đạt được từ mơ hình hậu xử lý văn bản OCR đề
xuất có thể tiếp tục được mở rộng và triển khai thực tế như là công cụ phần mềm

để phát hiện, nhận dạng và sửa lỗi văn bản OCR chữ viết tay tiếng Việt nói riêng
và văn bản OCR tiếng Việt nói chung.
1.2

Mục tiêu cụ thể

- Xây dựng các tập dữ liệu training và test tiêu chuẩn, trong đó dữ liệu training
cần được thực hiện sắp xếp canh hàng theo mức từ và mức ký tự giữa các
văn bản OCR (chứa các từ lỗi OCR) và các văn bản gốc đúng (ground truth GT) tương ứng.

18


- Xây dựng các bảng sửa lỗi ký tự từ các tập dữ liệu training. Các bảng sửa lỗi
được tạo ra bằng cách tìm trong các văn bản gốc đúng các mẫu ký tự sửa lỗi
cho các mẫu ký tự sai được tìm thấy trong các văn bản OCR bị lỗi tương ứng.
Đồng thời, thiết kế và viết chương trình tạo các bảng sửa lỗi ký tự.
- Đề xuất và xây dựng mơ hình hậu xử lý văn bản OCR bao gồm các giai đoạn:
tách từ (tokenization), phát hiện từ lỗi OCR (error detection), tạo từ sửa lỗi
(candidate generation) và tính điểm và xếp hạng từ sửa lỗi (candidate scoring
and ranking). Đồng thời, thiết kế và viết chương trình cho các giai đoạn xử lý
trong mơ hình hậu xử lý văn bản OCR đề xuất.
- Đề xuất các mơ hình ngơn ngữ n-gram trong việc tìm từ lỗi OCR; bên cạnh
đó, đề xuất thuật tốn tối ưu trong việc tìm từ sửa lỗi, cũng như nâng cao chất
lượng các từ sửa lỗi và xếp hạng các từ sửa lỗi một cách hiệu quả. Đồng thời,
thiết kế và viết chương trình cho các thuật tốn và mơ hình này.
- So sánh, đánh giá kết quả phát hiện và sửa lỗi của mơ hình đề xuất với các
mơ hình khác thơng qua các thơng số đánh giá khác nhau; phân tích tính khác
biệt, ưu điểm của mơ hình đề xuất so với các mơ hình khác, và làm rõ hạn
chế (nếu có).


19


Chương 2 – TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
Các mơ hình và giải pháp được đề xuất gần đây cho bài toán sửa lỗi văn bản
OCR thường được phân chia thành 2 nhóm: nhóm giải pháp dựa trên các kho
ngữ liệu (corpus) [1, 2] và nhóm giải pháp hybrid [3-9].
Nhóm giải pháp đầu tiên [1, 2] dựa trên thông tin n-gram trích xuất từ các
kho ngữ liệu corpus, ví dụ như kho ngữ liệu Google Web cho tiếng Anh, để đề
xuất và xếp hạng các từ sửa lỗi. Cách tiếp cận này dễ thực hiện và áp dụng, tuy
nhiên có những hạn chế trong khả năng sửa lỗi. Thứ nhất, bộ từ điển n-gram
không thể chứa tất cả các từ trong một ngôn ngữ, chẳng hạn như các danh từ
riêng, thuật ngữ kỹ thuật hay các từ chuyên ngành trong từng lĩnh vực. Thứ hai,
các giải pháp dựa trên corpus chỉ sử dụng thơng tin n-gram mà khơng có thơng
tin về các đặc tính lỗi OCR, nên dễ dẫn đến sai sót trong việc lựa chọn từ sửa lỗi
khi chỉ sử dụng thơng tin n-gram.
Nhóm giải pháp hybrid sử dụng cả các đặc điểm ngơn ngữ và các đặc tính
lỗi OCR. Một số giải pháp [3, 5, 6, 9] sử dụng ma trận nhầm lẫn (confusion
matrix) và các đặc điểm n-gram để xếp hạng các từ sửa lỗi. Giải pháp [4] sử
dụng các mơ hình học máy (machine learning) để lựa chọn các từ sửa lỗi phù
hợp nhất; chẳng hạn, Support Vector Regressor, Multiple Layer Perceptron with
ReLu, Random Forest, AdaBoost. Giải pháp gần đây của chúng tôi [6] sử dụng
thuật tốn tiến hóa Self-Organizing Migrating Algorithm (SOMA) để tạo và xếp
hạng các từ sửa lỗi. Các giải pháp khác [7, 8] sử dụng các công nghệ dịch máy
thống kê (statistical machine translation, viết tắt là SMT) và sử dụng mạng
nơron (neural machine translation, viết tắt là NMT) để chuyển đổi văn bản OCR
bị lỗi thành văn bản được sửa lỗi. Tuy nhiên, các giải pháp dựa trên dịch máy ở
mức ký tự (character level) có một số hạn chế. Các từ được đề xuất sửa lỗi có
thể khơng phải là từ vựng đúng (khơng có trong từ điển chuẩn). Thêm vào đó,

giải pháp dựa trên dịch máy ở mức từ (word level) thường cho kết quả tốt hơn
giải pháp dựa trên dịch máy ở mức ký tự (theo [7]). Ngoài ra, những giải pháp
hybrid thường phức tạp và mất nhiều công sức hơn để ứng dụng và triển khai.

20


Hiện nay có rất ít nghiên cứu về vấn đề hậu xử lý văn bản OCR cho văn bản
OCR tiếng Việt [9, 10]. Nghiên cứu của chúng tôi [9] kết hợp sử dụng các mơ
hình ngơn ngữ n-gram dựa trên kho ngữ liệu VietTreeBank [11] và mơ hình lỗi
OCR trong việc tìm lỗi OCR và đề xuất từ sửa lỗi. Trong nghiên cứu của nhóm
tác giả Vũ Hồng et al. [10] sử dụng hai mơ hình để sửa các lỗi từ sai chính tả và
lỗi từ sai ngữ cảnh. Mơ hình thứ nhất sửa lỗi theo trọng số sử dụng hai đặc tính
ngơn ngữ là tính tương tự của từ [12] và tần suất xuất hiện của từ; trong khi đó
mơ hình thứ hai sửa lỗi theo ngữ cảnh sử dụng mơ hình ngơn ngữ dựa vào độ
hỗn loạn (perplexity score). Trong mơ hình thứ hai, các tác giả ứng dụng thuật
toán Depth First Traversal để kiểm tra tất cả các kết hợp của các từ sửa lỗi
(correction candidate). Tuy nhiên, mơ hình này sử dụng nhiều chi phí tính toán
(high computation cost) nên tốc độ chậm do số lượng các kết hợp của các từ sửa
lỗi rất lớn. Ngoài ra, các tác giả sử dụng tập dữ liệu riêng để đánh giá hai mơ
hình, cho nên gây khó khăn khi so sánh với các giải pháp khác do không cùng
đánh giá trên tập dữ liệu tiêu chuẩn.

21


Chương 3 – PHƯƠNG PHÁP NGHIÊN CỨU, KỸ THUẬT SỬ DỤNG
3.1

Cách tiếp cận

Chúng tơi lần lượt tìm hiểu và xây dựng các bộ dữ liệu training và test tiêu

chuẩn, xây dựng các bộ từ điển n-gram hỗ trợ việc nhận dạng, phát hiện và sửa
lỗi văn bản OCR cho ngôn ngữ tương ứng. Tiếp theo, chúng tôi nghiên cứu và
đề xuất các mơ hình tự động phát hiện và sửa lỗi văn bản OCR. Liên quan đến
các giai đoạn xử lý như phát hiện lỗi, tạo và xếp hạng từ sửa lỗi trong mơ hình
hậu xử lý văn bản OCR, chúng tôi nghiên cứu, kết hợp sử dụng các phương
pháp thống kê và thuật toán tối ưu sao cho kết quả sửa lỗi OCR đạt được cao
nhất. Các mơ hình hậu xử lý văn bản OCR được thiết kế để có thể mở rộng và
áp dụng trở thành cơng cụ phần mềm phục vụ việc nhận dạng và sửa lỗi văn bản
OCR trong thực tế đặc biệt cho văn bản tiếng Việt.
Đối với nghiên cứu và mơ hình hậu xử lý văn bản OCR đề xuất, chúng tôi
tiến hành công bố kết quả nghiên cứu thông qua bài báo khoa học trên tạp
chí/hội nghị quốc tế. Bài báo bao gồm các phần chính sau. Phần Introduction mơ
tả lĩnh vực và vấn đề nghiên cứu, tính cần thiết của nghiên cứu, tóm tắt các mơ
hình và phương pháp liên quan gần đây cho vấn đề nghiên cứu, cũng như tóm tắt
mơ hình đề xuất và đóng góp. Phần Proposed Model giới thiệu chi tiết các giai
đoạn trong mơ hình đề xuất, các tính năng dữ liệu được sử dụng, các phương
pháp thống kê và thuật toán tối ưu được dùng để phát hiện và đề xuất các từ ngữ
sửa lỗi. Tiếp theo phần Experiments and Results mơ tả và phân tích kết quả thí
nghiệm trên tập dữ liệu test tiêu chuẩn để đánh giá chất lượng nhận dạng và sửa
lỗi thông qua các metrics đánh giá, đồng thời so sánh với các mơ hình khác trên
cùng tập dữ liệu, cũng như đưa ra các hạn chế của mơ hình đề xuất (nếu có). Và
cuối cùng phần Conclusions tóm tắt lại các kết quả tìm được và đưa ra hướng
phát triển.

22


3.2


Phương pháp nghiên cứu, kỹ thuật sử dụng
Thu thập dữ liệu văn bản OCR từ các nguồn như các bộ cơ sở dữ liệu từ các

cuộc thi nhận dạng và sửa lỗi văn bản OCR, các thư viện mở trên thế giới và các
nguồn dữ liệu ngôn ngữ chia sẻ khác.
Nghiên cứu giải pháp canh hàng theo mức từ và mức ký tự giữa các văn bản
OCR và văn bản gốc đúng GT bằng cách chèn thêm các ký tự đặc biệt sao cho
số lượng từ và số lượng ký tự giữa các văn bản OCR và văn bản GT tương ứng
là bằng nhau.
Nghiên cứu phương pháp trích xuất đặc tính lỗi OCR từ tập dữ liệu training
bằng cách tìm các cặp mẫu ký tự không giống nhau giữa văn bản OCR và văn
bản GT, và giới hạn chiều dài mẫu ký tự tối đa là hai hoặc ba ký tự dựa vào các
thống kê lỗi OCR chỉ ra rằng các lỗi OCR chủ yếu chứa các phép chỉnh sửa mẫu
ký tự ngắn [13, 14].
Nghiên cứu và đề xuất mô hình hậu xử lý văn bản OCR tự động gồm các
giai đoạn xử lý như tách từ, phát hiện lỗi, tạo từ sửa lỗi và sửa lỗi, trong đó sử
dụng thuật toán tối ưu để tạo và xếp hạng các từ sửa lỗi. Hàm mục tiêu được sử
dụng để tính điểm từ sửa lỗi dựa trên các đặc điểm ngôn ngữ và đặc tính lỗi
OCR.
Thiết kế và viết chương trình cho mơ hình hậu xử lý văn bản OCR đề xuất
để chạy thí nghiệm và huấn luyện mơ hình trên tập dữ liệu training tiêu chuẩn và
đánh giá mơ hình trên tập dữ liệu test. Các thí nghiệm ban đầu được tiến hành
trên các tập dữ liệu training/test thu gọn để đánh giá nhanh mơ hình đề xuất và
được chạy trên máy tính thơng thường, được cài đặt Python và các package cần
thiết. Đối với các tập dữ liệu training/test lớn, các thí nghiệm sẽ được chạy trên
các máy GPU có cấu hình mạnh để tiết kiệm thời gian chạy chương trình.
3.3

Tính mới, tính độc đáo, tính sáng tạo

Đề xuất mơ hình mới tự động sửa lỗi văn bản OCR sử dụng các mẫu ký tự

sửa lỗi ngẫu nhiên kết hợp thuật tốn tối ưu. Đây là các mơ hình và giải pháp
mới cho bài toán sửa lỗi văn bản OCR cũng như cho văn bản OCR tiếng Việt
được đề xuất bởi nhóm tác giả.
23


Mơ hình sửa lỗi văn bản OCR được đề xuất sẽ khai thác cả đặc tính ngơn
ngữ (sử dụng các từ điển n-gram) và đặc tính lỗi OCR trong tập dữ liệu huấn
luyện (sử dụng các mẫu ký tự sửa lỗi học từ tập dữ liệu training). Các mẫu ký tự
sửa lỗi được học trực tiếp từ tập dữ liệu training, giúp đơn giản hóa q trình
học các đặc tính lỗi OCR so với các giải pháp và mơ hình khác sử dụng các
phương pháp phức tạp hơn như machine learning hoặc SMT/NMT để trích xuất
các đặc tính lỗi OCR.
Mơ hình đề xuất sử dụng thuật tốn tối ưu kết hợp với hàm mục tiêu dựa
trên các đặc tính ngơn ngữ quan trọng và đặc tính lỗi OCR để đưa ra các từ ngữ
sửa lỗi và lựa chọn từ ngữ sửa lỗi có xếp hạng cao nhất.
Các kết quả thí nghiệm của mơ hình được so sánh với các giải pháp/mơ hình
mới nhất khác đã được cơng bố trên cùng tập dữ liệu tiêu chuẩn.
Mơ hình đề xuất có thể được sử dụng như là một công cụ dùng cho việc phát
hiện, nhận dạng và sửa lỗi cho các tài liệu, văn bản OCR trong các lĩnh vực khác
nhau, cũng như tích hợp vào các hệ thống OCR ở giai đoạn hậu xử lý văn bản
OCR.

24


Chương 4 – NỘI DUNG ĐÃ THỰC HIỆN
Các nội dung và cơng việc thực hiện của đề tài được trình bày chi tiết trong

Bảng 4.1.
Bảng 4.1. Các nội dung thực hiện và kết quả đạt được.
TT
1

Các nội dung, công việc thực hiện

Kết quả đạt được

Xây dựng thuyết minh chi tiết được duyệt
- Thu thập, nghiên cứu tài liệu và sách báo liên

Phân tích và đánh

quan đến lĩnh vực sửa lỗi văn bản OCR.

giá tình hình nghiên
cứu trong lĩnh vực
sửa lỗi văn bản OCR

2

- Xây dựng thuyết minh đề cương và cập nhật,

Hồn thành thuyết

chỉnh sửa theo góp ý của các thành viên nhóm đề

minh đề cương được


tài và hội đồng xét duyệt đề tài.

duyệt

Xây dựng các tập dữ liệu training và test tiêu
chuẩn để huấn luyện và đánh giá mô hình, trong
đó dữ liệu văn bản training cần được canh hàng
theo mức từ và mức ký tự
- Chuẩn bị, tìm kiếm các tập dữ liệu tiêu chuẩn

Hồn thành tìm kiếm
và lựa chọn các tập
dữ liệu tiêu chuẩn

- Xây dựng các văn bản OCR từ các tập dữ liệu

- Hoàn thành xây

tiêu chuẩn; và thực hiện sắp xếp canh hàng theo

dựng các văn bản

ký tự giữa các văn bản OCR (chứa từ lỗi OCR) và

OCR và các văn bản

các văn bản GT cho toàn bộ tập dữ liệu training

GT tương ứng


theo phương pháp thống nhất.

- Hoàn thành sắp
xếp canh hàng theo
ký tự giữa các văn
bản OCR và các văn
25


×