DE CUONG LUAN VAN THAC SI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.11 MB, 22 trang )

TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT

ĐỀ CƢƠNG NGHIÊN CỨU ĐỀ TÀI
LUẬN VĂN THẠC SĨ

Đề tài: NHẬN DẠNG CHỮ BA NA
TRÊN VĂN BẢN HÌNH ẢNH

GVGD:

PGS.TS. QUẢN THÀNH THƠ

HỌC VIÊN:

ƠN THIỆN TÀI

Lớp:

CH19HT01

Mã số học viên: 1918480104007

BÌNH DƢƠNG, THÁNG 10 NĂM 2020

TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT


ĐỀ CƢƠNG NGHIÊN CỨU ĐỀ TÀI
LUẬN VĂN THẠC SĨ

Đề tài: NHẬN DẠNG CHỮ BA NA TRÊN
VĂN BẢN HÌNH ẢNH

GVGD: PGS.TS. QUẢN THÀNH THƠ
HỌC VIÊN: ƠN THIỆN TÀI
Lớp:

CH19HT01

Mã số học viên: 1918480104007

Bình Dương, tháng 10 năm 2020

CHẤM ĐIỂM
(Của giảng viên)

..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................

..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................
..................................................................................................................................

1

MỤC LỤC
PHẦN 1: GIỚI THIỆU ĐỀ TÀI .................................................................... 4
PHẦN 2: MỤC TIÊU VÀ NỘI DUNG ĐỀ TÀI........................................... 5
2.1. Mục tiêu nghiên cứu ............................................................................. 5
2.2. Nội dung đề tài dự kiến ........................................................................ 6
PHẦN 3: GIỚI HẠN ĐỀ TÀI ........................................................................ 7
3.1. Đối tượng nghiên cứu ........................................................................... 7
3.2. Phạm vi nghiên cứu .............................................................................. 7
PHẦN 4: PHƢƠNG PHÁP NGHIÊN CỨU ................................................. 7
PHẦN 5: PHƢƠNG PHÁP ĐỀ XUẤT DỰ KIẾN ....................................... 8
5.1. Phương pháp thu thập và phân tích số liệu .......................................... 8
5.2. Phương pháp xử lý tiếng Ba Na ........................................................... 8
5.3. Phương pháp xây dựng mơ hình với OCR ........................................... 9
5.4. Phương pháp xây dựng mơ hình ngơn ngữ......................................... 10
5.5. Phương pháp phát hiện và sửa lỗi ....................................................... 13
5.6. Đánh giá kết quả ................................................................................. 13
PHẦN 6: CÁC CƠNG TRÌNH NGHIÊN CỨU CĨ LIÊN QUAN .......... 14
PHẦN 7: KẾT QUẢ DỰ KIẾN ĐẠT ĐƢỢC............................................. 15

PHẦN 8: KẾ HOẠCH THỰC HIỆN .......................................................... 15
PHỤC LỤC .................................................................................................... 18
DANH MỤC TÀI LIỆU THAM KHẢO..................................................... 19

2

DANH SÁCH HÌNH VẼ
Hình 2.1 : Kiến trúc hệ thống nhận dạng văn bản hình ảnh chữ Ba Na ........... 6
Hình 5.3: Ví dụ về bước trích xuất thơng tin hình ảnh văn bản scan ............. 10
Hình 5.4.1 : Kiến trúc cơ bản của mạng RNN ................................................ 11
Hình 5.4.1 : Kiến trúc của LSTM ................................................................... 11
Hình 5.4.3 : Các biến thể của RNN ................................................................ 12
Hình 5.4.4: Mơ hình gợi ý ứng viên của language model .............................. 13

3

PHẦN 1: GIỚI THIỆU ĐỀ TÀI
Hiện nay, xu hướng hội nhập đang làm nảy sinh nguy cơ suy giảm ngôn ngữ
“mẹ đẻ” của nhiều dân tộc thiểu số. Việc bảo tồn và phát huy tiếng nói, chữ viết
các dân tộc thiểu số là cấp thiết để giữ gìn bản sắc văn hóa, thực hiện quyền bình
đẳng giữa các dân tộc.
Trong các dân tộc thiểu số (DTTS) ở nước ta, nhiều dân tộc có chữ viết riêng,
thậm chí một số dân tộc có nhiều hơn một hệ thống chữ viết. Xét về nguồn gốc, sự
hình thành và phát triển, chữ viết của các DTTS khá đa dạng, phong phú. Một số
hệ chữ viết có lịch sử trên dưới nghìn năm, đó là các hệ chữ viết của các dân tộc
Khmer, Thái, Chăm, Tày, Nùng, Dao... Nhiều hệ chữ viết khác được chế tác gần
đây, dựa trên tự dạng La tinh. Từ đó, ta có thể phân biệt chữ viết các DTTS ở nước
ta thành hai loại: Các hệ thống chữ viết cổ truyền và các hệ thống chữ viết

mới. Nhưng đa phần sách báo, tư liệu văn bản chữ viết của các DTTS được in trên
giấy truyền thống. Do đó, qua thời gian văn bản in giấy truyền thống đó khơng còn
chất lượng tốt, cập nhật, sửa chữa, và trao đổi cũng gập nhiều khó khăn.
Trong thời đại 4.0 hiện nay, các loại sách báo, tư liệu văn bản đã dần được lưu
trữ dưới dạng văn bản số. Văn bản số có ưu điểm như sửa chữa, cập nhật, cũng
như trao đổi nhanh chóng hơn so với văn bản giấy truyền thống. Từ đó, nảy sinh
vấn đề làm cách nào để khôi phục lại những thông tin của sách báo dưới dạng văn
bản số để có thể tái bản. Đây là một nhiệm vụ thực tế trong nhiều lĩnh vực, chẳng
hạn như trong các thư viện và nhà xuất bản.
Có một số cách khác nhau để giải quyết bài toán chuyển đổi trên. Một biện
pháp dễ thực hiện nhất là nhập lại nội dung của văn bản thơng qua bàn phím.
Nhưng, đây là một công việc rất thủ công trong thao tác chế bản. Nếu số lượng văn
bản là quá lớn và mất nhiều thời gian sẽ dẫn tới nhiều sai sót. Một giải pháp khác
là tạo ra một chương trình nhận dạng văn bản tự động. Theo hướng này, sách báo
được máy quét lưu trữ dưới dạng ảnh số, chương trình có chức năng nhận dạng ký
tự, từ đó chuyển đổi thành văn bản số. Nhận thấy việc ứng dụng giải pháp trên cho
4

bộ từ điển tiếng Ba Na là một chủ đề thú vị, qua tìm hiểu và nghiên cứu tơi xin
thực hiện đề tài : Nhận dạng chữ Ba Na trên văn bản hình ảnh với các cơng
nghệ mới trong học sâu ở một vài năm gần đây như thư viện keras của tensorflow,
thư viện pytorch, thư viện tesseract, mơ hình neural network, mơ hình CRAFT…
Đề tài này đầu tiên tìm hiểu tổng quan các cách tiếp cận khác nhau dựa trên học
máy cũng như mạng nơ ron học sâu để giải bài tốn. Trong đó, quan tâm đến các
kh a cạnh là khả năng áp dụng công nghệ nhận dạng ký tự quang học (OCR –
Optical Character Recognition) giúp chuyển đổi chữ viết, văn bản trong hình ảnh
thành tập tin văn bản, sau đó tìm hiểu các phương pháp xử l ngơn ngữ tiếng a
Na và sử dụng mơ hình ngơn ngữ để phát hiện và sửa lỗi chính tả tập tin văn bản
ấy nếu có. Từ đó đưa ra cách tiếp cận, xây dựng chiến lược xử l hình ảnh, tập tin

văn bản và sử dụng cái giải thuật học máy, học sâu chọn lọc phù hợp với tập dữ
liệu giải quyết bài toán đề ra.
PHẦN 2: MỤC TIÊU VÀ NỘI DUNG ĐỀ TÀI
2.1 Mục tiêu nghiên cứu
Mục tiêu chính của đề tài là nghiên cứu những mơ hình học sâu đã được sử
dụng cho bài toán nhận dạng hình ảnh thành văn bản với độ chính xác cao. Từ đó
áp dụng các mơ hình đó cho nhận dạng văn bản hình ảnh chữ Ba Na (Optical
Character Recognition, viết tắt là OCR). Sau đó, nghiên cứu và hiện thực mơ hình
ngơn ngữ (Language Model) cùng với các kĩ thuật để phát hiện sửa lỗi sai chính tả
trong các văn bản tiếng Ba Na. Từ đó, dùng mơ hình này để sửa lỗi văn bản được
sinh ra từ bài toán nhận dạng văn bản hình ảnh (nếu có) để hệ thống đạt được độ
chính xác cao nhất.

5

Hình 2.1. Kiến trúc hệ thống nhận dạng văn bản hình ảnh chữ Ba Na

Ngồi ra, qua việc vận dụng, tiếp cận theo nhiều phương pháp khác nhau giúp
cho sau khi hồn thành đề tài này có thể giới thiệu một cách chi tiết hơn về các
công nghệ mới trong học sâu hiện nay, phương pháp huấn luyện mơ hình ngơn ngữ
có thể sinh ra model dùng để áp dụng thêm cho một vài bài toán hay nghiên cứu
liên quan.
2.2 Nội dung đề tài dự kiến
Chƣơng I: Giới thiệu
- Giới thiệu về bài tốn. Nêu tính cấp thiết và lý do tác giả chọn đề tài này.
Chƣơng II: Mục tiêu, đối tƣợng nghiên cứu, phƣơng pháp nghiên cứu
- Giới thiệu mục tiêu, đối tượng, phương pháp nghiên cứu của đề tài.
Chƣơng III: Cơ sở lý thuyết
- Trình bày các phương pháp, nghiên cứu hiện nay có thể ứng dụng trong bài

tốn. Tóm lược một số cơng trình liên quan trực tiếp đến bài tốn.
- Trình bày kiến thức về học sâu (deep learning) và mơ hình ngơn ngữ
(language model) được sử dung để giải quyết bài toán.
Chƣơng IV: Hiện thực mơ hình cho bài tốn
- Trình bày về phương pháp hiện thực các giải pháp đã đề xuất để giải quyết
bài toán. Phương pháp này được xây dựng dựa trên những kiến thức đã tìm hiểu và
những cơng trình liên quan được giới thiệu.
6

Chƣơng V: Kết quả thí nghiệm
- Trình bày kết quả mơ hình nhận dạng chữ viết tiếng Ba Na từ hình ảnh trên
tập dữ liệu xây dựng.
Chƣơng VI: Kết luận
- Kết luận và nêu nghĩa khoa học, nghĩa thực tiễn của đề tài
Tài liệu tham khảo
- Liệt kê các tài liệu tham khảo được sử dụng trong luận văn
PHẦN 3: GIỚI HẠN ĐỀ TÀI
3.1. Đối tƣợng nghiên cứu
Đề tài sẽ tập trung vào 2 vấn đề nghiên cứu sau:
- Xử lý dữ liệu văn bản hình ảnh và mơ hình nhận dạng hình ảnh chữ Ba Na
thành văn bản từ dữ liệu văn bản hình ảnh ban đầu.
- Mơ hình ngơn ngữ và các thuật tốn sửa lỗi chính tả cho văn bản chữ a Na
b ng cách kết hợp các giải thuật học sâu và so sánh t nh ứng dụng của các giải
thuật này để lựa chọn giải thuật phù hợp nhất cũng như cách kết hợp các giải thuật
đem lại kết quả tốt nhất cho bài toán.
3.2. Phạm vi nghiên cứu
Phạm vi nghiên cứu của đề tài là từ điển tiếng Ba Na (các từ ngữ là những từ
thường dùng, các câu thông dụng và xuất hiện trong cuộc sống thường nhật với
ngôn ngữ là Tiếng Ba Na Latin).

PHẦN 4: PHƢƠNG PHÁP NGHIÊN CỨU
Quá trình thực hiện trích xuất văn bản từ hình ảnh sang văn bản số và thực hiện
việc sửa lỗi cho Tiếng Ba Na sẽ được tiến hành qua các bước sau:
- Thu thập nguồn dữ liệu.
7

- Tìm hiểu, phân t ch đặc trưng của hình ảnh cần trích xuất thơng tin. Q
trình này giúp cung cấp kiến thức cho quá trình làm sạch, khử nhiễu, tăng
chất lượng ảnh … giúp việc trích xuất thơng tin từ ảnh tốt hơn.
- Tìm hiểu giải thuật, phương pháp phù hợp với bài tốn trích xuất thơng tin
từ hình ảnh.
- Tiến hành tiền xử l văn bản, tách câu, tách từ hợp l . Trong giai đoạn này
vận dụng các quan sát thống kê học được cho phép chúng tơi chọn lọc, rút
trích và có thể tạo ra các đặc trưng bậc cao hơn từ dữ liệu đã có.
- Thực hiện huấn luyện mơ hình ngơn ngữ và ứng dụng các giải thuật học sâu
cho việc sửa lỗi chính tả văn bản. Thử nghiệm kết hợp các giải thuật để đưa
ra mơ hình tốt nhất cho văn bản.
- Đo đạc độ chính xác của các giải thuật sử dụng, so sánh lựa chọn giải thuật
phù hợp nhất với tập dữ liệu.
- Viết và trình bày cơng trình nghiên cứu như một luận văn thạc sĩ hoàn chỉnh
PHẦN 5: PHƢƠNG PHÁP ĐỀ XUẤT DỰ KIẾN
5.1. Phƣơng pháp thu thập và phân tích số liệu
Dữ liệu tiếng Ba Na dự kiến được thu thập từ từ điển tiếng Ba Na. File dữ liệu
từ điển tiếng Ba Na được lưu trữ ở dạng file ảnh, PDF.
5.2. Phƣơng pháp xử lý tiếng Ba Na
Có khá nhiều thư viện hỗ trợ cho việc tiền xử l này. Trong đề tài này tôi vận
dụng thư viện có sẵn là NLTK (natural language toolkit) để thực hiện việc tiền xử
lý dữ liệu.
Tiến hành thử nghiệm các bước tiền xử l văn bản tiếng Ba Na trên bộ dữ liệu

thu thập được. Các bước tiền xử lý dự kiến thực hiện:

8

- Làm sạch dữ liệu: Dữ liệu cần cho bài toán này là dữ liệu Tiếng Ba Na,
được thu thập từ từ điển tiếng Ba Na.
5.3. Phƣơng pháp xây dựng mơ hình với OCR
Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết
tắt là OCR), là loại phần mềm máy t nh được tạo ra để chuyển các hình ảnh của
chữ viết tay hoặc chữ đánh máy (thường được quét b ng máy scanner) thành các
văn bản tài liệu. OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng
mẫu, trí tuệ nhân tạo và thị giác máy tính. Mặc dù cơng việc nghiên cứu học thuật
vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng dụng trong thực tế
với các kỹ thuật và phần mềm đã được chứng minh.
Khác với những phần mềm vì mục tiêu thương mại, Tesseract là một thư viện
– khơng phải là chương trình – nhận dạng k tự quang học. Nó có mã nguồn mở,
được cơng khai dưới giấy phép Apache, phiên bản 2.0, và được phát triển dưới sự
tài trợ của Google từ năm 2006. Tesseract được đánh giá là một trong số t những
thư viện nhận dạng k tự quang học mã nguồn mở tốt nhất hiện nay. Hiện tại,
Tesseract đã phát triển đến version 3.0x và có thể hoạt động trên 3 hệ điều hành
phổ biến là Window, Mac và Linux. Công cụ này hỗ trợ nhận diện kí tự của hơn
100 ngơn ngữ khác nhau, bao gồm cả tiếng Việt. Không những thế, chúng ta có thể
huấn luyện chương trình dùng Tesseract để có thể nhận diện một ngơn ngữ nào đó.
Trong đề tài “Nhận dạng chữ Ba Na trên văn bản hình ảnh”, tôi tập trung
nghiên cứu các vấn đề sau: Thừa kế công cụ Tesseract OCR đã được huấn luyện từ
trước cho việc nhận dạng văn bản để giúp cải thiện độ chính xác khi thực hiện
bước nhận dạng ký tự quang học cho bộ từ điển tiếng Ba Na.
Với tập dữ liệu hình ảnh được scan từ bộ từ điển tiếng Ba Na, xây dựng bước
nhận dạng ký tự quang học (OCR) từ việc thừa kế các công cụ và mơ hình huấn

luyện từ trước có sẵn cộng với tinh chỉnh ảnh mức thấp để giúp trích xuất thơng tin

9

đạt hiệu suất tốt. Dưới đây là một ví dụ về việc thực hiện bước trích xuất thơng tin
từ ảnh :

Hình 5.3: Ví dụ về bước trích xuất thơng tin hình ảnh văn bản scan
Ở bước kiểm tra và sửa lỗi, sau khi tiền xử l văn bản hợp lý cho dữ liệu
tiếng Ba Na, tạo nguồn dữ liệu đầu vào chất lượng cho mơ hình ngơn ngữ, tác giả
tiến hành thử nghiệm các phương pháp kiểm tra và sửa lỗi chính tả trên tập dữ liệu
đã xử l . Sau đó tìm hiểu cách kết hợp các mơ hình để đưa ra mơ hình cuối cùng
có độ chính xác ổn dịnh cũng như phù hợp nhất cho bài toán
5.4. Phƣơng pháp xây dựng mơ hình ngơn ngữ
Mạng nơ-ron hồi quy (RNN - Recurrent Neural Network) là một thuật toán
được chú ý rất nhiều trong thời gian gần đây bởi các kết quả tốt thu được trong
lĩnh vực xử lý ngơn ngữ tự nhiên. RNN ra đời với

tưởng chính là sử dụng một bộ

nhớ để lưu lại thông tin từ từ những bước tính tốn xử l trước để dựa vào nó có
thể đưa ra dự đốn ch nh xác nhất cho bước dự đoán hiện tại. Ở bài toán sửa lỗi
chính tả áp dụng RNN vào cho thấy kết quả chính xác cao và chất lượng cải thiện
đáng kể.

10

Hình 5.4.1 : Kiến trúc cơ bản của mạng RNN

Tuy nhiên mạng RNN có một vấn đề là sự phụ thuộc gần xa. Khi khoảng cách
càng lớn thì RNN bắt đầu không thể nhớ và học được, bộ nhớ chỉ ghi nhớ những
thông tin gần nhất. Nguyên nhân là do khi huấn luyện mạng RNN, việc t nh đạo
hàm qua quá nhiều bước sẽ dẫn đến việc tiêu biến đạo hàm (gradient vanishing) .
Trong một số trường hợp, giá trị output hiện tại hoàn toàn chỉ phụ thuộc vào những
giá trị thông tin ban đầu, xa hơn mà không hề cần tới những thơng tin gần đó. Vì
thế ở bài tốn này tơi áp dụng mơ hình RNN với cải tiến mới là Long Short Term
Memory (LSTM) với kiến trúc cho phép bộ nhớ “quên” và lựa chọn những thông
tin cần thiết để lưu trữ giúp giải quyết được vấn đề này.

Hình 5.4.2 : Kiến trúc của LSTM
Bên cạnh việc tăng t nh hiệu quả cho RNN với các tế bào LSTM, một RNN
cũng có thể được sắp xếp để tạo thành một mạng lưới thần kinh sâu hơn có khả
11

năng nhớ được nhiều thông tin hơn, học tốt nhiều ngữ cảnh hơn và độ chính xác
cũng sẽ tăng lên.

ng cách đi sâu hơn, RNN có thể “chụp” được nhiều ngữ cảnh

hơn, do đó, mơ hình hóa phân phối chuỗi tốt hơn. Tất nhiên, điều này làm tăng các
tham số mơ hình, thời gian đào tạo và u cầu nhiều dữ liệu đầu vào hơn.
Sự kết hợp ở trên theo nhiều cách tạo ra nhiều biến thể khác nhau của mạng
hồi quy, phù hợp cho nhiều mục đ ch khác nhau. V dụ như các mơ hình one-tomany, manyto-one, sequence-to-sequence,…

Hình 5.4.3: Các biến thể của RNN
Thơng thường bài tốn sửa lỗi chính tả sẽ gồm 3 phần ch nh như sau:
- Phát hiện lỗi : phân biệt từ đó là đúng hay sai ch nh tả
- Tạo “ứng viên”: tạo ra một tập hợp các từ “ứng viên” tương tự từ sai chính

tả
- Xếp hạng “ứng viên” : xếp hạng các từ “ứng viên” theo xác suất r ng chúng
là từ dự định cho từ sai chính tả hoặc chỉ xác định từ có khả năng nhất trong các từ
“ứng viên”.
Ví dụ với mơ hình gợi ý ứng viên theo xác suất:

12

Hình 5.4.4: Mơ hình gợi ý ứng viên của language model
5.5. Phƣơng pháp phát hiện và sửa lỗi
Ở bước kiểm tra và sửa lỗi, sau khi tiền xử l văn bản hợp lý cho dữ liệu chữ
Ba Na, tạo nguồn dữ liệu đầu vào chất lượng cho mơ hình ngơn ngữ, tôi tiến hành
thử nghiệm các phương pháp kiểm tra và sửa lỗi chính tả trên tập dữ liệu đã xử lý.
Sau đó tìm hiểu cách kết hợp các mơ hình để đưa ra mơ hình cuối cùng có độ
chính xác ổn dịnh cũng như phù hợp nhất cho bài toán.
5.6. Đánh giá kết quả
Độ đo thường được sử dụng cho bài toán là Word Error Rate (WER). WER
dùng để đánh giá sự sai khác giữa kết quả mơ hình dự đoán được (gọi là
hypothesis và nhãn dữ liệu thực tế (gọi là reference). WER được t nh b ng công
thức :
WER =
với:
- S (substitutions): số lượng từ trong reference bị thay thế bởi một từ khác
trong hypothesis
13

- D (deletions): số lượng từ trong reference bị xoá kh i hypothesis
- I (insertions): số lượng từ khơng có trong reference nhưng được thêm vào

hypothesis
- N: số lượng từ trong reference (N = S + D + C)
- C: là số lượng từ ch nh xác
WER càng nh thì mơ hình càng tốt.
PHẦN 6: CÁC CƠNG TRÌNH NGHIÊN CỨU CÓ LIÊN QUAN
- A Vietnamese Language Model Based on Recurrent Neural Network [13] Bài báo này nghiên cứu mơ hình mạng nơ-ron hồi quy (RNNs – Recurrent
Neural Networks) cho tiếng Viết, ở cấp độ ký tự và âm tiết. Các thí nghiệm được
thực hiện dựa trên một tập dữ liệu lớn gồm 24 triệu âm tiết và xây dựng từ 1.500
phụ đề phim. Bài báo cho thấy kết quả đạt được hiệu suất tốt hơn trong việc sử
dụng mơ hình ngôn ngữ dựa trên mạng nơ-ron hồi quy so với mơ hình ngơn ngữ
dựa trên xác suất truyền thống. Những cách tiếp cận trong bài báo này gợi mở cho
tôi nhiều tưởng hơn trong việc xử lý, giải quyết bài tốn của mình.
- On the Use of Machine Translation-Based Approaches for Vietnamese
Diacritic Restoration – [12] Trong bài báo này, tác giả tiếp cận theo hướng sử
dụng mơ hình dịch máy nh m khôi phục lại dấu phụ cho tiếng Việt. Việc hiện thực
mơ hình này mang tính hiệu quả cao cho ứng dụng sửa lỗi chính tả tiếng Việt trong
trường hợp mất dấu hoặc thiếu dấu, tuy nhiên sẽ không sửa được những lỗi sai
khác.
- Vietnamese spelling detection and correction using Bi-gram, Minimum
Edit Distance, SoundEx algorithms with some additional heuristics –[8] Bài
báo này nêu bật việc sửa lỗi chính tả gồm hai bước ch nh: bước phát hiện và bước
sửa lỗi. Nhóm tác giả đề xuất sử dụng phương pháp “hiệu chỉnh khoảng cách”
(edit distance) tối thiểu giúp phát hiện những lỗi chính tả và thay thế chúng b ng
những ký tự phù hợp hơn cho việc sửa lỗi.

14

PHẦN 7: KẾT QUẢ DỰ KIẾN ĐẠT ĐƢỢC
Đối với bài toán này, tác giả hy vọng việc thực hiện nhận dạng ký tự quang học

(OCR) từ tập dữ liệu hình ảnh sẽ sinh ra đoạn văn bản số với hiệu suất tốt; sau đó
áp dụng các giải thuật học sâu kết hợp mơ hình ngơn ngữ phù hợp để sửa lỗi từ
vựng giúp đảm bảo đoạn văn bản số sinh ra giống với văn bản trong dữ liệu hình
ảnh.
Trong giai đoạn đề cương, những công việc sau đã được thực hiện:
- Tìm hiểu các cơng trình liên quan xử lý nhận dạng ký tự quang học (OCR)
cho hình ảnh chứa văn bản tiếng Ba Na.
- Tìm hiểu các giải thuật xử lý bài tốn kiểm tra và sửa lỗi chính tả văn bản
được sinh ra từ hình ảnh.
Thơng qua những kiến thức tìm hiểu ở đề cương, tác giả nhận thấy độ quan
trọng và ứng dụng thực tế của bài toán cũng như những phương pháp thực hiện bài
toán này với bộ dữ liệu thực tế, những khó khăn có thể gặp phải khi thực hiện bài
tốn. Từ đó xây dựng các bước thực hiện thực tế chi tiết và cụ thể để bắt tay vào
thực hiện đề tài này bước luận văn.
PHẦN 8: KẾ HOẠCH THỰC HIỆN
Đề tài nghiên cứu được triển khai với các nội dung sau:
STT Nội dung thực Chi tiết các bƣớc cần thực Thời gian dự
hiện
1

hiện

kiến thực hiện

Tìm hiểu và thu Kiểm thử dữ liệu, phân t ch 2 tuần
thập

các nguồn t nh khả thi cũng như thực tế

dữ liệu liên quan của dữ liệu, áp dụng các kĩ

để xây dựng bài thuật thăm dò dữ liệu để hiểu

15

2

tốn.

hơn về dữ liệu.

Tìm hiểu cơ sở l

Đề xuất phương pháp, tiến 4 tuần

thuyết

và

cách hành th nghiệm để đánh giá

tiếp cận kết hợp xem xét t nh khả thi của
mô hình học sâu phương pháp có áp dụng trong
và mơ hình ngơn đề tài hay khơng và báo cáo
ngữ phục vụ cho kết quả.
mục

đ ch

nhận

dạng chữ viết, văn
bản tiếng Ba Na.
3

Thiết kế và hiện Xây dựng hệ thống dự báo 4 tuần
thực, xây dựng gồm: tiền xử l dữ liệu, chuẩn
các phần của mơ hố dữ liệu, áp dụng giải thuật
hình nhận dạng học máy và chọn tiêu ch đánh
chữ viết, văn bản giá kết quả phù hợp. Trong
tiếng Ba Na.

phần này ta cần hiện thực
trước tiên mơ hình chuẩn cơ sở
làm tiêu chuẩn đánh giá các
mơ hình học được cải tiến sau
này.

4

Tổng hợp kết quả, Tổng hợp kết quả và đề ra 4 tuần
định hướng và cải hướng giải quyết vấn đề tiếp
thiện hệ thống.

theo nếu có, hiện thực lại
tưởng mới hoặc cải thiện hệ
thống.

16

5

Hoàn thành luận Đánh giá kết quả đạt được. 4 tuần
án.

Viết và hoàn chỉnh luận văn.

17

PHỤ LỤC
Danh mục các từ viết tắt
DTTS: Dân Tộc Thiểu Số
LM: Language Model
RNN: Recurrent Neural Network
OCR : Optical Character Recognition
LSTM : Long Short Term Memory
WER: Word Error Rate
DL: Deep Learning

18

DANH MỤC TÀI LIỆU THAM KHẢO
[1]. />[2]. />8274935081833240/Bahnar_Language_Lessons_Pleiku.pdf
[3]. />[4]. />%BD_t%E1%BB%B1_quang_h%E1%BB%8Dc
[5]. />[6]. />[7]. viblo.asia/p/language-modeling-mo-hinh-ngon-ngu-va-bai-toan-them-dau-cautrong-tieng-viet-1VgZveV2Kaw
[8]. />[9]. V. Tran, K. Nguyen and D. ui. (2016) “A Vietnamese language model based
on Recurrent Neural Network,” 2016 Eighth International Conference on

Knowledge and Systems Engineering (KSE), Hanoi , pp. 274-278.
[10]. Goodfellow, I. J., engio, Y., and Courville, A. C. (2016). “Deep Learning.
Adaptive computation and machine learning,” MIT Press.
[11]. Toma’s Mikolov, Martin Karafiat, Luka’s

urget , Jan Honza Cernock,

Sanjeev Khudanpur: Recurrent neural network based language model.
INTERSPEECH
2010.
[12]. Mikael Boden. A Guide to Recurrent Neural Networks and Back propagation. In the Dallas project, 2002.
[13]. C. Olah. (2015) “Understanding lstm networks,” [Online]. Available:
http://colah. github.io/posts/2015-08-Understanding-LSTMs/.
19

[14].

ahdanau, Dzmitry et al. (2015) “Neural Machine Translation by Jointly

Learning to Align and Translate,” CoRR abs/1409.0473.
[15]. Y. Kim, Y. Jernite, D. Sontag, and A. M. Rush. (2015) “Character-aware
neural language models,” eprint: arXiv:1508.06615.

20

DE CUONG LUAN VAN THAC SI

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về