Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (369.17 KB, 5 trang )
<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>
<b>Abstract: </b>Trình bày kiến thức tổng quan về lĩnh vực OCR (Optical Character
Recognition) - Lĩnh vực nhận dạng ký tự quang học. Tìm hiểu nội dung về cơng nghệ
mã nguồn mở Tesseract OCR, cơng nghệ Android, mơ hình client/server, công nghệ
dịch Google Translate. Các cơng nghệ, mơ hình này được sử dụng để xây dựng hệ
thống. Giới thiệu kiến trúc và các thành phần cơ bản của hệ thống nhận dạng và dịch
trên thiết bị di động đã xây dựng. Trình bày kết quả thực nghiệm chức năng rút trích
thông tin từ ảnh của hệ thống cũng như so sánh một sách tương đối kết quả OCR với
một số hệ thống khác.
<b> Keywords: </b>Công nghệ mã nguồn mở; Dịch; Hệ thống nhận dạng; Ký tự quang học;
Thiết bị di động
<b>Content </b>
<b>MỞ ĐẦU </b>
<b>Đặt vấn đề </b>
Từ lâu con người đã quen với việc sử dụng máy tính để lưu trữ những tài liệu cần
chỉnh sửa và tìm kiếm được. Lĩnh vực OCR là một nhánh trong ngành khoa học xử lý ảnh, tuy
còn mới mẻ so với nhiều lĩnh vực khoa học khác nhưng nhanh chóng đã đạt được nhiều bước
tiến quan trọng. Xuất phát từ nhu cầu thực tế là đưa các tài liệu lưu trữ trên giấy vào máy tính
mà khơng phải đánh máy, nhiều công nghệ OCR ra đời (phát hành dưới dạng sản phẩm
thương mại, miễn phí hoặc nguồn mở) đã và đang ứng dụng rộng rãi trong các lĩnh vực liên
quan đến việc nhận dạng. Với sự đầu tư mạnh mẽ và nghiên cứu liên tục của các cá nhân tổ
chức, kết quả nhận dạng trong lĩnh vực OCR ngày càng được cải thiện, đặc biệt sự nhận dạng
ký tự Latinh đánh máy có thể tiến tới tỉ lệ chính xác 100%. Ngồi cơng nghệ nhận dạng ký tự
quang học OCR thì hiện nay cịn có thêm nhiều cơ chế nhận dạng tiêu biểu khác được ứng
dụng vào thực tế như: nhận dạng ký tự thông minh (<i>Intelligent Character Recognition</i>, viết tắt
ICR), nhận dạng vùng đánh dấu (<i>Optical Mark Recognition</i>, viết tắt OMR), nhận dạng chữ
mực từ (<i>Magnetic Ink Character Recognition</i>, viết tắt MICR), nhận dạng mã vạch (Barcode
Regconition).
Chúng ta thường thực hiện công việc nhận dạng trực tiếp trên máy tính: dùng các thiết
Hiện nay công nghệ mạng internet phát triển mạnh mẽ, internet có mặt hầu hết khắp
nơi trên thế giới. Công nghệ di động phát triển vượt bậc, việc sử dụng điện thoại bùng nổ,
điện thoại di động trở thành mặt hàng bình dân mà ai cũng có thể sở hữu được. Nhiều công
nghệ OCR tiên tiến được đưa ra dưới dạng mã nguồn mở và được các công ty, tổ chức lớn tài
trợ phát triển. Với nền tảng công nghệ hiện có ở trên đã tạo ra nhiều giải pháp để xây dựng
được nhiều hệ thống có khả năng đáp ứng cao với vấn đề đặt ra.
<b>Mục tiêu nghiên cứu </b>
động được chọn là điện thoại di động chạy hệ điều hành nguồn mở Android. Và từ đó luận
văn lựa chọn đề tài nghiên cứu “<i>Xây dựng hệ thống nhận dạng và dịch trên thiết bị di động”</i>.
<b>Nội dung nghiên cứu </b>
<i>Về mặt lý thuyết</i>:
- Nghiên cứu tổng quan về lĩnh vực OCR, các thành phần trong một hệ thống
OCR cơ bản.
- Nghiên cứu công nghệ mã nguồn mở Tesseract.
- Nghiên cứu công nghệ mã nguồn mở Android.
- Nghiên cứu mơ hình client/server.
- Nghiên cứu cơng nghệ dịch Google Translate.
- Nghiên cứu phương pháp sửa lỗi chính tả tự động.
<i>Về mặt thực hành</i>:
- Nghiên cứu xây dựng ứng dụng web service chạy trên server : sử dụng nguồn
mở của Tesseract để tạo ra module có chức năng OCR trên ảnh; sử dụng các
hàm API do Google cung cấp để tạo ra module có chức năng dịch văn bản
sang ngơn ngữ tùy chọn. Web service cịn hỗ trợ chức năng hậu xử lý kết quả
OCR và tự động sửa lỗi chính tả trên ngơn ngữ tiếng Anh.
- Nghiên cứu xây dựng ứng dụng trên client: sử dụng Android SDK để tạo ra
ứng dụng chạy trên điện thoại Android có chức năng chụp ảnh; gửi ảnh về
server và nhận kết quả xử lý từ server trả về; quản lý nội dung thơng tin đã rút
trích từ ảnh.
<b>Bố cục luận văn </b>
Ngoài phần mở đầu giới thiệu về mục tiêu, ý nghĩa, tình hình nghiên cứu liên quan và
phần kết luận tóm tắt những kết quả chính đạt được cũng như đưa ra nhận xét; bố cục luận
văn gồm 4 chương chính:
<i><b>Chương 1</b></i>: Trình bày kiến thức tổng quan về lĩnh vực OCR làm nền tảng cho các
nghiên cứu về sau.
<i><b>Chương 2</b></i>: Trình bày nội dung tìm hiểu về cơng nghệ mã nguồn mở Tesseract OCR,
cơng nghệ Android, mơ hình client/server, cơng nghệ dịch Google Translate. Các cơng nghệ,
mơ hình này được sử dụng để xây dựng hệ thống.
<i><b>Chương 4</b></i>: Trình bày kết quả thực nghiệm chức năng rút trích thơng tin từ ảnh của hệ
thống cũng như so sánh một sách tương đối kết quả OCR với một số hệ thống khác.
<b>References </b>
<b>Tiếng Việt </b>
[1] Đinh Điền (2005), <i>Xử lý ngôn ngữ tự nhiên</i>, Giáo trình, NXB ĐHQG TPHCM.
[2] Nguyễn Quang Hoan (2006), <i>Xử lý </i><b></b><i> ảnh</i>, Giáo trình, Học viện Cơng nghệ Bưu chính Viễn
thơng .
[3] Nguyễn Văn Huy (2009), <i>Tìm hiểu phương pháp phân tích trang tài liệu</i>, Luận văn Thạc
sĩ, Đại học Thái Nguyên.
[4] Đỗ Năng Tồn, Phạm Việt Bình (2007), <i>Xử lý </i><b></b><i> ảnh, </i>Giáo trình, Đại học Thái Nguyên.
<b>Tiếng Anh </b>
[5] Huang Xuguang, “An Introduction to Android”, <i>Database Lab, Inha University</i>,
November 2009.
[6] Hui-Fuang Ng*, “Automatic thresholding for defect detection”, February 2006.
[8] J. van Beusekom, F. Shafait, T. M. Breuel, “Combined orientation and skew detection
using geometric text-line modeling”, <i>International Journal on Document Analysis and </i>
<i>Recognition</i>, Vol. 13, No. 2. (1 June 2010), pp. 79-92.
[9] F. Shafait, T. M. Breuel, “A simple and effective approach for border noise removal from
document images”, <i>in 13th IEEE Int. Multi-topic Conference</i>, Islamabad, Pakistan, Dec 2009.
[10] R. Smith, “A simple and efficient skew detection algorithm via text row accumulation”,
<i>Proc. 3rd Int. Conf. on Document Analysis and Recognition</i>, 1995, pp1145-1148.
[11] R. Smith, “An overview of the Tesseract OCR Engine”, <i>Proc 9th Int. Conf. on Document </i>
<i>Analysis and Recognition</i>, 2007, pp629-633.
[12] R. Smith, D. Antonova, D. Lee, “Adapting the Tesseract open source OCR engine for
multilingual OCR”, <i>in Proceedings of the International Workshop on Multilingual OCR</i>,
2009.
[13] R. Smith, “Hybrid Page Layout Analysis via Tab-Stop Detection, Document Analysis
and Recognition” <i>Proc 10th Int. Conf. on Document Analysis and Recognition</i>, 2009.
[16] .
[17]
[18]
[19]
[20]