DSpace at VNU: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (107.46 KB, 4 trang )

Các kỹ thuật xử lý ngôn ngữ trong số hóa văn
bản tiếng Việt của hệ thống FSCANNER
Ninh Thị Thu Hà
Trường đại học Công nghệ
Luận văn ThS. Kỹ thuật phần mềm; Mã số: 60 48 01 03
Người hướng dẫn: TS. Lê Quang Minh
Năm bảo vệ: 2014
Abstract. Tìm hiểu các kỹ thuật nhận dạng OCR, kỹ thuật kiểm lỗi chính tả dựa trên mô
hình n-gram, kỹ thuật trích rút metadata .


Nghiên cứu các đặc trưng lưu trữ và đề xuất xây dựng metadata cho văn bản được số hóa
góp phần xác định các thuộc tính cần thiết của metadata cho việc xây dựng hệ thống
FSCANNER



Đề xuất chọn chỉ số dpi và góc xoay thích hợp cho ảnh quét để nâng cao hiệu quả nhận
dạng OCR.

Keywords. Xử lý ngôn ngữ; Số hóa văn bản; FSCANNER; Nhận dạng hình ảnh; Công
nghệ thông tin

Content.
Chương 1: Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản
tiếng Việt.
Nội dung giới thiệu về bài toán xử lý ngôn ngữ tự nhiên và sơ đồ hoạt
động của việc số hóa văn bản tiếng Việt của hệ thống FSCANNER.
Chương 2: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt
Nội dung chương 2 gồm 3 phần: giới thiệu một số kỹ thuật nhận dạng
OCR; kỹ thuật soát lỗi chính tả dựa trên mô hình ngôn ngữ n-gram; kỹ thuật

trích rút metadata, trong đó đề xuất xây dựng metadata cho văn bản được số hóa.

Chương 3: Thực nghiệm – đánh giá:
Chạy chương trình với bộ dữ liệu thực nghiệm đưa ra để chọn ngưỡng chỉ
số DPI và góc xoay thích hợp đối với ảnh quét đầu vào trước khi nhận dạng
OCR, nhằm nâng cao hiệu quả nhận dạng.

References.
Tiếng Việt
1. Hồ Tú Bảo, Lương Chi Mai (2005), “Về xử lý tiếng Việt trong Công nghệ thông
tin”. />2. Bộ Giáo dục (1984), Quy định về chính tả tiếng Việt và thuật ngữ tiếng Việt.
/>3. Bộ Giáo dục và Đào tạo (2002), Quy định tạm thời về chính tả trong sách giáo
khoa mới, Nhà Xuất bản giáo dục.
4. Bộ Giáo dục và Đào tạo (2003), Quy định tạm thời về viết hoa tên riêng trong sách
giáo khoa.
5. Bộ nội vụ (2011), Thông tư hướng dẫn thể thức và kỹ thuật trình bày văn bản
hành chính.
6. Bộ Thông tin và truyền thông (2011), Thông tư quy định về việc tạo lập, sử dụng
và lưu trữ dữ liệu đặc tả trên trang thông tin điện tử hoặc cổng thông tin điện tử
của cơ quan nhà nước.
7. />8. />9. />10. Lê Trung Hiếu, Lê Anh Vũ, Lê Trung Kiên (2013), “Áp dụng xác suất thống kê

và quá trình máy tự học cho bài toán phân tách từ văn bản tiếng Việt”, Tạp chí
khoa học và công nghệ trường Đại học Duy Tân, (1), tr.32-38.
11. Lê Minh Hoàng, Ngô Quốc Tạo, Lương Chi Mai (2002), “Ứng dụng mô hình
Markov ẩn trong nhận dạng chữ”, Tạp chí khoa học và công nghệ, tập 40, số ĐB,
tr.31-40.
12. Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai (2009), “Kết hợp các bộ phận

phân lớp SVM cho việc nhận dạng chữ việt viết tay rời rạc”, Tạp chí tin học và
điều khiển, tập 25, (1) ,tr.88-97.
13. Ngô Văn Sỹ (2008), “Nhận dạng ký tự quang học bằng mạng nơron” , Tạp chí
khoa học và công nghệ Đại Học Đà nẵng, (4), tr.20-24.
14. Văn phòng chính phủ (1998), Quy định tạm thời về viết hoa trong văn bản của
Chính phủ và của Văn phòng Chính phủ.
Tiếng Anh
15. Cortes, Corinna, Vapnik, Vladimir (1995), Support-Vector Networks, Machine
Learning
16. H. Han, C.L. Giles, E. Manavoglu, H. Zha, Z. Zhang, E.A. Fox (2003), Automatic
document metadata extraction using support vector machines, In: Proceedings of
the 3rd ACM/IEEECS Joint Conference on Digital Libraries, International
Conference on Digital Libraries, pp. 37–48. IEEE Computer Society Press,
Washington, DC.
17. Hao, C. X. (2000), Vietnamese - Some Questions on Phonetics, Syntax and
Semantics, Education Publishing House, Hanoi.
18. />19. />m;

20.

/>
21.

22. John C.Platt, Nello Cristianini, John Shawe-Taylor (1999), Large Margin DAGs
for Multiclass Classification, NIPS
23. K. Nakagawa, A. Nomura, and M. Suzuki (2004), “Extraction of Logical
Structure from Articles in Mathematics”, MKM, LNCS 3119, pp. 276-289,

Springer Berlin Heidelberg from Articles in Mathematics.
24. F. Peng, A. McCallum (2006), “Accurate Information Extraction from Research
Papers using Conditional Random Fields”, Information Processing and
Management: an International Journal, pp. 963 – 979.
25. Rabiner L.R (1989), "A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition" , Proceedings of IEEE, VOL.77, NO.2, pp.
257-286.
26.

Rohit Verma, Dr. Jahid Ali (2012), “A-Survey of Feature Extraction and

Classification Techniques in OCR Systems”, International Journal Applications &
Information Technology, Vol.I, Issue III (ISSN: 2278-7720).

DSpace at VNU: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về