Tải bản đầy đủ (.doc) (71 trang)

Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (857.79 KB, 71 trang )

Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ
PHẦN MỞ ĐẦU

1. Tính cấp thiết của đề tài
Bước vào thế kỷ XXI, Công nghệ thông tin (CNTT) và viễn thông đã
chiếm một vị trí cực kỳ quan trọng trong mọi lĩnh vực của đời sống, trở thành
thành tố cơ bản cho sự phát triển kinh tế xã hội của các quốc gia.
Công nghệ thông tin đã và đang khẳng định vị thế của mình trong mọi
lĩnh vực của đời sống xã hội. Cuộc cách mạng khoa học công nghệ đã và đang
diễn ra mạnh mẽ và thông tin, tri thức trở nên đặc biệt quan trọng trong sự
phát triển kinh tế, xã hội. Trong hoàn cảnh đó, hoạt động thư viện cũng đang
dần đổi mình, phát triển theo chiều hướng ứng dụng các thành tựu của công
nghệ thông tin để trở thành các thư viện hiện đại.
Thư viện muốn làm tốt vai trò của mình trong thời đại bùng nổ thông tin
cần phải có sự hỗ trợ của công nghệ, đặc biệt là công nghệ thông tin. Các
phần mềm dùng trong hoạt động thư viện nhằm mục đích tự động hóa các
hoạt động của thư viện, giúp thư viện nâng cao khả năng và hiệu quả phục vụ
người dùng tin, nâng cao chất lượng và giảm giá thành các sản phẩm, dịch vụ
thư viện.
Hiện nay trên thế giới cũng như ở Việt Nam đang tồn tại khá nhiều phần
mềm được dùng trong hoạt động thông tin – thư viện như các hệ quản trị thư
viện tích hợp (Library Integrated System, LIS), phần mềm quản trị nội dung
số (Content Management System, CMS), phầm mềm nhận dạng ký tự bằng
quang học (Optical Character Recognition, OCR),…Về hệ quản trị thư viện
tích hợp, chúng ta có thể kể ra một số hệ khác nhau như ILIB của Công ty
Máy tính truyền thông CMC, Libol của Công ty Công nghệ tin học Tinh Vân,
COSLIB của Công ty Trường Thành, CDS/ISIS do UNESCO phát triển. Về
phần mềm quản trị nội dung số chúng ta có Greenstone, DSpace, Zope… các
phần mềm này đã hỗ trợ cho các nhân viên thư viện rất nhiều trong việc tự


Lớp: K53 Thông tin – Thư viện

1

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

động hoá các thao tác trong dây truyền xử lý thông tin. Ngoài ra, để xây dựng
thư viện điện tử, các thư viện cũng đang tích cực số hóa các loại tài liệu, trong
đó phần mềm nhận dạng ký tự đóng một vai trò quan trọng.
Hiện nay trên thế giới cũng như trong nước có nhiều phần mềm nhận
dạng ký tự quang học (OCR) như VietDor, ABBYY, VnDocr… Mỗi phần
mềm đều có những tính năng ưu việt riêng, phù hợp với mỗi điều kiện thực tế
của mỗi thư viện. Hiện nay một số trung tâm thông tin thư viện đang sử dụng
phần mềm nhận dạng ABBYY, đây là phần mềm đang được sử dụng rộng rãi
trên toàn thế giới. Với những tính năng ưu việt của phần mềm này, một số thư
viện ở Việt Nam đã lựa chọn và sử dụng để áp dụng cho thư viện mình và
Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội là một trong những
đơn vị đang áp dụng phần mềm này rất thành công. Để kịp thời phổ biến kinh
nghiệm áp dụng phần mềm nhận dạng ABBYY cho các thư viện chưa có điều
kiện tiếp cận với phần mềm này, tôi chọn đề tài: “Phần mềm nhận dạng
ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm
Thông tin Thư viện Đại học Quốc gia Hà Nội” làm đề tài khóa luận tốt
nghiệp.
2. Mục đích nghiên cứu
- Mục đích của khóa luận là nhằm nghiên cứu tổng quan về phần mềm

nhận dạng ABBYY.
- Tìm hiểu những tính năng cơ bản của phần mềm
- Đánh giá quá trình ứng dụng phần mềm này tới công tác số hóa tài liệu,
qua đó có thể phần nào giúp các thư viện đang có ý định sử dụng phần mềm
ABBYY để nhận dạng tiếng Việt vào hoạt động số hóa tài liệu có thêm kinh
nghiệm để triển khai phần mềm này.
3. Đối tượng và phạm vi nghiên cứu.
• Khóa luận tập trung vào nghiên cứu các tính năng và tiện ích của phần
mềm nhận dạng ABBYY cũng như quá trình ứng dụng của phần mềm
Lớp: K53 Thông tin – Thư viện

2

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

ABBYY trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại
học Quốc gia Hà Nội.
• Phạm vi nghiên cứu của khóa luận tập trung trong việc nghiên cứu tìm
hiểu đánh giá chức năng nhận dạng chữ tiếng Việt của phần mềm ABBYY
trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc
gia Hà Nội từ năm 2010 tới năm 2012.
4. Phương pháp nghiên cứu
Trong quá trình thực hiện đề tài đã sử dụng các phương pháp:
* Phương pháp chung.
Dựa trên cơ sở nền tảng là chủ nghĩa duy vật biện chứng, trên hệ thống

các quan điểm của chủ nghĩa Mác –Lê nin và Tư tưởng Hồ Chí Minh.
* Phương pháp cụ thể:
+ Phương pháp quan sát, khảo sát thực tế.
+ Phỏng vấn trực tiếp các cán bộ tại Thư viện.
+ Tổng hợp, thống kê số liệu.
+ Phân tích, tổng hợp các tài liệu có liên quan đến đề tài.
+ Phương pháp nghiên cứu tài liệu.
+ Phương pháp trao đổi, phỏng vấn chuyên gia.
5. Đóng góp của khóa luận.
Khóa luận tuy mới chỉ dừng lại ở việc nghiên cứu tổng quan về phần
mềm nhận dạng ABBYY và những ứng dụng của phần mềm trong công tác số
hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội, song
đề tài cũng đã giải quyết được những nhiệm vụ sau:
- Tìm hiểu phần mềm nhận dạng ABBYY.
Lớp: K53 Thông tin – Thư viện

3

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

- Tìm hiểu các tính năng, tiện ích của phần mềm ABBYY trong việc
nhận dạng chữ tiếng Việt tại Trung tâm Thông tin Thư viện Đại học Quốc gia
Hà Nội.
- Đánh giá quá trình ứng dụng phần mềm trong công tác số hóa tài liệu
tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội

- Đưa ra một số kiến nghị và giải pháp nhằm hoàn thiện việc ứng dụng
ABBYY tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội.
Tác giả khóa luận hy vọng những vấn đề nêu trên có thể giúp ích ít nhiều
cho các thư viện đang có ý định sử dụng phần mềm nhận dạng ABBYY vào
hoạt động số hóa của thư viện mình.
6. Cấu trúc của khóa luận
Khóa luận được tổ chức theo một bố cục chặt chẽ: Phần mở đầu, Phần
nội dung, Kết luận, Danh mục tài liệu tham khảo. Trong đó phần nội dung
được chia thành ba chương như sau:
Chương 1: Số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học
Quốc Gia Hà Nội.
Chương 2: Phần mềm nhận dạng ABBYY trong công tác số hóa tại
Trung tâm Thông tin Thư viện Đại học Quốc Gia Hà Nội.
Chương 3: Giải pháp nhằm nâng cao hiệu quả ứng dụng phần mềm
nhận dạng ABBYY tại Trung tâm Thông tin - Thư viện Đại học Quốc Gia Hà
Nội.

Lớp: K53 Thông tin – Thư viện

4

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ
CHƯƠNG 1

SỐ HÓA TÀI LIỆU TRONG HOẠT ĐỘNG

THÔNG TIN - THƯ VIỆN TẠI TRUNG TÂM THÔNG TIN - THƯ VIỆN
ĐẠI HỌC QUỐC GIA HÀ NỘI
1.1. Giới thiệu khái quát về Trung tâm Thông tin - Thư viện Đại học
Quốc Gia Hà Nội

1.1.1 Quá trình hình thành và phát triển của Trung tâm.
Đại học Quốc gia Hà Nội (tên giao dịch tiếng Anh là Vietnam National
University, Hanoi; viết tắt là VNU) được thành lập theo Nghị định số 97/ CP
ngày 10 tháng 12 năm 1993 của Chính phủ trên cơ sở tổ chức, sắp xếp lại 3
trường đại học lớn ở Hà Nội là Đại học Tổng hợp Hà Nội, Đại học Sư phạm
Hà Nội I và Đại học Sư phạm Ngoại ngữ Hà Nội. Đại học Quốc gia Hà Nội
(ĐHQGHN) chính thức bước vào hoạt động theo Quy chế do Thủ tướng
Chính phủ ban hành ngày 5 tháng 9 năm 1994.
(Xem phụ lục: Hình 1)
Truyền thống của ĐHQGHN gắn với lịch sử hình thành và phát triển
của những trường đại học tiêu biểu ở Việt Nam trong suốt bề dày của thế kỷ
XX, bắt đầu từ Trường đại học Đông Dương (16/5/1906) có cơ sở tại 19 Lê
Thánh Tông, Hà Nội. Đây là trường đại học kiểu hiện đại đầu tiên ở Việt Nam
(thời kỳ Pháp thuộc) được tổ chức theo mô hình trường đại học đa ngành, đa
lĩnh vực.
Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội được thành lập
theo nghị quyết số 66/TCCP ngày 14/2/1997 của Giám đốc Đại học Quốc Gia
Hà Nội trên cơ sở hợp nhất của 3 thư viện của các trường thành viên nói trên.
Ngày 11/11/1999 Giám đốc Đại học Quốc Gia Hà Nội đã quyết định
tách bộ phận Thư viện trường Đại học Sư phạm Hà Nội ra khỏi Trung tâm.
Lớp: K53 Thông tin – Thư viện

5

Trường: ĐHKHXH&NV



Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội có tên giao
dịch quốc tế bằng tiếng Anh là Library and Information Center (LIC, VNU)
Vietnam Nationnal University Hanoi. Trung tâm là đơn vị hạch toán tài chính
độc lập có tài khoản và con dấu riêng, trực thuộc ban Giám đốc ĐHQGHN.
Trụ sở chính của Trung tâm đặt tại 144 Xuân Thủy – Cầu Giấy – Hà Nội và
các chi nhánh bao gồm:
- Phòng phục vụ bạn đọc Thượng Đình:
+ Đại học Khoa học Xã hội và Nhân văn- 336 Nguyễn Trãi - Thanh
Xuân- Hà Nội.
+ Tầng 7 nhà T5 - Đại học Khoa học Tự Nhiên, 334 Nguyễn Trãi Thanh Xuân - Hà Nội.
- Phòng phục vụ bạn đọc Mễ Trì, 182 Lương Thế Vinh - Thanh Xuân Hà Nội.
- Phòng phục vụ bạn đọc Đại học Ngoại ngữ, đường Phạm Văn Đồng Cầu Giấy - Hà Nội.
Sau hơn 10 năm xây dựng và phát triển, tới nay Trung tâm được trang bị
tương đối đầy đủ nguồn lực thông tin, có phương tiện hiện đại đáp ứng nhu
cầu của người dùng tin ở nhiều lĩnh vực khác nhau và trở thành trung tâm văn
hóa, khoa học của toàn Đại Học Quốc Gia Hà Nội.
1.1.2 Chức năng, nhiệm vụ
 Chức năng:
Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội (Trung tâm)
có chức năng thông tin và thư viện phục vụ các công tác đào tạo, nghiên cứu
khoa học, triển khai ứng dụng khoa học công nghệ phục vụ đào tạo và quản lí
của ĐHQGHN, thực hiện sứ mạng mà Đảng và Nhà nước giao phó để góp
phần thực hiện chính sách “Giáo dục là quốc sách hàng đầu”. Trung tâm là
cơ sở đáp ứng nhu cầu cung cấp tin tri thức cho việc học tập, nghiên cứu khoa

học của đội ngũ giảng viên và sinh viện nói riêng, bồi dưỡng nhân tài cho
Lớp: K53 Thông tin – Thư viện

6

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

quốc gia nói chung, phục vụ các công tác đào tạo, nghiên cứu khoa học, triển
khai ứng dụng và quản lý của ĐHQGHN.
 Nhiệm vụ:
Trung tâm có nhiệm vụ nghiên cứu thu thập, xử lý, thông báo và cung
cấp thông tin, tư liệu về khoa học giáo dục, ngoại ngữ và công nghệ phục vụ
cán bộ và sinh viên ĐHQGHN cụ thể là tham mưu quyết định cho các cấp
lãnh đạo về phương hướng tổ chức và hoạt động thông tin, tư liệu nhằm phục
vụ cho hoạt động nghiên cứu khoa học, công tác nghiên cứu, giảng dạy và học
tập của toàn thể cán bộ, giảng viên và sinh viên trong toàn ĐHQGHN.
Bổ sung, trao đổi, phân tích, xử lý tài liệu và thông tin, tổ chức sắp xếp,
lưu trữ, bảo quản kho tư liệu ĐHQGHN bao gồm tất cả các loại hình ấn phẩm
và vật mang tin để đáp ứng nhu cầu khai thác, sử dụng thông tin của bạn đọc.
Xây dựng hệ thống tra cứu tìm tin thích hợp, thiết lập mạng lưới truy
nhập và tìm kiếm thông tin tự động hóa, tổ chức cho toàn thể cán bộ, giảng
viên, sinh viên ĐHQGHN khai thác.
Ngoài ra, Trung tâm còn là nơi thu nhận lưu chiểu những xuất bản phẩm
do ĐHQGHN xuất bản, các luận án tiến sĩ, luận văn thạc sĩ được bảo vệ tại
ĐHQGHN hoặc các công trình nghiên cứu khoa học của cán bộ, giảng viên,

sinh viên trong ĐHQGHN, những báo cáo tổng kết của các đề tài nghiên cứu
cấp ĐHQGHN và cấp nhà nước được nghiệm thu đánh giá do các đơn vị
thuộc ĐHQGHN chủ trì hoặc do cán bộ ĐHQGHN thực hiện.
Trung tâm còn xây dựng các cơ sở dữ liệu đặc thù của ĐHQGHN, xuất
bản các ấn phẩm thông tin tóm tắt thông tin chuyên đề phục vụ công tác quản
lý, nghiên cứu khoa học và đào tạo, nghiên cứu khoa học thông tin tư liệu
Phát triển quan hệ trao đổi, hợp tác trực tiếp với các trung tâm thông tin,
thư viện, các tổ chức khoa học, các trường đại học trong và ngoài nước; tham
Lớp: K53 Thông tin – Thư viện

7

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

gia tổ chức và điều hành Liên hiệp thư viện các trường đại học và Hiệp hội
thông tin - thư viện Việt Nam, tham gia các hiệp hội thư viện quốc tế, làm đầu
mối nối mạng hệ thống Thông tin - Thư viện ĐHQGHN và ngành đại học vào
mạng quốc gia, khu vực và thế giới.
Với chức năng, nhiệm vụ trên đã trở thành kim chỉ nam cho mọi hoạt
động của TT TT- TV, ĐHQGHN, giúp Trung tâm có những bước đi đúng
hướng và hiệu quả, phục vụ sự nghiệp giáo dục của ĐHQGHN.
1.1.3 Cơ cấu tổ chức và đội ngũ cán bộ
 Cơ cấu tổ chức
Cơ cấu tổ chức của Trung tâm gồm có Ban Giám đốc và các phòng ban
chức năng.


- Các phòng chức năng
Lớp: K53 Thông tin – Thư viện

8

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

+ Phòng hành chính - Tổng hợp - Tổ chức - Đối ngoại.
+ Phòng tài vụ.
- Các phòng nghiệp vụ
+ Phòng bổ sung - trao đổi.
+ Phòng phân loại - biên mục.
+ Phòng thông tin thư mục nghiệp vụ.
+ Phòng máy tính và nghiệp vụ mạng.
- Các phòng phục vụ bạn đọc
+ Phòng phục vụ bạn đọc chung : 144 Xuân Thủy – Cầu Giấy – Hà Nội
+ Phòng phục vụ bạn đọc Thượng Đình ( Gồm cả bộ phận phục vụ ở Mễ
Trì và bộ phận phục vụ ở khoa Hóa, 19 Lê Thánh Tông- Hoàn Kiếm- Hà
Nội).
+ Phòng phục vụ bạn đọc ở trường Đại học Ngoại Ngữ - Cầu Giấy - Hà
Nội.
Trung tâm được tổ chức theo quyết định số 947/TCCB của Giám đốc Đại
học Quốc Gia Hà Nội (ĐHQGHN) ngày 21/04/1998.
Nói chung cơ cấu tổ chức như trên là khá hợp lý , có sự thống nhất với

nhau, tạo điều kiện cho quản lý, điều hành trong công tác quản lý, điều hành
công tác nghiệp vụ đảm bảo cho trung tâm hoạt động tốt nhất
 Đội ngũ cán bộ
Trung tâm Thông tin -Thư viện Đại học Quốc gia Hà Nội hiện có 130
cán bộ, trong đó:
Về trình độ:
- 01 tiến sĩ
- 09 thạc sĩ
Lớp: K53 Thông tin – Thư viện

9

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

- 83 cử nhân (chiếm 40%),
- 37 cao đẳng và trung cấp.
Cán bộ của Trung tâm được phân bố qua các bộ phận phù hợp với trình
độ chuyên môn của từng người, trong đó:
+ Khối các phòng chức năng

: 24 người.

+ Khối các phòng chuyên môn, nghiệp vụ

: 28 người.


+ Khối các phòng phục vụ bạn đọc

: 78 người.

Hầu hết cán bộ nhân viên trong Trung tâm đều được đào tạo về chuyên
môn nghiệp vụ, có lòng yêu ngành, yêu nghề, tâm huyết với công việc. Đội
ngũ cán bộ của Trung tâm ngày càng được trẻ hóa nên năng động, sáng tạo,
nhanh nhạy trong việc nắm bắt thông tin, có nhiều đóng góp tích cực giúp
Trung tâm hoạt động ngày càng hiệu quả hơn.
1.1.4. Đặc điểm người dùng tin
Người dùng tin là một trong bốn yếu tố cấu thành nên thư viện. Người
dùng tin đóng vai trò quan trọng trong thư viện, họ là mục tiêu mà thư viện
hướng tới.
ĐHQGHN là đại học lớn với số lượng sinh viên đông đảo. Trình độ ở
các cấp khác nhau bao gồm học sinh, sinh viên, học viên cao học, nghiên cứu
sinh, giảng viên, cán bộ lãnh đạo quản lý trong ĐHQGHN. Qua quá trình
khảo sát tại Trung tâm, tôi nhận thấy có thể chia người dùng tin của Trung
tâm thành 3 nhóm chính sau đây:
Nhóm 1: Cán bộ quản lý lãnh đạo.
Nhóm 2: Giảng viên, cán bộ nghiên cứu.
Nhóm 3: Nghiên cứu sinh, học viên cao học, sinh viên và học sinh.
- Nhóm cán bộ quản lý lãnh đạo: chiếm số lượng ít song lại là nhóm
người dùng tin rất quan trọng. Họ là những người có trí tuệ và quyết định của
Lớp: K53 Thông tin – Thư viện
10
Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp


Nguyễn Thị Thuỷ

họ đưa ra có tầm ảnh hưởng, tác động trực tiếp đến nhiều người Trung tâm
cần cung cấp thông tin tổng quát, tham mưu cho các cán bộ lãnh đạo để đưa
ra những quyết định chính xác, kịp thời.
- Nhóm giảng viên, cán bộ nghiên cứu: Nhóm người dùng tin này chiếm
tỉ lệ khá cao trong thư viện. Họ là những người có trình độ học vấn cao và
nhu cầu sử dụng tài liệu khá cao và đa dạng, họ có khả năng sử dụng mọi loại
hình tài liệu cả tài liệu truyền thống và tài liệu số. Nhu cầu dùng tin của giảng
viên, cán bộ nghiên cứu thường là các tài liệu xám, tài liệu chuyên sâu về một
ngành, lĩnh vực mà họ quan tâm.
- Nhóm nghiên cứu sinh, học viên cao học, sinh viên và học sinh: Đây là
nhóm người dùng tin chiếm tỉ lệ cao nhất trong thư viện. Nhu cầu tin của họ
rất đa dạng, phong phú. Họ cần nhiều nguồn tài liệu như giáo trình, sách tham
khảo, luận văn, luận án... bên cạnh đó là các tài liệu ngoại văn, tài liệu số...
1.1.5. Vốn tài liệu
Với số lượng người dùng tin lớn và đa dạng, Trung tâm cần phải xây
dựng được nguồn lực thông tin chất lượng và phong phú mới có thể đáp ứng
được nhu cầu tin của bạn đọc. Trung tâm rất quan tâm đầu tư phát triển vốn
tài liệu cả về số lượng và loại hình, trong đó đẩy mạnh đầu tư cho tài nguồn
lực thông tin điện tử (CD – ROM, Video, Casset…). Hiện nay, vốn tài liệu
của Trung tâm bao gồm:
• Tài liệu trên vật mang tin truyền thống:
+ Sách: 1160 tên sách giáo trình với 180.500 bản
Sách tham khảo: 100.768 tên tài liệu (250.345 bản)
+ Báo, tạp chí: Trung tâm hiện có 415 tên báo, tạp chí các thứ tiếng Việt,
tiếng Anh, tiếng Pháp, tiếng Trung, tiếng Nga.
+ 7020 luận án, luận văn:
Lớp: K53 Thông tin – Thư viện


11

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

+ 2000 thác bản văn bia.
• Tài liệu điện tử.
Trung tâm hiện có một số lượng khá lớn tài liệu điện tử trên CD – ROM,
băng Video, casset…, một số giáo trình điện tử, 5 CSDL . Trung tâm đã số
hóa một phần trong số tài liệu truyền thống, cụ thể như sau:
- Luận văn: 516 cuốn (85077 trang).
- Sách giáo trình của các lớp nhiệm vụ chiến lược: 120 cuốn (110000
trang).
- Kỷ yếu Đại học Quốc gia: 50 cuốn.
- Sách tham khảo: 28 cuốn.
- Luận văn thạc sĩ chưa có file mềm: 800 cuốn (12000 trang).
Trong năm 2011, đã có 12.000 bản luận án, luận văn, đề tài nghiên cứu
khoa học, 3000 kỷ yếu của ĐHQGHN dưới dạng file điện tử.
Trung tâm đang làm 10486 file tài liệu tham khảo richfile, 2514 file
dạng toàn văn (fulltext) của kỷ yếu hội nghị khoa học ĐHQG HN đưa lên
trang web
Trung tâm đang thực hiện dự án Ebook đại học, số hóa 50000 tên sách,
dự kiến thực hiện trong 3 năm từ 2012 đến 2014.
Cơ sở dữ liệu trên CD-ROM (nguồn tin offline)
1.1.6 Cơ sở vật chất:

 Cơ sở hạ tầng :
Trung tâm Thông tin – thư viện ĐHQGHN nằm trong quần thể ĐHQG,
với toà nhà 7 tầng được trang bị cơ sở vật chất kỹ thuật khang trang hiện đại.
Trung tâm có tổng diện tích sử dụng là : 4.800m2.
Trụ sở chính tại: 144 Xuân Thủy- Cầu Giấy- Hà Nội: 2400m2.
Lớp: K53 Thông tin – Thư viện

12

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

Phòng phục vụ bạn đọc Thượng Đình- trường Đại học Khoa học Xã hội
và Nhân văn: 336 Nguyễn Trãi, Thanh Xuân, Hà Nội: 1.300m2
Phòng phục vụ bạn đọc Tầng 7 Nhà T5, 334 Nguyễn Trãi, Thanh Xuân,
Hà Nội: 200m2.
Phòng phục vụ bạn đọc Ngoại Ngữ: 530m2.
Phòng phục vụ bạn đọc Mễ Trì: 460m2.
Phòng mượn giáo trình khoa Hóa: 19 Lê Thánh Tông: 60m2
 Cơ sở vật chất kĩ thuật :
Mạng LAN hoàn chỉnh tại trụ sở chính và khu vực Thượng Đình, Ngoại
ngữ, Mễ Trì được kết nối Intranet ĐHQGHN và kết nối Internet.
Trung tâm được đầu tư nâng cấp hệ thống trang thiết bị bao gồm : 10
máy chủ, 5 thống mạng cục bộ, 300 máy trạm, 100 máy truy cập Internet và
150 máy phục vụ nhân viên, 20 máy in, máy đọc đĩa laze. Thư viện quang
gồm 76 giá đĩa (mỗi đĩa chứa được 9,1GB thông tin).

Mạng LAN hoàn chỉnh tại trụ sở chính và các khu vực Thượng Đình,
Ngoại Ngữ, Mễ Trì được kết nối Intranet ĐHQGHN.
1.2. Số hóa tài liệu với hoạt động thông tin thư viện tại Trung tâm
Thông tin Thư viện Đại học Quốc gia Hà Nội.
1.2.1. Một số khái niệm.
+ Tài liệu (Document) trong các thư viện và cơ quan thông tin được hiểu
là “Vật mang tin”(Information medium), trên đó ghi cố định thông tin và
được xem như một đối tượng xử lý trong quá trình xử lý thông tin và tư liệu.
+ Số hóa (Digitalize): Theo khái niệm được dùng trong công nghệ thông
tin thì số hóa là việc biến đổi các loại hình thông tin sang thông tin số (các bit
thông tin dữ liệu). Các loại hình tài liệu trên các vật mang truyền thống (giấy,
ảnh, phim…) sau khi qua công đoạn xử lý bằng các thiết bị chuyên ngành và
Lớp: K53 Thông tin – Thư viện

13

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

phần mềm ứng dụng sẽ được chuyển thành các bit mang thông tin hay nói
khác đi là chuyển thành dữ liệu điện tử. Dữ liệu này có thể được xử lý, lưu trữ
trong máy tính điện tử, truyền trên mạng Intenet, tạo nên những cơ sở dữ liệu,
dễ dàng tìm kiếm, trao đổi và chia sẻ kiếm thức một cách thuận tiện nhất.
Thông thường, các dữ liệu dạng chữ, hình ảnh, âm thanh,… sử dụng
trên máy tính và được máy tính nhận biết đúng định dạng, được gọi chung là
dữ liệu số. Quá trình chuyển các dạng tài liệu trên vật mang tin truyền thống

như các bản viết tay, bản in trên giấy, hình ảnh… sang chuẩn dữ liệu trên máy
tính và được máy tính nhận biết được gọi là số hoá tài liệu.
Như chúng ta đã biết, mục đích của một dây chuyền số hóa là chuyển
kho tài liệu giấy thành tài liệu số. Nếu tài liệu số chỉ đơn thuần là các ảnh quét
thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu. Việc
số hóa chỉ mang lại hiệu quả khi quá trình tự động chuyển đổi kho tài liệu trên
giấy thành tài liệu điện tử ở dạng có thể biên tập lại, trích dẫn và tìm kiếm
được. Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng ký tự đang
đóng một vai trò then chốt của dây chuyền số hóa tài liệu.
+ Nhận dạng ký tự bằng quang học (thuật ngữ tiếng Anh là Optical
Character Recognition, viết tắt là OCR). Đây là công nghệ được áp dụng để
nhận dạng ký tự trên một định dạng file ảnh và chuyển nó thành định dạng
văn bản (file text).
Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như
gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật
toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau. Bởi vì chỉ
có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậy
thuật ngữ nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa
nhận dạng ký tự số.

Lớp: K53 Thông tin – Thư viện

14

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ


Để nhận dạng ký tự, đầu tiên hệ thống nhận dạng được yêu cầu phải làm
quen với các mẫu của các ký tự cụ thể, sau đó hệ thống sẽ đọc, nhận dạng và
dịch các ký tự sang ký tự trong ngôn ngữ tương ứng. Các hệ thống "thông
minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện
nay đã trở nên phổ biến. Một số hệ thống còn có khả năng tái tạo lại các định
dạng của tài liệu gần giống với bản gốc bao gồm hình ảnh, các hàng, cột, bảng
biểu, các thành phần không phải là văn bản trong tài liệu.
Nhận dạng ký tự bằng quang học thường được ứng dụng như một phần
mềm cài đặt trên máy tính hoặc tích hợp đi kèm với phần cứng (cụ thể là máy
Scanner) hoặc được thiết lập như một ứng dụng trực tuyến. Hiện nay, có
nhiều phầm mềm nhận dạng ký tự quang học trong đó một số phần mềm đang
được dùng nhiều như OmniPage - một ứng dụng đi kèm với dòng máy Kodak
Scan giúp nhận dạng văn bản sau khi quét hay phần mềm ABBYY
Recognition Server - là một phần mềm ứng dụng công nghệ nhận dạng ký tự
(OCR) nổi tiếng nhất hiện nay. Các chương trình hỗ trợ nhận dạng ký tự
quang học có thể nhận dạng ký tự với tỷ lệ chính xác tới trên 99% đối với
chất lượng hình ảnh rõ nét và font chữ thông thường. Đối với hình chất lượng
kém, font chữ đặc biệt hoặc chữ viết tay thì kết quả cho ra không mấy khả
quan. Đối với văn bản tiếng Việt có nhiều dấu nên tỷ lệ phần trăm nhận dạng
chính xác không cao so với các văn bản trên các ngôn ngữ khác.
Việc nhận dạng văn bản tiếng Việt là một vấn đề khó bởi tiếng Việt có
nhiều dấu. Từ lâu, các chuyên gia Việt Nam đã bỏ nhiều công sức đề nghiên
cứu xây dựng một phần mềm nhận dạng ký tự văn bản tiếng Việt. Hiện nay,
một số chương trình nhận dạng văn bản tiếng Việt đã ra đời như phần mềm có
tên là VnDOCR do Phòng Nhận dạng và Công nghệ Tri thức - Viện Công
nghệ Thông tin nghiên cứu và phát triển. Phần mềm nhận dạng chữ Việt
VnDOCR phiên bản 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được
quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian. Các trang
Lớp: K53 Thông tin – Thư viện


15

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang. Kết quả
nhận dạng có thể được lưu trữ sang định dạng của Microsoft Word, Excel...
phục vụ rất tốt nhu cầu số hóa dữ liệu.
Bên cạnh đó, còn có một phần mềm nhận dạng ký tự tiếng Việt có tên
VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do
Google tài trợ. Đây là một chương trình nguồn mở, hỗ trợ nhận dạng cho các
dạng ảnh TIFF, JPEG, GIF, PNG, và BMP.
Ngoài những phần mềm nhận dạng do các công ty trong nước phát triển
và đã được thương mại hóa còn có một số phần mềm nhận dạng của nước
ngoài, có thể dùng miễn phí như sau:
- TopOCR: Phần mềm TopOCR sử dụng những công nghệ mới nhất,
mạnh nhất trong nhận dạng kí tự quang học và xử lý chữ kí điện tử để cho kết
quả tốt nhất khi nhận dạng kí tự quang học từ ảnh chụp bằng các thiết bị như
máy ảnh số hay điện thoại di động. Công nghệ này là kết quả sau nhiều năm
nghiên cứu và phát triển tại Mỹ và châu Âu. Không giống như các phần mềm
khác được thiết kế cho máy quét, TopOCR được phát triển cho việc nhận
dạng kí tự trong các bức ảnh chụp. Cũng có một phiên bản chạy trên
Windows Mobile và cũng cung cấp khả năng xử lí ảnh chụp rất tuyệt vời.
SimpleOCR: Đây là phần mềm nhận dạng khá mạnh dùng cho máy
quét. Phần mềm này khá phổ biến trên thế giới với hàng trăm ngàn người

dùng. Khi dùng phần mềm này ta có thể tùy chọn những vùng trong ảnh quét
để chương trình bỏ qua không xử lí cùng với nhiều tùy chọn hữu ích khác.
Chương trình cũng có khả năng nhận dạng chữ viết tay và học từ mới. Có thể
nói SimpleOCR là một công cụ rất mạnh để nhận dạng kí tự quang học thay
cho việc đánh máy nhàm chán.

Lớp: K53 Thông tin – Thư viện

16

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

Tuy nhiên các chương trình nói trên vẫn còn trong giai đoạn khởi đầu,
tính năng và chất lượng nhận dạng chỉ ở mức trung bình, đối với các văn bản
viết tay thì hầu như các phần mềm hiện tại không thể nhận dạng được.
Gần đây, ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh
vực nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công
nghệ nhận dạng tiếng Việt và vào tháng 4 năm 2009, công ty này đã cho ra
đời phần mềm ABBYY Recognition Server, có độ chính xác trong việc nhận
dạng tài liệu chữ in tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có
chưa đến 1 ký tự sai). Công nghệ của ABBYY chấp nhận hầu hết các định
dạng ảnh đầu vào như PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, ...
Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel,
HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một
định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu. Với định dạng này,

người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ
tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng được
bên dưới.
Chất lượng nhận dạng của các phần mềm một phần phụ thuộc vào công
nghệ mà phần mềm đó được xây dựng nhưng không phải một phần mềm tốt
là đủ để thực hiện công việc này mà chất lượng nhận dạng còn phụ thuộc vào
chất lượng ảnh cần nhận dạng. Điều quan trọng nhất là tài liệu cần nhận dạng
hay ảnh quét phải có chất lượng đủ tốt, khoảng 200dpi trở lên thì việc nhận
dạng mới chính xác được. Việc nhận dạng chữ Việt thường xảy ra lỗi do các
chữ tương tự nhau, thiếu dấu hay lầm giữa chữ hoa và chữ thường. Vì vậy đòi
hỏi phải chỉnh sửa tài liệu sau khi nhận dạng để có kết quả tốt nhất.
1.2.2. Vai trò của số hóa tài liệu trong hoạt động của Trung tâm
Thông tin thư viện Đại học Quốc Gia Hà Nội
Chúng ta đang sống trong một thời đại mà tri thức không của riêng ai.
Những kiến thức mà các học giả mất hàng trăm năm để nghiên cứu nay được
Lớp: K53 Thông tin – Thư viện

17

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

đúc kết lại thành vài kilobytes, và dễ dàng tìm thấy thông qua các công cụ
như Google. Dù vậy, trên thực tế các tài liệu giấy vẫn giữ nguyên vai trò quan
trọng của nó trong quá trình giáo dục và tìm hiểu của nhân loại, nhất là những
văn bản giấy có giá trị lịch sử lâu đời hoặc mang tính chuyên ngành cao. Điều

này dẫn đến một hệ quả tất yếu: số hóa nền tri thức “giấy in”.
Nhu cầu khai thác thông tin trên văn bản giấy bằng các hệ thống phần
mềm là một thực tế, đòi hỏi phải có giải pháp lưu trữ hiệu quả. Người ta gọi
các hệ thống chuyển đổi thông tin từ dạng giấy sang dạng số là các hệ thống
số hóa. Sau khi được số hóa, các thông tin trên tài liệu trở nên hiện hữu bởi
các hệ thống khai thác thông tin và sẵn sàng để phục vụ các nhân viên của tổ
chức.
Hãy tưởng tường rằng phải mất bao nhiêu giấy tờ và không gian để lưu
trữ kho kiến thức khổng lồ của nhân loại ngày một nhiều; hơn nữa việc bảo
quản và phạm vi sử dụng bị hạn chế, do vậy bắt buộc chúng ta phải nghĩ đến
giải pháp số hóa dữ liệu. Việc lưu trữ nguồn tài liệu theo phương pháp thủ
công truyền thống ngày nay đã nảy sinh nhiều bất cập như khó khai thác, tìm
kiếm thông tin, thêm vào đó các yếu tố như cơ sở vật chất không gian có hạn
và sự tác động của các nhân tố môi trường làm cho tài liệu dễ bị hư hỏng, mất
mát. Do vậy, công tác số hóa là vô cùng cần thiết để lưu trữ, bảo quản lâu dài
cũng như thuận tiện cho việc khai thác và truy nhập thông tin. Số hóa tài liệu
giúp cho việc lưu trữ, truy xuất, chia sẻ, tìm kiếm thông tin một cách dễ dàng
hơn cũng như linh hoạt trong việc chuyển đổi sang các loại dữ liệu số khác
nhau và giảm được không gian lưu trữ cũng như công tác quản lý.
Trung tâm có vốn tài liệu lớn, đa dạng, số lượng tài liệu ngày càng được
bổ sung nhiều từ nguồn bổ sung định kỳ và nguồn tài liệu nội sinh. Trong khi
đó diện tích kho để tài liệu không tăng thêm, do vậy không thể đáp ứng được
sự gia tăng của vốn tài liệu. Điều này thực sự đặt ra rất nhiều khó khăn cho
công tác bảo quản trong một tương lai không xa. Vì vậy số hóa tài liệu là việc
Lớp: K53 Thông tin – Thư viện

18

Trường: ĐHKHXH&NV



Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

làm cần thiết để giúp Trung tâm bảo quản nguồn tài liệu của mình, tiết kiệm
diện tích kho, tiết kiệm chi phí đầu tư cơ sở vật chất, giúp bảo quản tài liệu tốt
hơn tránh được sự hủy hoại của môi trường và sự tác động của con người.
ĐHQGHN với vai trò là một trong hai trường đại học đào tạo chất lượng
cao hàng đầu của cả nước, với nhu cầu phát triển đào tạo và nghiên cứu khoa
học đẳng cấp quốc tế, đào tạo tín chỉ, e-learning (đào tạo điện tử); đòi hỏi
Trung tâm phải có kho tài nguyên tri thức khổng lồ, có khả năng đáp ứng tất
cả các ngành, chuyên ngành đào tạo với chất lượng cao. Theo GS.TS. Nguyễn
Hữu Đức, Phó Giám đốc ĐHQGHN cho biết, trường đang thực hiện Đề án
16+23 nhằm xây dựng 16 ngành đào tạo ĐH và 23 chuyên ngành đào tạo
SĐH đạt trình độ quốc tế vào năm 2012. Theo học các chương trình này, sinh
viên được hỗ trợ để học tiếng Anh nâng cao; từ năm thứ 2, bài giảng do các
giáo viên nước ngoài và trong nước dạy bằng tiếng Anh được thực hành, tham
gia nghiên cứu tại các phòng thí nghiệm hiện đại. Mục tiêu của nhà trường là
tập trung đào tạo đáp ứng theo nhu cầu xã hội với nguồn nhân lực chất lượng
cao, có thể làm việc tại bất kỳ đâu trên thế giới với 77 ngành đào tạo, trong đó
có 105 chuyên ngành đào tạo đại học khác nhau, có 5 chương trình đào tạo
tài năng, 3 chương trình đào tạo tiên tiến, 20 chương trình chất lượng và
nhiều chương trình đào tạo đặc biệt khác.
Từ thực tế đó, Trung tâm xác định việc đầu tư xây dựng và phát triển kho
tài nguyên tri thức một mặt phải khởi tạo nguồn tài nguyên tri thức bằng cách
xây dựng các CSDL điện tử chuyên ngành, xây dựng thư viện các bài giảng
điện tử, đầu tư xây dựng và phát triển các nguồn tài nguyên số hóa (số hóa
các luận án, luận văn, các giáo trình, sách giáo khoa của ĐHQGHN, các đề tài
nghiên cứu khoa học của ĐHQGHN); mặt khác từng bước kết nối với các

Trung tâm Thông tin-thư viện lớn trong nước và quốc tế, các trung tâm học
liệu của cả nước để khai thác tối đa các nguồn lực thông tin đã được đầu tư,

Lớp: K53 Thông tin – Thư viện

19

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

tránh tình trạng lãng phí, đồng thời làm giàu thêm kho tài nguyên tri thức của
ĐHQGHN.
Công tác số hóa tài liệu càng trở nên cấp thiết hơn nữa khi ĐHQGHN
chuyển từ đào tạo niên chế sang đào tạo tín chỉ. Phương thức đào tạo tín chỉ
lấy sinh viên làm trung tâm, theo phương thức này, người học phải có khả
năng tự học, tự tìm kiếm nguồn tài liệu dưới hướng dẫn của giảng viên để
phục vụ cho việc học tập. Với một đội ngũ cán bộ giảng viên hàng nghìn
người, số sinh viên, nghiên cứu sinh đông tới hàng chục nghìn người, trong
khi nguồn thông tin, tài liệu của Trung tâm còn khá hạn chế thì việc số hóa tài
liệu là con đường tất yếu giúp Trung tâm có thể nhanh chóng thỏa mãn nhu
cầu tin của người dùng.
Trong khi đó ĐHQGHN là cơ quan có nhiều đơn vị, trường thành viên
nằm phân tán. Vì vậy nguồn tài liệu phân tán ở nhiều địa điểm khác nhau. Số
hóa tài liệu sẽ làm giảm công sức, chi phí của sinh viên trong trường tìm tài
liệu học tập và giúp sinh viên có thể sử dụng thông tin nhanh chóng, đầy đủ.
Hiện tại tất cả các nguồn tài liệu của các thư viện nói chung và tại Trung

tâm nói riêng đang hàng ngày, hàng giờ phải đối mặt với sự đe dọa của khí
hậu, môi trường, của con người tác động vào. Vì vậy, việc số hóa tài liệu
không những giúp kéo dài tuổi thọ của tài liệu mà con tiết kiệm được diện
tích kho mà còn giúp cho bạn đọc truy cập nhanh vào thông tin tài liệu bất cứ
ở nơi đâu, thời điểm nào mà chỉ cần một máy tính nối mạng là được.
Nhận thấy tầm quan trọng của công tác số hóa tài liệu, Trung tâm đã thử
nghiệm việc số hóa từ năm 2005 với 5 tài liệu và bắt đầu triển khai công tác
số hóa tài liệu từ năm 2009. Trung tâm là một trong những thư viện đi đầu
trong công tác số hóa tài liệu tại Việt Nam hiện nay.

Lớp: K53 Thông tin – Thư viện

20

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ
CHƯƠNG 2

PHẦN MỀM NHẬN DẠNG ABBYY TRONG CÔNG TÁC SỐ HÓA
TÀI LIỆU TẠI TRUNG TÂM THÔNG TIN – THƯ VIỆN
ĐẠI HỌC QUỐC GIA HÀ NỘI
2.1. Giới thiệu tổng quan về phần mềm nhận dạng ABBYY.
2.1.1. Lịch sử hình thành và phát triển.
ABBYY là tên phần mềm nhận dạng đồng thời cũng là tên công ty
ABBYY do David Yang – một cựu sinh viên của Viện Vật lý Công nghệ
Mátxcơva sáng lập và hiện là Tổng Giám đốc của công ty này. Ý tưởng tạo ra

một phần mềm nhận dạng nảy sinh ra khi David Yang phải dùng những cuốn
từ điển to lớn cồng kềnh để tra nghĩa của các từ và David Yang đã tính tới
việc làm ra một từ điển điện tử có thể cho phép mọi người dịch lời nói chỉ
trong một vài giây. Ứng dụng từ điển này sau này trở thành sản phẩm đầu tiên
của ABBYY và được đặt tên là Lingvo.
ABBYY mở rộng phạm vi nghiên cứu sang lĩnh vực nhận dạng ký tự và
năm 1993 ABBYY Recognition Server được chính thức ra mắt. Ban đầu,
phần mềm này chỉ nhận dạng được các văn bản tiếng Nga và tiếng Anh, sau
nhiều năm phát triển không ngừng tới nay, ABBYY Recognition Server đã
trở thành một phầm mềm nhận dạng ký tự hàng đầu thế giới và có thể nhận
dạng được văn bản của gần 200 ngôn ngữ trên thế giới, trong đó có văn bản
tiếng Việt.
Một vài năm sau khi ra mắt công ty nhận ra rằng chất lượng và tính
chính xác của sản phẩm này đã vượt quá yêu cầu ban đầu và là lựa chọn thay
thế của người dùng không chỉ ở nước Nga mà còn ở nước ngoài. Vì thế, năm
1997 ABBYY bắt đầu mở rộng kinh doanh của mình trên toàn cầu và xây
dựng một mạng lưới phân phối quốc tế và thiết lập quan hệ đối tác với các
nhà sản xuất thiết bị tin học hàng đầu thế giới.
Lớp: K53 Thông tin – Thư viện

21

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

Hiện nay, ABBYY là một công ty đa quốc gia với 9 văn phòng ở các

quốc gia khác nhau như Nga, Đức, Hoa Kỳ, Ukraina, Anh, Síp, Nhật Bản và
Đài Loan…Sản phẩm ABBYY đang được bán tại hơn 130 quốc gia trên thế
giới thông qua một mạng lưới các đối tác trong khu vực và quốc tế.
ABBYY là nhà cung cấp hàng đầu thế giới về phần mềm và dịch vụ
chuyển đổi tài liệu, dữ liệu, và nhận dạng ký tự. ABBYY có 2 dòng sản phẩm
chính: ABBYY Recognition Server và ABBYY FlexiCapture.
2.1.2. Các tính năng cơ bản của phần mềm nhận dạng ABBYY
Công nghệ nhận dạng của hãng ABBYY là công nghệ nhận dạng hàng
đầu thế giới, cho phép chuyển đổi tài liệu với nhiều tính năng và tiện ích:
 Nhận dạng chính xác:
Phần mềm này cho phép nhận dạng chính xác 198 ngôn ngữ, bao gồm cả
chữ in tiếng Việt với mức độ chính xác tới 99%, có thể chuyển đổi tài liệu
giấy, ảnh số và các tập tin PDF sang văn bản điện tử ở định dạng có thể soạn
thảo và tìm kiếm được. ABBYY còn có khả năng giữ nguyên định dạng và
dàn trang của tài liệu gốc tốt hơn bao giờ hết. Chỉ trong chốc lát ta có thể
chuyển đổi văn bản dạng ảnh thành văn bản số ở định dạng có thể soạn thảo
được.
 Quản lý tập trung:
ABBYY có giao diện quản lý từ xa, giữ vai trò quản lý tập trung, cho
phép người quản trị đặt cấu hình hệ thống theo các yêu cầu xử lý, các tham số
nhận dạng, lịch trình thực hiện, khuôn dạng kết quả nhận dạng.
 Công cụ tích hợp mềm dẻo:
ABBYY có thể xử lý công việc với khối lượng lớn tùy ý: Việc quản trị
hệ thống cũng rất mềm dẻo làm cho máy hoạt động liên tục hoặc chỉ trong
những khoảng thời gian nhất định. Được trang bị công nghệ nhân dạng chữ in
Lớp: K53 Thông tin – Thư viện

22

Trường: ĐHKHXH&NV



Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

hàng đầu. ABBYY nhận dạng tài liệu với tốc độ chính xác rất cao (với tiếng
Việt là trên 99%). Nó cũng bao gồm chức năng quản lý chất lượng tự động
như khả năng tự động xác định các trang có kết quả thấp và cung cấp giao
diện soát lỗi thân thiện với người dùng.
Đối với văn bản thuần text thì khá đơn giản, nhưng nếu trong văn bản có
bảng biểu, cách dàn trang và trình bày theo cột hoặc theo các cấu trúc khác
nhau thì đây là vấn đề lớn đối với các phần mềm nhận dạng khác chứ chưa
nói gì đến đặc thù chữ viết của chúng ta có nhiều dấu đi kèm. Nhưng với phần
mềm nhận dạng ABBYY tài liệu được chuyển đổi từ dạng ảnh sang dạng có
thể biên tập được những vẫn giữ nguyên cấu trúc so với bản gốc từ chữ viết
tiếng Việt cho đến bảng biểu, cột, dòng, kí hiệu riêng…
 Tài liệu sau nhận dạng chính xác gần như tuyệt đối so với bản
gốc,tiết kiệm thời gian và công sức soạn thảo tài liệu:
Chính xác cấu trúc và dàn trang tài liệu, cung cấp cho người dùng các tài
liệu điện tử soạn thảo được. Công nghệ ADRT độc đáo của ABBYY phân
tích tài liệu theo cách con người đọc tài liệu nhằm phát hiện và thiết lập các
yếu tố định dạng của văn bản như styles, đầu trang và chân trang, số trang,
 Chuyển đổi tập tin PDF thành các văn bản điện tử có thể soạn thảo
và tìm kiếm được:
Chỉ với một thao tác đơn giản, tất cả các tập tin PDF bao gồm cả các tập
tin PDF chỉ có ảnh nhận được từ máy quét, được chuyển đổi chính xác thành
các định dạng văn bản điện tử có thể soạn thảo và tìm kiếm được
 Dễ dàng tạo ra sách điện tử:
ABBYY có thể chuyển đổi sách dưới dạng giấy truyền thống sang mọi

định dạng sách điện tử phổ biến, là những định dạng được hỗ trợ bởi các loại
thiết bị đọc sách điện tử, máy tính bảng hay điện thoại thông minh.
 Định dạng kết quả đầu ra rất đa dạng:
Lớp: K53 Thông tin – Thư viện

23

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

+ PDF, PDF/A – 1a, PDF/A – 1b
+ RTF, DOC, DOCX, Word XML
+ XLS, XLSX, HTML
 Tốc độ xử lý nhanh, tiết kiệm thời gian và chi phí.Hệ thống cho
phép xử lý nhiều định dạng ảnh đầu vào khác nhau:
+ BMP: đen trắng, xám, màu
+ PNG: đen trắng, xám, màu
+ PCX, DCX: đen trắng, xám, màu
Với nhiều tính năng hiện đại như trên, phần mềm nhận dạng của
ABBYY đang được nhiều trung tâm thông tin - thư viện và các cơ quan đơn
vị đưa vào ứng dụng trong quá trình xây dựng thư viện số, quản lý và kinh
doanh. Đây là giải pháp hoàn chỉnh giải quyết vấn đề số hóa nhận dạng, một
chủ đề không mới nhưng vẫn còn rất nóng hiện nay.
Để dùng được phần mềm nhận dạng ABBYY, yêu cầu máy tính phải có
tốc độ tối thiểu 1 GHz
Máy tính có thể chạy trên các hệ điều hành Microsoft Windows 7 hoặc

Windows Vista, Microsoft Windows XP/ Microsoft Windows Server 2008/
Microsoft Windows Server 2003.
Yêu cầu 1024 MB bộ nhớ để làm việc với giao diện ngôn ngữ tùy chọn
và cần thêm 512 MB RAM cho mỗi lõi của bộ vi xử lý.
Yêu cầu phải có tối thiểu 700 MB ổ cứng để cài đặt ứng dụng và 700 MB
trống để chương trình hoạt động.
Máy quét tương thích chuẩn TWAIN hoặc WIA, máy ảnh số hoặc faxmodem (tùy chọn) màn hình có độ phân giải tối thiểu 1024x76.

Lớp: K53 Thông tin – Thư viện

24

Trường: ĐHKHXH&NV


Khóa luận tốt nghiệp

Nguyễn Thị Thuỷ

2.1.3. Các ứng dụng chính của phần mềm nhận dạng ABBYY tại
Trung tâm
+ Khả năng lưu trữ: Chuyển đổi một khối lượng lớn tài liệu giấy sang tài
liệu số dưới các định dạng có thể tìm kiếm và biên tập được như là MSWord,
MS Excel, PDF, PDF/A.
(Xem phụ lục: Hình 2)
+ Tích hợp hệ thống:
Chi phí thấp nhất và tiết kiệm nguồn lực là những ưu điểm nổi bật của
ABBYY Recognition Server. Xét về khả năng tích hợp, so với các bộ phần
mềm nhận dạng truyền thống, ABBYY tiết kiệm nguồn lực và chi phí rất
nhiều. ABBYY không chỉ cung cấp giao diện tích hợp dễ sử dụng mà còn là

các hàm được đóng gói ở mức độ cao, sẵn sàng cho các chức năng nhận dạng
tài liệu hay chuyển đối sang PDF. Thêm vào đó các hệ thống quản lý thông
tin được bổ sung một khối chức năng chuyển đổi tài liệu hoàn chỉnh
Hãy tưởng tượng bạn đang có trong tay một số tài liệu giấy như sách,
báo, tờ rơi quảng cáo, hợp đồng. Máy quét chỉ có thể biến những tài liệu giấy
này thành tài liệu dạng ảnh. Với các tài liệu dạng ảnh chỉ có thể đọc mà không
thể biên tập lại chúng trên các hệ soạn thảo điện tử hiện nay; các hệ thống tìm
kiếm cũng không thể tìm được các đoạn văn bản trên những tài liệu này. Với
việc sử dụng phần mềm nhận dạng chữ in biên soạn lại các tài liệu dạng ảnh
cũng như việc số hóa tài liệu sẽ được thực hiện rất đơn giản.
Nhờ các tính năng vượt trội trên nên mặc dù mới được du nhập vào Việt
Nam nhưng phần mềm nhận dạng ABBYY đã được nhiều cơ quan tổ chức
đánh giá cao và đưa vào sử dụng như: Bộ Khoa học và Công nghệ (Cục Sở
hữu trí tuệ), Trung tâm Thông tin Thư viện ĐHQG Hà Nội, Văn phòng TW
Đoàn Thanh niên Cộng sản Hồ Chí Minh, Công ty Cổ phần Chứng Khoán
Vndirect…
Lớp: K53 Thông tin – Thư viện

25

Trường: ĐHKHXH&NV


×