TỔNG CỤC THỐNG KÊ
BÁO CÁO TỔNG HỢP
KẾT QUẢ NGHIÊN CỨU KHOA HỌC
ĐỀ TÀI CẤP TỔNG CỤC
NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ
TỰ THÔNG MINH (ICR) TRONG XỬ LÝ SỐ LIỆU TỔNG
ĐIỀU TRA DÂN SỐ VÀ NHÀ Ở NĂM 2009
Đơn vị chủ trì: Trung tâm Tin học Thống kê
Chủ nhiệm: TS. Thiều Văn Tiến
Thư ký: CN. Nguyễn Thị Huyền Thanh
7873
21/4/2010
HÀ NỘI, NĂM 2008
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 1 -
LỜI NÓI ĐẦU
Ngày nay, nhiều nước trên thế giới cũng như trong khu vực đã áp dụng công
nghệ quét, nhận dạng ký tự thông minh (ICR) trong việc xử lý số liệu điều tra
thống kê nói chung và xử lý số liệu điều tra dân số nói riêng. Trong khi đó, ở
nước ta, việc xử lý số liệu điều tra thống kê hiện nay chỉ thực hiện bằng công
nghệ nhập tin truyền thống. Vì v
ậy, chúng ta không biết được công nghệ nhận
dạng ký tự thông minh là gì và có thể áp dụng trong xử lý điều tra thống kê ở
nước ta hay không. Trong trường hợp áp dụng được thì những yếu tố nào ảnh
hưởng đến sự thành công hay thất bại của việc áp dụng công nghệ này trong xử
lý? v.v Vì vậy, việc nghiên cứu thử nghiệm công nghệ nhận dạng ký tự thông
minh trong các điều tra để chuẩn bị cho việc áp d
ụng công nghệ này trong xử lý
Tổng điều tra dân số và nhà ở 1/4/2009 là rất cần thiết. Những kinh nghiệm có
được trong quá trình nghiên cứu, thử nghiệm sẽ góp phần đảm bảo cho sự
thành công của việc áp dụng công nghệ ICR trong xử lý điều tra thống kê nói
chung và trong xử lý Tổng điều tra dân số và nhà ở nói riêng. Đề tài nghiên cứu
khoa học “Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh trong
xử lý số li
ệu Tổng điều tra dân số và nhà ở năm 2009”, mã số 2.1.10-TC07-08
nhằm giải quyết những vấn đề nêu trên. Đề tài đã tiến hành nghiên cứu công
nghệ nhận dạng ký tự thông minh, nghiên cứu phần mềm ReadSoft FORMS
5.2, thử nghiệm công nghệ nhận dạng ký tự thông minh (ICR) của công ty
ReadSoft với các điều tra biến động dân số năm 2006, năm 2007 và điều tra thử
nghiệm của Tổng điều tra dân s
ố và nhà ở năm 2009.
Báo cáo kết quả nghiên cứu của đề tài gồm 5 phần: Phần I. Nghiên cứu kinh
nghiệm áp dụng công nghệ quét, nhận dạng ký tự trong xử lý số liệu điều tra
thống kê của một số nước; Phần II. Nghiên cứu áp dụng công nghệ nhận dạng
của công ty ReadSoft; Phần III. Nghiên cứu các vấn đề về thiết kế, in, ghi phiếu
khi áp dụng công nghệ quét, nhận dạng trong xử lý
điều tra; Phần IV. Thử
nghiệm công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống
kê về dân số các năm 2006, 2007, 2008; Phần V. Nghiên cứu, đề xuất quy trình
xử lý, nguồn lực vật chất, nguồn nhân lực và mô hình tổ chức xử lý Tổng điều
tra dân số và nhà ở 1/4/2009. Trong đó, nội dung Phần 4 “Thử nghiệm công
nghệ nhận dạng ký tự thông minh (ICR) trong xử lý điều tra thống kê v
ề dân số
các năm 2006, 2007, 2008” sẽ trình bày chi tiết kết quả thử nghiệm công nghệ
ICR trong xử lý điều tra biến động dân số năm 2006, điều tra biến động dân số
năm 2007, điều tra thử nghiệm của Tổng điều tra dân số và nhà ở. Trên cơ sở
những kinh nghiệm có được từ các lần thử nghiệm, phần cuối của báo cáo kết
quả nghiên cứu
đưa ra những kết luận cũng như những kiến nghị cho xử lý
Tổng điều tra dân số và nhà ở 1/4/2009.
Để biết được việc áp dụng công nghệ ICR trong xử lý điều tra thống kê như
thế nào, trước hết người ta phải hiểu được sự khác nhau giữa việc xử lý dữ liệu
bằng phương pháp nhập tin truyền thống và việc xử lý áp dụng công nghệ ICR.
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 2 -
Nói chung, trong xử lý số liệu điều tra thống kê người ta đều phải thực hiện
công việc nhập dữ liệu từ phiếu điều tra (trên giấy) vào máy tính. Cho đến thời
nay, công việc này thường được thực hiện với các giải pháp: nhập tin bằng bàn
phím; nhập tin bằng công nghệ quét. Nhập tin bằng bàn phím là phương pháp
đơn giản. Để nhập tin, người ta thường phát triển chương trình ứng dụng theo
từng phi
ếu điều tra. Người sử dụng dùng bàn phím để nhập tin từ phiếu điều tra
vào vị trí tương ứng trên màn hình máy tính. Chương trình ứng dụng sẽ ghi
những thông tin đã nhập vào các tệp (file) hoặc cơ sở dữ liệu. Các bước xử lý
tiếp theo như hiệu chỉnh, tổng hợp, phân tích số liệu sẽ đọc thông tin từ tệp
hoặc cơ sở dữ liệu, nơi lư
u giữ dữ liệu đã nhập. Phương pháp nhập tin bằng bàn
phím là phương pháp thường được sử dụng từ trước đến nay và còn tiếp tục sử
dụng sau này do sự đơn giản, chi phí đầu tư thấp. Tuy nhiên, nếu áp dụng
phương pháp này trong xử lý số liệu điều tra có khối lượng lớn thường mất
nhiều thời gian do tốc độ nhập tin của con người có hạn. Mặt khác ch
ất lượng
thông tin đã nhập phụ thuộc vào kỹ năng của người nhập tin.
Nhập tin bằng quét (scanning) là một công nghệ mới được phát triển vào
những năm 80 của thế kỷ trước. Để nhập tin bằng công nghệ quét người ta phải
trang bị máy quét (Scanner) để quét phiếu điều tra và trang bị phần mềm nhận
dạng để chuyển thông tin dạng ảnh (image) thành ký tự (chữ, số) để máy tính
có thể tính toán được. Hiện nay công nghệ này đã được áp dụng ở nhiều nước
trên thế giới. Các nước Trung Quốc, Nhật Bản, Inđônêxia, Philippin, Thái Lan,
Lào đều đã áp dụng công nghệ này trong xử lý dữ liệu điều tra thống kê. Việt
Nam chưa áp dụng công nghệ quét để xử lý số liệu điều tra. Tuy nhiên, do
những ưu việt của công nghệ quét như tốc độ xử lý nhanh, độ chính xác cao
nên Tổ
ng cục Thống kê đang chuẩn bị áp dụng công nghệ này trong xử lý số
liệu tổng điều tra dân số và nhà ở năm 2009. Trong thời gian qua, với sự giúp
đỡ của Quỹ dân số Liên hợp quốc trong việc mua sắm trang thiết bị dùng cho
thử nghiệm, Trung tâm Tin học thống kê đã kết hợp với Vụ thống kê Dân số và
Lao động tiến hành nghiên cứu ứng dụng công nghệ ICR. Kết quả nghiên cứ
u,
thử nghiệm trong gần 2 năm qua là nội dung chính của Đề tài.
Tham gia nghiên cứu đề tài có cán bộ của Trung tâm Tin học thống kê và
Vụ thống kê Dân số và Lao động. Danh sách những người thực hiện như sau:
1. Tiến sỹ Thiều Văn Tiến, Phó giám đốc Trung tâm Tin học Thống kê, chủ
nhiệm đề tài
2. Cử nhân Nguyễn Thị Huyền Thanh, Phó trưởng Phòng cơ sở dữ liệu
Trung tâm Tin học Thống kê, thư
ký đề tài
3. Cử nhân Phạm Huy Tú, Giám đốc Trung tâm Tin học Thống kê
4. Kỹ sư Phạm Thị Thanh, Phó giám đốc Trung tâm Tin học Thống kê
5. Cử nhân Mai Văn Cầm, Phó Vụ trưởng Vụ Thống kê Dân số và Lao
động
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 3 -
6. Cử nhân Cao Quang Thành, chuyên viên Phòng cơ sở dữ liệu Trung tâm
Tin học Thống kê
7. Cử nhân Phạm Thị Minh Thu, chuyên viên Phòng cơ sở dữ liệu Trung
tâm Tin học Thống kê
8. Kỹ sư Nguyễn Thị Thu Hồng, chuyên viên Phòng cơ sở dữ liệu Trung
tâm Tin học Thống kê
9. Cử nhân Nguyễn Thị Yến, chuyên viên Phòng cơ sở dữ liệu Trung tâm
Tin học Thống kê
10. Cử nhân Vũ Huy Thường, chuyên viên Phòng cơ
sở dữ liệu Trung tâm
Tin học Thống kê
11. Cử nhân Dương Thị Xuân Lân, chuyên viên Phòng cơ sở dữ liệu Trung
tâm Tin học Thống kê
12. Cử nhân Phan Thị Minh Hiền, chuyên viên Vụ Thống kê Dân số và Lao
động
13. Kỹ sư Nguyễn Hữu Hoàn, chuyên viên Phòng cơ sở dữ liệu Trung tâm
Tin học Thống kê
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 4 -
PHẦN I. KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG
KÝ TỰ TRONG XỬ LÝ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƯỚC
1. Công nghệ quét, nhận dạng
Công nghệ nhận dạng đã được cơ quan thống kê nhiều nước áp dụng trong
xử lý điều tra để đọc dữ liệu tự động từ các bảng hỏi thay cho việc nhập tin từ
bàn phím. Công nghệ quét, nhận dạng đầu tiên là công ngh
ệ đọc đánh dấu
quang học (OMR- Optical Mark Recognition), tiếp theo là công nghệ nhận
dạng ký tự quang học (OCR- Optical Character Recognition) và công nghệ
nhận dạng ký tự thông minh (ICR-Intelligent Character Recognition).
1.1. Công nghệ đọc đánh dấu quang học (OMR)
Cách đây vài thập kỷ, rất nhiều nước tiên tiến đã sử dụng công nghệ nhận
dạng ký tự đánh dấu bằng thiết bị quang học (OMR) để xử lý phiếu điều tra.
Đây là một b
ước tiến quan trọng trong việc xử lý phiếu tự động nhưng việc áp
dụng rộng rãi gặp nhiều khó khăn do có nhiều đòi hỏi quá cao như: phải có
thiết bị đọc riêng, yêu cầu cao về chất lượng giấy và in phiếu, không nhận dạng
được các chữ cái và các chữ số phải chuyển đổi thành nhiều ký tự đánh dấu v.v.
Công nghệ OMR đòi hỏi có thiết bị đọc riêng và phả
i đánh dấu trên phiếu
hỏi. Chính vì vậy, thiết kế form OMR sẽ phức tạp hơn nhiều là thiết kế form
thông thường. Form thiết kế phải có các rãnh dọc theo mép của form, chỉ rõ
cho máy Scanner đọc và nhận dạng điểm nào. Thêm vào đó đường cắt của form
OMR phải cực kỳ chính xác, bao gồm các hình ô văng “bubbles” nhỏ. Để thiết
kế chỗ khoanh câu trả lời cho một câu hỏi phải tốn nhiều chỗ
vẽ hình ô văng đó
cho từng phương án trả lời một. Sau đó điều tra viên sẽ làm kín ô có phương án
trả lời đúng thì máy Scan mới nhận dạng được. OMR không thể nhận dạng chữ
viết tay và chữ in.
Về độ chính xác thì công nghệ nhận dạng OMR so với công nghệ OCR và
ICR là hơn hẳn. Tuy nhiên nó sẽ rất tốn công sức và chi phí hơn công nghệ ICR
và OCR.
1.2. Công nghệ nhận dạng ký tự quang học (OCR)
Công ngh
ệ OCR là một bước tiến mới so với công nghệ OMR bởi vì nó có
thể nhận dạng ký tự in trên giấy. Tuy nhiên, tỷ lệ nhận dạng chính xác không
bằng công nghệ OMR, nhưng nó đỡ tốn kém hơn công nghệ OMR. Công nghệ
này chuyển hình ảnh chữ thành mã tương ứng mà máy tính có thể đọc được
(ASCII text file). Công nghệ OCR chỉ có thể nhận dạng chữ in chứ không thể
nhận dạng được chữ viết tay. Đối với ch
ữ in, nó cũng chỉ có thể nhận dạng một
số loại fonts chuẩn như Times Roman và Arial
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 5 -
1.3. Công nghệ nhận dạng ký tự thông minh (ICR)
Từ những năm 90 của thế kỷ trước, công nghệ nhận dạng ký tự thông
minh (ICR) bắt đầu dần thay thế công nghệ OMR. Những loại ký tự có thể đọc
và nhận dạng được bởi công nghệ này bao gồm: các chữ in, chữ viết tay, các ký
tự đánh dấu hay được khoanh, mã vạch, Các phiếu điều tra được nhập vào
máy tính thay vì bằng cách nhập tin từ bàn phím nay đượ
c máy quét (scanner)
chuyển thành hình ảnh và sau đó được nhận dạng chuyển đổi thành các chữ cái
chữ số mà máy tính có thể xử lý được.
So với OMR, công nghệ ICR là một bước tiến dài khi nó nhận dạng được
không chỉ các ký tự đánh dấu, mã vạch, mà còn nhận dạng chữ viết tay.
Công nghệ ICR là công nghệ tiên tiến nhất trong các công nghệ OMR, OCR,
ICR. Công nghệ ICR cũng không đặt yêu cầu quá cao về chất lượng giấy,
không đòi hỏi thiế
t bị chuyên biệt. Ngày nay ICR được sử dụng rộng rãi ở rất
nhiều nước trong nhiều lĩnh vực, riêng lĩnh vực xử lý điều tra thống kê, nhất là
các tổng điều tra, công nghệ ICR đang dần chiếm lĩnh và thay thế cách thức
nhập tin truyền thống. Tuy tỷ lệ nhận dạng không cao bằng công nghệ OCR và
OMR (thường đạt tỷ lệ lớn hơn 95%), nhưng nó gần với th
ực tế hơn, gần với
form thiết kế nhập tin hơn, dễ sử dụng hơn.
2. Kinh nghiệm áp dụng công nghệ quét, nhận dạng trong xử lý điều tra
thống kê của một số nước
2.1. Kinh nghiệm của Thái Lan
Trước năm 2000, Thái Lan đã thử nghiệm công nghệ nhận dạng ký tự
thông minh (ICR) và lần đầu tiên áp dụng công nghệ này trong xử lý số liệu
tổng điề
u tra dân số năm 2000. Sau khi xử lý tổng điều tra dân số năm 2000,
Thái Lan tiếp tục sử dụng công nghệ này trong xử lý điều tra Lao động (Labour
Force Survey), điều tra hộ sản xuất (The Household Manufacturing Survey),
Tổng điều tra nông nghiệp năm 2003, v.v.
Trong tổng điều tra dân số năm 2000, Thái Lan sử dụng hai loại phiếu là
phiếu ngắn và phiếu dài. Tất cả nhân khẩu thường trú được ghi vào phiếu ngắn,
trong đó có 20% nhân kh
ẩu thường trú được ghi vào phiếu dài. Phiếu ngắn
(gồm 16 chỉ tiêu) thu thập các chỉ tiêu cơ bản nhất như tuổi, giới tính, quan hệ
với chủ hộ, tôn giáo, dân tộc, tình trạng đi học, biết đọc/viết, tình trạng hôn
nhân, làm việc bao gồm nghề nghiệp, ngành kinh tế, vị thế việc làm (hỏi cho 12
tháng trước điều tra). Ngoài các chỉ tiêu ở phiếu ngắn, phiếu dài còn bao gồm
các chỉ tiêu (thêm 10 chỉ tiêu): công vi
ệc làm trong tuần trước điều tra, tìm việc
làm, lý do không làm việc, số con sinh và số con chết, số trẻ sinh trong năm
qua, nơi sinh, độ dài thời gian cư trú, nơi ở trước, lý do di chuyển. Về nhà ở,
bao gồm các chỉ tiêu sau: loại nhà, sở hữu đất, diện tích ở (tổng điều tra); nhiên
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 6 -
liệu nấu ăn, phương tiện vệ sinh, nguồn nước dùng để ăn uống, nguồn nước,
các thiết bị sử dụng lâu bền.
Số lượng phiếu đã xử lý trong tổng điều tra dân số năm 2000 của Thái Lan
là 16 triệu phiếu. Nếu nhập tin bằng bàn phím, thời gian nhập tin kéo dài 12
tháng, trong khi sử dụng công nghệ quét nhận dạng ký tự ICR chỉ mất 8 tháng
(bằng 2/3 thời gian nhập tin bằ
ng bàn phím).
Cơ quan Thống kê Quốc gia Thái Lan (NSO) xử lý số liệu tổng điều tra
dân số 2000 theo mô hình tập trung. Cơ quan Thống kê tỉnh có trách nhiệm tiến
hành điều tra, kiểm tra phiếu, hiệu đính và ghi mã trước khi gửi về NSO tại
Băng Cốc. Việc quét và xử lý tiến hành tập trung tại Băng Cốc.
Hệ thống máy móc, thiết bị và phần mềm sử dụng công nghệ ICR gồm 2
hệ thống:
- Hệ thống TELEform sử dụng phần mềm TELEform của TELEform Cardiff
Software, inc. USA cho ICR. TELEform 6.2 Elite Enterprise Edition (gồm các
Module: TELEform Designer; TELEform Reader; TELEform Verifier)
Các thiết bị sử dụng trong hệ thống TELEform bao gồm:
Tên thiết bị
Số lượng (cái) Ghi chú
NetServer for TELEform Server 1
NetServer for DataBase Server 1
Reader Modules Workstatons 21
Verifier Modules Workstations 30
Scanner Control Workstations 6
Sanner Fujitsu M4099D (*) 6
- Hệ thống ABBYY sử dụng phần mềm ABBYY của Cộng hòa liên bang Nga
cho ICR. Phần mềm ABBYY 6.0 Enterprise Edition (gồm các Module sau:
Form Designer; Administration Station; Recognition Station; Correction
Station).
Các thiết bị sử dụng trong hệ thống ABBYY bao gồm:
Tên thiết bị
Số lượng
(cái)
Ghi chú
IBM Server X Series 225 1
Correction Station 1
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 7 -
Verifier Modules Workstations 25
Scanner Control Workstations 4
Sanner Fujitsu M4099D (*) 4
Storage Flex LT707 1
(*): Máy quét khổ A3, 2 mặt (Duplex). Giá mỗi máy năm 2000 khoảng 20.000
USD
Về phần mềm nhận dạng ICR: Thời gian đầu NSO Thái Lan đã mua phần
mềm công nghệ ICR (gồm 3 môdule: thiết kế, đọc và hiệu chỉnh số liệu) của
Công ty Phần mềm TELEform Cardiff của Mỹ. Trong thời gian sử dụng, có
một vài trục trặc và nhận thấy nếu mua trọn gói thì đắt, NSO đã chuyển qua
thuê phần mềm ABBYY của Nga có trụ sở
tại Băng Cốc.
Một số kinh nghiệm của Thái Lan khi áp dụng ICR trong xử lý điều tra:
- Có thể sử dụng giấy 80 gram/m2 để in phiếu cho công nghệ ICR. Tuy nhiên
độ dai của giấy cần tốt hơn loại giấy thông thường;
- Không nhất thiết mỗi phiếu phải in số định danh, kể cả trong trường hợp
phiếu nhiều trang, thì mỗi trang cũng không cần in số định danh để phân biệt
trang c
ủa các tập phiếu khác nhau. Khi có một tờ phiếu nào có vấn đề, máy tính
kiểm soát máy quét đưa ra thông báo ngay. Người vận hành lấy tờ đó từ ngăn
“đầu ra” cho lại vào ngăn “đầu vào” để quét lại, vì phần mềm quét đủ thông
minh để có thể biết tờ phiếu nào quét được, tờ nào có trục trặc;
- Công việc vận hành quét không phải hoàn toàn tự động, mà là nửa tự động,
nửa thủ công;
- Tốc độ quét rấ
t khác nhau, tùy thuộc vào số lượng ô trên một trang phải nhận
dạng. Ví dụ, tốc độ quét phiếu Tổng điều tra dân số năm 2000 của Thái Lan là
20 tờ/1 phút (2 mặt). Song với phiếu Tổng điều tra nông nghiệp năm 2003 của
Thái Lan, thì tốc độ quét giảm chỉ còn một nửa (10 tờ/1 phút);
- Để nâng cao khả năng nhận dạng và thời gian hiệu chỉnh số liệu, tất cả các ký
tự nhậ
n dạng dùng để tổng hợp đều phải bằng số. Như vậy có nghĩa là, nếu câu
trả lời nào đó không phải bằng số, cần ghi mã trước khi quét;
- Để giảm khối lượng xác minh số liệu, điều tra viên/mã số viên phải viết tương
đối chuẩn các số vào trong ô mã dành sẵn theo quy định. Không được viết một
cách cẩu thả, tuỳ tiện;
- Việc xác minh số liệu chỉ ph
ải tiến hành đối với các ký tự mà phần mềm nhận
dạng phân vân không khẳng định chắc chắn đó là ký tự gì, chứ không cần phải
kiểm tra tất cả các ký tự. Vì vậy, việc ghi chép phiếu càng đúng và chuẩn mực,
càng giảm công việc xác minh số liệu;
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 8 -
- Phiếu thiết kế theo dạng danh sách bằng giấy 80 gram/m2. Các ô mã trên
phiếu in màu xanh để dễ nhận dạng. Ghi phiếu bằng bút chì kim HB2 của Nhật
Bản sản xuất. Khi viết sai có thể dùng tẩy, tẩy đi để viết lại;
- Tập huấn cán bộ điều ra rất kỹ. Tập huấn 2 lần, mỗi lần một tuần;
-Việc bảo quản phiếu để dùng cho ICR không quá phức tạp. Cụ th
ể là, phiếu
khổ giấy A3 được gập đôi lại một cách bình thường (không cần gập theo một
đường nào đó quy định trước). Một tập phiếu được cho vào trong một túi giấy
như vỏ bao xi măng. Nhiều túi phiếu được cho vào trong một hộp cát tông (như
loại hộp cát tông bình thường dùng đóng hàng hoá);
2.2. Kinh nghiệm của Philipin
Trước năm 2000, việc xử lý các điều tra, tổng điều tra của C
ơ quan thống
kê Quốc gia Philipin (NSO) đều sử dụng công nghệ nhập tin bằng bàn phím.
Từ năm 2000, NSO bắt đầu sử dụng công nghệ ICR trong việc xử lý tổng điều
tra dân số và nhà ở và sau đó tiếp tục sử dụng công nghệ này trong xử lý tổng
điều tra nông nghiệp và thủy sản 2002. Sau đây là một số kinh nghiệm của
NSO trong việc áp dụng công nghệ ICR trong xử lý tổng điều tra dân số
2000.
a) Kinh nghiệm trong thiết kế, in phiếu điều tra, điều tra và mã hóa
+)Thiết kế phiếu điều tra
Trong tổng điều tra dân số và nhà ở năm 2000, NSO thiết kế 4 phiếu điều
tra: Phiếu danh sách hộ, phiếu hộ, phiếu hộ điều tra mẫu và phiếu tình trạng hộ.
Để áp dụng công nghệ ICR, các thông tin cần nhập luôn được thiết kế trong ô
hình tròn hoặc ô hình chữ nhật
đủ để ghi các ký tự chữ số ( 0, ,9), chữ in (A, B,
,Z, N ngã). Số định dạng của phiếu (ID phiếu) đầu tiên sử dụng mã vạch
nhưng đã không cần sử dụng trong tổng điều tra nông nghiệp, thủy sản 2002.
Kích thước phiếu: 11inch x 17 inch
11inch x 12 inch
11inch x 8,5 inch
+) In phiếu điều tra
Phiếu điều tra đầu tiên được in màu nhưng đã được cải tiến bằng cách in
đen trắng
để tránh lãng phí. Để tỷ lệ nhận dạng cao, phiếu được in trên giấy tốt,
tiêu chuẩn tối thiểu 80gram/m2
+)Viết phiếu điều tra
Phiếu điều tra được đánh dấu (mark) vào các ô khoanh tròn dùng trong các
câu hỏi lựa chọn hoặc điền (fill) ký tự viết tay bằng bút chì chuẩn vào những ô
hình chữ nhật. Lý do không dùng bút bi là không thể nhận dạng được ký tự đã
bị gạch xóa.
b) Xử lý đi
ều tra sử dụng công nghệ ICR
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 9 -
+) Tổ chức xử lý
NSO tổ chức xử lý tổng điều tra dân số và nhà ở tại 4 trung tâm (Data
Capture Center – DCC). Số lượng phiếu xử lý phải xử lý là 15,5 triệu. Số lượng
phiếu của từng Trung tâm như sau:
-Trung tâm Pampanga: 3,5 triệu phiếu
-Trung tâm Manila: 5 triệu phiếu
-Trung tâm Cebu: 3,5 triệu phiếu
-Trung tâm Davao: 3,5 triệu phiếu
Thời gian xử lý thực hiện theo ca, 2 ca / ngày, 6 ngày/tuần. Thời gian xử lý 6
tháng. Tổng số người dùng trong xử lý tổng
điều tra dân số nhà ở năm 2000 là
146 người
+) Các thiết bị phần cứng
Tại mỗi Trung tâm xử lý, lập mạng LAN chạy trên hệ điều hành Windows NT
4.0 với các thiết bị sau:
• 01 máy chủ với cấu hình cơ bản CPU 500 MHZ, HDD 90GB
• 15 máy trạm (PC)
• 01 máy in mạng
• 03 ổ quang (MO) dùng để lưu trữ
• 03 ổ ghi CD-ROM
• 05 máy quét KODAK 3510 hoặc 3590 tốc độ 75 trang/phút
Riêng Trung tâm tại Manila số máy quét nhi
ều hơn các Trung tâm còn lại.
Tổng số máy quét dùng trong xử lý là 22 máy.
+) Phần mềm dùng trong xử lý
Để xử dụng công nghệ ICR, NSO mua 02 phần mềm: phần mềm quét tài
liệu KODAK MVCS dùng để quét phiếu điều tra bằng máy quét và phần mềm
nhận dạng ký tự thông minh EYES & HANDS for FORMS. Phần mềm ICR mà
NSO mua có 3 module dùng để nhận dạng (Interpretation/Recognition), hiệu
chỉnh (Data Verification) và chuyển đổi (Data Transfer/Generation). Sau khi
thực hiện quét, nhận dạng thông tin từ phiếu điều tra được chuyể
n ra tệp định
dạng text. Từ dạng file này các chuyên gia NSO Philipin chuyển đổi vào các cơ
sở dữ liệu khác nhau để lập các biểu thống kê. Phần mềm dùng để tổng hợp kết
quả là module CENT trong phần mềm IMPS và phần mềm SPSS.
c) Kinh nghiệm sử dụng công nghệ ICR của Philipin
- Thiết kế phiếu điều tra sử dụng công nghệ ICR dùng cả trường đánh dấu
(mark) và trường viết tay (handwritten). Trong thiết kế
, hạn chế trường ký tự
chữ để tăng tỷ lệ nhận dạng đúng;
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 10 -
- Chất lượng in phiếu điều tra cần đảm bảo;
- Trung bình 1 máy quét được 30 trang (phiếu) trong một phút;
-Tỷ lệ nhận dạng của các trường đánh dấu (mark) là cao. Tỷ lệ nhận dạng của
các trường viết tay là thấp. Tỷ lệ nhận dạng chung là 90-95%;
- Những vùng dữ liệu dạng text (tên chủ hộ, địa chỉ hộ) thì kết quả chưa chắc
khả quan. Trong mẫu ký tự tiế
ng Philipin có một ký tự nằm ngoài bảng chữ cái
Latinh hiện nay – ký tự ñ .Việc nhận dạng ký tự này cho kết quả chưa cao lắm;
- Tốc độ nhận dạng 3400-3500 phiếu/giờ, hiệu chỉnh 270-320 phiếu/giờ. Do
vậy số lượng bản quyền module hiệu chỉnh của mỗi Trung tâm năm 2000 chỉ
có 4 là không đủ mà cần khoảng 9-10.
2.3. Kinh nghiệm của Trung Quốc
Ở Trung Quốc, việc áp dụng công nghệ quét trong xử
lý số liệu điều tra
thống kê đã được thực hiện từ những năm 90 của thế kỷ trước. Năm 1990 sử
dụng công nghệ quét để xử lý số liệu điều tra của 19 triệu dân ở hai tỉnh Quý
Dương và Trùng Khánh. Năm 1992 sử dụng công nghệ này cho xử lý điều tra
nông nghiệp. Năm 2000 áp dụng công nghệ quét để xử lý số liệu tổng đi
ều tra
dân số và tổng điều tra nông nghiệp. Năm 2006 sử dụng công nghệ quét để xử
lý số liệu tổng điều tra nông nghiệp lần thứ 2.
Trong tổng điều tra dân số năm 2000, số lượng xử lý gấp 2 lần số lượng
năm 1990 nhưng số lượng cán bộ và thời gian xử lý chỉ bằng 1/2 so với năm
1990 (năm 2000 sử dụng 5.000 cán bộ; xử lý trong 6 tháng).
- Bút viết chất lượng tốt (bút chì kim 2B do Thượng Hải sản xuất);
- Máy quét đã sử dụng là Kodak, Fujitsu M4097D tốc độ 40-80 tờ phút,
quét 2 mặt. Giá máy scanner khoảng 60.000 tệ/máy. Sử dụng 500 máy
scanner, phân cho các tỉnh theo tỷ trọng dân số. Riêng Bắc Kinh, Cục
Thống kê nhà nước chỉ cấp 01 Scanner nhưng UBND thành phố đã mua
thêm 17 scanner;
- Giấy chất lượng tốt (90-100 gram/m2). Không cần in màu;
- Không cần đánh số phiếu (ID);
- Ch
ữ Hán phải phiên thành mã số mới nhận biết được;
- Phiếu khổ A3 gấp làm đôi, ghim giữa trang A3 nên phải bóc ghim trước
khi quét;
- Phầm mềm xử lý do công ty Tử Quang (Trung Quốc) thiết kế nên không
phải mua phần mềm bên ngoài;
- Ghi phiếu còn khá nhiều lỗi vì vậy phải verify khá nhiều. Công tác kiểm
tra phiếu ở Trung tâm máy tính rất chặt chẽ. Mỗi lô phiếu có sai sót > 5%
phải kiểm tra lại toàn bộ phiếu gốc;
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 11 -
- Huyện thu thập và ghi mã sau đó chuyển lên tỉnh. Tỉnh thực hiện quét,
nhận dạng, verify, hiệu đính và tổng hợp cho cấp tỉnh, cấp huyện, cấp xã.
Sau đó chuyển lên Trung tâm máy tính (Trung ương). Trung tâm máy
tính gia quyền, tổng hợp cho vùng và cả nước;
- Để xử lý tổng điều tra nông nghiệp 2006, Trung Quốc mua máy sanner
và phần mềm mới;
Về sử dụng công nghệ quét trong xử lý điều tra thống kê, Trung Quố
c chủ
yếu vẫn sử dụng công nghệ OCR và OMR. Công nghệ OMR đòi hỏi tiêu chuẩn
giấy phải tốt hơn, kỹ thuật in phải cao hơn vì vậy Trung Quốc chủ yếu sử dụng
công nghệ OCR. Trung Quốc chưa sử dụng công nghệ ICR. Trung Quốc không
có phần mềm riêng cho khâu thiết kế phiếu.
2.4. Kinh nghiệm của Lào
Trung tâm Thống kê Quốc gia Lào đã sử dụng công nghệ ICR trong xử
lý số liệ
u tổng điều tra dân số năm 2005. Sau đây là kinh nghiệm của Lào trong
việc sử dụng công nghệ ICR để xử lý tổng điều tra dân số năm 2005:
a) Kinh nghiệm trong thiết kế, in phiếu điều tra, điều tra và mã hóa
+)Thiết kế phiếu điều tra
Phiếu điều tra của tổng điều tra dân số Lào năm 2005 gồm 35 câu hỏi.
Các câu hỏi từ 1 đến 10 dành cho tất cả
các thành viên của hộ. Các câu từ 11
đến 14 hỏi thông tin về đi học đối với thành viên từ 6 tuổi trở lên. Câu 15-17
hỏi công việc cho các thành viên từ 10 tuổi trở lên. Câu 18-20 hỏi cho phụ nữ
15-49. Câu hỏi 21 hỏi về người chết của hộ. Câu hỏi 22-23 hỏi những thành
viên chuyển đến và chuyển đi trong 12 tháng qua. Câu 24 hỏi thông tin về
người tàn tật của hộ. Câu 25-34 hỏi về nhà ở của hộ. Câu 35 hỏi về t
ổng số
người chia theo giới tính của hộ.
Trung tâm Thống kê Lào thiết kế bảng hỏi bằng phần mềm PageMaker.
+) In phiếu điều tra
- Về giấy in: Giấy in phiếu hỏi không được bóng, trơn, giấy quá mỏng,
giấy bị bẩn; nên sử dụng giấy 80gram/m2. Không sử dụng giấy có carbon vì sẽ
gặp vấn đề khi quét.
- Chất lượng in: Tất cả các bảng hỏi đều phải s
ử dụng 1 loại máy in để
in. Chọn font chữ in là Arial hoặc OCR-B tối thiểu là size 10-12pt. Không chọn
chữ đậm và nghiêng. Không tạo đường bao quanh các trường là nét mỏng. Nên
chọn đường bao có nét 1 hoặc 1.5 pt là tốt nhất. Những câu hỏi mở phải có
đường kẻ ngăn cách giữa các ký tự. Đối với số có phần thập phân phải có dấu
phẩy để ngăn cách.
- Phiếu điều tra được đóng thành quyển. Tổng số có kho
ảng 25.000
quyển phiếu (mỗi quyển có thể ghi được 40 hộ với 400 người). Dân số Lào
năm 2005 khoảng 5.600.000 người.
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 12 -
b) Xử lý điều tra sử dụng công nghệ ICR
+) Tổ chức xử lý
- Trung tâm Thống kê Lào tổ chức xử lý điều tra tập trung. Có 35 người làm
xử lý điều tra với 4 bước cơ bản:
• Kiểm tra, mã hoá, làm bảng kê (tick off)
• Quét (Scanning)
• Hiệu chỉnh (Verify)
• Tổng hợp và phân tích số liệu
- Số người làm công việc kiểm tra, mã hoá hoặc chép lại phiếu nếu phiếu
bẩ
n hoặc nhầu nát là 30 người, làm việc trong 3 tháng (20 người sẽ là những
người thực hiện hiệu chỉnh trong giai đoạn tiếp theo).
- Sử dụng 01 người chuyên đánh số thứ tự (mã Serial Number) cho tất cả
các phiếu (mã này được in trước chỉ việc dán vào quyển phiếu)
- Sử dụng 01 người điều khiển máy cắt gáy quyển phiếu trước khi đưa vào
scan (1 lần cắt được 5 quyể
n phiếu hỏi).
- Sử dụng 01 người điều khiển máy đọc mã serial number của quyển
phiếu bằng thiết bị đọc và phần mềm của ReadSoft. Phần mềm ghi lại ngày đọc
và trạng thái của phiếu. Sau đó ghi ra 1 tờ Tick off prepaced Bookets tờ này ghi
lại số serial number của quyển phiếu và số tờ phiếu đã sử dụng, số tờ phiếu
chưa sử dụng củ
a quyển phiếu. Sau đó bỏ tờ bìa của quyển phiếu và thay vào
đó là Tick off.
- Sử dụng 02 người điều khiển 2 máy quét. Trước khi quét nhập vào số
của hộp bìa sẽ đựng phiếu sau khi quét. Tốc độ quét 56 tờ/1 phút. Một lần có
thể đưa vào máy scanner 500 tờ. Trong quá trình quét chương trình sẽ thống kê
số tick off và số hộ đã quét được. Quét 2 mặt một lúc.
- Thỉnh thoảng máy có bị giắt giấ
y và máy tự động dừng. Sau đó phải cho
máy nghỉ và vệ sinh làm sạch máy.
- Phải làm sạch máy hàng ngày bằng chất rửa và giấy lau riêng.
- Sử dụng Tape để back up số liệu hàng ngày.
- Trên máy chủ có cài phần mềm Eyes & Hands. Sau khi quét xong, phần
mềm Eyes &Hands trên máy chủ tự động chuyển Interpret và Tranfer để bộ
phận Verify có thể sửa được số liệu.
- Vào verify sau đó chọn số của hộp đựng tài liệ
u, chương trình sẽ liệt kê
các số theo thứ tự từ 0-9 những số mà chương trình nghi ngờ, người sửa sẽ
chọn những số phải xem lại và nhập lại. Sử dụng 20 người sửa trong 3 tháng.
- Trên máy chủ, thiết kế CSDL bằng SQL Server để chuyển số liệu từ
dạng text vào SQL. Và thủ tục được chạy hàng ngày. Những file text đã chuyển
được sẽ ghi sang một thư mục khác. Tên file text th
ể hiện ngày chuyển.
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 13 -
- Sau khi chuyển vào SQL, dùng SPSS để phân tích số liệu.
+) Các thiết bị phần cứng, phần mềm
- Máy móc, thiết bị dùng cho xử lý được lắp đặt trong mạng LAN. Số
lượng thiết bị đã sử dụng như sau:
• 02 máy chủ (server)
• 02 máy quét. Quét 2 mặt (Duplex). Tốc độ 56 tờ/ phút. Giá mỗi
scanner khoảng 35.000 USD
• 20 máy PC
• Thiết bị Backup
- Về phần mềm, Trung tâm Thống kê Lào sử dụng phầ
n mềm Eye’s &
Hand’s của công ty ReadSoft. Tiền thuê phần mềm Eye’s & Hand’s là 16.000
USD/1 năm. Nếu năm sau sử dụng tiếp thì phải trả 6.000 USD/1 năm.
Trong quá trình làm có 1 chuyên gia của công ty ReadSoft đến hỗ trợ.
3. Một số vấn đề rút ra từ kinh nghiệm của các nước đã sử dụng công nghệ
quét, nhận dạng ký tự trong xử lý số liệu thống kê
Từ thông tin trong mục 2, có thể lập bảng so sánh thời gian, công nghệ và số
thiế
t bị của một số nước xử lý Tổng điều tra dân số áp dụng công nghệ quét
như sau:
STT Tên nước Năm
áp
dụng
Quy mô
dân số
(triệu
người)
Thời gian
xử lý
(tháng)
Số lượng
máy quét
Công
nghệ
Phần
mềm
1 Thái Lan 2000 62,4 8 10 máy
Fujitsu
M4099D
ICR Teleform
và
ABBYY
2 Philipin 2000 76,4 6 22 máy
Kodak
3510/3590
ICR ReadSoft
3 Lào 2005 5,6 3 2 máy tốc
độ 56
tờ/phút
ICR ReadSoft
4 Trung Quốc 2000 1 262 6 500 máy
Kodak,
Fujitsu
M4097D
OCR Cty Tử
Quang-
TQuốc
Ghi chú: Phiếu điều tra của các nước được thiết kế khác nhau
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 14 -
3.1. Lựa chọn công nghệ
Công nghệ quét là một hệ thống sử dụng để nhập dữ liệu từ phiếu điều
tra, máy fax với tốc độ nhanh và tốn ít nhân lực. Hệ thống này sử dụng máy
quét để đọc phiếu điều tra hoặc tài liệu, và một phần mềm ứng dụng sẽ đọc
hoặc định dạng tự động dữ liệu hoặc ch
ữ số ghi trên phiếu/tài liệu, sau đó
chuyển thông tin thành file dữ liệu mã ASCII (American Standard Code for
Information Interchange) để xử lý tiếp theo. Công nghệ quét, nhận dạng có thể
chia thành công nghệ quét, nhận dạng ký tự quang học (OCR), công nghệ đọc
đánh dấu quang học (OMR), công nghệ quét, nhận dạng ký tự thông minh
(ICR). Cho đến thời điểm hiện nay, trong các công nghệ nói trên, công nghệ
quét nhận dạng ký tự thông minh ICR là công nghệ tiên tiến nhất, được sử dụng
nhiều nhất trong việ
c xử lý điều tra thống kê. Do vậy, nghiên cứu áp dụng công
nghệ quét, nhận dạng ký tự thông minh ICR trong xử lý số liệu điều tra nói
chung và trong xử lý số liệu tổng điều tra dân số và nhà ở năm 2009 của Việt
Nam là sự lựa chọn phù hợp.
3.2. Ưu điểm của công nghệ nhận dạng ký tự thông minh
Sử dụng công nghệ quét, nhận dạng ký tự thông minh trong xử lý số liệ
u
điều tra có những ưu điểm như:
a) Rút ngắn thời gian xử lý
Ở các nước đã áp dụng công nghệ quét, nhận dạng ký tự thông minh trong
xử lý điều tra đều cho rằng công nghệ này đã làm giảm đáng kể thời gian xử lý
so với phương nhập nhập tin truyền thống bằng bàn phím (keyboard). Thời
gian nhập dữ liệu rút ngắn do máy quét đọc tốc độ nhanh, tốc độ nh
ận dạng, tốc
độ chuyển đổi kết quả nhận dạng ra file text/cơ sở dữ liệu và tốc độ hiệu đính
(verify) nhanh hơn so với phương pháp nhập tin truyền thống. Công nghệ này
phù hợp đối với các cuộc điều tra lớn và tổng điều tra, trong đó phiếu điều tra
không quá phức tạp, nhưng số lượng phiếu rất lớn. Do vậy công nghệ ICR có
thể giúp cho cơ quan thống kê nhà nước công bố kết quả điều tra sớm hơn
nhiều so với công nghệ truyền thống nhập tin từ bàn phím máy tính.
b) Tăng độ chính xác
Khi áp dụng công nghệ ICR trong xử lý điều tra, khâu nhập liệu được thực
hiện bởi hệ thống máy móc, thiết bị và phần mềm. Sự can thiệp của con người
vào trong quá trình quét, nhận dạng là rất ít nên đã tránh được nhữ
ng lỗi do con
người gây ra khi nhập tin bằng bàn phím như nhập nhầm ký tự, nhập sai vị trí,
nhập đúp ký tự v.v. Đặc biệt trong xử lý tổng điều tra, do khối lượng dữ liệu
lớn phải sử dụng nhiều người nhập tin nên các loại lỗi cũng đa dạng và số
lượng lỗi tăng nhanh khi công việc nhiều. Đối với các cuộc điều tra quy mô
lớn, càng ít can thiệp của con người hoặc hoạt động thủ công sẽ giảm được
đáng kể sai sót trong giai đoạn nhập số liệu.
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 15 -
c) Hiệu suất cao
Khi áp dụng công nghệ ICR trong xử lý điều tra, số lượng người tham gia
vào khâu xử lý đã giảm rất nhiều so với nhập dữ liệu thủ công. Máy quét làm
việc rất nhanh và đọc thông tin tự động, chỉ đến giai đoạn kiểm tra nhận biết
thông tin mới cần người hiệu chỉnh.
d) Giảm giá thành
Chi phí nhập số liệu bằng công nghệ ICR cao ở giai đo
ạn đầu khi lắp đặt
hệ thống, nhưng về lâu dài chỉ cần kinh phí bảo dưỡng và phát triển. Hơn nữa
sử dụng ít nhân công và thời gian nhập số liệu ngắn làm giảm khá nhiều chi
phí. Kinh nghiệm quốc tế cho thấy rằng, khối lượng công việc càng lớn thì chi
phí nhập số liệu bằng công nghệ ICR càng rẻ so với phương pháp nhập thủ
công. Điều này càng khẳng định ưu th
ế của công nghệ ICR khi xử lý các cuộc
điều tra quy mô lớn.
Mặc dù công nghệ ICR có nhiều ưu điểm đặc biệt khi xử lý các cuộc điều
tra quy mô lớn, nhưng công nghệ này có những yêu cầu nhất định về phiếu và
ghi phiếu điều tra:
• Về phiếu điều tra
- Thiết kế phiếu điều tra áp dụng công nghệ ICR trong xử lý phải đảm bả
o
những yêu cầu nhất định để quét và nhận dạng đạt độ chính xác cao. Độ cao, độ
rộng của từng ô, khoảng cách giữa các ô phải đảm bảo để điều tra viên có đủ
khoảng trống để điền thông tin. Độ đậm, nhạt của đường bao ô cũng ảnh hưởng
đến kết quả nhận dạng. Tỷ lệ nhận dạng đúng ô điền ký tự
và ô đánh dấu là
khác nhau, do vậy lựa chọn kiểu ô trong thiết kế cũng ảnh hưởng đến kết quả
nhận dạng.
- Chất lượng in phiếu cũng ảnh hưởng rất nhiều đến quá trình quét, nhận dạng.
Trước hết, kích thước phiếu in phải đảm bảo chính xác. Việc in phiếu điều tra ở
những nhà in khác nhau có thể làm lệch vị trí của các ô, lệch kích thước của các
ô, l
ệch kích thước của phiếu dẫn đến việc nhận dạng sai.
Độ dày, mỏng của phiếu điều tra cũng ảnh hướng rất nhiều đến kết quả. Yêu
cầu giấy in phiếu điều tra phải đảm bảo tối thiểu 80 gram/m2. Việc bảo quản
phiếu điều tra cũng đòi hỏi khắt khe hơn. Phiếu điều tra cần phải giữ
khô,
không quăn, không nhàu nát. Những phiếu bị quăn, nhàu nát hoặc bị ẩm làm
chậm quá trình quét phiếu.
• Về ghi phiếu điều tra:
- Chất lượng ghi phiếu ảnh hưởng rất nhiều đến kết quả áp dụng công nghệ
ICR trong xử lý. Để chất lượng ghi phiếu tốt, một vấn đề quan trọng trong khi
ghi phiếu điều tra là phải kiểm soát được chữ viết tay của đ
iều tra viên. Viết
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 16 -
xấu và ghi không đúng quy định vào phiếu điều tra sẽ gây ra nhiều lỗi khi quét.
Đặc biệt là trong tổng điều tra, một lực lượng lớn điều tra viên sẽ tham gia,
thường khó kiểm soát được cách viết của họ. Do vậy, việc đào tạo ghi phiếu
điều tra phải đặc biệt quan tâm. Cần có mẫu ký tự chuẩn để đảm bảo tỷ lệ nhận
dạng cao. Khi lựa ch
ọn điều tra viên, phải kiểm tra và loại bỏ những điều tra
viên ghi không đúng mẫu ký tự đã quy định.
- Để đảm bảo tỷ lệ nhận dạng cao, nét chữ khi điền phiếu phải đảm bảo rõ
ràng, không tẩy xóa. Độ rộng của nét chữ cũng ảnh hưởng đến chất lượng, do
vậy, ở các nước đã áp dụng công nghệ ICR thường sử dụ
ng bút chì kim chất
lượng tốt.
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 17 -
PHẦN II. NGHIÊN CỨU, ÁP DỤNG CÔNG NGHỆ ICR CỦA CÔNG
TY READSOFT
Bắt đầu từ đầu năm 2006, TTTHTK đã tìm kiếm thông tin, nghiên cứu
công nghệ nhận dạng ký tự thông minh qua các tài liệu nước ngoài, thông tin
trên mạng Internet. Trong thời gian này và trước đó, một số cán bộ của
TTTHTK tham gia các đoàn khảo sát các cơ quan thống kê nước ngoài (Lào,
Hồng Kông, Thái Lan, Philippin) cũng thu thập được một số thông tin, kinh
nghiệm, có những hiểu biết nhất định về công nghệ này. M
ột số phần mềm
nhận dạng phiếu loại này đã được tìm hiểu như: hệ thống IFP (Intelligent Form
Procesing – Xử lý mẫu phiếu thông minh) của IBM, giải pháp của Pearson do
công ty FPT giới thiệu, ABBYY của Nga, Document for FORMS của
ReadSoft, TIS (Top Image System) của Israel,
Việc lựa chọn phần mềm là rất khó khăn do thông tin các công ty cung cấp
phần lớn chỉ mang tính giới thiệu chung về giải pháp và do chúng ta chưa có
kinh nghiệm gì và cũng không thể tìm kiếm chuyên gia tư vấn
ở Việt Nam.
Việc lựa chọn Document for FORMS của ReadSoft dựa trên việc ReadSoft –
Eyes & Hands đã có tiếng trên lĩnh vực này, nhiều cơ quan thống kê các nước
bạn đã sử dụng. ReadSoft cung cấp đầy đủ và nhanh chóng những thông tin cần
thiết và giá phần mềm là chấp nhận được cho việc thử nghiệm.
1. Công nghệ nhận dạng ICR của ReadSoft
ReadSoft FORMS 5.2 là phần mềm xử lý tự động phiếu (Form
Automation) của công ty ReadSoft (những phiên b
ản cũ của phần mềm này
được gọi là “Eyes & Hands for FORMS”). ReadSoft là một trong những công
ty hàng đầu trong lĩnh vực nhận dạng. ReadSoft bắt đầu đưa ra thị trường công
nghệ ICR từ năm 1991 và cho đến nay có rất nhiều khách hàng. Riêng trong xử
lý Tổng điều tra dân số, nhiều nước trong khu vực đã sử dụng phần mềm của
ReadSoft như: Malaysia, Lào, Bangladesh, Philipin,
ReadSoft FORMS 5.2 là phần mềm tích hợp tất cả các chức năng
để xử lý
phiếu: định dạng FORM, quét (scan) phiếu, nhận dạng, kiểm tra số liệu, chuyển
đối dữ liệu, quản lý các lô phiếu và dữ liệu. Phần mềm có những khả năng sau:
- Nhận dạng được các loại ký tự ICR (chữ viết tay), OCR (chữ in/đánh
máy), OMR (ký tự đánh dấu), mã vạch, (ngoài nhận dạng các ô đánh dấu
có thể lựa chọn ký tự khoanh tròn);
- Định dạ
ng nhiều loại mẫu phiếu và xử lý đồng thời không cần phân loại;
- Nhiều lựa chọn khác nhau cho việc kiểm tra số liệu;
- Kiểm tra số liệu theo khối (mass verify);
- Một số kiểm tra có thể thiết lập ngay trong phần mềm (không cần lập
trình) như: kiểm tra giá trị hợp lệ theo các khoảng xác định hoặc so sánh
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 18 -
với các bảng tham chiếu, cộng tổng số, một số dạng kiểm tra logic giữa
các trường liên quan;
- Khả năng quản lý, kiểm soát lô tương đối mềm dẻo;
- Mềm dẻo trong xác định tệp dữ liệu đầu ra;
- Quản lý người dùng và có khả năng đưa ra thống kê ở mức người dùng,
thống kê về đầu ra cho người quản trị;
- Cho phép lập trình nhúng (built-in) trong các ch
ức năng của FORMS 5.2
bằng ngôn ngữ VBA;
- Cho phép tích hợp gắn kết với các chương trình khác qua DDE, DLL,
ODBC, OLE, ActiveX;
- Quét màu, nhận dạng và lọc các ảnh;
- Nhập dữ liệu từ máy FAX hoặc Internet.
Phần mềm ReadSoft FORMS 5.2 có các module sau:
- Quản lý (Manager): thực hiện các chức năng như định dạng mẫu phiếu,
thiết lập thuộc tính cho các lô, cho các công đoạn trong quá trình xử lý,
thiết lập Job;
- Quét (Scan): thực hi
ện việc quét các lô phiếu thành dạng hình ảnh;
- Nhận dạng (Interpret): thực hiện việc nhận dạng dữ liệu từ các hình ảnh;
- Hiệu chỉnh (Verify): thực hiện việc nhập những dữ liệu không nhận dạng
được và kiểm tra dữ liệu;
- Chuyển đổi (Transfer): thực hiện chuyển đổi dữ liệu nhận dạng và kiểm
tra xong ra các tệp dữ liệu dạ
ng Text.
2. Quản lý và định dạng Form trong phần mềm ReadSoft Form 5.2
Một trong những phần quan trọng trước khi tiến hành quét phiếu điều tra
là vấn đề định dạng form cho phiếu điều tra. Trong phần mềm ReadSoft Form
5.2, form là một tài liệu có cấu trúc bao gồm những khoảng trống để chứa
thông tin: Những câu hỏi, những ô để ghi dữ liệu, những ô đánh dấu (checks)
Phiếu hỏi của một cuộc
điều tra có thể nhiều tập phiếu (có thể là một tờ hay
nhiều tờ), mỗi form thể hiện 1 tờ phiếu trong một tập phiếu điều tra đó, tờ
phiếu có thể là 1 mặt hay 2 mặt.
2.1. Định dạng Form trong phần mềm ReadSoft Form 5.2
Trước khi định dạng form, chúng ta phải tạo form definition (định nghĩa
form). Đó là một bản mô tả dựa trên 1 khuôn mẫu của một tờ phiế
u. Để tạo ra
một định dạng form, vào module Manager chọn quét một tờ phiếu mẫu (phiếu
mẫu không bao gồm thông tin). Sau đó định nghĩa các điểm định vị trên form
(adjustment), các trường và thiết lập một số trạng thái, tiếp theo lưu vào trong
cơ sơ dữ liệu. Khi đó mỗi lần quét phiếu, phần mềm sẽ so sánh những tờ phiếu
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 19 -
đã được quét với định dạng form để nhận dạng được các tờ phiếu và các trường
định nghĩa.
Định dạng Form bao gồm việc định dạng các trường định vị (Adjustment
fields) và định dạng các ô chứa thông tin trên phiếu.
+) Định dạng các trường định vị
Để phân biệt các tờ phiếu khác nhau, người ta xác định các điểm làm mốc
trên mỗi tờ phiếu. Các điểm mốc này được gọ
i là điểm định vị (adjustment).
Điểm định vị có thể là một ký tự, một biểu tượng hay đường giao nhau trên tờ
phiếu nhưng phải là điểm duy nhất có trên tất cả các tờ phiếu. Sau khi xác định
điểm định vị trên phiếu, điểm này sẽ xuất hiện trên phiếu có dạng hình vuông
và được lưu vào cơ sở dữ liệu là một trường. Nếu như trong m
ột tập phiếu điều
tra có nhiều tờ phiếu khác nhau thì các điểm định vị được sử dụng trên từng tờ
phiếu phải có các vị trí khác nhau để tránh nhầm lẫn giữa các tờ phiếu với nhau
trong quá trình nhận dạng. Có 2 kiểu xác định vị trí mốc trên form (adjustment
field) là chọn các điểm làm mốc và chọn các đường kẻ làm mốc. Khi tiến hành
quét phiếu, phần mềm sẽ kiểm tra kích cỡ, v
ị trí và hình dạng của các trường
định vị trên form.
Trong quá trình đặt phiếu để tiến hành quét, với số lượng phiếu rất lớn
trong một lần quét thì việc để đúng phiếu không lệch là một điều cực kỳ khó, vì
vậy các điểm định vị sẽ cho phép độ lệch của tờ phiếu không quá 10 độ - có
nghĩa trong quá trình đặt phiếu vào máy scan nếu phiếu được quét vào nằm
trong khoảng 10
độ so với phương thẳng đứng thì các điểm định vị sẽ đưa
phiếu về đúng vị trí và phiếu được nhận dạng được nếu như form định vị đúng
các điểm định vị.
Trong một số trường hợp phiếu có tình trạng xoay 90 độ, 180 độ hay 270
độ hoặc khi chọn các trường định vị đối xứng nhau, khi đó cần phải chọn thu
ộc
tính cho phép phiếu xoay chiều (Identify rotated forms) trong thuộc tính của
Scan. Lúc đó, mỗi khi gặp các tờ phiếu xoay chiều, các điểm định vị sẽ đưa các
tờ phiếu xoay chiều đó về đúng chiều của phiếu.
+) Định dạng các ô chứa thông tin trong phiếu
Để thu được thông tin trong phiếu, những trường chứa các thông tin này
phải được định nghĩa: tên trường, kiểu thông tin:
- Đối với những ô số hay ô chữ
:
Kiểu Character field có thể được dùng cho cả ô số hay ô chữ viết tay
(chữ in hoa, chữ in thường, các ký tự đặc biệt – có thể là dấu phẩy hoặc dấu
chấm, các ký tự trắng - dấu cách và các ký tự được viết cho nhiều dòng - bảng)
hoặc đánh máy. Nhưng thông tin này phải nằm trọn trong các đường viền bao
quanh của trường.
- Đối với những ô đánh dấu (check):
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 20 -
Ô đánh dấu là ô nhỏ chứa các dấu tích lựa chọn để ghi nhận thông tin. Yêu
cầu những ô này phải là hình vuông và các cạnh của nó ít nhất phải là 1.5mm
nhưng để nhận dạng được tốt nhất, phần mềm khuyến cáo hình vuông nên có
cạnh là 3mm. Chuyên gia Readsoft có khuyến cáo rằng: Khoảng cách giữa các
ô đánh dấu nên bằng đúng chiều cao của ô đánh dấu.
VD:
Với ví dụ trên rất khó để lấy thông tin trong phiếu, vì vậy cần phải mã
hoá các câu trả lời bằng các con số và các giá trị đó được nằm trong mục value.
Với các phiếu điều tra, mỗi câu trả lời người viết phiếu chỉ được đánh dấu điểm
duy nhất vào câu trả lời đó (không thể có từ 2 ô đánh dấu trở lên trong một câu
hỏi loại chọn lự
a) thì việc chọn Max 1 để phục vụ cho vấn đề trên. Mỗi khi
verify phiếu mà xuất hiện nhiều hơn 1 ô được đánh dấu, chương trình sẽ hiện
lên câu thông báo nhắc nhở người verify, nếu họ chấp nhận chương trình bỏ
qua câu thông báo đó.
- Trường ảnh (Image field):
Trường ảnh là một phần của form được dùng để xử lý nhưng không được
dịch (Interpretation). Ứng dụng lớn nhất của vi
ệc định nghĩa các trường này
nhằm giúp người verify có những thông tin cần thiết khi không nhận dạng được
hoặc trong phiếu không điền đủ những thông tin mà có thể điền hay sửa chữa
các thông tin đó thông qua ảnh. Ví dụ: Khi vefify ô mã của các ngành nghề,
nếu ô mã này không nhận được, người verify có thể kiểm tra ảnh chứa thông tin
của người trả lời về ngành nghề đang làm và căn cứ vào thông tin đó để có thể
sửa lại mã và điền vào ô mã ngành nghề.
- Trường do người sử dụng định nghĩa (User_ defined field type):
Công việc định nghĩa các trường chứa thông tin tốn rất nhiều thời gian và
công sức. Vì khi định nghĩa một trường xong, nếu các trường tiếp theo có cùng
loại với trường trên thì chỉ việc nhấn F6 và chỉnh sửa lại một số thông tin trên
đó. Nhưng nếu trường tiếp theo không cùng loại với trường tr
ước thì khi đó lại
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 21 -
bắt đầu định nghĩa lại từ đầu. Trường do người sử dụng định nghĩa giải quyết
điều hạn chế trên bằng cách: Sau khi định nghĩa xong một trường, hãy lưu các
trường đó lại, nếu như gặp bất cứ một trường khác mà cần định nghĩa, bạn có
thể lấy một trong số các trường được lưu với cùng loại và chỉnh s
ửa lại một
chút thông tin trên đó mà không cần phải định nghĩa lại từ đầu.
2.2. Quản lý Form trong phần mềm ReadSoft 5.2
Sau khi định dạng các form definition có trong tập phiếu, vấn đề đặt ra là
làm thế nào giải quyết những tập phiếu gồm nhiều phiếu và quản lý chúng như
thế nào mới đạt hiệu quả nhất trong quá trình scan, interpret, verify và transfer.
+) Định nghĩa tập (Set difinition)
Định nghĩa tập (set defintion) là việc thiết lậ
p nhằm xử lý 2 hay nhiều
form tạo thành một nhóm hợp lôgic. Cần phải chọn các định nghĩa form để làm
thành một định nghĩa tập (set definition). Thông thường, tất cả các tờ phiếu
trong một tập phiếu sẽ nằm trong định nghĩa tập, hay một tập (set) bao gồm
toàn bộ một phiếu. Ví dụ, với phiếu Lao động việc làm: Một hộ có thể gồm
nhiều phiếu, mỗi phiế
u gồm 6 tờ phiếu khác nhau. Khi đó 1 tập (set) là 1 phiếu
gồm có 6 form – 6 tờ phiếu. Sau đó cần phải thiết lập set logic. Mỗi set logic
được chọn khác nhau sẽ quyết định thứ tự sắp xếp việc xử lý các form trong tập
phiếu khi thực hiện các quá trình quét (scan), nhận dạng (interpret), kiểm tra
xác thực (verify) và chuyển đổi dữ liệu (transfer).
Set logic là một phần của định nghĩa tập, nó định rõ form definition nào,
bao nhiêu form và trong đó trình tự các form xuấ
t hiện trong set sẽ được xử lý
như thế nào? Từ đó đưa ra thứ tự đúng cho các tờ phiếu trong 1 tập phiếu trong
quá trình quét? Ngoài ra set logic còn quyết định đến việc khi nào một set mới
được bắt đầu (gọi là set break).
Quy trình quét sử dụng đến định nghĩa tập nhằm:
- Kiểm tra xem các form trong phạm vi một set được quét theo đúng trình tự
(nếu trong khay của máy scan có 1 hay nhiều tờ phiếu trong một tậ
p phiếu
sắp xếp không đúng trình tự trong định nghĩa tập thì khi phiếu được quét các
tờ phiếu để sai đó sẽ không nhận dạng đúng);
- Kiểm tra xem một set có chứa đủ số lượng của form đã được đưa vào;
- Kiểm tra xem khi nào kết thúc một tập (set) và bắt đầu một tập mới;
- Nhận dạng (Interpret) sử dụng định nghĩa tập để
nhận dạng từng tập (công
việc này tốt hơn là việc nhận dạng cho từng form). Việc thống kê quá trình
cũng được đưa ra một cách trung thực hơn;
- Trong verify sử dụng định nghĩa tập để kiểm tra logic giữa các trường trong
các form khác nhau của một set;
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 22 -
- Transfer sử dụng định nghĩa tập để lấy tất cả các dữ liệu đầu ra trên các
form trong set, nếu không chỉ có thể lấy dữ liệu đầu ra của từng form khác
nhau.
Có 3 loại set logic:
- Default set logic: Thuộc tính mặc định cho set logic;
- Sum up notes: (Áp dụng khi trong 1 tập phiếu gồm nhiều tờ phiếu) Form
đầu tiên trong set (thường là tờ phiếu đầu của tập phiếu) phải có một dấu
hiệu ch
ỉ định quan hệ với các form tiếp theo. Để làm được việc này cần phải
xác định dấu hiệu giữa các form trong tập thông qua mục set sum validation.
Phần mềm kiểm tra các trường trên các form khác nhau trong phạm vi 1 tập
để chắc chắn rằng tổng của chúng phải bằng giá trị của trường được làm dấu
hiệu trong form đầu tiên. Nếu như không đúng, verify sẽ hiện những trường
có liên quan để có thể chỉnh sửa số
liệu của chúng. Chú ý rằng chỉ có những
trường có dữ liệu mới thực hiện được, sẽ xẩy ra lỗi nếu như trường không
có số liệu. Vì vậy hãy chọn thuộc tính Must be fill in (phải có dữ liệu bên
trong trường, được chọn trong phần Field validation khi định nghĩa trường
số liệu đó) cho các trường được chọn trong mục set sum validation. Tuy
nhiên, phần mềm chỉ đưa ra các cảnh báo, do đó rất khó cho ngườ
i sử dụng
khi họ không may chấp nhận những lời cảnh báo đó và cũng rất khó khi xác
định các dấu hiệu quan hệ không đúng trên các form;
- Questionnaire: Dùng để xử lý nhiều tờ phiếu trong một tập phiếu.
+) Quản lý Form trong quá trình Scan, Interpret, Verify và Transfer
Sau khi xác định được định nghĩa tập, cần xác định job decription để
quản lý các công việc trong quá trình scan, verify, interpret và transfer. Job
decription: Quản lý tất cả các module scan, verify, interpret và transfer. Batch
là một nhóm các phiếu điều tra/bảng hỏ
i được chia theo một tiêu chí nào đó,
phụ thuộc vào thực tế của cuộc điều tra để xác định một batch cho phù hợp, ví
dụ phiếu điều tra được sắp xếp theo từng địa bàn thì có thể chọn batch là một
hoặc nhiều hơn một địa bàn (batch bao gồm nhiều set).
- Sau công đoạn Scan, số lượng form sẽ thống kê vào mục Identified
trong Processed form. Nếu như bạn chọn thu
ộc tính chấp nhận cả những form
không nhận được trong khi scan thì form nào không nhận dạng được chương
trình sẽ thống kê vào mục Unidentified.
- Sau khi Interpret số lượng các form trong mục indentified sẽ di chuyển
và được thống kê vào mục Complete, Incomplete, Retype, Interpretation error,
Mass verify và Validation error có trong Processed form.
- Sau khi Verify số lượng các form trong các mục trên sẽ di chuyển và
được thống kê vào mục Complete có trong Processed form.
- Sau khi Transfer, tất cả các form trong mục complete có trong
Processed form sẽ di chuyển và được thống kê vào mục transfer.
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 23 -
3. Quét phiếu trong phần mềm ReadSoft Form 5.2
3.1. Thiết lập thuộc tính máy quét
Các thuộc tính của máy quét sẽ được áp dụng đối với tất cả những form
definition được tạo ra sau thời điểm thiết lập máy quét, cho đến khi các thuộc
tính này được thiết lập lại. Chỉ những form definition có cùng thuộc tính về
máy quét mới có thể thực hiện trong cùng một Job của công đoạn quét phiếu
(khi định nghĩa các form definition của bảng hỏ
i có nhiều trang phiếu thì cần
lưu ý chọn thuộc tính của máy quét trước khi bắt đầu định nghĩa form để đảm
bảo các form definition có cùng thuộc tính máy quét).
+) Kích cỡ của phiếu điều tra
Có thể chọn cỡ giấy lớn hơn phiếu thực tế, và không nên chọn cỡ giấy nhỏ
hơn vì những thông tin ngoài khoảng cỡ giấy đó có thể sẽ bị mất. Có thể chọn
kích cỡ c
ủa phiếu theo danh sách sẵn có hoặc cũng có thể tạo ra một kích thước
mới bằng cách chọn * trong danh sách cỡ giấy sẵn có và đưa thông tin về tên,
chiều dài, chiều rộng của kích cỡ giấy mới. Cần lưu ý, kích cỡ giấy mới phải
thuộc khoảng tối thiểu và tối đa của kích cỡ giấy đã qui định.
+) Màu của ảnh sau khi quét
- Ảnh đen trắng (Black and white)
Đây là lựa ch
ọn ngầm định, phù hợp với hầu hết các phiếu điều tra vì phần
mềm luôn chuyển đổi các ảnh quét được về ảnh đen trắng để phục vụ cho công
đoạn tiếp theo sau quét, công đoạn biên dịch nhận dạng (Interpret). Ảnh đen
trắng luôn phù hợp với các phiếu được in đen trắng, in màu hoặc in ở hai tông
màu khác đen trắng như xanh và trắng. Lựa chọn này làm tốc
độ quét nhanh
hơn, tệp lưu ảnh kết quả sẽ nhỏ hơn so với lựa chọn ảnh màu.
- Ảnh màu (Grayscale, Color)
Lựa chọn này chỉ có thể sử dụng được nếu phiếu được in màu và máy quét
có hỗ trợ quét ảnh màu. Lựa chọn này nên dùng trong những trường hợp:
Muốn xem những thông tin được in màu trên phiếu, ví dụ, trong một số trường
hợp, ảnh màu giúp người thực hiện Verify làm tốt công việ
c kiểm tra logic và
nhận dạng lại những ký tự còn nghi ngờ sau khi biên dịch nhận dạng.
Mặc dù phần mềm luôn chuyển đổi ảnh quét màu về ảnh đen trắng để
phục vụ công đoạn biên dịch nhận dạng nhưng vẫn có thể điều chỉnh việc
chuyển đổi đó qua hộp thoại Color Conversion.
Nếu lựa chọn quét ảnh màu thì có thể chỉnh s
ửa được chất lượng quét
phiếu. Tuy nhiên, chất lượng ảnh càng tốt thì kích cỡ tệp ảnh càng lớn. Việc
chỉnh sửa chất lượng ảnh quét này chỉ có tác dụng nếu xuất ảnh quét ra tệp.
Nếu chất lượng ảnh tốt thì tỷ lệ biên dịch nhận dạng (Interpret) sẽ cao.
Nghiên cứu ứng dụng công nghệ nhận dạng ký tự thông minh (ICR) trong xử lý Tổng điều
tra dân số và nhà ở 1/4/2009
- 24 -
Cũng cần lưu ý rằng, nếu tệp ảnh xuất ra quá lớn thì cũng có thể làm giảm chất
lượng ảnh.
+) Độ phân giải của ảnh
Độ phân giải được tính bằng số điểm trên 1 inch (DPI). Thông thường, giá
trị được chọn từ 100 đến 400 DPI. Tuy nhiên, chỉ có những độ phân giải phù
hợp với máy quét hiện tại được liệt kê trong danh sách để chọn. Ảnh có độ
phân giải thấ
p hơn thì sẽ được xử lý nhanh hơn. Nếu chọn phiếu quét trong chế
độ ảnh đen trắng thì nên chọn độ phân giải là 200 DPI, còn ảnh màu thì nên là
100 DPI.
+) Ánh sáng và độ tương phản (Light and Contrast)
Giá trị ánh sáng tối ưu cho những phiếu có màu nền trên các ô thông tin là
trắng hoặc màu nhạt là 25. Chỉ thay đổi giá trị này khi màu nền trên ô thông tin
làm giảm chất lượng ảnh. Giá trị của độ tương phản tối ưu cho những phiếu có
màu nền trên các ô thông tin là tr
ắng hoặc màu nhạt là 60. Phụ thuộc vào loại
máy quét mà hai thuộc tính này có được phép thay đổi hay không. Chỉ có
những form definition có cùng giá trị về ánh sáng và độ tương phản mới được
thực hiện trong cùng một Job của công đoạn quét phiếu.
3.2. Thiết lập thuộc tính quét phiếu
Trước khi thực hiện quét phiếu, cần xác định các thông tin để quét phiếu
trong cửa sổ Job descriptions của chức năng Manager hoặc Scan.
+) Các thuộc tính quét phiếu
Các thuộc tính này đượ
c thiết lập trong hộp thoại Scan job options của tab
Scan.
- Các lựa chọn nhận dạng phiếu Identification
Nếu cho phép nhận dạng các phiếu ngược chiều thì Identify rotated forms
phải được đánh dấu chọn. Chú ý, các phiếu ngược chiều này được hiểu là phiếu
quay ngược 180
o
trên cùng một mặt.
Identify upside–down form phải được đánh dấu chọn nếu muốn phiếu
được nhận dạng cả hai mặt.
Nếu cả hai lựa chọn Identify rotated forms và Identify upside–down form
đều được chọn thì sẽ làm chậm quá trình nhận dạng, đặc biệt nếu có nhiều
phiếu được quét hai mặt và ngược chiều.
Lựa chọn Low image quality được đánh dấu chọn cho phép chấp nhận
những phiế
u có chất lượng ảnh thấp.
Trong quá trình quét, chương trình cũng có khi không nhận dạng được
phiếu. Thông thường, phiếu đó sẽ bị bỏ qua hoặc quét lại. Tuy nhiên, chương
trình có thể ghi lại phiếu đó để nhận dạng sau nếu lựa chọn Accept unidentified
forms – Identify manually in scan được đánh dấu chọn.