BỘ KẾ HOẠCH VÀ ĐẦU TƢ
TỔNG CỤC THỐNG KÊ
BÁO CÁO TỔNG HỢP ĐỀ TÀI KHOA HỌC
NGHIÊN CỨU KHẢ NĂNG ỨNG DỤNG PHẦN MỀM QUẢN LÝ
DỮ LIỆU VI MÔ (MICRODATA MANAGEMENT) VÀO VIỆC
LƯU TRỮ, QUẢN LÝ VÀ CÔNG BỐ SỐ LIỆU
Đơn vị chủ trì : Viện Khoa học Thống kê
Đơn vị quản lý : Đoàn Thanh niên Cộng sản Hồ Chí Minh
Cơ quan Tổng cục Thống kê
Chủ nhiệm đề tài : CN. Nguyễn Quang Phương
Thư ký khoa học : CN. Nguyễn Phương Anh
Thư ký hành chính : Ths. Phạm Xuân Lượng
Hà Nội, năm 2008
2
MỤC LỤC
Lời nói đầu 3
Phần I. TIẾP CẬN PHẦN MỀM QUẢN LÝ DỮ LIỆU VI MÔ 6
I. Module quản trị Metadata Editor và ứng dụng 7
1. Đƣa một bộ dữ liệu của một cuộc điều tra vào lƣu trữ trong Microdata
Management. 9
2. Đƣa các thông tin chung về một cuộc điều tra vào cơ sở dữ liệu: 10
3. Đƣa các văn bản, tài liệu liên quan vào quản lý chung với database: 13
II. Nesstar Explorer xem và khai thác cơ sở dữ liệu. 14
1. Xem database 15
2. Chiết suất/export data: 17
3. Chiết suất/export metadata: 18
III. Sử dụng CD-ROM Builder để tạo đĩa CD. 19
Phần II. THỰC TRẠNG CÔNG TÁC QUẢN LÝ DỮ LIỆU VI MÔ CỦA
MỘT SỐ CUỘC ĐIỀU TRA TRONG TỔNG CỤC THỐNG KÊ 23
1. Hiện trạng về thiết bị tin học, hạ tầng truyền thông, phần mềm hệ thống
và ứng dụng CNTT trong ngành Thống kê 24
2. Hiện trạng việc quản lý CSDL vi mô của một số cuộc điều tra tại ngành
Thống kê 27
3. Đánh giá hiện trạng 35
Phần III. THỬ NGHIỆM PHẦN MỀM QUẢN LÝ DỮ LIỆU VI MÔ VÀO
TỔNG ĐIỀU TRA NÔNG THÔN, NÔNG NGHIỆP, THỦY SẢN 2006 VÀ
KHẢO SÁT MỨC SỐNG HỘ GIA ĐÌNH 2006 38
I. Tổng điều tra Nông thôn, Nông nghiệp Thủy sản năm 2006. 38
II. Khảo sát Mức sống hộ gia đình Việt Nam năm 2006. 45
1. Mô tả cơ sở dữ liệu vi mô và các tài liệu liên quan của Khảo sát mức sống
hộ gia đình 2006 45
2. Thử nghiệm Microdata Managerment để lƣu trữ và quản lý cơ sở dữ liệu
của Khảo sát mức sống hộ gia đình 2006 51
III. Các khó khăn gặp khi ứng dụng phần mềm Microdata management 63
KẾT LUẬN VÀ KIẾN NGHỊ 64
3
Lời nói đầu
Trong những năm trƣớc đây Ngành Thống kê và một số Bộ/ngành khác
đã tiến hành rất nhiều cuộc điều tra thống kê về các chuyên đề. Nhiều cuộc điều
tra công tác lƣu trữ thông tin chƣa thực sự tốt, một số khác việc lƣu trữ thông tin
tƣơng đối tốt nhƣng vẫn chƣa thực sự đầy đủ và khoa học vì khối lƣợng thông
tin liên quan là rất nhiều và đƣợc lƣu trữ dƣới nhiều dạng khác nhau, một số tài
liệu đƣợc lƣu ở dạng bản in, một số lƣu ở phần mềm word, excel, epiinfo, lotus,
spss, stata v.v…
Các thông tin liên quan đến quản lý của các cuộc điều tra chƣa đƣợc quản
lý và lƣu trữ, các thông tin này chƣa đƣợc chia sẻ và việc tra cứu đôi khi gặp khó
khăn và thƣờng đƣợc lƣu trữ ở các đơn vị nghiệp vụ chịu trách nhiệm tiến hành
các cuộc điều tra nói trên.
Việc công bố số liệu hiện nay cũng là một vấn đề lớn đối với những nhà
sản xuất ra số liệu, làm cách nào để số liệu đến đƣợc với ngƣời dùng tin và bằng
cách nào nhanh và dễ dàng nhất cũng đang đƣợc quan tâm.
Cơ sở dữ liệu vi mô mới đƣợc xây dựng cho một số cuộc điều tra lớn của
ngành nhƣ Tổng điều tra Dân số và Nhà ở, Tổng điều tra Nông thôn, Nông
nghiệp và Thủy sản, Điều tra Biến động dân số và Kế hoạch hóa gia đình, Khảo
sát Mức sống Hộ gia đình. Các cuộc điều tra này có đƣợc thông tin đầy đủ và hệ
thống hóa nên xây dựng đƣợc cơ sở dữ liệu vi mô.
Trong thực trạng nhƣ vậy việc có một phần mềm quản lý dữ liệu mang
tính đầy đủ và hệ thống là rất cần thiết.
Trƣớc đây đã có một số phần mềm lƣu trữ đƣợc thông tin siêu dữ liệu,
trong đó điển hình có phần mềm VietInfo đƣợc phát triển từ phần mềm DevInfo
nhƣng phần mềm cũng chƣa đáp ứng đƣợc yêu cầu về lƣu trữ dữ liệu vi mô.
Trong phần mềm này mới chỉ lƣu trữ đƣợc các thông tin siêu dữ liệu về các chỉ
số đƣợc lƣu trữ trong bộ số liệu, không lƣu trữ đƣợc số liệu thô và các thông tin
liên quan đến cuộc điều tra.
Việc công bố số liệu kết quả của các cuộc điều tra đôi khi chƣa đủ đáp
ứng đƣợc nhu cầu phân tích sâu của ngƣời dùng tin, nhất là các nhà nghiên cứu.
Vì vậy, việc công bố thông tin đầy đủ về cuộc điều tra là rất cần thiết để đáp ứng
đƣợc nhu cầu đó và phát huy tối đa hiệu quả của các cuộc điều tra thống kê.
4
Phần mềm Microdata Managerment có ƣu thế hơn một số phần mềm khác
và đáp ứng tốt nhất công việc quản lý dữ liệu vi mô. Đây là phần mềm giúp
chúng ta lƣu trữ, quản lý và công bố số liệu thống kê, đặc biệt phù hợp với quản
lý dữ liệu vi mô của các cuộc điều tra.
Tất cả các thông tin đều đƣợc lƣu trữ trên cùng một hệ thống sẽ giúp đơn
giản hóa công tác quản lý và giúp chúng ta dễ dàng khai thác. Đặc biệt hơn,
phần mềm này cung cấp công cụ xuất số liệu thô ra các định dạng file khác nhau
tùy thuộc nhu cầu của ngƣời sử dụng số liệu.
Phần mềm này mới đây đã có hỗ trợ phiên bản web nên càng phát huy
tính ƣu việt trong việc công bố số liệu, đƣa số liệu đến tay ngƣời dùng tin trong
nƣớc cũng nhƣ ngoài nƣớc nhanh nhất và đầy đủ nhất.
Về nhân lực, dự án Hỗ trợ giám sát phát triển kinh tế-xã hội do UNDP tài
trợ cho Tổng cục Thống kê đã giới thiệu cho nhiều cán bộ thuộc hầu hết các đơn
vị trong Tổng cục về phần mềm quản lý dữ liệu vi mô này. Vì vậy, việc ứng
dụng vào thực tế quản lý dữ liệu vi mô các cuộc điều tra là có cơ sở.
Mục tiêu nghiên cứu của đề tài là ứng dụng phần mềm Quản lý dữ liệu vi
mô vào việc lƣu trữ số liệu và các thông tin liên quan đến một số cuộc điều tra
do Tổng cục Thống kê tiến hành. Qua đó đề xuất ứng dụng phần mềm này trong
lƣu trữ và quản lý thông tin của các cuộc điều tra có dữ liệu vi mô trong ngành
Thống kê.
Đề tài sử dụng phƣơng pháp nghiên cứu các tài liệu liên quan đến đề tài,
tình hình ứng dụng trong nƣớc và ngoài nƣớc của phần mềm ứng dụng. Sau đó
nghiên cứu tiếp cận phần mềm và ứng dụng cho 2 cuộc điều tra là Khảo sát Mức
sống hộ gia đình Việt Nam năm 2006 và Tổng điều tra Nông thôn, nông nghiệp
và thủy sản.
Sau đó tổ chức hội thảo tiếp thu ý kiến của các chuyên gia và các đoàn
viên, thanh niên trong cơ quan Tổng cục, các chuyên gia thuộc Viện Khoa học
Thống kê và các vụ nghiệp vụ trong Tổng cục Thống kê góp ý hoàn thiện đề tài.
Nội dung của báo cáo tổng hợp đƣợc chia làm 3 phần:
Phần I. Tiếp cận phần mềm Quản lý dữ liệu vi mô
Phần II. Thực trạng công tác quản lý dữ liệu vi mô của một số cuộc điều
tra trong Tổng cục Thống kê.
5
Phần III. Thử nghiệm phần mềm Quản lý dữ liệu vi mô vào lƣu trữ, quản
lý dữ liệu của Tổng điều tra Nông thôn, Nông nghiệp và Thủy sản năm 2006 và
Khảo sát Mức sống hộ gia đình năm 2006.
Các thành viên thực hiện chính của đề tài gồm:
- Nguyễn Quang Phƣơng – chủ nhiệm đề tài;
- Nguyễn Phƣơng Anh – thƣ ký khoa học;
- Phạm Xuân Lƣợng – thƣ ký hành chính;
- Lê Trung Hiếu – thành viên;
- Đặng Văn Phẩm – thành viên;
- Cao Quang Thành – thành viên;
- Nguyễn Thế Quân – thành viên;
- Đỗ Thị Thúy – thành viên;
- Phạm Văn Cần – thành viên.
6
Phần I
TIẾP CẬN PHẦN MỀM QUẢN LÝ DỮ LIỆU VI MÔ
Phần mềm Microdata Managerment là phần mềm đƣợc phát triển bởi bộ
phận số liệu của Ngân hàng Thế giới nhằm lƣu trữ thông tin về các cuộc điều tra
hộ gia đình cho các quốc gia.
Đây là phần mềm đƣợc thiết kế riêng cho việc lƣu trữ các thông tin về các
cuộc điều tra hộ gia đình và tƣ liệu hóa các bộ số liệu. Nó không cung cấp các
chức năng tổng hợp, phân tích số liệu mà chỉ đơn thuần lƣu trữ thông tin một
cách khoa học và đầy đủ nhất.
Phần mềm này cũng cung cấp một số công cụ để ngƣời sử dụng có thể dễ
dàng chiết suất dữ liệu thô đƣợc lƣu trong phần mềm ra các định dạng file khác
nhau để từ đó sử dụng các chƣơng trình phân tích thích hợp, quen thuộc cho
ngƣời sử dụng.
Phần mềm Microdata Managerment có ƣu thế hơn một số phần mềm khác
và đáp ứng tốt nhất công việc quản lý dữ liệu vi mô. Đây là phần mềm giúp
chúng ta lƣu trữ, quản lý và công bố số liệu thống kê, đặc biệt phù hợp với quản
lý dữ liệu vi mô của các cuộc điều tra.
Tất cả các thông tin đều đƣợc lƣu trữ trên cùng một hệ thống sẽ giúp đơn
giản hóa công tác quản lý và giúp chúng ta dễ dàng khai thác. Đặc biệt hơn,
phần mềm này cung cấp công cụ xuất số liệu thô ra các định dạng file khác nhau
tùy thuộc nhu cầu của ngƣời sử dụng số liệu.
Phần mềm này mới đây đã có hỗ trợ phiên bản web nên càng phát huy
tính ƣu việt trong việc công bố số liệu, đƣa số liệu đến tay ngƣời dùng tin trong
nƣớc cũng nhƣ ngoài nƣớc nhanh nhất và đầy đủ nhất.
Microdata Management là một bộ công cụ bao gồm 4 module:
1. Metadata Editor là module cho nhà quản trị dữ liệu để xây dựng cơ sở
dữ liệu vi mô về các cuộc điều tra, các tài liệu có liên quan đầu vào sẽ đƣợc
chuẩn hóa theo tiêu chuẩn quốc tế về dữ liệu vi mô (DDI và Dublin Core), các
thông tin đầu vào là các thông tin đầy đủ, từ các công văn liên quan, bảng câu
7
hỏi, các tài liệu hƣớng dẫn, bộ số liệu thô đến các chƣơng trình nhập tin, làm
sạch số liệu và các chƣơng trình phân tích, các báo cáo kết quả đầu ra v.v. . .
2. Nesstar Explorer là module dành cho ngƣời sử dụng cơ sở dữ liệu,
công cụ này dùng để đọc các file do Metadata Editor tạo ra, cho phép ngƣời sử
dụng có thể xem đƣợc số liệu vi mô và các tài liệu liên quan đến bộ số liệu đồng
thời cung cấp chức năng chiết xuất dữ liệu ra các định dạng file phổ biến nhƣ
Stata, SPSS… tùy theo sở trƣờng của ngƣời sử dụng.
3. CD-ROM Builder module này cho phép ta tạo ra các sản phẩm số liệu
đầu ra thân thiện với ngƣời sử dụng nhƣ là đĩa CD-Rom, đĩa DVD, … ngƣời sử
dụng có thể khai thác trực tiếp trên đĩa mà không cần cài đặt phần mềm
Metadata Editor hoặc Nesstar Explorer.
4. NADA Cũng có nhiệm vụ tạo ra sản phẩm đầu ra giống nhƣ CD-Rom
Builer, phần mềm NADA là module công cụ tạo nên sản phẩm trên các trang
Web. Nhà quản trị có thể lựa chọn các quyền truy cập và sử dụng số liệu.
Yêu cầu cài đặt của phần mềm:
Microsoft Windows NT hoặc XP;
Bộ nhớ hệ thống tối thiểu (RAM) 256Mb;
Dung lƣợng trống của ổ đĩa cứng tối thiểu 300Mb;
Độ phân giải màn hình 1024x768;
Tuy nhiên để phần mềm chạy tốt hơn khuyến khích dùng máy cấu hình
cao hơn nhƣ: RAM từ 512Mb đến 1Gb; dung lƣợng trống của ổ đĩa cứng phù
hợp với bộ dữ liệu muốn lƣu trữ và độ phân giải màn hình cao hơn, tốt nhất là
màn hình rộng (16:9)
I. Module quản trị Metadata Editor và ứng dụng
Hiện nay Việt Nam cũng nhƣ phổ biến trên thế giới công nghệ thông tin
đã đi sâu vào trong đời sống nên hầu hết các công việc đã đƣợc điện tử hóa. Tại
Tổng cục Thống kê các tài liệu điều tra cũng đƣợc điện tử hóa gần nhƣ toàn bộ.
8
Việc lƣu trữ thông tin của các cuộc điều tra này chƣa đƣợc tập trung và
quản lý theo hệ thống, mỗi đơn vị chịu trách nhiệm của các cuộc điều tra quản lý
dữ liệu của cuộc điều tra đó theo cách riêng. Vì vậy, nhất thiết các thông tin cần
phải đƣợc quản lý đồng bộ hóa.
Metadata Editor cho phép ngƣời quản trị dữ liệu đƣa các dữ liệu ở các
dạng khác nhau vào và đồng bộ hóa trong hệ thống này. Các tài liệu đó đƣợc
chuẩn hóa theo một chuẩn chung Quốc tế có định dạng Data Documentation
Initiative và Dublin Core – chuẩn về siêu dữ liệu hiện nay trên thế giới.
Module này có giao diện thân thiện, dễ dàng cho ngƣời nhập dữ liệu đƣa
dữ liệu vào và khai báo thông tin. Hay nói cách khác
Trƣớc khi tiến hành nhập dữ liệu của một cuộc điều tra nào đó ta phải tập
hợp đƣợc toàn bộ các yếu tố đầu vào.
9
1. Đưa một bộ dữ liệu của một cuộc điều tra vào lưu trữ trong Microdata
Management.
Toàn bộ cơ sở dữ liệu và các siêu dữ liệu đầu vào liên quan đến cuộc điều
tra sẽ đƣợc ghi lại trong một file có phần mở rộng là .nesstar. Metadata Editor
gọi đây là một Project, hay 1 cơ sở dữ liệu.
Mỗi một Project lƣu trữ thông tin của một bộ dữ liệu của một cuộc điều
tra. Để tạo một dữ liệu mới ta kích chuột vào biểu tƣợng add group sau đó
vào label để đổi tên. Mỗi tên này sẽ lƣu trữ thông tin về dữ liệu vi mô của một
cuộc điều tra mẫu hoặc tổng điều tra.
Một project có thể đƣợc tạo ra bằng 2 cách, nếu ta chƣa có data file, ta có
thể vào File > Add new study hoặc kích chuột vào biểu tƣợng để tạo mới.
Nếu ta đã có data files, ta có thể tạo một cơ sở dữ liệu mới bằng cách kích chuột
vào biểu tƣợng import dataset , Metadata hỗ trợ một số định dạng file nhƣ:
SPSS (.sav, .por), Stata 7 and Stata 8 (.dta), Statistica (.sta), SAS (.sp1), ASCII
delimited (.txt, .csv), and others (.dbf, .dif, .nsf)
Chọn File > Import Study từ thanh công cụ chính hoặc kích và biểu tƣợng
tƣơng tự phần trên. Khi cửa sổ chứa file dữ liệu dạng Stata hiện ra, chọn các file
cần đƣa vào project, ta có thể chọn tất cả hoặc chọn từng file.
10
2. Đưa các thông tin chung về một cuộc điều tra vào cơ sở dữ liệu:
Khi thiết kế một cơ sở dữ liệu về một cuộc điều tra nào đó, Metadata Editor
yêu cầu khai báo các thông tin chung nhất mô tả về cuộc điều tra đó. Từ việc thiết
kế điều tra, lên kế hoạch, xây dựng phƣơng án điều tra, thiết kế bảng hỏi, điều tra
thử, tập huấn, chọn mẫu, thu thập, xử lý số liệu đến khâu phân tích và ra kết quả
cuối cùng.
Việc mô tả thông tin chung này giúp cho ngƣời sử dụng dữ liệu có thể hiểu
sâu hơn về cuộc điều tra, về chọn mẫu, sai số chọn mẫu, về tính đại diện để có thể
sử dụng bộ số liệu một cách hiệu quả nhất.
Từ những mô tả này ngƣời sử dụng thông tin có thể sử dụng bộ số liệu một
cách đúng nhất, tránh đƣợc các trƣờng hợp sử dụng số liệu không đủ đại diện, nhất
là các phân tổ của các chỉ tiêu đƣợc lồng ghép trong cuộc điều tra đó.
Ngoài ra có thể lƣu trữ các thông tin để tra cứu và để làm mốc so sánh cho
các cuộc điều tra tiếp theo.
Trong phần này ngƣời quản trị dữ liệu phải khai báo và nhập các thông tin
sau:
11
1. Mô tả tài liệu - Document description: Phần này dùng để khai báo các thông
tin liên quan đến bộ cơ sở dữ liệu vi mô nhƣ:
- Tên của bộ dữ liệu (thƣờng gắn với tên cuộc điều tra để thuận tiện tra cứu và
công bố ấn phẩm). Cơ quan thực hiện cuộc điều tra này, địa chỉ mail liên hệ
- Ngày, tháng, năm tiến hành nhập cơ sở dữ liệu vi mô: Ghi ngày, tháng, năm
sản phẩm hoàn thành, công bố cho ngƣời sử dụng
- Phiên bản của tài liệu theo chuẩn quốc tế DDI: Phiên bản 1.04 (study)
- Mã số nhận dạng của tài liệu theo chuẩn DDI: DDI-VNM
2. Mô tả nghiên cứu - Study description gồm có:
- Nhận dạng (Identification): Nhóm này gồm các thông tin cần khai báo nhƣ:
tên cuộc điều tra, tên khác của cuộc điều tra, thông tin về tần suất thực hiện
điều tra, tên tiếng Việt của cuộc điều tra, mã nhận dạng.
- Phiên bản (Version): mô tả ngắn gọn về phiên bản nhƣ số cùng nhãn phiên
bản, ngày ra sản phẩm theo định dạng chuẩn ISO (yyyy-mm-dd) cho ngày
xuất bản hiện tại và cuối cùng
- Tổng quan (Overview) gồm: Tóm tắt mục đích, nội dung của cuộc điều tra,
loại số liệu, hệ thống phiếu điều tra, các nhóm chỉ tiêu điều tra.
- Phạm vi (Scope): Mô tả phạm vi điều tra là mô tả các chủ đề bao phủ toàn bộ
cuộc điều tra. Có thể đƣa ra cái nhìn tổng quát của các loại phiếu, từng chủ
đề của từng loại phiếu. Phạm vi không liên quan đến mức độ bao phủ về mặt
địa lý; phân lớp chủ đề nên theo từ điển chuyên đề chuẩn quốc tế; từ then
chốt của cuộc điều tra cần đƣợc đƣa ra để cho ngƣời sử dụng có thể dễ dàng
tìm kiếm qua mạng các thông tin về cuộc điều tra qua bảng danh mục.
- Mức độ bao phủ (Coverage): Nhập vào tên nƣớc, thậm chí cả trƣờng hợp nơi
cuộc điều tra không bao phủ toàn bộ đất nƣớc. Trong phần "Abbreviation"
(chữ viết tắt) chúng ta đƣợc khuyến cáo vào 3 ký tự theo mã chuẩn ISO của
đất nƣớc (Nhƣ Việt Nam ký hiệu theo chuẩn ISO là VNM). Nếu nhƣ bộ số
liệu đƣợc dẫn chứng bằng tài liệu bao phủ ngoài một quốc gia (ở nhiều đất
nƣớc) thì ta có thể vào bằng nhiều dòng riêng biệt; Mức độ bao phủ về mặt
12
địa lý; phạm vi điều tra về dân số nhƣ đối tƣợng ở độ tuổi nào thì điều tra, độ
tuổi nào không điều tra…
- Nhà sản xuất và nhà tài trợ (Producers and sponsors) bao gồm: ngƣời chịu
trách nhiệm điều tra chính của cuộc điều tra, nhà đồng tổ chức, nhà tài trợ
hoặc có các công việc liên quan; chi phí cho cuộc điều tra, nguồn chi phí lấy
từ đâu trong nƣớc hay quốc tế, các đơn vị khác có liên quan.
- Chọn mẫu (Sampling): Phần này cần đƣa vào các thông tin về cách chọn
mẫu, cỡ mẫu; sai số của thiết kế mẫu; xác định số lƣợng mẫu theo lý thuyết
chọn mẫu; quyền số suy rộng của từng chỉ tiêu.
- Thu thập số liệu (Data collection): Mô tả các thông tin cơ bản về cuộc điều
tra về ngày bắt đầu, ngày kết thúc, chu trình điều tra; kỳ lấy số liệu; phƣơng
pháp thu thập số liệu; quá trình tổ chức thực hiện thu thập số liệu từ khâu
chuẩn bị địa bàn điều tra, tập huấn điều tra viên các cấp, tổ chức điều tra,
kiểm tra, thanh tra quá trình thực hiện điều tra ở cơ sở…; các loại phiếu dùng
trong điều tra, nêu rõ các loại dùng cho từng đối tƣợng, phạm vi điều tra; đơn
vị tổ chức thực hiện điều tra; giám sát viên các cấp đƣợc tổ chức thế nào…
- Xử lý số liệu (Data processing): làm sạch số liệu đƣợc tổ chức theo một qui
trình gồm nhiều bƣớc xử lý từ đầu đến khi có đƣợc bộ số liệu chính thức, bao
gồm:
a) Làm sạch thô, bằng tay và mã hóa
b) Làm sạch trong suốt quá trình nhập số liệu
c) Kiểm tra cấu trúc tập tin và sự đầy đủ của thông tin
- Đánh giá số liệu (Data appraisal): Các cuộc điều tra mẫu cần có tính toán,
ƣớc lƣợng, công bố sai số chọn mẫu
- Truy cập số liệu (Data access): Phần này cần cung cấp một loạt những thông
tin, địa chỉ của ngƣời có trách nhiệm về số liệu cũng nhƣ những quyền đƣợc
truy cập số liệu bao gồm tên, ngƣời hoặc tổ chức có trách nhiệm, email,
chuỗi định danh tài nguyên trên Internet (URI); bảo mật số liệu, cung cấp
những điều kiện của ngƣời sử dụng đƣợc truy cập vào sử dụng số liệu, còn số
liệu không cần bảo mật thì phần này có thể để trống; truy cập số liệu, mỗi bộ
số liệu nên có một chính sách truy cập đính kèm nó, IHSN khuyến nghị nên
13
có 3 mức độ truy cập số liệu gồm: (1) Mức độ thứ nhất là loại số liệu có thể
truy cập rộng rãi với mọi ngƣời sử dụng, (2) Mức độ thứ hai là bộ số liệu có
bản quyền, nếu muốn truy cập phải đƣợc phép của ngƣời quản lý số liệu, (3)
Mức độ thứ ba là những bộ số liệu chỉ có thể truy cập ở số liệu thứ cấp, dùng
cho những loại số liệu mật và số liệu không công bố; yêu cầu trích dẫn cần
đƣợc đƣợc ra đối với ngƣời sử dụng số liệu, mỗi ngƣời dùng số liệu cần trích
dẫn số liệu đƣợc điều tra từ cơ quan, tổ chức nào là ngƣời chịu trách nhiệm
về số liệu.
- Quyền lợi và bản quyền (Disclaimer and copyright): Phần này ngƣời thiết kế
phần mềm muốn khuyến nghị các nhà cung cấp dữ liệu chỉ chịu trách nhiệm
về dữ liệu chứ không chịu trách nhiệm với những báo cáo phân tích dữ liệu
của ngƣời sử dụng và bản quyền của các báo cáo phân tích số liệu đó.
- Thông tin liên hệ (Contacts): Ngƣời sử dụng dữ liệu nhiều khi cần các giải
thích chi tiết và các thông tin khác. Phần này có thể đƣa ra tên, email, điện
thoại, trang web của cá nhân, tổ chức xuất bản dữ liệu
3. Đưa các văn bản, tài liệu liên quan vào quản lý chung với database:
Điểm khác biệt nhất so với các phần mềm lƣu trữ số liệu và dữ liệu vi mô
trƣớc đây của Metadata Editor là nó cho phép chúng ta lƣu trữ và quản lý các tài
liệu liên quan dạng siêu dữ liệu trong cùng một thƣ mục và việc tra cứu đƣợc thể
hiện ở dạng đƣờng dẫn tới các file điện tử liên quan.
Các phần mềm lƣu trữ dữ liệu vi mô trƣớc đây chủ yếu quan tâm đến việc
lƣu trữ thông tin của bộ dữ liệu thô, chƣa chú trọng đến dữ liệu vi mô.
Trong phần mềm VietInfo của Unicef tài trợ và Tổng cục Thống kê phát
triển cũng đã đƣa thông tin dữ liệu vi mô vào quản lý. Nhƣng thông tin ở đây chỉ
mô tả về các chỉ tiêu đƣợc đƣa vào phần mềm và dữ liệu chỉ lƣu kết quả đầu ra
của các chỉ tiêu trong cuộc điều tra đó.
Qua cách thiết kế này ta thấy ngƣời dùng tin có thể tra cứu toàn bộ thông
tin liên quan khác đến cuộc điều tra nhƣ: Quyết định, phƣơng án điều tra, bảng
câu hỏi, phần mềm nhập tin, kiểm tra số liệu, biểu đầu ra, sách công bố kết quả
cực kỳ dễ dàng. Đặc biệt là các mô tả về mẫu điều tra, ƣớc lƣợng sai số mẫu và
quyền số.
14
Toàn bộ các tài liệu liên quan đến cuộc điều tra khác chƣa đƣợc đƣa vào
lƣu trữ trong phần Metadata Editor ở trên sẽ đƣợc đƣa vào quản lý chung trong
một thƣ mục với cơ sở dữ liệu chính và trong mỗi tiêu đề mục quản lý dữ liệu
đều đƣa đƣờng dẫn để mở file nguồn.
Metadata Editor cho phép ta quản lý các tài liệu liên quan khác đến cuộc
điều tra này theo dạng quản lý thƣ mục, mỗi thƣ mục là một loại tài liệu liên
quan khác nhau theo tên thƣ mục.
Từ trong môi trƣờng của Nesstar Explorer khi ta mở bộ cơ sở dữ liệu trên
ra, từ các đƣờng dẫn của các tài liệu liên quan khác đến cuộc điều tra ta có thể
mở đƣợc chúng bằng cách click chuột vào đó.
II. Nesstar Explorer xem và khai thác cơ sở dữ liệu.
Module Nesstar Explorer cho phép ngƣời sử dụng xem và khai thác các
dữ liệu và siêu dữ liệu về định dạng thống kê chung đƣợc thiết lập từ module
Metadata Editor.
Dữ liệu đƣợc đƣa vào để sử dụng trong Nesstar explorer rất đa dạng, cốt
lõi là bộ số liệu thô mà dựa vào các chức năng chiết suất dữ liệu trong module
này ngƣời sử dụng có thể xuất dữ liệu thô của các cuộc điều tra đã đƣợc chuẩn
15
hóa theo nesstar ra các định dạng file ƣa thích để từ đó có thể khai thác sâu hơn.
Ví dụ ngƣời dùng tin muốn sử dụng chƣơng trình SPSS để tính toán một chỉ tiêu
nào đó trong Tổng điều tra Nông thôn, nông nghiệp và thủy sản, họ chỉ cần xuất
số liệu thô từ Nesstar explorer ra định dạng file của SPSS.
Metadata editor lƣu lại tất cả data và tài liệu liên quan khác (metadata)
trong 1 file duy nhất có định dạng là *.nesstar
File này không thể đọc đƣợc bằng các phần mềm thông thƣờng mà phải
sử dụng phần mềm chuyên dụng có tên là Nesstar explorer. Phần mềm này chỉ
cho phép ngƣời sử dụng xem data và metadata mà không cho phép chỉnh sửa,
thay đổi; ngoài ra nó còn cho phép chiết suất data ra thành các định dạng thống
kê thông thƣờng khác nhƣ SAS, SPSS, STATA,…
1. Xem database
Phần mềm này có giao diện hiển thị dƣới dạng 2 khung, khung bên trái là
cây thƣ mục thiết kế giống nhƣ chuẩn Metadata editor sử dụng để tạo ra nesstar
file, khung bên phải là phần hiển thị nội dung chi tiết các mục đã lựa trọn ở
khung bên trái
16
Mở một project/nghiên cứu ta chọn File > Open ở thƣ mục chính hoặc
kích vào biểu tƣợng
Ngôn ngữ/font chữ hiển thị trong Nesstar explorer có thể thay đổi mà
không làm ảnh hƣởng đến metadata hoặc định dạng chuẩn đã đƣợc lƣu trữ trong
Nesstar file. Để thay đổi ngôn ngữ/font chữ: chọn File > language > chọn một
ngôn ngữ đang hiển thị
Khi đang xem 1 file data ta có thể chọn xem 1 biến dƣới dạng có nhãn
biến và không có nhãn biến bằng cách kích vào biểu tƣợng
VD: xem không có nhãn biến
17
xem có nhãn biến
2. Chiết suất/export data:
Chúng ta không thể sử dụng các phần mềm phân tích thống kê thông
thƣờng nhƣ SPSS, STATA hoặc SAS để phân tích data đang đƣợc lƣu trữ dƣới
dạng nesstar file. Tuy nhiên Nesstar Explorer cho phép ngƣời sử dụng chiết suất
ra thành các định dạng file phù hợp với SPSS, STATA hoặc SAS để sau đó sử
dụng các phần mềm phân tích database đó.
18
Để chiết suất 1 file data: chọn File > Export Dataset hoặc kích vào biểu
tƣợng phần Export Dataset sẽ đƣợc mở ra, sau đó chọn định dạng file muốn
chiết suất và kích vào nút Save
Nesstar Explorer còn cho phép chiết suất toàn bộ các file trong 1 cơ sở dữ
liệu lƣu trữ trong 1 file *.nesstar: chọn File > Export All Dataset, cửa sổ Export
All Datasset sẽ hiện ra
3. Chiết suất/export metadata:
Nesstar Explorer cho phép ngƣời sử dụng chiết suất các văn bản/tài liệu
liên quan sang các định dạng siêu văn bản hoặc định dạng phù hợp để sử dụng
19
Để chiết suất tất cả DDI metadata liên quan đến nghiên cứu, ta chọn File
> Export DDI (hoặc File > Export all to Dublin Core) hoặc kích vào biểu tƣợng
phần Export all to Dublin Core sẽ đƣợc mở ra
III. Sử dụng CD-ROM Builder để tạo đĩa CD.
CD-ROM Builder là một gói công cụ, nó xuất dữ liệu ra định dạng HTML
cơ bản có thể lƣu trữ trên CD-ROM, DVD, mạng intranet hay mạng internet.
Mặc dù nó đƣợc thiết kế chủ yếu là công cụ để phổ biến vi dữ liệu, nó cũng còn
đƣợc sử dụng lƣu trữ dữ liệu và siêu dữ liệu.
Tạo đĩa CD
Việc tạo đĩa CD hầu nhƣ đƣợc tiến hành 1 cách tự động. Đầu vào duy
nhất cần thiết là bộ dữ liệu ở định dạng của Nessta và lựa chọn tên chủ đề. Các
tùy chọn đƣợc cung cấp để chỉnh sửa nội dung và mẫu thiết kế của sản phẩm
đầu ra.
Một file Nessta là file kết quả lƣu trữ bộ dữ liệu sử dụng Metadata Editor.
Nhãn hiệu bao gồm những tựa đề lớn đƣợc thiết kế tuỳ biến sẽ xuất hiện trên
đầu mỗi trang của CD-ROM. Nhãn hiệu có thể bao gồm logo, tên và các phần tử
đặc trƣng khác mà nó đại diện.
Để tạo 1 CD-ROM
1. Trên thanh thực đơn chính, chon File > New CD-ROM Project.
2. Chọn file Nessta chứa bộ dữ liệu, chọn nhãn hiệu. Chọn Household Survey
trong hộp Type sau đó chọn Finish
20
ứng dụng sẽ tự động tạo những nét phác thảo của CD-ROM. Những nét
phác thảo này trình bày cấu trúc của CD-ROM (hoặc website) sẽ đƣợc tạo
ra.
3. Chọn Tool > Export to CD-ROM từ thanh thực đơn chính hoặc click vào
biểu tƣợng trên thanh thực đơn. Chọn nơi lƣu CD-ROM trên đĩa cứng.
Ứng dụng không tự động ghi ra đĩa CD-ROM, thay vào đó nó sẽ tạo ra
“bản gốc CD-ROM” để sau này chuyển ghi sang đĩa CD-ROM, DVD hoặc
đƣa lên web.
Các tuỳ chọn:
Creat Autorun CD-ROM gồm những file trên CD-ROM sẽ tự động tải
về trang chủ khi ngƣời sử dụng đƣa đĩa CD-ROM vào trong máy.
Include Data File để sao chép vi dữ liệu (ví dụ file Nessta) trên CD-
ROM. Không đánh dấu tuỳ chọn này nếu muốn CD-ROM không có vi
dữ liệu.
Include Other Resources để sao chép các nguồn bên ngoài chẳng hạn
nhƣ tài liệu dạng PDF, các ảnh, bản đồ, trên CD-ROM.
Include Nessta Data Explorer để sao chép các file cài đặt và hƣớng dẫn
Nessta Explorer lên CD-ROM. Tuỳ chọn này luôn đƣợc chọn khi CD-
ROM có chữa vi dữ liệu. Nó sẽ cho phép ngƣời sử dụng xuất các file dữ
21
liệu sang các định dạng khác (SPSS, STATA, SAS, Statistica, DBF,
ASCII, ).
Open generated output in external browser sẽ làm cho ứng dụng mở
trình duyệt web và hiển thị trang chủ của CD-ROM ngay sau khi ứng
dụng kết thúc việc tạo CD-ROM. Nếu không chọn tuỳ chọn này, có thể
xem CD-ROM bằng cách click đúp chuột vào file index.html trên thƣ
mục đã chọn để lƣu CD-ROM.
4. Nếu thƣ thƣ mục để lƣu CD-ROM chƣa có, bạn sẽ đƣợc yêu cầu xác nhận
việc tạo ra thƣ mục đó
5. Bạn sẽ đƣợc nhắc rằng những nét phác thảo chính của CD-ROM chƣa đƣợc
lƣu. Lƣu phác thảo cho phép bạn tạo ra CD-ROM sau này. File lƣu có phần
mở rộng [.Outline]. Chọn Yes hoặc No, CD-ROM sẽ đƣợc tạo ra.
22
Chú ý: nếu file Nessta dùng để tạo CD-ROM đang đƣợc mở bởi 1 ứng dụng
khác (ví dụ Metadata Editor), 1 thông báo lỗi sẽ hiện ra. Đóng các chƣơng
trình đang chạy file Nessta, và thử lại.
6. Nếu tùy chọn Open generated output in external browser đƣợc chọn, trình
duyệt web sẽ mở ra và hiển thị trang chủ của CD-ROM.
Phần mềm cho phép tạo ra phiên bản CD-Rom trên đĩa cứng, sau đó ta sẽ
dùng các ứng dụng ghi đĩa của windows để sao chép thành đĩa CD-Rom
VHLSS 2006
23
Phần II
THỰC TRẠNG CÔNG TÁC QUẢN LÝ DỮ LIỆU
VI MÔ CỦA MỘT SỐ CUỘC ĐIỀU TRA TRONG
TỔNG CỤC THỐNG KÊ
Với tốc độ phát triển mang tính bùng nổ của CNTT, việc ứng dụng Tin
học đã chuyển từ vai trò thúc đẩy “cách mạng quản lý” sang làm nền tảng cho
nền kinh tế xã hội mới – “xã hội thông tin”. Nhất là từ khi mạng Internet ra đời
liên kết hàng triệu máy tính trên toàn cầu, tăng khả năng khai thác các nguồn
thông tin trên khắp mọi nơi, tại mọi thời điểm cho hàng trăm triệu ngƣời dùng
thì CNTT không chỉ còn là phƣơng tiện kỹ thuật đơn thuần nữa, mà nó đã trở
thành một môi trƣờng mới cho mọi hoạt động kinh tế, văn hoá, xã hội.
Trong ngành Thống kê, số liệu đã trở thành nguồn lực (tin lực) có vai trò
to lớn trong việc thúc đẩy sự phát triển của nền kinh tế Quốc gia. Do vậy việc
xây dựng CSDL tập trung là hết sức quan trọng và cần thiết. Nằm trong khuôn
khổ xây dựng các CSDL Quốc gia của nhà nƣớc, CSDL vi mô của các cuộc điều
tra trở thành một công cụ rất hữu hiệu trong hỗ trợ công tác quản lý, điều hành,
ra quyết định của các cấp lãnh đạo, các nhà hoạch định chính sách, các nhà
nghiên cứu trong ngành Thống kê và các cơ quan đơn vị liên quan.
Cơ sở dữ liệu vi mô là CSDL lƣu trữ và tạo các công cụ khai thác thông
tin từ các phiếu điều tra, chế độ ban đầu phát sinh từ đơn vị kinh tế cơ sở
Cơ sở dữ liệu vi mô mới đƣợc triển khai cho các cuộc Tổng điều tra và
điều tra do Tổng cục tổ chức ở tầm quốc gia (tổng điều tra dân số năm 1999,
Tổng điều tra nông thôn, nông nghiệp và thủy sản năm 2001, Tổng điều tra cơ
sở kinh tế - hành chính sự nghiệp năm 2002, Điều tra doanh nghiệp từ 2002-
2005, Điều tra biến động dân số hàng năm, Điều tra khảo sát mức sống hộ gia
24
đình…) Các cuộc điều tra này có đƣợc nguồn thông tin đầy đủ, có hệ thống và
đã đƣợc tin học hóa nên đã xây dựng đƣợc CSDL vi mô.
Tuy nhiên, thông tin về các cuộc điều tra nói trên mới phản ánh đƣợc một
số linh vực kinh tế -xã hội ở thời điểm nhất định (thời điểm điều tra). Nhƣng
những thông tin thƣờng xuyên phục vụ việc lập các báo cáo thống kê hàng
tháng, quý, năm về các hoạt động kinh tế-xã hội phục vụ các nhu cầu của ngƣời
dùng tin thì chƣa đƣợc tin học hóa cả ở hệ thống thống kê tập trung (Hệ thống
thống kê do Tổng cục Thống kê thực hiện) và hệ thống thống kê do các Bộ,
ngành thực hiện do vậy chƣa xây dựng đƣợc các CSDL (từ năm 2005, Tổng cục
mới giao cho các Trung tâm Tin học phối hợp với các Vụ triển khai tin học hóa
hệ thống này ở hệ thống thống kê tập trung)
Trong khuôn khổ đề tài này, chúng tôi chỉ đề cập đến việc đánh giá đƣợc
hiện trạng và nhu cầu cho công tác lƣu trữ và quản lý dữ liệu vi mô của các đơn
vị thực hiện một số cuộc điều tra trong Tổng cục thống kê. Phân tích đƣợc hiện
trạng và đánh giá đƣợc sự cần thiết phải lƣu trữ và quản lý dữ liệu vi mô.
1. Hiện trạng về thiết bị tin học, hạ tầng truyền thông, phần mềm hệ thống và
ứng dụng CNTT trong ngành Thống kê
a. Cơ sở hạ tầng công nghệ thông tin ngành Thống kê
Ngành Thống kê có hệ thống cơ sở hạ tầng về CNTT rất tốt. Các máy tính
có cấu hình mạnh, đã có mạng LAN tại TCTK và mạng WAN toàn ngành. Phần
mềm hệ thống đƣợc sử dụng của Microsoft.
- Máy chủ
STT
Tên máy
Cấu hình
Số lƣợng
1
IBM X253
2CPU x Xeon 2.4GHz 400MHz,
Cache 512, DDR 1GB, HDD 4 x
18,2GB
2
2
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 4 x
2
25
36GB
3
IBM X255
4CPU x Xeon 2.4GHz 400MHz,
Cache 512, DDR 2GB, HDD 6 x
73GB
1
4
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 6 x
73GB
1
5
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 4 x
73GB
1
6
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 4 x
143GB
3
- Máy trạm
STT
Tên máy
Cấu hình
Số lƣợng
1
HP D240
Procesor: Intel Pentium IV 3.06
GHz; RAM: 256MB DDR
PC3200; Chipset: Intel 845GV;
HDD: 40 GB ATA/100
193
2
HPDC5700
Procesor: Intel Pentium D 3
GHz; RAM: 256MB DDR;
Chipset: Intel 965GV; HDD: 80
GB SATA
51
3
HPDC 5100
SFF
Procesor: Intel Pentium IV
3.0GHz; RAM: 256MB DDR;
Chipset: Intel 965GV; HDD: 40
GB
6
4
Dell GX 240
14
5
Dell 160L
24
6
Fpt Elead
19
7
Compag 5100
6
- Đƣờng truyền Internet tốc độ cao: