Tải bản đầy đủ (.pdf) (26 trang)

Thực trạng công tác quản lý dữ liệu vi mô của một số cuộc điều tra trong tổng cục thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (386.75 KB, 26 trang )

TỔNG CỤC THỐNG KÊ



BÁO CÁO CHUYÊN ĐỀ

“Thực trạng công tác quản lý dữ liệu vi mô của một số cuộc điều tra
trong Tổng cục Thống kê”


Đề tài: “Nghiên cứu ứng dụng phần mềm quản lý dữ liệu vi mô
(Microdata management) vào việc lưu trữ, khai thác dữ liệu các cuộc
điều tra thống kê”



Đơn vị chủ trì: Đoàn TNCSHCM-TCTK
Chủ nhiện đề tài: Nguyễn Quang Phương
Người viết chuyên đề: Cao Quang Thành






HÀ NỘI, NĂM 2008


2

Mục lục


Lời nói đầu 3
1. Hiện trạng về thiết bị tin học, hạ tầng truyền thông, phần mềm hệ
thống và việc ứng dụng CNTT trong ngành Thống kê 4
a. Cơ sở hạ tầng công nghệ thông tin ngành Thống kê 4
b. Ứng dụng CNTT trong việc truyền số liệu 6
c. Ứng dụng CNTT trong xử lý số liệu điều tra 7
d. Ứng dụng CNTT trong xây dựng CSDL và phổ biến số liệu 7
2. Hiện trạng việc thu thập số liệu và việc quản lý CSDL vi mô của một
số cuộc điều tra tại ngành Thống kê 8
a. Số liệu tổng điều tra dân số và nhà ở 1999 8
b. Số liệu TĐT nông thôn nông nghiệp và thủy sản năm 2001 15
c. Số liệu TĐT cơ sở kinh tế-hành chính sự nghiệp năm 2002 16
d. Số liệu điều tra biến động dân số hàng năm 17
e. Số liệu điều tra khảo sát mức sống hộ gia đình 19
f. Số liệu điều tra Doanh nghiệp: 20
3. Đánh giá hiện trạng 20
Kết luận và kiến nghị 23


3
Lời nói đầu
Với tốc độ phát triển mang tính bùng nổ của CNTT, việc ứng dụng
Tin học đã chuyển từ vai trò thúc đẩy “cách mạng quản lý” sang làm nền
tảng cho nền kinh tế xã hội mới – “xã hội thông tin”. Nhất là từ khi mạng
Internet ra đời liên kết hàng triệu máy tính trên toàn cầu, tăng khả năng
khai thác các nguồn thông tin trên khắp mọi nơi, tại mọi thời điểm cho
hàng trăm triệu người dùng thì CNTT không chỉ còn là phương tiện kỹ
thuật đơn thuần nữa, mà nó đã trở thành một môi trường mới cho mọi hoạt
động kinh tế, văn hoá, xã hội.
Trong ngành Thống kê, số liệu đã trở thành nguồn lực (tin lực) có vai

trò to lớn trong việc thúc đẩy sự phát triển của nền kinh tế Quốc gia. Do
vậy việc xây dựng CSDL tập trung là hết sức quan trọng và cần thiết. Nằm
trong khuôn khổ xây dựng các CSDL Quốc gia của nhà nước, CSDL vi mô
của các cuộc điều tra trở thành một công cụ rất hữu hiệu trong hỗ trợ công
tác quản lý, điều hành, ra quyết định của các cấp lãnh đạo, các nhà hoạch
định chính sách trong ngành Thống kê và các cơ quan đơn vị liên quan.
Cơ sở dữ liệu vi mô là CSDL lưu trữ và tạo các công cụ khai thác
thông tin từ các phiếu điều tra, chế độ ban đầu phát sinh từ đơn vị kinh tế
cơ sở
Cơ sở dữ liệu vi mô mới được triển khai cho các cuộc Tổng điều tra và
điều tra do Tổng cục tổ chức ở tầm quốc gia (tổng điều tra dân số năm
1999, Tổng điều tra nông thôn, nông nghiệp và thủy sản năm 2001, Tổng
điều tra cơ sở kinh tế - hành chính sự nghiệp năm 2002, Điều tra doanh
nghiệp từ 2002-2005, Điều tra biến động dân số hàng năm, Điều tra khảo
sát mức sống hộ gia đình…) Các cuộc điều tra này có được nguồn thông tin
đầy đủ, có hệ thống và đã được tin học hóa nên đã xây dựng được CSDL vi
mô.

4
Tuy nhiên, thông tin về các cuộc điều tra nói trên mới phản ánh được
một số linh vực kinh tế -xã hội ở thời điểm nhất định (thời điểm điều tra).
Nhưng những thông tin thường xuyên phục vụ việc lập các báo cáo thống
kê hàng tháng, quý, năm về các hoạt động kinh tế-xã hội phục vụ các nhu
cầu của người dùng tin thì chưa được tin học hóa cả ở hệ thống thống kê
tập trung (Hệ thống thống kê do Tổng cục Thống kê thực hiện) và hệ thống
thống kê do các Bộ, ngành thực hiện do vậy chưa xây dựng được các
CSDL (từ năm 2005, Tổng cục mới giao cho các Trung tâm Tin học phối
hợp với các Vụ triển khai tin học hóa hệ thống này ở hệ thống thống kê tập
trung)
Trong khuôn khổ của chuyên đề này, chúng tôi chỉ đề cập đến việc

đánh giá được hiện trạng và nhu cầu cho công tác lưu trữ và quản lý dữ liệu
vi mô của các đơn vị thực hiện một số cuộc điều tra trong Tổng cục thống
kê. Phân tích được hiện trạng và đánh giá được sự cần thiết phải lưu trữ và
quản lý dữ liệu vi mô.

1. Hiện trạng về thiết bị tin học, hạ tầng truyền thông, phần mềm hệ
thống và việc ứng dụng CNTT trong ngành Thống kê
a. Cơ sở hạ tầng công nghệ thông tin ngành Thống kê
Ngành Thống kê có hệ thống cơ sở hạ tầng về CNTT rất tốt. Các
máy tính có cấu hình mạnh, đã có mạng LAN tại TCTK và mạng WAN
toàn ngành. Phần mềm hệ thống được sử dụng của Microsoft.
- Máy chủ
STT
Tên máy
Cấu hình
Số lượng
1
IBM X253
2CPU x Xeon 2.4GHz 400MHz,
Cache 512, DDR 1GB, HDD 4 x
18,2GB
2

5
2
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 4 x
36GB
2

3
IBM X255
4CPU x Xeon 2.4GHz 400MHz,
Cache 512, DDR 2GB, HDD 6 x
73GB
1
4
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 6 x
73GB
1
5
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 4 x
73GB
1
6
IBM X253
2CPU x Xeon 2.8GHz 400MHz,
Cache 512, DDR 1GB, HDD 4 x
143GB
3

- Máy trạm
STT
Tên máy
Cấu hình
Số lượng

1
HP D240
Procesor: Intel Pentium IV 3.06
GHz; RAM: 256MB DDR
PC3200; Chipset: Intel 845GV;
HDD: 40 GB ATA/100
193
2
HPDC5700
Procesor: Intel Pentium D 3
GHz; RAM: 256MB DDR;
Chipset: Intel 965GV; HDD: 80
51

6
GB SATA
3
HPDC 5100
SFF
Procesor: Intel Pentium IV
3.0GHz; RAM: 256MB DDR;
Chipset: Intel 965GV; HDD: 40
GB
6
4
Dell GX 240

14
5
Dell 160L


24
6
Fpt Elead

19
7
Compag 5100

6

- Đường truyền Internet tốc độ cao:
Tổng cục Thống kê có 2 đường truyền internet tốc độ cao đó là:
đường cáp quang và đường SHSL 2M được thuê từ nhà cung cấp dịch vụ
Cục bưu điện Trung ương.
- Phần mềm hệ thống:
Máy chủ : Microsoft Windows Server 2003 64bit
Máy trạm: Microsoft Windows XP và Microsoft Windows Vista
- Phần mềm văn phòng: Microsoft Office 2003 và Microsoft Office XP
- Phần mềm diệt virus: Symantec Antivirus 10.1 Net
- Hệ thống thư tín điện tử (E-Mail): MDeamon
- Hệ thống truyền và nhận file (Ftp): ServerU và Ftp của Microsoft
b. Ứng dụng CNTT trong việc truyền số liệu
Việc tin học hoá công tác xử lý và truyền đưa số liệu của một số lĩnh
vực công tác thống kê được duy trì, hoàn thiện và phát triển đã góp phần

7
nâng cao hiệu quả công tác, chất lượng số liệu và rút ngắn thời gian báo
cáo. Mạng GSO phát huy tác dụng trong việc truyền đưa số liệu, phổ biến
nhanh các văn bản, tài liệu hướng dẫn của Tổng cục đến các địa phương.

Thư tín điện tử đã được sử dụng, tạo điều kiện để giải quyết nhanh và hiệu
quả các công việc. Trang WEB thống kê được duy trì trên mạng intranet,
tiến hành công tác quản trị mạng và cập nhật thông tin trên trang WEB.
c. Ứng dụng CNTT trong xử lý số liệu điều tra
 Xử lý số liệu Tổng điều tra nông thôn, nông nghiệp với 12,4 triệu
phiếu điều tra từ 12,4 triệu hộ gia đình .
 Xử lý số liệu Tổng điều tra các cơ sở kinh tế - hành chính sự
nghiệp cho 2,3 triệu đơn vị kinh tế - hành chính, sự nghiệp.
 Xử lý số liệu chọn mẫu nhân khẩu học nhiều vòng với trên 1,5
triệu nhân khẩu và 200 ngàn hộ gia đình. Xử lý số liệu điều tra chọn mẫu
hộ gia đình đa mục tiêu với 40 ngàn hộ gia đình được chọn mẫu cho mỗi
năm.
 Xử lý số liệu điều tra Lao động và Việc làm với khoảng 120 ngàn hộ
gia đình chọn mẫu cho mỗi năm.
 Xử lý số liệu Tổng điều tra Dân số và Nhà ở năm 1999 với gần 17
triệu hộ gia đình và trên 76 triệu nhân khẩu
 Xử lý số liệu điều tra Doanh nghiệp hàng năm
 Và xử lý số liệu rất nhiều cuôc điều tra khác…
d. Ứng dụng CNTT trong xây dựng CSDL và phổ biến số liệu
Ứng dụng công nghệ thông tin trong xử lý và lưu giữ số liệu các
cuộc điều tra: đã thí điểm xây dựng CSDL cho 4 phân hệ sau: thống kê
giá cả, thống kê công nghiệp, thống kê thương mại, thống kê nông nghiệp.
Trong năm 2000, các CSDL vi mô TĐTDS và Nhà ở cũng đã được xây
dựng để lưu giữ dữ liệu gốc 3%, lưu giữ dữ liệu gốc 100% và khai thác

8
qua hệ quản trị CSDL quan hệ SQL Server. Hoàn thành việc xử lý và xây
dựng cơ sơ dữ liệu Tổng điều tra nông thôn, nông nghiệp và thuỷ sản.
Cùng với báo cáo tổng hợp được xuất bản dưới dạng ấn phẩm, đã sản xuất
các đĩa CD-ROM về kết quả tổng điều tra của cả nước và của các địa

phương.
Cùng với báo cáo tổng hợp được xuất bản dưới dạng ấn phẩm, Tổng
cục Thống kê cũng như các Cục Thống kê đã sản xuất các đĩa CD-ROM về
niên giám, kết quả các cuộc tổng điều tra, điều tra của cả nước và của các
địa phương. Đã có nhiều số liệu được đưa lên mạng intranet để sử dụng.
2. Hiện trạng việc thu thập số liệu và việc quản lý CSDL vi mô của một
số cuộc điều tra tại ngành Thống kê
Nguồn số liệu:
Thông tin thống kê định kỳ: tháng, quí, năm tổng hợp từ hệ thống
báo cáo thống kê. Tại TCTK, các thông tin này được tổng hợp từ hệ thống
báo cáo thống kê của các Cục Thống kê tỉnh/thành phố và báo cáo thống kê
thu thập được từ các Bộ, ngành
Thông tin tổng hợp, phân tích, dự báo từ các cuộc điều tra thống kê hoặc từ
một số hệ cơ sở dữ liệu vi mô của một vài ngành khác (số liệu thuế của Bộ
Tài chính, số liệu xuất nhập khẩu của Hải quan…).
a. Số liệu tổng điều tra dân số và nhà ở 1999
Tổng điều tra Dân số và nhà ở (TĐTDS&NƠ) 1-4-1999 thu thập số
liệu của gần 17 triệu hộ với trên 76 triệu nhân khẩu. Phiếu điều tra gồm 26
câu hỏi cho phiếu dài (điều tra mẫu) và 18 câu hỏi cho phiếu ngắn (điều tra
toàn bộ).
Việc xử lý số liệu được thực hiện trên các hệ thống máy tính PC nối
mạng nội bộ. Chương trình nhập, kiểm tra và sửa dữ liệu được phát triển
bằng phần mềm ISSA, chương trình hiệu đính và tổng hợp phát triển trong
phần mềm IMPS (CONCOR và CENTS). Các chương trình này được tích

9
hợp chung trong một hệ thống thống nhất quản lý toàn bộ luồng dữ liệu,
công việc, người dùng. Dữ liệu vi mô là các tệp ký tự ASCII với nhiều loại
bản ghi trong cùng một tệp. Hiện tại các tệp dữ liệu này vẫn được tiếp tục
lưu giữ và sử dụng để tổng hợp các biểu, chỉ tiêu đặc biệt khi có các yêu

cầu đột xuất của ngành. Dung lượng tệp dữ liệu vi mô dạng ký tự ASCII
của điều tra mẫu 3% là 162 MB, còn điều tra toàn bộ là 4860 MB.
Sau khi hoàn thành việc xử lý tổng hợp, dữ liệu vi mô được ghi trên
các đĩa CD-ROM kèm theo các công cụ khai thác, chuyển đổi, tổng hợp.
Có nhiều loại đĩa CD-ROM đã được phát hành: đĩa của phần điều tra mẫu
3% chung toàn quốc, đĩa 100% theo từng tỉnh (mỗi tỉnh một đĩa riêng)
phục vụ cho việc cung cấp số liệu cho các người dùng trong và ngoài
ngành. Dữ liệu vi mô trên các đĩa CD-ROM này là các dạng tệp ký tự
ASCII nhưng có kèm theo công cụ cho phép chuyển đổi sang SPSS,
ACCESS và dạng tệp ký tự phẳng (tách riêng các loại bản ghi khác nhau)
và tùy chọn khuôn thức theo yêu cầu của người dùng để thuận tiện cho việc
chuyển đổi vào các môi trường / phần mềm khác.
Dữ liệu vi mô toàn quốc cũng được chuyển đổi và quản lý trong cơ
sở dữ liệu mô hình quan hệ trong hệ quản trị CSDL SQL Server, gồm một
CSDL vi mô mẫu 3% và một CSDL vi mô toàn bộ 100%. Cơ sở dữ liệu
bao gồm dữ liệu và siêu dữ liệu về cấu trúc, tên biến, các danh mục liên
quan cùng với những hướng dẫn về việc chiết xuất, khai thác dữ liệu.
CSDL hiện đang lưu giữ tại Trung tâm tích hợp dữ liệu TCTK và cho phép
truy cập trong mạng nội bộ của TCTK.
Kết quả tổng hợp kết quả TĐTDS&NƠ 1999 cũng hai hệ thống: 1)
hệ thống gồm 21 biểu của điều tra mẫu tổng hợp cho các cấp toàn quốc,
vùng và tỉnh; và 2) hệ thống biểu cho điều tra toàn bộ gồm 56 biểu tổng
hợp cho các cấp toàn quốc, vùng, tỉnh, huyện, xã. Các hệ thống biểu tổng
hợp cũng đã được xây dựng thành các cơ sở dữ liệu vĩ mô thiết kế trong

10
môi trường SQL Server. Công cụ khai thác, tìm kiếm dữ liệu là ứng dựng
Windows.
Các hệ thống biểu tổng hợp này cũng được xây dựng thành các đĩa
CD-ROM để cung cấp cho những người sử dụng khác nhau: đĩa CD-ROM

kết quả toàn diện cho cấp toàn quốc, đĩa số liệu và kết quả mẫu cấp toàn
quốc và các đĩa CD-ROM cấp tỉnh (chung cả dữ liệu vi mô và vĩ mô), đĩa
CD-ROM với hệ thống thông tin địa địa lý (GIS) với bản đồ và các thông
tin tổng hợp đến cấp huyện. Trên các đĩa CD-ROM này có cả các siêu dữ
liệu tham chiếu (reference metadata) như: các tài liệu, văn bản liên quan
đến cuộc tổng điều tra, mẫu phiếu điều tra, sổ tay hướng dẫn điều tra, báo
cáo phân tích,…
Danh sách các đầu biểu tổng hợp trong TĐTDS 1999:
STT
Tên biểu
1
Dân số chia theo giới tính và đơn vị hành chính
2
Dân số chia theo loại quan hệ với chủ hộ và đơn vị hành chính
3
Số hộ chia theo số người trong hộ và đơn vị hành chính
4
Dân số chia theo độ tuổi và giới tính
5
Dân số chia theo nhóm tuổi và giới tính
6
Dân số chia theo dân tộc và giới tính
7
Dân số chia theo dân tộc, nhóm tuổi và giới tính
8
Dân số chia theo tôn giáo và giới tính
9
Dân số từ 5 tuổi trở lên chia theo nơi thực tế thường trú tại 31/03/1994 và
31/03/1999 và giới tính


11
10
Dân số từ 5 tuổi trở lên của Thành phố chia theo nơi thực tế thường
trú(TTTT) tại 31/03/94 và 31/03/99 và giới tính
11
Dân số từ 5 tuổi trở lên chia theo nơi thực tế thường trú cách đây 5 năm
(tại 31/03/94), nhóm tuổi và giới tính
12
Luồng di cư nông thôn thành thị chia theo nhóm tuổi và giới tính
13
Dân số từ 13 tuổi trở lên chia theo TTHN, nhóm tuổi và giới tính
14
Dân số từ 13 tuổi trở lên chia theo TTHN, nhóm tuổi, giới tính và dân tộc
15
Dân số từ 13 tuổi trở lên chia theo TTHN, nhóm tuổi, giới tính và tôn giáo
16
Dân số từ 10 tuổi trở lên chia theo tình trạng biết đọc-biết viết, nhóm tuổi
và giới tính
17
Dân số từ 5 tuổi trở lên chia theo nhóm tuổi, giới tính và tình trạng đi học
hiện nay
18
Dân số từ 5 tuổi trở lên chia theo tình trạng đi học hiện nay, giới tính và
dân tộc
19
Dân số từ 5 tuổi trở lên chia theo tình trạng đi học hiện nay, giới tính và
tôn giáo
20
Dân số từ 5 tuổi trở lên chia theo trình độ học vấn, nhóm tuổi và giới tính
21

Dân số từ 5 tuổi trở lên chia theo trình độ học vấn, nhóm tuổi và giới tính
22
Dân số từ 5 tuổi trở lên chia theo đơn vị hành chính, trình độ học vấn và
giới tính
23
Dân số từ 5 tuổi trở lên chia theo dân tộc, giới tính và trình độ học vấn

12
24
Dân số từ 5 tuổi trở lên chia theo tôn giáo, giới tính và trình độ học vấn
25
Dân số từ 13 tuổi trở lên làm việc trong 12 tháng qua chia theo trình độ
học vấn, giới tính và nghề nghiệp
26
Dân số từ 13 tuổi trở lên chia theo trình độ học vấn, giới tính và loại hoạt
động
27
Dân số từ 13 tuổi trở lên chia theo loại hoạt động, nhóm tuổi và giới tính
28
Dân số từ 13 tuổi trở lên chia theo loại hoạt động, dân tộc, tôn giáo và giới
tính
29
Dân số trong độ tuổi lao động chia theo đơn vị hành chính loại hoạt động
và giới tính
30
Dân số từ 13 tuổi trở lên làm việc trong 12 tháng qua chia ngành kinh tế
quốc dân, giới tính và thành phần kinh tế
31
Dân số từ 13 tuổi trở lên làm việc trong 12 tháng qua chia ngành kinh tế
quốc dân và giới tính

32
Dân số từ 13 tuổi trở lên làm việc trong 12 tháng qua chia thành phần kinh
tế, nhóm tuổi và giới tính
33
Dân số từ 13 tuổi trở lên chia theo nhóm tuổi, giới tính và cấp TĐCMKT
34
Dân số từ 13 tuổi trở lên chia theo đơn vị hành chính, giới tính và cấp
TĐCMKT
35
Dân số từ 13 tuổi trở lên chia theo dân tộc, giới tính và cấp TĐCMKT
36
Dân số từ 13 tuổi trở lên chia theo tôn giáo, giới tính và cấp TĐCMKT
37
Dân số từ 13 tuổi trở lên chia theo loại hoạt động, giới tính và cấp

13
TĐCMKT
38
Dân số từ 13 tuổi trở lên làm việc trong 12 tháng qua chia theo nghề
nghiệp, giới tính và cấp TĐCMKT
39
Dân số từ 13 tuổi trở lên có việc làm thường xuyên trong 12 tháng qua
chia theo thành phần kinh tế, giới tính và cấp TĐCMKT
40
Dân số từ 13 tuổi trở lên có việc làm thường xuyên trong 12 tháng qua
chia theo ngành kinh tế quốc dân, giới tính và cấp TĐCMKT
41
Số công nhân kỹ thuật & nhân viên nghiệp vụ có bằng/chứng chỉ và có
việc làm thường xuyên trong 12 tháng qua chia theo ngành kinh tế quốc
dân và giới tính

42
Số hộ chia theo tình trạng nhà ở, loại nhà đang ở và đơn vị hành chính
43
Số hộ có nhà ở thuộc loại nhà kiên cố, bán kiên cố, khung gỗ chia theo loại
nhà và hình thức sở hữu
44
Số hộ có nhà ở thuộc loại nhà kiên cố, bán kiên cố, khung gỗ chia theo loại
nhà và diện tích ở
45
Số hộ có nhà ở chia theo thời gian xây dựng, loại nhà, hình thức sở hữu,
diện tích ở và tiện nghi sử dụng
46
Số hộ có nhà ở chia theo trình độ chuyên môn kỹ thuật của chủ hộ, loại
nhà, hình thức sở hữu, diện tích ở và tiện nghi sử dụng
47
Số hộ có nhà ở chia theo nghề nghiệp của chủ hộ, loại nhà, hình thức sở
hữu, diện tích ở và tiện nghi sử dụng
48
Số hộ có nhà ở chia theo thành phần kinh tế của chủ hộ, loại nhà, hình
thức sở hữu, diện tích ở và tiện nghi sử dụng

14
49
Số hộ có nhà ở thuộc loại nhà kiên cố, bán kiên cố, khung gỗ chia theo
diện tích ở bình quân đầu người và nghề nghiệp của chủ hộ
50
Dân số chia theo nơi có mặt vào đêm 31/03/1999 và giới tính
51
Số người có mặt ở ngoài tỉnh vào đêm 31/03/1999 chia theo tỉnh/thành phố
nơi họ có mặt và giới tính

52
Số người có mặt ở ngoài tỉnh vào đêm 31/03/1999 chia theo nhóm tuổi,
giới tính và tỉnh/thành phố nơi thường trú
53
Số công nhân kỹ thuật & nhân viên nghiệp vụ có bằng/chứng chỉ và có
việc làm thường xuyên trong 12 tháng qua chia theo nhóm tuổi, thành
phần kinh tế và giới tính
54
Số người có bằng trung học chuyên nghiệp có việc làm thường xuyên
trong 12 tháng qua chia theo ngành kinh tế quốc dân và giới tính
55
Dân số chia theo tỉnh nơi có mặt vào đêm điều tra 31/03/1999 và giới tính
56
Số người có bằng trung học chuyên nghiệp có việc làm thường xuyên
trong 12 tháng qua chia theo ngành/nghề đào tạo và giới tính
Các biểu tổng hợp cho điều tra mẫu 3% có nội dung tương tự, ngoài ra có
một số biểu liên quan đến sinh, chết như:
- Các tỷ suất sinh, chết, tăng tự nhiên dân số
- Tỷ lệ giới tính khi sinh và tỷ suất sinh đặc trưng
Tóm lại, với dữ liệu TĐTDS&NƠ 1999, có thể lựa chọn một trong những
nguồn / hệ thống dưới đây để chuyển vào kho dữ liệu:
 Dữ liệu vi mô:
 Các tệp dữ liệu ký tự ASCII lưu giữa tại Trung tâm Tin học
Thông kê,

15
 Bộ đĩa CD-ROM: đĩa 3% toàn quốc và đĩa CD-ROM các tỉnh,
 CSDL vi mô SQL Server.
 Dữ liệu kết quả vĩ mô:
 Các đĩa CD-ROM có chứa các biểu tổng hợp

 CSDL kết quả vĩ mô
b. Số liệu TĐT nông thôn nông nghiệp và thủy sản năm 2001
TĐTNTNN&TS có thể coi là một nguồn dữ liệu phong phú và chi tiết cho
thống kê xã hội với những thông tin về cơ sở hạ tầng kinh tế xã hội khu vực
nông thôn, điều kiện môi trường sống, mức sống, lao động nông nghiệp.
Dữ liệu vi mô và vĩ mô của hai cuộc TĐTNTNN&TS các năm 2001 và
2006 được lưu giữ đầy đủ với nhiều dạng khuôn mẫu, vật lưu tin khác
nhau.
Dữ liệu TĐTNTNN&TS năm 2001 hiện có các dang lưu giữ sau:
 Các tệp dữ liệu vi mô ngay sau nhập tin, hiệu chỉnh dạng FoxPro của
tất cả các loại phiếu điều tra;
 Đĩa CD-ROM dữ liệu vi mô phiếu “Cơ sở hạ tầng xã” toàn quốc
dạng tệp ký tự ASCII có kèm theo công cụ chuyển đổi sang các dạng
phổ biến khác như ACCESS, tệp phẳng;
 Đĩa CD-ROM kết quả tổng hợp gồm hệ thống các biểu tổng hợp các
cấp;
 Đĩa CD-ROM cấp tỉnh (mỗi tỉnh một đĩa) dữ liệu và kết quả
TĐTNTNN&TS có chứa dữ liệu vi mô của hai loại phiếu điều tra:
phiếu hộ và phiếu xã có thể chuyển đổi dang các khuôn dạng khác,
hệ biểu tống hợp kết quả của tỉnh;
 CSDL dạng SQL Server toàn quốc lưu giữ dữ liệu vi mô của hai loại
phiếu điều tra hộ và xã.

16
Dữ liệu TĐTNTNN&TS năm 2006 cũng được lưu giữ, phân phát dưới
các dạng tương tự như năm 2001 như; các tệp dữ liệu gốc FoxPro, các tệp
dữ liệu ký tự ASCII, các loại đĩa CD-ROM dữ liệu và kết quả, CSDL dạng
SQL Server quản lý tại TTTHDL TCTK. Khác biệt chính giữa dữ liệu của
hai cuộc tổng điều tra này là: nếu năm 2001 các sản phẩm CD-ROM và
CSDL vi mô chỉ được phát triển cho hai loại phiếu hộ và xã thì năm 2006,

dữ liệu vi mô của tất cả các loại phiếu điều tra đều được xây dựng CSDL
SQL Server và đĩa CD-ROM. Ngoài ra trong TĐTNTNN&TS năm 2006,
công cụ khai thác dữ liệu trong môi trường web còn được phát triển tạo
điều kiện thuận tiện cho người dùng tạo lập các thống kê từ nguồn dữ liệu
này.
c. Số liệu TĐT cơ sở kinh tế-hành chính sự nghiệp năm 2002
Cuộc Tổng điều tra các cơ sở kinh tế, hành chính, sự nghiệp 2002 đã
được Tổng cục Thống kê tiến hành trên phạm vi cả nước. Đối tượng của
Tổng điều tra là toàn bộ các cơ sở đang hoạt động tại thời điểm 1/7/2002 ở
cả hai lĩnh vực: sản xuất kinh doanh và hành chính sự nghiệp. Kết quả điều
tra có 10.793.376 lao động làm việc trong 2.880.004 cơ sở.
Dữ liệu tổng điều tra cơ sở kinh tế-hành chính sự nghiệp năm 2002 hiện
có các dạng lưu giữ sau:
 Các tệp dữ liệu vi mô ngay sau nhập tin, hiệu chỉnh dạng FoxPro của
tất cả các loại phiếu điều tra;
 Đĩa CD-ROM dữ liệu vi mô toàn quốc dạng tệp ký tự ASCII có kèm
theo công cụ chuyển đổi sang các dạng phổ biến khác như ACCESS,
tệp phẳng;
 Đĩa CD-ROM kết quả tổng hợp gồm hệ thống các biểu tổng hợp các
cấp;

17
 Đĩa CD-ROM cấp tỉnh (mỗi tỉnh một đĩa) dữ liệu và kết quả có chứa
dữ liệu vi mô của các loại phiếu điều tra, có thể chuyển đổi sang các
khuôn dạng khác, hệ biểu tống hợp kết quả của tỉnh;
 CSDL dạng SQL Server lưu giữ dữ liệu vi mô toàn quốc.
d. Số liệu điều tra biến động dân số hàng năm
Trước năm 1999, trong một số năm, các chỉ tiêu biến dân số dân số
và kế hoạch hóa gia đình được tính toán dựa trên điều tra nhiều vòng.
Nguyên tắc của điều tra này là giữ cố định dàn mẫu với các địa bàn điều

tra, mã số hộ không thay đổi. Vòng cơ bản điều tra đầy đủ các chỉ tiêu
thuộc phạm vi, các vòng tiếp theo thực hiện ba tháng một lần, vẫn sử dụng
phiếu cũ và thu thập tiếp các thông tin cấp nhật: thay đổi tình trạng hôn
nhân, mang thai, sinh chết, di chuyển đi và đến, sử dụng / ngừng sử dụng
các biện pháp tránh thai. Hệ thống được phát triển với cơ sở dữ liệu
FoxPro. Tuy nhiên dữ liệu trước đây lưu giữ trên các đĩa mềm hiện tại cũng
ít có khả năng sử dụng được.
Từ năm 2000, điều tra dân số nhiều vòng được chuyển thành điều tra
Biến động dân số thực hiện vào 1-4 hàng năm. Đây là điều tra có cỡ mẫu
khá lớn, khoảng 400 nghìn hộ với trên 1,6 triệu dân số (năm 2007 là 402
nghìn hộ, 1,63 triệu dân số, năm 2008 là trên 378 nghìn hộ với 1,47 trệu
dân số). Thiết kế phiếu và các câu hỏi có sự thay đổi nhất định theo từng
năm. Những số liệu thu thập chủ yếu về giới tính, tuổi, hình hình đi học,
trình độ văn hóa và chuyên môn kỹ thuật, hôn nhân, di cư, hoạt động kinh
tế, sinh, chết, kế hoạch hóa gia đình, nạo phá thai. Một vài năm điều tra này
được kết hợp cùng với điều tra về lao động việc làm với mức độ khác nhau
như các năm 2006 và 2008.
Các chương trình nhập tin và kiểm tra, hiệu đính số liệu được thiết
kế bằng phần mềm ISSA (năm 2000 và 2001) và sau đó chuyển sang phần
mềm CSPro, còn phần mềm IMPS (CENTS) được sử dụng để lập trình tính
toán các biểu tổng hợp. Dữ liệu vi mô là các tệp ký tự ASCII “không

18
phẳng”, nghĩa là một tệp dữ liệu chứa tất cả các loại bản ghi (tương tự như
cấu trúc của dữ liệu vi mô TĐTDS 1989), được lưu trữ theo từng năm, mỗi
năm một tệp gồm nhiều loại bản ghi. Dung lượng dữ liệu mỗi năm trên
dưới 100 MB. Loại dữ liệu vẫn lưu trữ tại TTTH Thống kê và tiếp tục phục
vụ cho các nhu cầu lập biểu tổng hợp đặc biệt khi có yêu cầu phát sinh.
Hàng năm, sau khi xử lý xong điều tra BĐDS&KHHGĐ, dữ liệu vi
mô đều được chuyển đổi sang dạng SPSS và gửi đến Vụ TK DSLD và các

CTK tỉnh, thành phố. Số liệu vĩ mô với các biểu tổng hợp các cấp dưới
dạng EXCEL cũng được lưu giữ tại TTTHTK đồng thời gửi cho Vụ TK DS
LĐ và các CTK. Loại dữ liệu này đáp ứng được yêu cầu kiểm tra số liệu
và kết quả, tổng hợp, phân tích theo các nhu cầu đặc biệt của các cán bộ
thống kê tại Vụ DS-LĐ và các Cục.
Ngoài các dạng dữ liệu trên, riêng các năm 2005 và 2006, số liệu vi
mô và vĩ mô điều tra BĐDS&KHHGĐ còn được thiết kế trong CSDL mô
hình quan hệ (SQL Server). Ngoài các dữ liệu vi mô và các biểu kết quả
tổng hợp, CSDL bao gồm cả siêu dữ liệu như: mô tả dữ liệu, cấu trúc dữ
liệu, sơ đồ quan hệ, tất cả các danh mục, phân loại, các siêu dữ liệu tham
chiếu (tài liệu liên quan: sổ tay điều tra viên, phương án, mẫu phiếu,…).
Các công cụ khai thác dữ liệu hướng người sử dụng cũng được thiết kế
dưới dạng khai thác trong giao diện Web cung cấp các chức năng tìm kiếm
dữ liệu, trích xuất dữ liệu sang các dạng khác nhau, lập biểu phân tổ tần
xuất, lập bảng tổng hợp chéo tuỳ chọn (cross-tabulation), các thuộc tính áp
dụng hệ số gia quyền/suy rộng hoặc không gia quyền, v.v… Đây có thể coi
như những thử nghiệm tốt để xây dựng các CSDL tích hợp chung phục vụ
nhu cầu khai thác của người dùng tin trên bước đường đi tới xây dựng kho
dữ liệu của TCTK.
Sơ đồ quan hệ các bảng dữ liệu vi mô

19


e. Số liệu điều tra khảo sát mức sống hộ gia đình
Trong những năm 1990, TCTK có một số điều tra Đa mục tiêu có thể
coi như tiền thân của các điều tra KSMSHGĐ hiện nay. Theo từng năm,
phụ thuộc vào phần mềm được chọn để xử lý mà dữ liệu vi mô được lưu
giữ dưới dạng tệp ký tự ASCII, FoxPro hay Stata.
Từ năm 2002, TCTK tiến hành điều tra KSMSHGĐ hai năm một

lần. Đây là một điều tra có cỡ mẫu không lớn, khoảng 46000 hộ mỗi năm
nhưng có lượng câu hỏi rất lớn và phức tạp và do đó cấu trúc dữ liệu vi mô
cũng cực kỳ phức tạp.
Các điều tra 2002 được xử lý bằng phần mềm FoxPro và do vậy, dữ
liệu vi mô cũng dưới dạng CSDL FoxPro. Từ năm 2004 (2004, 2006 và
2008) phần mềm xử lý được chọn là CSPro và dữ liệu là các tệp ký tự

20
ASCII. Các tệp ASCII này là tệp ký tự “không phẳng”, có cấu trúc gồm rất
nhiều bản ghi khác nhau. Ví dụ: năm 2006 có 5 loại phiếu điều tra: phiếu
phỏng vấn hộ Thu nhập và chi tiêu, phiếu phỏng vấn hộ Thu nhập, phiếu
Xã, phiếu trường hoc và phiếu Trạm Y tế. Chỉ riêng phiếu phỏng vấn hộ
Thu nhập và chi tiêu thì tệp dữ liệu ban đầu (tệp dữ liệu nhập tin gốc) đã có
tới 76 loại bản ghi với tổng số biến lên tới 1186 biến (câu). Dung lượng dữ
liệu vi mô mỗi năm khoảng trên 300 MB.
Dữ liệu vi mô của mỗi điều tra đều được chuyển đổi dưới dạng Stata
phục vụ cho việc kiểm tra, tổng hợp chi tiết của vụ TK XHMT và các CTK.
Các biểu tổng hợp các cấp dưới dạng EXCEL cũng được cung cấp cho
những người dùng khác nhau và lưu giữ tại TTTHTK và vụ TK XHMT.
f. Số liệu điều tra Doanh nghiệp:
Đây là điều tra mà TCTK tiến hành hàng năm, số liệu của cuộc điều tra
được rất nhiều tổ chức và cá nhân quan tâm. Số liệu vi mô của điều tra này
được lưu giữ dưới các dạng sau:
 Các tệp dữ liệu vi mô ngay sau nhập tin, hiệu chỉnh dạng FoxPro của
tất cả các loại phiếu điều tra;
 Đĩa CD-ROM dữ liệu vi mô toàn quốc dạng tệp ký tự ASCII có kèm
theo công cụ chuyển đổi sang các dạng phổ biến khác như ACCESS,
tệp phẳng;
 Đĩa CD-ROM kết quả tổng hợp gồm hệ thống các biểu tổng hợp các
cấp;

 CSDL dạng SQL Server lưu giữ dữ liệu vi mô toàn quốc.
3. Đánh giá hiện trạng
a. Hạ tầng công nghệ thông tin
Cơ sở hạ tầng công nghệ thông tin tiếp tục được tăng cường cho các
đơn vị tại Tổng cục, Trung tâm tin học Thống kê, các Cục Thống kê và
Phòng Thống kê cấp huyện, các trường đào tạo thông qua các nguồn lực

21
trong nước và quốc tế; tăng cường máy chủ, lắp đặt mạng nội bộ cho một
số Cục Thống kê, bổ sung máy tính cho cấp huyện.
Tuy nhiên, công tác ứng dụng công nghệ thông tin vào hoạt động
thống kê vẫn còn nhiều hạn chế cần khắc phục. Trong toàn ngành còn
thiếu một chiến lược, kế hoạch tổng thể về ứng dụng và phát triển công
nghệ thông tin có tính khả thi. Việc tin học hoá công tác thống kê ở một
số chuyên ngành còn chậm. Thực hiện quy chế đưa thông tin lên mạng
chưa tốt, việc cập nhật thông tin mới và các văn bản mới của ngành vẫn
còn chậm, nhiều thông tin cũ chưa được thay thế kịp thời. Trình độ sử
dụng máy tính giữa các đơn vị không đồng đều. Về mặt tổ chức, ở Tổng
cục vừa mới thành lập đơn vị quản lý nhà nước về công nghệ thông tin
trong ngành thuộc Vụ Phương pháp Chế độ Thống kê, chịu trách nhiệm
xây dựng kế hoạch, thực hiện chức năng điều phối, chỉ đạo trong toàn
ngành; bộ phận chuyên trách làm nhiệm vụ biên tập thông tin của trang
WEB thống kê cũng mới được giao cho Trung tâm Tư liệu Thống kê.
Nhiều địa phương đã hình thành phòng Phương pháp chế độ và công nghệ
thông tin nhưng chưa rõ chức năng nhiệm vụ và thiếu cán bộ nòng cốt về
công nghệ thông tin nên việc ứng dụng ở đơn vị bị hạn chế. Tổ chức đào
tạo nâng cao trình độ sử dụng máy tính của cán bộ công chức trong ngành
chưa được thường xuyên.
Cơ sở vật chất kỹ thuật nói chung còn thiếu thốn chưa đủ đáp ứng yêu
cầu của công tác thống kê. Kinh phí cho công tác thống kê nói chung ở

mức rất hạn chế, nhất là kinh phí điều tra và duy trì hoạt động của công
nghệ thông tin. Hệ thống cơ sở hạ tầng về công nghệ thông tin nói chung
chưa đồng bộ và chưa đủ để đáp ứng yêu cầu về tác nghiệp công tác thống
kê. Nhiều chỉ tiêu thống kê, biểu mẫu báo cáo, điều tra chưa được chuẩn
hoá đã hạn chế tin học hoá công tác thống kê.
Chất lượng truyền thông qua modem và đường điện thoại không thể
đáp ứng được nhu cầu xử lý, lưu trữ và cung cấp thông tin thống kê. Hiện

22
nay máy tính ở các Cục Thống kê, Phòng Thống kê cấp huyện cấu hình kỹ
thuật thấp nên không triển khai được các ứng dụng khi cài đặt đòi hỏi cấu
hình máy và hệ điều hành mạnh.
b. Xây dựng và quản lý các CSDL
Đối tượng sử dụng dữ liệu vi mô các điều tra này là các vụ nghiệp vụ thuộc
thống kê xã hội hoặc một số tổ chức, cá nhân tiến hành các nghiên cứu sâu.
Công cụ để tiến hành phân tích sâu hoặc tạo lập những biểu tổng hợp,
thống kê đặc biệt là những phần mềm phân tích thống kê như SPSS, Stata,
SAS. Do vậy cách lưu trữ và cung cấp số liệu vi mô dạng này nói chung
đáp ứng yêu cầu thực tế của người sử dụng.

Các hệ thống tác nghiệp hiện tại đang đáp ứng tốt các yêu cầu nghiệp
vụ đặt ra đối với ngành, tuy nhiên nhiều hệ thống đang xây dựng nghiệp vụ
còn chồng chéo, các hệ thống còn rời rạc chưa có sự tích hợp thông tin. Các
dữ liệu còn phân tán, không tập trung, nếu có tập trung dữ liệu tại trung
ương phần lớn là các số liệu tổng hợp, rất ít các số liệu chi tiết.
Các CSDL đã xây dựng nói trên, về mặt thiết kế cơ bản đã đáp ứng
được lưu trữ và khai thác thông tin đặt ra, tuy nhiên đến nay khi đưa vào
vận hành còn một số tồn tại sau:
 Các CSDL xây dựng vẫn mang tính chất đơn lẻ, chưa được tích hợp.
Cần tích hợp để cung cấp các thông tin hiệu quả hơn.

 Số lượng người khai thác CSDL còn ít.
 Môi trường phục vụ khai thác chưa phong phú, vừa thiếu các công
cụ hỗ trợ cần thiết cho người khai thác lại ít cả về các hình thức phục
vụ.
 Các vấn đề về hỗ trợ và đảm bảo kỹ thuật cho vận hành, khai thác
cũng đang gặp một số trở ngại. Một số CSDL đưa vào khai thác rộng

23
rãi đang gặp một số lỗi nghiêm trọng (hệ thống không thể vận hành
khi có nhiều người truy cập khai thác) mà nguyên nhân của các lỗi
này có nhiều nguyên nhân, tuy nhiên qua khảo sát và phân tích sơ bộ
lỗi có thể do một số nguyên nhân có thể là do cấu hình trang thiết bị
chưa đáp ứng được yêu cầu khai thác hiện nay và do thiết kế, cấu
hình CSDL chưa phù hợp.

Kết luận và kiến nghị
Các số liệu hiện có tại Tổng cục Thống Kê được lưu trữ theo nhiều
dạng khác nhau: MS Word, MS Excel, Access, Foxpro, MS SQL, Stata,
SPSS Mỗi đơn vị có số liệu tự chịu trách nhiệm về số liệu của mình. Việc
quản lý và phân quyền truy nhập cơ sở dữ liệu hầu như chưa có. Việc cập
nhật và khai thác cơ sở dữ liệu chưa được phân định rõ ràng.
Các số liệu mà người dùng tin có thể khai thác qua trang WEB của
Tổng cục Thống Kê hầu hết được lưu trữ trên hệ quản trị cơ sở dữ liệu MS
SQL SERVER

Việc xây dựng và quản lý các cơ sở dữ liệu vi mô là một việc hết sức
quan trọng và cần thiết. Công việc này cần sự phối hợp chặt chẽ giữa
các bên cung cấp số liệu, quản lý số liệu và khai thác số liệu.
Chuẩn hoá nghiệp vụ
 Chính sách quản lý tại TCTK cần được áp dụng thống nhất trên toàn

quốc, mọi quy định cần được áp dụng đồng bộ, thống nhất trong
toàn bộ ngành.
 Việc chuẩn hóa các khuôn dạng, mẫu biểu của các loại báo cáo, cần
được nghiên cứu ngay khi bắt tay xây dựng hệ thống. Đây là một
công việc quan trọng cần có sự hợp tác giữa các cán bộ nghiệp vụ

24
và các cán bộ tin học.
Chuẩn hoá các bộ mã
 CSDL là nơi lưu trữ các sự kiện lịch sử, nhất thiết không bị thay đổi
trong quá trình phát triển hệ thống. Do vậy việc chuẩn hóa các bộ
mã và sử dụng thống nhất trong toàn bộ hệ thống phải được nghiên
cứu ngay từ khi bắt tay xây dựng hệ thống tác nghiệp. Khi thay đổi
bộ mã phải được áp dụng trong toàn ngành
 Tuy đến nay việc chuẩn hoá về cơ bản đã đạt được một kết qủa khả
quan, tuy nhiên vẫn chưa chuẩn hoà và áp dụng triệt để một số bộ
mã. Do đó cần tiếp tục hoàn thiện và chuẩn hoá các bộ mã trong
phần giải pháp về chất lượng dữ liệu đã nêu trên
Chuẩn hoá các định dạng dữ liệu thu thập
 Việc chuẩn hoá định dạng dữ liệu thu thập cho các CSDL sẽ làm
giảm công sức cho việc thu thập và tăng tính chính xác của dữ liệu
thu thập. Cần có quy chế nhằm thống nhất nội dung dữ liệu, khuôn
dạng dữ liệu cung cấp cho các CSDL.
Yếu tố về công nghệ, kỹ thuật
Hoàn thiện mạng tin học diện rộng trong ngành Thống kê nhằm kết
nối máy tính của các Phòng Thống kê huyện, quận với mạng máy tính của
Cục Thống kê tỉnh, thành phố trực thuộc trung ương và kết nối tất cả các
mạng máy tính của các Cục Thống kê tỉnh, thành phố với mạng máy tính
của Tổng cục Thống kê. Thực hiện việc trao đổi thông tin trong toàn
ngành Thống kê qua mạng.

Tăng cường năng lực công nghệ thông tin cho thống kê các Bộ, ngành.
Tiến hành kết nối mạng thông tin diện rộng của ngành Thống kê với các
Bộ, ngành nhằm thực hiện việc trao đổi thông tin thống kê qua mạng giữa
Tổng cục Thống kê và các Bộ, ngành.

25
Cần triển khai một cách đồng bộ giữa phần cứng, phần mềm, nghiệp
vụ và kỹ thuật. Phải lựa chọn thiết bị và phần mềm hệ thống cho các CSDL
đúng đắn, mang tính công nghệ cao và đáp ứng đúng yêu cầu của bài toán
CSDL. Phần mềm ứng dụng là yếu tố vô cùng quan trọng đảm bảo hệ
thống hoạt động có hiệu quả, cung cấp thông tin, dữ liệu được truyền, đảm
bảo dữ liệu đủ để khai thác dữ liệu.
Hạ tầng truyền thông: CSDL cung cấp thông tin rộng rãi trong toàn
ngành, do vậy để đảm bảo khai thác rộng rãi, hiệu quả thì hạ tầng truyền
thông có vai trò quan trọng.

Trong các năm tới, Trung tâm Tin học thống kê phối hợp với các
đơn vị thuộc Tổng cục Thống kê từng bước xây dựng và phát triển các cơ
sở dữ liệu thống kê chạy trong mạng LAN thuộc mạng GSOnet.
Khai thác các cơ sở dữ liệu này thông qua chương trình ứng dụng
viết trên ngôn ngữ lập trình, phần mềm phân tích thống kê (SPSS) hoặc
bảng tính Microsoft Excel thông qua OBDC.
Tại Trung tâm tích hợp dữ liệu Tổng cục Thống kê, Hệ quản trị CSDL
đang và sẽ tiếp tục được sử dụng trong những năm tiếp theo là Microsoft
SQL Server 2003 /2005. Đây là Hệ quản trị CSDL dựa trên công nghệ
Client/Server đảm bảo khả năng phục vụ nhiều người, nhiều ứng dụng cùng
truy nhập, khai thác dữ liệu.
Trên cơ sở chuẩn hoá các sản phẩm thống kê, các bảng phân tổ, danh
mục, các biểu mẫu báo cáo, điều tra, phát triển các phần mềm ứng dụng
chuyên dùng cho từng chuyên ngành thống kê nhằm tự động hoá các khâu

xử lý, tính toán, phân tích thống kê. Bảo đảm phục vụ hiệu quả việc xử lý
số liệu đầu vào của các cuộc điều tra và báo cáo thống kê. Tăng cường việc
truyền số liệu qua mạng. Nghiên cứu và phát triển các phần mềm chuyên
dùng cho các chế độ báo cáo và điều tra thống kê đã ban hành.

×