Đề tài khoa học: Nghiên cứu khai thác sử dụng một số phương pháp phân tích số liệu thống kê dựa trên phần mềm SPSS

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (355.44 KB, 17 trang )

ĐỀ TÀI KHOA HỌC
SỐ: 2.2.17-CS06
NGHIÊN CỨU KHAI THÁC SỬ DỤNG MỘT SỐ PHƢƠNG PHÁP
PHÂN TÍCH SỐ LIỆU THỐNG KÊ DỰA TRÊN PHẦN MỀM SPSS

1. Cấp đề tài

: Cơ sở

2. Thời gian nghiên cứu : 2006
3. Đơn vị chủ trì

: Viện Khoa học Thống kê

4. Đơn vị quản lý

: Viện Khoa học Thống kê

5. Chủ nhiệm đề tài

: KS. Lê Đỗ Mạch

6. Điểm đánh giá nghiệm thu đề tài: 9,05 / Xếp loại: Giỏi

272

I. MỘT SỐ VẤN ĐỀ CƠ BẢN VỀ SỬ DỤNG VÀ QUẢN LÝ DỮ LIỆU
TRONG SPSS
SPSS cho Windows là một phần mềm phân tích thống kê mạnh và là
một hệ thống quản lý dữ liệu trong môi trƣờng đồ họa, sử dụng các menu mô

tả và các hộp đối thoại đơn giản để vận hành hệ thống. Ngƣời sử dụng thực
hiện công việc quản lý, biến đổi dữ liệu, phân tích dữ liệu và vẽ đồ thị chỉ
đơn giản bằng trỏ và kích chuột, không phải lập trình. Quy trình thực hiện
phân tích dữ liệu trên SPSS gồm 4 bƣớc cơ bản:
Bƣớc 1. Đƣa dữ liệu vào SPSS. Để có thể phân tích, trƣớc hết cần phải
đƣa dữ liệu vào SPSS qua cửa sổ Data Editor. Lƣu ý là tại một thời điểm, chỉ
tồn tại một file dữ liệu duy nhất trong SPSS (thƣờng gọi là file đang làm việc
hay file đang hoạt động).
Bƣớc 2. Chọn một thủ tục. Chọn một thủ tục từ menu để tính toán các
thống kê hoặc tạo ra một đồ thị.
Bƣớc 3. Chọn các biến để phân tích. Các biến trong file dữ liệu đƣợc
hiện trong hộp đối thoại của thủ tục (phần danh sách nguồn). Chúng ta có thể
chọn các biến cần phân tích từ danh sách này. Lƣu ý là chỉ có các biến thích
hợp với thủ tục phân tích mới đƣợc hiện trong danh sách nguồn.
Bƣớc 4. Thực hiện thủ tục và xem kết quả. Khi đã chọn các biến phân
tích và các chọn lựa cần thiết trong hộp đối thoại, chúng ta có thể ra lệnh cho
thủ tục thực hiện (bấm OK). Kết quả thực hiện thủ tục sẽ đƣợc đƣa ra cửa sổ
Viewer. Từ đây có thể xem kết quả phân tích, kiểm tra tính đúng đắn, nếu kết
quả đạt yêu cầu thì dùng tính năng soạn thảo của bộ Viewer để trình bày kết
quả cho đẹp trƣớc khi in ra hoặc ghi lại để dùng về sau, hoặc chuyển sang các
phần mềm khác để tiếp tục sử dụng. Nếu kết quả chƣa đạt yêu cầu thì tiến
hành hiệu chỉnh dữ liệu và thực hiện lại.
Trong phần này nghiên cứu những đối tƣợng mà quy trình 4 bƣớc cần
phải sử dụng để hoàn tất công việc phân tích. Đó là:
1. Hệ thống cửa sổ của SPSS. Cửa sổ là các giao diện giúp ta trao đổi
thông tin giữa ngƣời và máy trong quá trình phân tích dữ liệu. Bao gồm Cửa
sổ soạn thảo dữ liệu Data Editor, cửa sổ xem kết quả Viewer, cửa sổ xem kết
quả văn bản Draft Viewer, cửa sổ hiệu chỉnh bảng xoay Pivot Table Editor,
cửa sổ hiệu chỉnh đồ thị Chart Editor, cửa sổ hiệu đính văn bản kết quả, cửa
sổ hiệu chỉnh cú pháp Text Output Editor Syntax, cửa sổ hiệu chỉnh các trình

nhỏ Editor Script Editor.
273

2. Hệ thống các Menu. Mỗi cửa sổ SPSS có một chức năng riêng, vì vậy
nó có hệ thống các menu riêng thích hợp cho loại cửa sổ đó. Riêng các menu
Analyze và Graph là sẵn có trên tất cả các cửa sổ để dễ dàng thực hiện các
thủ tục phân tích và vẽ các đồ thị mà không phải chuyển cửa sổ.
3. Hệ thống các công cụ. Trong một cửa sổ có một thanh công cụ bao
gồm một số thủ tục thƣờng sử dụng, thanh công cụ sẽ giúp ta chọn và truy
nhập các thủ tục này nhanh hơn.
4. Hộp đối thoại. Đa số các lựa chọn trong menu đều mở ra một hộp đối
thoại. Ta sử dụng hộp đối thoại để chọn các biến và các tùy chọn cho phân
tích. Mỗi hộp đối thoại thƣờng có một số thành phần cơ bản nhƣ sau: Danh
sách các biến nguồn, danh sách các biến đích và các nút điều khiển.
5. Cửa sổ soạn thảo dữ liệu Data Editor. Đó là nơi mà chúng ta sẽ đƣa
dữ liệu vào SPSS. Ta có thể đọc các loại file dữ liệu khác nhau vào SPSS: file
dữ liệu SPSS, file dữ liệu Excel, file dữ liệu Dbase, file dữ liệu văn bản, file
csdl, hoặc đƣa dữ liệu trực tiếp bằng tay.
6. Kết nối các file dữ liệu. Vì mỗi thời điểm trong SPSS chỉ có một file dữ
liệu làm việc (hoạt động), cho nên trƣớc lúc phân tích nếu số liệu cần dùng nằm
trên nhiều file khác nhau thì phải kết nối chúng về cùng một file để làm việc.
7. Cửa sổ kết quả tính toán và đồ thị (Viewer). Kết quả thực hiện của
các thủ tục và vẽ đồ thị đều đƣợc đƣa ra cửa sổ Viewer. Ta có thể sử dụng
cửa sổ Viewer để: xem và hiệu đính các kết quả, hiện hoặc giấu các bảng và
sơ đồ/đồ thị, thay đổi trình tự xuất hiện các kết quả, trao đổi kết quả giữa
SPSS và các ứng dụng khác.
II. PHÂN TÍCH SỐ LIỆU - THỐNG KÊ MÔ TẢ
1. Các thống kê mô tả cơ bản
Trong phần này sẽ trình bày các thủ tục tạo lập các bảng thống kê mô tả.

Đó là những thống kê vẫn thƣờng xuyên đƣợc sử dụng trong phân tích thống
kê. Những thống kê mô tả tóm tắt tập dữ liệu của một biến về:
- Quy mô, độ lớn nhƣ tổng số quan sát (N), tổng số giá trị (Sum), phần
trăm (%) giá trị đƣợc tính trên nhiều góc độ khác nhau.
- Sự tập trung và phân tán của dữ liệu: Trung bình (Mean), trung vị
(Median), Mod, phƣơng sai (Variance), độ lệch chuẩn (std. deviation), sai số
chuẩn của trung bình (std. error of mean), khoảng biến thiên (Range), giá trị
nhỏ nhất (Minimum), giá trị lớn nhất (Maximum)…
274

- Về hình dạng của một phân phối: độ lệch của phân phối (Skewness),
độ nhọn của phân phối (Kurtosis), các phân vị (Percentile)…
2. Kiểm tra nhận dạng những giá trị ngoại biên và hình dạng của một
phân phối
Trƣớc khi tiến hành bất kỳ một phân tích nào, bƣớc đầu tiên là cần phải
kiểm tra dữ liệu. Việc kiểm tra đƣợc tiến hành trên cả hai phƣơng diện: nhận
dạng những giá trị ngoại biên và những giá trị xấu làm sai lệch kết quả phân
tích; dạng phân phối của dữ liệu có phù hợp với một thủ tục phân tích hay
không, thí dụ nhƣ phân tích phƣơng sai đòi hỏi các tổng thể phải có phân
phối chuẩn và phƣơng sai bằng nhau. Qua kiểm tra ta có thể cân nhắc để loại
đi những giá trị xấu hoặc biến đổi dữ liệu để phân phối đỡ lệch hơn. Các thủ
tục thống kê mô tả có chức năng làm việc này.
3. Thủ tục lập bản phân tích tần số đơn biến (Frequencies)
Thủ tục Frequencies cho một mô tả chi tiết về dữ liệu, cung cấp các
thống kê và các đồ thị rất có ích cho việc mô tả dữ liệu của nhiều loại biến.
Đây là cái nhìn đầu tiên về dữ liệu qua đếm tần số của mỗi giá trị duy nhất và
chúng ta dễ dàng phát hiện ra các số liệu ngoại lai và xử lý trƣớc khi bắt đầu
phân tích số liệu.
4. Thủ tục lập bảng thống kê cơ bản trên các biến (Descriptives)

Thủ tục này tạo lập các thống kê mô tả cơ bản cho các biến trong một
bảng riêng và tính các giá trị chuẩn hóa (tỉ số z).
5. Thủ tục khám phá số liệu (Explore) trên các nhóm
Thủ tục Explore sản xuất ra các thống kê mô tả và các đồ thị hoặc cho
tất cả các quan sát hoặc riêng cho từng nhóm quan sát. Mục đích của sử dụng
thủ tục khám phá dữ liệu là để phát hiện ra sự ẩn dấu đằng sau của số liệu,
nhận dạng các giá trị ngoại biên, mô tả số liệu, kiểm tra các giả thiết và phân
biệt sự khác nhau giữa các nhóm.
6. Thủ tục lập bảng phân tích tần số song biến (Crosstabs)
Thủ tục Crosstabs tạo lập các bảng tần số hai chiều hay nhiều chiều mô
tả chi tiết về số liệu, cung cấp nhiều kiểm định khác nhau và các độ đo về
mỗi quan hệ của hai biến. Các thống kê và các độ đo về mối quan hệ chỉ đƣợc
tính cho bảng hai chiều. Thí dụ:
- Kiểm định tính độc lập của hai biến bằng thống kê Pearson - χ2
275

- Đo lƣờng cƣờng độ mối quan hệ của hai biến bằng các thống kê: hệ số
Phi, hệ số C ngẫu nhiên, hệ số V.
- Đo lƣờng sự giảm bớt sai lầm khi dự đoán bằng thống kê Lambda và τ.
- Cảnh báo nguy cơ của một hiện tƣợng bằng Tỷ số Odd và hệ số Cohort
trong bản 2*2.
- Đo lƣờng sự thống nhất ý kiến bằng hệ số Kppa.
-…
III. VẼ BIỂU ĐỒ VÀ ĐỒ THỊ
Các kết quả thống kê quan trọng nhất của một cuộc điều tra thƣờng
đƣợc trình bày thông qua các biểu đồ và đồ thị hấp dẫn. Các biểu đồ đƣợc
chuẩn bị kỹ lƣỡng có sức hấp dẫn hơn nhiều so với các bảng biểu và ngƣời
đọc dễ dàng hiểu đƣợc vấn đề. Tuy nhiên phải thấy rằng các biểu đồ chỉ trình
bày đƣợc một số lƣợng nhỏ dữ kiện, nếu chúng ta dựa vào quá nhiều sự kiện

biểu đồ trở nên mất tính hiệu quả. Mặt khác cũng thấy rằng biểu đồ chỉ đƣa ra
một cách tƣơng đối độ lớn các sự kiện. Các bảng biểu có thể đƣa ra các con
số chi tiết và chính xác đến từng dấu phẩy. Hơn nữa, đồ thị còn là phƣơng
pháp mô tả dữ liệu rất quan trọng trong quá trình xử lý và phân tích số liệu
thống kê.
Trong SPSS có nhiều loại đồ thị khác nhau, chất lƣợng đồ thị rất cao và
chất lƣợng xuất bản cũng cao. Một số đồ thị dùng vào việc mô tả và kiểm tra
sự phân bố của dữ liệu, kiểm tra các giá trị ngoại biên phục vụ cho quá trình
xử lý và phân tích nhƣ: đồ thị cành và lá, đồ thị hộp, đồ thị histogram, đồ thị
phân tán Scatter, ma trận đồ thị phân tán, đồ thị P-P, Q-Q không đƣợc trình
bày trong phần này. Chúng đƣợc giới thiệu trong các thủ tục mô tả và phân
tích dữ liệu.
Trong phần này chúng tôi chỉ giới thiệu một số biểu đồ thông dụng
thƣờng dùng để trình bày kết quả thống kê: Biểu đồ thanh (Bar), biểu đồ bánh
xe (Pie), đồ thị dây (Line).
IV. PHÂN TÍCH SỐ LIỆU - LẬP BẢNG TỔNG HỢP
Lập bảng tổng hợp số liệu và lập báo cáo thống kê là việc làm thƣờng
xuyên của cán bộ nghiệp vụ thống kê. Khả năng lập các bảng số liệu tổng
hợp, các báo cáo thống kê trong SPSS hết sức đa dạng và linh hoạt với nhiều
chiều phân tổ khác nhau và dễ dàng thực hiện không phải lập trình. Các bảng
276

tổng hợp, các báo cáo thống kê đƣợc trình bày đẹp và có chất lƣợng xuất bản
cao, có thể tiếp tục đƣợc hiệu chỉnh, in ra hoặc chuyển sang các tài liệu khác.
Đây quả là một ƣu điểm nổi bật của SPSS, vì ai cũng biết rằng để lập trình
tạo ra một biểu bảng nhƣ ý là một công việc hết sức tỉ mẩn và nặng nhọc.
Có thể nói kỹ thuật lập bảng tổng hợp số liệu trong SPSS đáp ứng đƣợc
hầu nhƣ tất cả các yêu cầu lập bảng tổng hợp số liệu thƣờng gặp trong thực
tế, có nội dung và kết cấu khác nhau. Tính linh hoạt trong khi lập bảng biểu

rất cao, có thể thêm bớt nội dung tổng hợp theo các chiều của biểu, có thể
chuyển đổi chiều dòng thành chiều cột và ngƣợc lại, có thể tạo các tổng nhóm
và các tổng toàn bộ và bố cục bảng sao cho sáng sủa và đẹp. Tại mỗi chiều
của bảng có thể sắp xếp không chỉ một tiêu thức mà có thể một vài tiêu thức
nối tiếp nhau hoặc phân tổ hoặc vừa nối tiếp vừa phân tổ. Lúc đó về mặt tin
học, ngƣời ta gọi các tiêu thức đứng độc lập so với các tiêu thức trƣớc đó (các
biến) là xếp chồng (stacked). Còn tiêu thức dùng làm phân tổ cho một tiêu
thức đứng ngay trƣớc đó đƣợc gọi là tiêu thức xếp lồng (nested). Do có
những kỹ thuật này mà ta có thể mở rộng thêm các chiều của biểu, chiều cột
và/hoặc chiều dòng, giúp ta tổng hợp các bảng biểu có cấu trúc phức tạp và
nội dung thông tin phong phú, đa dạng. Trong SPSS một bảng thƣờng có 3
chiều, chiều dòng, chiều cột và lớp.
Trong phần này chúng tôi giới thiệu một số kỹ thuật lập bảng thƣờng dùng
nhất để phân tích dữ liệu thống kê, chúng có thể đáp ứng hầu nhƣ mọi nhu cầu
lập bảng tổng hợp số liệu và lập báo cáo thống kê của ngƣời sử dụng. Mỗi kỹ
thuật có kèm theo thí dụ minh họa để nắm bắt phƣơng pháp và dễ áp dụng.
- Bảng tổng hợp cơ bản
- Bảng tổng hợp tổng quát
- Báo cáo tổng kết
- Báo cáo thống kê theo hàng
- Báo cáo thống kê theo cột
V. MỘT SỐ KIỂM ĐỊNH THƢỜNG DÙNG TRONG PHÂN TÍCH THỐNG KÊ
Trong phân tích thống kê mối quan hệ của các hiện tƣợng kinh tế xã hội,
ngƣời ta thƣờng sử dụng các kỹ thuật kiểm định số liệu để đƣa ra các quyết
định. Một số kiểm định về giá trị trung bình rất hay đƣợc sử dụng sẽ đƣợc
giới thiệu.
277

1. Phƣơng pháp chung để kiểm định số liệu thống kê bao gồm các bƣớc sau:

- Lập giả thuyết H0 và căn cứ vào yêu cầu thực tế lập giả thuyết đối H1;
- Chọn mức ý nghĩa α;
- Lấy một mẫu số liệu kích thƣớc N từ tổng thể nghiên cứu;
- Chọn tiêu chuẩn kiểm định G và xác định quy luật phân bố xác suất
của nó với điều kiện giả thuyết H0 đúng;
- Xác định giá trị lý thuyết của thống kê G: Gcrit;
- Căn cứ vào mẫu số liệu đã thu thập, tính toán giá trị quan sát của tiêu
chuẩn kiểm định G: Gqs;
- So sánh giá trị Gqs với Gcrit để rút ra kết luận.
2. Kiểm định số trung bình của một tổng thể
Ngƣời ta dùng phƣơng pháp kiểm định về số trung bình của một tổng
thể nhằm so sánh giá trị trung bình của tổng thể với một giá trị cụ thể. Tổng
thể đƣợc giả thiết có phân phối chuẩn N ( , 2 ) .
Thí dụ: Ta cho rằng làm một luận án tiến sỹ thƣờng mất 4 năm. Dựa trên
số liệu cuộc điều tra tiến sỹ năm 2000, hãy kiểm định xem có phải nhƣ vậy
không.
Kết quả kiểm định (T = - 5.681, P-value =.000), ta bác bỏ giả thuyết
không cho rằng thời gian làm một luận án tiến sỹ là 4 năm. Đây là một kiểm
định trái cho biết thời gian làm một luận án thực sự ít hơn 4 năm.
3. Kiểm định về sự khác nhau của hai số trung bình: Trƣờng hợp hai
mẫu độc lập
Mục đích của kiểm định về sự khác nhau của hai số trung bình nhằm so
sánh 2 giá trị trung bình của tổng thể. Giả sử hai tổng thể đều có phân phối
chuẩn N ( 1 , 12 ) và N ( 2 , 22 ) .
Thí dụ: Điều kiện để làm một luận án tiến sỹ trong nƣớc thƣờng khó
khăn về nhiều mặt so với ở nƣớc ngoài. Vì vậy thời gian để làm một luận án
có thể khác nhau. Dùng số liệu cuộc điều tra tiến sỹ năm 2000 kiểm định.
Kết quả (T = 3.915, P-value =.000), ta bác bỏ giả thuyết không cho rằng
thời gian làm một luận án tiến sỹ ở trong nƣớc và nƣớc ngoài là bằng nhau. Đây
là một kiểm định phải cho biết thời gian làm trong nƣớc là lâu hơn ngoài nƣớc.

278

4. Kiểm định về sự khác nhau của hai số trung bình: Trƣờng hợp hai
mẫu cặp nhau
Ta vẫn phải so sánh hai số trung bình, nhƣng trong trƣờng hợp hai mẫu
rút ra từ hai tổng thể lại phụ thuộc nhau trên từng cặp giá trị và cùng có kích
thƣớc N. Hai tổng thể đều có phân phối chuẩn N ( 1 , 12 ) và N ( 2 , 22 ) .
Thí dụ: Nhiều tiến sỹ cho rằng họ quá bận với công tác quản lý, thời
gian dành cho nghiên cứu không đƣợc nhiều. Vậy thời gian sử dụng cho
nghiên cứu có thực sự ít hơn cho quản lý hay không?
Thống kê T từ kiểm định (T = 8.420, P-value =.000) đã bác bỏ giả
thuyết không về sự bằng nhau của hai thời gian. Đây là một kiểm định phải
thời gian quản lý thực sự nhiều hơn thời gian nghiên cứu.
VI. PHÂN TÍCH PHƢƠNG SAI
Phân tích phƣơng sai là phƣơng pháp nghiên cứu sự biến động của một
tổng thể. Sự biến động của một tổng thể (total) bao gồm sự biến động giữa
các nhóm (between) và trong các nhóm (within) của nó. Trung bình của tổng
thể và trung bình của các nhóm là những thống kê dùng để nghiên cứu sự
biến động của tổng thể. Tác động của một nhân tố thể hiện trong so sánh sự
biến động giữa các nhóm do nhân tố gây ra với sự biến động trong các nhóm.
Mục đích so sánh là để thấy đƣợc sự biến động của tổng thể chủ yếu là do sự
khác biệt giữa các nhóm gây ra (đây là một phân loại tốt), hay là chỉ xảy ra
trong các nhóm (đó chỉ là sai số ngẫu nhiên). Với giả thiết không cho rằng
trung bình của các nhóm là bằng nhau, nếu sự biến động thực tế giữa các
nhóm vƣợt trội sự biến động trong các nhóm thì chúng ta sẽ nghi ngờ về giả
thiết không và có thể dẫn đến bác bỏ giả thiết này. Tỷ số F là một thống kê
giúp ta làm việc này.
1. Phân tích phƣơng sai một nhân tố
1.1. Mô hình phân tích

Ở Phần V, ta đã so sánh sự khác nhau của hai số trung bình. Trong phần
này thực hiện so sánh nhiều hơn 2 số trung bình. Giả sử tổng thể nghiên cứu
X đƣợc phân thành p tổng thể khác (Xi, i 1, p ) bởi một biến phân loại F, các
tổng thể này đều có phân phối chuẩn và có phƣơng sai bằng nhau N(μ i, σ2),
i 1, p , P do ngẫu nhiên độc lập đƣợc lấy ra từ p tổng thể này, kích thƣớc của
mẫu là Ni, i 1, p . Để kiểm định giải thuyết không về các giá trị trung bình
của tổng thể (các giá trị trung bình bằng nhau), tiêu chuẩn kiểm định là:
279

F =

Biến động giữa các nhóm

Biến động trong các nhóm
Phần tử số của tiêu chuẩn kiểm định đo lƣờng mức độ ảnh hƣởng của
nhân tố F đối với tổng thể. Phần mẫu số đo lƣờng sai số gây ra bởi các yếu tố
chƣa kiểm soát đƣợc đối với tổng thể.
Với mức ý nghĩa α, ta sẽ bác bỏ giả thuyết H0 khi F > Fα(p - 1, N – p)
(giá trị F lý thuyết).
1.2. Thí dụ: Ta muốn biết thời gian trung bình để làm một luận án tốt nghiệp
tiến sỹ (biến tg_hoc) tại 5 thời kỳ khác nhau (biến thoi_ky) của nƣớc ta có
khác khau hay không.
Sử dụng số liệu năm 2000 ta có kết quả (F = 4.008, P-value =.003) đã
bác bỏ giả thuyết không và cho rằng thời gian làm luận án ở 5 thời kỳ là khác
nhau. Vậy các thời kỳ nào là khác nhau và các số trung bình này có tạo thành
một dãy tuyến tính không. Hai vấn đề này cũng đã đƣợc chỉ ra trong đề tài.
2. Phân tích phƣơng sai hai nhân tố
2.1. Mô hình phân tích
Giả sử ta có biến X (tổng thể) phân phối chuẩn và hai nhân tố F và G

(các biến độc lập) cùng tác động lên tổng thể X (biến phụ thuộc). F và G là
các biến phân loại, F có p mức, G có q mức. Mọi sự kết hợp của hai biến F và
G phân tổng thể X thành pq nhóm hay pq tổng thể, các tổng thể này đều có
phân phối chuẩn và phƣơng sai bằng nhau. Pq mẫu độc lập đƣợc lấy ra từ các
tổng thể này, mỗi mẫu đƣợc lấy ra từ một tổng thể. Kích thƣớc mẫu đƣợc qui
định là bằng nhau và bằng m (mẫu cân bằng).
Ba giả thuyết cần kiểm định trong mô hình phân tích phương sai hai nhân tố:
- Không có ảnh hƣởng chính của nhân tố F;
- Không có ảnh hƣởng chính nào của nhân tố G;
- Không có ảnh hƣởng tƣơng tác của hai nhân tố F và G.
Ba thống kê kiểm định giả thuyết:
Biến động giữa các dòng (nhân tố F)
Frow =
Fcolumn =

280

Biến động trong các nhóm
Biến động giữa các cột (nhân tố G)
Biến động trong các nhóm

Finteration =

Tƣơng tác
Biến động trong các nhóm

So sánh các thống kê F tính đƣợc trên các mẫu (F quan sát) với F lý
thuyết, nếu F quan sát > F lý thuyết, ta bác bỏ giả thuyết tƣơng ứng, trƣờng
hợp ngƣợc lại chấp nhận giả thuyết không.

Thí dụ: Chủ hộ và vùng địa lý có ảnh hƣởng đến chi tiêu trung bình đầu
ngƣời của hộ gia đình hay không. Nguồn số liệu để phân tích lấy từ điều tra
mức sống năm 1998. Các biến của mô hình gồm: biến phụ thuộc, rlpcex1 chi
tiêu trung bình đầu ngƣời của hộ, các nhân tố: reg7 7 vùng địa lý, hhcat 10
chủ hộ.
Mô hình là có ý nghĩa thống kê (F = 21.766, P-value =.000) và đã giải
thích đƣợc 20% (R2 =.202) sự biến động của chi tiêu bình quân đầu ngƣời
trên cả nƣớc. Các tác động chính reg7 và hhcat và tƣơng tác reg7*hhcat đều
có ý nghĩa thống kê giúp ta kết luận: chủ hộ và vùng địa lý và tƣơng tác giữa
hai nhân tố này đều có ảnh hƣởng đến chi tiêu bình quân đầu ngƣời của hộ.
Thủ tục phân tích phƣơng sai trong SPSS rất đa dạng không những cho
mẫu cân bằng mà cho cả mẫu không cân bằng, không những chỉ có hai nhân
tố tác động mà còn cho phép nhiều nhân tố tác động, không những các nhân
tố tác động là biến phân loại mà còn có cả biến liên tục và tƣơng tác của nó
với biến phân loại. Một số thí dụ trong đề tài đã minh họa cho các vấn đề này.
VII. PHÂN TÍCH TƢƠNG QUAN VÀ HỒI QUY
A. Phân tích tƣơng quan
1. Hệ số tương quan Pearson
Hệ số tƣơng quan Pearson ký hiệu là r đo lƣờng cƣờng độ mối quan hệ
tuyến tính giữa hai biến định lƣợng. Hệ số tƣơng quan không có tính nhân quả.
Giá trị của hệ số tƣơng quan nằm trong khoảng - 1 ≤ r ≤ + 1. Nếu:
- r > 0: hai biến cố có mối quan hệ tƣơng quan cùng chiều;
- r < 0: hai biến cố có mối quan hệ tƣơng quan ngƣợc chiều;
- r = 0: hai biến không có mối quan hệ nào, r càng gần 0 thì mối quan hệ
giữa hai biến càng yếu;
- r = ±1: hai biến cố có mối quan hệ hàm số. Nói chung r càng gần 1
hoặc -1 thì mối quan hệ giữa hai biến càng mạnh.
281

Thí dụ: Tính ma trận hệ số tƣơng quan Pearson giữa các biến tuổi thọ
của chủ hộ age, số năm đi học của chủ hộ educyr98, chi tiêu bình quân đầu
ngƣời của hộ rlpcex1, số ngƣời trong hộ hhsize.
Mối tƣơng quan giữa rlpcex1 với age và educyr98, giữa hhsize và
educyr98 là cùng chiều. Trong đó mối quan hệ giữa rlpcex1 và educyr98 là
mạnh nhất (.293) cho biết khi số năm giáo dục của chủ hộ tăng lên thì chi tiêu
bình quân của hộ gia đình cũng tăng theo.
Mối tƣơng quan giữa rlpcex1 và hhsize, giữa hhsize và age, giữa age và
educyr98 là ngƣợc chiều. Trong đó mối quan hệ giữa educyr98 và age là
mạnh nhất (-.352) cho biết những chủ hộ trẻ thì có học vấn cao và ngƣợc lại
những chủ hộ tuổi cao có học vấn thấp.
2. Hệ số tương quan Spearman
Hệ số tƣơng quan Spearman ký hiệu là rho cũng đo lƣờng cƣờng độ mối
quan hệ tuyến tính giữa hai biến trên cơ sở sắp hạng giá trị của chúng. Hai
biến có thể là biến định lƣợng hoặc biến thứ tự tƣơng ứng. Hạng sắp theo giá
trị tăng dần của x.
Ví dụ: Tính hệ số tƣơng quan Spearman giữa chi tiêu phi lƣơng thực
thực phẩm bình quân đầu ngƣời của hộ nonfood và trình độ học vấn của chủ
hộ compled98. Thủ tục tính cũng tƣơng tự nhƣ trên, nhƣng thay vì đánh dấu
vào ô Pearson ta đánh dấu vào ô Spearman.
Mối tƣơng quan giữa hai biến là dƣơng có nghĩa là: khi trình độ học vấn
của chủ hộ tăng lên thì chi tiêu phi lƣơng thực thực phẩm bình quân đầu
ngƣời của hộ cũng tăng lên.
3. Hệ số tương quan cục bộ
Hệ số tƣơng quan cục bộ (hệ số tƣơng quan riêng) đo lƣờng mối quan hệ
tuyến tính của hai biến trong khi kiểm soát ảnh hƣởng của một hay nhiều biến
khác (loại bỏ ảnh hƣởng của biến này). Phƣơng pháp tính toán hệ số tƣơng
quan cục bộ nhƣ sau:
Giả sử cần tính hệ số tƣơng quan cục bộ giữa y và x, z là biến kiểm soát.
- Loại bỏ ảnh hƣởng của z đối với y bằng cách: hồi quy biến y theo biến

z, tính phần dƣ.
- Loại bỏ ảnh hƣởng của biến z đối với x bằng cách: hồi quy biến z theo
biến z và tính phần dƣ.

282

- Tính hệ số tƣơng quan giữa hai dãy số dƣ, ta đƣợc hệ số tƣơng quan
cục bộ giữa y và x vì ảnh hƣởng của z đối với hai biến này đã bị loại bỏ.
Ví dụ: Khi tính các hệ số tƣơng quan Pearson ở trên, ta thấy mối tƣơng
quan cùng chiều giữa chi tiêu bình quân đầu ngƣời của hộ và số năm giáo dục
của chủ hộ bị chi phối bởi tuổi của chủ hộ và cỡ hộ. Vì vậy ta muốn tính
tƣơng quan cục bộ giữa chi tiêu bình quân đầu ngƣời của hộ và số năm giáo
dục của chủ hộ trong khi loại trừ ảnh hƣởng (kiểm soát) của hai yếu tố tuổi
chủ hộ và cỡ hộ.
Ta thấy khi kiểm soát hai yếu tố age và hhsize, hệ số tƣơng quan giữa
chi tiêu bình quân đầu ngƣời của hộ và số năm giáo dục của chủ hộ đã tăng
từ.293 lên.335.
B. Phân tích hồi quy tuyến tính
1. Mô hình hồi quy tuyến tính
Hồi quy tuyến tính là một kỹ thuật nghiên cứu trong kinh tế lƣợng. Mô
hình hồi quy tuyến tính (đơn và bội) là một phƣơng trình toán học mô tả mối
quan hệ tuyến tính giữa biến phụ thuộc với một hoặc một số biến độc lập
trong tổng thể nghiên cứu.
Y = β0 + β1x1 + β2x2 + … + βkxk + u
Trong đó:
y là biến phụ thuộc, hoặc biến đƣợc giải thích;
x1, x2, …, xk: là các biến độc lập (các biến giải thích, các biến dự báo,
hoặc các biến hồi quy);
k là số biến thiên;

β0, β1, β2, …, βk: là các tham số chƣa biết cần phải ƣớc lƣợng;
u: là sai số ngẫu nhiên.
Có thể giải thích các hệ số nhƣ là ƣớc lƣợng ảnh hƣởng riêng của từng biến
giải thích đối với biến phụ thuộc

yˆ
xk

ˆ . Ƣớc lƣợng ˆ cho biết yˆ thay đổi ˆ
k
k
k

đơn vị khi xk thay đổi một đơn vị, các biến giải thích khác không thay đổi.
2. Quy trình trong phân tích hồi quy tuyến tính
Trong phân tích hồi quy thƣờng trải qua một số bƣớc tuần tự sau đây:
2.1. Nêu ra các giả thiết hoặc mối quan hệ giữa các yếu tố kinh tế.
283

2.2. Thiết lập mô hình toán (phƣơng trình) mô tả mối quan hệ tuyến tính đó.
2.3. Thu thập số liệu (hay dựa trên nguồn số liệu đã có nhƣ số liệu điều
tra, sổ sách hành chính …) để ƣớc lƣợng các hệ số của mô hình.
2.4. Tiến hành ƣớc lƣợng các hệ số của mô hình dựa trên mẫu số liệu đã
thu thập. Kết quả ƣớc lƣợng chính là đánh giá bằng thực nghiệm cho các giả
thiết hoặc mối quan hệ giữa các yếu tố kinh tế trên mẫu.
2.5. Phân tích và đánh giá kết quả nhận đƣợc. Xét xem kết quả ƣớc
lƣợng có phù hợp với giả thuyết hoặc mối quan hệ đã nêu ra không. Đồng
thời kiểm định các giả thiết thống kê về mô hình hồi quy tuyến tính để
phƣơng pháp ƣớc lƣợng bình phƣơng nhỏ nhất đạt hiệu quả nhất.

2.6. Dự báo: Nếu nhƣ mô hình phù hợp với lý thuyết hoặc mối quan hệ
đã mô tả thì có thể sử dụng mô hình để dự báo.
2.7. Dựa trên mô hình đã ƣớc lƣợng đƣa ra các kiến nghị về chính sách.
3. Thực hành phân tích hồi quy tuyến tính trên SPSS
Diện tích đất ở bình quân đầu ngƣời có thể phụ thuộc vào nhiều yếu tố,
chẳng hạn nhƣ tổng diện tích, mật độ dân số, đất nông nghiệp, mức sống (chi
tiêu), đặc điểm kinh tế xã hội khác… ở mỗi tỉnh. Chúng ta sẽ phát triển một
mô hình hồi quy bội để nghiên cứu vấn đề này dựa trên số liệu về một số tình
hình kinh tế xã hội chủ yếu của các tỉnh, thành trong cả nƣớc năm 2000.
* Với phƣơng pháp Backward, SPSS đƣa ra một loạt các mô hình, từng
bƣớc loại đi các biến không có ý nghĩa thống kê và cuối cùng, ta đƣợc một
mô hình có ý nghĩa thống kê đã giải thích đƣợc 59,2% sự biến động (biến
thiên) của biến phụ thuộc “diện tích đất ở bình quân đầu ngƣời của các tỉnh”.
Dtdatobq = 47.311 +.002dtdato +.284ptdatnn + -.009matdods +
-.102chitieub

+

2.224ptcnkt

+

14.287vung2

+

35.849vung5

14.724vung6
DTDATOBQ

DTDATO
PTDATNN
MATDODS
CHITIEUB
PTCNKT
VUNG2
VUNG5

Diện tích đất ở bình quân người (m2/người)
Diện tích đất ở (ha)
Phần trăm đất nông nghiệp (%)
Mật độ dân số (người/km2)
Chi tiêu bình quân đầu người (1000đ)
Phần trăm công nhân kỹ thuật (%)
Vùng 2 (1 : vùng 2, 0
: các vùng khác)
Vùng 5 (1 : vùng 5, 0
: các vùng khác)

VUNG6

Vùng 7 (1

284

: vùng 6,

0

: các vùng khác)

+

Mô hình đã trải qua kiểm tra các giả thiết về tuyến tính, về đa cộng
tuyến, về tính chuẩn của sai số, về sự thuần nhất của phƣơng sai sai số, phát
hiện các quan sát gây phần dƣ lớn và các quan sát đối trọng.
C. Phân tích hồi quy Logistic
Hồi quy logistic sử dụng thích hợp cho các tình huống muốn dự đoán sự
xuất hiện hay không xuất hiện của một đặc trƣng hoặc một kết quả dựa trên
giá trị của một số biến dự đoán. Nó tƣơng tự nhƣ hồi quy tuyến tính, nhƣng
thích hợp cho các mô hình mà biến phụ là biến phân nhóm (biến nhị phân),
chỉ có hai giá trị phân biệt duy nhất là 1 và 0. Các hệ số hồi quy logistic đƣợc
dùng để ƣớc lƣợng tỉ số chênh lệch odd cho mỗi biến độc lập trong mô hình.
Xác suất để xuất hiện sự kiện y = 1 là một hàm logistic có dạng:
P(yi =1| xs, bs) = f(x1, x2, …, xk)

=

Exp(b0 + b1x1i + b2x2i + … + bkxki)
1 + exp(b0 + b1x1i + b2x2i + … + bkxki)

Trong đó, y là biến phụ thuộc có hai giá trị 1: xuất hiện sự kiện nghiên
cứu, 0: không xuất hiện sự kiện; x1, x2, …, xk là các biến dự đoán, i là một
quan sát i 1, N ; b1, b2, …, bk là các hệ số mà ta cần phải ƣớc lƣợng trong
phƣơng trình hồi quy.
Chúng ta xuất phát từ hàm tích lũy xác suất logistic để xây dựng mô
hình hồi quy logistic.
Đặt logit(P) = log(odds) = b0 + b1x1i + b2x2i + … + bkxki
Giải thích các tỷ số chênh lệch odds

Tỷ số chênh lệch odds trong hồi quy logistic có thể đƣợc giải thích nhƣ
là tác động của thay đổi một đơn vị trong biến x nên tỷ số chênh lệch đƣợc dự
đoán với điều kiện các biến khác không thay đổi. Đây là cách giải thích thông
dụng (đặc biệt thích hợp với các biến dummy).
Thí dụ: Mục đích của thí dụ này là ƣớc lƣợng một mô hình logistic để quyết
định các yếu tố lý giải tại sao một hộ lại nghèo và lƣợng hóa mức ảnh hƣởng
của từng yếu tố đến sự kiện nghèo. Số liệu đƣợc dùng trong thí dụ là điều tra
mức sống hộ gia đình năm 1997-1998.
Chia số hộ thành 5 nhóm bằng nhau sắp theo chi tiêu bình quân đầu
ngƣời. Tạo biến poor chứa hai sự kiện: nghèo poor=1 (nhóm có chi tiêu thấp
nhất) và không nghèo poor=0 (các nhóm khác) và sau đó tiến hành hồi quy
logistic theo một số biến độc lập.
285

Ta kỳ vọng khả năng nghèo (poor=1) của hộ sẽ giảm đi khi kinh nghiệm
của chủ hộ tăng lên (tuổi age), trình độ học vấn của chủ hộ cao hơn (số năm
học educyr98), hộ sống ở khu vực thành thị và nguy cơ hộ cũng nghèo đi khi
hộ sống bằng nghề nông nghiệp, hộ có nhiều nhân khẩu. Ngoài ra yếu tố
vùng địa lý cũng có những tác động nhất định đến sự kiện nghèo.
Kết quả hồi quy Logistic: Thống kê kiểm định mô hình (chi-square =
1424.303, P-value =.000) cho biết mô hình có ý nghĩa thống kê. Hệ số xác
định R2 giả =.334.
Các hệ số ƣớc lƣợng đúng nhƣ những gì mà ta đã dự đoán. Mô hình đã
lý giải rằng, những hộ nghèo là những hộ có đông ngƣời, chủ yếu làm nghề
nông nghiệp, chủ hộ ít có kinh nghiệm, học vấn thấp, hộ sống ở khu vực nông
thôn, ở các vùng cách biệt về địa lý nhƣ vùng núi phía Bắc và các vùng khí
hậu khắc nghiệt hay bị bão lụt nhƣ Bắc Trung Bộ và Duyên hải miền Trung.
Kết quả hồi quy logistic (từ SPSS)
B

Step 1(a)

S.E.

Wald

Df

Sig.

Exp(B)

-.038
-.196

.003
.012

144.706
269.542

1
1

.000
.000

.963
.822

.356
.314

.098
.020

13.302
247.363

1
1

.000
.000

1.428
1.368

-1.355
1.349

.149
.125

82.487
116.359

1
1

.000
.000

.258
3.854

VUNG2

.635

.133

22.898

1

.000

1.886

VUNG3
VUNG4

1.123
.411

.133
.132

71.635

9.634

1
1

.000
.002

3.073
1.508

VUNG5
VUNG6

.368
-1.457

.150
.192

6.042
57.427

1
1

.014
.000

1.445

.233

Constant

-.440

.227

3.763

1

.052

.644

AGE
EDUCYR98
FARM
HHSIZE
URBAN98
VUNG1

a Variable(s) entered on step 1: AGE, EDUCYR98, FARM, HHSIZE, URBAN98, VUNG1,
VUNG2, VUNG3, VUNG4, VUNG5, VUNG6.

Biến sex bị loại ra khỏi mô hình vì không có ý nghĩa thống kê
Vùng bị loại ra khỏi mô hình để làm vùng tham khảo là Đồng bằng sông
Cửu long, các vùng khác so sánh với nó.
KẾT LUẬN

Báo cáo tổng hợp đã trình bày 7 vấn đề của đề tài nghiên cứu bao gồm
những công cụ cơ bản nhất và thông dụng nhất về phân tích số liệu thống kê
dựa trên phần mềm SPSS. Phần thứ nhất không thể thiếu đƣợc là giới thiệu
chung về phƣơng pháp sử dụng và quản lý dữ liệu trong SPSS, nơi mà chúng
286

ta triển khai các phƣơng pháp phân tích số liệu thống kê. Phần này giúp ngƣời
dùng sử dụng SPSS chuẩn bị cơ sở dữ liệu phục vụ quá trình phân tích, biên
tập kết quả nhận đƣợc từ các thủ tục. Từ Phần 2 trở đi là các phƣơng pháp
phân tích số liệu thống kê (cả mô tả và quan hệ) bao gồm: phân tích mô tả, vẽ
biểu đồ và đồ thị, lập các bảng tổng hợp và báo cáo thống kê, kiểm định giả
thuyết thống kê, phân tích phƣơng sai, và cuối cùng là phân tích tƣơng quan và
hồi quy bao gồm cả hồi quy Logistic. Việc triển khai nghiên cứu các phƣơng
pháp theo một lộ trình thống nhất là tóm tắt cơ sở lý luận, làm rõ ý nghĩa ứng
dụng, thiết kế các thí dụ phù hợp, mô tả thủ tục thực hiện trên SPSS, đến phân
tích đánh giá kết quả nhận đƣợc và đƣa ra các kết luận. Đặc biệt dữ liệu trong
các thí dụ là số liệu thống kê thực do các đơn vị trong Tổng cục thu thập và
xuất bản, điều này thể hiện tính ứng dụng của đề tài và tạo điều kiện cho ngƣời
sử dụng dễ dàng áp dụng vào phân tích. Hơn nữa, tính ứng dụng còn thể hiện ở
chỗ SPSS là một bộ chƣơng trình rất dễ tiếp cận đối với cán bộ nghiệp vụ
thống kê và quản lý kinh tế vì nó rất dễ sử dụng. SPSS có một hệ thống giao
diện rất thân thiện giữa ngƣời và máy cho phép sử dụng các menu thả xuống
để thực hiện mọi công việc trong phân tích dữ liệu nhƣ chuẩn bị dữ liệu, biến
đổi dữ liệu, phân tích số liệu, vẽ đồ thị, hiệu đính và biên tập kết quả chỉ đơn
giản bằng trỏ và kích chuột, không phải lập trình.
Chúng tôi hy vọng rằng báo cáo kết quả đề tài còn có tác dụng nhƣ một
tài liệu hƣớng dẫn thực hành phân tích dữ liệu trên phần mềm SPSS. Ngƣời
dùng có thể dựa vào đó để tiến hành những phân tích riêng của mình. Đây
cũng là đích hƣớng tới của đề tài.

TÀI LIỆU THAM KHẢO
1. Statistics. Fiffith Edition. Robert S. Witt - John S. Witte. 1997
2. Applied Statistics for business and economics. Alen Webster. Boston. 1992
3. Econometries: Theory and Applications. Ghosh, Sukesh K. Printice Hall,
Englewood cliff, 1991
4. Lý thuyết xác xuất và thống kê toán. Đại học Kinh tế quốc dân. Nhà xuất
bản Khoa học kỹ thuật 1999.
5. Kinh tế lƣợng. Đại học Kinh tế quốc dân. Nhà xuất bản Khoa học kỹ thuật 1996.
6. Mức sống trong thời kỳ kinh tế bùng nổ. Nhà xuất bản Thống kê 2001.
7. Hộ gia đình Việt Nam nhìn qua phân tích định lƣợng. Nhà xuất bản Chính
trị quốc gia, 1999.
287

8. Tập bài giảng của giáo sƣ Jonathan Haughton và Dominique Haughton về
phân tích điều tra mức sống năm 1997-19997. Hà Nội 1999.
9. Tập bài giảng kinh tế lƣợng của giáo sƣ M. Daniel Webstbrook. Hà Nội,
năm 2004.
10. SPSS Applications Guide. SPSS Inc.
11. Một số tài liệu hƣớng dẫn lập trình trên SPSS và hƣớng dẫn sử dụng SPSS.
12. Nghiên cứu ứng dụng phần mềm Stata trong xử lý và phân tích số liệu
thống kê. Đề tài cấp cơ sở, năm 2004. Lê Đỗ Mạch.
13. Nghiên cứu xây dựng quy trình và phƣơng pháp thực hành hồi quy tuyến
tính dựa trên phần mềm Stata. Đề tài cấp cơ sở, năm 2005. Lê Đỗ Mạch.
14. Số liệu điều tra mức sống năm 1997-1998.
15. Số liệu điều tra tiến sỹ năm 2000.
16. Số liệu kinh tế xã hội về các tỉnh, thành phố năm 1999-2000 trên trang
Web Tổng cục Thống kê.

288

Đề tài khoa học: Nghiên cứu khai thác sử dụng một số phương pháp phân tích số liệu thống kê dựa trên phần mềm SPSS

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về