Tải bản đầy đủ (.doc) (34 trang)

Tai lieu huong dan su dung SPSS phan tich mo ta dinh luong dịnh tinh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (821.28 KB, 34 trang )

PHẦN MỀM THỐNG KÊ SPSS VỚI THỐNG KÊ MÔ TẢ
2.1 Giới thiệu
Năm 1968 tại Đại học Stanford, nhà nghiên cứu xã hội học Norman H. Nie và
hai nghiên cứu sinh tiến sĩ C. Hadlai Hull, Dale H. Ben thực hiện dự án phát triển một
hệ thống phần mềm, dựa trên ý tưởng của việc sử dụng dữ liệu thô từ số liệu thống kê
chuyển thành thông tin cần thiết cho việc ra quyết định dành cho nhà quản lý. Hệ
thống phần mềm được lấy tên từ viết tắt của "Statistical Package for the Social
Sciences" gọi là phần mềm SPSS. Năm 1975, Công ty SPSS Inc được thành lập nhằm
thương mại hóa phần mềm này. Các thế hệ đầu tiên của SPSS chỉ sử dụng cho các máy
chủ do năng lực tính toán của các máy tính cá nhân còn hạn chế. SPSS được giới thiệu
như là các phần mềm thống kê đầu tiên cho máy tính, làm việc trên nền tảng MS-DOS
(1984), Microsoft Windows 3.1 (1992). Phiên bản thế hệ 18 được giới thiệu vào tháng
8 năm 2008, có phiên bản cho các hệ điều hành Microsoft Windows, Mac, và
Linux/UNIX. Ngày 28 tháng 7 năm 2009, công ty PASW (Predictive Analytics
SoftWare Statistics) sở hữu phần mềm này đã được IBM mua lại với giá 1,2 tỷ đô la.
Đến tháng 1 năm 2010, thương hiệu của phần mềm được đổi thành "SPSS: An IBM
Company", nêu rõ SPSS thuộc về IBM.
Ban đầu, hầu hết người dùng của phần mềm SPSS là các nhà nghiên cứu, những
người làm việc tại các trường đại học với các máy tính máy tính lớn. Vì giá rất cao và
việc làm của hệ thống an ninh cảm ứng và giao diện người dùng khó khăn của nó,
không có nhiều người hay tổ chức sử dụng SPSS. Phần mềm này không phổ biến trong
các nhà nghiên cứu cho đến khi phiên bản SPSS trên máy tính cá nhân được đưa vào
sử dụng rộng rãi. Sau khi phiên bản Windows đã được đưa ra thị trường, người dùng
phần mềm SPSS tăng lên nhanh chóng bởi tính hữu ích của nó trong việc lưu trữ và xử
lý dữ liệu. Các phiên bản mới của phần mềm SPSS sau này có thể xử lý nhiều bộ dữ
liệu với một số lượng gần như không giới hạn cỡ mẫu và số biến. Nó cho phép đọc dữ
liệu từ nhiều định dạng như Portable(*.por), Excel(*.xls, *.xlsx, *.xlsm), Lotus(*.w)
Sylk(*.slk), dBase(*.dbf), SAS(*.sas7bdat, *.sd7, *.sd2, *.ssd01, *.ssd04, *.xpt)
Sata(*.dat), Text(*.txt, *.dat, *.csv) và xuất các kết quả phân tích sang Microsoft Excel
và các định dạng văn bản khác nhau.
SPSS là một chương trình được sử dụng rộng rãi trong ngành khoa học xã hội,


quản trị kinh doanh, y sinh học, …. Nó cũng được sử dụng bởi các nhà nghiên cứu thị
trường, các nhà nghiên cứu y tế, công ty khảo sát, chính phủ, các nhà nghiên cứu giáo
dục, các tổ chức tiếp thị vv. Các tính năng chính của phần mềm SPSS như sau:
- Nhập dữ liệu xuất kết quả: Ngoài việc nhập dữ liệu và xuất kết quả trực tiếp
trên phần mềm, SPSS cho phép nhập dữ liệu và xuất kết quả phân tích sang các định
dạng tập tin khác, chẳng hạn như Portable, Excel, dBase, SQL, TXT, Lotus, SAS,
Sylk, truy cập và cho phép lấy mẫu, phân loại, xếp hạng, thiết lập, sáp nhập, và tập
hợp dữ liệu.
- Thống kê và tổng kết cơ bản: Tần số, tần suất, thống kê mô tả, lập bảng thống
kê, thống kê tỷ lệ, vẽ đồ thị.
- Kiểm tra ý nghĩa: Mean, T-Test, ANOVA, MANOVA, ANCOVA ,Tương quan,
các kiểm định phi tham số.


- Thống kê suy diễn: Hồi quy tuyến tính và phi tuyến tính, phân tích nhân tố

khám phá EFA, phân tích biệt số, phân tích nhân tố, phân tích cụm,…
Hiện nay Version 22 là phiên bản mới nhất của SPSS. Theo kinh nghiệm bản
thân cũng như theo đánh giá của người dùng, phiên bản 16 ổn định và tiện lợi, vì vậy
chúng tôi trình bày với version này.
2.2 Nhập dữ liệu vào SPSS
2.2.1 Data View
Cửa sổ làm việc của SPSS có 2 sheet: Data View dùng để chứa dữ liệu, cho phép
ta nhập và xem dữ liệu, Variable View cho phép đặt tên và khai báo các thuộc tính của
biến. Ta làm theo trình tự sau: đặt tên biến trong Variable View sau đó nhập dữ liệu
vào Data View.
Cũng giống như các phần mềm ứng dụng khác, bảng dữ liệu trong SPSS được tổ
chức thành một ma trận số liệu. Mỗi hàng của ma trận ứng với một quan sát (còn gọi là
trường hợp, một phần tử của mẫu, một phiếu khảo sát…). Mỗi cột ứng với một biến.
Mỗi ô là giao của một cột với một hàng, nó chứa giá trị của một biến trên một quan

sát, ta có thể nhập số liệu mới vào một ô bất kỳ trong bảng số liệu.

Một số xử lý cơ bản:
- Chuyển đổi giữa hai cửa sổ này bằng cách nhấp vào tab tương ứng bên dưới
trái màn hình.
- Nhập số liệu trực tiếp vào từng ô của bảng số liệu hoặc sửa chữa số liệu chứa
trong các ô đó.
- Chèn thêm các cột hoặc hàng mới vào bảng số liệu sẵn có (nhấp chuột phải
vào cột (hoặc dòng) > Chọn Insert variable (hoặc Insert cases))
- Xóa một dòng hoặc cột bất kì (nhấp chuột trái > Delete)
- Sắp xếp lại các quan sát theo thứ tự tăng giảm đối với giá trị của một biến nào
đó (chọn Data > Sort cases)…
2.2.2 Variable View
Cửa sổ này dùng để đặt tên và khai báo các thuộc tính của biến, mỗi biến được
thể hiện trên 1 hàng, mỗi biến bao gồm nhiều thông tin (name, type,…).
Một số xử lý cơ bản:
- Đặt tên và mã hóa các biến theo phiếu khảo sát.
- Thay đổi việc đã đặt bằng cách nhấp trực tiếp vào các ô tương ứng.
- Chèn thêm biến mới (nhấp chuột phải vào dòng > Insert variable ).


- Xóa các biến (nhấp chuột trái lên vào > Clear hoặc Delete)…

Ta cần phải chú ý: câu hỏi chọn 1 trả lời hay nhiều trả lời, nhập số hay chữ, mã
hóa các giá trị của biến như thế nào, biến định tính hay định lượng…
a) Nhập câu hỏi chọn 1 trả lời
Ví dụ 2.1. Ta có câu hỏi (Câu 1): Giới tính của bạn là gì? 1. Nam. 2. Nữ (SA: chọn 1
trả lời). Ta nhập câu này theo trình tự như sau:
Name: tên của biến, dài không quá 8 kí tự, không có kí tự đặt biệt (‘, *, ?, !,…),
không được bắt đầu bằng một kí số và không được kết thúc bằng một dấu chấm. Tên

biến không phân biệt chữ hoa với chữ thường. Thường thì với bảng khảo sát ta đặt tên
là cau1, hoặc Q1... cho gọn.
Type: kiểu biến, ta giữ mặc định là kiểu định lượng Numeric. Nếu biến của mình
là dạng khác ở trên, ví dụ nhập chữ (các câu hỏi mà người phỏng vấn đề xuất ý kiến,
góp ý…), ta nhấp chuột vào nút “…” ở phía bên phải mỗi ô để mở hộp thoại sau, sau
đó ta click vào String (nhập chữ) và thay đổi số kí tự nhập vào trong ô Width (đổi số 8
thành số phù hợp hơn, ví dụ 200).

Width: số kí tự tối đa nhập vào, mặc định là 8.
Decimals: số chữ số thập phân.
Label: ta tóm tắt ngắn gọn nội dung của câu hỏi.


Values: khai báo các giá trị mã hóa của biến. Ta nhấp chuột trái vào dấu “…”
trong ô sẽ xuất hiện bảng dưới đây. Trong đó, ta nhập số vào ô value > nhập tên tương
ứng vào ô Label > bấm add > OK. Thực hiện lần lượt đến khi nào hết các số mã hóa
thì dừng lại. Nếu muốn sửa đổi, ta nhấp vào dòng tương ứng > bấm Remove để chỉnh
sửa > bấm change.

Missing: khai báo các giá trị khuyết. Thường thì ta để trống ô này.
Giả sử khi ta phỏng vấn câu hỏi về tuổi, vì lý do tế nhị nào đó người được phỏng
vấn từ chối trả lời. Khi đó, trong Values của biến tuoi ta phải quy ước giá trị -1 có nhãn
là “không trả lời” (vì không ai có tuổi là số âm, tất nhiên ta có thể quy ước một giá trị
khác là 999 chẳng hạn).
Ngoài ra còn có một loại giá trị khuyết nữa là System Missing, giá trị khuyết của
hệ thống. Đối với các biến kiểu số, các ô trống (không được nhập giá trị) được hiểu là
giá trị khuyết và được chương trình tự động đặt dấu (.), giá trị này là vô hình đối với
các lệnh xử lý thống kê của phần mềm SPSS.
Đối với biến kiểu chuỗi ký tự, các ô trống không được coi là giá trị khuyết mà là
giá trị bình thường của biến.


Columns: độ rộng của cột.
Align: vị trí dữ liệu được nhập trong cột.
Measure: khai báo loại thang đo, trong SPSS có 3 loại như sau:
+ Dữ liệu định lượng (Ví dụ: chiều cao: 1,73m, cân nặng:
75kg, số thành viên trong gia đình: 6 người…) => Scale
+ Dữ liệu định tính thứ bậc (Ví dụ: trình độ học vấn: 1:
THCS, 2: THPT, 3: ĐH-CĐ, 4: Sau ĐH…) => Ordinal
+ Dữ liệu định danh (Ví dụ: giới tính: 1: nam, 2: nữ; Loại
nước ngọt thường dùng: 1: coca-cola, 2: pepsi, 3: 7 up…)
=> Nominal


Chú ý: Trong một bảng câu hỏi có rất nhiều câu, vì vậy để dễ kiểm soát ta nên đặt
tên biến theo một qui ước nhất định. Ví dụ: cau1.1, cau1.2, cau 1.1.1, cau2.1….


b) Nhập câu hỏi chọn nhiều trả lời
Ta thực hiện tương tự như trong câu hỏi chọn 1 trả lời, sau đó copy cả dòng
thành nhiều dòng khác (tổng số dòng tối đa bằng số câu trả lời của biến). Ta cũng lưu ý
cách đánh số thứ tự tên biến.
Ví dụ 2.2. Ta có câu hỏi (Câu 2): Bạn thường uống loại nước ngọt nào trong các nhãn
hiệu sau (MA: chọn nhiều trả lời):
1. Coca-cola 2. Pepsi 3. 7 Up 4. Dr Thanh
5. Trà xanh 00 6. Khác…….
Các bước thực hiện:
Bước 1: Name: cau2.1, Label: nuoc ngot, Value: mã hóa từ 1 – 6, Measure:
Nominal.
Bước 2: copy dòng vừa tạo thành tổng cộng 4 dòng (nhiều hoặc ít hơn cũng
được, tổng số dòng tối đa bằng số câu trả lời của biến).

Bước 3: đổi tên name các biến mới từ cau2.1 đến cau2.4 theo hình dưới đây.

Bước 4:Tạo thêm 1 biến cau2.k, Type: String để điền thêm vào chổ trống.
b) Nhập dữ liệu dạng bảng tần số cho sẳn
Sau khi nhập dữ liệu dạng bảng tần số, ta dùng lệnh Data > Weight cases cho
biến tần số để SPSS hiểu biến đó là tần số tương ứng của các giá trị đã cho.
Ví dụ 2.3. Ta có bảng tần số sau:
Năng suất (tạ/ha)
Số ha

41
10

44
20

45
30

46
15

48
10

52
10

54
5


Các bước nhập dữ liệu:
Bước 1: Tạo 2 biến có tên nsuat và soha có định dạng thang đo là scale và nhập
các giá trị vào.
Bước 2: Dùng lệnh Data > Weight cases và đưa biến soha vào ô Frequency
Variable và click chọn như hình sau > OK.


Lúc này ta có thể tính toán được các giá trị thống kê mô tả: Trung bình = 46, độ
lệch chuẩn = 3.303, … (xem mục 2.5.2).
Ví dụ 2.4. Giả sử ta có bảng tần số 2 chiều sau đưa ra một phân loại theo tôn giáo và
tình trạng hôn nhân cho 500 cá nhân được lựa chọn ngẫu nhiên.

Tình trạng
hôn nhân

Độc thân
Có vợ, chồng

A
39
172

Tôn giáo
B
C
D
19
12
28

61
44
70

Không
18
37

Các bước nhập dữ liệu:
Bước 1: Tạo các biến tongiao (Value: 1 = A, 2 = B, 3 = C, 4 = D, 5 = không),
biến honnhan (Value: 1 = độc thân, 2 = có vợ, chồng), cả 2 biến này đều có thang đo
là nominal, biến soluong có thang đo là scale và nhập dữ liệu tương ứng vào.
tongiao
1
2
3
4
5
1
2
3
4
5

honnha
n
1
1
1
1

1
2
2
2
2
2

Soluon
g
39
19
12
28
18
172
61
44
70
37

Bước 2: Dùng lệnh Data > Weight cases cho biến soluong.
Lúc này ta có thể đánh giá sự tương quan và kiểm định tính độc lập của 2 biến
trên (xem ở các phần sau).
2.3 Lưu trữ và truy xuất dữ liệu
2.3.1 Lưu dữ liệu
Sau khi nhập dữ liệu, ta lưu dữ liệu vào thư mục nào đó giống như thao tác lưu
một file WORD hay EXCEL thông thường (Save, Save as hay tổ hợp phím Ctrl + S).
Lưu ý một file dữ liệu SPSS có đuôi là .sav và file kết quả có đuôi là .spv.



2.3.2 Truy xuất dữ liệu
Ta có thể mở trực tiếp một file .sav hay .spv từ thư mục lưu trữ bằng lệnh file >
open > data. Ngoài ra, ta có thể truy xuất một file định dạng EXCEL, trong mục Files
of type ta click chọn All file, sau đó tìm file có đuôi là .xlsx.
Với một file kết quả .spv thu được từ việc phân tích dữ liệu (các bảng, hình), ta
chỉ cần copy các bảng kết quả và dán vào WORD và chỉnh sửa lại cho đẹp là được.
Trong tài liệu này, ta thường xuyên sử dụng file dữ liệu SPSS có tên “Data thuc
hanh spss 16” sử dụng kèm theo để thực hành (Nguồn: lược ra từ file dữ liệu của cuốn
sách Phân tích dữ liệu với SPSS của Hoàng Trọng – Chu Nguyễn Mộng Ngọc). Trong
file “Data thuc hanh spss 16” có tổng cộng 22 biến và 500 quan sát. Cụ thể:
Stt
1.

Bảng 2.1 Mã hóa tên biến trong file “Data thuc hanh SPSS 16”
Name
Label
Values
Tp
Thành phố
1. Hà Nội, 2. HCM

2.

C1

3.

C2a1
C2a2


C2a9

4.

C3

5.

C4

6.

C5

7.

Tuoi

Số lượng người đọc
báo trong gia đình
Cách
đọc
báo 1. 1 lần hết tờ báo, 2. Đọc 2,3 lần, mỗi
SGTT
lần đọc 1 phần, 3. Đọc 1 lần, sau đó xem
lại những trang mục ưa thích.
Nơi để báo SGTT
1. Phòng khách, 2. Phòng sinh hoạt gia
đình, 3. Phòng học hay làm việc ở nhà,
4. Phòng ngủ, 5. Phòng ăn, 6. Nơi khác

trong nhà, 7. Không lưu trữ, 8. Gia đình
không mua.
Tuổi

8.

Sonk

Số nhân khẩu

9.

Gtinh

Giới tính

10. Tncn
11. Tngd

Mức độ đọc báo

1. Hầu như không, 2. Thỉnh thoảng, 3.
Thường xuyên, 4. Rất thường xuyên
1. HN mới, 2. SG giải phóng, 3. Lao
động, 4.Người lao động, 5. Tiền phong,
6. Thanh niên, 7. Tuổi trẻ, 8. Phụ nữ VN,
9. Phụ nữ TPHCM, 10. Thời báo KTVN,
11. Thời báo KTSG, 12. SGTT, 13. Thế
giới phụ nữ, 14. Tiếp thị và GĐ, 15. Mua
và bán, 16. An ninh thế giới, 17. An ninh

thủ đô, 18. Công an TPHCM, 19. Khác.

1. Nam, 2. Nữ

Thu nhập cá nhân 1. Không, 2. Dưới 1tr, 3. 1-2tr, 4. 2-4tr,
hàng tháng
5. Trên 4tr, 6. Không biết.
Thu nhập gia đình 1. Dưới 2tr, 2. 2-4tr, 3. 4-6tr, 4. 6-10tr, 5.


hàng tháng
12. Hocvan Trình độ học vấn
13. Nghe

Nghề nghiệp

14. Tuoi4n

Tuổi chia 4 nhóm

Trên 10tr, 6. Không biết.
1. Cấp 1, 2. Cấp 2, 3. Cấp 3-THCN, 4.
CĐ-SV ĐH, 5. Tốt nghiệp ĐH, 6. Sau
ĐH
1. Công chứ, 2. Giáo viên, 3. NVVP, 4.
Chủ DN, 5. NV cty KD, 6. Tu KD SPDV, 7. Buôn bán nhỏ, 8. CN có tay nghề,
9. LDPT, 10. SVHS, 11. Về hưu, 12.
Không LV, 13. Nghề chuyên môn, 14.
Nghề khác.
1. 18-25, 2. 26-35, 3. 36-45, 4. 46-60


2.4 Một số xử lý trên biến
2.4.1 Tính toán trên biến (Compute)
Mô tả: Tạo ra một biến mới bằng việc thực hiện phép toán, các hàm cơ bản.
Câu lệnh: Transform > Compute Variable.
Ví dụ 2.5. Trong file dữ liệu “Data thuc hanh spss 16”, ta muốn tính toán lại biến
tuoi bằng cách cộng thêm cho 5 chẳng hạn, ta làm như sau:
Bước 1: Transform > Compute Variable > đặt tên biến mới trong ô Target
Variable > đưa biến tuoi vào ô Numeric Expression (dùng dấu mũi tên)
Bước 2: Sử dụng các phép toán cho biến tuoi (cộng, trừ, nhân, chia hoặc các
hàm số sin, cos, ln, mũ…). Ví dụ: tuoi + 5. Sau đó bấm OK. Lúc này trong file dữ liệu
ta được một biến tuoinew thỏa phép toán vừa thực hiện. Ta có thể sử dụng nó cho các
mục đích nghiên cứu khác.

2.4.2 Đếm các giá trị trong các trường hợp (Count Values within cases)


Mô tả: Đếm các giá trị được qui ước theo từng dòng quan sát. Ta có thể sử dụng
thao tác này để tạo ra một biến mới có 2 thể hiện (0: không được lựa chọn, 1: được
lựa chọn) từ biến có nhiều thể hiện. Phương pháp này đặc biệt hữu dụng trong việc
trích lược 1 lựa chọn nào đó trong câu hỏi dạng chọn nhiều trả lời (MA).
Câu lệnh: Transform > Count Values within cases.
Ví dụ 2.6. Trong file dữ liệu “Data thuc hanh spss 16”, các biến từ c2a1 đến c2a9 có
tổng cộng 19 giá trị, mỗi người được khảo sát có thể chọn tùy ý trong số 19 giá trị đó.
Giả sử bây giờ tôi muốn đếm trường hợp những người đọc báo SGTT (giá trị được mã
hóa là 12), sau đó ta được 1 biến mới có 2 giá trị (0: không đọc SGTT, 1: có đọc
SGTT). Các bước được thực hiện như sau:
Bước 1: Transform > Count values within cases > đưa các biến từ c2a1…c2a9
vào khung bên phải > đặt lại tên biến và nhãn của biến > bấm Define Values.


Bước 2: Đánh số cần đếm vào ô value, bấm nút add.
Nếu có nhu cầu đếm thêm các giá trị khác thì ta lặp lại thao tác này, hoặc muốn
đếm giá trị từ a đến b ta chọn Range và đánh miền giá trị vào 2 ô tiếp theo, hoặc từ giá
trị a đến lớn nhất… > bấm continue.

2.4.3 Mã hóa lại biến (Recode)
Mô tả: Một biến có n quan sát, ta tiến hành gom các quan sát đó lại thành từng
nhóm, được một biến mới có số quan sát ít hơn ban đầu để thuận lợi cho việc nghiên
cứu.


Câu lệnh: Transform > Recode into different Variables.
Ví dụ 2.7. Trong file dữ liệu “Data thuc hanh spss 16”, ta muốn chia biến tuoi thành 4
nhóm: 1. 18-25, 2. 26-35, 3. 36-45, 4. 46-60. Ta tiến hành như sau:
Bước 1: Transform > Recode into different Variables > đưa biến tuoi qua khung
bên phải > đặt tên mới cho biến sắp được hình thành là tuoi4n > bấm Old and New
Values theo hình sau:

Bước 2: Trong hộp thoại Old and New Values ta tiến hành như sau: đánh số và ô
Range bên Old Value > nhập giá trị mới tương ứng > Add > lập lại thao tác cho các
giá trị sau > Continue > Change > OK.

Trong đó
Old value (các loại giá trị cũ)
Value: từng giá trị cũ rời rạc ứng với một giá trị mới.
System-missing và System or user missing: thay đổi mã
cho các giá trị khuyết của hệ thống và do người nhập định
nghĩa.
Range: một khoảng giá trị cũ ứng với một giá trị mới. Bao
gồm khoảng giữa hai giá trị (… through …), khoảng từ

giá trị nhỏ nhất đến giá trị được nhập vào (Lowest
through …), khoảng từ giá trị nhập vào đến giá trị lớn

New value (giá trị mới)
Value: gán vào giá trị
mới dùng để thay thế
cho giá trị cũ.
System missing: dùng
giá trị khuyết của hệ
thống để thay thế giá trị
cũ.


nhất (… through highest).
All other values: thay đổi mã cho các giá trị còn lại của biến
sau những ấn định trước đó.
Bước 3: Mã hóa lại biến tuoi4n vừa tạo ra trong cửa sổ Variable View, biến có
thang đo là Ordinal.

2.4.4 Lọc ra biến có tính chất nào đó (If condition is satisfied)
Mô tả: Lọc ra một danh sách các cá thể có tính chất nào đó từ biến có sẳn.
Câu lệnh: Data > Select Cases > If condition is satisfied > If
Ví dụ 2.8. Trong file dữ liệu “Data thuc hanh spss 16”, ta muốn lọc ra một danh sách
những người có đội tuổi từ 18 đến 25.
Ta tiến hành như sau:
Bước 1: Data > Select Cases > If condition is satisfied > bấm nút If…


Bước 2: đưa biến tuoi qua ô bên phải, sau đó ta nhập các điều kiện (18 <= tuoi
& tuoi >= 25) > Continue > OK như hình ở trên.

Trong hình dưới đây, biến filter_$ vừa được tạo ra theo điều kiện thiết lập ở trên,
trong đó giá trị 0 = không thỏa điểu kiện, 1 = thỏa điều kiện đã đặt ra. Dấu gạch chéo ở
đầu dòng cho biết cá thể không thỏa điều kiện lọc.

Bước 3: để trở lại trạng thái ban đầu trước khi lọc, ta chọn All Cases trong bảng
ở bước 1.
2.4.5 Lọc ra mẫu ngẫu nhiên từ dữ liệu có sẳn
Mô tả: Lọc ra một danh sách các cá thể ngẫu nhiên từ dữ liệu có sẳn.
Câu lệnh: Data > Select Cases > If condition is satisfied > Random sample of
cases.
Ví dụ 2.9. Trong file dữ liệu “Data thuc hanh spss 16”, ta muốn lọc ngẫu nhiên ra
một danh sách 100 người từ 500 người có sẳn.
Lần lượt thực hiện các lệnh sau: Data > Select Cases > If condition is satisfied >
Random sample of cases ta được hộp sau và có 2 cách thực hiện:


Trong Approximately: Ta ghi vào 20% từ 500 người, ta được danh sách 100
người hoặc Exactly: 100 người casese from the first 500 cases. Lúc này ta được một
danh sách như mong muốn.
2.5 Tạo bảng tần số và tính toán thống kê mô tả
2.5.1 Tạo bảng tần số
Mô tả: Tạo ra bảng tần số của 1 hay nhiều biến định tính.
Câu lệnh: Analyze > Descriptive Statistic > Frequencies…
Ví dụ 2.10. Trong file dữ liệu “Data thuc hanh spss 16”, ta tiến hành tạo bảng tần số
của biến học vấn và nghề nghiệp. Các bước được thực hiện như sau:
Bước 1: Analyze > Descriptive Statistic > Frequencies > đưa 2 biến hocvan và
nghe qua khung bên phải:

Bước 2: Nhấp vào nút
Statistics (có thể chọn hoặc

không chọn) để tính các đại
lượng thống kê mô tả, sau
đó bấm OK.


Bước 3: Nhấp vào nút
Charts trong bước 1 để vẽ
đồ thị cơ bản (cột, tròn,
histogram) > Continue:

Bước 4: kết quả:
Statistics
trinh do hoc van
N

Valid
Missing

Mean
Std. Deviation
Minimum
Maximum

nghe nghiep

500

500

0

3.60
1.044
1
6

0
7.31
3.886
1
14

Bảng này cho ta kết quả: tổng phần tử (N) là 500 phần tử, trung bình (Mean)
tương ứng là 3,6 và 7,31, độ lệch tiêu chuẩn (Std. Deviation) tương ứng là 1,044 và
3,886, min cùng giá trị là 1, max tương ứng là 6 và 14.


trinh do hoc van

Valid

Frequency

Percent

Valid Percent

Cumulative Percent

Cap 1


4

.8

.8

.8

Cap 2

56

11.2

11.2

12.0

Cap 3 - THCN

215

43.0

43.0

55.0

CD - SV DH


91

18.2

18.2

73.2

Tot nghiep dh

129

25.8

25.8

99.0

Sau DH

5

1.0

1.0

100.0

Total


500

100.0

100.0

nghe nghiep

Valid

Frequency

Percent

Valid Percent

Cumulative
Percent

Cong chuc

45

9.0

9.0

9.0

Giao vien


18

3.6

3.6

12.6

NVVP

56

11.2

11.2

23.8

ChuDN

3

.6

.6

24.4

NV cong ty KD


33

6.6

6.6

31.0

Tu KD SP -DV
buon ban nho

56
63

11.2
12.6

11.2
12.6

42.2
54.8

CN co tay nghe

42

8.4


8.4

63.2

LDPT

18

3.6

3.6

66.8

SVHS

66

13.2

13.2

80.0

Ve huu

23

4.6


4.6

84.6

khong LV

11

2.2

2.2

86.8

nghe chuyen mon

14

2.8

2.8

89.6

Nghe khac

52

10.4


10.4

100.0

Total

500

100.0

100.0

Cột Frequency trong 2 bảng trên cho ta tần số tương ứng của các quan sát của
từng biến, Cột Percent cho ta phần trăm của từng quan sát tương ứng.
Đồ thị hình cột thu được sau đây:


Hình 2.1 Biểu đồ cột của biến trình độ học vấn và nghề nghiệp

Chú ý: Ta có thể đưa một lúc nhiều biến vào để tạo bảng tần số và các bước tiến
hành tương tự như trên.


2.5.2 Tính toán thống kê mô tả
a) Các đại lượng thống kê mô tả
Mức độ tập trung

Mức độ phân tán

Mean

Median
Mode
Variance
Std. Deviation
Range
Minimum
Maximum
SE mean

Trung bình ( x )
Số trung vị
Giá trị tin chắc nhất
Phương sai ( s 2 )
Độ lệch tiêu chuẩn (s)
Khoảng quan sát
Giá trị nhỏ nhất
Giá trị lớn nhất
Sai số chuẩn

b. Dùng Descriptives hay Frequencies
Câu lệnh: Analyze > Descriptive Statistic > Descriptives
Ví dụ 2.11. Trong file dữ liệu “Data thuc hanh spss 16”, ta muốn tính các đại lượng
thống kê mô tả của biến tuoi. Các bước được tiến hành như sau:
Bước 1: Analyze >
Descriptive Statistic >
Descriptives > đưa biến
tuổi qua ô bên phải > bấm
Options và tùy chọn các
mục cần tính.



Trong đó
Dispersion: Các đại lượng thống kê mô tả:
Distribution: cho biết phân phối đang xét có gần với phân phối chuẩn hay không. Nếu
Kurtosis và Skewness càng gần 0 thì phân phối đang xét càng gần phân phối chuẩn.
Display Order: trong trường hợp tính toán cho nhiều biến cùng một lúc, ta có thể chọn
1 trong 4 cách sắp xếp thứ tự kết quả tính toán của các biến trong bảng kết quả. Variable list
(xếp theo thứ tự các biến được đưa lần lượt vào khung Variable(s)), Alphabetic (xếp theo thứ
tự chữ cái của nhãn biến), Ascending means và Descending means (xếp theo thứ tự tăng và
giảm dần của giá trị trung bình của mỗi biến).

Bước 2: nhấn nút Continue để trở lại hộp thoại trước > OK.
Bước 3: kết quả.
Descriptive Statistics
N
Tuoi
Valid N (listwise)

Minimum
500
500

18

Maximum
60

Mean
34.35


Std. Deviation
11.218

Bảng này cho ta các giá trị thống kê mô tả của biến tuoi, trong đó cỡ mẫu
n = 500, trung bình = 34,35, độ lệch chuẩn = 11.218, min = 18, max = 60.
Chú ý: Những bảng kết quả có quá nhiều dòng hoặc cột, gây khó khăn cho việc
copy vào Word. Khi đó, ta nhấp đôi vào bảng, quanh bảng hiện viền răng cưa, rồi sau
đó vào menu Pivot, chọn Transpose Rows and Columns để chuyển đổi bảng với dòng
thành cột.


Ngoài ra, ta có thể sử dụng công cụ Frequencies như phần phía trên để tính các
đại lượng thống kê mô tả của biến.
Ví dụ 2.12. Tính các đại lượng thống kê mô tả của biến X trong bảng số:
28
23 30 24 19 21 39 22 22 31 37 33 20 30
21
26 27 25 29 27 21 25 28 26 29 29 22 32

35
27

Ta tạo biến X có định dạng scale và nhập dữ liệu vào, sau đó thực hiện lệnh
Descriptives giống ví dụ 2.11 (hoặc Frequencies) ta có kết quả:
n = 30, trung bình = 26.93, phương sai: 25.79, độ lệch chuẩn = 5.08.
c) Dùng Explore
Mô tả: Explore cho phép ta tạo 1 bảng tính thống kê mô tả của biến định lượng
theo các thành phần của biến định tính, đồng thời có thể so sánh các thành phần này
với nhau.
Câu lệnh: Analyze > Descriptive Statistic > Explore.

Ví dụ 2.13. Trong file dữ liệu “Data thuc hanh spss 16”, ta muốn tính toán các đại
lượng thống kê mô tả của biến tuoi (định lượng) theo biến gtinh (định tính) gồm giới
tính nam và nữ. Các bước được thực hiện như sau:
Bước 1: Dùng lệnh Analyze > Descriptive Statistic > Explore > đưa biến tuoi
(định lượng) vào ô Dependent List, biến gtinh (định tính) vào ô Factor List.


Bước 2: Nhấp Statistics > chọn Descriptives: khoảng tin cậy cho trung bình được
mặc định với độ tin cậy là 95%, ta có thể thay đổi giá trị này > Continue.

Bước 3: Nhấp Plots: quan tâm đến 2 lựa chọn thường gặp nhất:
Stem-and-leaf: dùng để tạo biểu đồ thân và lá, biểu đồ này giúp ta biết được
một số thông tin về mẫu và nó cũng thể hiện được phân phối của biến.
Normality plots with tests: dùng để vẽ biểu đồ xác suất chuẩn, giúp kiểm tra biến
có phân phối chuẩn hay không. Chọn xong, nhấp Continue để trở lại hộp thoại chính.
Bước 4: kết quả: bảng Descriptives cho ta thống kê mô tả của biến tuoi theo 2
nhóm nam và nữ trong bảng dưới đây:


Descriptives
gioi tinh
Tuoi

Nam

Mean

35.72

95% Confidence Interval for Lower Bound

Mean
Upper Bound

34.36

5% Trimmed Mean

35.34

Median

35.00

Variance
Std. Deviation

Nu

Statistic

Std. Error
.689

37.08

118.227
10.873

Minimum


18

Maximum

60

Range

42

Interquartile Range

17

Skewness

.423

.154

Kurtosis

-.842

.307

Mean

32.98


.720

95% Confidence Interval for Lower Bound
Mean
Upper Bound

31.57

5% Trimmed Mean

32.46

Median

30.00

Variance
Std. Deviation

34.40

130.160
11.409

Minimum

18

Maximum


60

Range

42

Interquartile Range

19

Skewness

.609

.154

Kurtosis

-.792

.306

Ý nghĩa của một số kết quả trong bảng trên như sau:
- Độ tuổi trung bình của nam là 35,72 và của nữ là 32,98. Như vậy trong mẫu
này cho thấy nữ nói chung trẻ tuổi hơn nam.
- Khoảng ước lượng cho tuổi trung bình của tổng thể đối với nam là (34,36 –
37,08) và nữ là (31,57 – 34,40) ở độ tin cậy 95%.
- Mức độ phân tán trong tuổi của nam lại ít hơn của nữ, điều này được thể hiện ở
độ lệch chuẩn của tuổi với nam là 10,873 và với nữ là 11,409.
- Độ tuổi nhỏ nhất và lớn nhất ở hai giới là như nhau, đó là 18 và 60.

- Phân phối của biến tuổi của cả nam và nữ đều là phân phối chuẩn đối vì các giá
trị của Skewness và Kurtosis nằm trong khoảng [-1; 1].


Hình 2.2. Biểu đồ Boxlot của biến tuổi phân theo giới tính

Theo hình 2.2, biến tuổi có giá trị trung vị (Median) của nam và nữ lần lượt là
khoảng 35 và 30, 25% tuổi của nam thấp hơn 26 và của nữ là thấp hơn 22, 75% tuổi
nam cao hơn 42 và nữ là 41 tuổi, tuổi thấp nhất của nam và nữ là 18 và cao nhất là 60.
Sau đây là kết quả biể đồ thân và lá của 2 biến:

tuoi Stem-and-Leaf Plot for gtinh = Nam
Frequency Stem & Leaf
3.00
1 . 899
46.00
2 . 0111111111112222222333333333333444444444444444
43.00
2 . 5555555556666667777777788888888888899999999
30.00
3 . 000000000111111122222223333444
33.00
3 . 555555566667777788888888888999999
38.00
4 . 00000000000011111111222222222233344444
22.00
4 . 5555666666667777788999
18.00
5 . 000001222344444444
15.00

5 . 555556669999999
1.00
6. 0
Stem width: 10
Each leaf:
1 case(s)
tuoi Stem-and-Leaf Plot for gtinh= Nu
Frequency Stem & Leaf
14.00
1 . 88888888999999
66.00
2 . 000000000000000111111112222222222222223333333333333344444444444444
41.00
2 . 55555555555566666666677777888888899999999
32.00
3 . 00000000111222222222223333444444
26.00
3 . 55555555666678888899999999
19.00
4 . 0000001122222233334
23.00
4 . 55555566667788888899999
18.00
5 . 000000011222233344
11.00
5 . 55556779999
1.00
6. 0
Stem width: 10
Each leaf:

1 case(s)

Giải thích biểu đồ thân và lá:
- Trong biểu đồ cho tuổi của nam: Độ rộng thân là 10, mỗi lá thể hiện cho 1
trường hợp. Hàng thứ nhất biểu diễn các số trong khoảng 10, tức là có 3 người: 1


người 18 tuổi và 2 người 19 tuổi. Hàng thứ hai biểu diễn các số trong khoảng 20, tức
là có 46 người: 1 người 20 tuổi, 11 người 21 tuổi, 7 người 22 tuổi, 12 người 23 tuổi và
15 người 24 tuổi. Tương tự cho ý nghĩa của các hàng còn lại.
- Trong biểu đồ cho tuổi của nữ: Độ rộng thân là 10, mỗi lá thể hiện cho 2 trường
hợp. Hàng thứ nhất biểu diễn các số trong khoảng 10, có 14 người: 8 người 18 tuổi và
6 người 19 tuổi. Tương tự cho ý nghĩa của các hàng còn lại. Chú ý ký hiệu “&” đại
diện cho 1 trường hợp (tức là 1 người).
2.6 Bảng kết hợp nhiều biến
2.6.1 Bảng kết hợp 2 biến định tính
Mô tả: tạo ra một bảng tần số của 2 biến định tính.
Câu lệnh: Analyze > Custom Tables.
Ví dụ 2.14. Trong file dữ liệu “Data thuc hanh spss 16”, ta muốn tính toán các đại
lượng thống kê mô tả của biến tuoi (định lượng) theo biến gtinh (định tính) gồm giới
tính nam và nữ. Ta tiến hành như sau:
Bước 1: Analyze > Custom Tables > Nhấp chuột vào biến và rê kéo sang Columns
hoặc Rows ở ô bên phải.

Bước 2: Kết quả được cho dưới đây:


trinh do hoc van
Cap 1


Cap 2

Cap 3 –
THCN

0

2

9

3

29

2

Giao vien

0

1

4

3

8

2


NVVP

0

1

18

6

30

1

ChuDN

0

0

0

1

2

0

NV cong ty KD


0

1

9

5

18

0

Tu KD SP -DV

1

5

35

4

11

0

buon ban nho

0


10

43

7

3

0

CN co tay nghe

0

10

26

2

4

0

LDPT

1

6


10

1

0

0

SVHS

0

1

10

53

2

0

Ve huu

0

5

14


2

2

0

khong LV

0

1

4

1

5

0

nghe chuyen mon

0

0

2

1


11

0

Nghe khac

2

13

31

2

4

0

nghe nghiep Cong chuc

CD –
SV DH

Tot nghiep
dh

Sau DH

2.6.2 Bảng kết hợp hơn 2 biến định tính

Để tạo bảng cho 3 biến trở lên, ta tiến hành tương tự như trên bằng cách kéo
thêm biến vào Columns hoặc Rows ở ô bên phải. Sau đây là bảng tổng hợp 3 biến
gtinh, hvan và tp:
Thanh Pho
Ha Noi

TPHCM

gioi tinh
trinh do hoc van

gioi tinh

Nam

Nu

Nam

Nu

Cap 1

0

0

1

3


Cap 2

5

6

30

15

Cap 3 - THCN

45

57

53

60

CD - SV DH

25

21

23

22


Tot nghiep dh

41

46

24

18

Sau DH

2

2

0

1

2.6.3 Bảng chéo Crosstabs
Mô tả: tạo ra một bảng tần số của 2 biến định tính. Trong phần này cho phép ta
kiểm định sự tương quan của 2 biến (Correlations) và tính độc lập giữa hai biến (Chisquare Test - vấn đề này được trình bày cụ thể ở chương 3).
Câu lệnh: Analyze > Descriptive Statistic > Crosstabs.
Ví dụ 2.15. Trong file dữ liệu “Data thuc hanh spss 16”, ta muốn tạo một bảng chéo
tần số giữa hai biến gtinh và tncn


Bước 1: Analyze > Descriptive Statistic > Crosstabs > đưa 2 biến vào ô Row và

Column tương ứng bên phải.

Bước 2: kết quả thu được:
gioi tinh * TN ca nhan TB thang Crosstabulation
TN ca nhan TB thang
Khong
gioi tinh
Total

duoi 1tr

1-2 tr

2-4 tr

tren 4 tr

Total

Nam

30

95

96

21

7


249

Nu

47
77

109
204

88
184

6
27

1
8

251
500

2.7 Bảng tần số cho câu hỏi nhiều lựa chọn
Mô tả: Để tạo bảng tần số (bảng đơn hoặc kết hợp với biến định tính khác) ta
gom các biến thành phần lại thành một biến, sau đó thực hiện tương tự các phần trên.
Câu lệnh: Analyze > Multible Response > Define Variable Sets.
Ví dụ 2.16. Trong file dữ liệu “Data thuc hanh spss 16”, ta muốn tạo bảng tần số cho
biến c2a1…c2a9 là câu hỏi nhiều lựa chọn. Ta tiến hành như sau:



Bước 1: Analyze > Multible Response > Define Variable Sets > đưa 9 biến trên
qua khung bên phải > Categories ta đánh 1 và 19 vào 2 ô tương ứng (đây là 19 giá trị
được mã hóa của biến đang xét) > đặt tên cho biến mới tạo ra từ 9 biến này trong ô
Name và Label > Add > Close. Trong bước này, ta có thể tiếp tục gom nhóm các câu
hỏi nhiều lựa chọn khác.
Bước 2: Analyze >
Multible Response >
Frequencies (tạo bảng
tần số)

Bước 3: Kết quả:

$c2 Frequencies
Responses
N
cau 2

a

HN moi

Percent of Cases

Percent
122

5.1%

24.4%


SG giai phong

70

2.9%

14.0%

Lao dong

79

3.3%

15.8%

Nguoi lao dong

74

3.1%

14.8%


$c2 Frequencies
tien phong

92


3.9%

18.4%

thanh nien

85

3.6%

17.0%

tuoi tre

241

10.1%

48.2%

phu nu VN

120

5.0%

24.0%

phu nu TPHCM


82

3.4%

16.4%

thoi bao KT VN

35

1.5%

7.0%

thoi bao KT SG

21

.9%

4.2%

sai gon tiep thi

159

6.7%

31.8%


the gioi phu nu

164

6.9%

32.8%

tiep thi va gia dinh

60

2.5%

12.0%

mua va ban

58

2.4%

11.6%

an ninh the gioi

299

12.6%


59.8%

an ninh thu do

191

8.0%

38.2%

cong an TPHCM

232

9.7%

46.4%

198
2382

8.3%
100.0%

39.6%
476.4%

Khac
Total


Bước 3: Analyze > Multible Response > Crostabs: tạo bảng chéo của biến vừa
tạo ra với biến khác (ví dụ: gtinh):

Bước 4: Bấm vào Define Range để định nghĩa lại miền giá trị của biến gtinh:

Bước 5: Trong Options cho phép ta tính phần trăm theo dòng hay theo cột tùy
vào lựa chọn.


×