Thống kê SPSS trong xử lý dự liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.92 MB, 117 trang )

30/11/2018

ỨNG DỤNG SPSS

PHÂN TÍCH DỮ LIỆU
THỐNG KÊ

1

NỘI DUNG
1

Giới thiệu chung về phân tích và dự đoán thống kê

2

Mô tả dữ liệu thống kê

3

Ước lượng và kiểm định giả thuyết thống kê

4

Phân tích hồi quy tương quan

5

Phân tích dãy số thời gian và dự đoán

2

1

30/11/2018

BÀI 1
GIỚI THIỆU CHUNG VỀ PHÂN TÍCH VÀ DỰ ĐOÁN THỐNG KÊ

I

II

III

MỘT SỐ KHÁI
NIỆM CHUNG

GIỚI THIỆU
PHẦN MỀM
SPSS

QUẢN LÝ DỮ
LIỆU TRONG
SPSS

1. Thống kê học:
Thống kê học là khoa học nghiên cứu hệ thống
phương pháp (thu thập, xử lý, phân tích) con số (mặt
lượng) của các hiện tượng số lớn tìm bản chất và tính

quy luật (mặt chất) trong những điều kiện nhất định.

2

30/11/2018

1. Thống kê học:
Thống kê là việc thu thập, trình bày, phân tích và
diễn giải các dữ liệu dưới dạng số (Croxton và ctg)

Các phương pháp thống kê

Phương pháp
thống kê

Thống
kê mô tả

Thống kê
suy luận

3

30/11/2018

1. Tổng thể thống kê và đơn vị tổng thể
Tổng thể thống kê là hiện tượng số lớn gồm các đơn
vị (phần tử) cần quan sát và phân tích mặt lượng.

Các đơn vị (phần tử) - đơn vị tổng thể.

2. Tiêu thức thống kê
Tiêu thức thống kê - đặc điểm của đơn vị tổng thể
được chọn để nghiên cứu

4

30/11/2018

3. Chỉ tiêu thống kê
Chỉ tiêu thống kê phản ánh mặt lượng gắn với chất
của các hiện tượng trong điều kiện thời gian và địa
điểm cụ thể.

CÁC THANG ĐO TRONG THỐNG KÊ
Đánh số các biểu hiện
cùng loại của tiêu thức
THANG ĐO ĐỊNH DANH Biểu hiệu có
thứ tự hơn kém
(Nominal Scale)
Tiêu thức
thuộc tính

THANG ĐO THỨ BẬC
(Ordinal Scale)

Có khoảng cách
bằng nhau

THANG ĐO KHOẢNG
(Interval Scale)
Tiêu thức
Số lượng

Có gốc 0

THANG ĐO TỶ LỆ
(Ratio Scale)

5

30/11/2018

II. Giới thiệu chung về SPSS
SPSS (Statistical Package for Social Sciences)
Là phần mềm chuyên dụng xử lý thông tin sơ
cấp (thông tin được thu thập trực tiếp từ đối
tượng nghiên cứu thông qua bảng hỏi được
thiết kế sẵn)

11

Các màn hình SPSS
- Màn hình quản lý dữ liệu
- Màn hình quản lý biến
- Màn hình hiển thị kết quả
- Màn hình cú pháp

12

6

30/11/2018

Màn hình quản lý dữ liệu
(data view)

Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao
13
gồm cột, hàng

Màn hình quản lý biến
(variables view)

Dùng để quản lý các biến và các thông tin liên quan đến biến, cơ
14
sở dữ liệu được lưu trữ dưới dạng *.SAV

7

30/11/2018

Màn hình hiện thị kết quả
(output)

Các kết quả có thể copy hoặc copy object hoặc export sang các
phần mềm khác như word hay Excel,... Màn hình này cho phép ta
xem và lưu giữ các kết quả phân tích (*.SPO)
15

Màn hình cú pháp (syntax)

Màn hình này cho phép ta xem/soạn thảo cú pháp của các lệnh
phân tích (các câu lệnh). Các cú pháp được lưu trữ với phần
16
mở rộng (*.SPS)

8

30/11/2018

Các menu chính
File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…
Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,…
View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,…
Data: các vấn đề liên quan đến dữ liệu,…
Transform: chuyển đổi dữ liệu, tính toán, mã hóa lại các biến,…
Analyze: các phân tích thống kê,…
Graphs: biểu đồ và đồ thị,…
Utilities: thông tin về các biến và file,…
Window: sắp xếp và di chuyển các cửa sổ làm việc
Help: trợ giúp
17

III. Quản lý dữ liệu trong SPSS
1. Tạo lập Cơ sở dữ liệu
2. Tạo biến trong cơ sở dữ liệu
3. Mã hóa lại dữ liệu
4. Lựa chọn các quan sát
5. Tách dữ liệu
6. Gộp dữ liệu
7. Lựa chọn quyền số cho các quan sát
18

9

30/11/2018

1. Tạo lập cơ sở dữ liệu trong SPSS
Cơ sở dữ liệu (định nghĩa kiểu kĩ thuật): là
một tập hợp thông tin có cấu trúc.
Thành phần của CSDL
• Quan sát (Observation): chứa thông tin về 1
đối tượng điều tra/thời gian nghiên cứu
• Biến (variable): thể hiện các thuộc tính của
quan sát
19

Phân loại biến theo số lượng câu trả lời
Biến một trả lời (câu hỏi lựa chọn)
Biến nhiều trả lời (câu hỏi tuỳ chọn)

20

10

30/11/2018

Biến một trả lời
Câu hỏi 1: Hãy cho biết bạn ở nhóm tuổi nào trong số
những nhóm tuổi sau:
Nhóm tuổi

code

Dưới 18

1

18 đến 30
31 đến 40
41 đến 50
Trên 50

2
3
4
5

Mỗi câu hỏi sẽ hình thành một biến với các giá trị tương ứng
21

Biến nhiều trả lời
Câu hỏi 2: Nói đến thuốc lá, bạn biết được những nhãn hiệu
nào trong danh sách liệt kê dưới đây:
Nhãn hiệu
Vinataba
Marlboro
KENT
JET

code
1
2
3
4

Mỗi biểu hiện sẽ hình thành một biến với 2 giá trị (có và không)
22

11

30/11/2018

Phân loại biến theo kiểu dữ liệu
Biến định tính
• Thang đo định danh (nominal scale)
• Thanh đo thứ bậc (ordinal scale)
Biến định lượng
• Thang đo khoảng (interval scale)
• Thang đo tỷ lệ (ratio scale)

23

Các loại/dạng dữ liệu trong SPSS
Dữ liệu chéo – cross data: Mỗi quan sát là một
đơn vị theo “không gian”
Dữ liệu chuỗi/thời gian – time serial data: Mỗi
quan sát là một đơn vị theo “thời gian”

24

12

30/11/2018

Khai báo biến trong SPSS
Variable Name (tên biến)
Các qui tắc dưới đây được áp dụng cho tên biến:
• Tên phải bắt đầu bằng một chữ.
• Độ dài của tên biến không vượt quá 8 ký tự.
• Tên biến không được kết thúc bằng một dấu chấm.
• Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) không
được sử dụng
• Tên biến phải duy nhất (không được phép trùng lặp), phân biệt
chữ trong tên biến. Các tên NEWVAR, NewVar, và newvar được xem
là giống nhau.
• Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (để
tránh xung đột với các biến được tự động lập bởi một số thủ tục)
25

Khai báo biến trong SPSS
Variable Type (kiểu biến)

26

13

30/11/2018

Khai báo biến trong SPSS
Labels (nhãn biến) – dùng để giải thích rõ ý nghĩa cho từng
biến và hiện thị kết quả khi chạy dữ liệu
Ví dụ: biến “q1” là biến “giới tính”

27

Khai báo biến trong SPSS
Value (giá trị của từng mã hoá) – dùng để giải thích rõ ý
nghĩa từng giá trị và hiện thị kết quả khi chạy dữ liệu
Ví dụ: 1 là nam
2 là nữ

28

14

30/11/2018

Khai báo biến trong SPSS
Missing (giá trị khuyết) – dùng để loại những giá trị không
có ý nghĩa

Các giá trị khuyết sẽ không tham gia vào quá trình phân tích
29

Khai báo biến trong SPSS
Measure (thang đo)
SPSS phân ra 3 loại thang đo
- Nominal (thang đo định danh)
- Ordinal (thang đo thứ bậc)
- Scale (thang đo khoảng và thang đo tỷ lệ)

30

15

30/11/2018

Khai báo biến trong SPSS
Width (Xác định số lượng ký tự hiện thị cho giá trị - chỉ có
giá trị với biến String)
Decimals (số lượng số hiện thị sau dấu phẩy)
Column format (Định kích cỡ cho cột- độ rộng của cột)
Align (Định ra vị trí hiện thị các giá trị - căn phải/trái/giữa)

31

Ví dụ thực hành
Tạo cơ cở dữ liệu

32

16

30/11/2018

33

Nhập dữ liệu

Thường nhập dữ liệu theo từng đối tượng (từng bản
ghi) hoặc cũng có thể theo từng biến
34

17

30/11/2018

TẠO DỮ LIỆU SPSS TỪ PHẦN MỀM KHÁC
• File > Open > Data…

• Trong mục File of type chọn định dạng file phù hợp hoặc
chọn All Files (*.*)
35

Mở một tệp tin {file} Excel

-Tại cửa sổ Data View, từ thanh menu chọn: File / Open / Data...
- Trong hộp thoại Open File, chọn file mà bạn muốn mở
- Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loại
file (Files of type) và sau đó chọn tên file (File name)
- Nhắp Open
36

18

30/11/2018

2. Tạo biến trong cơ sở dữ liệu
Transform > Compute Variable…
Tạo ra một biến mới theo biểu
thức mô tả (Numeric expression)
Biểu thức có thể là một phép tính,
một hàm,…

Nếu tính theo một điều kiện nào
đó thì nhấn vào if (đặt điều kiện
vào tính toán cho biểu thức)

37

2. Tạo biến trong cơ sở dữ liệu
Phép toán
+

Cộng
Trừ
*
Nhân
/
Chia
**
Luỹ thừa

Toán tử
>
Lớn hơn
<
Nhỏ hơn
>=
Lớn hơn hoặc bằng
<=
Nhỏ hơn hoặc bằng
=
Bằng
~=
Không bằng
&
Và
|
Hoặc

38

19

30/11/2018

2. Tạo biến trong cơ sở dữ liệu
Phép toán
+
Cộng
Trừ
*
Nhân
/
Chia
**
Luỹ thừa

Toán tử
>
Lớn hơn
<
Nhỏ hơn
>=
Lớn hơn hoặc bằng
<=
Nhỏ hơn hoặc bằng
=
Bằng
~=
Không bằng
&

Và
|
Hoặc

39

2. Tạo biến trong cơ sở dữ liệu
MỘT SỐ HÀM THÔNG DỤNG:

ABS(numexpr) – Trả về giá trị tuyệt đối
EXP(numexpr) – Trả về luỹ thừa của cơ số e
SQRT(numexpr) – Lấy căn bậc 2 của biểu thức
MIN(value,value[,...]) – Lấy giá trị nhỏ nhất
MAX(value,value[,...]) – Lấy giá trị lớn nhất
SUM(numexpr, numexpr[,...]) – Tính tổng của các số
MEAN(numexpr, numexpr[,...]) – Tính trung bình cộng
MEDIAN(numexpr, numexpr[,...]) – Tính trung vị
VARIAN(numexpr, numexpr[,...]) – Tính phương sai
SD(numexpr, numexpr[,...]) – Tính độ lệch chuẩn
40

20

30/11/2018

2. Tạo biến trong cơ sở dữ liệu
LOWER(strexpr) – Viết thường các ký tự
UPCASE(strexpr) – Viết hoa các ký tự
LTRIM(strexpr) – Cắt khoảng trắng phía trái

RTRIM(strexpr) – Cắt khoảng trắng phía phải
STRING(numexpr, format) – Chuyển định dạng số sang chuỗi với định
dạng [F##.##]
CONCAT(strexpr, strexpr[,...]) – Nối các chuỗi ký tự
CHAR.RPAD(strexpr1,length,strexpr2) - Thêm các ký tự strexpr2 vào
bên phải strexpr1 với độ ký tự xác định
CHAR.LPAD(strexpr1,length, strexpr2) - Thêm các ký tự strexpr2 vào
bên trái strexpr1 với độ ký tự xác định
CHAR.SUBSTR(strexpr,pos,[,length]) - Lấy ký tự từ vị trí xác định
theo độ dài xác định [hoặc đến hết]
41

3. Mã hoá lại dữ liệu
- Mã hoá lại dữ liệu thành một biến khác
Transform > Recode into Different Variables…
• Chọn các biến muốn mã hoá, Nếu
chọn nhiều biến, chúng phải có cùng
dạng (chuỗi hoặc số)
• Click vào Old and New Values và
định rõ cách mã hoá lại trị số.
• Sau đó nhấn Change

Nhấn If để xác định một nhóm các đối
tượng cũng giống như đã được mô tả
trong mục tính toán biến {Compute
Variable}

42

21

30/11/2018

3. Mã hoá lại dữ liệu
- Mã hoá lại dữ liệu trên cùng 1 biến (không tạo ra biến mới)
Transform > Recode into Same Variables…
(không khuyến nghị thực hiện theo cách này!)
Thực hiện tương tự như trường hợp trên nhưng biến mới được tạo
ra thay cho biến cũ

43

3. Mã hoá dữ liệu tự động
• Là phương pháp mã hóa tự động các giá trị dạng chuỗi sang
dạng số vào trong một biến mới. Biến mới này sẽ chứa các
con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ
đại diện cho các giá trị dạng chuổi giống nhau .
• Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe.
Transform > Automatic Recode

44

22

30/11/2018

4. Lựa chọn các quan sát
Mặc định SPSS tính toán dựa trên tất cả các quan sát trong CSDL, muốn

thực hiện trên một số quan sát sẽ tiến hành như sau:
Data > Select cases
- Các quan sát không lựa chọn
được giữ và có dấu gạch chéo
chọn Filtered -> máy sẽ tạo ra
một biến Filter_$ (lần sau nếu
chọn tương tự thì sử dụng biến
này để đưa vào ô Use filter
variable)
- Các quan sát được chọn sẽ
được lưu sang cơ sở dữ liệu mới
chọn Copy selected cases to a
new dataset và đặt tên trong ô
Dataset name
- Các quan sát không lựa chọn
bị xoá, chọn Deleted
unselected cases
45

5. Tách dữ liệu
Theo mặc định SPSS sẽ tính toán trên toàn bộ dữ liệu, muốn tính theo
từng nhóm nào đó sử dụng công cụ tách dữ liệu
Data > Split File
Đưa biến phân loại đưa sang ô
Groups Based on:
Chọn Compare groups nếu muốn
so sánh giữa các nhóm
Chọn Organize output by groups
nếu muốn tách theo từng nhóm
riêng biệt

46

23

30/11/2018

6. Gộp dữ liệu
Data/ Aggregate Data

Lệnh này giúp gộp dữ liệu (các quan sát) theo 1 (một số) biến nào đó:
- Chuyển biến được chọn làm cơ sở để tập hợp
dữ liệu sang cửa sổ Break Variable(s)
- Chuyển biến muốn tập hợp sang cửa sổ
Summaries of Variables
- Chọn Funtion để xác định các hàm tập hợp
- Vào Name & Label để đặt tên và nhãn cho
biến mới

Để biến mới tập hợp
trong file dữ liệu hiện tại
Tạo file dữ liệu
mới cho kết quả
tập hợp
47

7. Lựa chọn quyền số cho các quan sát
Mặc định SPSS coi mỗi bản ghi là một quan sát, khi mỗi quan sát đại diện
cho một số lượng các quan sát, sử dụng quyền số.

Data > Weight cases
Chọn Weight case by và đưa
biến làm quyền số vào ô
Frequency variable

48

24

30/11/2018

BÀI 2
MÔ TẢ DỮ LIỆU THỐNG KÊ
I

II

III

MÔ TẢ DỮ LIỆU
QUA CÁC THAM
SỐ THỐNG KÊ

MÔ TẢ DỮ LIỆU
QUA BẢNG
THỐNG KÊ

MÔ TẢ DỮ LIỆU
QUA ĐỒ THỊ

THỐNG KÊ

1. Các mức độ trung tâm
- Số bình quân (trung bình)
- Mốt (Mo)
- Số trung vị (Me)

50

25

Thống kê SPSS trong xử lý dự liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về