30/11/2018
ỨNG DỤNG SPSS
PHÂN TÍCH DỮ LIỆU
THỐNG KÊ
1
NỘI DUNG
1
Giới thiệu chung về phân tích và dự đoán thống kê
2
Mô tả dữ liệu thống kê
3
Ước lượng và kiểm định giả thuyết thống kê
4
Phân tích hồi quy tương quan
5
Phân tích dãy số thời gian và dự đoán
2
1
30/11/2018
BÀI 1
GIỚI THIỆU CHUNG VỀ PHÂN TÍCH VÀ DỰ ĐOÁN THỐNG KÊ
I
II
III
MỘT SỐ KHÁI
NIỆM CHUNG
GIỚI THIỆU
PHẦN MỀM
SPSS
QUẢN LÝ DỮ
LIỆU TRONG
SPSS
1. Thống kê học:
Thống kê học là khoa học nghiên cứu hệ thống
phương pháp (thu thập, xử lý, phân tích) con số (mặt
lượng) của các hiện tượng số lớn tìm bản chất và tính
quy luật (mặt chất) trong những điều kiện nhất định.
2
30/11/2018
1. Thống kê học:
Thống kê là việc thu thập, trình bày, phân tích và
diễn giải các dữ liệu dưới dạng số (Croxton và ctg)
Các phương pháp thống kê
Phương pháp
thống kê
Thống
kê mô tả
Thống kê
suy luận
3
30/11/2018
1. Tổng thể thống kê và đơn vị tổng thể
Tổng thể thống kê là hiện tượng số lớn gồm các đơn
vị (phần tử) cần quan sát và phân tích mặt lượng.
Các đơn vị (phần tử) - đơn vị tổng thể.
2. Tiêu thức thống kê
Tiêu thức thống kê - đặc điểm của đơn vị tổng thể
được chọn để nghiên cứu
4
30/11/2018
3. Chỉ tiêu thống kê
Chỉ tiêu thống kê phản ánh mặt lượng gắn với chất
của các hiện tượng trong điều kiện thời gian và địa
điểm cụ thể.
CÁC THANG ĐO TRONG THỐNG KÊ
Đánh số các biểu hiện
cùng loại của tiêu thức
THANG ĐO ĐỊNH DANH Biểu hiệu có
thứ tự hơn kém
(Nominal Scale)
Tiêu thức
thuộc tính
THANG ĐO THỨ BẬC
(Ordinal Scale)
Có khoảng cách
bằng nhau
THANG ĐO KHOẢNG
(Interval Scale)
Tiêu thức
Số lượng
Có gốc 0
THANG ĐO TỶ LỆ
(Ratio Scale)
5
30/11/2018
II. Giới thiệu chung về SPSS
SPSS (Statistical Package for Social Sciences)
Là phần mềm chuyên dụng xử lý thông tin sơ
cấp (thông tin được thu thập trực tiếp từ đối
tượng nghiên cứu thông qua bảng hỏi được
thiết kế sẵn)
11
Các màn hình SPSS
- Màn hình quản lý dữ liệu
- Màn hình quản lý biến
- Màn hình hiển thị kết quả
- Màn hình cú pháp
12
6
30/11/2018
Màn hình quản lý dữ liệu
(data view)
Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao
13
gồm cột, hàng
Màn hình quản lý biến
(variables view)
Dùng để quản lý các biến và các thông tin liên quan đến biến, cơ
14
sở dữ liệu được lưu trữ dưới dạng *.SAV
7
30/11/2018
Màn hình hiện thị kết quả
(output)
Các kết quả có thể copy hoặc copy object hoặc export sang các
phần mềm khác như word hay Excel,... Màn hình này cho phép ta
xem và lưu giữ các kết quả phân tích (*.SPO)
15
Màn hình cú pháp (syntax)
Màn hình này cho phép ta xem/soạn thảo cú pháp của các lệnh
phân tích (các câu lệnh). Các cú pháp được lưu trữ với phần
16
mở rộng (*.SPS)
8
30/11/2018
Các menu chính
File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…
Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,…
View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,…
Data: các vấn đề liên quan đến dữ liệu,…
Transform: chuyển đổi dữ liệu, tính toán, mã hóa lại các biến,…
Analyze: các phân tích thống kê,…
Graphs: biểu đồ và đồ thị,…
Utilities: thông tin về các biến và file,…
Window: sắp xếp và di chuyển các cửa sổ làm việc
Help: trợ giúp
17
III. Quản lý dữ liệu trong SPSS
1. Tạo lập Cơ sở dữ liệu
2. Tạo biến trong cơ sở dữ liệu
3. Mã hóa lại dữ liệu
4. Lựa chọn các quan sát
5. Tách dữ liệu
6. Gộp dữ liệu
7. Lựa chọn quyền số cho các quan sát
18
9
30/11/2018
1. Tạo lập cơ sở dữ liệu trong SPSS
Cơ sở dữ liệu (định nghĩa kiểu kĩ thuật): là
một tập hợp thông tin có cấu trúc.
Thành phần của CSDL
• Quan sát (Observation): chứa thông tin về 1
đối tượng điều tra/thời gian nghiên cứu
• Biến (variable): thể hiện các thuộc tính của
quan sát
19
Phân loại biến theo số lượng câu trả lời
Biến một trả lời (câu hỏi lựa chọn)
Biến nhiều trả lời (câu hỏi tuỳ chọn)
20
10
30/11/2018
Biến một trả lời
Câu hỏi 1: Hãy cho biết bạn ở nhóm tuổi nào trong số
những nhóm tuổi sau:
Nhóm tuổi
code
Dưới 18
1
18 đến 30
31 đến 40
41 đến 50
Trên 50
2
3
4
5
Mỗi câu hỏi sẽ hình thành một biến với các giá trị tương ứng
21
Biến nhiều trả lời
Câu hỏi 2: Nói đến thuốc lá, bạn biết được những nhãn hiệu
nào trong danh sách liệt kê dưới đây:
Nhãn hiệu
Vinataba
Marlboro
KENT
JET
code
1
2
3
4
Mỗi biểu hiện sẽ hình thành một biến với 2 giá trị (có và không)
22
11
30/11/2018
Phân loại biến theo kiểu dữ liệu
Biến định tính
• Thang đo định danh (nominal scale)
• Thanh đo thứ bậc (ordinal scale)
Biến định lượng
• Thang đo khoảng (interval scale)
• Thang đo tỷ lệ (ratio scale)
23
Các loại/dạng dữ liệu trong SPSS
Dữ liệu chéo – cross data: Mỗi quan sát là một
đơn vị theo “không gian”
Dữ liệu chuỗi/thời gian – time serial data: Mỗi
quan sát là một đơn vị theo “thời gian”
24
12
30/11/2018
Khai báo biến trong SPSS
Variable Name (tên biến)
Các qui tắc dưới đây được áp dụng cho tên biến:
• Tên phải bắt đầu bằng một chữ.
• Độ dài của tên biến không vượt quá 8 ký tự.
• Tên biến không được kết thúc bằng một dấu chấm.
• Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) không
được sử dụng
• Tên biến phải duy nhất (không được phép trùng lặp), phân biệt
chữ trong tên biến. Các tên NEWVAR, NewVar, và newvar được xem
là giống nhau.
• Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (để
tránh xung đột với các biến được tự động lập bởi một số thủ tục)
25
Khai báo biến trong SPSS
Variable Type (kiểu biến)
26
13
30/11/2018
Khai báo biến trong SPSS
Labels (nhãn biến) – dùng để giải thích rõ ý nghĩa cho từng
biến và hiện thị kết quả khi chạy dữ liệu
Ví dụ: biến “q1” là biến “giới tính”
27
Khai báo biến trong SPSS
Value (giá trị của từng mã hoá) – dùng để giải thích rõ ý
nghĩa từng giá trị và hiện thị kết quả khi chạy dữ liệu
Ví dụ: 1 là nam
2 là nữ
28
14
30/11/2018
Khai báo biến trong SPSS
Missing (giá trị khuyết) – dùng để loại những giá trị không
có ý nghĩa
Các giá trị khuyết sẽ không tham gia vào quá trình phân tích
29
Khai báo biến trong SPSS
Measure (thang đo)
SPSS phân ra 3 loại thang đo
- Nominal (thang đo định danh)
- Ordinal (thang đo thứ bậc)
- Scale (thang đo khoảng và thang đo tỷ lệ)
30
15
30/11/2018
Khai báo biến trong SPSS
Width (Xác định số lượng ký tự hiện thị cho giá trị - chỉ có
giá trị với biến String)
Decimals (số lượng số hiện thị sau dấu phẩy)
Column format (Định kích cỡ cho cột- độ rộng của cột)
Align (Định ra vị trí hiện thị các giá trị - căn phải/trái/giữa)
31
Ví dụ thực hành
Tạo cơ cở dữ liệu
32
16
30/11/2018
33
Nhập dữ liệu
Thường nhập dữ liệu theo từng đối tượng (từng bản
ghi) hoặc cũng có thể theo từng biến
34
17
30/11/2018
TẠO DỮ LIỆU SPSS TỪ PHẦN MỀM KHÁC
• File > Open > Data…
• Trong mục File of type chọn định dạng file phù hợp hoặc
chọn All Files (*.*)
35
Mở một tệp tin {file} Excel
-Tại cửa sổ Data View, từ thanh menu chọn: File / Open / Data...
- Trong hộp thoại Open File, chọn file mà bạn muốn mở
- Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loại
file (Files of type) và sau đó chọn tên file (File name)
- Nhắp Open
36
18
30/11/2018
2. Tạo biến trong cơ sở dữ liệu
Transform > Compute Variable…
Tạo ra một biến mới theo biểu
thức mô tả (Numeric expression)
Biểu thức có thể là một phép tính,
một hàm,…
Nếu tính theo một điều kiện nào
đó thì nhấn vào if (đặt điều kiện
vào tính toán cho biểu thức)
37
2. Tạo biến trong cơ sở dữ liệu
Phép toán
+
Cộng
Trừ
*
Nhân
/
Chia
**
Luỹ thừa
Toán tử
>
Lớn hơn
<
Nhỏ hơn
>=
Lớn hơn hoặc bằng
<=
Nhỏ hơn hoặc bằng
=
Bằng
~=
Không bằng
&
Và
|
Hoặc
38
19
30/11/2018
2. Tạo biến trong cơ sở dữ liệu
Phép toán
+
Cộng
Trừ
*
Nhân
/
Chia
**
Luỹ thừa
Toán tử
>
Lớn hơn
<
Nhỏ hơn
>=
Lớn hơn hoặc bằng
<=
Nhỏ hơn hoặc bằng
=
Bằng
~=
Không bằng
&
Và
|
Hoặc
39
2. Tạo biến trong cơ sở dữ liệu
MỘT SỐ HÀM THÔNG DỤNG:
ABS(numexpr) – Trả về giá trị tuyệt đối
EXP(numexpr) – Trả về luỹ thừa của cơ số e
SQRT(numexpr) – Lấy căn bậc 2 của biểu thức
MIN(value,value[,...]) – Lấy giá trị nhỏ nhất
MAX(value,value[,...]) – Lấy giá trị lớn nhất
SUM(numexpr, numexpr[,...]) – Tính tổng của các số
MEAN(numexpr, numexpr[,...]) – Tính trung bình cộng
MEDIAN(numexpr, numexpr[,...]) – Tính trung vị
VARIAN(numexpr, numexpr[,...]) – Tính phương sai
SD(numexpr, numexpr[,...]) – Tính độ lệch chuẩn
40
20
30/11/2018
2. Tạo biến trong cơ sở dữ liệu
LOWER(strexpr) – Viết thường các ký tự
UPCASE(strexpr) – Viết hoa các ký tự
LTRIM(strexpr) – Cắt khoảng trắng phía trái
RTRIM(strexpr) – Cắt khoảng trắng phía phải
STRING(numexpr, format) – Chuyển định dạng số sang chuỗi với định
dạng [F##.##]
CONCAT(strexpr, strexpr[,...]) – Nối các chuỗi ký tự
CHAR.RPAD(strexpr1,length,strexpr2) - Thêm các ký tự strexpr2 vào
bên phải strexpr1 với độ ký tự xác định
CHAR.LPAD(strexpr1,length, strexpr2) - Thêm các ký tự strexpr2 vào
bên trái strexpr1 với độ ký tự xác định
CHAR.SUBSTR(strexpr,pos,[,length]) - Lấy ký tự từ vị trí xác định
theo độ dài xác định [hoặc đến hết]
41
3. Mã hoá lại dữ liệu
- Mã hoá lại dữ liệu thành một biến khác
Transform > Recode into Different Variables…
• Chọn các biến muốn mã hoá, Nếu
chọn nhiều biến, chúng phải có cùng
dạng (chuỗi hoặc số)
• Click vào Old and New Values và
định rõ cách mã hoá lại trị số.
• Sau đó nhấn Change
Nhấn If để xác định một nhóm các đối
tượng cũng giống như đã được mô tả
trong mục tính toán biến {Compute
Variable}
42
21
30/11/2018
3. Mã hoá lại dữ liệu
- Mã hoá lại dữ liệu trên cùng 1 biến (không tạo ra biến mới)
Transform > Recode into Same Variables…
(không khuyến nghị thực hiện theo cách này!)
Thực hiện tương tự như trường hợp trên nhưng biến mới được tạo
ra thay cho biến cũ
43
3. Mã hoá dữ liệu tự động
• Là phương pháp mã hóa tự động các giá trị dạng chuỗi sang
dạng số vào trong một biến mới. Biến mới này sẽ chứa các
con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ
đại diện cho các giá trị dạng chuổi giống nhau .
• Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe.
Transform > Automatic Recode
44
22
30/11/2018
4. Lựa chọn các quan sát
Mặc định SPSS tính toán dựa trên tất cả các quan sát trong CSDL, muốn
thực hiện trên một số quan sát sẽ tiến hành như sau:
Data > Select cases
- Các quan sát không lựa chọn
được giữ và có dấu gạch chéo
chọn Filtered -> máy sẽ tạo ra
một biến Filter_$ (lần sau nếu
chọn tương tự thì sử dụng biến
này để đưa vào ô Use filter
variable)
- Các quan sát được chọn sẽ
được lưu sang cơ sở dữ liệu mới
chọn Copy selected cases to a
new dataset và đặt tên trong ô
Dataset name
- Các quan sát không lựa chọn
bị xoá, chọn Deleted
unselected cases
45
5. Tách dữ liệu
Theo mặc định SPSS sẽ tính toán trên toàn bộ dữ liệu, muốn tính theo
từng nhóm nào đó sử dụng công cụ tách dữ liệu
Data > Split File
Đưa biến phân loại đưa sang ô
Groups Based on:
Chọn Compare groups nếu muốn
so sánh giữa các nhóm
Chọn Organize output by groups
nếu muốn tách theo từng nhóm
riêng biệt
46
23
30/11/2018
6. Gộp dữ liệu
Data/ Aggregate Data
Lệnh này giúp gộp dữ liệu (các quan sát) theo 1 (một số) biến nào đó:
- Chuyển biến được chọn làm cơ sở để tập hợp
dữ liệu sang cửa sổ Break Variable(s)
- Chuyển biến muốn tập hợp sang cửa sổ
Summaries of Variables
- Chọn Funtion để xác định các hàm tập hợp
- Vào Name & Label để đặt tên và nhãn cho
biến mới
Để biến mới tập hợp
trong file dữ liệu hiện tại
Tạo file dữ liệu
mới cho kết quả
tập hợp
47
7. Lựa chọn quyền số cho các quan sát
Mặc định SPSS coi mỗi bản ghi là một quan sát, khi mỗi quan sát đại diện
cho một số lượng các quan sát, sử dụng quyền số.
Data > Weight cases
Chọn Weight case by và đưa
biến làm quyền số vào ô
Frequency variable
48
24
30/11/2018
BÀI 2
MÔ TẢ DỮ LIỆU THỐNG KÊ
I
II
III
MÔ TẢ DỮ LIỆU
QUA CÁC THAM
SỐ THỐNG KÊ
MÔ TẢ DỮ LIỆU
QUA BẢNG
THỐNG KÊ
MÔ TẢ DỮ LIỆU
QUA ĐỒ THỊ
THỐNG KÊ
1. Các mức độ trung tâm
- Số bình quân (trung bình)
- Mốt (Mo)
- Số trung vị (Me)
50
25