REVIEW STATISTICS
1. Khái niệm về đo lường
Đo lường là hoạt động gán con số (biểu tượng) để biểu diễn cho đặc điểm
(thuộc tính) của đối tượng (theo một quy tắc nhất định) để:
o Mơ tả thuộc tính của đối tượng
o So sánh thuộc tính của đối tượng này với đối tượng khác
Ví dụ: Thuộc tính? Biểu tượng? Gán?
ID
Tên
Giới tính
1
2
3
Nguyễn Văn A
Nguyễn Thị B
Nguyễn Văn C
nam
nữ
nam
Gende
r
1
2
1
Gender
2
M
F
M
Biến khác
…
…
…
2. 4 levels of measurement
Types of
4 levels of measurement
variable
SPSS
1. Nominal: định danh
(loại biến số)
Qualitative Var
Nomina
2. Ordinal: thứ tự
(Biến định tính)
l
Quatitative Var
Ordinal
Scale
3. Internal: khoảng bằng nhau. Khơng “True
zero”. Ví dụ: độ C, quyết định mua hàng, mức
độ hài lòng,…
4. Ratio: tỷ lệ. Chia các khoảng cách bằng nhau
+ True zero (gốc 0 cố định-ở đó khơng thể đo
lường được ví dụ: 0kg, 0cm, 0 độ F…)
(Biến định lượng)
Questionnaire Coding: ID, Items (Observed Vars/Indicators), Answer
3. SPSS:
3.1.
Import data:
File => Import Data => Excel…=> chọn file (3_Preprocessing…)
Chọn sheet (Data Screening)
Chọn “Read variablename from first row of data”
3.2.
Variable Management:
Name (of variable)
Type (of values): đã số hóa hết => Numeric
Qualitative Var
Quantitative Var
√
√
Lable (of Variable)
Biến có nhiều Item => gắn vào
cột N khi chạy phân tích
(Lable of) Values
Measure
√
KHƠNG GẮN
Nominal/Ordinal
Scale
3.3.
Thống kê mô tả:
Qualitative Var
o Lệnh: Analyze => Descriptive Statistics => Frequences
o Đại diện là Frequency
o Chạy lệnh này cho Biến định lượng
Quantitative Var
o Lệnh: Analyze => Descriptive Statistics => Descriptive
o Đại diện là Mean và Stardard Deviation
3.4.
Data cleansing (Cleaning): Filter trong file Excel. (Bài giữa kì sẽ có lỗi sai để tìm)
Qualitative Variable:
o Invalid Value: Delete => Missing Value
o Missing Value: check lại Questionaire or Mode (giá trị thường xuất hiện)
Quantitative Variable:
o Invalid Value: Delete => Missing Value
o Missing Value: điền Mean or Median (dùng khi cần số nguyên)
Outliers: Số liệu nghi ngờ
4. THỐNG KÊ (STATISTICS)
Xem file excel: “4_Statistics”
Mean (Trung bình) = xtb
o Đại diện cho biến định lượng
Đánh giá biến số: quá khứ, mục tiêu, đối tượng khác,
benchmark
Kết luận về khái niệm (kèm theo GAP với biến số)
o Mean đại diện cho mẫu. Và người ta dùng nó để đánh giá từng quan
sát cụ thể => tương quan so với nhóm
Độ lệch = xi – xtb
Standard deviation (độ lệch chuẩn)
o là trung bình của “độ lớn” của các độ lệch
o đo độ phân tán của mẫu xung quanh Mean
o Tính St.dev:
Cách 1: Lấy trị tuyệt đối các độ lệch => tính trung bình
Cách 2: Lấy căn phương sai => thường dùng
Variance (phương sai):
o đo độ phân tán (độ biến thiên) của mẫu xung quanh Mean và được
quy ước bằng bình phương độ lệch chuẩn.
o Trung bình của "Bình phương các độ lệch”
n
∑ ( xi−xtb )2
σ 2= i=1
n
Covariance (Hiệp phương sai):
o đo sự biến thiên của hai biến so với Mean của chúng.
o trung bình của tích 2 độ lệch tại các thời điểm => tương quan cùng
chiều hay ngược chiều, ko xác định được độ lớn
n
∑ ( xi −xtb )∗( yi− ytb )
Cov ( xi , yi )= I=1
n
o Cov > 0 => cùng chiều (cùng nằm trên hoặc cùng nằm dưới Mean)
o Cov < 0 => ngược chiều
o Chưa đánh giá được độ lớn nên phải dùng Correlation
Coefficient of Correlation (hệ số tương quan): cho thấy sự ràng buộc
(bound) và độ lớn (size) của mối liên hệ tuyến tính
Corr(xi,yi)=
Cov(xi , yi)
σx∗σy
o Đi từ [-1;1]
o 1 là tương quan dương hoàn hảo
o -1 là ngược chiều hồn hảo
o 0 là khơng tương quan
Lưu ý:
o Các thơng số chỉ tính cho biến định lượng, ko dùng c/m biến định tính có
liên quan được.
o Nếu muốn đánh giá tương quan thì biến định tính đó thành nhiều biến =>
rồi đánh giá các biến đó.
5. PHÂN VỊ:
Xem file excel: “5_Percentiles”
Median (trung vị): vị trí trung tâm
Percentiles (phân vị)
Quantile (tứ phân vị)
o Q1: giá trị tại phân vị thứ 25
o Q2: giá trị tại phân vị thứ 50
o Q3: giá trị tại phân vị thứ 75
6. HỒI QUY
Xem file Excel: “6_Regression”
Income = 6.282 + 2.198 Exp
o Inc = 2Exp
o Delta (y) = a*Delta (x)
o Exp là Indepedend Var
o Income là Dependend Var
Sai số, về mặt trực quan:
o Nếu tất cả các điểm cùng nằm trên 1 nằm thẳng => sai số = 0
o Nhân quả: một kết quả do nhiều nguyên nhân tạo thành
o Nếu tất cả các điểm ko nằm trên 1 đường thẳng và có thể hiện xu hướng
(cùng chiều hoặc ngược chiều) => một kết quả bị phụ thuộc được tác động
bởi nhiều yếu tố trong đó có yếu tố đầu vào mà chúng ta đang xem xét
(biến độc lập)
Phương trình:
o Phương trình hồi quy:
(1): Yi^ = Bo^ + B1^*Xi
o Ln có khoảng cách giữa giá trị thực tế (Yi) và ước lượng(Yi^), là sai số:
(2): ei = Yi – Y^i
o Tổng hợp (1) và (2):
(3): Yi = Yi^ + ei = Bo^ + B1^*Xi + ei
o Trong nghiên cứu MQH nhân quả, chúng ta không thể nào tìm hiểu hết các
nguyên nhân tác động tới một yếu tố mà thường chỉ tìm hiểu một số nguyên
nhân. Những yếu tố chúng ta khơng tìm hiểu sẽ ko được thể hiện trong mơ
hình hồi quy và được coi là sai số
o Tại phương trình (3) gồm 2 phần: phần 1 (Bo^ + B1^*Xi) mô tả mức độ tác
động của Xi, phần 2 (ei) mô tả sự tác động của các yếu tố khác chưa đưa
vào mơ hình
OLS (Oridinal least squares: Bình phương tối thiểu nhỏ nhất):
o Để tìm ra đường thẳng tối ưu, chúng ta có thể sử dụng phương pháp OLS.
o Điều này hàm ý: đường thẳng tối ưu là đường thẳng mà tổng bình phương
các sai số là nhỏ nhất (trong tất cả các đường thẳng thể hiện xu hướng)
n
2
Tổng distance min = ∑ ei = e1^2 + e2^2 + … + en^2 => MIN
i=1
o
n
n
i=1
i=1
∑ ei2=∑ ¿ ¿ ¿ => tìm Min = KS hàm số (dùng máy tính)
R-square:
o 0=
o Theo (3): Yi = Yi^ + ei = Bo^ + B1^*Xi + ei
o R-square: mức độ giải thích của các biến ĐL tới sự biến thiên của biến PT
R^2 càng lớn (gần 1) thì tác động của Xi càng lớn
R^2 càng nhỏ (gần 0) thì tác động của sai số ei càng lớn
o Ví dụ: R^2 = 63.7%
Exp giải thích được 63.7% sự biến thiên của Income.
36.3% còn lại là do các yếu tố khác chưa đưa vào mơ hình.
o R^2 và sai số:
R^2 = 1 thì khơng có sai số.
R^2 = 0 thì sự thay đổi của Y phụ thuộc hồn tồn vào sai số.
TSS (tổng cần giải thích) = ESS (phần giải thích được) + RSS (phần dư)
TSS= Y1;
ESS =Y1^;
Y1=9
ei=3
Y1^=6
RSS =Y1-Y1^=e1
Collinarity: Đa cộng tuyến
o Multi Regression (hồi quy đa biến):
Y = Bo^ + B1^X1 + B2^X2 + … +e
o Đối với mơ hình hồi quy đa tuyến, một trong những điều kiện để các tham
số hồi quy ko bị “chệch” (biased) là không xuất hiện hiện tượng đa cộng
tuyến (parameter) giữa các biến đổi (các biến độc lập tương quan chặt chẽ
với nhau hoặc có mối liên hệ nhân quả với nhau)
o Ví dụ:
(Exp và Age phải cùng dấu mới dùng được)
7. Thực hành SPSS:
Bước 1: Data cleaning (làm sạch số liệu) => filter file “inc_moderators”
Bước 2: Import data => Excel => chọn sheet “original”
Bước 3: Variable Management
o Quantitative Var: Lable (gắn nhãn cho tường minh), Measure (Edu …)
o Qualitative Var: thêm Values Lable (Level: 1=>3: Staff, Middle, Senior;
Gender: 1 =>2: Female, Male)
Bước 4: Descriptive Statistics
o Qualitative Vars:
Analyze => Descriptive Statistics => Frequencies
Chọn các biến định tính
Gender
Frequency Percent
Valid Female
79
39.5
Male
121
60.5
Total
200
100.0
Valid
Cumulative
Percent
Percent
39.5
39.5
60.5
100.0
100.0
Level
Frequenc
y
Percent
Valid Staff
60
30.0
Middle
56
28.0
Senior
84
42.0
Total
200
100.0
Valid
Cumulative
Percent
Percent
30.0
30.0
28.0
58.0
42.0
100.0
100.0
Câu hỏi: bảng đó giải quyết được vấn đề gì? mẫu bị lệch?
Khơng lưu file output mà copy các KQ sang Word
o Quantitative Var:
Analyze => Descriptive Statistics => Descriptive
Chọn các biến định lượng
Descriptive Statistics
Experience
Age
Education
Satisfaction
Income
Valid N
(listwise)
N
Minimum Maximum Mean
200
1
36 19.40
200
21
66 42.38
200
1
17
9.35
200
1
5
2.58
200
4.50
100.53 48.920
4
200
Std.
Deviation
6.392
7.701
4.875
1.289
17.60376
Bước 5: Cross table
o Analyze => Table => Custom table
o Phần Define có Summary Statistics => tự tìm hiểu
o Qual-Qual
Gender Female
Male
Level
Staff
Middle Senior
Count
Count
Count
28
21
30
32
35
54
o Quant-Qual
Experience Age Education Satisfaction Income
Mean
Mean
Mean
Mean
Mean
Gender Female
20.32 43.39
8.77
2.71
45.94
Male
18.79 41.72
9.73
2.49
50.87
Level Staff
20.02 43.15
9.28
2.52
39.27
Middle
Senior
18.50
19.55
41.79
42.23
9.95
9.00
2.59
2.61
46.37
57.52
Bước 6: Phân vị
o Analyze => Des …Sta => Explore
o Chọn biến định lượng
o Chọn Statistics => Percentitles
Percentiles
Percentiles
5
10
25
50
75
90
95
9.0000
11.0000
15.0000
19.5000
24.0000
28.0000
29.9500
28.1000
33.0000
37.0000
42.0000
48.0000
52.0000
54.0000
Weighted
Experience
Average
Age
(Definition 1)
Education
2.0000
3.0000
5.0000
10.0000
14.0000
16.0000
17.0000
Satisfaction
1.0000
1.0000
1.0000
2.0000
3.7500
4.9000
5.0000
21.0600
28.1720
36.3050
46.7250
61.6875
72.9600
79.5275
Income
Tukey's
Experience
15.0000
19.5000
24.0000
Hinges
Age
37.0000
42.0000
48.0000
Education
5.0000
10.0000
14.0000
Satisfaction
1.0000
2.0000
3.5000
36.3600
46.7250
61.5850
Income
Bước 7: Ma trận tương quan (Correlation Table)
o Lệnh: Analyze => Correlate => Bivariate
o Chọn biến dịnh lượng
Correlation
s
Experience
Age
Education
Satisfaction
Satisfactio
Experience Age
Education n
Income
1 .842**
-0.01
0.052 .798**
.842**
1
-0.026
0.055 .672**
-0.01
-0.026
1
0.057
-0.032
0.052
0.055
0.057
1
0.007
Income
.798**
.672**
-0.032
Câu hỏi: Để đánh giá tương quan Y1 & Y2 làm sao:
-
Analyze => Correlate => Bivariate => Chọn Y1, Y2:
-
Giải thích bảng Correlations:
N: Số mẫu
Sig: chính là P. Values
Hệ số tương quan của Y1 và Y2 là (Pearson Correlation) -0.089
0.007
1
Bước 8: Hồi quy
o Lệnh: Analyze => Repress…=> Lin…
o Depen => Income; Indepen => Exp
o Phần Save: chọn Unstandardized của Predicted (sửa lại Income_hat giá trị dự đoán) và Residual (độ lệch)
Model Summary
Adjusted R Std. Error of
Model
R
R Square
Square
the Estimate
a
1
.798
.637
.635 10.630962
a. Predictors: (Constant), Experience
ANOVAa
Sum of
Squares
39291.158
Model
df
1
Regressio
1
n
Residual
22377.437
198
Total
61668.595
199
a. Dependent Variable: Income
b. Predictors: (Constant), Experience
Coefficientsa
Mean
Square
F
39291.158 347.656
113.017
Sig.
.000b
Unstandardized
Coefficients
B
Std. Error
6.282
2.407
2.198
.118
Standardize
d
Coefficients
Beta
Model
1
(Constant)
Experienc
.798
e
a. Dependent Variable: Income
Pt hồi qui: Income^ = 6.282 + 2.198*Exp
t
2.610
18.646
Sig.
.010
.000