Tải bản đầy đủ (.docx) (18 trang)

Review statistics PHÂN TÍCH DỮ LIỆU PLS SEM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (572.24 KB, 18 trang )

REVIEW STATISTICS
1. Khái niệm về đo lường
Đo lường là hoạt động gán con số (biểu tượng) để biểu diễn cho đặc điểm
(thuộc tính) của đối tượng (theo một quy tắc nhất định) để:
o Mơ tả thuộc tính của đối tượng
o So sánh thuộc tính của đối tượng này với đối tượng khác
Ví dụ: Thuộc tính? Biểu tượng? Gán?
ID

Tên

Giới tính

1
2
3

Nguyễn Văn A
Nguyễn Thị B
Nguyễn Văn C

nam
nữ
nam

Gende
r
1
2
1


Gender
2
M
F
M

Biến khác




2. 4 levels of measurement
Types of
4 levels of measurement

variable

SPSS

1. Nominal: định danh

(loại biến số)
Qualitative Var

Nomina

2. Ordinal: thứ tự

(Biến định tính)


l

Quatitative Var

Ordinal
Scale

3. Internal: khoảng bằng nhau. Khơng “True
zero”. Ví dụ: độ C, quyết định mua hàng, mức
độ hài lòng,…
4. Ratio: tỷ lệ. Chia các khoảng cách bằng nhau
+ True zero (gốc 0 cố định-ở đó khơng thể đo
lường được ví dụ: 0kg, 0cm, 0 độ F…)

(Biến định lượng)


Questionnaire Coding: ID, Items (Observed Vars/Indicators), Answer

3. SPSS:
3.1.

Import data:
File => Import Data => Excel…=> chọn file (3_Preprocessing…)
Chọn sheet (Data Screening)
Chọn “Read variablename from first row of data”

3.2.

Variable Management:

Name (of variable)
Type (of values): đã số hóa hết => Numeric
Qualitative Var

Quantitative Var





Lable (of Variable)

Biến có nhiều Item => gắn vào
cột N khi chạy phân tích

(Lable of) Values
Measure



KHƠNG GẮN

Nominal/Ordinal

Scale


3.3.

Thống kê mô tả:


Qualitative Var
o Lệnh: Analyze => Descriptive Statistics => Frequences
o Đại diện là Frequency
o Chạy lệnh này cho Biến định lượng

Quantitative Var
o Lệnh: Analyze => Descriptive Statistics => Descriptive
o Đại diện là Mean và Stardard Deviation


3.4.

Data cleansing (Cleaning): Filter trong file Excel. (Bài giữa kì sẽ có lỗi sai để tìm)

Qualitative Variable:
o Invalid Value: Delete => Missing Value
o Missing Value: check lại Questionaire or Mode (giá trị thường xuất hiện)

Quantitative Variable:
o Invalid Value: Delete => Missing Value
o Missing Value: điền Mean or Median (dùng khi cần số nguyên)
Outliers: Số liệu nghi ngờ


4. THỐNG KÊ (STATISTICS)
Xem file excel: “4_Statistics”
Mean (Trung bình) = xtb
o Đại diện cho biến định lượng
 Đánh giá biến số: quá khứ, mục tiêu, đối tượng khác,

benchmark
 Kết luận về khái niệm (kèm theo GAP với biến số)
o Mean đại diện cho mẫu. Và người ta dùng nó để đánh giá từng quan
sát cụ thể => tương quan so với nhóm
Độ lệch = xi – xtb
Standard deviation (độ lệch chuẩn)
o là trung bình của “độ lớn” của các độ lệch
o đo độ phân tán của mẫu xung quanh Mean
o Tính St.dev:
 Cách 1: Lấy trị tuyệt đối các độ lệch => tính trung bình
 Cách 2: Lấy căn phương sai => thường dùng
Variance (phương sai):
o đo độ phân tán (độ biến thiên) của mẫu xung quanh Mean và được
quy ước bằng bình phương độ lệch chuẩn.
o Trung bình của "Bình phương các độ lệch”


n

∑ ( xi−xtb )2

σ 2= i=1

n

Covariance (Hiệp phương sai):
o đo sự biến thiên của hai biến so với Mean của chúng.
o trung bình của tích 2 độ lệch tại các thời điểm => tương quan cùng
chiều hay ngược chiều, ko xác định được độ lớn
n


∑ ( xi −xtb )∗( yi− ytb )

Cov ( xi , yi )= I=1

n

o Cov > 0 => cùng chiều (cùng nằm trên hoặc cùng nằm dưới Mean)
o Cov < 0 => ngược chiều
o Chưa đánh giá được độ lớn nên phải dùng Correlation
Coefficient of Correlation (hệ số tương quan): cho thấy sự ràng buộc
(bound) và độ lớn (size) của mối liên hệ tuyến tính
Corr(xi,yi)=

Cov(xi , yi)
σx∗σy


o Đi từ [-1;1]
o 1 là tương quan dương hoàn hảo
o -1 là ngược chiều hồn hảo
o 0 là khơng tương quan

Lưu ý:
o Các thơng số chỉ tính cho biến định lượng, ko dùng c/m biến định tính có

liên quan được.
o Nếu muốn đánh giá tương quan thì biến định tính đó thành nhiều biến =>
rồi đánh giá các biến đó.



5. PHÂN VỊ:
Xem file excel: “5_Percentiles”
Median (trung vị): vị trí trung tâm
Percentiles (phân vị)

Quantile (tứ phân vị)
o Q1: giá trị tại phân vị thứ 25
o Q2: giá trị tại phân vị thứ 50
o Q3: giá trị tại phân vị thứ 75

6. HỒI QUY
Xem file Excel: “6_Regression”
Income = 6.282 + 2.198 Exp
o Inc = 2Exp
o Delta (y) = a*Delta (x)
o Exp là Indepedend Var
o Income là Dependend Var



Sai số, về mặt trực quan:
o Nếu tất cả các điểm cùng nằm trên 1 nằm thẳng => sai số = 0
o Nhân quả: một kết quả do nhiều nguyên nhân tạo thành
o Nếu tất cả các điểm ko nằm trên 1 đường thẳng và có thể hiện xu hướng
(cùng chiều hoặc ngược chiều) => một kết quả bị phụ thuộc được tác động
bởi nhiều yếu tố trong đó có yếu tố đầu vào mà chúng ta đang xem xét
(biến độc lập)

Phương trình:

o Phương trình hồi quy:
(1): Yi^ = Bo^ + B1^*Xi
o Ln có khoảng cách giữa giá trị thực tế (Yi) và ước lượng(Yi^), là sai số:
(2): ei = Yi – Y^i
o Tổng hợp (1) và (2):
(3): Yi = Yi^ + ei = Bo^ + B1^*Xi + ei
o Trong nghiên cứu MQH nhân quả, chúng ta không thể nào tìm hiểu hết các
nguyên nhân tác động tới một yếu tố mà thường chỉ tìm hiểu một số nguyên
nhân. Những yếu tố chúng ta khơng tìm hiểu sẽ ko được thể hiện trong mơ
hình hồi quy và được coi là sai số
o Tại phương trình (3) gồm 2 phần: phần 1 (Bo^ + B1^*Xi) mô tả mức độ tác
động của Xi, phần 2 (ei) mô tả sự tác động của các yếu tố khác chưa đưa
vào mơ hình

OLS (Oridinal least squares: Bình phương tối thiểu nhỏ nhất):
o Để tìm ra đường thẳng tối ưu, chúng ta có thể sử dụng phương pháp OLS.


o Điều này hàm ý: đường thẳng tối ưu là đường thẳng mà tổng bình phương
các sai số là nhỏ nhất (trong tất cả các đường thẳng thể hiện xu hướng)
n

2

Tổng distance min  = ∑ ei = e1^2 + e2^2 + … + en^2 => MIN
i=1

o

n


n

i=1

i=1

∑ ei2=∑ ¿ ¿ ¿ => tìm Min = KS hàm số (dùng máy tính)

R-square:
o 0=o Theo (3): Yi = Yi^ + ei = Bo^ + B1^*Xi + ei
o R-square: mức độ giải thích của các biến ĐL tới sự biến thiên của biến PT
 R^2 càng lớn (gần 1) thì tác động của Xi càng lớn
 R^2 càng nhỏ (gần 0) thì tác động của sai số ei càng lớn
o Ví dụ: R^2 = 63.7%
 Exp giải thích được 63.7% sự biến thiên của Income.
 36.3% còn lại là do các yếu tố khác chưa đưa vào mơ hình.
o R^2 và sai số:
 R^2 = 1 thì khơng có sai số.
 R^2 = 0 thì sự thay đổi của Y phụ thuộc hồn tồn vào sai số.

TSS (tổng cần giải thích) = ESS (phần giải thích được) + RSS (phần dư)
TSS= Y1;

ESS =Y1^;

Y1=9
ei=3
Y1^=6


RSS =Y1-Y1^=e1


Collinarity: Đa cộng tuyến

o Multi Regression (hồi quy đa biến):
Y = Bo^ + B1^X1 + B2^X2 + … +e
o Đối với mơ hình hồi quy đa tuyến, một trong những điều kiện để các tham
số hồi quy ko bị “chệch” (biased) là không xuất hiện hiện tượng đa cộng
tuyến (parameter) giữa các biến đổi (các biến độc lập tương quan chặt chẽ
với nhau hoặc có mối liên hệ nhân quả với nhau)
o Ví dụ:

(Exp và Age phải cùng dấu mới dùng được)


7. Thực hành SPSS:
Bước 1: Data cleaning (làm sạch số liệu) => filter file “inc_moderators”
Bước 2: Import data => Excel => chọn sheet “original”
Bước 3: Variable Management
o Quantitative Var: Lable (gắn nhãn cho tường minh), Measure (Edu …)
o Qualitative Var: thêm Values Lable (Level: 1=>3: Staff, Middle, Senior;
Gender: 1 =>2: Female, Male)

Bước 4: Descriptive Statistics
o Qualitative Vars:
 Analyze => Descriptive Statistics => Frequencies
 Chọn các biến định tính


Gender
Frequency Percent
Valid Female
79
39.5
Male
121
60.5
Total
200
100.0

Valid
Cumulative
Percent
Percent
39.5
39.5
60.5
100.0
100.0

Level
Frequenc
y
Percent
Valid Staff
60
30.0
Middle

56
28.0
Senior
84
42.0
Total
200
100.0

Valid
Cumulative
Percent
Percent
30.0
30.0
28.0
58.0
42.0
100.0
100.0


 Câu hỏi: bảng đó giải quyết được vấn đề gì? mẫu bị lệch?
 Khơng lưu file output mà copy các KQ sang Word
o Quantitative Var:
 Analyze => Descriptive Statistics => Descriptive
 Chọn các biến định lượng

Descriptive Statistics
Experience

Age
Education
Satisfaction
Income
Valid N
(listwise)

N
Minimum Maximum Mean
200
1
36 19.40
200
21
66 42.38
200
1
17
9.35
200
1
5
2.58
200
4.50
100.53 48.920
4
200

Std.

Deviation
6.392
7.701
4.875
1.289
17.60376

Bước 5: Cross table
o Analyze => Table => Custom table
o Phần Define có Summary Statistics => tự tìm hiểu
o Qual-Qual

Gender Female
Male

Level
Staff
Middle Senior
Count
Count
Count
28
21
30
32
35
54

o Quant-Qual
Experience Age Education Satisfaction Income

Mean
Mean
Mean
Mean
Mean
Gender Female
20.32 43.39
8.77
2.71
45.94
Male
18.79 41.72
9.73
2.49
50.87
Level Staff
20.02 43.15
9.28
2.52
39.27


Middle
Senior

18.50
19.55

41.79
42.23


9.95
9.00

2.59
2.61

46.37
57.52

Bước 6: Phân vị
o Analyze => Des …Sta => Explore
o Chọn biến định lượng
o Chọn Statistics => Percentitles
Percentiles
Percentiles
5

10

25

50

75

90

95


9.0000

11.0000

15.0000

19.5000

24.0000

28.0000

29.9500

28.1000

33.0000

37.0000

42.0000

48.0000

52.0000

54.0000

Weighted


Experience

Average

Age

(Definition 1)

Education

2.0000

3.0000

5.0000

10.0000

14.0000

16.0000

17.0000

Satisfaction

1.0000

1.0000


1.0000

2.0000

3.7500

4.9000

5.0000

21.0600

28.1720

36.3050

46.7250

61.6875

72.9600

79.5275

Income
Tukey's

Experience

15.0000


19.5000

24.0000

Hinges

Age

37.0000

42.0000

48.0000

Education

5.0000

10.0000

14.0000

Satisfaction

1.0000

2.0000

3.5000


36.3600

46.7250

61.5850

Income

Bước 7: Ma trận tương quan (Correlation Table)
o Lệnh: Analyze => Correlate => Bivariate
o Chọn biến dịnh lượng

Correlation
s
Experience
Age
Education
Satisfaction

Satisfactio
Experience Age
Education n
Income
1 .842**
-0.01
0.052 .798**
.842**
1
-0.026

0.055 .672**
-0.01
-0.026
1
0.057
-0.032
0.052
0.055
0.057
1
0.007


Income

.798**

.672**

-0.032

Câu hỏi: Để đánh giá tương quan Y1 & Y2 làm sao:
-

Analyze => Correlate => Bivariate => Chọn Y1, Y2:

-

Giải thích bảng Correlations:


N: Số mẫu
Sig: chính là P. Values
Hệ số tương quan của Y1 và Y2 là (Pearson Correlation) -0.089

0.007

1


Bước 8: Hồi quy
o Lệnh: Analyze => Repress…=> Lin…
o Depen => Income; Indepen => Exp
o Phần Save: chọn Unstandardized của Predicted (sửa lại Income_hat giá trị dự đoán) và Residual (độ lệch)

Model Summary
Adjusted R Std. Error of
Model
R
R Square
Square
the Estimate
a
1
.798
.637
.635 10.630962
a. Predictors: (Constant), Experience

ANOVAa
Sum of

Squares
39291.158

Model
df
1
Regressio
1
n
Residual
22377.437
198
Total
61668.595
199
a. Dependent Variable: Income
b. Predictors: (Constant), Experience

Coefficientsa

Mean
Square
F
39291.158 347.656
113.017

Sig.
.000b



Unstandardized
Coefficients
B
Std. Error
6.282
2.407
2.198
.118

Standardize
d
Coefficients
Beta

Model
1
(Constant)
Experienc
.798
e
a. Dependent Variable: Income
 Pt hồi qui: Income^ = 6.282 + 2.198*Exp

t
2.610
18.646

Sig.
.010
.000




×