Tải bản đầy đủ (.doc) (57 trang)

Phân tích khác biệt với SPSS và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (854.82 KB, 57 trang )

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
----------------

ĐOÀN THỊ NGÀ

PHÂN TÍCH KHÁC BIỆT VỚI SPSS
VÀ ỨNG DỤNG

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng

HÀ NỘI, 2017


TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
----------------

ĐOÀN THỊ NGÀ

PHÂN TÍCH KHÁC BIỆT VỚI SPSS
VÀ ỨNG DỤNG

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng

Người hướng dẫn khoa học
PGS.TS. TRẦN TRỌNG NGUYÊN

HÀ NỘI, 2017




LỜI CẢM ƠN
Để hoàn thành khóa luận này, tôi xin chân thành cảm ơn các thầy cô giáo
đã tận tình hướng dẫn, giảng dạy trong suốt quá trình học tập, nghiên cứu và
rèn luyện tại Trường Đại học sư phạm Hà Nội 2. Đặc biệt, tôi xin gửi lời cảm
ơn sâu sắc tới Thầy giáo hướng dẫn PGS.TS. Trần Trọng Nguyên đã tận tình,
chu đáo hướng dẫn tôi thực hiện khóa luận này.
Mặc dù đã có nhiều cố gắng để thực hiện đề tài một cách hoàn chỉnh
nhất song do còn hạn chế về kiến thức và kinh nghiệm nên không thể tránh
khỏi những thiếu sót nhất định mà bản thân chưa thấy được. Tôi rất mong
được sự góp ý của các Thầy, Cô giáo và của bạn bè để khóa luận được hoàn
chỉnh hơn.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 10 tháng 04 năm 2017
Tác giả khóa luận

Đoàn Thị Ngà


LỜI CAM ĐOAN
Tôi xin cam đoan những nội dung trình bày trong khóa luận là kết quả
quá trình nghiên cứu của bản thân tôi và được sự hướng dẫn khoa học của
PGS.TS. Trần Trọng Nguyên. Các nội dung này không trùng khớp với kết
quả nghiên cứu của người khác. Những số liệu trong các bảng biểu phục vụ
cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các
nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo. Ngoài ra, trong
khóa luận còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác
giả khác, cơ quan tổ chức khác với thái độ trân trọng biết ơn và đều có trích
dẫn, chú thích nguồn gốc.

Hà nội, ngày 10 tháng 04 năm 2017
Tác giả khóa luận

Đoàn Thị Ngà


MỤC LỤC
LỜI NÓI ĐẦU ................................................................................................. 1
CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ ....................................................... 3
1.1. Kiến thức về xác suất thống kê .................................................................. 3
1.1.1. Một số kiến thức xác suất ................................................................... 3
1.1.2. Kiến thức về thống kê ......................................................................... 6
1.2. Phương pháp ước lượng hợp lý cực đại ..................................................... 9
1.3. Điểm trung bình hay trung tâm của đám mây số liệu và ma trận trung tâm
hóa ................................................................................................................... 10
1.4.Công thức xác định tâm và ma trận hiệp phương sai của các đám mây... 10
1.5. Phân tích hồi quy...................................................................................... 11
1.5.1. Khái niệm phân tích hồi quy............................................................. 11
1.5.2. Hàm hồi quy...................................................................................... 11
1.5.3. Hồi quy tổng thể và hồi quy mẫu...................................................... 12
1.5.4. Hồi quy tuyến tính............................................................................. 12
1.5.5. Hồi quy đơn và hồi quy bội .............................................................. 13
1.5.6. Biến giả ............................................................................................. 14
1.5.7. Phân tích ANOVA ............................................................................ 14
CHƯƠNG 2: PHÂN TÍCH KHÁC BIỆT................................................... 15
2.1. Tổng quan về phân tích khác biệt ............................................................ 15
2.1.1. Khái niệm .......................................................................................... 15
2.1.2. Mục tiêu của phân tích khác biệt ...................................................... 15
2.1.3. Mối quan hệ giữa phân tích hồi quy, phân tích ANOVA và phân
tích khác biệt ................................................................................................... 16

2.1.4. Phân loại phân tích khác biệt ............................................................ 17
2.1.5. Mô hình phân tích biệt số.................................................................. 17
2.1.6. Các tham số thống kê trong phân tích khác biệt ............................... 17


2.1.7. Tiến trình phân tích khác biệt ........................................................... 19
2.2. Một số phương pháp phân tích khác biệt ................................................. 22
2.2.1. Một minh họa cụ thể của phân tích khác biệt ................................... 22
2.2.2. Phương pháp hồi quy logistic ........................................................... 24
2.2.3. Phương pháp Fisher .......................................................................... 26
2.2.4. Phương pháp Bayes........................................................................... 27
CHƯƠNG 3: SPSS VỚI PHÂN TÍCH KHÁC BIỆT VÀ ỨNG DỤNG .. 34
3.1. Giới thiệu SPSS........................................................................................ 34
3.2. SPSS với phân tích khác biệt ................................................................... 35
3.3. Ứng dụng.................................................................................................. 39
KẾT LUẬN .................................................................................................... 47
TÀI LIỆU THAM KHẢO ............................................................................ 48


LỜI NÓI ĐẦU
1. Lý do chọn đề tài
Phân tích khác biệt hay phân tích khác biệt theo nhân tố là một trong
những phương pháp phân tích có nhiều ứng dụng trong thống kê. Phân tích
khác biệt cho phép thiết lập mối quan hệ của các tiêu thức, trên cơ sở đó tìm
một đặc trưng định tính làm cơ sở phân biệt các cá thể của một tổng thể vốn
được thể hiện bằng nhiều tiêu thức, nói chung là định lượng khác nhau. Tiêu
thức định tính này thường được gọi là biến phân biệt hay biến được giải thích.
Có thể thấy phân tích khác biệt là một phương pháp phân tích trong thống kê
được dùng rất nhiều trong khai thác dữ liệu để phân loại đối tượng vào các
nhóm dựa trên việc đo lường các đặc trưng của đối tượng.

Về mặt thực tiễn, phân tích khác biệt được dùng để giải quyết một số
tình huống khi nhà nghiên cứu muốn tìm thấy sự khác biệt giữa những nhóm
đối tượng nghiên cứu với nhau. Ví dụ phân biệt khách hàng trung thành và
không trung thành bằng một số đặc điểm nhân khẩu học, phân biệt các phân
khúc khách hàng bằng một số tiêu chí lợi ích khi sử dụng một sản phẩm. Các
lĩnh vực đã có nhiều ứng dụng của lớp bài toán phân tích khác biệt là chuẩn
đoán lâm sàng trong y học; dự báo thời tiết với các vùng áp suất khác nhau và
cấu trúc, mật độ các đám mây; phân nhóm các loại cổ phiếu, các đối tượng
đầu tư và các hoạt động tài chính, ... Phân tích khác biệt giúp nhà nghiên cứu
phân loại đối tượng vào các nhóm và dự báo một đối tượng mới sẽ thuộc vào
nhóm nào trong các nhóm đã có sẵn.
Từ ý nghĩa to lớn về mặt thực tiễn của phân tích khác biệt, tôi muốn
chọn đề tài “Phân tích khác biệt với SPSS và ứng dụng” để tìm hiểu cách
giải quyết bài toán phân loại. Ngoài ra, hiện nay có nhiều phương pháp được

1


đưa ra để phân tích khác biệt với bài toán phân loại. Tôi muốn tìm hiểu một
số phương pháp phổ biến và tối ưu để phân tích khác biệt đồng thời có thể
ứng dụng phân tích khác biệt trên phần mềm thống kê SPSS.
2. Mục đích nghiên cứu
Nghiên cứu một số phương pháp khác biệt, tìm ra ưu điểm và nhược
điểm của mỗi phương pháp này và có thể ứng dụng tìm kiếm mô hình tối ưu
để áp dụng vào một số ví dụ cụ thể.
Ứng dụng phần mềm thống kê SPSS trong thực hành phân tích khác biệt.
3. Phạm vi nghiên cứu
Bài viết đề cập đến ba phương pháp tiêu biểu trong rất nhiều phương
pháp phân loại hiện nay là: Fisher, hồi quy logistic, Bayes; đồng thời bài viết
cũng trình bày phân tích khác biệt trên phần mềm SPSS.

4. Phương pháp, công cụ nghiên cứu
Phương pháp nghiên cứu: nghiên cứu tài liệu và phân tích thống kê, xử
lý dữ liệu.
5. Nội dung chính của đề tài
Ngoài lời nói đầu, nội dung chính của đề tài gồm các nội dung sau:
Chương 1: Kiến thức chuẩn bị.
Chương 2: Phân tích khác biệt.
Chương 3: SPSS với phân tích khác biệt và ứng dụng.

2


CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ
Trong chương này tôi sẽ trình bày một số kiến thức về xác suất thống
kê là biến ngẫu nhiên, hàm phân bố xác suất, bảng phân bố xác suất, hàm mật
độ xác suất, một số đặc trưng của biến ngẫu nhiên và mẫu ngẫu nhiên, giá trị
tới hạn chuẩn, một số phân phối thường gặp, mẫu ngẫu nhiên, tổng thể nghiên
cứu, kiểm định giả thuyết; về đám mây số liệu, ma trận hiệp phương sai,
phương pháp ước lượng hợp lý cực đại, phân tích hồi quy.
1.1. Kiến thức về xác suất thống kê
1.1.1. Một số kiến thức xác suất
1.1.1.1. Biến ngẫu nhiên
Một đại lượng hay một biến nhận các giá trị của nó với xác suất nào
đấy được gọi là biến ngẫu nhiên. Ký hiệu X, Y, Z, …
- Nếu các giá trị của biến ngẫu nhiên rời nhau (cách xa nhau một khoảng
nào đấy) thì biến ngẫu nhiên được gọi là rời rạc.
- Nếu các giá trị của biến ngẫu nhiên lấp đầy một khoảng nào đó thì biến
ngẫu nhiên được gọi là liên tục (theo [3]).
1.1.1.2. Hàm phân bố xác suất
Định nghĩa 1.1: Hàm phân bố xác suất (hay hàm phân bố) của biến

ngẫu nhiên X, ký hiệu bởi F (x) , là hàm xác định với mọi x  R theo công thức
sau:
F(x)  P  X  x .

1.1.1.3. Bảng phân bố xác suất
Phân bố xác suất của một biến ngẫu nhiên rời rạc X là một bảng trên đó
ta ghi các giá trị mà X có thể nhận kèm theo các xác suất để nó nhận các giá
trị đó. Như vậy phân bố xác suất của X sẽ là một bảng có dạng:

3


n

ở đó pi  P  X  xi với pi  1 .
i1



1.1.1.4. Hàm mật độ xác suất
Định nghĩa 1.2 (theo [7]): Hàm số f (x) xác định trên toàn trục số
được gọi là hàm mật độ của biến ngẫu nhiên liên tục X nếu:
i)
ii)

f (x)  0, x  R





f (x)dx  1



b

iii) a  , ta có: P a  X  b   f (x)dx .
b

a

1.1.1.5. Một số đặc trưng của biến ngẫu nhiên
a. Kì vọng
Giả sử biến ngẫu nhiên rời rạc X nhận một trong các giá trị có thể có
x1, x2, …, xn với xác suất tương ứng p1, p2, …, pn. Kì vọng của biến ngẫu
nhiên rời rạc X, ký hiệu E(X) là tổng các tích giữa các giá trị có thể có của
biến ngẫu nhiên với các xác suất tương ứng:

E(X ) 

n

x p

i1

i

i


.

Nếu X là biến ngẫu nhiên liên

tục với hàm mật độ xác suất f(x) thì kì vọng E(X) được xác định bằng biểu
thức:
E( X ) 




.

b. Phương sai



xf (x)dx


Giả sử biến ngẫu nhiên X có kì vọng EX   . Độ chệch khỏi giá trị
trung bình là X   . Phương sai của X, ký
var( X ) , là độ lệch bình
hiệu
phương trung bình tức là kì vọng của








2

. Vậy ta có định nghĩa:

X
var(X )  E  X  



2

.

1.1.1.6. Giá trị tới hạn chuẩn

Giá trị tới hạn chuẩn mức  của biến ngẫu nhiên U , kí hiệu là u là
một giá trị thỏa mãn:
P(U  u ) 

P(U  u )  1  .

1.1.1.7. Một số phân phối thường gặp
a. Phân phối đều
Biến ngẫu nhiên liên tục X được gọi là có phân bố đều trên đoạn [a, b]
nếu X có thể nhận bất kì giá trị nào trên [a, b] với xác suất như nhau và không
nhận giá trị nào bên ngoài [a, b] (theo [7]).
Hàm mật độ xác suất của biến ngẫu nhiên phân phối đều cho bởi công
thức:

 1
, x   a,b 

f (x)  b 
.

, x   a,b 
a
0

b.

Phân phối

chuẩn tắc
Biến ngẫu nhiên U được gọi là có phân bố chuẩn tắc nếu hàm mật độ
của nó là:
1

 (x) 
.
2



x2

e

2



c. Phân phối chuẩn
Biến ngẫu nhiên liên tục X được gọi là có phân phối chuẩn với tham số 
và  (ở đó   0 ) nếu hàm mật độ xác suất của nó có dạng:
2

f (x) 

Kí hiệu X

1

e

 2

2
 ( x  )
2 2

.

N( ,) .
2

Khi đó hàm phân bố xác suất của X là:
2

1 x ( t   2) 2

F (x) 
e
.dt
 2 


1.1.2. Kiến thức về thống kê
1.1.2.1.Tổng thể nghiên cứu
Định nghĩa 1.3 (theo [2]): Toàn bộ tập hợp các phần tử đồng nhất theo
một dấu hiệu nghiên cứu định tính hoặc định lượng nào đó được gọi là tổng
thể nghiên cứu hay tổng thể.
Số lượng các phần tử của tổng thể được gọi là kích thước của tổng thể,
ký hiệu là N (kích thước N của tổng thể là hữu hạn).
Với mỗi tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà thông
qua một hay nhiều dấu hiệu đặc trưng. Chúng được gọi là dấu hiệu nghiên
cứu, ký hiệu là  .
1.1.2.2. Mẫu ngẫu nhiên
Tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó. Ta gọi Xi là
việc quan sát lần thứ i về biến ngẫu nhiên X. Khi đó (X 1, X2, …, Xn) được gọi
là mẫu ngẫu nhiên, n được gọi là cỡ mẫu. Như vậy, mẫu ngẫu nhiên cỡ n thực
chất là n biến ngẫu nhiên độc lập, cùng phân phối như biến ngẫu nhiên X
(theo [3]).
1.1.2.3. Một số đặc trưng của mẫu ngẫu nhiên
a. Trung bình mẫu


Trung bình mẫu của mẫu ngẫu nhiên W = (X1, X2, …, Xn) của biến
ngẫu nhiên X được định nghĩa và kí hiệu:
n
1

X   Xi .
n i1

b. Phương sai mẫu
Phương sai mẫu là trung bình cộng của độ lệch bình phương các thành
phần của mẫu với trung bình mẫu và kí hiệu S 2 được xác định như sau:
n

S 2  1 
Xi
n i1

2

n

 X   X i (X ) .
1
n i1
2

2

1.1.2.4. Kiểm định giả thuyết
a. Khái niệm
• Giả thuyết: Một mệnh đề (một câu khẳng định) về một vấn đề
chưa biết nào đó được gọi là giả thuyết.
• Giả thuyết thống kê: Giả thuyết thống kê là những phát biểu về
các tham số, quy luật phân phối, hoặc tính độc lập của các đại
lượng ngẫu nhiên.

• Kiểm định giả thuyết là việc tìm ra kết luận để bác bỏ hay chấp
nhận một giả thuyết.
• Trong bài toán kiểm định giả thuyết, giả thuyết cần được kiểm
định gọi là giả thuyết không, ký hiệu là H 0 ; mệnh đề đối lập với
H 0 gọi là đối thuyết, ký hiệu là H .
1

b.Tiêu chuẩn kiểm định giả thuyết thống kê
Miền bác bỏ W được xây dựng từ thống kê T của mẫu gọi là tiêu
chuẩn kiểm định và được xác định như sau:
Từ biến ngẫu nhiên gốc X của tổng thể lập mẫu ngẫu nhiên kích thước
n:
W  (X 1 , X 2 ,..., X n ) .
Chọn thống kê: T  T (X1 , X 2 ,..., X n , )
trong đó  là tham số liên quan đến giả thuyết cần kiểm định.


Nếu H 0 đúng thì thống kê T có quy luật phân bố xác suất xác định, từ
đó có thể xây dựng miền bác bỏ W .
c. Miền bác bỏ giả thuyết
Sau khi đã chọn tiêu chuẩn kiểm định T , với  bé cho trước (thường
 được lấy bằng 0,05 hoặc 0,01) và với điều kiện H 0 đúng ta có thể tìm được
miền W sao cho T nhận giá trị trong miền W với xác suất bằng  :
P T  W / H 0  

 .

Giá trị  được gọi là mức ý nghĩa của kiểm định và miền W gọi là
miền bác bỏ giả thuyết H 0 với mức ý nghĩa  .
d. Giá trị quan sát của tiêu chuẩn kiểm định

Thực hiện phép thử với mẫu ngẫu nhiên X  ( X1 , X 2 ,..., X n ) thu được
mẫu cụ thể x  (x1 , x2 ,..., xn ) , thay giá trị này vào thống


T  T (X 1 , X 2 ,..., X n ,
)

ta được giá trị quan sát của tiêu chuẩn kiểm định: Tqs  (x1 , x2 ,..., xn , 0 ) .
e. Sai lầm trong bài toán kiểm định
• Sai lầm loại I: Bác bỏ giả thuyết H 0 trong khi H 0 đúng.
Xác suất mắc sai lầm loại I đúng bằng mức ý nghĩa  . Thật vậy,
xác
suất ta bác bỏ H 0 bằng xác suất biến cố T  W  , do đó
khi

H 0 đúng thì xác

suất này là xác suất có điều kiện P T  W / H    .
Sai lầm loại I sinh ra do kích thước mẫu quá nhỏ, do phương
pháp
lấy mẫu.
• Sai lầm loại II: Thừa nhận giả thuyết H 0 trong khi H 0 sai.
Điều này xảy ra khi giá trị quan sát Tqs không thuộc miền bác bỏ W
trong khi H1 đúng.
Vậy xác suất sai lầm loại II là  và được xác định như sau:


P T  W / H1  

.



1.2. Phương pháp ước lượng hợp lý cực đại
Ước lượng hợp lý cực đại là một kỹ thuật thống kê dùng để ước lượng
giá trị tham số của một mô hình xác suất dựa trên những dữ liệu có được.
Phương pháp này được nhà toán học R.A. Fisher phát triển vào khoảng những
năm 1912 – 1922. Phương pháp này dựa trên giả thiết các mẫu ngẫu nhiên
(X1, X2, …, Xn) có được đều độc lập và có cùng phân phối, với hàm phân
phối thuộc một lớp cụ thể với tham số  chưa biết. Mục tiêu của phương pháp
này là đi tìm giá trị của tham số để tối ưu hóa hàm hợp lý:
n

L( X /  )   f ( X ,  ) .
k 1

Cụ thể :
Cho mẫu ngẫu nhiên (X1, X2, …, Xn) độc lập từ phân phối f ( X , trong
)
n

đó   (1 ,2 ,...,r ) . Hàm L( X /  )   f ( X ,  ) là hàm hợp lý. Khi đó thống

k 1

 (X1 , X 2 ,..., X n được gọi là ước lượng hợp lý cực đại của  nếu
)
L( X /  ( X ))  L( X /  )


và gọi  ( X )  

( ( X ))

là ước lượng cực đại của hàm

tham số  ( ) .
Trường hợp tổng quát   (1 ,2

để tìm  ta giải hệ r phương

,...,r )

trình:

  ln L( X /  )
  0
1
 .

..
  ln L( X / 
)
 0
 r


.
Đây là điều kiện cần để
i

j


2

 ln L( X ,  )


L( X /  ) đạt cực đại.
Đặt uij 
  

, i, j  1, r .


 u11  X 1 0  ... u1r ( X 1 0 ) 

Khi đó, ma trận A
...
...
...
là xác định không âm thì



 u ( X  ) ... urr ( X 1 0 ) 
r1
1 0

tại  

hàm hợp lý L( X /  ) đạt cực đại (theo [1]).


0

1.3. Điểm trung bình hay trung tâm của đám mây số liệu và ma trận
trung tâm hóa
 x11 x12 ... x1 p 


 x21 x21 ... x2 p 
X 
Xét
... ... ... .... 

 xn1 x n2 ... x np 
Mỗi dòng của X có thể xem là 1 điểm trong không gian Rp, n điểm tạo
nên 1 tập hợp gọi là một đám mây số liệu, ta gọi véc tơ trung tâm của X hay
điểm trung tâm của đám mây này là g thì g có thể tính như sau:
T

g  X D1.

(1.1)

Trong đó 1 là véc tơ có tất cả các thành phần bằng 1 trong không gian
Rn. Dễ dàng kiểm tra thấy g là một véc tơ p chiều.
Việc trung tâm hóa đám mây số liệu thực hiện bằng cách lập các véc tơ
chênh lệch của các cá thể với véc tơ g.
Đặt ma trận: Y  X  1g T ,
là chuyển vị của g.
T

g

(1.2)

Tích 1g T là một ma trận có các dòng là đều là véc tơ g T .
1.4. Công thức xác định tâm và ma trận hiệp phương sai của các đám mây
+ gj 
qj
+ g

1

q
j

i

j



pi X i ( X i  E j )

gj


1

+V 


j

qj

+ V  i

i

p (X



i

pi (
X

 g )
(X
j

i

i
 g)(
X

 g )

(X ,X  E )


T
t

j

i

t

j

T

 g)

1.5. Phân tích hồi quy
1.5.1. Khái niệm phân tích hồi quy
Là việc tìm quan hệ phụ thuộc của một biến, được gọi là biến phụ thuộc
vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ước
lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị
của biến độc lập (theo [1]).
1.5.2. Hàm hồi quy
Giả sử có cơ sở cho rằng sự biến động của X1 (chẳng hạn) phụ thuộc
vào tình trạng của các biến còn lại X2,…, Xk (k >2). Như vậy chúng ta đã coi
như các biến X2,…, Xk là phi ngẫu nhiên. Trong trường hợp này với mỗi trạng
thái của X2,…, Xk biến ngẫu nhiên X1 có một phân phối có điều kiện tương
ứng F(X1/X2,…, Xk) có trung bình và phương sai hữu hạn. Để phân biệt biến
ngẫu nhiên và phi ngẫu nhiên trong trường hợp này ta đổi tên biến X1 là Y.
Như vậy khi (X2,…, Xk) = (x21,…, xk1) xác định duy nhất E1(Y/X2,…,

Xk).
Tương tự khi (X2,…, Xk) = (x2i,…, xki) xác định duy nhất Ei(Y/X2,…,
Xk). Quan hệ trên xác định một hàm số biểu thị quan hệ phụ thuộc
của giá
trị trung bình có điều kiện của Y theo các biến được coi là phi ngẫu nhiên
(X2,…, Xk).
Định nghĩa 1.4 [8]: Hàm hồi quy của Y theo X2,…, Xk là trung bình có
điều kiện của Y theo X2,…, Xk.
Ta có thể viết: F(Y/X2,…, Xk) = f (X2,…, Xk)

(1.3)


và gọi f là hàm hồi quy Y theo (X2,…, Xk). Y gọi là biến phụ thuộc và (X2,…,
Xk) gọi là các biến độc lập. Trường hợp đơn giản nhất: E(Y/X) = f(X) ta có
một hồi quy đơn. Hồi quy với hơn một biến độc lập ta gọi là một hồi quy bội.
1.5.3. Hồi quy tổng thể và hồi quy mẫu
Định nghĩa 1.5 [8]: Giả sử tổng thể đang xét có số đông cá thể, với cá
thể i biến Y và (X2,…, Xk) nhận bộ giá trị Yi và (X2i,…, Xki) ta có quan hệ sau
nhận được từ (1.3) và gọi là hồi quy tổng thể:
Yi  E(Y / X 2i ,..., X ki )  U i .

(1.4)

Trong (1.4) Ui gọi là nhiễu hay sai số ngẫu nhiên, nó thể hiện sự sai
lệch của cá thể so với trung bình khi sử dụng (1.3).
Để ước lượng E(Y/X2i,…, Xki) người ta sử dụng phương pháp mẫu.
Giả sử có mẫu ngẫu nhiên kích thước n: W = (Y, X2,…, Xk), từ mẫu
này người ta ước lượng E(Y/X2i,…, Xki) bằng một phương pháp nào đó và
nhận được Yi  g(Yi , X 2i ,..., X ki ta gọi đây là ước lượng của Yi.

)
Quan hệ của Yi và ước lượng của nó có thể mô tả như sau:
Yi  Yi  ei ,
(1.5) (1.5) gọi là hồi quy mẫu và ei gọi là phần dư của Yi trong hồi quy mẫu.
1.5.4. Hồi quy tuyến tính
Trong (1.3) khi xem xét cấu trúc của f, người ta có thể quan tâm đến
hai vấn đề:
Thứ nhất là các biến độc lập: với bậc của các biến độc lập ta có các
hàm tuyến tính hay phi tuyến tính theo nghĩa giải tích.
Thứ hai là các tham số cấu trúc của hàm hồi quy f: với bậc của các
tham số người ta chia hàm hồi quy thành các dạng hồi quy tuyến tính hay phi
tuyến tính. Do yêu cầu của các kĩ thuật ước lượng cũng như ý nghĩa các tham


số cấu trúc trong phân tích hồi quy, người ta quan niệm một hồi quy tuyến
tính là hồi quy có f tuyến tính theo các tham số.
Thực tế có nhiều mô hình phi tuyến tính có thể tuyến tính hóa nhờ các
phép biến đổi trên các biến. Có thể xếp các mô hình này là các mô hình tuyến
tính, các mô hình thông dụng trong kinh tế xã hội là:
Hàm tuyến tính: Y  a  b1 X 1  b2 X 2  ...  bk X k .
Hàm Cobb-douglas: Y  aX2b2 ...Xk bk .
Hàm tăng trưởng: Y  Yo (1  r)t .
Chẳng hạn các hàm hồi quy sau gọi là hồi quy tuyến tính:
2
Y  a  bln X
Y  a  bX  cX
;
;
Trong khi các hàm hồi quy sau là phi tuyến tính:
b

b
Ya
Y  a  X ;…
c
;
c  dX

Y  a  bX
;

Y a

b
;
X

1.5.5. Hồi quy đơn và hồi quy bội
Mô hình hồi quy đơn là mô hình hồi quy với 1 biến độc lập duy nhất,
biến này giải thích cho biến phụ thuộc với một ý nghĩa duy nhất. Trong
trường hợp hồi quy tuyến tính hồi quy đơn luôn có dạng:
Y  1   2 X 2
.
Mô hình hồi quy bội là mô hình có hơn 1 biến độc lập, có thể có những
biến là biến thứ sinh của các biến khác. Trong trường hợp hồi quy tuyến tính,
một hồi quy bội có dạng sau:
Y  1   2 X 2  ...   k X k .
Có thể viết (1.6) dưới dạng sau: Y  X  

U . Hồi quy mẫu tương ứng được mô tả như
sau:

Y  1  2 X 2  ...   k X k .

(1.6)
(1.7)

(1.8)


1.5.6. Biến giả
Biến giả được dùng trong mô hình hồi quy để lượng hóa những biến
định tính.
Biến định tính biểu thị có hay không một tính chất nào đó, hoặc các
mức độ khác nhau của một thuộc tính nào đó. Ví dụ : giới tính (nam hay nữ),
nơi cư trú (thành thị hay nông thôn).
Biến định lượng là các biến mà giá trị quan sát là những con số. Ví dụ :
thu nhập, chi tiêu, …
1.5.7. Phân tích ANOVA
Phân tích ANOVA hay phân tích phương sai một yếu tố là phân tích ảnh
hưởng của một yếu tố nguyên nhân (định tính) ảnh hưởng đến một yếu tố kết
quả (định lượng) đang nghiên cứu.


CHƯƠNG 2: PHÂN TÍCH KHÁC BIỆT
Trong chương này, tôi sẽ trình bày một số kiến thức về tổng quan phân
tích khác biệt như là khái niệm, mục tiêu, …; một số phương pháp phân tích
khác biệt là phương pháp hồi quy logistic, phương pháp Fisher và phương
pháp Bayes.
2.1. Tổng quan về phân tích khác biệt
2.1.1. Khái niệm
Phân tích khác biệt là một kỹ thuật phân tích sử dụng cho việc phân

biệt giữa các nhóm bằng cách phân tích dữ liệu với một biến phụ thuộc được
phân loại và các biến độc lập được đo bằng thang đo khoảng. Ví dụ, biến phụ
thuộc có thể chọn một nhãn hiệu máy tính cá nhân (A, B hoặc C) và các biến
độc lập có thể là chất lượng được đánh giá theo ba loại (chất lượng tốt, chất
lượng trung bình và chất lượng kém).
2.1.2. Mục tiêu của phân tích khác biệt
Phân tích khác biệt nhằm đạt được những mục tiêu sau đây:
- Phát triển những hàm phân biệt kết hợp tuyến tính những nhân tố dự
báo (các biến độc lập). Hàm này có sự phân biệt tốt nhất giữa các tiêu chuẩn
nhóm đã phân loại (biến phụ thuộc).
- Xác định xem có sự khác biệt có ý nghĩa tồn tại giữa các nhóm về nội
dung của các biến độc lập không.
- Xác định biến độc lập nào gây ra sự khác biệt giữa các nhóm.
- Phân loại nhóm này so với nhóm khác dựa vào các giá trị của các biến
độc lập.
- Ðánh giá tính chính xác của việc phân loại.


2.1.3. Mối quan hệ giữa phân tích hồi quy, phân tích ANOVA và phân
tích khác biệt
Giữa các phân tích hồi quy, ANOVA và phân tích khác biệt có những
điểm giống nhau và khác nhau như sau:
Bảng 1.1: Phân biệt giữa ba loại phân tích

Giống
nhau

Số lượng biến phụ
thuộc
Số lượng biến độc lập

Tính chất của biến

Khác

phụ thuộc

nhau

Tính chất của biến
độc lập

Hồi quy

ANOVA

Khác biệt

Một

Một

Một

Nhiều biến

Nhiều biến

Nhiều biến

Đo lường


Đo lường

Phân loại

Đo lường

Phân loại

Đo lường

Trong thực tế phân tích dữ liệu, tùy theo mục tiêu nghiên cứu, tính chất
của dữ liệu (do điều kiện thu thập dữ liệu hay do đặc điểm của đối tượng được
khảo sát) mà người phân tích dữ liệu sử dụng linh hoạt các phương pháp phân
tích. Điều cần lưu ý là khi thiết kế nghiên cứu, người nghiên cứu cần hình
dung ra các mô hình phân tích để thiết kế thang đo thu thập các dữ liệu phù
hợp với mô hình phân tích sử dụng.
Ví dụ 1: Một nhà nghiên cứu muốn giải thích lượng tiền bảo hiểm nhân
thọ được trả (biến phụ thuộc) dựa vào tuổi và thu nhập (biến độc lập). Cả ba
biến này đều có liên quan với nhau nhưng có bản chất khác nhau. Trong phân
tích ANOVA và hồi quy, bản chất của biến phụ thuộc dùng đơn vị tính cho
chỉ tiêu lượng tiền bảo hiểm nhân thọ là đồng, trong khi đó trong phân tích
khác biệt (biến phụ thuộc) thì lượng tiền bảo hiểm có thể được phân loại một
trong ba mức độ: cao, trung bình hay thấp. Ngược lại, các biến độc lập tuổi và


thu nhập trong phân tích ANOVA chia làm ba loại: cao, trung bình và thấp
còn trong hồi quy và phân tích khác biệt nó sử dụng đơn vị tính của tuổi là
năm và đơn vị tính của thu nhập là triệu đồng.
2.1.4. Phân loại phân tích khác biệt

Phân tích khác biệt giữa hai nhóm: Là phân tích được sử dụng
trong trường hợp biến phụ thuộc được chia làm hai loại, biến phụ thuộc được
mã hóa theo hai số 0 hoặc số 1 (dummy variables). Kết quả phân tích thể hiện
các hệ số hồi quy thì tỷ lệ với các hệ số hàm phân biệt.
Phân tích khác biệt đa nhóm: Là kỹ thuật phân tích được sử dụng
trong
trường hợp biến phụ thuộc được phân loại thành ba hay nhiều
nhóm.
2.1.5. Mô hình phân tích biệt số
Mô hình phân tích khác biệt được dựa vào mô hình thống kê như sau:
D = bo + b1x1 + b2x2 + ......+ bkxk
trong đó:
D: Ðiểm phân biệt (biến phụ thuộc)
bi: Các hệ số hay trọng số phân biệt (i = 1,n)
xi: Các biến độc lập (i = 1,n).
Trong mô hình phân tích, hệ số hay trọng số (bi) được ước lượng để
phân biệt sự khác nhau giữa các nhóm dựa vào giá trị của hàm phân biệt. Ðiều
này xuất hiện khi tỷ số giữa tổng bình phương giữa các nhóm và tổng bình
phương trong từng nhóm có điểm phân biệt lớn nhất.
2.1.6. Các tham số thống kê trong phân tích khác biệt
Canonical correlation: hệ số tương quan đo lường mức độ liên hệ giữa
các biệt số và các nhóm. Nó là một thước đo mối liên hệ giữa hàm phân biệt
đơn và tập hợp các biến giả xác định các nhóm.


×