Tải bản đầy đủ (.pdf) (16 trang)

Thử nghiệm phân tích thống kê hoạt động kinh doanh của công ty tài chính việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (500.7 KB, 16 trang )

Thử nghiệm phân tích thống kê hoạt động
kinh doanh của Công ty Tài Chính Việt

Chu Thị Hồng Đăng

Trường Đại học Khoa học Tự nhiên
Luận văn Thạc sĩ ngành: Lý thuyết xác suất và thống kê; Mã số: 60 46 15
Người hướng dẫn: PGS.TS Hồ Đăng Phúc
Năm bảo vệ: 2012

Abstract: Trình bày một số kiến thức chuẩn bị về xác suất: phần tử ngẫu nhiên và
phân phối xác suất; một số đặc trưng của đại lượng ngẫu nhiên; một số phân phối
thường gặp. Nghiên cứu quá trình ngẫu nhiên: một số quá trình ngẫu nhiên thường
gặp. Giới thiệu về hồi quy Poisson. Mô hình hồi quy Poisson tổng quát. Phân tích hoạt
động tín dụng tiêu dùng.

Keywords: Toán học; Phân tích thống kê; Hoạt động kinh doanh; Công ty Tài chính
Việt

Content
1. Một số kiến thức chuẩn bị về xác suất
1.1. Phần tử ngẫu nhiên và phân phối xác suất
Định nghĩa 1. Giả sử (

, A, P) là không gian xác suất cơ bản và (E, F) là không gian đo
được. Ta gọi X :


E là một biến ngẫu nhiên nếu nó là một ánh xạ đo được (tức là X
-1
(F)



A)
Đặc biệt, nếu E = R
n
và F = B
n


- đại số Borel của R
n
thì ta gọi X là véc tơ ngẫu
nhiên n chiều và viết
X

thay cho X. Trong trường hợp n = 1, ta viết X thay cho
X

và gọi X
là đại lượng ngẫu nhiên.
Định nghĩa 2. Phân bố xác suất (hay còn gọi là phân phối xác suất) của một biến ngẫu nhiên
X (trên R) là phân bố xác suất P
X
trên R, với

- đại số là

- đại số Borel B của R, cho bởi
công sau:
P
F

(B) = P(X
-1
(B)
với mọi tập con B của R nằm trong

- đại số B.
Định nghĩa 3. Hàm phân phối xác suất của phân bố xác suất P
X
trên R của một biến ngẫu
nhiên X là hàm Fx: R

[0; 1] cho bởi công thức

: ( ) (( , ])
X
F P X x P x   



2
Định lý 1. Hàm phân phối F
X
của một phân bố xác suất tuỳ ý trên R thoả mãn 4 tính chất sau:
1. Đơn điệu không giảm: F
X
(x)

F
X
(y) với mọi x


y.
2. Liên tục bên phải:
)()(lim
0
xFxF
XX


với mọi x,
3.
0)(lim 

xF
Xx

4.
lim ( ) 1
xX
Fy



Ngược lại, mọi hàm số thực trên R thoả mãn 4 tính chất trên là hàm phân phối của một
phân bố xác suất trên R.
Định nghĩa 4. Một phân bố P
X
trên R được gọi là liên tục nếu như hàm phân phối xác suất
F
X

là hàm liên tục trên R. Nó được gọi là liên tục tuyệt đối nếu như tồn tại một hàm
số
:
X
RR



khả tích và không âm, sao cho với mọi a

R ta có

( ) ( , ) ( )
a
X X X
F a P a x dx


  


Hàm
X

: R

R
+
thoả mãn như trên gọi là hàm mật độ của P
X

.

Định nghĩa 5. Một phân bố xác suất P
X
được gọi là rời rạc nếu như nó tập trung trên các
điểm hạt của nó: P
X
(A
X
) = 1, P
X
(R\ A
X
) = 0
1.2. Một số đặc trưng của đại lượng ngẫu nhiên
Đối với trường hợp rời rạc: Giá trị kỳ vọng của một biến ngẫu nhiên X, ký hiệu là E(X),
chính là trung bình cộng có trọng số của biến ngẫu nhiên đó.
Từ đó, có thể suy ra rằng hai biến ngẫu nhiên có cùng phân bố xác suất trên R thì có
cùng kỳ vọng. Bởi vậy, thay vì nói về kỳ vọng của biến ngẫu nhiên, ta có thể nói về kỳ vọng
của phân bố xác suất trên R. Trong trường hợp không gian xác suất là một tập hợp hữu hạn
hoặc đếm được,

={
,
21

} với xác suất P
1)(),( 
iii
P


thì công thức tính giá trị kỳ
vọng của một biến ngẫu nhiên X là

( ) ( ) ( )
ii
i
E X X P



Trong trường hợp tổng quát, công thức tính giá trị kỳ vọng được viết dưới dạng phân
Lesbesgue của X trên không gian xác suất (

, R):


 XdPXE )(

Định nghĩa 7. Phương sai của biến ngẫu nhiên X là đại lượng:
D(X) = E[X-E(X)]
2

còn
()DX


được gọi là độ lệch tiêu chuẩn của X.

1.3. Một số phân phối thường gặp


3
Sau đây, ta đưa ra một số phân phối thường gặp trong thực tế.
Định nghĩa 8. Giả sử a, b là hai số thực, với b > a. Khi đó phân phối đều trên đoạn thẳng [a;
b] là phân bố liên tục với hàm mật độ xác suất được cho như sau:









bxaxkhi
bxakhi
ab
x
caho

0
1
)(


Phân bố xác suất đều trên [a;b] hay được ký hiệu là U(a;b). Trong định nghĩa trên ta có thể
thay đoạn thẳng đóng [a;b] bằng các khoảng mở (a;b) hoặc nửa đóng, nửa mở cũng được.
Ví dụ, vị trí của một người đi trên đường có thể mô hình hoá bằng một biến ngẫu nhiên
với phân bố đều, nếu chúng ta không có thông tin gì ngoài thông tin người đi bộ trên quãng
đường đó.

Khái niệm phân bố đều có thể mở rộng lên trường hợp nhiều chiều: Không gian xác
suất là một miền của R
n
(n

2), và xác suất một miền con (n chiều) tỷ lệ thuận với thể tích (n
chiều) của miền con đó.
Định nghĩa 9. Phân bố xác suất chuẩn (hay phân bố Gauss) trên R với trung bình

và độ
lệch chuẩn

là phân bố liên tục với hàm mật độ sau:
.
2
2
1 ( )
( ) ( )
2
2
x
x e xp







Ký hiệu phân phối chuẩn trên đây là N(

2
,

), phân bố chuẩn với

= 0,

2
= 1 được
gọi là chuẩn tắc. Phân bố chuẩn là một trong những phân bố quan trọng nhất vì nhiều phân bố
xác suất gặp trong thực tế có dáng điệu khá giống phân bố chuẩn.
Định nghĩa 10. Phân bố mũ với tham số

là phân bố xác suất liên tục tuyệt đối trên R cho
bởi hàm mật độ sau:







00
0
)(
xkhi
xkhie
x
x





Định nghĩa 11. Một biến ngẫu nhiên X được gọi là có phân bố nhị thức với tham số n, p nếu
hàm phân bố xác suất của nó có dạng
( ) (1 ) ; 0,1,2 , ;0 1
k k n k
n
P X k C p p k n p

     

Giá trị kỳ vọng và phương sai của biến ngẫu nhiên có phân bố nhị thức lần lượt là np và
np (1-p)
Định nghĩa 12. Một biến ngẫu nhiên Y được gọi là phân phối Poisson với tham số

>0 nếu
nó nhận các giá trị nguyên y = 0, 1, 2,… với xác suất

 
!
y
e
P Y y
y




(1)


4
Khi đó ta ký hiệu
()YP



Phân phối Poisson là giới hạn của phân bố nhị thức với tham số p =
/ n

và n, khi n
tiến tới vô cùng.
2. Quá trình ngẫu nhiên
2.1. Một số quá trình ngẫu nhiên thường gặp
Chuyển động Brown
Quá trình Wiener W
t
có ba đặc điểm:
1. W
0
= 0
2. W
t
liên tục hầu chắc chắn.
3. W
t
có số gia độc lập với phân phối W
t
- W
s

~ N(0, t - s) (với 0

s

t).
Ở đây
2
,(

N
) biểu thị phân phối chuẩn với giá trị trung bình

và phương sai
2

.
Điều kiện quá trình có số gia độc lập có nghĩa là nếu
2211
0 tsts 
thì W
t1
- W
s1
và W
t2
-
W
s2
là những biến ngẫu nhiên độc lập.
Một đại diện của quá trình ngẫu nhiên rời rạc chính là quá trình Poisson, sẽ được đề cập

chi tiết ở mục sau.
3. Giới thiệu về hồi quy Poisson
3.1. Phân bố Poisson
Phân phối Poisson là phân phối được đặt theo tên nhà toán học người Pháp Siméon
Denis Poisson (1781 - 1840). Như trên ta đã nói, một biến ngẫu nhiên Y được gọi là có phân
phối Poisson với tham số

> 0 nếu nó nhận các giá trị nguyên y = 0, 1, 2,… với xác suất

 
!
y
e
P Y y
y




(2)
Giá trị trung bình và phương sai của phân phối này được chỉ ra bằng:
E(Y) = Var (Y) =


Một tính chất quan trọng của phân phối Poisson là tổng của các biến ngẫu nhiên
Poisson độc lập cũng có phân phối Poisson. Cụ thể, nếu Y
1
, Y
2
là các biến ngẫu nhiên độc lập,

i
Y
~
( ), 1; 2
i
Pi


thì
21
YY 
~
12
()P


. Kết quả này có thể mở rộng cho tổng nhiều hơn hai
biến ngẫu nhiên Poisson.
Giả sử ta có n
i
nhóm quan sát có cùng phương sai, ký hiệu Y
ij
là số lượng biến cố của
quan sát thứ j trong lớp nhóm thứ i. Trên các nhóm đó, Y
i
là toàn bộ các quan sát của nhóm
thứ i. Với giả thiết thông thường về tính độc lập và Y
ij
~ P(


i
) với j = 1,2, n
i
thì Y
i
~
()
ii
Pn

.
3.2. Quá trình hồi quy Poisson

5
Một quá trình Poisson, là một quá trình ngẫu nhiên được định nghĩa theo sự xuất hiện
của các biến cố. Một quá trình ngẫu nhiên N(t) là một quá trình Poisson (thời gian - thuần
nhất, một chiều) nếu:
1. N (0) = 0
2. Số các biến cố xảy ra trong hai khoảng thời gian không giao nhau là các biến ngẫu
nhiên độc lập.
3. Xác suất của số biến cố trong một khoảng con [t, t +

] nào đó được cho bởi công
thức

 
, 1,0
!
)(
))()(( 


k
k
e
ktNtNP
k




trong đó số

dương là một tham số cố định, được gọi là tham số cường độ, có nghĩa là, biến
ngẫu nhiên N(t+

) - N(t) mô tả số lần xuất hiện trong khoảng thời gian [t, t+

] tuân theo
một phân bố Poisson với tham số

.
3.3. Mô hình loga tuyến tính cho quá trình Poisson
Giả sử ta có một mẫu bao gồm n quan sát Y
1
, Y
2
,…,Y
n
là các biến ngẫu nhiên độc lập có
phân phối Poisson, Y

i
~ P(
i

), ta mong muốn
i

phụ thuộc vào một véc tơ các biến độc lập,
ta có thể bắt đầu bằng mô hình tuyến tính đơn giản.

jii
x

'

(3)
Tuy nhiên vế phải của (3) là một số thực bất kỳ trong khi vế trái là giá trị trung bình
không âm. Phương án thay thế giải quyết vấn đề này là ta nghĩ đến logarit của giá trị trung
bình. Ta lấy
)(log
ii


và xét mô hình tuyến tính.

jii
x

'
)log( 

(4)
Trong mô hình này
j

biểu diễn sự thay đổi của loga giá trị trung bình ứng với mỗi
thay đổi của x
j
. Lấy luỹ thừa cơ số e hai vế của (4) ta thu được mô hình

 
jii
xxpe

'

(5)
Để ước lượng các tham số của phân phối Poisson trong mô hình trên, người ta dùng
phương pháp ước lượng hợp lý cực đại. Trước tiên ta xây dựng hàm hợp lý là tích các giá trị
của biểu thức (2) lấy trên n quan sát độc lập có phân phối Poisson với tham số
i

thoả mãn
(3), tức là

!
)(
1
i
yi
i

i
n
i
y
e
L






(6)
Lấy loga hai vế ta có

6

 



n
i
iii
yLogL
1
)log()(

(7)
Ở đó

i

phục thuộc vào các biến độc lập x
i


là vecto gồm p tham số được cho ở
(3). Lấy đạo hàm riêng hai vế theo từng phần tử của

và cho chúng bằng 0. Nghiệm của các
phương trình đó cho ta ước lượng hợp lý cực đại của mô hình loga tuyến tính Poisson. Có thể
chỉ ra rằng các nghiệm đó thoả mãn phương trình.


ˆ
'' YyX 
(8)
Ở đây X là ma trận thiết kế với mỗi hàng là mỗi quan sát, mỗi cột là biến dự báo (có thể
bao gồm hằng số). Y biến đáp ứng,

ˆ
là một vectơ của giá trị dự báo, được tính toán thông
qua ước lượng

ˆ
bằng cách lấy exp mũ của dự báo tuyến tính

ˆ
'X
.

Một độ đo đánh giá mức độ phù hợp của mô hình với tập giá trị quan sát là độ chệch có
dạng










n
i
ii
i
i
i
y
y
yD
1
ˆ
()
ˆ
log(2


(9)
Với cỡ mẫu lớn, D là đại lượng có phân phối xấp xỉ phân phối khi bình phương với (n-

p) bậc tự do, ở đây n là số lượng quan sát, p số lượng tham số. Do vậy D thường được sử
dụng trực tiếp để kiểm tra tính đúng đắn của mô hình.
Một độ đo khác có thể dùng thay thế là thống kê Khi bình phương của Peason




i
ii
p
y
X


ˆ
)
ˆ
(
2
2

Khi cỡ mẫu lớn, phân phối của thống kê Peason cũng xấp xỉ phân phối khi bình phương
với (n-p) bậc tự do. Hai độ đo trên được dùng để kiểm định sự phù hợp của mô hình với dữ
liệu quan sát được.
4. Mô hình hồi quy Poisson tổng quát
Giả sử biến phụ thuộc Y là một biến đếm tuân theo luật Poisson tổng quát chịu tác động
của p biến mô tả (x
i1
, x
i2

,…x
ip
). Mô hình hồi quy Poisson tổng quát được xây dựng bởi
Famoye nói rằng phân phối của Y
i
lấy điều kiện theo (x
i1
, x
i2
,…x
ip
) và được định nghĩa bằng

1
(1 ) (1 )
1
( | ) ( ) ( ) .exp( )
1 1 1 !
i
y
i i i i i
i i i
i i i i
yy
P Y y x f y
yy
    
  

  


  
(10)
y
i
= 0,1,…
với x
1
= (1, x
i1
,… x
ip
) là véctơ (p + 1) . 1 chiều,
0
i

là giá trị trung bình phụ thuộc của Y
i

với điều kiện x
i
. Ta cũng có phân tích phổ biến cho
i



7

( | ) ( )
t

i i i i
E Y x exp x


(11)
Phương sai của Y được cho bởi

22
/
( | ) (1 )
i i y x i i
V ar Y x
  
  
(12)
Ở đây
), ,(
10 p


là một véc tơ p + 1 chiều của các tham số hồi quy, tham số


là một độ đo của hàm mật độ. Khi

= 0 mô hình hồi quy Poisson tổng quát ở (10) trở thành
mô hình hồi quy Poisson bình thường. Với

> 0 mô hình hồi quy Poisson tổng quát có thể
sử dụng cho mô hình có số liệu đếm có độ phân tán vượt trội, tương tự


< 0, mô hình hồi
quy Poisson tổng quát sử dụng cho mô hình có số liệu đếm có độ phân tán thiếu hụt. Với một
vài quan sát trong tập số liệu, giá trị Y
i
có thể bị mất theo dõi, từ đó mô hình hồi quy Poisson
tổng quát mất theo dõi được Faymoye và Wang đề xuất năm 2004.
Nếu quan sát không bị mất theo dõi thì Y
i
= y
i
.
Nếu quan sát mất theo dõi thì Y
i


y
i
, và phân phối được áp dụng cho số liệu mẫu là
phân phối nhị phân d
i
được xác định như sau: d
i
= 1 nếu
ii
yY 
và d
i
= 0 nếu ngược lại.
Mô hình hồi quy Poisson tổng quát bị mất theo dõi được cho bởi:


 
1
1
0
( , | ) ( ) 1 ( )
i
i
i
d
y
d
i i i i
j
p y d x f y f j








(13)
Mô hình hồi quy Poisson tổng quát (13) bao gồm (p+2) tham số được sắp xếp trong
véctơ
),'(


, và nó có thể được ước lượng bằng phương pháp hợp lý cực đại như trình

bày tiếp sau đây.

4.1. Ước lượng tham số
),'(



Hàm hợp lý của (13) được cho bởi

 
1
1
1
0
( , , ) ( ) [1- ( )]
i
ii
y
n
dd
ii
i
j
L y f y f j











(14)
Hàm log hợp lý là:
 
1
1 0 0
( , . ) (1 )log ( ) log[(1 ( )]
i
y
nn
i i i i
i j j
LL y d f y d f j


  
   
  
(15)
Thay công thức hàm mật độ ở (13) vào (15) ta thu được















n
i
i
i
ii
i
i
i
ii
y
y
yydyLL
1
1
)!log(
1
)1(
)1log()1(
1
log)1(),,(









 
 




n
j
y
j
i
i
jfd
0
1
0
)(1log(
(16)
Bằng cách lấy đạo hàm riêng theo từng tham số và cho chúng bằng 0, ta thu được


8
0
))(1(
)

)(
(
)
)1(
)(1(
),,(
1
1
0
1
0
1
2









































n
i
y
j
y
j
i

n
i
i
i
ii
i
i
i
i
jf
jf
dx
y
d
yLL





(17)






















n
i
i
iii
i
ii
i
ii
i
i
y
y
yyy
d
yLL
1
2
)

)1(
)(
)1(
)1(
)
)1(
)(1(
),,(








0
))(1(
)
)(
(
1
1
0
1
0























n
i
y
j
y
j
i
i
i
jf
jf
d


(18)
Trong đó:

,
)1(
)(
)(
)(
2
i
i
i
x
j
jf
jf








(19)
,
)1(
)(
1

)1(
)1(
)(
)(
)(
2
i
ii
i
i
j
j
jj
j
jf
jf

















(20)
Hệ phương trình hợp lý trên không tuyến tính với các tham số

,
, chúng được giải
bằng cách dùng phương pháp lặp Newtơn - Raphson.
Lấy đạo hàm riêng của (16) ta nhận được ma trận thông tin Fisher
),(

I
bằng cách
lấy kỳ vọng của hiệu các đạo hàm cấp hai. Ma trận nghịch đảo của
),(

I
cho ta các phương
sai của ước lượng hợp lý cực đại. Phương sai của ước lượng hợp lý cực đại có thể thu được từ
ma trận Hessian, H là ma trận vuông cấp p+2. Toàn bộ ma trận Hessian, được ký hiệu là các
đạo hàm riêng cấp hai, được cho bởi:
































)
),,(
()
),,(
(
)
'
),,(

()
'
),,(
(
)(
2
22
22
2221
1211








ii
ii
yLLyLL
yLLyLL
HH
HH
H
.
Ở đây,
















n
i
iii
i
ii
i
i
xx
y
d
yLL
H
1
'
3
2
11
)

)1(
21
()1(
'
),,(






,
))(1(
)
'
)(
()
)(
()
'
)(
())(1(
1
1
0
2
1
0
1
0

1
0
1
0
2


 















































n
i
y
j
y
j

y
j
y
j
y
j
i
i
i iii
jf
jfjfjf
jf
d



















n
i
i
i
iii
i
i
x
y
d
yLL
H
1
3
2
12
)
)1(
)(
()1(2
),,(






9
,

))(1(
)
)(
()
)(
()
)(
())(1(
1
1
0
2
1
0
1
0
1
0
1
0
2


 
















































n
i
y
j
y
j
y
j
y
j
y
j
i
i
i iii
jf
jfjfjf
jf
d























n
i
i
ii
i
i
i
ii
i

i
y
y
yyy
d
yLL
H
1
3
2
1
2
1
2
2
2
2
2
22
)
)1(
)(2
)1(
)1(
)1(
()1(
),,(








,
))(1(
)
)(
()
)(
())(1(
1
1
0
2
1
0
1
0
2
1
0
2
2


 












































n
i
y
j
y
j
y
j
y
j
i
i
i ii
jf
jfjf
jf
d



H

21
= H'
12

,)
)1(
)(
)
)1(
21
()(
'
)(
'2
23
2
ii
i
i
i
i
i
xx
jj
jf
jf





































































i
i
ii
i
i
i
i
i
ii
x
j
j
jj
j
jj
jf
jf
223
2
)1(
(
)
1
)1(
1(
(
)1()1(
)(2

)(
)(
























































2
23
2

2
2
2
2
2
2
)1(
)(
)
1
)1(
1(
)1(
(2
)1(
)1(
)1(
)(
)(
i
ii
i
i
i
ii
i
i
j
j
jj

jj
j
jj
j
jf
jf










Trong trường hợp ma trận Hessian được tính toán tại ước lượng hợp lý cực đại
)'
ˆ
,'(
ˆ


, và có nghịch đảo âm thì ta sẽ nhận được ma trận phương sai - hiệp phương sai
được ký hiệu bởi
 
 
1
2
)

ˆ
(
ˆ
,
ˆ



HS
.

4.2. Sự phù hợp của thống kê hợp lý
Để kiểm tra sự phù hợp của mô hình CGPS, cũng giống trường hợp hồi quy Poisson, ta
dùng tỉ số hợp lý để kiểm tra mô hình, bài toán kiểm định giả thuyết của chúng ta là
0 :
210

p
H

(21)
Thống kê tỉ lệ hợp lý có dạng

0
ˆˆ
ˆˆ
2( ( , , ) ( , , ) )
i R i U
D LL y LL y
   

 
(22)
Ở đây
0
ˆˆ
ˆˆ
( , , ) , ( , , )
i R i U
LL y LL y
   
lần lượt là các hàm loga hợp lý được tính toán từ
mô hình được hạn chế và không hạn chế các tham số đưa vào. Với giả thuyết không (21),
thống kê D trên có phân phố
2

với p bậc tự do.

4.3. Kiểm định tham số hồi quy và các tham số phân tán
Có thể khẳng định rằng nếu trong mỗi bài toán phân tích, mô hình hồi quy Poisson tổng
quát được xây dựng chính xác và phù hợp với tập số liệu thì ước lượng hợp lý cực

10
đại
)'
ˆ
,'
ˆ
(
ˆ



cực đại hàm loga hợp lý của mô hình luon tồn tại với
)','(


và thu được
kết quả tiệm cận chuẩn sau:

 
),))
ˆ
,
ˆ
()/1((;0()
ˆ
(
1


InENn

Từ đó giúp ta có các kết luận về các hệ số hồi quy và các tham số phân tán

.
Kiểm định hệ số phân tán


Hiện tượng mất theo dõi có thể ảnh hưởng đến mô hình không, mô hình cũng có thể dẫn tới
mô hình hồi quy Poisson tổng quát, ta có bài toán kiểm định.


0:;0:
0



HH
(23)
Đây là bài toán điểm định sự quan trọng của tham số

. Sự xuất hiện của

trong mô
hình hồi quy Poisson tổng quát được khẳng định nếu giả thuyết H
0
bị bác bỏ, thống kê sử
dụng cho H
0
là:

).),
ˆ
(),
ˆ
((2
UiRi
yLLyLLD



(24)

Nếu giả thiết H
0
đúng, D

có phân phối
2

với một bậc tự do.
Kiểm định các tham số hồi quy
Để kiểm định các hệ số mũ
J

, j = 1, 2, …, p ta có bài toán
H :
J

= 0; H
1
:
J


0
Thống kê cho giả thuyết không là

ˆ
(
ˆ
)
j mle

mle
J
Z
s




Ở đây,
ˆ
j mle

là ước lượng hợp lý cực đại của hệ số
J

, s(
ˆ
j mle

) là sai số chuẩn của các
ước lượng này, được xác định từ ước lượng của ma trận phương sai – hiệp phương sai, S
2

(
ˆ
,


). Dưới giả thuyết không, thống kê Z có phân bố tiệm cận chuẩn.


5. Phân tích hoạt động tín dụng tiêu dùng
5.1. Mô tả số liệu
Số lượng sản phẩm khách hàng mua và có tham gia dịch vụ cho vay của công ty là nhân
tố chính để đánh giá được hiệu quả kinh doanh của công ty, và cũng góp phần đánh giá hiệu
quả kinh doanh của các đại lý bán hàng liên kết. Do vậy, trong mô hình, biến quan sát phụ
thuộc Y được chọn là tổng số sản phẩm được bán bằng dịch vụ cho vay trả góp trong một đơn
vị thời gian tại một địa điểm bán hàng.

11
Các biến độc lập bao gồm:
+ Biến macoso là biến mô tả các địa điểm của đại lý bán hàng liên kết với Công ty Tài
chính Việt được đặt tại quận: Đống Đa, Ba Đình, Hai Bà Trưng, Cầu Giấy, Thanh Xuân, Hà
Đông, Đông Anh, Thanh Trì, Hoàng Mai. Trong số liệu gốc macoso bao gồm các biến “ba
dinh” (cơ sở Ba Đình), “cau giay” (cơ sở Cầu Giấy), “dong da” (cơ sở Đống Đa), “hai ba
trưng” (cơ sở Hai Bà Trưng), “thanh xuan ha dong” (cơ sở Thanh Xuân – Hà Đông), “dong
anh thanh tri hoang mai” (cơ sở Đông Anh – Thanh Trì – Hoàng Mai). Thống kê số lượng
sản phẩm được bán tại các cơ sở được mô tả trong Bảng 2.

Để các số liệu này phù hợp với mô hình đếm, ta đã mã hoá lại thành các biến mới chỉ nhận
các giá trị 0, 1. Khi quan sát số liệu ta thấy Đống Đa có số lượng khách hàng đông nhất trong
thời gian quan sát (511 hồ sơ trên tổng số 2179 quan sát) nên chọn dongda (Cơ sở Đống Đa)
làm nhóm chứng. Các biến mới được thành lập bao gồm: BaDinh (cơ sở Ba Đình), CauGiay
(cơ sở Cầu Giấy), HaiBa (cơ sở Hai Bà Trưng), TXHDong (cơ sở Thanh Xuân, Hà Đông có vị
trí tương đối gần nhau, ta ghép thành một biến quan sát) và biến DATTrHMai là biến quan sát
các cơ sở tại Đông Anh, Thanh Trì, Hoàng Mai. Vì các cơ sở này có số lượng không nhiều so
với các nơi khác nên ta ghép chung vào một nhóm quan sát. Các biến mới được thành lập kể
trên là các biến nhị phân nhận giá trị 1 nếu sản phẩm được bán tại các cơ sở tương ứng đó và
nhận giá trị 0 trong trường hợp còn lại.
+ Biến gioikh thể hiện giới tính của khách hàng mua sản phẩm. Cụ thể, biến nhận giá trị
0 nếu khách hàng là nữ, nhận giá trị 1 khi khách hàng có giới tính nam. Phân bố giới tính của

khách hàng được trình bày trong Bảng 3.
+ Biến tuoikh là thể hiện nhóm tuổi khách hàng tại thời điểm tham gia dịch vụ của
Công ty. Tuổi khách hàng được phân thành 3 nhóm: Nhóm khách hàng "trẻ" từ 21 đến 29 tuổi
có 886 quan sát, nhóm khách hàng từ 30 tuổi đến 44 tuổi có 921 quan sát, nhóm còn lại là
những khách hàng từ 45 tuổi trở lên (nhưng dưới 60 tuổi) có 372 quan sát. Vì nhóm khách
hàng từ 30 tuổi đến 44 tuổi có số lượng quan sát lớn nhất nên được chọn làm nhóm chứng,
đồng thời ta thành lập 2 biến mới, biến TuoiKHDuoi30 nhận giá trị 1 nếu rơi vào nhóm khách
hàng "trẻ" và nhận giá trị 0 trong các trường hợp còn lại. Tương tự, biến TuoiKHTu45 là biến
nhận giá trị 1 với những khách hàng có độ tuổi từ 45 đến 60, nhận giá trị 0 trong các trường
hợp còn lại. Phân bố độ tuổi của khách hàng được mô tả trong Bảng 4.
+ Biến Madckh là biến mô tả địa chỉ cư trú của khách hàng tại các khu vực khác nhau.
Trong số liệu gốc madckh bao gồm “ba dinh” (khách hàng ở Ba Đình), “cau giay” (khách
hàng ở Cầu Giấy), “dong da” (khách hàng ở Đống Đa), “gia lam” (khách hàng ở Gia Lâm),

12
“ha dong” (khách hàng ở Hà Đông), “hai ba trung” (khách hàng ở Hai Bà Trưng), “hoan
kiem” (khách hàng ở Hoàn Kiếm), “hoang mai” (khách hàng ở Hoàng Mai), “long bien”
(khách hàng ở Long Biên), “thanh tri” (khách hàng Thanh Trì), “dong anh” (khách hàng
Đông Anh), “tay ho” (khách hàng Tây Hồ), “ngoai thanh” (khách hàng ở ngoại thành), “thanh
xuan” (khách hàng ở Thanh Xuân), “tu liem” (khách hàng ở Từ Liêm). Phân bố địa chỉ khách
hàng được cho ở Bảng 5.
Vẫn chọn dongda làm nhóm chứng, chúng ta cũng thành lập các biến đếm mới: biến
KHbadinh là biến đếm nhận giá trị 1 nếu khách hàng có địa chỉ ở Ba Đình, nhận giá trị 0
trong các trường hợp còn lại. Tương tự các biến CGTLTTayHo (khách hàng ở Cầu Giấy, Từ
Liêm, Tây Hồ), HdongTXuan (khách hàng ở Hà Đông, Thanh Xuân), TtriHMai (Thanh Trì,
Hoàng Mai), HBTrung (Hai Bà Trưng), LBGLDAnh (Long Biên, Gia Lâm, Đông Anh),
HKiem (Hoàn Kiếm) và NTthanh (khách hàng ở những huyện ngoại thành khác).
+ Biến pos-kha thể hiện mối quan hệ giữa địa chỉ khách hàng với địa điểm khách đó
mua hàng. Biến nhận giá trị 1 nếu địa chỉ khách hàng có cùng khu vực với địa điểm của đại lý
bán hàng, biến nhận giá trị 0 trong trường hợp còn lại. Bảng 6 mô tả quan hệ giữa địa chỉ

khách hàng và địa điểm đại lý bán hàng cho ta thấy chỉ có 566 trường hợp khách hàng có địa
chỉ cùng khu vực với đại lý và có tới 1613 trường hợp khách hàng không cùng khu vực với
đại lý bán hàng.
+ Biến magiatri cho ta biết giá của sản phẩm ở thời điểm hiện tại, đã được gán các giá
trị tương xứng với giá sản phẩm khách hàng mua.Biến này chia các sản phẩm thành 3 nhóm:
nhóm sản phẩm có giá trị dưới 15 triệu, nhóm các sản phẩm có giá trì từ 15 triệu đến dưới 30
triệu và nhóm sản phẩm có giá trị trên 30 triệu đồng. Phân bố các sản phẩm theo giá được mô
tả trong Bảng 7.
Lấy nhóm sản phẩm có giá trị từ 15 đến dưới 30 triệu đồng làm nhóm chứng, ta thành
lập hai biến mới là: Duoi15Tr biến nhận giá trị 1 nếu sản phẩm khách hàng mua có giá dưới
15 triệu, và nhận giá trị 0 nếu ngược lại. Biến Tu30Tr nhận giá trị 1 nếu sản phẩm có giá từ 30
triệu đồng trở lên và nhận giá trị 0 trong trường hợp còn lại.
+ Biến mattoan là biến cho biết khả năng thanh toán, trả trước của khách hàng là bao
nhiêu phần trăm so với sản phẩm mình mua. Với biến này, khả năng thanh toán của khách
hàng được chia thành 3 nhóm: nhóm “duoi 30 ptram” (dưới 30 phần trăm, có 369 số liệu),
nhóm “tu 30 den duoi 40 ptram” (từ 30 phần trăm đến dưới 40 phần trăm, có 1589 số liệu) và
nhóm “tu 40 ptram trở lên” (từ 40 phần trăm trở lên , có 221 số liệu). Phân bố số lượng sản
phẩm theo tỷ lệ thanh toán được thể hiện trong Bảng 8

13
Cũng như trên, ta chọn nhóm thanh toán từ 30 phần trăm đến dưới 40 phần trăm
làm nhóm chứng, thành lập hai biến mới sau là biến D30PT (khách hàng vay dưới 30 phần
trăm) biến nhận giá trị 1 nếu khách hàng mua sản phẩm vay dưới 30 phần trăm, nhận giá trị 0
trong tình huống còn lại và tương tự ta cũng có biến Tu40PT (khách hàng vay từ 40 phần trăm
trở lên).
+ Biến nhomthhan cho biết thời gian khách hàng vay tiền của công ty để mua sản
phẩm. Biến này nhận 4 giá trị: “duoi 1 nam” (thời hạn vay dưới 1 năm), “1 nam” (thời hạn 1
năm), “13-23 thang” (thời hạn vay từ 13 đến 23 tháng) và “2 nam” (thời hạn vay 2 năm). Phân
bố số lượng sản phẩm theo thời hạn thanh toán của khách hàng được cho trong Bảng 9.
Chọn nhóm thời hạn vay 2 năm làm nhóm chứng, ta thành lập được 3 biến mới: biến

Duoi1N, biến nhận giá trị 1 nếu khách hàng vay trong thời hạn dưới 1 năm và nhận giá trị 0
trong các tình huống còn lại, tương tự biến ThHan1N (khách hàng vay trong thời hạn 1 năm),
biến ThH1323T (thời hạn vay từ 13 tháng đến 23 tháng). Các biến này nhận giá trị 1 ứng với
mỗi sản phẩm được khách vay trong thời gian tương ứng với biến và nhận giá trị 0 trong
trường hợp còn lại.
+ Biến gioi_th mô tả giới tính của nhân viên công ty trực tiếp giới thiệu, tư vấn và
hướng dẫn khách hàng tham gia dịch vụ mua trả góp của công ty, chú ý ta không nên nhầm
lẫn đó là giới tính người bán hàng ở các đại lý mà công ty liên kết. Biến này nhận giá trị 0 nếu
người thực hiện có giới tính nữ và nhận giá trị 1 nếu người thực hiện này có giới tính nam.
Bảng 10 mô tả phân bố giới tính của nhân viên thực hiện các giao dịch với khách hàng.
+ Biến machmon mô tả cho ta thấy chuyên môn của những người thực hiện ở trên. Biến
machmon nhận 4 giá trị “ky thuat, it” (nhóm nhân viên có chuyên môn về kỹ thuật, công nghệ
thông tin), “kinh te taichinh ngan hang” (nhóm nhân viên tốt nghiệp các chuyên ngành liên
quan đến kinh tế, tài chính, ngân hàng), “quan ly, luat, xahoi” (nhóm nhân viên tốt nghiệp các
chuyên ngành quản lý, luật, xã hội) và “nganh khac” (nhóm các ngành khác như dược, tốt
nghiệp THPT, vv…). Bảng 11 mô tả phân bố của số lượng khách hàng theo chuyên môn của
nhân viên thực hiện.
Từ biến machmon trên, để đòi hỏi các biến độc lập nhận giá trị 0,1, ta thành lập thêm 3
biến mới sau đây (nhóm ngành kỹ thuật, công nghệ thông tin có số lượng lớn nhất được ta
chọn làm nhóm chứng). Đó là biến CMKinhte biến nhận giá trị 1 nếu người thực hiện có
chuyên môn nằm trong nhóm những người có chuyên môn kinh tế, tài chính, ngân hàng, và
nhận giá trị 0 trong các trường hợp còn lại, cùng với hai biến CMQuanly (người thực hiện có
chuyên môn nằm trong nhóm quản lý, luật, xã hội), biến CMKhac (người thực hiện năm trong
nhóm chuyên môn khác) được thành lập tương tự.

14
5.2. Kết quả phân tích
A/ Mô hình hồi quy Poisson dự báo số lượng tiêu thụ sản phẩm công nghệ cao
Sau khi chạy bộ số liệu trong Stata, sử dụng mô hình hồi quy Poisson cho quá trình đếm
để xem xét sự phụ thuộc của biến quan sát sphamit vào các biến gioikh, pos-khan, gioi_th,

BaDinh, CauGiay, HaiBa, TXHaDong,
DATTHMai,Duoi15Tr,Tu30Tr,D30PT,Tu40PT,Duoi1N,ThHan1N,ThH1323T,TuoiKHDuoi30,
TuoiKHTu45, KHBaDinh, CGTLTayHo, HdongTXuan, TtriHmai, HBTrung, LBGLDAnh,
Hkiem, Nthanh, CMKinhte, CMQuanly, CMkhac ta thu được kết quả trong Bảng 12.
Mô hình hồi quy Poisson rút gọn, chỉ chứa các biến độc lập thực sự ảnh hưởng đến biến
phụ thuộc được trình bày trong Bảng 14.
Bảng 14: Mô hình Poisson rút gọn dự báo số lượng sản phẩm IT

_cons -3.338353 .1398704 -23.87 0.000 -3.612494 -3.064212
Tu40PT .8112706 .267273 3.04 0.002 .2874251 1.335116
D30PT 3.095639 .152551 20.29 0.000 2.796645 3.394634
Duoi1N .3621661 .1064238 3.40 0.001 .1535794 .5707529
CauGiay .4156177 .0992609 4.19 0.000 .2210699 .6101656
pos_khan 4027385 .1559514 -2.58 0.010 7083977 0970794

sphamit Coef. Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -661.5161 Pseudo R2 = 0.4294
Prob > chi2 = 0.0000
LR chi2(5) = 995.44
Poisson regression Number of obs = 2179

Từ bảng 14, ta có thể đưa ra mô hình loga tuyến tính phụ thuộc sau đây:
log(Sphamit) = - 0.4027385 pos_khan + 0,4156177 CauGiay + 0.3621661 Duoi1N +
3.095639 D30PT + 0.8112706 Tu40PT – 3.338353.
Lũy thừa cơ số e hai vế của phương trình trên ta thu được
Sphamit = exp{ - 0.4027385 pos_khan + 0,4156177 CauGiay + 0.3621661 Duoi1N +
3.095639 D30PT + 0.8112706 Tu40PT – 3.338353.}
Hay:
Sphamit=(0.668^{pos_khan}).(1,5153^{CauGiay}).(1.4364^{Duoi1N}) .(22.10136

^{D30PT}).(2.2508 ^{Tu40PT}).0,0355

B/ Mô hình hồi quy Poisson dự báo số lượng tiêu thụ xe máy
Ta tiếp tục sử dụng mô hình hồi quy Poisson nhờ phần mềm Stata để xem xét sự phụ thuộc
của biến xemay vào các biến: gioikh, pos-khan,
gioi_th,BaDinh,CauGiay,HaiBa,TXHaDong,DATTHMai,Duoi15Tr,Tu30Tr,Tu40PT,Duoi1N,

15
ThHan1N,ThH1323T,TuoiKHDuoi30,TuoiKHTu45,KHBaDinh, CGTLTayHo, HdongTXuan,
TtriHmai, HBTrung, LBGLDAnh, Hkiem, Nthanh, CMKinhte, CMQuanly, CMkhac
Bảng 16: Sự phụ thuộc của biến xemay vào các biến khác


_cons 3738565 .0729181 -5.13 0.000 5167733 2309397
CMKhac 2571134 .0684224 -3.76 0.000 3912189 1230079
CMKinhte 1932794 .0668398 -2.89 0.004 3242831 0622757
HDongTXuan 1770705 .0877812 -2.02 0.044 3491185 0050225
Duoi1N 3203397 .0936402 -3.42 0.001 5038712 1368082
Duoi15Tr 1480117 .050219 -2.95 0.003 2464391 0495843
DATTrHMai .5958677 .0932499 6.39 0.000 .4131013 .7786342
TXHaDong .7284974 .0865411 8.42 0.000 .55888 .8981147
HaiBa .6414941 .0885326 7.25 0.000 .4679734 .8150148
CauGiay 3671758 .1097185 -3.35 0.001 5822202 1521314
BaDinh .6638394 .0797971 8.32 0.000 .5074399 .8202389
gioi_th 1916381 .0596857 -3.21 0.001 3086199 0746564
pos_khan .1442418 .0565967 2.55 0.011 .0333143 .2551692

xemay Coef. Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -2035.914 Pseudo R2 = 0.0615

Prob > chi2 = 0.0000
LR chi2(12) = 267.06
Poisson regression Number of obs = 2179

Kết quả ở Bảng 16 cho thấy, với xác suất ý nghĩa nhỏ hơn 5% trung bình số lượng xe
máy được bán cho vay trả góp tại một địa điểm trong một ngày thực sự phụ thuộc vào các
biến pos_khan, gioi_th, BaDinh, CauGiay, HaiBa, TXHaDong, Duoi15Tr, Duoi1N,
HDongTXuan, CMKinhte, CMKhac.
Ta thu được mô hình hồi quy loga tuyến tính Poisson biểu diễn sự phụ thuộc của biến
xemay như sau:
Log(xemay)= 0.1442418 pos_khan - 0.1916381 gioi_th + 0.6638394 BaDinh – 0.3671758
CauGiay + 0.6414941 HaiBa + 0.7284974 TXHDong + 0. 5958677 DATTrHMai -
0.1480117 Duoi15Tr – 0.3203397 Duoi1N – 0.1770705 HDongTXuan – 0.1932794
CMKinhte – 0.2571134 CMKhac – 0.3738565.
Lấy lũy thừa cơ số e hai vế ta thu được:
xemay = exp{0.1442418 pos_khan - 0.1916381 gioi_th + 0.6638394 BaDinh – 0.3671758
CauGiay + 0.6414941 HaiBa + 0.7284974 TXHDong + 0. 5958677 DATTrHMai -
0.1480117 Duoi15Tr – 0.3203397 Duoi1N – 0.1770705 HDongTXuan – 0.1932794
CMKinhte – 0.2571134 CMKhac –0.3738565}
Hay:
Xemay =(1,15516^{pos_khan}).(0,8256^{gioi_th}) .(1,94224 ^{BaDinh}).(
0,69269^{CauGiay})(1,89931^{HaiBa})(2,07196^{TXHDong})(1,814^
{DATTrHMai})(0,86242^{Duoi15T}).(0,72590^{Duoi1N}).(0,83772^

16
{HdongTXuan}).(0,82425^{CMKinhte}).( 0,77328 ^{ CMKhac}). 0,68808

References
Tiếng Việt


1. Đào Hữu Hồ (1998), Xác suất Thống kê, In lần thứ 3, Nhà xuất bản Đại học quốc gia Hà
Nội, 224 Tr.
2. Đặng Hùng Thắng (1998), Mở đầu về lý thuyết Xác suất và các ứng dụng, In lần thứ 2, Nhà
xuất bản Giáo Dục, Hà Nội
3. Nguyễn Duy Tiến (2000), Các mô hình xác suất và ứng dụng; Phần 1: Xích Markov và ứng
dụng, Nhà xuất bản Đại học Quốc Gia, Hà Nội.
4. Nguyễn Duy Tiến (chủ biên), Đặng Hùng Thắng (2000), Các mô hình xác suất và ứng
dụng,Phần 2: Quá trình dừng và ứng dụng, Nhà xuất bản Đại học Quốc Gia, Hà Nội.
Tiếng Anh

5. Blundell, R. Griffith, and J. Van Reenen (1995),” Dynamic Count Data models of
Technological innovation”, Economic Journal, 105, pp.333– 344.
6. Cameron, A.C, and D.K Trivedi (1998), Regression analysis of count data, Cambrige
University press, NewYork.
7. Noriszura Ismail, Abdul Azizjemain (2005), Generalized Poisson regression: An
alternative for risk classication, Universiti teknologi Malaysia.


×