Tải bản đầy đủ (.pdf) (53 trang)

(Luận văn thạc sĩ) thử nghiệm phân tích thống kê hoạt động kinh doanh của công ty tài chính việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1012.9 KB, 53 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
--------------------------------

Chu Thị Hồng Đăng

THỬ NGHIỆM PHÂN TÍCH THỐNG KÊ
HOẠT ĐỘNG KINH DOANH CỦA CƠNG TY TÀI CHÍNH VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2012


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
--------------------------------

Chu Thị Hồng Đăng

THỬ NGHIỆM PHÂN TÍCH THỐNG KÊ
HOẠT ĐỘNG KINH DOANH CỦA CƠNG TY TÀI CHÍNH VIỆT
Chun ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 604615

LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HỒ ĐĂNG
PHÚC

Hà Nội - 2012


1


MỤC LỤC
LỜI NÓI ĐẦU

2

1. Một số kiến thức chuẩn bị về xác suất……………………………….3
1.1 Phần tử ngẫu nhiên và phân phối xác suất…………………...3
1.2 Một số đặc trưng của đại lượng ngẫu nhiên………………….6
1.3 Một số phân phối thường gặp………………………………...8
2. Quá trình ngẫu nhiên…………………………………………………10
2.1 Một số quá trình ngẫu nhiên thường gặp…………………….12
3. Giới thiệu về hồi quy Poisson………………………………………..13
3.1 Phân bố Poisson……………………………………………...13
3.2 Quá trình hồi quy Poisson…………………………………....14
3.3 Mơ hình loga tuyến tính cho q trình Poisson……………...16
4. Mơ hình hồi quy Poisson tổng qt………………………………….18
4.1 Ước lượng tham số   ( ',  ) ………………………………..20
4.2 Sự phù hợp của thống kê hợp lý……………………………..22
4.3 Kiểm định tham số hồi quy, tham số phân tán………………23
5. Phân tích hoạt động tín dụng tiêu dùng……………………………...25
5.1 Mơ tả số liệu…………………………………………………25
5.2 Kết quả phân tích…………………………………………….35
5.3 Một số đề xuất tới lãnh đạo Tổng công ty, chi nhánh Hà Nội 48
KẾT LUẬN……………………………………………………………..50
TÀI LIỆU THAM KHẢO………………………………………………51

2



LỜI NĨI ĐẦU
Thống kê ứng dụng là một ngành tốn học đã và đang đóng vai trị lớn
trong lĩnh vực của đời sống kinh tế, xã hội như sinh học, y tế, tài chính…
Nhắc đến thống kê ứng dụng, khơng thể khơng nhắc đến các mơ hình tốn
học có yếu tố ngẫu nhiên, mà nhờ chúng ta có thể rút ra những kết luận
thống kê có ý nghĩa. Tuy nhiên hiện nay, ở Việt Nam thống kê ứng dụng
dường như vẫn là "mảnh đất màu mỡ" chưa được khai phá vì nhiều lý do:
chúng ta khó khăn trong khâu thu thập và xử lý số liệu, chúng ta đang thiếu
là các chương trình đào tạo cán bộ phân tích thống kê, thiếu sự nhận thức
đầy đủ và đúng đắn của các nhà quản lý và các nhà hoạch định chính sách
cho xã hội, cho nền kinh tế, và đặc biệt là chúng ta thiếu… kinh phí !
Với mong muốn "chỉ rõ" một phần công dụng của kiến thức xác suất
thống kê áp dụng thực tế, luận văn đã thu thập số liệu kinh doanh của Cơng
ty TNHH MTV Tài chính Việt - Société Générale (SGVF) - Chi nhánh Hà
Nội trong 6 tháng (từ tháng 11 năm 2008 đến tháng 4 năm 2009) và sử
dụng mơ hình hồi quy Poisson (mơ hình cho các quá trình ngẫu nhiên là
quá trình đếm) để xem xét sự phụ thuộc của số lượng các sản phẩm cho
vay tiêu dùng của cơng ty tài chính đó vào các yếu tố khác để đóng góp
những ý kiến có tác dụng nâng cao hiệu quả hoạt động kinh doanh cho
Cơng ty.
Luận văn được hồn thành nhờ có sự giúp đỡ tận tình của PGS.TS Hồ
Đăng Phúc, thầy cũng đã ln động viên em trong suốt q trình làm luận
văn, em xin được gửi lời biết ơn và cảm ơn thầy sâu sắc. Tôi cũng xin cảm
ơn lãnh đạo cơng ty TNHH Tài Chính Việt – Chi nhánh Hà Nội đã đồng ý
cung cấp cho tơi tồn bộ số liệu hồ sơ khách hàng của công ty trong 6
tháng.. Tơi xin cảm ơn gia đình, những người bạn, những người thân yêu
luôn động viên tôi giúp tôi cố gắng, đặc biệt chồng tôi là người luôn cảm
thông với tôi, cố gắng tạo mọi điều kiện để tôi tiếp tục học tập, thậm chí đã

hỗ trợ bổ sung những kiến thức về các hoạt động tài chính trên thị trường.
3


1. Một số kiến thức chuẩn bị về xác suất
1.1. Phần tử ngẫu nhiên và phân phối xác suất
Ta đã biết rằng, đầu ra một phép thử ngẫu nhiên có thể là một giá trị
số hoặc khơng có giá trị số. Ví dụ, khi tung một đồng xu, kết quả đầu ra thu
được là {sấp, ngửa} (đầu ra không phải là số) hay tung một con xúc sắc thì
kết quả số chấm thu được ở mặt trên có thể là{1, 2, 3, 4, 5, 6} (đầu ra là số).
Tuy nhiên trong thống kê, chúng ta muốn mỗi đầu ra là một đại lượng đo
đạc được, từ đó người ta đưa ra khái niệm biến ngẫu nhiên để gán giá trị số
cho các kết quả của đầu ra của phép thử ngẫu nhiên. Cho A là một  - đại số
và  là không gian các biến cố thực nghiệm. Chẳng hạn, trong ví dụ tung
con xúc sắc thì  chính là tập các biến cố {sấp, ngửa} và A là họ các tập
con của  . Từ đó một biến ngẫu nhiên được định nghĩa như một hàm đo
được từ một không gian xác suất tới một không gian đo được nào đó.
Khơng gian đo được này là một khơng gian của các giá trị có thể của biến,
và nó thường được lấy là các giá trị thực với  - đại số Borel.
Định nghĩa 1. Giả sử (  , A, P) là không gian xác suất cơ bản và (E, F) là
không gian đo được. Ta gọi X :   E là một biến ngẫu nhiên nếu nó là
một ánh xạ đo được (tức là X-1 (F)  A)
Đặc biệt, nếu E = Rn và F = Bn là  - đại số Borel của Rn thì ta gọi X


là véc tơ ngẫu nhiên n chiều và viết X thay cho X. Trong trường hợp n = 1,


ta viết X thay cho X và gọi X là đại lượng ngẫu nhiên.
Trong Thống kê, một phân phối xác suất là quy luật cho biết cách gán

xác suất cho mỗi khoảng giá trị của tập số thực, sao cho các tiên đề về xác
suất được thoả mãn. Một phân phối xác suất là một trường hợp đặc biệt của
một khái niệm tổng quát hơn về một độ đo xác suất, là một hàm thoả mãn
các tiên đề xác suất của Kolmogorov cho các tập đo được của một không gian đo
được.
4


Định nghĩa 2. Phân bố xác suất (hay còn gọi là phân phối xác suất) của
một biến ngẫu nhiên X (trên R) là phân bố xác suất Px trên R, với  - đại
số là  - đại số Borel B của R, cho bởi công sau:
PF(B) = P(X -1(B)
với mọi tập con B của R nằm trong  - đại số B.
Định nghĩa 3. Hàm phân phối xác suất của phân bố xác suất PX trên R của
một biến ngẫu nhiên X là hàm Fx: R  [0; 1] cho bởi công thức

FX : P( X  x)  P((, x])
Tất nhiên, hàm phân phối được xác định duy nhất bởi phân bố xác
suất. Điều ngược lại cũng đúng. Nếu ta biết hàm phân phối FX, thì ta có thể
tính được xác suất PX của các đoạn thẳng đóng và nửa mở của R qua các công
thức sau:
PX ([a, b]) = FX(b) - FX(a),
FX ((a,b]) = FX(b) - lim FX(a) a, b  R a  b
x a 

và từ đó ta tính được xác suất cho các tập con Borel khác của R. Ta có kết
quả sau:
Định lý 1. Hàm phân phối FX của một phân bố xác suất tuỳ ý trên R thoả
mãn 4 tính chất sau:
1. Đơn điệu không giảm: FX(x)  FX(y) với mọi x  y.

2. Liên tục bên phải: lim0 FX ( x )  FX ( x) với mọi x,
3. lim x FX ( x)  0
4. lim x FX ( y)  1
Ngược lại, mọi hàm số thực trên R thoả mãn 4 tính chất trên là hàm
phân phối của một phân bố xác suất trên R.
Trong nhiều cơng việc tính tốn đối với biến ngẫu nhiên, ta có thể
qn đi không gian xác suất ban đầu của biến ngẫu nhiên đó, mà chỉ biết
đến phân bố xác suất trên R của nó. Các phân bố trên R có thể chia làm 3
loại sau: rời rạc, liên tục và hỗn hợp (nửa rời rạc, nửa liên tục).
5


Định nghĩa 4. Một phân bố PX trên R được gọi là liên tục nếu như hàm
phân phối xác suất FX là hàm liên tục trên R. Nó được gọi là liên tục tuyệt
đối nếu như tồn tại một hàm số  X : R  R khả tích và khơng âm, sao cho
với mọi a  R ta có
a

FX (a)  PX (  , a )    X ( x)dx


Hàm  X : R  R+ thoả mãn như trên gọi là hàm mật độ của PX.
Ta chú ý là hàm mật độ của một phân bố xác suất Px là liên tục tuyệt
đối trên R là duy nhất theo nghĩa xác suất nghĩa là nếu Px có hai hàm mật
độ 1 ,  2 thì 1   2 hầu khắp nơi trên R, tức là tập { xR, 1 ( x)   2 ( x) } có
độ đo Lebesgue bằng 0. Một phân bố xác suất có thể liên tục mà khơng liên
tục tuyệt đối. Tuy nhiên trong thực tế, khi người ta nói đến một phân bố
liên tục trên R, thường được hiểu là nó liên tục tuyệt đối, tức là được cho
bởi một hàm mật độ. Ta cũng chú ý thêm hàm mật độ chính bằng đạo hàm
của hàm phân phối xác suất (hầu khắp mọi nơi). Một số vấn đề trong thực

tế có thể được mơ hình hố bằng các biến ngẫu nhiên với phân bố xác suất
liên tục, ví dụ như nhiệt độ của nước biển, giá dầu hoả, sản lượng điện, trọng
lượng của trứng gà…
Một điểm xR được gọi là một điểm hạt của một phân bố xác suất PX
nếu PX{x} > 0. Người ta cũng chỉ ra được kết quả là một phân bố là liên tục
khi và chỉ khi nó khơng điểm hạt.
Trong trường hợp phân bố xác suất không liên tục, gọi
AX ={ xR Px { x } > 0}
là tập hợp các điểm hạt của phân phối xác suất (tức là tập hợp các điểm
gián đoạn của hàm phân phối xác suất). Khi đó AX là tập hữu hạn hoặc
cùng lắm là đếm được.
Định nghĩa 5. Một phân bố xác suất PX được gọi là rời rạc nếu như nó tập
trung trên các điểm hạt của nó: PX (AX) = 1, PX (R\ AX) = 0

6


Đối với mỗi phân phối xác suất rời rạc thì hàm phân phối có dạng hàm
bậc thang với các bước nhảy tại các điểm hạt có độ lớn chính bằng giá trị
xác suất của điểm hạt đó.

1.2. Một số đặc trưng của đại lượng ngẫu nhiên
Khi ta có biến ngẫu nhiên, ta có thể nghiên cứu các tính chất, đặc
trưng của nó, để rút ra thơng tin và kết luận nào đó. Một trong những thơng
tin quan trọng nhất là giá trị kỳ vọng (giá trị trung bình).
Đối với trường hợp rời rạc: Giá trị kỳ vọng của một biến ngẫu nhiên X,
ký hiệu là E(X), chính là trung bình cộng có trọng số của biến ngẫu nhiên
đó.
Từ đó, có thể suy ra rằng hai biến ngẫu nhiên có cùng phân bố xác
suất trên R thì có cùng kỳ vọng. Bởi vậy, thay vì nói về kỳ vọng của biến

ngẫu nhiên, ta có thể nói về kỳ vọng của phân bố xác suất trên R.
Trong trường hợp không gian xác suất là một tập hợp hữu hạn hoặc
đếm được,  ={ 1 , 2 ... } với xác suất P (i ), i P( i ) 1 thì cơng thức tính
giá trị kỳ vọng của một biến ngẫu nhiên X là
E ( X )   X ( i ) P( i )
i

Ví dụ. Xét trị chơi đề được tiến hành theo nguyên tắc: Trong 100 số đề sẽ
chỉ có 1 số trúng, 99 số bị trượt. Nếu người chơi đề đánh trúng thì được 70
lần số tiền đặt cọc, thua thì mất số tiền đặt cọc. Nếu đặt cọc số tiền lúc đầu
là T, thì kỳ vọng số tiền nhận lại được là 0,99 * 0 + 0,01 * 70T = 0,7T. Vậy
kỳ vọng lỗ là 0,3T.
Trong trường hợp tổng qt, cơng thức tính giá trị kỳ vọng được viết
dưới dạng phân Lesbesgue của X trên không gian xác suất (  , R):
E ( X )   XdP


Một số tính chất cơ bản của kỳ vọng là:

7


+ Kỳ vọng của một bằng số c (biến ngẫu nhiên chỉ nhận một giá trị)
chính là bằng số đó
E(c) = c
+ Tính tuyến tính: Nếu X, Y là hai biến ngẫu nhiên và a, b là hai hằng số
thì
E(aX + bY) = aE(X) + bE(Y)
+ Đơn điệu: Nếu X  0 thì E(X)  0. Tổng quát hơn,
Nếu X  Y thì E(X)  E(Y)

Như vậy, nhắc tới giá trị kỳ vọng ta có thể liên tưởng đến trung bình
cộng các giá trị một biến ngẫu nhiên, ngồi ra người ta còn đưa ra một khái
niệm giá trị kỳ vọng hình học, ứng với trung bình nhân. Ví dụ sau đây cho
thấy sự quan trọng của trung bình nhân trên thực tế.
Ví dụ: Giả sử giá nhà dao động trong 4 năm như sau. Năm đầu tiên
giảm 15 phần trăm, năm thứ hai tăng 35 phần trăm, năm thứ ba giảm 20
phần trăm, năm thứ tư tăng 20 phần trăm. Hỏi xem trong 4 năm đó, giá nhà
tăng lên (hay giảm đi) trung bình mỗi năm bao nhiêu phần trăm ? Nếu ta
lấy trung bình cộng thì được (-15 + 35 - 20 + 20)/4 = 5 phần trăm một năm.
Nhưng con số đó có phản ánh chính xác sự đi lên của giá nhà trong một
năm không?
Nếu gọi giá nhà lúc đầu là X, sau năm đầu giá là (1-0,15)X.
Sau năm thứ 2 giá nhà là (1+ 0,35)(1-15)X.
Tiếp tục sau năm thứ ba giá nhà là (1-0,20)(1+35)(1-0,15)X.
Sau 4 năm giá nhà là (1+0,20)(1-0,20)(1+0,35)(1-0,15)X = 1,1016X.
Tức là sau 4 năm giá nhà chỉ tăng 10,16 phần trăm chứ không phải 20 phần
trăm như ta tưởng! Từ đó, để có cái nhìn chính xác về mức độ tăng trưởng
hàng năm trong giai đoạn 4 năm, cần phải lấy trung bình nhân các con số 1
+ 0,20, 1 - 0,20, 1+0,35, 1- 0,15 rồi trừ đi 1. Kết quả là giá nhà có tốc độ
tăng trưởng 2,449 phần trăm một năm.
Như chúng ta đã biết, nếu có một dãy số dương a1, a2…, an, ai > 0 với
mọi i, thì ngồi giá trị trung bình cộng  ai / n , chúng ta cịn có trung bình
8


nhân: ( ai )1/ n , trung bình nhân có thể được định nghĩa qua trung bình cộng,
qua hàm logarihm ln và hàm ngược của hàm ln, tức là hàm exp:
( ai )1/ n  e x p( (ln ai ) / n ).
i


i

Chú ý ta có tính chất trung bình nhân ln khơng vượt q trung bình
cộng, dấu bằng xảy ra khi các số ai bằng nhau. Ta có định nghĩa sau cho kỳ
vọng hình học:
Định nghĩa 6. Nếu X là biến ngẫu nhiên chỉ nhận giá trị dương, thì giá trị
kỳ vọng hình học của X, ký hiệu là G(X), được cho bởi công thức sau:
G( X )  e xp ( E (ln X ))  e xp (  ln( X )dP).


Ta có tính chất giá trị kỳ vọng hình học ln khơng vượt q giá trị kỳ
vọng G(X)  E(X), dấu bằng xảy ra khi và chỉ khi F là hằng số hầu khắp nơi
trên không gian xác suất, tức là tồn tại một số thực dương c sao cho
P(X=c)=1
Như trên, ta đã biết giá trị trung bình E(X) là đại diện cho các giá trị
của X. Người ta muốn biết giá trị của X tập trung, phân tán quanh E(X) như
thế nào? Để đo mức độ tập trung, phân tán vừa nói trên, người ta dùng phương
sai.
Định nghĩa 7. Phương sai của biến ngẫu nhiên X là đại lượng:
D(X) = E[X-E(X)]2
còn   D( X ) được gọi là độ lệch tiêu chuẩn của X.

1.3. Một số phân phối thường gặp
Sau đây, ta đưa ra một số phân phối thường gặp trong thực tế.
Định nghĩa 8. Giả sử a, b là hai số thực, với b > a. Khi đó phân phối đều
trên đoạn thẳng [a; b] là phân bố liên tục với hàm mật độ xác suất được
cho như sau:
 1

 ( x)   b  a


0

khi a  x  b
khi

9


x  a hoac x  b


Phân bố xác suất đều trên [a;b] hay được ký hiệu là U(a;b). Trong định
nghĩa trên ta có thể thay đoạn thẳng đóng [a;b] bằng các khoảng mở (a;b)
hoặc nửa đóng, nửa mở cũng được.
Ví dụ, vị trí của một người đi trên đường có thể mơ hình hố bằng một
biến ngẫu nhiên với phân bố đều, nếu chúng ta khơng có thơng tin gì ngồi
thơng tin người đi bộ trên quãng đường đó.
Khái niệm phân bố đều có thể mở rộng lên trường hợp nhiều chiều:
Không gian xác suất là một miền của Rn (n  2), và xác suất một miền con (n
chiều) tỷ lệ thuận với thể tích (n chiều) của miền con đó.
Định nghĩa 9. Phân bố xác suất chuẩn (hay phân bố Gauss) trên R với
trung bình  và độ lệch chuẩn  là phân bố liên tục với hàm mật độ sau:
.  ( x) 

1
( x   )2
e xp(
)
2 2

 2

Ký hiệu phân phối chuẩn trên đây là N(  , 2 ), phân bố chuẩn với  =
0,  2= 1 được gọi là chuẩn tắc. Phân bố chuẩn là một trong những phân bố
quan trọng nhất vì nhiều phân bố xác suất gặp trong thực tế có dáng điệu
khá giống phân bố chuẩn.
Ví dụ, phân bố chiều cao của đàn ông, phân bố chỉ số IQ, phân bố của
giá chứng khốn trong tương lai, v.v… Giá trị trung bình và phương sai của
phân bố chuẩn N(  , 2 ) lần lượt là  , 2 .
Định nghĩa 10. Phân bố mũ với tham số  là phân bố xác suất liên tục
tuyệt đối trên R cho bởi hàm mật độ sau:
e  x
 ( x)  
0

khi x  0
khi

x 0

Phân bố mũ có thể dùng cho những mơ hình xác suất kiểu "khoảng
cách giữa hai lần xuất hiện", ví dụ như: Khoảng cách thời gian giữa hai cú
điện thoại gọi đến, khoảng cách giữa hai gen đột biến kế tiếp trên một dải
AND…
Các phân phối trên là các phân phối liên tục trên R, sau đây ta đưa ra
một số phân phối đặc trưng trong trường hợp các phân phối rời rạc.
10


Định nghĩa 11. Một biến ngẫu nhiên X được gọi là có phân bố nhị thức với

tham số n, p nếu hàm phân bố xác suất của nó có dạng
P( X  k )  Cnk p k (1 p)nk ; k  0,1, 2..., n ;0  p  1

Giá trị kỳ vọng và phương sai của biến ngẫu nhiên có phân bố nhị
thức lần lượt là np và np (1-p)
Định nghĩa 12. Một biến ngẫu nhiên Y được gọi là phân phối Poisson với
tham số  >0 nếu nó nhận các giá trị nguyên y = 0, 1, 2,… với xác suất
P Y  y 

e   y
y!

(1)

Khi đó ta ký hiệu Y  P( )
Phân phối Poisson là giới hạn của phân bố nhị thức với tham số p =
 / n và n, khi n tiến tới vô cùng. Trong lý thuyết xác suất, nhà toán học

Poisson được biết đến nhiều nhất bởi phân bố Poisson, quá trình Poisson
mà ta sẽ bàn kỹ trong phần sau của luận văn.

2. Quá trình ngẫu nhiên
Quá trình ngẫu nhiên có thể hiểu là việc xem xét sự tiến triển theo thời
gian của một hệ ngẫu nhiên. Ví dụ, nếu một hệ ngẫu nhiên diễn tiến theo
thời gian mà trong đó tương lai chỉ phụ thuộc vào hiện tại, độc lập với q
khứ ta có q trình Markov - q trình được mang tên của một nhà tốn
học, vật lý học nổi tiếng người Nga đầu thế kỷ XX. Quá trình Markov được
ứng dụng nhiều trong thương nghiệp, tin học, viễn thông,... Hoặc khi
nghiên cứu trong các lĩnh vực kinh tế, thị trường chứng khốn, cơ học
thống kê,… có những hệ ngẫu nhiên mà quá khứ của nó ảnh hưởng mạnh

mẽ đến sự tiến triển của tương lai, mô hình để xem xét các quá trình này là
quá trình dừng...
Đối tượng để nghiên cứu quá trình ngẫu nhiên là họ vô hạn các biến
ngẫu nhiên phụ thuộc vào tham số t  T nào đó.

11


Giả sử T là một tập vơ hạn nào đó. Nếu mỗi t  T, Xt là biến ngẫu
nhiên thì ta ký hiệu X = {Xt, t  T}, và gọi X là hàm ngẫu nhiên (với tham
biến t  T). Ta quy ước:
+ Nếu T là tập đếm được thì ta gọi X = {Xt, t  T} là quá trình ngẫu
nhiên với tham số rời rạc
+ Nếu T là một khoảng của đường thẳng thực thì X = {Xt, t  T} là
quá trình ngẫu nhiên với tham số liên tục. trong trường hợp này tham số t
đóng vai trò là thời gian.
+ Nếu T là một tập con của Rd, thì ta gọi X = {Xt, t  T} là trường
ngẫu nhiên.
Định nghĩa 13. Cho không gian xác suất (  , A, P), một quá trình ngẫu
nhiên với không gian trạng thái X là một tập hợp của các biến ngẫu nhiên
với giá trị trong X được đánh số thứ tự bởi một tập hợp T ("thời gian").
Nghĩa là, một quá trình ngẫu nhiên X là một tập hợp {Xt:t  T} với Xt là một
biến ngẫu nhiên có giá trị trong X.
Một bản sao Y của quá trình X là một quá trình ngẫu nhiên trên cùng
một không gian trạng thái, với cùng tập hợp tham số T sao cho
P(Xt = Yt) = 1 t T
Khi nghiên cứu về quá trình ngẫu nhiên, một trong những khái niệm
then chốt là họ các phân phối hữu hạn chiều của X. Nhiều tính chất quan
trọng của quá trình được xác định thơng qua các tính chất của họ phân phối
hữu hạn chiều này.

Giả sử X = {Xt, t  T} là quá trình ngẫu nhiên, và I = (t1, …, tn) là tập
con hữu hạn của T. Hàm phân phối đồng thời của X t ,..., X t :
1

n

FI ( x1 ,..., xn )  F ( x1,..., xn ; t1,..., tn )  P{ X t1  x1,..., X tn  xn}

được gọi là phân phối hữu hạn chiều của X ứng với I, và tập {FI} được gọi
là họ các phân phối hữu hạn chiều của X.
Họ các phân phối hữu hạn chiều thỏa mãn các điều kiện sau:

12


a) Điều kiện đối xứng, tức là, F(x1,…,xn;t1,…,tn) không thay đổi khi ta
hoán vị các cặp (xk, tk).
b) Điều kiện nhất quán theo nghĩa
Lim F ( x1 ,..., xn ; t1 ,..., tn )  F ( x1 ,..., xn1; t1 ,..., tn1 ).

xn 

Một tiếp cận quá trình ngẫu nhiên xem chúng như hàm số với một
hay nhiều biến xác định (các 'đầu vào', đa số được xem như là 'thời gian')
mà các giá trị (các 'đầu ra') là các biến ngẫu nhiên có những phân bố xác
suất nào đó. Những biến ngẫu nhiên tương ứng với các thời gian khác nhau
(hay các điểm trong trường hợp trường ngẫu nhiên) có thể hồn tồn khác
nhau. u cầu chính là những đại lượng ngẫu nhiên này đều có cùng một
kiều . Mặc dù các giá trị ngẫu nhiên của một q trình ngẫu nhiên tại các
thời điểm khác nhau có thể là các biến ngẫu nhiên độc lập, trong hầu hết

các tình huống xem xét đến chúng đều có những liên hệ tương hỗ phức tạp
về mặt thống kê.
Các ví dụ quen thuộc của các q trình được mơ phỏng như là các
chuỗi ngẫu nhiên bao gồm thị trường chứng khốn và thay đổi của tỉ giá
ngoại tệ, các tín hiệu như là lời nói, âm thanh và hình ảnh, dữ liệu y khoa
như là EKG, EEG, huyết áp hay nhiệt độ, và các chuyển động ngẫu nhiên
như chuyển động Brown hay là các bước ngẫu nhiên. Ví dụ của các trường
ngẫu nhiên bao gồm các ảnh tĩnh, địa hình ngẫu nhiên, hay là hỗn hợp của
các vật liệu không đồng nhất.

2.1. Một số quá trình ngẫu nhiên thường gặp
2.1.1. Chuyển động Brown
Một trong những quá trình ngẫu nhiên quan trọng bậc nhất thường
gặp, đó là chuyển động Brown (Quá trìnhWiener). Chuyển động Brown
(đặt tên theo nhà thực vật học Robert Brown) mô phỏng chuyển động của
các hạt trong môi trường lỏng (chất lỏng hoặc khí) và cũng là mơ hình tốn

13


học mô phỏng các chuyển động tương tự, thường được gọi là mơ hình vật
lý hạt. Chuyển động Brown có nhiều ứng dụng thực tế, là một trong những
quá trình ngẫu nhiên liên tục đơn giản nhất và thường được dùng để mô
phỏng sự dao động của thị trường chứng khoản. Chuyển động Brown gắn
với quá trình ngẫu nhiên Wiener.
Trong tốn học, q trình Wiener là một q trình ngẫu nhiên liên tục
được đặt tên theo Norbert Wiener nó là một trong những quá trình Lesvy
(quá trình ngẫu nhiên liên tục phải có giới hạn trái với số gia độc lập đều nổi tiếng nhất và thường được dùng trong tốn học, kinh tế và vật lý. Q
trình Wiener Wt có ba đặc điểm:
1. W0 = 0

2. Wt liên tục hầu chắc chắn.
3. Wt có số gia độc lập với phân phối Wt - Ws ~ N(0, t - s) (với 0  s
 t).

Ở đây N ( , 2 ) biểu thị phân phối chuẩn với giá trị trung bình  và
phương sai  2 . Điều kiện quá trình có số gia độc lập có nghĩa là nếu
0  s1  t1  s2  t 2 thì Wt1 - Ws1 và Wt2- Ws2 là những biến ngẫu nhiên độc lập.

Một đại diện của quá trình ngẫu nhiên rời rạc chính là q trình
Poisson, sẽ được đề cập chi tiết ở mục sau.

3. Giới thiệu về hồi quy Poisson
3.1. Phân bố Poisson
Phân phối Poisson là phân phối được đặt theo tên nhà toán học người
Pháp Siméon Denis Poisson (1781 - 1840). Như trên ta đã nói, một biến
ngẫu nhiên Y được gọi là có phân phối Poisson với tham số  > 0 nếu nó
nhận các giá trị nguyên y = 0, 1, 2,… với xác suất
P Y  y 

e   y
y!

14

(2)


Giá trị trung bình và phương sai của phân phối này được chỉ ra bằng:
E(Y) = Var (Y) = 
Một tính chất quan trọng của phân phối Poisson là tổng của các biến

ngẫu nhiên Poisson độc lập cũng có phân phối Poisson. Cụ thể, nếu Y1, Y2 là
các biến ngẫu nhiên độc lập, Yi ~ P(i ), i 1; 2 thì Y1  Y2 ~ P(1  2 ) . Kết quả
này có thể mở rộng cho tổng nhiều hơn hai biến ngẫu nhiên Poisson.
Giả sử ta có ni nhóm quan sát có cùng phương sai, ký hiệu Yij là số
lượng biến cố của quan sát thứ j trong lớp nhóm thứ i. Trên các nhóm đó, Yi
là tồn bộ các quan sát của nhóm thứ i. Với giả thiết thơng thường về tính
độc lập và Yij ~ P(  i) với j = 1,2, ni thì Yi ~ P(ni i ) .

3.2. Quá trình hồi quy Poisson
Một quá trình Poisson, là một quá trình ngẫu nhiên được định nghĩa
theo sự xuất hiện của các biến cố. Một quá trình ngẫu nhiên N(t) là một quá
trình Poisson (thời gian - thuần nhất, một chiều) nếu:
1. N (0) = 0
2. Số các biến cố xảy ra trong hai khoảng thời gian không giao nhau là
các biến ngẫu nhiên độc lập.
3. Xác suất của số biến cố trong một khoảng con [t, t +  ] nào đó
được cho bởi cơng thức
e   ( ) k
P( N (t  )  N (t ))  k 
k!

k  0,1,...

trong đó số  dương là một tham số cố định, được gọi là tham số cường độ,
có nghĩa là, biến ngẫu nhiên N(t+  ) - N(t) mô tả số lần xuất hiện trong
khoảng thời gian [t, t+  ] tuân theo một phân bố Poisson với tham số  .
Tổng quát hơn, một quá trình Poisson là một quá trình gán cho mỗi
khoảng thời gian bị chặn hay mỗi vùng bị chặn trong một khơng gian nào
đó (chẳng hạn, mặt phẳng Euclid hay không gian Euclid 3 chiều) một số
ngẫu nhiên các biến cố, sao cho:

15


a) Xác suất một biến cố xảy ra trong một khoảng thời gian tỉ lệ với
chiều dài khoảng đó (hoặc thể tích của vùng khơng gian được xét đến).
b) Xác suất xảy ra hai hay nhiều hơn các biến cố trong một khoảng
thời gian rất nhỏ (hoặc một vùng không gian rất nhỏ) có thể bỏ qua được.
c) Số lượng xảy ra các biến cố trong các khoảng thời gian (vùng
không gian) rời nhau là các đại lượng độc lập với nhau.
Từ các điều kiện trên, phân phối xác suất của số lượng các biến cố
trong một khoảng thời gian cố định là phân phối Poisson với giá trị trung
bình  = t , hằng số  là cường độ xảy ra các biến cố, còn t là chiều dài
của khoảng thời gian. Quá trình ngẫu nhiên thoả mãn 3 điều kiện, a, b và c,
được gọi là quá trình Poisson.
Quá trình Poisson là một trong các quá trình Lévy nổi tiếng. Các q
trình Poisson thời gian thuần nhất cịn là các ví dụ của các q trình
Markov thời gian liên tục thời gian thuần nhất. Một quá trình Poisson một
chiều thời gian thuần nhất là một quá trình sinh sản thuần tuý - ví dụ đơn
giản nhất về một q trình sinh - tử. Một số ví dụ
Ví dụ 1. Số cuộc điện thoại tới tổng dài trong một khoảng thời gian xác
định có thể có một phân bố Poisson, và số cuộc điện thoại tới trong các
khoảng thời gian khơng giao nhau có thể độc lập thống kê với nhau. Đây là
một quá trình Poisson một chiều. Trong các mơ hình đơn giản, ta có thể giả
thiết một tỉ lệ trung bình là hằng số, ví dụ  =12,3 cuộc gọi mỗi phút. Trong
trường hợp đó, giá trị kỳ vọng của số cuộc gọi trong một khoảng thời gian
bất kỳ là tỉ lệ nhân với khoảng thời gian, t. Trong các bài toán thực tế phức
tạp hơn, người ta sử dụng một hàm tỉ lệ không phải là hằng số:  (t). Khi
đó, giá trị kỳ vọng của số cuộc điện thoại trong khoảng giữa thời điểm a và
thời điểm b là
b


  (t ) dt.
a

16


Ví dụ 2. Số hạt photon đập vào máy phát hiện photon trong một khoảng
thời gian xác định có thể tuân theo một phân bố Poisson.
Ví dụ 3. Số quả bom rơi xuống một khu vực xác định tại London trong
những ngày đầu của Đại chiến Thế giới lần thứ II có thể là một biến ngẫu
nhiên với phân bố Poisson, và số bom rơi xuống hai khu vực không giao
nhau của thành phố có thể độc lập thống kê. Số quả bom rơi xuống một khu
vực A là một q trình Poisson hai chiều trên khơng gian xác định bởi khu
vực A.
Ví dụ 4. Các nhà thiên văn học có thể coi số vì sao trong một thể tích vũ trụ
cho trước là một biến ngẫu nhiên với một phân bố Poisson, và coi số sao
trong hai vùng không giao nhau của vũ trụ là độc lập thống kê. Số sao quan
sát được trong một thể tích V nào đó là một q trình Poisson ba chiều trên
khơng gian xác định bởi thể tích V.

3.3. Mơ hình loga tuyến tính cho q trình Poisson
Giả sử ta có một mẫu bao gồm n quan sát Y1, Y2,…,Yn là các biến ngẫu
nhiên độc lập có phân phối Poisson, Yi ~ P(  i ), ta mong muốn  i phụ thuộc
vào một véc tơ các biến độc lập, ta có thể bắt đầu bằng mơ hình tuyến tính
đơn giản.
i  xi'  j

(3)


Tuy nhiên vế phải của (3) là một số thực bất kỳ trong khi vế trái là giá
trị trung bình khơng âm. Phương án thay thế giải quyết vấn đề này là ta
nghĩ đến logarit của giá trị trung bình. Ta lấy i  log (i ) và xét mơ hình
tuyến tính.
log( i )  xi'  j

(4)

Trong mơ hình này  j biểu diễn sự thay đổi của loga giá trị trung bình
ứng với mỗi thay đổi của xj. Lấy luỹ thừa cơ số e hai vế của (4) ta thu được
mơ hình
17


i  e xp xi'  j 

(5)

Để ước lượng các tham số của phân phối Poisson trong mơ hình trên,
người ta dùng phương pháp ước lượng hợp lý cực đại. Trước tiên ta xây
dựng hàm hợp lý là tích các giá trị của biểu thức (2) lấy trên n quan sát độc
lập có phân phối Poisson với tham số  i thoả mãn (3), tức là
e  i  iyi
i 1
yi !
n

L(  )  

(6)


Lấy loga hai vế ta có
n

LogL (  )  yi log( i )  i 

(7)

i 1

Ở đó  i phụ thuộc vào các biến độc lập xi và  là vecto gồm p tham
số được cho ở (3). Lấy đạo hàm riêng hai vế theo từng phần tử của  và
cho chúng bằng 0. Nghiệm của các phương trình đó cho ta ước lượng hợp
lý cực đại của mơ hình loga tuyến tính Poisson. Có thể chỉ ra rằng các
nghiệm đó thoả mãn phương trình.
X ' y Y ' ˆ

(8)

Ở đây X là ma trận thiết kế với mỗi hàng là mỗi quan sát, mỗi cột là
biến dự báo (có thể bao gồm hằng số). Y biến đáp ứng, ˆ là một vectơ của
giá trị dự báo, được tính tốn thơng qua ước lượng ˆ bằng cách lấy exp mũ
của dự báo tuyến tính   X ' ˆ .
Một độ đo đánh giá mức độ phù hợp của mơ hình với tập giá trị quan
sát là độ chệch có dạng
n


y
D  2  yi log( i )  ( yi  ˆi ) 

ˆi
i 1 


(9)

Với cỡ mẫu lớn, D là đại lượng có phân phối xấp xỉ phân phối khi
bình phương với (n-p) bậc tự do, ở đây n là số lượng quan sát, p số lượng
tham số. Do vậy D thường được sử dụng trực tiếp để kiểm tra tính đúng đắn
của mơ hình.

18


Một độ đo khác có thể dùng thay thế là thống kê Khi bình phương của
Peason
( yi  ˆ i ) 2
X 
ˆ i
2
p

Khi cỡ mẫu lớn, phân phối của thống kê Peason cũng xấp xỉ phân phối
khi bình phương với (n-p) bậc tự do. Hai độ đo trên được dùng để kiểm
định sự phù hợp của mơ hình với dữ liệu quan sát được.

4. Mơ hình hồi quy Poisson tổng qt
Ta đã biết, mơ hình hình hồi quy Poisson đã được sử dụng rộng rãi để
phân tích các số liệu đếm. Phân phối Poisson được dùng đầu tiên trong bài
báo về hồi quy bằng cách cho tham số giá trị trung bình  phụ thuộc vào

một số biến khác. Tuy nhiên giả thiết phương sai và giá trị trung bình của
phân phối Poisson có thể khơng phù hợp trong một số trường hợp thực tế,
khi mà các dữ liệu đếm thường chỉ ra rằng giá trị trung bình mẫu có thể lớn
hơn hoặc nhỏ hơn phương sai mẫu. Khi phương sai mẫu lớn hơn giá trị
trung bình mẫu người ta đề cập đến mơ hình có số liệu có độ phân tán dư
thừa, và tương tự ta có mơ hình có số liệu có độ phân tán thiếu hụt nếu
phương sai mẫu nhỏ hơn giá trị trung bình.
Phân phối Poisson tổng quát được đưa ra bởi Consul và Jain năm
1973, là phân phối có thể áp dụng cho cả những số liệu đếm có độ phân tán
dư thừa hoặc thiếu hụt và hiển nhiên cả trường hợp bằng nhau. Sử dụng
phân phối này, Famoye đã đưa ra mơ hình hồi quy Poisson tổng quát năm
1993.
Trong thực tế có thể xảy ra hiện tượng quan sát bị mất theo dõi có thể
rơi vào biến cố cần quan tâm hoặc rơi vào phần bù của biến cố đó. Ví dụ tại
một điểm bán hàng, ở đây ta quan tâm đến yếu tố khách hàng và sản phẩm
được bán ra, khách hàng đến định mua một máy tính, tuy nhiên tại thời

19


điểm đó cửa hàng mất điện nên khách hàng khơng mua được sản phẩm,
đồng thời ta cũng không biết khách hàng mua sản phẩm nào, hiện tượng
mất theo dõi xảy ra. Nếu biến cố mất theo dõi đó rơi vào biến cố ta quan
tâm thì giá trị trung bình  sẽ giảm đi, ngược lại nếu biến cố mất theo dõi
rơi vào phần bù của biến cố ta quan tâm thì  tăng lên. Như vậy việc mất
theo dõi đối với một quan sát có thể làm các tham số được ước lượng tăng
lên hoặc giảm đi so với giá trị thực của nó. Famoye và Wang (2004) đã đưa
ra mơ hình hồi quy Poisson tổng qt bị mất theo dõi, mơ hình được áp
dụng cho trường hợp tập số liệu bị mất theo dõi và đồng thời phương sai
mẫu khơng bằng giá trị trung bình mẫu.

Giả sử biến phụ thuộc Y là một biến đếm tuân theo luật Poisson tổng
quát chịu tác động của p biến mô tả (xi1, xi2,…xip). Mơ hình hồi quy Poisson
tổng qt được xây dựng bởi Famoye nói rằng phân phối của Yi lấy điều
kiện theo (xi1, xi2,…xip) và được định nghĩa bằng
P(Yi  y | xi )  f ( yi ) 

i
 (1   yi ) y 1
 (1  yi ) 1
( i
) .exp( i
)
1  i 1  i
1   yi
yi !
i

(10)

yi = 0,1,…
với x1 = (1, xi1,… xip) là véctơ (p + 1) . 1 chiều, i  0 là giá trị trung bình
phụ thuộc của Yi với điều kiện xi. Ta cũng có phân tích phổ biến cho  i là
E (Yi | xi )  i  e xp( xit  )

(11)

Phương sai của Y được cho bởi
V a r (Yi | xi )   y2/ x  i (1  i )2

(12)


Ở đây   ( 0 , 1 ,... p ) là một véc tơ p + 1 chiều của các tham số hồi
quy, tham số  là một độ đo của hàm mật độ. Khi  = 0 mơ hình hồi quy
Poisson tổng qt ở (10) trở thành mơ hình hồi quy Poisson bình thường.
Với  > 0 mơ hình hồi quy Poisson tổng qt có thể sử dụng cho mơ hình
có số liệu đếm có độ phân tán vượt trội, tương tự  < 0, mơ hình hồi quy
Poisson tổng qt sử dụng cho mơ hình có số liệu đếm có độ phân tán thiếu
hụt. Với một vài quan sát trong tập số liệu, giá trị Yi có thể bị mất theo dõi,
20


từ đó mơ hình hồi quy Poisson tổng qt mất theo dõi được Faymoye và
Wang đề xuất năm 2004.
Nếu quan sát khơng bị mất theo dõi thì Yi = yi.
Nếu quan sát mất theo dõi thì Yi  yi, và phân phối được áp dụng cho
số liệu mẫu là phân phối nhị phân di được xác định như sau: di = 1 nếu

Yi  yi và di = 0 nếu ngược lại.
Mơ hình hồi quy Poisson tổng qt bị mất theo dõi được cho bởi:
p( yi , di | xi )   f ( yi ) 

1 di

 yi 1

1   f ( j ) 
 j 0


di


(13)

Mô hình hồi quy Poisson tổng quát (13) bao gồm (p+2) tham số được
sắp xếp trong véctơ   ( ' , ) , và nó có thể được ước lượng bằng phương
pháp hợp lý cực đại như trình bày tiếp sau đây.

4.1. Ước lượng tham số

  (  ' , )

Hàm hợp lý của (13) được cho bởi
yi 1
n 

L(  ,  , yi )    f ( yi ) 1di [1-  f ( j )] di 
i 1
j 0



(14)

Hàm log hợp lý là:
n

n

yi 1


i 1

j 0

j 0

LL(  ,  . yi )   (1  di ) log f ( yi )    di log[(1  f ( j )]

(15)

Thay công thức hàm mật độ ở (13) vào (15) ta thu được

i
 (1  yi )
n 
LL(  , , yi )  i 1 (1  d i ) log
 ( y1  1) log(1  yi )  i
 log( yi !)
1  i
1  i







  j 0 d i log(1   j i0 f ( j )
n


y 1

(16)

Bằng cách lấy đạo hàm riêng theo từng tham số và cho chúng bằng 0, ta thu
được
yi 1 f ( j )


(
) 


j

0


LL(  , , yi )
y  i



  (1  d i )( i
) xi    d i
0
2
yi 1

(1  i )

i 1 
 i 1  (1   j 0 f ( j )) 




n

n

21

(17)


LL(  , , yi ) n 
 yi  i
y ( y  1) i ( yi  i ) 
  (1  d i )(
) i i

) 

(1  i )
(1  yi ) (1  i ) 2 
i 1 
yi 1 f ( j )


(

) 


j

0
n
i1 d i (1  yi 1 f( j ))   0


 j 0



(18)

Trong đó:
( j  i )
f ( j )
 f ( j)
xi ,

(1  i ) 2

(19)

( j  i ) j ( j  1) i ( j  i )
f ( j )
 f ( j)



,

(1  i ) 1  j
(1  i ) 2

(20)

Hệ phương trình hợp lý trên khơng tuyến tính với các tham số  , ,
chúng được giải bằng cách dùng phương pháp lặp Newtơn - Raphson.
Lấy đạo hàm riêng của (16) ta nhận được ma trận thông tin Fisher
I ( , ) bằng cách lấy kỳ vọng của hiệu các đạo hàm cấp hai. Ma trận

nghịch đảo của I ( , ) cho ta các phương sai của ước lượng hợp lý cực đại.
Phương sai của ước lượng hợp lý cực đại có thể thu được từ ma trận
Hessian, H là ma trận vng cấp p+2. Tồn bộ ma trận Hessian, được ký
hiệu là các đạo hàm riêng cấp hai, được cho bởi:
 H 11
H ( )  
 H 21

  2 LL(  , , yi )  2 LL(  , , yi )
(
) (
)
H 12  
 '
 '



H 22    2 LL(  , , yi )  2 LL(  , , yi )
) (
)
(

 2




.




Ở đây,
n

 2 LL(  , , yi )
1  i  2yi
'
H11 
   (1  d i ) (
)

x
x

i
i

i
 '
(1  i ) 3
i 1 

2
 
yi 1
yi 1  f ( j )
y 1 f ( j )
(
1

f
(
j
))
(
)   j i0 (
)
 


j 0
j 0
n 





'


i1 d i 
y 1
(1   j i0 f ( j )) 2



 



n

 2 LL(  ,  , yi )
 ( y  i ) 
H12 
  2  (1  d i ) ( i i
) xi  

(1  i ) 3
i 1 


22

yi 1

(

j 0

f ( j )
)
 '




 ,





2
 
yi 1
yi 1  f ( j )
y 1 f ( j )
)   j i0 (
)
  (1   j 0 f ( j ))  j 0 (
n 







i1 d i 
y 1
(1   j i0 f ( j )) 2



 

H 22 



yi 1
j 0

(

f ( j )
)





 ,




n


 2 LL(  , , yi )
i2 yi
yi2 ( y1  1) 212 ( yi  i ) 

(
1

d
)
(


) 


i
 2
(1  i ) 2 (1  yi ) 2
(1  i3 ) 
i 1 

2
 
yi 1
yi 1  f ( j )
y 1 f ( j ) 2
(
1


f
(
j
))
(
)   j i0 (
)




2
j

0
j

0
n 




d
i1  i 
y 1
(1   j i0 f ( j )) 2
 

 





 ,

 


H21= H'12
 1  i  2j
( j  i ) 2  '
 2 f ( j)
 f ( j )  (
)i 
)  xi xi
3
 '
(1  i )
(1  i ) 2 


,

   2 i ( j   i )   j   i     i j
 2 f ( j)
j ( j  1) i ( j  i  
  
 (
x

 f ( j )  

)
3
2 
2  i

(
1


1


j
(
1


)
(
1


)
(
1


)

i
i
i
i





 

2

 2 f ( j)
j 2 ( j  1) 2i2 ( j  i
  i j


f
(
j
)



 (1   ) 2 (1  j ) 2  (1   ) 3
 2
i
i


 

   i j
j ( j  1) i ( j  i ) 
  


)
1  j
(1  i ) 2 
  (1  i

Trong trường hợp ma trận Hessian được tính tốn tại ước lượng hợp lý
cực đại ˆ  ( ' ,ˆ )' , và có nghịch đảo âm thì ta sẽ nhận được ma trận phương



sai - hiệp phương sai được ký hiệu bởi S 2 ˆ , ˆ   H (ˆ)



1

.

4.2. Sự phù hợp của thống kê hợp lý
Để kiểm tra sự phù hợp của mơ hình CGPS, cũng giống trường hợp
hồi quy Poisson, ta dùng tỉ số hợp lý để kiểm tra mơ hình, bài tốn kiểm
định giả thuyết của chúng ta là
H0 :


1   2  ....   p  0

(21)

Thống kê tỉ lệ hợp lý có dạng
D   2( LL(ˆ0 , ˆ , yi ) R  LL( ˆ , ˆ , yi )U )

23

(22)

2








Ở đây LL(ˆ0 , ˆ , yi ) R, LL(ˆ , ˆ , yi )U lần lượt là các hàm loga hợp lý được
tính tốn từ mơ hình được hạn chế và không hạn chế các tham số đưa vào.
Với giả thuyết khơng (21), thống kê D trên có phân phố  2 với p bậc tự do.

4.3. Kiểm định tham số hồi quy và các tham số phân tán
Có thể khẳng định rằng nếu trong mỗi bài toán phân tích, mơ hình hồi
quy Poisson tổng qt được xây dựng chính xác và phù hợp với tập số liệu
thì ước lượng hợp lý cực đại ˆ  (ˆ ' ,ˆ )' cực đại hàm loga hợp lý của mơ hình
luon tồn tại với   ( ' , )' và thu được kết quả tiệm cận chuẩn sau:




ˆ  )  N (0;  E ((1/ n) I (ˆ ,ˆ ))
n (



1

),

Từ đó giúp ta có các kết luận về các hệ số hồi quy và các tham số
phân tán  .
Kiểm định hệ số phân tán 
Hiện tượng mất theo dõi có thể ảnh hưởng đến mơ hình khơng, mơ hình
cũng có thể dẫn tới mơ hình hồi quy Poisson tổng qt, ta có bài tốn kiểm
định.
H 0 :  0 ; H :  0

(23)

Đây là bài toán điểm định sự quan trọng của tham số  . Sự xuất hiện
của  trong mơ hình hồi quy Poisson tổng quát được khẳng định nếu giả
thuyết H0 bị bác bỏ, thống kê sử dụng cho H0 là:
D  2( LL(ˆ , yi ) R  LL(ˆ , yi )U ).

Nếu giả thiết H0 đúng, D  có phân phối  2 với một bậc tự do.
Kiểm định các tham số hồi quy
Để kiểm định các hệ số mũ  J , j = 1, 2, …, p ta có bài toán

H :  J = 0; H1:  J  0
Thống kê cho giả thuyết không là

Z

ˆ j mle
s ( ˆ J

mle)

24

(24)


×