Tải bản đầy đủ (.pdf) (77 trang)

Thử nghiệm phân tích dữ liệu kinh tế - xã hội Việt Nam bằng thống kê toán học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (934.46 KB, 77 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
ĐÀO THỊ AN
THỬ NGHIỆM PHÂN TÍCH DỮ LIỆU
KINH TẾ - XÃ HỘI VIỆT NAM
BẰNG THỐNG KÊ TOÁN HỌC
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội - 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
ĐÀO THỊ AN
THỬ NGHIỆM PHÂN TÍCH DỮ LIỆU
KINH TẾ - XÃ HỘI VIỆT NAM
BẰNG THỐNG KÊ TOÁN HỌC
Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS.HỒ ĐĂNG PHÚC
Hà Nội - 2013
Danh mục các kí hiệu ii
Danh mục các kí hiệu
y
it
đáp ứng của đối tượng thứ i, tại thời điểm t.
x
it
vectơ các biến giải thích cho đối tượng thứ i, tại thời điểm t.
α
i
tham số đặc trưng cho đối tượ ng thứ i.


β
i
tham số tổng thể.
ε
it
thành phần sai số.
Mục lục
Danh mục các kí hiệu . . . . . . . . . . . . . . . . . . . . . . . . . ii
LỜI NÓI ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
1 Kiến thức chuẩn bị 1
1.1 Dữ liệu dọc và dữ liệu khối là gì? . . . . . . . . . . . . . . . . . 1
1.1.1 Mô hình thống kê . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Định nghĩa dữ liệu dọc và dữ liệu khối . . . . . . . . . . 2
1.2 Những ưu điểm và hạn chế của dữ liệu dọc . . . . . . . . . . . 2
1.2.1 Mối quan hệ động lực học và phân tích chuỗi thời gian . 3
1.2.2 Dữ liệu dọc với chuỗi thời gian đo lặp . . . . . . . . . . . 3
1.2.3 Dữ liệu dọc với mặt cắ t ngang lặp . . . . . . . . . . . . . 4
1.2.4 Tính không thuần nhất . . . . . . . . . . . . . . . . . . . 4
1.2.5 Một vài khái niệm khác . . . . . . . . . . . . . . . . . . 5
1.3 Mô hình hiệu quả cố địn h . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Mô hình hiệu quả cố định cơ bản . . . . . . . . . . . . . 6
1.3.2 Ý nghĩa tham số . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 Ước lượng bình phương nhỏ nhất (OLS) . . . . . . . . . 10
1.3.4 Mô hình mở rộng . . . . . . . . . . . . . . . . . . . . . . 13
2 Mô hình hiệu quả ngẫu nhiên 15
2.1 Mô hình các thành phần sai lệch . . . . . . . . . . . . . . . . . 15
2.1.1 Mô hình cơ bản và giả thiết . . . . . . . . . . . . . . . . 16
2.1.2 Ước lượng bình phương nhỏ nhất tổng quát . . . . . . . 18
iii
Danh mục các kí hiệu iv

2.1.3 Kiểm định tính không thuần nhất . . . . . . . . . . . . . 18
2.2 Mô hình hiệu quả hỗn hợp . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Mô hình hiệu quả hỗn hợp tuyến tính . . . . . . . . . . . 19
2.2.2 Mô hình tuyến tính hỗn hợp . . . . . . . . . . . . . . . . 21
2.3 Các kết luậ n về hệ số hồi quy . . . . . . . . . . . . . . . . . . . 22
2.3.1 Ước lượng bình phương nhỏ nhất tổng quát (GLS) . . . 22
2.3.2 Ước lượng hợp lý cực đại . . . . . . . . . . . . . . . . . . 23
2.3.3 Kiểm định giả thuyết . . . . . . . . . . . . . . . . . . . . 24
2.4 Ước lượng các thành phần phương sai . . . . . . . . . . . . . . . 25
2.4.1 Ước lượng hợp lý cực đại (MLE) . . . . . . . . . . . . . 25
2.4.2 Ước lượng hợp lý cực đại giới hạn (REML) . . . . . . . . 26
2.5 Dự đoán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.1 Dự đoán không chệch tu yến tính tốt nhất (BLUP) . . . . 27
2.5.2 Dự đoán mô hình hỗn hợp . . . . . . . . . . . . . . . . . 30
3 Mô hình nhiều mức 32
3.1 Mô hình nhiều mức cắt ngang . . . . . . . . . . . . . . . . . . . 32
3.1.1 Mô hình hai mức . . . . . . . . . . . . . . . . . . . . . . 33
3.1.2 Mô hình hai mức mở rộng . . . . . . . . . . . . . . . . . 35
3.1.3 Mô hình nhiều mức . . . . . . . . . . . . . . . . . . . . . 36
3.2 Các mô hình nhiều mức dọc . . . . . . . . . . . . . . . . . . . . 37
3.2.1 Mô hình hai mức . . . . . . . . . . . . . . . . . . . . . . 38
3.2.2 Mô hình nhiều mức . . . . . . . . . . . . . . . . . . . . 38
3.3 Dự đoán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.1 Mô hình hai mức . . . . . . . . . . . . . . . . . . . . . . 39
3.3.2 Mô hình nhiều mức . . . . . . . . . . . . . . . . . . . . . 40
4 Thử nghiệm phân tích dữ liệu kinh tế - xã hội Việt Nam bằng
mô hình nhiều mức 43
4.1 Sơ lược về nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Các biến số trong mô hình . . . . . . . . . . . . . . . . . . . . . 44
4.3 Mã hóa dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.3.1 Các biến phụ thuộc . . . . . . . . . . . . . . . . . . . . . 45
4.3.2 Các biến độc lập (biến giải thích) . . . . . . . . . . . . . 46
4.4 Kết quả phân tích . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.1 Kết quả phân tích tổng hợp . . . . . . . . . . . . . . . . 49
4.4.2 Kết quả phân tích bằng mô hình nhiều mức . . . . . . . 58
4.5 Kết luận chung . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . 70
Lời nói đầu vi
LỜI NÓI ĐẦU
Thống kê là một bộ phận quan trọng của chuyên ng ành Xác suất Thống
kê. Phân tích thống kê là nêu ra một cách tổng hợp bản chất cụ thể của cá
hiện tượng và quá trình kinh tế xã hội trong điều kiện lịch sử nhất định qua
biểu hiện bằng số lượng. Nói cụ thể phân tích thống kê là xác định mức độ nêu
lên sự biến động biểu hiện tính chất và trình độ chặt chẽ củ a mối liên hệ hiện
tượng. Phân tích th ống kê phải lấy con số thống kê làm tư liệu, lấy các phương
pháp thống kê làm công cụ nghiê n cứu.
Phân tích thống kê có ý nghĩa quan trọng trong quá trình quản lý kinh tế.
Nhờ có lý luận và phươ ng pháp phong phú mà thống kê có thể vạch ra nguyên
nhân của việc hoàn thành kế hoạch và các quyết định quản lý ; phân tích ảnh
hưởng của các nhân tố đến việc sử dụng nguồn lực, x ác định các mối liên hệ,
các tính quy luật chung c ủa hệ thống.
Trong phạm vi bài luận văn này, học viên sử dụng dữ liệu d o Tổng cục
Thống kê biên soạn thuộc các ngành Nông - Lâm - Ngư nghiệp, Công nghiệp,
Giao thông Vận tải & Bưu chính Viễn thông, Thương mại & Dị ch vụ, Dân số
để tập tru ng phân tích thử nghiệm sự phụ thuộc của hai yếu tố Bình quân mức
bán lẻ hàng hóa & doanh thu dịch vụ tiêu dùng và Bình quân số thuê bao điện
thoại được sử dụng vào các yếu tố kinh tế khác. Luận văn được chia thành bốn
chương:
Chương 1: Đ ưa ra cá c khái niệm về dữ liệu dọc, dữ liệu kh ối, tính không đồng

nhất giữa các đối tượng quan sát, mô hình hiệu quả cố định và các p hương
pháp ước lượng các tham số.
Chương 2: Giới thiệu mô hình hiệu quả hỗn hợ p c ùng các kết quả ước lượng
các tham số cố định, ngẫu nhiên, dự đoán các giá trị quan sát tương lai.
Chương 3: Giới thiệu mô hình nhiều mức.
Chương 4: Áp dụng mô hình nhiều mức để phân tích thử nghiệm một số yếu
tố kinh tế của nước ta.
Chương 1
Kiến thức chuẩn bị
1.1 Dữ liệu dọc và dữ li ệu khối là gì?
1.1.1 Mô hình thống kê
Thống kê là một chuyên ngành làm việc với các loại dữ liệu, các công việ c thu
thập mẫu, tóm lược và phân tích dữ liệu. Khi phân tích dữ liệu, chúng ta thu
thập thông tin đư ợc định lượ ng, tức là thông tin này được chuyển về thang số.
Có nhiều phương pháp để phân tích dữ liệu bằng việc sử dụng phương pháp số
hay tóm lược đồ thị. Khi đó người ta có thể liên kết các phương pháp này với
một lý thuyết biểu diễn hay một mô hình mà thông qua đó đưa ra được các
kết luận về thế giớ i xung qu anh.
Bước đầu t iên trong việc phân tích dữ liệu là chọn ra một đại lư ợng cơ bản
làm đơn vị cho việc thu thập mẫu. Đại lượng đó được gọi là đ ơn vị phân tích,
được biết như đơn vị ngh i ên cứu hay đơn vị quan sát. Trong khoa học xã h ội,
đơn vị phân tích có thể là một người, một công ty hay một đơn vị h ành chính
nào đó
Phân tích hồi quy và phân tích chuỗi thời gian là hai phương pháp quan
trọng để phân tích dữ liệu. Ph ân tí ch hồi quy là một dạng đặc biệt của phân
tích nhiều chiều, trong đó các ph ép đo lườn g được thực hiện trên từng đối
tượng. Chúng ta xác định một phép đo được gọi là một đá p ứng hay biến phụ
thuộc mà chúng ta quan tâm việc đư a ra các phát biểu về phép đo này và việc
1
1.2. Những ưu điểm và hạn chế của dữ liệu dọc 2

kiểm soát các biến khác.
Với phân tích hồi quy, người ta thường làm việc với dữ liệu cắt ngang. Ngược
lại, với phân tích chuỗi thời gian, chúng ta cần xác định một hay nhiều đối
tượng và quan sát chúng theo thời gian. Điều này cho phép chúng ta nghiên
cứu được các mối quan hệ theo thời gian , khía cạnh động lực học của bài toán.
1.1.2 Định nghĩa dữ liệu dọc và dữ liệu khối
Định nghĩa 1. Dữ liệu dọc là dữ liệu chứa các qu an sát của cùng một loại
thông tin trên một nhóm các đối tượng tại nhiều thời điểm khác nhau.
Phân tích dữ liệu dọc là sự kết hợp của phân tích hồi quy và phân tích
chuỗi thời gian. Như với nhiều tập dữ liệu hồi quy, dữ liệu dọc bao gồm mặt
cắt ngang của c ác đối tượng. Không giống như dữ li ệu hồi quy, với dữ liệu dọc
chúng ta quan sát các đối tượng theo thời gia n. Không giống như dữ l iệu chuỗi
thời gian, với dữ liệu dọc chúng ta quan sát nhiều đối tượng. Việc quan sát
một mặt cắt ngan g rộng của các đối tượng theo thời gian cho phép chúng ta
nghiên cứu khía cạnh động lực học của bài toán .
Định nghĩa 2. Dữ liệu khối là dữ liệu chứa các quan sát của nhiều loại thông
tin, được theo dõi tại nhiề u thời điểm khác nhau của nhóm các đối tượng.
Thuật ngữ "dữ liệu khối" xuất phát từ việc quan sát các cá thể riêng biệt.
Một khối là một nhóm các cá thể được quan sát lặp đi lặp lại theo thời gian.
Trước đây, đối với nhóm ngàn h kinh tế, phương pháp dữ liệu khối được sử dụng
trong ngành kinh t ế lao động. Nhưng ngày nay, các ứng dụng của dữ liệu khối
trong kinh tế đã không bị hạn chế và được sử dụng rộng rãi hơn.
1.2 Những ưu điểm và hạn chế của dữ liệu dọc
• Ưu điểm: Có một vài thuận lợi của dữ liệu dọc so với dữ liệu cắt ng ang và
dữ liệu chuỗi thời gian. Trong chương giới thiệu này, chúng ta thảo luận
1.2. Những ưu điểm và hạn chế của dữ liệu dọc 3
hai t huận lợi quan trọng, đó là khi làm việc với dữ liệu dọc thì có khả
năng nghiên cứu được các mối quan hệ động lực học và mô hình h óa được
sự khác biệt hay tính không đồng nhất giữa các đối tượng.
• Hạn chế: dữ liệu dọc phức tạp hơn dữ liệu cắt ngang hay dữ liệu chuỗi

thời gian và hạn chế quan trọng nhất đó là khó khăn tron g việc xây dựng
mô hình mẫu để đơn giản vấn đề của các đối tượng.
1.2.1 Mối quan hệ động lực học và phân tích chuỗi thời gian
Khi nghiên cứu các mối quan hệ động lực học, phân t í ch chuỗi thời g i an một
chiều được sử dụng rộ ng rãi. Tuy nhiên phương phá p này không đưa ra được
các mối quan hệ giữa cá c đối tượng khác nhau. Ngược lại, ph ân tích chuỗi thời
gian nhiều chiều đưa ra được các mối quan hệ giữa một số lư ợng có hạn các
đối tượng khác nhau. Nhưng dù một chiều hay n hiều chiều thì phân tích chuỗi
thời gian vẫn đòi hỏi phải có một số qua n sát để đưa ra các kết luận đ áng tin
cậy. Ví dụ, đối với một dãy dữ liệu kinh tế hàng năm với 30 quan sát , việc sử
dụng phân tích chuỗi thời gian có nghĩa là chúng ta sử dụng cùng một mô hình
để biểu diễn một hệ thống kinh tế với chu kì thời gian là 30 năm.
1.2.2 Dữ liệu dọc với chuỗi thời gian đo lặp
Với dữ liệu dọc, chúng t a sử dụng nhiều quan sát của một số đối tượng. Các
quan sát lặp đi l ặp lại từ cùng một đối tượng thì sẽ tương quan. Một cách để
biểu diễn mối tương quan này là thông qua mô hình động lực học, có dạng như
sau:
y
it
= Ey
it
+ ε
it
, t = 1, 2, · · · , T
i
; i = 1, 2, · · · , n,
trong đó ε
it
biểu diễn độ lệch của đáp ứng so với trung bình của nó. Kí hi ệu
E biểu diễn kì vọng của đáp ứng y

it
. Một cách trực giác, nếu có mô hình động
học chung cho cá c đối tượng thì bằng việc quan sát mô hình này trên nhiều
đối tượng, chúng ta hi vọng sẽ ước lượng được mô hình với các quan sát chuỗi
1.2. Những ưu điểm và hạn chế của dữ liệu dọc 4
thời gian ngắn hơn.
Đối với nhiều tập dữ liệu, các đối tượng không có trung bình đồng n hất. Và kì
vọng này được biểu diễn bằng phép xấp x ỉ bậc nhất của một tổ hợp tuyến tính
các biến giải thích sao cho
Ey
it
= α + x

it
β,
ở đây, x
it
là một vectơ các biến giải thích, hay các biến độc lập.
1.2.3 Dữ liệu dọc với mặt cắt ngang lặp
Dữ liệ u dọc được coi như dữ liệu cắt ngang lặp đi lặp lại, bỏ qua thông tin riêng
của cá thể được theo dõi the o thời gian. Có nhiều cuộc điều tra quan trọng với
dữ liệu được thu thập lặp lại mà các đối tượng điều tra k hông được theo dõi
theo thời gian. Các cuộc điều tra như vậy rất hữu dụng cho việc hiểu đ ược sự
thay đổi tổng hợp của một biến theo thời gian. Tuy n hiên nếu qua n tâm tới
việc nghiên cứu các đặc trưng kinh tế, nhân khẩu học hay các đặc trưng xã hội
của cá nhân về vấn đề ly hôn thì việc theo dõi các cá nhân theo thời gian sẽ
có nhiều thông tin hơn việc sử dụng dữ liệu cắt ngang lặp lại.
1.2.4 Tính không thuần nhất
Bằng việc theo dõi các đối tượng theo thời gian, chúng ta có thể mô hình hóa
được trạng thái của đối tượ ng. Trong nhiều tập dữ liệu, các đối tượng thườ ng

không giống nhau, có nghĩa là không thuần nhất . Trong phân tích hồi quy cắt
ngang, chúng ta sử dụng các mô hìn h, ví dụ như
y
it
= α + x

it
β + ε
it
,
và gán tính không duy nhất của các đối tư ợng với số hạng nhiễu ε
it
. Ngược lại,
với dữ liệu dọc, chúng ta có cơ hội để mô hình hóa tính không thuần nhất này.
Mô hình dữ liệu dọc cơ bản kết hợp chặt chẽ tính không thuần nhất giữa các
đối tượng có dạng
Ey
it
= α
i
+ x

it
β, t = 1, 2, · · · , T
i
, i = 1, 2, · · · , n. (1.2.1)
1.2. Những ưu điểm và hạn chế của dữ liệu dọc 5
Trong dữ liệu cắt ngang khi T
i
= 1, các tham số của mô hình này không xác

định được. Tuy nhiên đối với dữ liệu dọc, chúng ta có đủ số quan sát để ước
lượng β và α
1
, α
2
, · · · , α
n
. Mặt khác, việc gán các tham số đặc trưng đối tượ ng
α
i
vào mô hình đã đưa ra một quy tắc quan trọng để kiểm soát tính không
thuần nhất của các cá thể . Các mô hình liên kết t í nh không đồng nhất như
phương trình trên, được gọi là mô hình không thuần nhất; trường hợp ngược
lại được gọi là mô hình thuầ n nhất.
Chúng ta cũng có thể giải thích tính không thuần nhất giữa các đối tượng
theo nghĩa: các quan sát trên cùng một đối tượng thì tương đồng với nhau hơn
các quan sát từ các đ ối tượng khác. Dự a trên giải thích này, tính không thuần
nhất có thể được mô hình hóa bằn g việc kiểm tra sự t ương quan giữa các qu an
sát lặp đi l ặp lại trên một đối tượng. Có nghĩa là, đối với nhiều tập dữ liệu,
chúng t a đ i tìm mối tương quan dương khi kiểm tra {y
i1
, y
y2
, · · · , y
iT
i
}.
Có hai phư ơng pháp để mô hình hóa cho đại lượng b i ểu diễn tính không
thuần nhất giữa các đối tượng, α
i

. Ở chương 2, chúng ta sẽ đi kh ảo sát một
phương pháp, trong đó các α
i
là những tham số cố định, chưa biết và cần được
ước lượng. Chương 3 sẽ giới thiệu phương pháp thứ hai, trong đó các α
i

những biến ngẫu nhiê n, được chọn từ một tổng thể nào đó chưa bi ết. Trong
trường hợp này, phương trình (1.2.1) có thể được biểu diễn như sau
E(y
it

i
) = α
i
+ x

it
β.
Phương trình này mô tả mô hình với các hiệu quả ngẫu nhiên , đặc trưng bởi
các tham số α
i
.
1.2.5 Một và i khái niệm khác
Các mô hình dữ liệu dọc đôi khi khác với dữ liệu hồi quy và dữ liệu chuỗi thờ i
gian thông qua chỉ số kép của chúng. Chúng ta có thể phân biệt giữa các đáp
ứng bằ ng các đối tượng và thời gi an. Định nghĩa y
it
là đáp ứng cho đối tượng
thứ i ở giai đoạn thời gian t. Một tập dữ liệu dọc bao gồm các quan sát của

1.3. Mô hình hiệu quả cố định 6
đối tượng thứ i tại các giai đoạn th ời gian t = 1, 2, · · · , T
i
chu kì thời gian, với
i = 1, 2, 3, · · · , n. Như vậy, chúng ta quan sát được
đối tượng đầu tiên − {y
11
, y
12
, · · · , y
1T
1
},
đối tượng thứ hai − {y
21
, y
22
, · · · , y
2T
2
},
.
.
.
đối tượng thứ n − {y
n1
, y
n2
, · · · , y
nT

n
}.
Với nhiều tậ p dữ liệu, người t a thường lấy số quan sát phụ thuộc vào t ừng đối
tượng, T
i
kí hiệu số quan sát cho đối tượng thứ i. Trường hợp này được biết
như tập dữ liệu không cân bằng. Đối với các tập dữ liệu khác, mọi đối tượng
đều có số quan sát như nhau thì được biết như tập dữ liệu cân bằ ng.
Định nghĩa 3 (Tương quan chuỗi). Tươ ng quan chuỗi là sự tươn g quan giữa
các quan sát được đo lặp đi lặp lại theo th ời gian trên cùng một đối tượng.
Định nghĩa 4 (Tươ ng quan cắt ngang). Tương quan cắt ngang là sự tương
quan giữa các đối tượng được quan sát theo không gian.
1.3 Mô hình hiệu quả cố định
Phần này giới thiệu về việc phân tích dữ liệu dọc và dữ liệu khối b ằng việc sử
dụng khung mô hình tuyến tính tổng quát. Ở đây, mô hình dữ liệu dọc được
coi như một bài toán hồi quy bằn g việc sử dụng các tham số cố định để biểu
diễn tính không thuần nhất giữa các đối tượng, các đại lượng phi ngẫu nhiên
được biết như những hiệu quả cố định.
1.3.1 Mô hình hiệu quả cố định cơ bản
Xét một mẫu ngẫu nhiên gồm n đối tượng, mỗi đối tượng là một đơn vị quan
sát, được phân biệt với nhau bở i chỉ số i, với i = 1, 2, · · · , n. Mỗi đối tượng có
T
i
quan sát và chúng ta dùng chỉ số t để phân biệt các lần quan sát. Kí hiệu y
it
1.3. Mô hình hiệu quả cố định 7
là đáp ứng của đối tượng thứ i tại thời điể m quan sát t. Ứng với mỗi đáp ứng
y
it
là một tập K biến giải thích {x

it,1
, x
it,2
, · · · , x
it,K
}. Chúng ta kí hiệu tập các
biến giải thích như một vectơ cột với số chiều bằng K:
x
it
=








x
it,1
x
it,2
.
.
.
x
it,n









.
Như vậy, thông tin về đối tượng thứ i bao gồm
{x
i1,1
, · · · , x
i1,K
, y
i1
} hay {x

i1
, y
i1
}
.
.
.
{x
iT
i
,1
, · · · , x
iT
i
,K

, y
iT
i
} hay {x

iT
i
, y
iT
i
}.
Các đáp ứng biến đ ổi theo từng đối tượng với chỉ số T
i
. Đây là trường hợp mô
hình không cân bằng. Chúng ta kí hiệu T = max{T
1
, T
2
, · · · , T
n
} là số đáp ứng
lớn nhất cho một đối tượng và trường hợp các T
i
= T với mọi i thì đây được
gọi là mô hình cân bằng.
Mô hình cơ bản
Để phân tích mối quan hệ giữa biến đáp ứng và các biến giải thích, ta sử
dụng hàm hồi quy
Ey
it

= α + β
1
x
it,1
+ β
2
x
it,2
+ · · · + β
K
x
it,K
. (1.3.1)
Hàm hồi quy này tuyến tính đố i với các tham số α, β
1
, β
2
, · · · , β
K
. Trong mô
hình này, với g iả thiết các biến gi ải thích là phi ngẫu nhiên thì hạn chế duy
nhất của phương trình (1. 3.1) là làm cho chúng ta nh ầm tưởng rằng phương
trình này cũng là tuyến tí nh đối với các biến.
1.3. Mô hình hiệu quả cố định 8
Các giả thiết của mô hình hồi quy tuyến tính quan sát được
F1. Ey
it
= α + β
1
x

it,1
+ β
2
x
it,2
+ · · · + β
K
x
it,K
.
F2. {x
it,1
, · · · , x
it,K
} là các biến phi ngẫu nhiên.
F3. V ary
it
= σ
2
.
F4. {y
it
} là các biến ngẫu nhiên độc lập.
F5. {y
it
} có phân bố chuẩn.
Biểu diễn quan sát được dựa trê n ý tưởng về kì vọng có điều kiện, tro ng
đó trung bình của đ áp ứng lấy điều kiện tr ên tập các biến giải thích quan sát
được {x
it,1

, x
it,2
, · · · , x
it,K
}. Vì vậy, chúng ta coi {x
it,1
, x
it,2
, · · · , x
it,K
} là các
biến phi ngẫu nhiên. Giả thiết F5 không đò i hỏi đối với tất cả các phương pháp
kết luận thống kê.
Ngược lại với biểu diễn quan sát được, công thức cổ điển của mô hì nh hồi quy
tuyến tính dựa trên các thành phần sai số trong mô hình hồi quy được định
nghĩa như sau:
ε
it
= y
it
− (α + β
1
x
it,1
+ β
2
x
it,2
+ · · · + β
K

x
it,K
).
Các giả thiết của mô hình biểu diễn sai số
E1. y
it
= α + β
1
x
it,1
+ β
2
x
it,2
+ · · · + β
K
x
it,K
+ ε
it
. với Eε
it
= 0.
E2. {x
it,1
, · · · , x
it,K
} là các biến phi ngẫu nhiên.
E3. V arε
it

= σ
2
.
E4. {ε
it
} là các biến ngẫu nhiên độc lập.
Biểu diễn sai số được dựa tr ên lý thuyết về sai số Gauss. Các giả thiết E1
- E4 tương đương với các giả thiết F1 - F4. Trong giả thiế t F1 , các hệ số
1.3. Mô hình hiệu quả cố định 9
β
1
, β
2
, · · · , β
K
được gán với K biến giải thích. Chúng ta biểu diễn K tham số
này như một vectơ cột với số chiều là K:
β =








β
1
β
2

.
.
.
β
K








.
Với kí hiệu này, chúng ta có thể viết lại giả thiết F1 như sau
Ey
it
= α + x

it
β, (1.3.2)
Biểu diễn trong phương trìn h (1.3.2) là biểu diễn chéo vì nó không sử dụng
thông tin đư ợc đo lặp đi lặp lại theo thời gian trên một đ ối tượng. Và vì phương
trình này cũng không chứa các số hạng không đồng nhất nên được gọi là mô
hình đồng nhất.
Và biểu diễn đầu tiên của chúng ta, sử dụng thông tin trên các phép đo lặp
đi lặp lại trên một đối tượng và chứa các số hạng chặn biến đổi theo từng đ ối
tượng, có dạng
Ey
it

= α
i
+ x

it
β. (1.3.3)
Phương trình (1.3.3) và các giả thiết F2 - F4 kết hợp thành mô hình các hiệu
quả cố định cơ bản.
1.3.2 Ý nghĩa tham số
• Các tham số {β
i
}, i = 1, 2, · · · , K, chung cho mỗi đối tượng và được gọi
là các tham số toàn cục hay các tham số tổng thể.
• Các tham số α
i
biến đổi theo từng đ ối tượng được gọi là các tha m số đặc
trưng đối tượng hay các tham số cá th ể. Các tham số đặc trưng đối tượng
này biểu diễn các đặc điểm khác nhau của các đối tượng và thư ờng được
gọi là các tham số riêng.
1.3. Mô hình hiệu quả cố định 10
Các tham số đặc trưng đ ối tượng α
i
biểu diễn tí nh không thuần nhất giữa các
đối tượng. Các ước lượng của các t ham số này sử dụng thông tin trong các
phép đo lặp lại trên từng đố i tượng. Ngược lại, các tham số này sẽ không định
lượng đư ợc trong các mô hình hồi quy cắt ngang, không có các quan sát lặp đi
lặp lại theo thời gian. Có nghĩa là với T
i
= 1 thì mô hình
y

it
= α
i
+ β
1
x
i1,1
+ β
2
x
i1,2
+ · · · + β
K
x
i1,K
+ ε
i1
có (n+K) tham số nhiều hơn số quan sát (n) và như vậy ta khôn g xác định
được tất cả các tha m số. Số hạng nhiễu ε
it
chứa thô ng tin về α
i
trong các mô
hình hồi quy cắt ngang . Một t huận lợi quan trọng của các mô hình dữ liệu dọc
so với các mô hình hồi quy cắt ngang là khả năng tách các hiệu q uả của {α
i
}
từ các số hạng nhiễu {ε
it
}. Như vậy, bằng việc tách các hiệu qu ả đặc trưng đối

tượng này, các ướ c lượng của chúng ta sẽ chính xác hơn và sẽ thu được các kết
luận đáng tin cậy hơn.
1.3.3 Ước lượng bình phương nhỏ nhất (OLS)
Định lý 1.3.1 (Gauss - Markov). Với các giả thiết F1-F5, các ước lượng bình
phương nhỏ nhất là các ước lượng tuyến tính, không chệch và có phương sai nhỏ
nhất trong lớp các ước lượng tuyến t ính không chệch.
Xét phương trình (1.3.3):
Ey
it
= α
i
+ x

it
β i = 1, 2, · · · , n; t = 1, 2 · · · , T
i
.
Bây giờ chúng ta sẽ ước lượn g các tham số β, α
i
và phương sai σ
2
và đây là các
ước lượng không chệch t uyến tính tốt nhất của β và α
i
. Gọi a
i
,

b
1

,

b
2
, · · · ,

b
K
là các ước lượng của các tham số α
i
, β
1
, β
2
, · · · , β
K
. Định nghĩa hàm tổng bình
phương
SS(a,

b) =
n

i=1
T
i

t=1
(y
it

− (a
i
+ x

it

b))
2
,
1.3. Mô hình hiệu quả cố định 11
trong đó a = (a
1
, a
2
, · · · , a
n
)



b = (

b
1
,

b
2
, · · · ,


b
K
)

. Để cực tiểu h óa đại lượng
này, đầu tiên chúng ta cần tính đạo hàm riêng theo a
i
. Ta có

∂a
i
SS(a,

b) = (−2)
n

i=1
T
i

t=1
(y
it
− (a
i
+ x

it

b)).

Ước lượng bình phương nhỏ nhất của α
i
là nghiệm của phương trình

∂a
i
SS(a,

b) = 0
và có dạng a
i
(

b) =
y
i
− x

i

b, trong đó x

i
= (

T
i
t=1
x
it

/T
i
). Lúc này hàm tổng
bình phương sẽ bằng
SS(a(

b),

b) =
n

i=1
T
i

t=1
(y
it

y
i
− (x
it
− x
i
)


b)
2

.
Để tìm ước lượn g cho β
i
, t a lấy đạo hàm riêng theo mỗi thành phần của

b. Với
thành phần thứ j, ta có



b
j
SS(a,

b) = (−2)
n

i=1
T
i

t=1
(x
itj

x
ij
)(y
it
− y

i
− (x
it
− x
i
)


b))
Cho phương trình này bằng 0 với mỗi thành phần j, ta có phương trì nh chuẩn
tắc
n

i=1
T
i

t=1
(x
it

x
i
)(x
it
− x
i
)

=

n

i=1
T
i

t=1
(x
it

x
i
)(y
it
− y
i
).
Phương trình chuẩn tắc này đã đưa ra cho ta các ước lượng OLS:
(i) Ước lượng OLS của β:
b =

n

i=1
T
i

t=1
(x
it


x
i
)(x
it
− x
i
)


−1

n

i=1
T
i

t=1
(x
it

x
i
)(y
it
− y
i
)


,
(1.3.4)
trong đó b = (b
1
, b
2
, · · · , b
K
)


x
i
=
1
T
i

T
i
t=1
x
it
là giá trị trung bình của
biến x
i
với T
i
lần quan sát;
y

i
=
1
T
i

T
i
t=1
y
it
là giá trị trung bình của y
i
.
(ii) Ước lượn g OLS của α
i
:
a
i
=
y
i
− x

i

b. (1.3.5)
1.3. Mô hình hiệu quả cố định 12
Các ước l ượng OLS của β có thể được biểu diễn như tru ng bình có trọng số
của các ước lượng đặc trưng đối tượng. Đặc biệt, giả sử rằng tất cả các tham

số đều đặc trưng đố i tượng để hàm hồi quy có dạng Ey
it
= α
i
+ x

it
β
i
. Khi đó,
ước lượng OLS của β có dạng
b
i
=

T
i

t=1
(x
it

x
i
)(x
it
− x
i
)



−1

T
i

t=1
(x
it

x
i
)(y
it
− y
i
)

.
Bây giờ, chúng ta định nghĩa ma trận trọng số
W
i
=
T
i

t=1
(x
it


x
i
)(x
it
− x
i
)

,
Khi đó, b
i
có biểu diễn đơn giản hơn
b
i
= W
−1
i
T
i

t=1
(x
it

x
i
)(y
it
− y
i

).
Với trọng số này, chúng ta có thể biểu diễn ước lượng của β
b =

n

i=1
W
i

−1
n

i=1
W
i
b
i
. (1.3.6)
như một (ma trận) trung bình có trọng số của các ước lượng tham số đặc trưng
đối tượng.
Từ phương trình (1.3.4) và (1.3.5), lại xét một vectơ trọng số khác
W
it
=

n

i=1
W

i

−1
(x
it

x
i
).
Với vectơ n ày, ta có một biểu diễn khác cho phương t rình (1.3.4):
b =
n

i=1
T
i

t=1
W
it,1
y
it
.
Điều này cho ta thấy rằng các hệ số hồi quy của b là những tổ hợp tuyến tính
của các đáp ứng.
Các hệ số hồi quy được gán với các biến hằng (không đổi theo thời g ian) sẽ
1.3. Mô hình hiệu quả cố định 13
không ước lượng được nếu sử dụng phương trình (1.3.4). Giả sử biến thứ j
không đổi theo thời gian và x
it,j

= x
i,j
.Khi đó, các phần tử trên hàng và cột
thứ j của ma trận
n

i=1
T
i

t=1
(x
it

x
i
)(x
it
− x
i
)

đồng nhất bằng 0 và vì thế ma trận này không khả nghịch.
Nhận xét. Cả hai ước lượng a
i
và b đều có cá c tính chất của ước lượng bình
phương nhỏ nhất và cụ thể , đó l à những ước lượng không chệch. Theo Định lý
Gauss - Markov, chúng c ó phương sai nhỏ nhất trong lớp c ác ước lượng không
chệch và phương sai của b sẽ là
V arb = σ

2

n

i=1
W
i

−1
.
1.3.4 Mô hình mở rộng
Để mở rộng mô hình cơ bản, chúng ta sẽ đư a ra một biểu diễn đẹp hơn bằng
việc sử dụng khái niệm ma trận. Dạng ma trận của phương trình (1.3.2):
Ey
i
= α
i
1
i
+ X
i
β, (1.3.7)
trong đó y
i
là vectơ N × 1 các đáp ứng của đối tượng thứ i, y
i
= (y
i1
, · · · , y
iT

i
)

và X
i
là ma trận các biến giải thích mức T
i
× K,
X
i
=








x
i1,1
x
i1,2
· · · x
i1,K
x
i2,1
x
i2,2
· · · x

i2,K
.
.
.
.
.
.
.
.
.
.
.
.
x
iT
i
,1
x
iT
i
,2
· · · x
iT
i
,K









=








x

i1
x

i2
.
.
.
x

iT
i









hay có thể viết X
i
= (x
i1
, x
i2
, · · · , x
iT
i
)

. Và 1
i
là vectơ T
i
× 1 các số 1.
Ma trận hiệp phương sai
Với một tập các qua n sát đầy đủ, chúng ta kí hiệu R là ma trận hiệp phương
sai của y, mức T × T
V ary = R(τ) = R
1.3. Mô hình hiệu quả cố định 14
trong đó R
rs
= Cov(y
r
, y
s

) là phân tử ở hàng thứ r và cột thứ s trong ma trận
R và τ là vectơ các tham số chưa b iết, được gọi là các thàn h phần phương sai.
Với tậ p các quan sát bé hơn, xét đối tượng thứ i có T
i
quan sát. Ở đây, ta định
nghĩa V ary = R
i
(τ), ma trận mức T
i
× T
i
. Giả thiết rằng ma trận R
i
(τ) xác
định dương và chỉ phụ thuộc vào đối tượng thứ i, thông qua số quan sát của
nó. Dưới đây là một số trường hợp đặc biệt của R:
(i) R = σ
2
I, trong đ ó I là ma trận đồng n hất mức T × T . Đây là trường hợp
không có sự tương quan chuỗi hay độc lập.
(ii) R = σ
2
((1 − ρ)I + ρJ), trong đó J là ma trận mức T × T các số 1. Đây
là trường hợp được biết đến trong mô hình tương quan đều.
(iii) R
rs
= σ
2
ρ
|r −s|

. Đây là mô hìn h tự hồi quy mức một, kí hiệu AR(1).
Để đưa ra biểu diễn phức tạp hơn bằng khá i niệm ma trận, chúng ta định
nghĩa Z
i
= (z
i1
, · · · , z
iT
i
)

là ma trận cá c biến giải thích mức T
i
× q, trong đó
z
it
= (z
it1
, z
it2
, · · · , z
itq
)

. Với kí hiệu này, như phư ơng trình (1.3.7), dạng ma
trận của phương trình (1.3.2) là
Ey
i
= Z
i

α
i
+ X
i
β (1.3.8)
Các đáp ứng giữa các đối tượng là độc lập. Các giả thiết này đã đặt ra mô
hình dữ liệu dọc tuyến tính hiệu quả cố định. Dưới đây là các giả thiết của mô
hình:
F1. Ey
it
= Z
i
α
i
+ X
i
β.
F2. {x
it,1
, · · · , x
it,K
} và {z
it1
, · · · , z
itq
} là các biến phi ngẫu nhiên.
F3. V ary
i
= R
i

(τ) = R
i
.
F4. {y
i
} là các biến ngẫu nhiên độc lập.
F5. {y
it
} có phân bố chuẩn.
Chương 2
Mô hình hiệu quả ngẫu nhiên
Ở chương 2, chúng ta đã làm việc với mô hình hiệu quả cố định, tức là, cá c
tham số α
i
là cố định, phi ngẫu nhiên. Sang chương 3, tính không thuần nhất
giữa các đối tượng được xây dựng bằng việc sử dụng các đại lượng ngẫu nhiên
thay cho các tham số cố định, được biết như n hững hiệu quả ngẫu nhiên. Mở
đầu cho chương này, chúng t a sẽ làm việc với một trường hợp đặc biệt với hệ số
chặn, đơn, ngẫu nhiên, được gọi là mô hình thành phần sai lệch - trường h ợp
đặc biệt của mô hình hiệu quả hỗn hợp tuyến tính. Tiếp theo , các ước lượng
của các h ệ số hồi quy và các thành phần phương sai cũng như việc kiểm địn h
giả thuyết cho các hệ số hồi quy sẽ được trình bày trong chương này.
Định nghĩa 5. Mô hình hiệu quả hỗn hợp là nhữn g mô hì nh chứa cả hiệu quả
ngẫu nhiên cũng như hiệu quả cố định.
2.1 Mô hình các thành phần sai lệch
Giả sử chúng ta quan tâm đến việc nghiên cứu đặc thù của các cá thể được
chọn ngẫu nhiên từ một tổng thể. Không giống chương 2, chương 3 sẽ thảo
luận các trường hợp biểu diễn α
i
như các biến ngẫu nhiên, thay cho các tham

số cố định, chưa bi ết. Bằn g việc chứng tỏ α
i
được chọn ra từ một phân bố,
chúng ta sẽ có thể đưa ra những kết luận về các đối tượng trong tổ ng thể mà
không có mặt trong mẫu.
15
2.1. Mô hình các thành phần sai lệch 16
2.1.1 Mô hình cơ bản và giả thiết
Xét mô hình thành phần sai lệch như sau
y
it
= α
i
+ x

it
β + ε
it
. (2.1.1)
Thành phần sai lệch ở đây cũng giống như biểu diễn sai số của mô hình hiệu
quả cố định. Tuy nhiên, số hạn g α
i
được giả thiết như một bi ễn ngẫu nhiên
và được gọi là một hiệu quả ngẫu nhiên . Vì phương trình (2.1.1) v ừa chứa cả
hiệu quả ngẫu nhiên α
i
và hiệu quả cố định β n ên phương trình thành phần
sai lệch là một trường hợp đặc biệt của mô hì nh tuyến tí nh hỗn hợp .
Trong mô hình này, ta giả thiết các α
i

là độc lập và cùng phân bố, với trung
bình 0 và phương sai σ
2
α
. Hơn n ữa, chúng ta giả t hiết rằng, {α
i
} độc l ập với
các biến ngẫu nhiên sai số {ε
it
} và x
it
là một vectơ các biến giải thích, β là
vectơ cố định, các tham số tổng thể chưa biết.
Các giả thiết của mô hình thành phần sai lệch
R1. E(y
it

i
) = α
i
+ x

it
β.
R2. {x
it,1
, · · · , x
it,K
} là các biến phi ngẫu nhiên.
R3. V ar(y

it

i
) = σ
2
.
R4. {y
it
} là các biến ngẫu nhiên độc lập trên điều kiện {α
1
, α
2
, · · · , α
n
}.
R5. {y
it
} có phân bố chuẩn trên điều kiên {α
1
, α
2
, · · · , α
n
}.
R6. Eα
i
= 0, V arα
i
= σ
2

α
và {α
1
, α
2
, · · · , α
n
} độc lập.
R7. {α
i
} có phân bố chuẩn.
Các g iả thiết R1 - R5 giống như trong mô hình hiệu quả cố định. Sự khác biệt
ở đây chính là chúng ta đặt điều kiện trên các số hạng đặc trưng đối tượng α
i
.
Giả thiết R6 và R7 đưa ra các điều kiện c ơ bản cho các số hạng đặc trưng đối
tượng.
2.1. Mô hình các thành phần sai lệch 17
Tuy nhiên, các giả thiết R1 - R7 không đưa ra được biểu diễn qua n sát được của
mô hình vì chúng dựa trên các đại lượ ng không quan sát được {α
1
, · · · , α
n
}.
Chúng ta sẽ tổng kết các hiệu quả của c ác giả thiết này trên các bi ến quan sát
được {x
it,1
, · · · , x
it,2
, y

it
}.
Biểu diễn quan sát được của mô hình thành phần sai số
RO1. Ey
it
= x

it
β.
RO2. {x
it,1
, · · · , x
it,K
} là các biến phi ngẫu nhiên.
RO3. V ary
it
= σ
2
+ σ
2
α
. và Cov (y
ir
, y
is
) = σ
2
α
với r khác s.
RO4. {y

i
} là các biến ngẫu nhiên độc lập.
RO5. {y
i
} có phân bố chuẩn.
Đối với các tình huống phức tạp hơn, chúng ta sẽ dùng khái niệm ma trận để
mô tả các giả thiết này. Hàm hồi quy có thể được biểu d i ễn chặt chẽ hơn như
sau
E(y
i

i
) = α
i
1
i
+ X
i
β,
và n hư vậy
Ey
i
= X
i
β, (2.1.2)
trong đó 1
i
là vectơ cột các số 1 với T
i
hàng; X

i
là ma trận mức T
i
× K các
biến giải thích, X
i
= (x
i1
, x
i2
, · · · , x
iT
i
)

. Biểu diễn cho E(y
i

i
) là một biểu
diễn lại cho giả thiết R1 với khái niệm ma trận. Phương trình (2.1.2) thích hợp
với công thức tính kì vọng của kì vọng có điều kiện vì
Ey
i
= EE(y
i

i
) = Eα
i

1
i
+ X
i
β = X
i
β do Eα
i
= 0.
Với giả thiết RO3, chúng ta có
V ary
i
:= V
i
= σ
2
α
J
i
+ σ
2
I
i
, (2.1.3)
trong đó J
i
là ma trận các số 1 mức T
i
× T
i

, I
i
là ma trận đơn vị mức T
i
× T
i
.
2.1. Mô hình các thành phần sai lệch 18
2.1.2 Ước lượng bình phương nhỏ nhất tổng quát
Phương trình (2.1.2) và (2.1.3 ) đã chỉ ra tru ng bình và phương sai của các đáp
ứng và giả sử rằ ng các thành phần phương sai σ
2
α
, σ
2
đã biết. Để ước lượng
các hệ số hồi quy, phần này sử dụng phương tr ì nh bình phương nhỏ nhất tổng
quát có dạng

n

i=1
X

i
V
−1
i
X
i


β =
n

i=1
X

i
V
−1
i
y
i
.
Nghiệm của những phương trình này là những ước lượ ng bình phươ ng nhỏ nhất
tổng quát hay trong trường hợp này, chúng ta gọi là những ướ c lượng thành
phần sai lệch của β, kí hiệu là b
EC
. Ước lượng này được biểu diễn dưới dạn g
b
EC
=

n

i=1
X

i


I
i

ξ
i
T
i
J
i

X
i

−1
n

i=1
X

i

I
i

ξ
i
T
i
J
i


y
i
, (2.1.4)
trong đó đại lượng ξ
i
=
T
i
σ
2
α
T
i
σ
2
α
+ σ
2
là hàm của các thành phần phương sai σ
2
α
và σ
2
. Khi đó, phương sai của các ước lượng thành phần sai lệch được xác định
như sau
V arb
EC
= σ
2


n

i=1
X

i

I
i

ξ
i
T
i
J
i

X
i

−1
.
Để giải thích cho b
EC
, chúng ta đ ưa ra một dạng thay thế, tương đương với
ước lượng hiệu quả cố định đã chỉ ra ở Chương 2. Từ phươ ng trình (1.3.4), ta

b =


n

i=1
X

i

I
i
− T
−1
i
J
i

X
i

−1

I
i
− T
−1
i
J
i

y
i

.
Như vậy, chúng ta thấy rằng hiệu quả ngẫu nhiên b
EC
và hiệu quả cố định b
xấp xỉ bằng nhau khi σ
2
α
lớn hơn một cách đá ng kể so với σ
2
.
2.1.3 Kiểm định tính không thuần nhất
Việc ki ểm định tính không thuần nhất tương đương với việc kiểm định giả
thuyết H
0
: σ
2
α
= 0. Mặc dù đây là một vấn đề khó cho trường hợp tổng quát,

×