Tải bản đầy đủ (.pdf) (77 trang)

(Luận văn thạc sĩ) thử nghiệm phân tích dữ liệu kinh tế xã hội việt nam bằng thống kê toán học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (934.52 KB, 77 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ĐÀO THỊ AN

THỬ NGHIỆM PHÂN TÍCH DỮ LIỆU
KINH TẾ - XÃ HỘI VIỆT NAM
BẰNG THỐNG KÊ TOÁN HỌC

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2013


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ĐÀO THỊ AN

THỬ NGHIỆM PHÂN TÍCH DỮ LIỆU
KINH TẾ - XÃ HỘI VIỆT NAM
BẰNG THỐNG KÊ TOÁN HỌC
Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học
Mã số: 60 46 15

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS.HỒ ĐĂNG PHÚC

Hà Nội - 2013




Danh mục các kí hiệu

Danh mục các kí hiệu

yit

đáp ứng của đối tượng thứ i, tại thời điểm t.

xit

vectơ các biến giải thích cho đối tượng thứ i, tại thời điểm t.

αi

tham số đặc trưng cho đối tượng thứ i.

βi

tham số tổng thể.

εit

thành phần sai số.

ii


Mục lục

Danh mục các kí hiệu . . . . . . . . . . . . . . . . . . . . . . . . .

ii

LỜI NÓI ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

vi

1 Kiến thức chuẩn bị

1

1.1 Dữ liệu dọc và dữ liệu khối là gì? . . . . . . . . . . . . . . . . .

1

1.1.1

Mơ hình thống kê . . . . . . . . . . . . . . . . . . . . . .

1

1.1.2

Định nghĩa dữ liệu dọc và dữ liệu khối . . . . . . . . . .

2

1.2 Những ưu điểm và hạn chế của dữ liệu dọc


. . . . . . . . . . .

2

1.2.1

Mối quan hệ động lực học và phân tích chuỗi thời gian .

3

1.2.2

Dữ liệu dọc với chuỗi thời gian đo lặp . . . . . . . . . . .

3

1.2.3

Dữ liệu dọc với mặt cắt ngang lặp . . . . . . . . . . . . .

4

1.2.4

Tính khơng thuần nhất . . . . . . . . . . . . . . . . . . .

4

1.2.5


Một vài khái niệm khác . . . . . . . . . . . . . . . . . .

5

1.3 Mơ hình hiệu quả cố định . . . . . . . . . . . . . . . . . . . . .

6

1.3.1

Mơ hình hiệu quả cố định cơ bản . . . . . . . . . . . . .

6

1.3.2

Ý nghĩa tham số . . . . . . . . . . . . . . . . . . . . . .

9

1.3.3

Ước lượng bình phương nhỏ nhất (OLS) . . . . . . . . .

10

1.3.4

Mơ hình mở rộng . . . . . . . . . . . . . . . . . . . . . .


13

2 Mơ hình hiệu quả ngẫu nhiên

15

2.1 Mơ hình các thành phần sai lệch

. . . . . . . . . . . . . . . . .

15

2.1.1

Mơ hình cơ bản và giả thiết . . . . . . . . . . . . . . . .

16

2.1.2

Ước lượng bình phương nhỏ nhất tổng quát . . . . . . .

18

iii


iv

Danh mục các kí hiệu


2.1.3

Kiểm định tính khơng thuần nhất . . . . . . . . . . . . .

18

2.2 Mơ hình hiệu quả hỗn hợp . . . . . . . . . . . . . . . . . . . . .

19

2.2.1

Mô hình hiệu quả hỗn hợp tuyến tính . . . . . . . . . . .

19

2.2.2

Mơ hình tuyến tính hỗn hợp . . . . . . . . . . . . . . . .

21

2.3 Các kết luận về hệ số hồi quy . . . . . . . . . . . . . . . . . . .

22

2.3.1

Ước lượng bình phương nhỏ nhất tổng quát (GLS) . . .


22

2.3.2

Ước lượng hợp lý cực đại . . . . . . . . . . . . . . . . . .

23

2.3.3

Kiểm định giả thuyết . . . . . . . . . . . . . . . . . . . .

24

2.4 Ước lượng các thành phần phương sai . . . . . . . . . . . . . . .

25

2.4.1

Ước lượng hợp lý cực đại (MLE)

. . . . . . . . . . . . .

25

2.4.2

Ước lượng hợp lý cực đại giới hạn (REML) . . . . . . . .


26

2.5 Dự đoán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

2.5.1

Dự đốn khơng chệch tuyến tính tốt nhất (BLUP) . . . .

27

2.5.2

Dự đốn mơ hình hỗn hợp . . . . . . . . . . . . . . . . .

30

3 Mơ hình nhiều mức

32

3.1 Mơ hình nhiều mức cắt ngang . . . . . . . . . . . . . . . . . . .

32

3.1.1

Mơ hình hai mức . . . . . . . . . . . . . . . . . . . . . .


33

3.1.2

Mô hình hai mức mở rộng . . . . . . . . . . . . . . . . .

35

3.1.3

Mơ hình nhiều mức . . . . . . . . . . . . . . . . . . . . .

36

3.2 Các mơ hình nhiều mức dọc . . . . . . . . . . . . . . . . . . . .

37

3.2.1

Mơ hình hai mức . . . . . . . . . . . . . . . . . . . . . .

38

3.2.2

Mơ hình nhiều mức

. . . . . . . . . . . . . . . . . . . .


38

3.3 Dự đoán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

3.3.1

Mơ hình hai mức . . . . . . . . . . . . . . . . . . . . . .

39

3.3.2

Mơ hình nhiều mức . . . . . . . . . . . . . . . . . . . . .

40

4 Thử nghiệm phân tích dữ liệu kinh tế - xã hội Việt Nam bằng
mơ hình nhiều mức

43

4.1 Sơ lược về nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . .

43


4.2 Các biến số trong mơ hình . . . . . . . . . . . . . . . . . . . . .


44

4.3 Mã hóa dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

4.3.1

Các biến phụ thuộc . . . . . . . . . . . . . . . . . . . . .

45

4.3.2

Các biến độc lập (biến giải thích) . . . . . . . . . . . . .

46

4.4 Kết quả phân tích . . . . . . . . . . . . . . . . . . . . . . . . . .

49

4.4.1

Kết quả phân tích tổng hợp . . . . . . . . . . . . . . . .

49

4.4.2


Kết quả phân tích bằng mơ hình nhiều mức . . . . . . .

58

4.5 Kết luận chung . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . .

70


vi

Lời nói đầu

LỜI NĨI ĐẦU
Thống kê là một bộ phận quan trọng của chuyên ngành Xác suất Thống
kê. Phân tích thống kê là nêu ra một cách tổng hợp bản chất cụ thể của cá
hiện tượng và quá trình kinh tế xã hội trong điều kiện lịch sử nhất định qua
biểu hiện bằng số lượng. Nói cụ thể phân tích thống kê là xác định mức độ nêu
lên sự biến động biểu hiện tính chất và trình độ chặt chẽ của mối liên hệ hiện
tượng. Phân tích thống kê phải lấy con số thống kê làm tư liệu, lấy các phương
pháp thống kê làm cơng cụ nghiên cứu.

Phân tích thống kê có ý nghĩa quan trọng trong q trình quản lý kinh tế.
Nhờ có lý luận và phương pháp phong phú mà thống kê có thể vạch ra nguyên
nhân của việc hoàn thành kế hoạch và các quyết định quản lý ; phân tích ảnh
hưởng của các nhân tố đến việc sử dụng nguồn lực, xác định các mối liên hệ,
các tính quy luật chung của hệ thống.
Trong phạm vi bài luận văn này, học viên sử dụng dữ liệu do Tổng cục
Thống kê biên soạn thuộc các ngành Nông - Lâm - Ngư nghiệp, Công nghiệp,
Giao thông Vận tải & Bưu chính Viễn thơng, Thương mại & Dịch vụ, Dân số
để tập trung phân tích thử nghiệm sự phụ thuộc của hai yếu tố Bình quân mức
bán lẻ hàng hóa & doanh thu dịch vụ tiêu dùng và Bình quân số thuê bao điện
thoại được sử dụng vào các yếu tố kinh tế khác. Luận văn được chia thành bốn
chương:
Chương 1: Đưa ra các khái niệm về dữ liệu dọc, dữ liệu khối, tính khơng đồng
nhất giữa các đối tượng quan sát, mơ hình hiệu quả cố định và các phương
pháp ước lượng các tham số.
Chương 2: Giới thiệu mơ hình hiệu quả hỗn hợp cùng các kết quả ước lượng
các tham số cố định, ngẫu nhiên, dự đoán các giá trị quan sát tương lai.
Chương 3: Giới thiệu mơ hình nhiều mức.
Chương 4: Áp dụng mơ hình nhiều mức để phân tích thử nghiệm một số yếu
tố kinh tế của nước ta.


Chương 1
Kiến thức chuẩn bị
1.1

Dữ liệu dọc và dữ liệu khối là gì?

1.1.1


Mơ hình thống kê

Thống kê là một chun ngành làm việc với các loại dữ liệu, các công việc thu
thập mẫu, tóm lược và phân tích dữ liệu. Khi phân tích dữ liệu, chúng ta thu
thập thơng tin được định lượng, tức là thông tin này được chuyển về thang số.
Có nhiều phương pháp để phân tích dữ liệu bằng việc sử dụng phương pháp số
hay tóm lược đồ thị. Khi đó người ta có thể liên kết các phương pháp này với
một lý thuyết biểu diễn hay một mơ hình mà thơng qua đó đưa ra được các
kết luận về thế giới xung quanh.
Bước đầu tiên trong việc phân tích dữ liệu là chọn ra một đại lượng cơ bản
làm đơn vị cho việc thu thập mẫu. Đại lượng đó được gọi là đơn vị phân tích,
được biết như đơn vị nghiên cứu hay đơn vị quan sát. Trong khoa học xã hội,
đơn vị phân tích có thể là một người, một công ty hay một đơn vị hành chính
nào đó...
Phân tích hồi quy và phân tích chuỗi thời gian là hai phương pháp quan
trọng để phân tích dữ liệu. Phân tích hồi quy là một dạng đặc biệt của phân
tích nhiều chiều, trong đó các phép đo lường được thực hiện trên từng đối
tượng. Chúng ta xác định một phép đo được gọi là một đáp ứng hay biến phụ
thuộc mà chúng ta quan tâm việc đưa ra các phát biểu về phép đo này và việc
1


1.2. Những ưu điểm và hạn chế của dữ liệu dọc

2

kiểm sốt các biến khác.
Với phân tích hồi quy, người ta thường làm việc với dữ liệu cắt ngang. Ngược
lại, với phân tích chuỗi thời gian, chúng ta cần xác định một hay nhiều đối
tượng và quan sát chúng theo thời gian. Điều này cho phép chúng ta nghiên

cứu được các mối quan hệ theo thời gian, khía cạnh động lực học của bài toán.
1.1.2

Định nghĩa dữ liệu dọc và dữ liệu khối

Định nghĩa 1. Dữ liệu dọc là dữ liệu chứa các quan sát của cùng một loại
thông tin trên một nhóm các đối tượng tại nhiều thời điểm khác nhau.
Phân tích dữ liệu dọc là sự kết hợp của phân tích hồi quy và phân tích
chuỗi thời gian. Như với nhiều tập dữ liệu hồi quy, dữ liệu dọc bao gồm mặt
cắt ngang của các đối tượng. Không giống như dữ liệu hồi quy, với dữ liệu dọc
chúng ta quan sát các đối tượng theo thời gian. Không giống như dữ liệu chuỗi
thời gian, với dữ liệu dọc chúng ta quan sát nhiều đối tượng. Việc quan sát
một mặt cắt ngang rộng của các đối tượng theo thời gian cho phép chúng ta
nghiên cứu khía cạnh động lực học của bài toán.
Định nghĩa 2. Dữ liệu khối là dữ liệu chứa các quan sát của nhiều loại thông
tin, được theo dõi tại nhiều thời điểm khác nhau của nhóm các đối tượng.
Thuật ngữ "dữ liệu khối" xuất phát từ việc quan sát các cá thể riêng biệt.
Một khối là một nhóm các cá thể được quan sát lặp đi lặp lại theo thời gian.
Trước đây, đối với nhóm ngành kinh tế, phương pháp dữ liệu khối được sử dụng
trong ngành kinh tế lao động. Nhưng ngày nay, các ứng dụng của dữ liệu khối
trong kinh tế đã không bị hạn chế và được sử dụng rộng rãi hơn.

1.2

Những ưu điểm và hạn chế của dữ liệu dọc

• Ưu điểm: Có một vài thuận lợi của dữ liệu dọc so với dữ liệu cắt ngang và
dữ liệu chuỗi thời gian. Trong chương giới thiệu này, chúng ta thảo luận



3

1.2. Những ưu điểm và hạn chế của dữ liệu dọc

hai thuận lợi quan trọng, đó là khi làm việc với dữ liệu dọc thì có khả
năng nghiên cứu được các mối quan hệ động lực học và mơ hình hóa được
sự khác biệt hay tính khơng đồng nhất giữa các đối tượng.
• Hạn chế: dữ liệu dọc phức tạp hơn dữ liệu cắt ngang hay dữ liệu chuỗi
thời gian và hạn chế quan trọng nhất đó là khó khăn trong việc xây dựng
mơ hình mẫu để đơn giản vấn đề của các đối tượng.
1.2.1

Mối quan hệ động lực học và phân tích chuỗi thời gian

Khi nghiên cứu các mối quan hệ động lực học, phân tích chuỗi thời gian một
chiều được sử dụng rộng rãi. Tuy nhiên phương pháp này không đưa ra được
các mối quan hệ giữa các đối tượng khác nhau. Ngược lại, phân tích chuỗi thời
gian nhiều chiều đưa ra được các mối quan hệ giữa một số lượng có hạn các
đối tượng khác nhau. Nhưng dù một chiều hay nhiều chiều thì phân tích chuỗi
thời gian vẫn địi hỏi phải có một số quan sát để đưa ra các kết luận đáng tin
cậy. Ví dụ, đối với một dãy dữ liệu kinh tế hàng năm với 30 quan sát, việc sử
dụng phân tích chuỗi thời gian có nghĩa là chúng ta sử dụng cùng một mơ hình
để biểu diễn một hệ thống kinh tế với chu kì thời gian là 30 năm.
1.2.2

Dữ liệu dọc với chuỗi thời gian đo lặp

Với dữ liệu dọc, chúng ta sử dụng nhiều quan sát của một số đối tượng. Các
quan sát lặp đi lặp lại từ cùng một đối tượng thì sẽ tương quan. Một cách để
biểu diễn mối tương quan này là thơng qua mơ hình động lực học, có dạng như

sau:
yit = Eyit + εit ,

t = 1, 2, · · · , Ti ;

i = 1, 2, · · · , n,

trong đó εit biểu diễn độ lệch của đáp ứng so với trung bình của nó. Kí hiệu
E biểu diễn kì vọng của đáp ứng yit . Một cách trực giác, nếu có mơ hình động
học chung cho các đối tượng thì bằng việc quan sát mơ hình này trên nhiều
đối tượng, chúng ta hi vọng sẽ ước lượng được mơ hình với các quan sát chuỗi


4

1.2. Những ưu điểm và hạn chế của dữ liệu dọc

thời gian ngắn hơn.
Đối với nhiều tập dữ liệu, các đối tượng khơng có trung bình đồng nhất. Và kì
vọng này được biểu diễn bằng phép xấp xỉ bậc nhất của một tổ hợp tuyến tính
các biến giải thích sao cho
Eyit = α + x′it β,
ở đây, xit là một vectơ các biến giải thích, hay các biến độc lập.
1.2.3

Dữ liệu dọc với mặt cắt ngang lặp

Dữ liệu dọc được coi như dữ liệu cắt ngang lặp đi lặp lại, bỏ qua thông tin riêng
của cá thể được theo dõi theo thời gian. Có nhiều cuộc điều tra quan trọng với
dữ liệu được thu thập lặp lại mà các đối tượng điều tra không được theo dõi

theo thời gian. Các cuộc điều tra như vậy rất hữu dụng cho việc hiểu được sự
thay đổi tổng hợp của một biến theo thời gian. Tuy nhiên nếu quan tâm tới
việc nghiên cứu các đặc trưng kinh tế, nhân khẩu học hay các đặc trưng xã hội
của cá nhân về vấn đề ly hơn thì việc theo dõi các cá nhân theo thời gian sẽ
có nhiều thơng tin hơn việc sử dụng dữ liệu cắt ngang lặp lại.
1.2.4

Tính khơng thuần nhất

Bằng việc theo dõi các đối tượng theo thời gian, chúng ta có thể mơ hình hóa
được trạng thái của đối tượng. Trong nhiều tập dữ liệu, các đối tượng thường
không giống nhau, có nghĩa là khơng thuần nhất. Trong phân tích hồi quy cắt
ngang, chúng ta sử dụng các mơ hình, ví dụ như
yit = α + x′it β + εit ,
và gán tính khơng duy nhất của các đối tượng với số hạng nhiễu εit . Ngược lại,
với dữ liệu dọc, chúng ta có cơ hội để mơ hình hóa tính khơng thuần nhất này.
Mơ hình dữ liệu dọc cơ bản kết hợp chặt chẽ tính khơng thuần nhất giữa các
đối tượng có dạng
Eyit = αi + x′it β,

t = 1, 2, · · · , Ti ,

i = 1, 2, · · · , n.

(1.2.1)


1.2. Những ưu điểm và hạn chế của dữ liệu dọc

5


Trong dữ liệu cắt ngang khi Ti = 1, các tham số của mơ hình này khơng xác
định được. Tuy nhiên đối với dữ liệu dọc, chúng ta có đủ số quan sát để ước
lượng β và α1 , α2 , · · · , αn . Mặt khác, việc gán các tham số đặc trưng đối tượng
αi vào mô hình đã đưa ra một quy tắc quan trọng để kiểm sốt tính khơng
thuần nhất của các cá thể. Các mơ hình liên kết tính khơng đồng nhất như
phương trình trên, được gọi là mơ hình khơng thuần nhất; trường hợp ngược
lại được gọi là mơ hình thuần nhất.
Chúng ta cũng có thể giải thích tính khơng thuần nhất giữa các đối tượng
theo nghĩa: các quan sát trên cùng một đối tượng thì tương đồng với nhau hơn
các quan sát từ các đối tượng khác. Dựa trên giải thích này, tính khơng thuần
nhất có thể được mơ hình hóa bằng việc kiểm tra sự tương quan giữa các quan
sát lặp đi lặp lại trên một đối tượng. Có nghĩa là, đối với nhiều tập dữ liệu,
chúng ta đi tìm mối tương quan dương khi kiểm tra {yi1 , yy2 , · · · , yiTi }.
Có hai phương pháp để mơ hình hóa cho đại lượng biểu diễn tính khơng
thuần nhất giữa các đối tượng, αi . Ở chương 2, chúng ta sẽ đi khảo sát một
phương pháp, trong đó các αi là những tham số cố định, chưa biết và cần được
ước lượng. Chương 3 sẽ giới thiệu phương pháp thứ hai, trong đó các αi là
những biến ngẫu nhiên, được chọn từ một tổng thể nào đó chưa biết. Trong
trường hợp này, phương trình (1.2.1) có thể được biểu diễn như sau
E(yit |αi ) = αi + x′it β.
Phương trình này mơ tả mơ hình với các hiệu quả ngẫu nhiên, đặc trưng bởi
các tham số αi .
1.2.5

Một vài khái niệm khác

Các mơ hình dữ liệu dọc đơi khi khác với dữ liệu hồi quy và dữ liệu chuỗi thời
gian thông qua chỉ số kép của chúng. Chúng ta có thể phân biệt giữa các đáp
ứng bằng các đối tượng và thời gian. Định nghĩa yit là đáp ứng cho đối tượng

thứ i ở giai đoạn thời gian t. Một tập dữ liệu dọc bao gồm các quan sát của


6

1.3. Mơ hình hiệu quả cố định

đối tượng thứ i tại các giai đoạn thời gian t = 1, 2, · · · , Ti chu kì thời gian, với
i = 1, 2, 3, · · · , n. Như vậy, chúng ta quan sát được
đối tượng đầu tiên − {y11 , y12 , · · · , y1T1 },
đối tượng thứ hai − {y21 , y22 , · · · , y2T2 },
..
.
đối tượng thứ n − {yn1 , yn2 , · · · , ynTn }.
Với nhiều tập dữ liệu, người ta thường lấy số quan sát phụ thuộc vào từng đối
tượng, Ti kí hiệu số quan sát cho đối tượng thứ i. Trường hợp này được biết
như tập dữ liệu không cân bằng. Đối với các tập dữ liệu khác, mọi đối tượng
đều có số quan sát như nhau thì được biết như tập dữ liệu cân bằng.
Định nghĩa 3 (Tương quan chuỗi). Tương quan chuỗi là sự tương quan giữa
các quan sát được đo lặp đi lặp lại theo thời gian trên cùng một đối tượng.
Định nghĩa 4 (Tương quan cắt ngang). Tương quan cắt ngang là sự tương
quan giữa các đối tượng được quan sát theo khơng gian.

1.3

Mơ hình hiệu quả cố định

Phần này giới thiệu về việc phân tích dữ liệu dọc và dữ liệu khối bằng việc sử
dụng khung mơ hình tuyến tính tổng qt. Ở đây, mơ hình dữ liệu dọc được
coi như một bài toán hồi quy bằng việc sử dụng các tham số cố định để biểu

diễn tính khơng thuần nhất giữa các đối tượng, các đại lượng phi ngẫu nhiên
được biết như những hiệu quả cố định.
1.3.1

Mơ hình hiệu quả cố định cơ bản

Xét một mẫu ngẫu nhiên gồm n đối tượng, mỗi đối tượng là một đơn vị quan
sát, được phân biệt với nhau bởi chỉ số i, với i = 1, 2, · · · , n. Mỗi đối tượng có
Ti quan sát và chúng ta dùng chỉ số t để phân biệt các lần quan sát. Kí hiệu yit


7

1.3. Mơ hình hiệu quả cố định

là đáp ứng của đối tượng thứ i tại thời điểm quan sát t. Ứng với mỗi đáp ứng
yit là một tập K biến giải thích {xit,1 , xit,2 , · · · , xit,K }. Chúng ta kí hiệu tập các
biến giải thích như một vectơ cột với số chiều bằng K:


x
 it,1 


 xit,2 

xit = 
 ..  .
 . 



xit,n
Như vậy, thông tin về đối tượng thứ i bao gồm

{xi1,1 , · · · , xi1,K , yi1 } hay {x′i1 , yi1 }
..
.
{xiTi ,1 , · · · , xiTi ,K , yiTi } hay {x′iTi , yiTi }.
Các đáp ứng biến đổi theo từng đối tượng với chỉ số Ti . Đây là trường hợp mơ
hình khơng cân bằng. Chúng ta kí hiệu T = max{T1 , T2 , · · · , Tn } là số đáp ứng
lớn nhất cho một đối tượng và trường hợp các Ti = T với mọi i thì đây được
gọi là mơ hình cân bằng.
Mơ hình cơ bản

Để phân tích mối quan hệ giữa biến đáp ứng và các biến giải thích, ta sử
dụng hàm hồi quy
Eyit = α + β1 xit,1 + β2 xit,2 + · · · + βK xit,K .

(1.3.1)

Hàm hồi quy này tuyến tính đối với các tham số α, β1 , β2 , · · · , βK . Trong mơ
hình này, với giả thiết các biến giải thích là phi ngẫu nhiên thì hạn chế duy
nhất của phương trình (1.3.1) là làm cho chúng ta nhầm tưởng rằng phương
trình này cũng là tuyến tính đối với các biến.


1.3. Mơ hình hiệu quả cố định

8


Các giả thiết của mơ hình hồi quy tuyến tính quan sát được
F1. Eyit = α + β1 xit,1 + β2 xit,2 + · · · + βK xit,K .
F2. {xit,1 , · · · , xit,K } là các biến phi ngẫu nhiên.
F3. V aryit = σ 2 .
F4. {yit } là các biến ngẫu nhiên độc lập.
F5. {yit } có phân bố chuẩn.
Biểu diễn quan sát được dựa trên ý tưởng về kì vọng có điều kiện, trong
đó trung bình của đáp ứng lấy điều kiện trên tập các biến giải thích quan sát
được {xit,1 , xit,2 , · · · , xit,K }. Vì vậy, chúng ta coi {xit,1 , xit,2 , · · · , xit,K } là các
biến phi ngẫu nhiên. Giả thiết F5 khơng địi hỏi đối với tất cả các phương pháp
kết luận thống kê.
Ngược lại với biểu diễn quan sát được, công thức cổ điển của mơ hình hồi quy
tuyến tính dựa trên các thành phần sai số trong mơ hình hồi quy được định
nghĩa như sau:
εit = yit − (α + β1 xit,1 + β2 xit,2 + · · · + βK xit,K ).
Các giả thiết của mơ hình biểu diễn sai số
E1. yit = α + β1 xit,1 + β2 xit,2 + · · · + βK xit,K + εit . với Eεit = 0.
E2. {xit,1 , · · · , xit,K } là các biến phi ngẫu nhiên.
E3. V arεit = σ 2 .
E4. {εit } là các biến ngẫu nhiên độc lập.
Biểu diễn sai số được dựa trên lý thuyết về sai số Gauss. Các giả thiết E1
- E4 tương đương với các giả thiết F1 - F4. Trong giả thiết F1, các hệ số


9

1.3. Mơ hình hiệu quả cố định

β1 , β2 , · · · , βK được gán với K biến giải thích. Chúng ta biểu diễn K tham số
này như một vectơ cột với số chiều là K:

 
β
 1
 
 β2 

β=
 ..  .
 . 
 
βK

Với kí hiệu này, chúng ta có thể viết lại giả thiết F1 như sau
Eyit = α + x′it β,

(1.3.2)

Biểu diễn trong phương trình (1.3.2) là biểu diễn chéo vì nó khơng sử dụng
thông tin được đo lặp đi lặp lại theo thời gian trên một đối tượng. Và vì phương
trình này cũng không chứa các số hạng không đồng nhất nên được gọi là mơ
hình đồng nhất.
Và biểu diễn đầu tiên của chúng ta, sử dụng thông tin trên các phép đo lặp
đi lặp lại trên một đối tượng và chứa các số hạng chặn biến đổi theo từng đối
tượng, có dạng
Eyit = αi + x′it β.

(1.3.3)

Phương trình (1.3.3) và các giả thiết F2 - F4 kết hợp thành mơ hình các hiệu
quả cố định cơ bản.

1.3.2

Ý nghĩa tham số

• Các tham số {βi },

i = 1, 2, · · · , K, chung cho mỗi đối tượng và được gọi

là các tham số toàn cục hay các tham số tổng thể.
• Các tham số αi biến đổi theo từng đối tượng được gọi là các tham số đặc
trưng đối tượng hay các tham số cá thể. Các tham số đặc trưng đối tượng
này biểu diễn các đặc điểm khác nhau của các đối tượng và thường được
gọi là các tham số riêng.


10

1.3. Mơ hình hiệu quả cố định

Các tham số đặc trưng đối tượng αi biểu diễn tính khơng thuần nhất giữa các
đối tượng. Các ước lượng của các tham số này sử dụng thông tin trong các
phép đo lặp lại trên từng đối tượng. Ngược lại, các tham số này sẽ khơng định
lượng được trong các mơ hình hồi quy cắt ngang, khơng có các quan sát lặp đi
lặp lại theo thời gian. Có nghĩa là với Ti = 1 thì mơ hình
yit = αi + β1 xi1,1 + β2 xi1,2 + · · · + βK xi1,K + εi1
có (n+K) tham số nhiều hơn số quan sát (n) và như vậy ta không xác định
được tất cả các tham số. Số hạng nhiễu εit chứa thông tin về αi trong các mơ
hình hồi quy cắt ngang. Một thuận lợi quan trọng của các mơ hình dữ liệu dọc
so với các mơ hình hồi quy cắt ngang là khả năng tách các hiệu quả của {αi }
từ các số hạng nhiễu {εit }. Như vậy, bằng việc tách các hiệu quả đặc trưng đối

tượng này, các ước lượng của chúng ta sẽ chính xác hơn và sẽ thu được các kết
luận đáng tin cậy hơn.
1.3.3

Ước lượng bình phương nhỏ nhất (OLS)

Định lý 1.3.1 (Gauss - Markov). Với các giả thiết F1-F5, các ước lượng bình
phương nhỏ nhất là các ước lượng tuyến tính, khơng chệch và có phương sai nhỏ
nhất trong lớp các ước lượng tuyến tính khơng chệch.
Xét phương trình (1.3.3):
Eyit = αi + x′it β

i = 1, 2, · · · , n;

t = 1, 2 · · · , Ti .

Bây giờ chúng ta sẽ ước lượng các tham số β, αi và phương sai σ 2 và đây là các
ước lượng khơng chệch tuyến tính tốt nhất của β và αi . Gọi ai , b1 , b2 , · · · , bK
là các ước lượng của các tham số αi , β1 , β2 , · · · , βK . Định nghĩa hàm tổng bình
phương
n

Ti

(yit − (ai + x′it b))2 ,

SS(a, b) =
i=1 t=1



11

1.3. Mơ hình hiệu quả cố định

trong đó a = (a1 , a2 , · · · , an )′ và b = (b1 , b2 , · · · , bK )′ . Để cực tiểu hóa đại lượng
này, đầu tiên chúng ta cần tính đạo hàm riêng theo ai . Ta có

SS(a, b) = (−2)
∂ai

Ti

n

(yit − (ai + x′it b)).
i=1 t=1

Ước lượng bình phương nhỏ nhất của αi là nghiệm của phương trình

SS(a, b) = 0
∂ai
và có dạng ai (b) = y i − x′i b, trong đó x′i = (

Ti
t=1

xit /Ti ). Lúc này hàm tổng

bình phương sẽ bằng
Ti


n

(yit − y i − (xit − xi )′ b)2 .

SS(a(b), b) =
i=1 t=1

Để tìm ước lượng cho βi , ta lấy đạo hàm riêng theo mỗi thành phần của b. Với
thành phần thứ j, ta có

∂ bj

n

Ti

(xitj − xij )(yit − y i − (xit − xi )′b))

SS(a, b) = (−2)
i=1 t=1

Cho phương trình này bằng 0 với mỗi thành phần j, ta có phương trình chuẩn
tắc

n

Ti

Ti


n


(xit − xi )(xit − xi ) =

(xit − xi )(yit − y i ).
i=1 t=1

i=1 t=1

Phương trình chuẩn tắc này đã đưa ra cho ta các ước lượng OLS:
(i) Ước lượng OLS của β:
n

−1

Ti

(xit − xi )(xit − xi )

b=

Ti

n



(xit − xi )(yit − y i ) ,

i=1 t=1

i=1 t=1

trong đó b = (b1 , b2 , · · · , bK )′ và xi =
biến xi với Ti lần quan sát; y i =

1
Ti

1
Ti

Ti
t=1

Ti
t=1 yit

(1.3.4)

xit là giá trị trung bình của

là giá trị trung bình của yi .

(ii) Ước lượng OLS của αi :
ai = y i − x′i b.

(1.3.5)



12

1.3. Mơ hình hiệu quả cố định

Các ước lượng OLS của β có thể được biểu diễn như trung bình có trọng số
của các ước lượng đặc trưng đối tượng. Đặc biệt, giả sử rằng tất cả các tham
số đều đặc trưng đối tượng để hàm hồi quy có dạng Eyit = αi + x′it βi . Khi đó,
ước lượng OLS của β có dạng
−1

Ti

(xit − xi )(xit − xi )

bi =

Ti



(xit − xi )(yit − y i ) .
t=1

t=1

Bây giờ, chúng ta định nghĩa ma trận trọng số
Ti

(xit − xi )(xit − xi )′ ,


Wi =
t=1

Khi đó, bi có biểu diễn đơn giản hơn
Ti

bi =

Wi−1

(xit − xi )(yit − y i ).
t=1

Với trọng số này, chúng ta có thể biểu diễn ước lượng của β
−1

n

n

Wi bi .

Wi

b=

(1.3.6)

i=1


i=1

như một (ma trận) trung bình có trọng số của các ước lượng tham số đặc trưng
đối tượng.
Từ phương trình (1.3.4) và (1.3.5), lại xét một vectơ trọng số khác
−1

n

Wi

Wit =

(xit − xi ).

i=1

Với vectơ này, ta có một biểu diễn khác cho phương trình (1.3.4):
n

Ti

b=

Wit,1 yit .
i=1 t=1

Điều này cho ta thấy rằng các hệ số hồi quy của b là những tổ hợp tuyến tính
của các đáp ứng.

Các hệ số hồi quy được gán với các biến hằng (không đổi theo thời gian) sẽ


13

1.3. Mơ hình hiệu quả cố định

khơng ước lượng được nếu sử dụng phương trình (1.3.4). Giả sử biến thứ j
không đổi theo thời gian và xit,j = xi,j .Khi đó, các phần tử trên hàng và cột
thứ j của ma trận
Ti

n

(xit − xi )(xit − xi )′
i=1 t=1

đồng nhất bằng 0 và vì thế ma trận này khơng khả nghịch.
Nhận xét. Cả hai ước lượng ai và b đều có các tính chất của ước lượng bình
phương nhỏ nhất và cụ thể, đó là những ước lượng khơng chệch. Theo Định lý
Gauss - Markov, chúng có phương sai nhỏ nhất trong lớp các ước lượng không
chệch và phương sai của b sẽ là
−1

n

V arb = σ

2


Wi

.

i=1

1.3.4

Mơ hình mở rộng

Để mở rộng mơ hình cơ bản, chúng ta sẽ đưa ra một biểu diễn đẹp hơn bằng
việc sử dụng khái niệm ma trận. Dạng ma trận của phương trình (1.3.2):
Eyi = αi 1i + Xi β,

(1.3.7)

trong đó yi là vectơ N × 1 các đáp ứng của đối tượng thứ i, yi = (yi1 , · · · , yiTi )′
và Xi là ma trận các biến giải

x
 i1,1

 xi2,1
Xi = 
 ..
 .

xiTi ,1

thích mức Ti × K,

 


xi1,2 · · · xi1,K
x
  i1 
  ′ 
xi2,2 · · · xi2,K   xi2 
 

..
..
..  =  .. 
.
.
.   . 
 


xiTi ,2 · · · xiTi ,K
xiTi

hay có thể viết Xi = (xi1 , xi2 , · · · , xiTi )′ . Và 1i là vectơ Ti × 1 các số 1.
Ma trận hiệp phương sai

Với một tập các quan sát đầy đủ, chúng ta kí hiệu R là ma trận hiệp phương
sai của y, mức T × T
V ary = R(τ ) = R



14

1.3. Mơ hình hiệu quả cố định

trong đó Rrs = Cov(yr , ys ) là phân tử ở hàng thứ r và cột thứ s trong ma trận
R và τ là vectơ các tham số chưa biết, được gọi là các thành phần phương sai.
Với tập các quan sát bé hơn, xét đối tượng thứ i có Ti quan sát. Ở đây, ta định
nghĩa V ary = Ri (τ ), ma trận mức Ti × Ti . Giả thiết rằng ma trận Ri (τ ) xác
định dương và chỉ phụ thuộc vào đối tượng thứ i, thông qua số quan sát của
nó. Dưới đây là một số trường hợp đặc biệt của R:
(i) R = σ 2 I, trong đó I là ma trận đồng nhất mức T × T . Đây là trường hợp
khơng có sự tương quan chuỗi hay độc lập.
(ii) R = σ 2 ((1 − ρ)I + ρJ), trong đó J là ma trận mức T × T các số 1. Đây
là trường hợp được biết đến trong mơ hình tương quan đều.
(iii) Rrs = σ 2 ρ|r−s| . Đây là mơ hình tự hồi quy mức một, kí hiệu AR(1).
Để đưa ra biểu diễn phức tạp hơn bằng khái niệm ma trận, chúng ta định
nghĩa Zi = (zi1 , · · · , ziTi )′ là ma trận các biến giải thích mức Ti × q, trong đó
zit = (zit1 , zit2 , · · · , zitq )′ . Với kí hiệu này, như phương trình (1.3.7), dạng ma
trận của phương trình (1.3.2) là
Eyi = Zi αi + Xi β

(1.3.8)

Các đáp ứng giữa các đối tượng là độc lập. Các giả thiết này đã đặt ra mơ
hình dữ liệu dọc tuyến tính hiệu quả cố định. Dưới đây là các giả thiết của mơ
hình:
F1. Eyit = Zi αi + Xi β.
F2. {xit,1 , · · · , xit,K } và {zit1 , · · · , zitq } là các biến phi ngẫu nhiên.
F3. V aryi = Ri (τ ) = Ri .
F4. {yi } là các biến ngẫu nhiên độc lập.

F5. {yit } có phân bố chuẩn.


Chương 2
Mơ hình hiệu quả ngẫu nhiên
Ở chương 2, chúng ta đã làm việc với mơ hình hiệu quả cố định, tức là, các
tham số αi là cố định, phi ngẫu nhiên. Sang chương 3, tính khơng thuần nhất
giữa các đối tượng được xây dựng bằng việc sử dụng các đại lượng ngẫu nhiên
thay cho các tham số cố định, được biết như những hiệu quả ngẫu nhiên. Mở
đầu cho chương này, chúng ta sẽ làm việc với một trường hợp đặc biệt với hệ số
chặn, đơn, ngẫu nhiên, được gọi là mơ hình thành phần sai lệch - trường hợp
đặc biệt của mơ hình hiệu quả hỗn hợp tuyến tính. Tiếp theo, các ước lượng
của các hệ số hồi quy và các thành phần phương sai cũng như việc kiểm định
giả thuyết cho các hệ số hồi quy sẽ được trình bày trong chương này.
Định nghĩa 5. Mơ hình hiệu quả hỗn hợp là những mơ hình chứa cả hiệu quả
ngẫu nhiên cũng như hiệu quả cố định.

2.1

Mơ hình các thành phần sai lệch

Giả sử chúng ta quan tâm đến việc nghiên cứu đặc thù của các cá thể được
chọn ngẫu nhiên từ một tổng thể. Không giống chương 2, chương 3 sẽ thảo
luận các trường hợp biểu diễn αi như các biến ngẫu nhiên, thay cho các tham
số cố định, chưa biết. Bằng việc chứng tỏ αi được chọn ra từ một phân bố,
chúng ta sẽ có thể đưa ra những kết luận về các đối tượng trong tổng thể mà
khơng có mặt trong mẫu.
15



16

2.1. Mơ hình các thành phần sai lệch

2.1.1

Mơ hình cơ bản và giả thiết

Xét mơ hình thành phần sai lệch như sau
yit = αi + x′it β + εit .

(2.1.1)

Thành phần sai lệch ở đây cũng giống như biểu diễn sai số của mơ hình hiệu
quả cố định. Tuy nhiên, số hạng αi được giả thiết như một biễn ngẫu nhiên
và được gọi là một hiệu quả ngẫu nhiên. Vì phương trình (2.1.1) vừa chứa cả
hiệu quả ngẫu nhiên αi và hiệu quả cố định β nên phương trình thành phần
sai lệch là một trường hợp đặc biệt của mô hình tuyến tính hỗn hợp.
Trong mơ hình này, ta giả thiết các αi là độc lập và cùng phân bố, với trung
bình 0 và phương sai σα2 . Hơn nữa, chúng ta giả thiết rằng, {αi } độc lập với
các biến ngẫu nhiên sai số {εit } và xit là một vectơ các biến giải thích, β là
vectơ cố định, các tham số tổng thể chưa biết.
Các giả thiết của mơ hình thành phần sai lệch
R1. E(yit /αi ) = αi + x′it β.
R2. {xit,1 , · · · , xit,K } là các biến phi ngẫu nhiên.
R3. V ar(yit /αi ) = σ 2 .
R4. {yit } là các biến ngẫu nhiên độc lập trên điều kiện {α1 , α2 , · · · , αn }.
R5. {yit } có phân bố chuẩn trên điều kiên {α1 , α2 , · · · , αn }.
R6. Eαi = 0, V arαi = σα2 và {α1 , α2 , · · · , αn } độc lập.
R7. {αi } có phân bố chuẩn.

Các giả thiết R1 - R5 giống như trong mơ hình hiệu quả cố định. Sự khác biệt
ở đây chính là chúng ta đặt điều kiện trên các số hạng đặc trưng đối tượng αi .
Giả thiết R6 và R7 đưa ra các điều kiện cơ bản cho các số hạng đặc trưng đối
tượng.


17

2.1. Mơ hình các thành phần sai lệch

Tuy nhiên, các giả thiết R1 - R7 không đưa ra được biểu diễn quan sát được của
mơ hình vì chúng dựa trên các đại lượng không quan sát được {α1 , · · · , αn }.
Chúng ta sẽ tổng kết các hiệu quả của các giả thiết này trên các biến quan sát
được {xit,1 , · · · , xit,2 , yit }.
Biểu diễn quan sát được của mơ hình thành phần sai số
RO1. Eyit = x′it β.
RO2. {xit,1 , · · · , xit,K } là các biến phi ngẫu nhiên.
RO3. V aryit = σ 2 + σα2 . và Cov(yir , yis ) = σα2 với r khác s.
RO4. {yi } là các biến ngẫu nhiên độc lập.
RO5. {yi } có phân bố chuẩn.
Đối với các tình huống phức tạp hơn, chúng ta sẽ dùng khái niệm ma trận để
mơ tả các giả thiết này. Hàm hồi quy có thể được biểu diễn chặt chẽ hơn như
sau
E(yi /αi ) = αi 1i + Xi β,
và như vậy
(2.1.2)

Eyi = Xi β,

trong đó 1i là vectơ cột các số 1 với Ti hàng; Xi là ma trận mức Ti × K các

biến giải thích, Xi = (xi1 , xi2 , · · · , xiTi )′. Biểu diễn cho E(yi /αi ) là một biểu
diễn lại cho giả thiết R1 với khái niệm ma trận. Phương trình (2.1.2) thích hợp
với cơng thức tính kì vọng của kì vọng có điều kiện vì
Eyi = EE(yi /αi ) = Eαi 1i + Xi β = Xi β

do Eαi = 0.

Với giả thiết RO3, chúng ta có
V aryi := Vi = σα2 Ji + σ 2 Ii ,

(2.1.3)

trong đó Ji là ma trận các số 1 mức Ti × Ti , Ii là ma trận đơn vị mức Ti × Ti .


18

2.1. Mơ hình các thành phần sai lệch

2.1.2

Ước lượng bình phương nhỏ nhất tổng quát

Phương trình (2.1.2) và (2.1.3) đã chỉ ra trung bình và phương sai của các đáp
ứng và giả sử rằng các thành phần phương sai σα2 , σ 2 đã biết. Để ước lượng
các hệ số hồi quy, phần này sử dụng phương trình bình phương nhỏ nhất tổng
quát có dạng
n

n


Xi′ Vi−1 Xi

Xi′ Vi−1 yi .

β=
i=1

i=1

Nghiệm của những phương trình này là những ước lượng bình phương nhỏ nhất
tổng quát hay trong trường hợp này, chúng ta gọi là những ước lượng thành
phần sai lệch của β, kí hiệu là bEC . Ước lượng này được biểu diễn dưới dạng
n

ξi
Ii − Ji Xi
Ti

Xi′

bEC =
i=1

−1

n

Xi′ Ii −
i=1


ξi
Ji yi ,
Ti

(2.1.4)

Ti σα2
là hàm của các thành phần phương sai σα2
Ti σα2 + σ 2
và σ 2 . Khi đó, phương sai của các ước lượng thành phần sai lệch được xác định
trong đó đại lượng ξi =
như sau
n

V arbEC = σ

Xi′

2
i=1

ξi
Ii − Ji Xi
Ti

−1

.


Để giải thích cho bEC , chúng ta đưa ra một dạng thay thế, tương đương với
ước lượng hiệu quả cố định đã chỉ ra ở Chương 2. Từ phương trình (1.3.4), ta


−1

n

Xi′ Ii − Ti−1 Ji Xi

b=

Ii − Ti−1 Ji yi .

i=1

Như vậy, chúng ta thấy rằng hiệu quả ngẫu nhiên bEC và hiệu quả cố định b
xấp xỉ bằng nhau khi σα2 lớn hơn một cách đáng kể so với σ 2 .
2.1.3

Kiểm định tính khơng thuần nhất

Việc kiểm định tính khơng thuần nhất tương đương với việc kiểm định giả
thuyết H0 : σα2 = 0. Mặc dù đây là một vấn đề khó cho trường hợp tổng quát,


×