Tải bản đầy đủ (.docx) (92 trang)

Thử nghiệm phân tích dữ liệu kinh tế xã hội việt nam bằng thống kê toán học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1004.39 KB, 92 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ĐÀO THỊ AN

THỬ NGHIỆM PHÂN TÍCH DỮ LIỆU KINH
TẾ XÃ HỘI VIỆT NAM BẰNG THỐNG
KÊ TOÁN HỌC

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội 2013


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ĐÀO THỊ AN

THỬ NGHIỆM PHÂN TÍCH DỮ LIỆU KINH
TẾ XÃ HỘI VIỆT NAM BẰNG THỐNG
KÊ TOÁN HỌC
Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học
Mã số: 60 46 15

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS.HỒ ĐĂNG PHÚC

Hà Nội 2013




Danh mục các kí hiệu

Danh mục các kí hiệu

yIT

đáp ứng của đối tượng thứ i, tại thời điểm t.

xIT

vectơ các biến giải thích cho đối tượng thứ i, tại thời điểm t.

αI

tham số đặc trưng cho đối tượng thứ i.

βI

tham số tổng thể.

εIT

thành phần sai số.

ii


Mục lục

Danh mục các kí hiệu . . . . . . . . . . . . . . . . . . . . . . . . .
LỜINÓIĐẦU .............................
1 Kiến thức chuẩn bị
1.1

Dữ liệu dọc và dữ liệu khối là
1.1.1
1.1.2

1.2

Những ưu điểm và hạn chế củ
1.2.1
1.2.2
1.2.3
1.2.4
1.2.5

1.3

Mô hình hiệu quả cố định . . .
1.3.1
1.3.2
1.3.3
1.3.4

2 Mô hình hiệu quả ngẫu nhiên
2.1

Mô hình các thành phần sai lệ

2.1.1
2.1.2
iii


Danh mục các kí hiệu

2.1.3
2.2

Mô hình hiệu quả hỗn hợp . .
2.2.1
2.2.2

2.3

Các kết luận về hệ số hồi quy
2.3.1
2.3.2
2.3.3

2.4

Ước lượng các thành phần ph
2.4.1
2.4.2

2.5

Dự đoán . . . . . . . . . . . . . . . . .

2.5.1
2.5.2

3 Mô hình nhiều mức
3.1

Mô hình nhiều mức cắt ngang
3.1.1
3.1.2
3.1.3

3.2

Các mô hình nhiều mức dọc
3.2.1
3.2.2

3.3

Dự đoán . . . . . . . . . . . . . . . . .
3.3.1
3.3.2

4 Thử nghiệm phân tích dữ liệu kinh tế xã hội Việt Nam bằng
mô hình nhiều mức
4.1

Sơ lược về nguồn dữ liệu . . .



4.2

Các biến số trong mô hình . . . . . . . . . . . . . . . . . . .

4.3

Mã hóa dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1
4.3.2

4.4

Kết quả phân tích . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1
4.4.2

4.5

Kết luận chung . . . . . . . . . . . . . . . . . . . . . . . . . . .

KẾTLUẬN...............................
TÀILIỆUTHAMKHẢO......................


Lời nói đầu

vi

LỜI NÓI ĐẦU
Thống kê là một bộ phận quan trọng của chuyên ngành Xác suất Thống

kê. Phân tích thống kê là nêu ra một cách tổng hợp bản chất cụ thể của cá
hiện tượng và quá trình kinh tế xã hội trong điều kiện lịch sử nhất định qua
biểu hiện bằng số lượng. Nói cụ thể phân tích thống kê là xác định mức độ
nêu lên sự biến động biểu hiện tính chất và trình độ chặt chẽ của mối liên
hệ hiện tượng. Phân tích thống kê phải lấy con số thống kê làm tư liệu, lấy
các phương pháp thống kê làm công cụ nghiên cứu.
Phân tích thống kê có ý nghĩa quan trọng trong quá trình quản lý kinh tế.
Nhờ có lý luận và phương pháp phong phú mà thống kê có thể vạch ra
nguyên nhân của việc hoàn thành kế hoạch và các quyết định quản lý ;
phân tích ảnh hưởng của các nhân tố đến việc sử dụng nguồn lực, xác định
các mối liên hệ, các tính quy luật chung của hệ thống.
Trong phạm vi bài luận văn này, học viên sử dụng dữ liệu do Tổng cục
Thống kê biên soạn thuộc các ngành Nông Lâm Ngư nghiệp, Công nghiệp,
Giao thông Vận tải & Bưu chính Viễn thông, Thương mại & Dịch vụ, Dân số
để tập trung phân tích thử nghiệm sự phụ thuộc của hai yếu tố Bình quân
mức bán lẻ hàng hóa & doanh thu dịch vụ tiêu dùng và Bình quân số thuê
bao điện thoại được sử dụng vào các yếu tố kinh tế khác. Luận văn được
chia thành bốn chương:
Chương 1: Đưa ra các khái niệm về dữ liệu dọc, dữ liệu khối, tính không
đồng nhất giữa các đối tượng quan sát, mô hình hiệu quả cố định và các
phương pháp ước lượng các tham số.
Chương 2: Giới thiệu mô hình hiệu quả hỗn hợp cùng các kết quả ước
lượng các tham số cố định, ngẫu nhiên, dự đoán các giá trị quan sát tương
lai. Chương 3: Giới thiệu mô hình nhiều mức.
Chương 4: Áp dụng mô hình nhiều mức để phân tích thử nghiệm một số
yếu tố kinh tế của nước ta.


Chương 1
Kiến thức chuẩn bị

1.1

Dữ liệu dọc và dữ liệu khối là gì?

1.1.1

Mô hình thống kê

Thống kê là một chuyên ngành làm việc với các loại dữ liệu, các công việc
thu thập mẫu, tóm lược và phân tích dữ liệu. Khi phân tích dữ liệu, chúng ta
thu thập thông tin được định lượng, tức là thông tin này được chuyển về
thang số. Có nhiều phương pháp để phân tích dữ liệu bằng việc sử dụng
phương pháp số hay tóm lược đồ thị. Khi đó người ta có thể liên kết các
phương pháp này với một lý thuyết biểu diễn hay một mô hình mà thông
qua đó đưa ra được các kết luận về thế giới xung quanh.
Bước đầu tiên trong việc phân tích dữ liệu là chọn ra một đại lượng cơ
bản làm đơn vị cho việc thu thập mẫu. Đại lượng đó được gọi là đơn vị
phân tích, được biết như đơn vị nghiên cứu hay đơn vị quan sát. Trong
khoa học xã hội, đơn vị phân tích có thể là một người, một công ty hay một
đơn vị hành chính nào đó...
Phân tích hồi quy và phân tích chuỗi thời gian là hai phương pháp quan
trọng để phân tích dữ liệu. Phân tích hồi quy là một dạng đặc biệt của phân
tích nhiều chiều, trong đó các phép đo lường được thực hiện trên từng đối
tượng. Chúng ta xác định một phép đo được gọi là một đáp ứng hay biến phụ
thuộc mà chúng ta quan tâm việc đưa ra các phát biểu về phép đo này và việc
1


1.2. Những ưu điểm và hạn chế của dữ liệu dọc


kiểm soát các biến khác.
Với phân tích hồi quy, người ta thường làm việc với dữ liệu cắt ngang. Ngược
lại, với phân tích chuỗi thời gian, chúng ta cần xác định một hay nhiều đối tượng
và quan sát chúng theo thời gian. Điều này cho phép chúng ta nghiên cứu được
các mối quan hệ theo thời gian, khía cạnh động lực học của bài toán.

1.1.2

Định nghĩa dữ liệu dọc và dữ liệu khối

Định nghĩa 1. Dữ liệu dọc là dữ liệu chứa các quan sát của cùng một loại
thông tin trên một nhóm các đối tượng tại nhiều thời điểm khác nhau.
Phân tích dữ liệu dọc là sự kết hợp của phân tích hồi quy và phân tích
chuỗi thời gian. Như với nhiều tập dữ liệu hồi quy, dữ liệu dọc bao gồm mặt
cắt ngang của các đối tượng. Không giống như dữ liệu hồi quy, với dữ liệu
dọc chúng ta quan sát các đối tượng theo thời gian. Không giống như dữ
liệu chuỗi thời gian, với dữ liệu dọc chúng ta quan sát nhiều đối tượng. Việc
quan sát một mặt cắt ngang rộng của các đối tượng theo thời gian cho phép
chúng ta nghiên cứu khía cạnh động lực học của bài toán.
Định nghĩa 2. Dữ liệu khối là dữ liệu chứa các quan sát của nhiều loại thông
tin, được theo dõi tại nhiều thời điểm khác nhau của nhóm các đối tượng.
Thuật ngữ "dữ liệu khối" xuất phát từ việc quan sát các cá thể riêng biệt.
Một khối là một nhóm các cá thể được quan sát lặp đi lặp lại theo thời gian.
Trước đây, đối với nhóm ngành kinh tế, phương pháp dữ liệu khối được sử
dụng trong ngành kinh tế lao động. Nhưng ngày nay, các ứng dụng của dữ
liệu khối trong kinh tế đã không bị hạn chế và được sử dụng rộng rãi hơn.

1.2 Những ưu điểm và hạn chế của dữ liệu dọc
• Ưu điểm: Có một vài thuận lợi của dữ liệu dọc so với dữ liệu cắt ngang
và dữ liệu chuỗi thời gian. Trong chương giới thiệu này, chúng ta thảo

luận


1.2. Những ưu điểm và hạn chế của dữ liệu dọc

hai thuận lợi quan trọng, đó là khi làm việc với dữ liệu dọc thì có khả
năng nghiên cứu được các mối quan hệ động lực học và mô hình hóa
được sự khác biệt hay tính không đồng nhất giữa các đối tượng.
• Hạn chế: dữ liệu dọc phức tạp hơn dữ liệu cắt ngang hay dữ liệu
chuỗi thời gian và hạn chế quan trọng nhất đó là khó khăn trong việc
xây dựng mô hình mẫu để đơn giản vấn đề của các đối tượng.
1.2.1

Mối quan hệ động lực học và phân tích chuỗi thời gian

Khi nghiên cứu các mối quan hệ động lực học, phân tích chuỗi thời gian một
chiều được sử dụng rộng rãi. Tuy nhiên phương pháp này không đưa ra được
các mối quan hệ giữa các đối tượng khác nhau. Ngược lại, phân tích chuỗi thời
gian nhiều chiều đưa ra được các mối quan hệ giữa một số lượng có hạn các
đối tượng khác nhau. Nhưng dù một chiều hay nhiều chiều thì phân tích chuỗi
thời gian vẫn đòi hỏi phải có một số quan sát để đưa ra các kết luận đáng tin
cậy. Ví dụ, đối với một dãy dữ liệu kinh tế hàng năm với 30 quan sát, việc sử
dụng phân tích chuỗi thời gian có nghĩa là chúng ta sử dụng cùng một mô hình
để biểu diễn một hệ thống kinh tế với chu kì thời gian là 30 năm.

1.2.2

Dữ liệu dọc với chuỗi thời gian đo lặp

Với dữ liệu dọc, chúng ta sử dụng nhiều quan sát của một số đối tượng.

Các quan sát lặp đi lặp lại từ cùng một đối tượng thì sẽ tương quan. Một
cách để biểu diễn mối tương quan này là thông qua mô hình động lực học,
có dạng như sau:
yit = Eyit + εit,

t = 1, 2,

, Ti;

i = 1, 2,

, n,

trong đó εit biểu diễn độ lệch của đáp ứng so với trung bình của nó. Kí hiệu E
biểu diễn kì vọng của đáp ứng yit. Một cách trực giác, nếu có mô hình động
học chung cho các đối tượng thì bằng việc quan sát mô hình này trên nhiều đối
tượng, chúng ta hi vọng sẽ ước lượng được mô hình với các quan sát chuỗi


1.2. Những ưu điểm và hạn chế của dữ liệu dọc

thời gian ngắn hơn.
Đối với nhiều tập dữ liệu, các đối tượng không có trung bình đồng nhất. Và
kì vọng này được biểu diễn bằng phép xấp xỉ bậc nhất của một tổ hợp tuyến
tính các biến giải thích sao cho


Eyit = α + x itβ,
ở đây, xit là một vectơ các biến giải thích, hay các biến độc lập.
1.2.3


Dữ liệu dọc với mặt cắt ngang lặp

Dữ liệu dọc được coi như dữ liệu cắt ngang lặp đi lặp lại, bỏ qua thông tin riêng
của cá thể được theo dõi theo thời gian. Có nhiều cuộc điều tra quan trọng với
dữ liệu được thu thập lặp lại mà các đối tượng điều tra không được theo dõi
theo thời gian. Các cuộc điều tra như vậy rất hữu dụng cho việc hiểu được sự
thay đổi tổng hợp của một biến theo thời gian. Tuy nhiên nếu quan tâm tới việc
nghiên cứu các đặc trưng kinh tế, nhân khẩu học hay các đặc trưng xã hội của
cá nhân về vấn đề ly hôn thì việc theo dõi các cá nhân theo thời gian sẽ có
nhiều thông tin hơn việc sử dụng dữ liệu cắt ngang lặp lại.

1.2.4

Tính không thuần nhất

Bằng việc theo dõi các đối tượng theo thời gian, chúng ta có thể mô hình
hóa được trạng thái của đối tượng. Trong nhiều tập dữ liệu, các đối tượng
thường không giống nhau, có nghĩa là không thuần nhất. Trong phân tích
hồi quy cắt ngang, chúng ta sử dụng các mô hình, ví dụ như


yit = α + x itβ + εit,
và gán tính không duy nhất của các đối tượng với số hạng nhiễu ε it. Ngược
lại, với dữ liệu dọc, chúng ta có cơ hội để mô hình hóa tính không thuần
nhất này. Mô hình dữ liệu dọc cơ bản kết hợp chặt chẽ tính không thuần
nhất giữa các đối tượng có dạng


Eyit = αi + xit β, t = 1, 2, , Ti, i = 1, 2, , n.



1.2. Những ưu điểm và hạn chế của dữ liệu dọc

Trong dữ liệu cắt ngang khi Ti = 1, các tham số của mô hình này không xác
định được. Tuy nhiên đối với dữ liệu dọc, chúng ta có đủ số quan sát để
ước lượng β và α1, α2, , αn. Mặt khác, việc gán các tham số đặc trưng đối
tượng αi vào mô hình đã đưa ra một quy tắc quan trọng để kiểm soát tính
không thuần nhất của các cá thể. Các mô hình liên kết tính không đồng nhất
như phương trình trên, được gọi là mô hình không thuần nhất; trường hợp
ngược lại được gọi là mô hình thuần nhất.
Chúng ta cũng có thể giải thích tính không thuần nhất giữa các đối tượng
theo nghĩa: các quan sát trên cùng một đối tượng thì tương đồng với nhau
hơn các quan sát từ các đối tượng khác. Dựa trên giải thích này, tính không
thuần nhất có thể được mô hình hóa bằng việc kiểm tra sự tương quan giữa
các quan sát lặp đi lặp lại trên một đối tượng. Có nghĩa là, đối với nhiều tập
dữ liệu, chúng ta đi tìm mối tương quan dương khi kiểm tra {yi1, yy2, , yiTI }.
Có hai phương pháp để mô hình hóa cho đại lượng biểu diễn tính không
thuần nhất giữa các đối tượng, αi. Ở chương 2, chúng ta sẽ đi khảo sát một
phương pháp, trong đó các α i là những tham số cố định, chưa biết và cần
được ước lượng. Chương 3 sẽ giới thiệu phương pháp thứ hai, trong đó các α i
là những biến ngẫu nhiên, được chọn từ một tổng thể nào đó chưa biết. Trong
trường hợp này, phương trình (1.2.1) có thể được biểu diễn như sau


E(yit|αi) = αi + x itβ.
Phương trình này mô tả mô hình với các hiệu quả ngẫu nhiên, đặc trưng
bởi các tham số αi.
1.2.5


Một vài khái niệm khác

Các mô hình dữ liệu dọc đôi khi khác với dữ liệu hồi quy và dữ liệu chuỗi thời
gian thông qua chỉ số kép của chúng. Chúng ta có thể phân biệt giữa các đáp
ứng bằng các đối tượng và thời gian. Định nghĩa y it là đáp ứng cho đối tượng
thứ i ở giai đoạn thời gian t. Một tập dữ liệu dọc bao gồm các quan sát của


1.3. Mô hình hiệu quả cố định

đối tượng thứ i tại các giai đoạn thời gian t = 1, 2,
i

= 1, 2, 3, , n. Như vậy, chúng ta quan sát được

đối tượng đầu tiên − {y11, y12,
đối tượng thứ hai − {y21, y22,
.
đối tượng thứ n − {yn1, yn2,
Với nhiều tập dữ liệu, người ta thường lấy số quan sát phụ thuộc vào từng
đối tượng, Ti kí hiệu số quan sát cho đối tượng thứ i. Trường hợp này được
biết như tập dữ liệu không cân bằng. Đối với các tập dữ liệu khác, mọi đối
tượng đều có số quan sát như nhau thì được biết như tập dữ liệu cân bằng.
Định nghĩa 3 (Tương quan chuỗi). Tương quan chuỗi là sự tương quan giữa
các quan sát được đo lặp đi lặp lại theo thời gian trên cùng một đối tượng.

Định nghĩa 4 (Tương quan cắt ngang). Tương quan cắt ngang là sự tương
quan giữa các đối tượng được quan sát theo không gian.

1.3


Mô hình hiệu quả cố định

Phần này giới thiệu về việc phân tích dữ liệu dọc và dữ liệu khối bằng việc
sử dụng khung mô hình tuyến tính tổng quát. Ở đây, mô hình dữ liệu dọc
được coi như một bài toán hồi quy bằng việc sử dụng các tham số cố định
để biểu diễn tính không thuần nhất giữa các đối tượng, các đại lượng phi
ngẫu nhiên được biết như những hiệu quả cố định.
1.3.1

Mô hình hiệu quả cố định cơ bản

Xét một mẫu ngẫu nhiên gồm n đối tượng, mỗi đối tượng là một đơn vị quan
sát, được phân biệt với nhau bởi chỉ số i, với i = 1, 2, , n. Mỗi đối tượng có T i
quan sát và chúng ta dùng chỉ số t để phân biệt các lần quan sát. Kí hiệu y it


1.3. Mô hình hiệu quả cố định

là đáp ứng của đối tượng thứ i tại thời điểm quan sát t. Ứng với mỗi đáp
ứng yit là một tập K biến giải thích {x it,1, xit,2, , xit,K }. Chúng ta kí hiệu tập
các biến giải thích như một vectơ cột với số chiều bằng K:


xit,1
xit,2

xit =

.


.

xit,n
Như vậy, thông tin về đối tượng thứ i bao gồm

{x ,
i1,1

{xiTI,1,
Các đáp ứng biến đổi theo từng đối tượng với chỉ số T i. Đây là trường hợp
mô hình không cân bằng. Chúng ta kí hiệu T =

MAX{T1,

T2, , Tn} là số đáp

ứng lớn nhất cho một đối tượng và trường hợp các T i = T với mọi i thì đây
được gọi là mô hình cân bằng.
Mô hình cơ bản

Để phân tích mối quan hệ giữa biến đáp ứng và các biến giải thích, ta sử
dụng hàm hồi quy
Eyit = α + β1xit,1 + β2xit,2 +

+ βK xit,K .

Hàm hồi quy này tuyến tính đối với các tham số α, β1, β2,

(1.3.1)

, βK . Trong mô

hình này, với giả thiết các biến giải thích là phi ngẫu nhiên thì hạn chế duy
nhất của phương trình (1.3.1) là làm cho chúng ta nhầm tưởng rằng
phương trình này cũng là tuyến tính đối với các biến.


1.3. Mô hình hiệu quả cố định

Các giả thiết của mô hình hồi quy tuyến tính quan sát được
F1. Eyit = α + β1xit,1 + β2xit,2 +
F2. {xit,1,

, xit,K } là các biến phi ngẫu nhiên.
2

F3. V aryit = σ .
F4. {yit} là các biến ngẫu nhiên độc lập.
F5. {yit} có phân bố chuẩn.
Biểu diễn quan sát được dựa trên ý tưởng về kì vọng có điều kiện, trong
đó trung bình của đáp ứng lấy điều kiện trên tập các biến giải thích quan sát
được {xit,1, xit,2, , xit,K }. Vì vậy, chúng ta coi {xit,1, xit,2, , xit,K } là các biến phi
ngẫu nhiên. Giả thiết F5 không đòi hỏi đối với tất cả các phương pháp kết
luận thống kê.
Ngược lại với biểu diễn quan sát được, công thức cổ điển của mô hình hồi
quy tuyến tính dựa trên các thành phần sai số trong mô hình hồi quy được
định nghĩa như sau:
εit = yit − (α + β1xit,1 + β2xit,2 +

+ βK xit,K ).


Các giả thiết của mô hình biểu diễn sai số
E1. yit = α + β1xit,1 + β2xit,2 +
E2. {xit,1,

+ βK xit,K + εit. với Eεit = 0.

, xit,K } là các biến phi ngẫu nhiên.
2

E3. V arεit = σ .
E4. {εit} là các biến ngẫu nhiên độc lập.
Biểu diễn sai số được dựa trên lý thuyết về sai số Gauss. Các giả thiết E1
E4 tương đương với các giả thiết F1 F4. Trong giả thiết F1, cá c hệ số


1.3. Mô hình hiệu quả cố định
β1, β2,
, βK được gán với K biến giải thích. Chúng ta biểu diễn K tham số này như một vectơ cột với số chiều là K:


β1
β2
β

=

βK

. .


Với kí hiệu này, chúng ta có thể viết lại giả thiết F1 như sau


Eyit = α + xit β,
Biểu diễn trong phương trình (1.3.2) là biểu diễn chéo vì nó không sử dụng
thông tin được đo lặp đi lặp lại theo thời gian trên một đối tượng. Và vì
phương trình này cũng không chứa các số hạng không đồng nhất nên được
gọi là mô hình đồng nhất.
Và biểu diễn đầu tiên của chúng ta, sử dụng thông tin trên các phép đo
lặp đi lặp lại trên một đối tượng và chứa các số hạng chặn biến đổi theo
từng đối tượng, có dạng


Eyit = αi + xit β.
Phương trình (1.3.3) và các giả thiết F2 F4 kết hợp thành
quả cố định cơ bản.
1.3.2

Ý nghĩa tham số

• Các tham số {βi}, i = 1, 2, , K, chung cho mỗi đối tượng và được gọi là
các tham số toàn cục hay các tham số tổng thể.
• Các tham số αi biến đổi theo từng đối tượng được gọi là các tham
số đặc trưng đối tượng hay các tham số cá thể. Các tham số đặc trưng
đối tượng này biểu diễn các đặc điểm khác nhau của các đối tượng và
thường được gọi là các tham số riêng.


1.3. Mô hình hiệu quả cố định


Các tham số đặc trưng đối tượng α i biểu diễn tính không thuần nhất giữa
các đối tượng. Các ước lượng của các tham số này sử dụng thông tin trong
các phép đo lặp lại trên từng đối tượng. Ngược lại, các tham số này sẽ
không định lượng được trong các mô hình hồi quy cắt ngang, không có các
quan sát lặp đi lặp lại theo thời gian. Có nghĩa là với Ti = 1 thì mô hình

y =α +β x
it

i

1 i1,1

+β x

2 i1,2

+

+β x
K

i1,K

+ ε

i1

có (n+K) tham số nhiều hơn số quan sát (n) và như vậy ta không xác định

được tất cả các tham số. Số hạng nhiễu εit chứa thông tin về αi trong các
mô hình hồi quy cắt ngang. Một thuận lợi quan trọng của các mô hình dữ
liệu dọc so với các mô hình hồi quy cắt ngang là khả năng tách các hiệu
quả của {αi} từ các số hạng nhiễu {εit}. Như vậy, bằng việc tách các hiệu quả
đặc trưng đối tượng này, các ước lượng của chúng ta sẽ chính xác hơn và
sẽ thu được các kết luận đáng tin cậy hơn.
1.3.3

Ước lượng bình phương nhỏ nhất (OLS)

Định lý 1.3.1 (Gauss Markov) . Với các giả thiết F1F5, các ước lượng bình
phương nhỏ nhất là các ước lượng tuyến tính, không chệch và có phương
sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch.
Xét phương trình (1.3.3):


Eyit = αi + x itβ

i = 1, 2,

, n;

t = 1, 2

, Ti.

Bây giờ chúng ta sẽ ước lượng các tham số β, αi và phương sai σ2 và đây
là các ước lượng không chệch tuyến tính tốt nhất của β và α i. Gọi ai, b1,
b2, , bK là các ước lượng của các tham số α i, β1, β2, , βK . Định nghĩa hàm
tổng bình phương

n

SS(a, b) =
i=1 t=1


1.3. Mô hình hiệu quả cố định


trong đó a = (a1, a2, , an) và b = (b1, b2,
này, đầu tiên chúng ta cần tính đạo hàm riêng theo ai. Ta có

Ước lượng bình phương nhỏ nhất của αi là nghiệm của phương trình

và có dạng ai(b) = yi − xi′b, trong đó xi′

bình phương sẽ bằng

SS(a(b), b) =
i=1 t=1

Để tìm ước lượng cho βi, ta lấy đạo hàm riêng theo mỗi thành phần của b.
Với thành phần thứ j, ta có


SS(a, b) = (−2)

Cho phương trình này bằng 0 với mỗi thành phần j, ta có phương trình
chuẩn tắc
(xit −

Phương trình chuẩn tắc này đã đưa ra cho ta các ước lượng OLS:
(i) Ước lượng OLS của β:
n TI

b=

trong đó b = (b1, b2, ,

bK ) và xi = biến xi với Ti
lần quan sát; yi =

1

T

i


(ii) Ước lượng OLS của αi:
ai = yi


−1

1
t=1 xit

Ti
t=1


yit là giá trị trung bình của yi.

T

I

−x


i b.

là giá trị trung bình của


1.3. Mô hình hiệu quả cố định

Các ước lượng OLS của β có thể được biểu diễn như trung bình có trọng
số của các ước lượng đặc trưng đối tượng. Đặc biệt, giả sử rằng tất cả các


tham số đều đặc trưng đối tượng để hàm hồi quy có dạng Ey it = αi + x itβi.
Khi đó, ước lượng OLS của β có dạng

bi =

(xit −

Bây giờ, chúng ta định nghĩa ma trận trọng số
TI




Wi =

(xit − xi)(xit − xi) ,
t=1

Khi đó, bi có biểu diễn đơn giản hơn
bi = W

−1
i

Với trọng số này, chúng ta có thể biểu diễn ước lượng của β

W

b=
như một (ma trận) trung bình có trọng số của các ước lượng tham số đặc
trưng đối tượng.
Từ phương trình (1.3.4) và (1.3.5), lại xét một vectơ trọng số khác

n
Wit =

Wi

−1

(xit − xi).


i=1

Với vectơ này, ta có một biểu diễn khác cho phương trình (1.3.4):

b=

n TI

W y.
it,1 it

i=1 t=1


Điều này cho ta thấy rằng các hệ số hồi quy của b là những tổ hợp tuyến
tính của các đáp ứng.
Các hệ số hồi quy được gán với các biến hằng (không đổi theo thời gian) sẽ


1.3. Mô hình hiệu quả cố định

không ước lượng được sử dụng phương trình (1.3.4). Giả sử biến thứ j
nếu không đổi theo thời xit,j = xi,j .Khi đó, các phần tử trên hàng và cột
gian và thứ j của ma trận
n

TI

(xit − xi)(xit − xi)




i=1 t=1

đồng nhất bằng 0 và vì thế ma trận này không khả nghịch.
Nhận xét. Cả hai ước lượng ai và b đều có các tính chất của ước lượng
bình phương nhỏ nhất và cụ thể, đó là những ước lượng không chệch.
Theo Định lý Gauss Markov, chúng có phương sai nhỏ nhất trong lớp các
ước l ượng không chệch và phương sai của b sẽ là

V arb = σ
1.3.4

2

Mô hình mở rộng

Để mở rộng mô hình cơ bản, chúng ta sẽ đưa ra một biểu diễn đẹp hơn bằng
việc sử dụng khái niệm ma trận. Dạng ma trận của phương trình (1.3.2):

Eyi = αi1i + Xiβ,

(1.3.7)

trong đó yi là vectơ N × 1 các đáp ứng của đối tượng thứ i, yi = (yi1,

,

và Xi là ma trận các biến giải thích mức Ti × K,


iTI

Xi =

hay có thể viết Xi = (xi1, xi2,
Ma trận hiệp phương sai

y
)




×