Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 1 Thục Đoan/Hào Thi
CHƯƠNG 2
Ôn Lại Xác Suất và Thống Kê
Trong chương này, chúng ta tóm tắt các khái niệm của xác suất và thống kê được sử dụng
trong kinh tế lượng. Bởi vì một số kiến thức trước đây của xác suất và thống kê cơ bản
được giả sử trong sách này, việc ôn lại này được thiết kế để phục vụ chỉ như là một sự
hướng dẫn lại các chủ đề được sử dụng trong các chương sau này. Điều đó không có nghóa
là một sự nghiên cứu chặt chẽ và trọn vẹn về chủ đề này. Vì lý do này, chúng ta trình bày
rất ít các chứng minh. Để thay thế, chúng ta đònh nghóa các khái niệm quan trọng dưới
tiêu đề “Đònh nghóa” và tóm tắt các kết quả hữu dụng dưới tiêu đề “Các tính chất.” Muốn
có sự thảo luận chi tiết của các chủ đề, bạn nên tham khảo các cuốn sách tuyệt hảo được
liệt kê trong mục lục sách tham khảo ở cuối chương. Các phần được đánh dấu hoa thò (*)
có tính chất cao cấp hơn và có thể bỏ qua mà không mất đi ý nghóa chính của nội dung
chủ đề:
Chương này ôn lại tất cả chủ đề có liên quan trong xác suất và thống kê. Nếu đã có
lúc do bạn đã học chủ đề này rồi, bạn nên lướt nhanh qua chương này để gợi nhớ lại. Tuy
nhiên, nếu bạn vừa mới hoàn thành một khóa học về các tài liệu này, chúng tôi đề nghò
bạn đọc Phần 2.1 đến 2.5 (đặc biệt chú trọng về đồng phương sai và sự tương quan được
thảo luận trong Phần 2.3) và tiếp đến đi vào trực tiếp Chương 3 hơn là đọc phần còn lại
của chương này. Bạn có thể quay lại để ôn những phần có liên quan của chương này khi
cần. Các phần trong Chương 2 song song với các phần trong Chương 3, và sự tham khảo
chéo này được chỉ đònh nhằm giúp cho một sự hoán đổi suôn sẻ giữa các phần có thể thực
hiện được. Điều này cho phép bạn hiểu lý thuyết kinh tế lượng cơ bản tốt hơn và đánh giá
đúng sự hữu ích của xác suất và thống kê một cách dễ dàng hơn.
} 2.1 Các Biến Ngẫu Nhiên và các Phân Phối Xác Suất
Một cách điển hình, một nhà nghiên cứu thực hiện một thí nghiệm có thể đơn giản như
tung đồng xu hay quay cặp súc sắc hoặc có thể phức tạp như làm một khảo sát các tác
nhân kinh tế hay thực hiện một chương trình điều trò y học thực nghiệm. Dựa trên kết
quả của thí nghiệm, một nhà phân tích có thể đo được các giá trò của các biến quan tâm
mà chúng mô tả đặc điểm của kết quả. Các biến như vậy được biết đến như biến ngẫu
nhiên và thường ký hiệu là X. Các ví dụ bao gồm nhiệt độ tại một thời điểm nào đó, số
cuộc gọi đến qua một tổng đài điện thoại trong một khoảng 5 phút, thu nhập của một hộ
gia đình, tồn kho của một công ty, và giá bán của một căn nhà cũng như các đặc điểm
của nó, như diện tích sinh hoạt hay kích thước lô đất. Một biến ngẫu nhiên là rời rạc nếu
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 2 Thục Đoan/Hào Thi
nó chỉ mang các giá trò lựa chọn. Số đèn điện tử TV theo lô 20 và số mặt ngửa trong 10
lần tung một đồng xu là các ví dụ của các biến ngẫu nhiên rời rạc. Một biến ngẫu nhiên
là liên tục nếu nó có thể mang bất kỳ giá trò nào trong một khoảng số thực. Khi được đo
lường chính xác, chiều cao của một người, nhiệt độ tại một lúc riêng biệt nào đó, và
lượng năng lượng tiêu thụ trong một giờ là các ví dụ của các biến ngẫu nhiên liên tục.
Quy ước sử dụng trong sách này là ký hiệu một biến ngẫu nhiên bằng mẫu tự hoa (như X
hay Y) và các kết quả cụ thể của nó bởi mẫu tự thường (như x hay y).
Để giữ cho sự trình bày được đơn giản, ta minh họa các khái niệm khác nhau sử
dụng hầu hết các biến ngẫu nhiên rời rạc. Các mệnh đề dễ dàng mở rộng tới trường hợp
của biến ngẫu nhiên liên tục.
Liên kết với mỗi biến ngẫu nhiên là một phân phối xác suất [ký hiệu bởi hàm
f(x)] nó xác đònh xác suất mà biến ngẫu nhiên sẽ mang các giá trò trong các khoảng xác
đònh cụ thể. Đònh nghóa chính thức của một biến ngẫu nhiên không được trình bày ở đây
nhưng có thể tìm thấy trong mọi cuốn sách liệt kê trong mục lục sách tham khảo.
Trong cuốn sách này ta chỉ thảo luận những phân phối có sử dụng trực tiếp trong
kinh tế lượng. Ramanathan (1993) có nhiều ví dụ của cả các phân phối liên tục và rời rạc
không được trình bày ở đây.
} VÍ DỤ 2.1
Như là một minh họa, Cục Thuế Nội Bộ Mỹ có thông tin về tổng thu nhập có hiệu chỉnh
từ tất cả tiền thu thuế thu nhập cá nhân (kể cả tính trả chung) cho toàn nước Mỹ. Giả sử
ta thiết lập các khoảng thu nhập 1 – 10.000, 10.000 – 20.000, 20.000 – 30.000, v.v… và
tính toán tỷ lệ tiền thu thuế thuộc vào mỗi nhóm thu nhập. Điều này tạo ra một phân
phối tần suất. Tỷ lệ tiền thu thuộc vào nhóm thu nhập 40.000 – 50.000 có thể được xem
là xác suất mà một khoản thu thuế được rút ngẫu nhiên sẽ có thu nhập thuộc vào khoảng
đó.
Trong Hình 2.1 tỷ lệ của tiền thu thuế được vẽ đồ thò dựa vào các trung điểm của
các khoảng dưới dạng biểu đồ thanh (được biết là biểu đồ tần suất) trong đó diện tích
của các hình chữ nhật bằng với các tỷ lệ tương ứng. Nếu kích thước mẫu là đủ lớn và các
khoảng đủ nhỏ, ta có thể làm gần đúng các tần suất với một đường cong trơn (như trình
bày trong biểu đồ), đó là phân phối xác suất của thu nhập.
} VÍ DỤ 2.2
Điểm trung bình (GPA) của một sinh viên thay đổi từ 0 đến 4. Bảng 2.1 có một ví dụ của
phân phối xác suất của GPA. Hình 2.2 là một sự trình bày bằng hình vẽ của phân phối
xác suất. Xác suất mà một sinh viên được chọn ngẫu nhiên có GPA ở giữa 2 và 2,5 là
0,244. Sự diễn giải của các con số khác là tương tự.
} Bảng 2.1 Phân Phối Xác Suất Của Điểm Trung Bình (GPA)
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 3 Thục Đoan/Hào Thi
Khoảng 0 – 0,5 0,5 – 1,0 1,0 – 1,5 1,5 – 2,0 2,0 – 2,5 2,5 – 3,0 3,0 – 3,5 3,5 – 4,0
x 0,25 0,75 1,25 1,75 2,25 2,75 3,25 3,75
f(x) 0 0,002 0,010 0,049 0,244 0,342 0,255 0,098
} Hình 2.1 Biểu Đồ Tần Suất Đối Với Thu Nhập Hàng Năm
} Hình 2.2 Phân Phối Xác Suất Của Điểm Trung Bình (GPA)
5 15 25 35 45 55
Thu nhập
theo ngàn
đô la
Tỷ lệ
tiền thu thuế
0,25 0,75 1,25 1,75 2,25 2,75 3,25 3,75
X
f(x)
0,342
0,300
0,200
0,100
f(x)
} Hình 2.3 Đồ
Thò Mật Độ Chuẩn
Chuẩn Hóa
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 4 Thục Đoan/Hào Thi
Người sử dụng chương trình GRELT nên thử Phần Máy Tính Thực Hành trong Phụ lục C.
Những người khác được khuyến khích dùng chương trình hồi qui của chính họ để thu
được phân phối tần suất cho DATA2-1 và DATA2-2 (xem Phụ lục D).
Phân Phối Chuẩn
Phân phối liên tục được dùng rộng rãi nhất là phân phối chuẩn (còn được biết là phân
phối Gaussian). Dạng đơn giản nhất của nó, được biết đến là phân phối chuẩn chuẩn
hóa (hoặc chuẩn chuẩn hóa), hàm mật độ xác suất (PDF) của phân phối này là
)2/xexp(
2
1
f(x)
2
−
π
= – ∞ < x < ∞
trong đó exp là hàm mũ. Mật độ chuẩn f(x) là đối xứng xung quanh tọa đôï gốc và có hình
chuông (xem Hình 2.3). P(a ≤ X ≤ b) được xác đònh bởi vùng tô màu giữa a và b.
} VÍ DỤ 2.3
Bảng Phụ lục A.1 có diện tích dưới đường cong chuẩn chuẩn hóa giữa 0 và điểm bất kỳ z.
Như vậy, lấy ví dụ, diện tích từ 0 đến 1,72 là 0,4573. Bởi vì đường cong chuẩn là đối
xứng xung quanh tọa độ gốc, diện tích từ 0 đến –1,72 cũng bằng 0,4573. Diện tích từ
0,65 đến 1,44 có được là độ chênh lệch của các diện tích tính từ 0 và do đó bằng 0,4251
– 0,2422 = 0,1829. Dùng kỹ thuật này và tính chất đối xứng, dễ dàng xác minh rằng P(–
0,65 ≤ X ≤ 1,44) = 0,2422 + 0,4251 = 0,6673 và P(–1,44 ≤ X ≤ –0,65) = 0,1829. Để tính
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 5 Thục Đoan/Hào Thi
P(X > 1,12), ta dùng sự quan hệ P(X > 1,12) = P(X> 0) – P(0 < X < 1,12) = 0,5 – 0,3686
= 0,1314.
} Bảng 2.2 Phân Phối Xác Suất cho Số Mặt Ngửa trong Ba Lần Tung Một Đồng Xu.
x 0 1 2 3
f(x) 1/8 3/8 3/8 1/8
Phân Phối Nhò Thức
Như một ví dụ của một hàm xác suất rời rạc, gọi X là số mặt ngửa xuất hiện trong ba lần
tung một đồng xu. X có thể có các giá trò 0, 1, 2, hay 3. Tám kết quả riêng biệt lẫn nhau,
mỗi kết quả có xác suất như nhau là 1/8, được xác đònh bởi (HHH), (HHT), (HTH),
(THH), (HTT), (THT), TTH), và (TTT). Từ đó có P(X=2) = P(HHT) + P(HTH) +
P(THH) = 3/8. Tiến hành theo cách tương tự, ta có thể thu được các xác suất cho mỗi giá
trò có thể có của X. Bảng 2.2 cung cấp hàm xác suất f(x) cho bốn giá trò của X.
Phân phối là một phần tử của một họ phân phối được biết đến như phân phối nhò
thức. Nó phát sinh khi chỉ có 2 kết quả có thể xảy ra đối với một thí nghiệm, một được
mệnh danh là “thành công” và một là “thất bại”. Gọi p là xác suất của thành công trong
một thí nghiệm cho trước. Xác suất của thất bại là 1 – p. Hơn nữa giả sử rằng xác suất
của thành công là như nhau cho mỗi thí nghiệm và các thí nghiệm là độc lập. Gọi X là số
lần thành công trong n thí nghiệm độc lập. Vậy f(x) có thể trình bày là [xem Freund
(1992), trang 184-185]
xnxxnx
qp
)!xn(!x
!n
qp
x
n
f(x)
−−
−
=
= x = 0, 1, . . . , n
trong đó 1 – p = q và n! = n(n –1) … 1 (0! được đònh nghóa là 1)
} VÍ DỤ 2.4
Một sự điều trò bệnh bạch hầu đặc biệt có 25 phần trăm xác suất chữa khỏi hoàn toàn.
Nếu 40 bệnh nhân được chọn ngẫu nhiên được đem điều trò, xác suất để có ít nhất 15
bệnh nhân sẽ được chữa khỏi là gì?
Gọi X = số lần thành công trong 40 lần thử. Vậy ta cần P(X > 15) với p = 0,25. Bảng
Phụ Lục A.6 có xác suất tích lũy cận trên mong muốn là 0,0544.
Thử làm Bài tập 2.1 đến 2.5 và nghiên cứu các đáp án cho Bài tập 2.4 trong Phụ lục B.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 6 Thục Đoan/Hào Thi
} 2.2 Kỳ Vọng, Trung Bình và Phương Sai Toán Học
Xét thí nghiệm nhò thức đã mô tả trước đây trong đó một đồng xu được tung ba lần. Giả
sử ta được trả 3$ nếu kết quả là ba mặt ngửa, 2$ nếu có hai mặt ngửa, 1$ nếu chỉ có một
ngửa, và không có gì hết nếu cả ba lần tung đều cho kết quả mặt sấp. Về mặt trung bình,
mỗi thí nghiệm tung ba lần, ta kỳ vọng thắng bao nhiêu? Từ Bảng 2.2 ta lưu ý rằng trong
8 lần thí nghiệm ta có thể kỳ vọng,
về mặt trung bình, có một lần có ba mặt đều ngửa
(dẫn đến được trả 3$), ba lần có hai mặt ngửa (tổng tiền được trả là 6$, tính 2$ cho mỗi
lần), và ba lần với một mặt ngửa (tổng tiền được trả là 3$). Vậy ta có thể kỳ vọng tổng
tiền được trả là 12$ (3+6+3) trong 8 lần thử, thành ra tiền được trả trung bình là 1,5 $ cho
mỗi lần thử.
Trung Bình Của Một Phân Phối
Giá trò trung bình được tính trong phần trước được gọi là trung bình của phân phối
(cũng được biết đến như
kỳ vọng toán học của X và giá trò kỳ vọng của X). Nó cũng
được biết đến như
momen bậc nhất xung quanh giá trò gốc, hay momen đònh tâm bậc
nhất, và là một đại lượng của đònh vò. Nó được ký hiệu bởi E(X) hay µ. E(X) là một
trung bình có trọng số của X, với trọng số là các xác suất tương ứng. Trong trường hợp
tổng quát, giả sử một biến ngẫu nhiên rời rạc có thể có các giá trò x
1
, x
2
, . . ., x
n
. P(X = x
i
)
= f(x
i
) là hàm xác suất của biến đó. Nếu tiền được trả cho kết quả X = x
i
là x
i
đô-la, tiền
được trả trung bình sẽ là x
1
f(x
1
) + x
2
f(x
2
) + . . . + x
n
f(x
n
) = ∑[x
i
f(x
i
)], trong đó ∑ ký hiệu
cho phép lấy tổng các số hạng, với i = 1 đến n. (Xem Phụ lục 2.A.1 về phép tổng.) Vậy
ta có đònh nghóa sau đây.
ĐỊNH NGHĨA 2.1 (Trung Bình Của Một Phân Phối)
Với một biến ngẫu nhiên rời rạc, trung bình của phân phối (µ) được đònh nghóa là
µ = E(X) =
])x(fx[
ni
1i
ii
∑
=
=
(2.1)
Bởi vì E(X) là trọng số theo xác suất, nó có thể khác với trung bình số học, x=
(∑x
i
)/n.
Không có lý do vì sao kết quả được mô tả ở trên được giới hạn bằng x. Nó có thể là
bất kỳ hàm nào của x. Giả sử kết quả là x
2
. Kết quả trung bình sẽ là ∑[x
i
2
f(x
i
)]. Điều này
được gọi là
momen bậc hai của phân phối của X xung quanh giá trò gốc. Khái niệm của
kỳ vọng toán học có thể mở rộng cho bất kỳ hàm số nào của x. Vậy, ta có sự diễn tả sau
đây cho giá trò kỳ vọng của một hàm tổng quát g(X):
E[g(X)] = ∑[g(x
i
)f(x
i
)] (2.2)
} VÍ DỤ 2.5
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 7 Thục Đoan/Hào Thi
Điểm Kiểm Tra Khả Năng Học Thuật Về Từ Vựng (VSAT) đối với một sinh viên nộp
đơn xin vào đại học có giá trò trải từ 0 đến 700. Bảng 2.3 có một ví dụ của phân phối xác
suất của điểm VSAT cho một tổng thể lớn các sinh viên đại học. Trung bình của phân
phối này được tính là 100 × 0 + 225 × 0,003 + … + 675 × 0,063 = 506,25.
} Bảng 2.3 Phân Phối Xác Suất Của Điểm VSAT
Khoảng x f(x)
0 – 200 100 0
200 – 250 225 0,003
250 – 300 275 0,021
300 – 350 325 0,033
350 – 400 375 0,061
400 – 450 425 0,131
450 – 500 475 0,201
500 – 550 525 0,234
550 – 600 575 0,169
600 – 650 625 0,084
650 – 700 675 0,063
} Bài Tập Thực Hành 2.1
Giả sử có 10.000 vé số 1$ được bán và có ba giải thưởng được đưa ra: giải nhất 5.000$,
giải nhì 2.000$, và giải ba 500$. Kỳ vọng thắng giải là bao nhiêu?
} Bài Tập Thực Hành 2.2
Một thợ bánh mì có hàm xác suất như sau cho nhu cầu bánh mì (tính theo tá hay 12 đơn
vò mỗi ngày). Tồn kho trung bình nên là bao nhiêu?
x 0 1 2 3 4 5 6 hay lớn hơn
f(x) 0,05 0,10 0,25 0,30 0,20 0,10 0
Chúng ta viết một số kết quả liên quan đến giá trò kỳ vọng mà không có chứng
minh. Những kết quả này được kiến nghò nên được nghiên cứu kỹ lưỡng bởi vì chúng sẽ
được sử dụng thường xuyên trong các chương sau. (Hãy thử chứng minh chúng.)
Tính chất 2.1
a. E(X – µ) = E(X) – µ = 0.
b. Nếu c là hằng số hay là biến không ngẫu nhiên, E(c) = c.
c. Nếu c là hằng số hay là biến không ngẫu nhiên, E[cg(X)] = cE[g(x)].
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 8 Thục Đoan/Hào Thi
d. E[u(X) + v(X)] = E[u(X)] + E[v(X)].
Diễn tả bằng từ ngữ, giá trò kỳ vọng của độ lệch so với trung bình là 0. Giá trò kỳ
vọng của một hằng số hay một biến không ngẫu nhiên chính bằng nó. Giá trò kỳ vọng
của một hằng số nhân với một biến ngẫu nhiên bằng hằng số nhân với giá trò kỳ vọng.
Giá trò kỳ vọng của tổng các hàm số của X là tổng các kỳ vọng. Đáp án cho Bài tập 2.6
trong Phụ lục B có chứng minh về Tính chất 2.1 cho trường hợp rời rạc.
Phương Sai và Độ Lệch Chuẩn của Một Biến Ngẫu Nhiên
Đặt µ = E(X) là trung bình của phân phối của X. Một trường hợp đặc biệt của hàm g(X),
mà kỳ vọng của nó được đònh nghóa trong Phương trình (2.2), được quan tâm đáng kể.
Cho g(X) = (X – µ)
2
. X – µ là một đại lượng để xem X lệch bao nhiêu so với trung bình
µ. Bình phương đại lượng này sẽ phóng rộng các độ lệch và xử lý các độ lệch dương và
âm như nhau. Trung bình có trọng số xác suất của các độ lệch bình phương này (hay, cụ
thể hơn, kỳ vọng của chúng) là một đo lường của sự phân tán của các giá trò X xung
quanh giá trò trung bình µ. Nó được gọi là
phương sai của phân phối (hay momen đònh
tâm bậc hai) và được ký hiệu bởi σ
2
hay Var(X). Nó là một đo lường của sự phân tán
của X xung quanh µ. Một cách chính thức, ta có đònh nghóa sau.
ĐỊNH NGHĨA 2.2 (Phương Sai và Độ Lệch Chuẩn)
Phương sai của X được đònh nghóa là
σ
2
= Var(X) = E[(X – µ)
2
] = ∑(x
i
– µ)
2
f(x
i
) (2.3)
Căn bậc hai (σ) của biểu thức này được gọi là
độ lệch chuẩn (s.d.).
Tính chất 2.2 liệt kê vài tính chất của phương sai đúng cho cả phân phối liên tục và
rời rạc.
Tính chất 2.2
a. σ
2
= E[(X – µ)
2
] = E[X
2
– 2µX + µ
2
] = E(X
2
) – 2µE(X) + µ
2
= E(X
2
) – µ
2
.
b. Theo đó nếu c là một hằng số hay không ngẫu nhiên, Var(c) = 0.
c. Nếu a và b là các hằng số hay không ngẫu nhiên, Var(a + bX) = b
2
σ
2
.
} VÍ DỤ 2.6
Hàm xác suất của một biến ngẫu nhiên rời rạc được cho như sau:
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 9 Thục Đoan/Hào Thi
x 0 1 2 3
f(x) 0,1 0,3 0,4 0,2
Hãy tính trung bình, phương sai, và độ lệch chuẩn.
µ
= E(X) = ∑x
i
f(x
i
)
= (0 × 0,1) + (1 × 0,3) + (2 × 0,4) + (3 × 0,2)
= 0 + 0,3 + 0,8 + 0,6 = 1,7
E(X
2
) = ∑x
i
2
f(x
i
) = (0 × 0,1) + (1 × 0,3) + (4 × 0,4) + (9 × 0,2)
= 0 + 0,3 + 1,6 + 1,8 = 3,7
Var(X) = E(X
2
) – µ
2
= 3,7 – (1,7)
2
= 0,81
σ
=
)X(Var = 0,9
} BÀI TẬP THỰC HÀNH 2.3
Hãy tính trung bình, phương sai, và độ lệch chuẩn cho các phân phối trong các Bảng 2.1
và 2.3.
} BÀI TẬP THỰC HÀNH 2.4
Hãy chứng tỏ rằng nếu biến ngẫu nhiên X có trung bình µ và độ lệch chuẩn σ, biến ngẫu
nhiên biến đổi Z = (X – µ)/σ (thường tham chiếu như là giá trò
z) có trung bình 0 và
phương sai là 1.
Phân Phối Chuẩn Tổng Quát
Phân phối chuẩn được trình bày trong Phần 2.1 có trung bình 0 và phương sai đơn vò. Một
phân phối chuẩn tổng quát, với trung bình µ và phương sai σ
2
, thường được viết là N(µ,
σ
2
), có hàm mật độ như sau:
σ
µ−
−
πσ
=
2
2
2
)x(
exp
2
1
f(x)
– ∞ < x < ∞ (2.4)
trong đó exp ký hiệu của hàm mũ. Nếu X là phân phối chuẩn, nó được viết là X ∼ N(µ,
σ
2
). Ba phân phối xác suất chuẩn được trình bày trong Hình 2.4. Vài tính chất của phân
phối chuẩn được liệt kê trong Tính chất 2.3.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 10 Thục Đoan/Hào Thi
Tính chất 2.3
Phân phối chuẩn, với trung bình µ và phương sai σ
2
[được viết là N(µ, σ
2
)], có các tính
chất sau:
a. Đối xứng xung quanh giá trò trung bình µ và có dạng hình chuông.
b. Diện tích dưới đường cong chuẩn giữa µ – σ và µ + σ – nghóa là trong khoảng 1 độ
lệch chuẩn tính từ trung bình – hơi lớn hơn 2/3(0,6826). 95,44 phần trăm diện tích
nằm trong khoảng 2 độ lệch chuẩn tính từ giá trò trung bình – nghóa là, giữa µ – 2σ
và µ + 2σ. 99,73 phần trăm diện tích nằm trong khoảng 3 độ lệch chuẩn tính từ giá
trò trung bình. Vậy, gần như toàn bộ phân phối nằm giữa µ – 3σ và µ + 3σ.
} Hình 2.4 Ba Phân Phối Chuẩn
c. Nếu X có phân phối chuẩn, với trung bình µ và độ lệch chuẩn σ, thì biến ngẫu nhiên
“chuẩn hóa” Z = (X – µ)/σ có phân phối chuẩn chuẩn hóa N(0,1). Bởi tính chất này,
diện tích giữa hai điểm a và b trong N(µ, σ
2
) sẽ bằng với diện tích giữa các điểm mút
chuẩn hóa
(a – µ)/σ và (b – µ)/σ trong N(0, 1). Bảng A.1 có các diện tích theo chuẩn
hóa giữa trung bình 0 và các giá trò khác nhau của Z.
d. Nếu X được phân phối theo N(µ, σ
2
), thì Y = a + bX, trong đó a và b là hằng số cố
đònh, được phân phối theo N(a + bµ, b
2
σ
2
).
} VÍ DỤ 2.7
10 20 30
X
σ = 20
σ = 15
σ = 10
(1)
(2)
(3)
f(x)
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 11 Thục Đoan/Hào Thi
Một nhà sản xuất lốp xe đã nhận thấy rằng tuổi thọ của một loại lốp nào đó là một biến
ngẫu nhiên chuẩn với trung bình là 30.000 dặm và độ lệch chuẩn là 2.000 dặm. Công ty
mong muốn đảm bảo lốp xe đó cho N dặm với việc trả lại toàn bộ tiền nếu lốp xe không
dùng được đến giới hạn đó. Giả sử công ty muốn đảm bảo rằng xác suất mà một lốp xe
bò trả lại không quá 0,10 (nghóa là không quá 10 phần trăm số lốp xe sẽ được bán). Giá
trò N công ty nên chọn là bao nhiêu?
Cho X là tuổi thọ của lốp xe. Vậy X được phân phối theo N(30.000, 2.000
2
). Ta
muốn P(X ≤ N) ≤ 0,10. P(X ≤ N) =
σ
µ−
≤
σ
µ N-X
P
≤ 0,10. Cho Z =
σ
µ
-X
là chuẩn
chuẩn hóa. Vậy
σ
µ−
=≤
N
zZP ≤ 0,10. Từ Hình 2.5 ta thấy rằng để thu được diện tích
của 0,10 phía bên trái của z, ta cần tìm điểm d (= – z) sao cho diện tích giữa 0 và d là
0,40 (do tính chất đối xứng). Từ Bảng A.1 của phụ lục, ta lưu ý rằng P(0 ≤ Z ≤ d = 1,282)
= 0,40, nghóa là nếu
σ
µ-N
≤ – 1,282, thì bất đẳng thức trên sẽ thỏa mãn. Vậy, N ≤ µ –
1,282σ = 30.000 – (1,282)2.000; nghóa là N ≤ 27.436 dặm.
} Hình 2.5 Đồ Thò Mật Độ Chuẩn Chuẩn Hóa
Hệ Số Biến Thiên
f(Z)
z = – 1,828 d = 1,8280
Z
10%
40%
40%
10%
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 12 Thục Đoan/Hào Thi
Hệ số biến thiên được đònh nghóa là tỷ số σ/µ, trong đó tử số là độ lệch chuẩn và mẫu số
là trò trung bình. Đó là một đại lượng của sự phân tán của phân phối
tương đối so với trò
trung bình của phân phối. Chúng ta sẽ gặp phải khái niệm này lần nữa trong Chương 14
khi thực hiện một dự án thực nghiệm.
Để có thảo luận của các đo lường khác đặc trưng cho một phân phối, xem
Ramanathan (1993, Phần 3.5). Phần Máy Tính Thực Hành 2.2 (xem Bảng Phụ lục D.1)
minh họa các khái niệm này cho người sử dụng GRELT, dùng dữ liệu mẫu về điểm trung
bình của 427 sinh viên.
} 2.3 Các Xác Suất Kết Hợp, Đồng Phương Sai, và Tương Quan
Các hàm xác suất được xác đònh với một cặp biến ngẫu nhiên nào đó (ví dụ như biến
PRICE và SQFT hay biến
tiêu dùng và thu nhập) được gọi là phân phối xác suất kết hợp
hay phân phối hai biến. Để việc trình bày đơn giản hơn, phần thảo luận chỉ tập trung vào
các biến ngẫu nhiên rời rạc. Sự khái quát hoá đối với trường hợp biến liên tục có thể dễ
dàng suy ra. Gọi X và Y là hai biến ngẫu nhiên rời rạc, x và y là các giá trò tương ứng mà
hai biến trên có thể đạt được. Xác suất mà X = x và Y = y được gọi là
hàm xác suất kết
hợp đối với X và Y và được biểu thò thông qua hàm f
XY
(x, y). Vì thế ta có hàm f
XY
(x, y)
= P(X = x, Y = y), có nghóa là P(X = x và Y = y). Vì hàm xác suất thường được biểu thò
bằng f() nên chúng ta dùng ký hiệu XY đặt ở bên dưới
để quy đònh hai biến ngẫu nhiên
kết hợp đang quan sát là X và Y.
} VÍ DỤ 2.8
Hãy xem xét cuộc thí nghiệm thảy một cặp súc sắc. Có thể có 36 trường hợp xảy ra,
được biểu thò theo (1, 1), (1, 2), …, (6, 6), trong đó chữ số đầu tiên là kết quả của súc sắc
thứ nhất và số hạng thứ hai biểu thò kết quả của súc sắc thứ hai. Mỗi kết quả đều có khả
năng xảy ra như nhau, và vì vậy xác suất xảy ra của mỗi kết quả cụ thể là 1/36. Bây giờ,
đặt biến ngẫu nhiên X = số lần xuất hiện của số 3 ở kết quả thu được. Do đó, nêu kết quả
là (1, 5) thì X = 0; nếu là (3, 6) thì X = 1; và X = 2 khi và chỉ khi kết quả là (3, 3). Giá trò
X chỉ chỉ có thể là 0, 1, và 2. Kế tiếp, chúng ta đònh nghóa biến ngẫu nhiên Y = số lần
xuất hiện của số 5 xuất hiện nơi kết quả cụ thể, giá trò của Y cũng chỉ có thể là 0, 1, và 2.
Kết quả (1, 3) sẽ tương ứng với X = 1 và Y = 0. Dễ dàng kiểm chứng các giá trò xác suất
kết hợp cho trong bảng 2.4. Ví dụ, biến cố kết hợp (X = 1, Y = 1) có thể xảy ra chỉ khi có
kết quả là (3, 5) hoặc (5, 3), mỗi trường hợp đều có xác suất là 1/36. Vì thế, f(1, 1) = P(X
= 1, Y = 1) = 1/36. Các giá trò xác suất khác cũng được tính toán tương tự (hãy kiểm
chứng các kết luận này như là bài tập thực hành).
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 13 Thục Đoan/Hào Thi
Sự Độc Lập Thống Kê
Các biến ngẫu nhiên rời rạc được gọi là sự độc lập thống kê nếu P(X = x và Y = y) =
P(X = x) . P(Y = y). Vì vậy trong trường hợp này, xác suất kết hợp là tích của các xác
suất riêng lẻ. Đối với trường hợp biến có dạng liên tục, chúng ta sẽ có f
XY
(x, y) = f
X
(x).
f
Y
(y).
Xác Suất Có Điều Kiện
Để biết thêm về xác suất của những biến cố xảy ra kết hợp của hai biến ngẫu nhiên X và
Y, chúng ta cũng cần nên biết về xác suất xảy ra của biến ngẫu nhiên cụ thể (Y) nào đó
cho trước sự kiện đã xảy ra của một biến (X) ngẫu nhiên khác. Ví dụ, chúng ta có thể
muốn biết xác suất để giá mua một căn nhà là 200.000 đô la, nếu cho trước diện tích sinh
hoạt phải là 1.500 thước vuông Anh. Yêu cầu này sẽ dẫn chúng ta đến khái niệm
xác
suất có điều kiện, được đònh nghóa trong trường hợp biến ngẫu nhiên dạng rời rạc như
sau:
P(Y = y X = x) =
)xX(P
)yY,xX(P
=
==
với P(X = x) ≠ 0
Ký hiệu “” có nghóa là
cho trước. Hàm mật độ xác suất có điều kiện (cho cả khi
biến ngẫu nhiên là rời rạc và liên tục) được đònh nghóa như sau:
f
YX
(x, y) =
)x(f
)y,x(f
X
XY
với mọi giá trò của x sao cho f
X
(x) > 0
Trong đó f
XY
(x, y) là hàm mật độ xác suất kết hợp của X và Y và f
X
(x) là hàm mật độ
xác suất của riêng biến X, thường được đề cập đến như là hàm
mật độ cận biên của
biến X. Lưu ý rằng xác suất có điều kiện phụ thuộc vào cả giá trò x và y. Khi cả hai biến
ngẫu nhiên này phụ thuộc thống kê lẫn nhau thì phân phối xác suất có điều kiện trở
thành các phân phối cận biên tương ứng. Để hiểu được điều này, hãy lưu ý rằng sự độc
lập thống kê ngầm đònh f
XY
(x, y) = f
X
(x) . f
Y
(y). Rút ra từ kết luận này, chúng ta có:
f
YX
(yx) = f
XY
(x, y)/f
X
(x) = f
Y
(y) và f
XY
(xy) = f
XY
(x, y)/f
Y
(y) = f
X
(x)
} Bảng 2.4 Phân phối xác suất kết hợp đối với số lần xuất hiện các con số 3 (X) và
số 5 (Y) khi một cặp súc sắc được thảy.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 14 Thục Đoan/Hào Thi
X
Y
0 1 2
0 16/36 8/36 1/36
1 8/36 2/36 0
2 1/36 0 0
} VÍ DỤ 2.9
Bảng 2.4 trình bày các giá trò xác suất kết hợp của số lần xuất hiện của số 3 (X) và số 5
(Y) khi một cặp súc sắc được thảy. Chúng ta hãy tính kết quả thứ nhất của mật độ cận
biên của biến X và Y. Vì X = 0 có thể xảy ra khi Y = 0 hoặc 1 hoặc 2, P(X = 0) có thể
tính toán được bằng P(X = 0, Y = 0) + P(X = 0, Y = 1) + P(X = 0, Y = 2) = 16/36 + 8/36 +
1/36 = 25/36. Tính toán tương tự, chúng ta có P(X = 1) = 10/36 và P(X = 2) = 1/36. Lưu ý
rằng tổng của ba giá trò xác suất trên là bằng 1, vì điều này là hiển nhiên. Phân phối cận
biên của Y cũng được xác đònh theo trình tự tính toán tương tự. Bảng 2.5 trình bày các
giá trò cận biên của X và Y ở các hàng và cột ngoài cùng tương ứng. Lưu ý rằng các giá
trò này xuất hiện với các quy luật giống nhau.
} Bảng 2.5 Phân Phối Cận Biên Đối Với Số Lần Xuất Hiện Các Con Số 3 (X) Và Số
5 (Y) Khi Một Cặp Súc Sắc Được Thảy.
X
Y
0 1 2 f
Y
(y)
0 16/36 8/36 1/36 25/36
1 8/36 2/36 0 10/36
2 1/36 0 0 1/36
f
X
(x) 25/36 10/36 1/36 1
} Bảng 2.6 Phân Phối Có Điều Kiện Đối Với Số Lần Xuất Hiện Các Con Số 5 (Y)
Cho Trước Số Lần Xuất Hiện Của Các Số 3 (X) Khi Một Cặp Súc Sắc
Được Thảy.
X
Y
0 1 2
0 0,64 0,32 0,04
1 0,80 0,20 0,00
2 1,00 0,00 0,00
Xác suất có điều kiện để Y = 0 với X = 0 cho trước được tính toán như sau:
P(Y = 0X = 0) = P(X = 0, Y = 0)/ P(X = 0) = 16/36 ÷ 25/36 = 0,64
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 15 Thục Đoan/Hào Thi
Tiến hành tương tự, chúng ta sẽ có được các giá trò phân phối có điều kiện của biến Y
với X cho trước trình bày trong bảng 2.6.
Giá Trò Kỳ Vọng Toán Học Trong Trường Hợp Hai Biến
Khái niệm kỳ vọng toán học có thể mở rộng dễ dàng sang trường hợp các biến ngẫu
nhiên gồm hai biến. Cho trước hàm g(X, Y) và hàm xác suất kết hợp f(x, y), giá trò kỳ
vọng của g(X, Y) được xác đònh bằng cách nhân g(x, y) với f(x, y) và cộng tổng các giá
trò có thể có của x và y. Chúng ta có các đònh nghóa sau đây.
ĐỊNH NGHĨA 2.3 (GIÁ TRỊ KỲ VỌNG)
Giá trò kỳ vọng của g(X, Y) được xác đònh như sau:
E[g(X, Y)] =
∑
∑
xy
)y,x(f)y,x(g
Trong đó phép tính tổng hai lần biểu diễn phép tính tổng trên tất cả các giá trò có thể có
của x và y. (Vì vậy giá trò kỳ vọng sẽ bằng tổng có trọng số với giá trò xác suất kết hợp
được dùng làm trọng số).
Gọi µ
x
là giá trò kỳ vọng của biến ngẫu nhiên X, và µ
y
là giá trò kỳ vọng của biến
ngẫu nhiên Y. Phương sai của chúng được xác đònh tương tự như trường hợp đơn biến:
])X[(E
2
x
2
x
µ−=σ và ])Y[(E
2
y
2
y
µ−=σ (2.5)
} BÀI TẬP THỰC HÀNH 2.5
Từ các giá trò xác suất kết hợp cho trong bảng 2.4, hãy tính trò trung bình µ
x
= E(X), µ
y
=
E(Y), và phương sai
2
x
σ ,
2
y
σ . Hãy kiểm chứng rằng biến X và Y là không độc lập thống
kê với nhau.
Giá Trò Kỳ Vọng Có Điều Kiện và Phương Sai Có Điều Kiện
Giá trò kỳ vọng của Y với X cho trước được gọi là
giá trò kỳ vọng của Y với X cho
trước. Một cách cụ thể hơn, đối với một cặp biến ngẫu nhiên rời rạc, thì E(YX =x) =
∑
=yY
y f
YX
(x,y). Hay nói cách khác, đó là giá trò trung bình của Y sử dụng giá trò mật độ
có điều kiện của
∑
=yY
y f
YX
(x,y) như một trọng số. Giá trò kỳ vọng của Y với X cho trước
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 16 Thục Đoan/Hào Thi
còn được gọi là giá trò hồi quy của Y theo X. Từ bảng 2.6, chúng ta có thể thấy rằng
E(YX = 0) = (0,64 × 0) + (0,32 × 1) + (0,04 × 2) = 0,32 + 0,08 = 0,4; E(YX = 1) = 0,2;
và E(YX = 2) = 0. Trong mô hình hồi quy đơn giản được trình bày trong ví dụ 1.1,
chúng ta có PRICE = α + β SQFT + u. Nếu E(uSQFT) = 0 thì E(PRICESQFT) = α + β
SQFT. Vì vậy, phần xác đònh của mô hình là giá trò kỳ vọng có điều kiện của biến
PRICE với SQFT cho trước, khi E(uSQFT) = 0.
Khái niệm giá trò kỳ vọng có điều kiện đã trình ở trên có thể mở rộng dễ dàng để
tính toán
phương sai có điều kiện, được xác đònh như sau. Gọi µ*(X) là giá trò kỳ vọng
có điều kiện của Y cho trước X, được ký hiệu là E(YX). Phương sai có điều kiện của Y
với X cho trước được đònh nghóa như sau Var(YX) = E
YX
[(Y – µ* )
2
| X ]. Nói cách
khác, cố đònh giá trò của biến X và tính toán giá trò trung bình có điều kiện của Y với X
cho trước, và sau đó tính toán phương sai xung quanh giá trò trung bình này với trọng số
là mật độ có điều kiện f
YX
(x,y).
Một số tính chất của giá trò kỳ vọng có điều kiện sử dụng trong môn học kinh tế lượng
được tóm tắt sau đây. Để hiểu rõ thêm về phần chứng minh, xin tham khảo tác giả
Ramanathan (1993, phần 5.2).
Tính chất 2.4 Đối với mọi hàm u(x) thì ta luôn có E[u(x)X] = u(x). Tính chất này ngầm đònh
rằng khi tiến đến giá trò kỳ vọng có điều kiện cho trước X thì hàm u(X) tiến đến
giá trò hằng số. Do đó, một trường hợp đặc biệt được suy ra là nếu
c là hằng số thì
E(cX) = c.
Tính chất 2.5 E([a(x) + b(X)Y]X) = a(X) + b(X) E(YX)
Tính chất 2.6 E
XY
(Y) = E
X
[E
YX
(YX)]. Tính chất này có nghóa là giá trò kỳ vọng không điều
kiện của Y, sử dụng mật độ chung giữa X và Y, có thể tính toán được bằng cách
tính trước tiên giá trò kỳ vọng có điều kiện của Y với X cho trước (là biểu thức
trong dấu ngoặc vuông), sau đó tính giá trò kỳ vọng của chúng theo X. Tính chất
này được gọi là
luật của các giá trò kỳ vọng lặp (law of iterated expectations).
Tính chất 2.7 Var(Y) = E
X
[Var(YX)] + Var
X
[E(YX)]. Nói cách khác, giá trò phương sai của
Y sử dụng hàm mật độ kết hợp f
XY
(x, y) tính toán được sẽ tương đương với giá trò
kỳ vọng của phương sai có điều kiện của biến Y cộng với phương sai của giá trò
kỳ vọng có điều kiện của biến Y với X cho trước.
Đồng phương sai và tương quan
Khi gặp phải hai biến ngẫu nhiên, một trong những vấn đề thường thu hút sự quan tâm là
mối quan hệ giữa hai biến này như thế nào? Khái niệm
đồng phương sai và tương quan
là hai cách để đo lường mức độ quan hệ “chặt” giữa hai biến ngẫu nhiên đó.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 17 Thục Đoan/Hào Thi
Hãy xem xét hàm g(X, Y) = (X – µ
X
)(Y – µ
Y
). Giá trò kỳ vọng của hàm số này được
gọi là
đồng phương sai giữa X và Y và được ký hiệu là σ
XY
hay Cov(X, Y).
ĐỊNH NGHĨA 2.4 (ĐỒNG PHƯƠNG SAI)
Giá trò đồng phương sai giữa X và Y được xác đònh như sau
σ
xy
= Cov(X, Y) = E[(X – µ
x
)(Y – µ
y
)] = E[XY – Xµ
y
– µ
x
Y + µ
x
µ
y
] (2.6)
= E(XY) – µ
y
E(X)
– µ
x
E(Y) + µ
x
µ
y
= E(XY) – µ
x
µ
y
Dễ dàng suy ra từ kết luận trên rằng Cov(X,X) = Var(X)
Các đònh nghóa về phương sai và đồng phương sai đều đúng trong cả hai trường hợp
phân phối có dạng rời rạc và liên tục. Vì phương sai chỉ là một đại lượng đo lường mức
độ phân tán của biến ngẫu nhiên xung quanh giá trò trung bình, nên đồng phương sai
giữa hai biến ngẫu nhiên sẽ là đại lượng đo lường mức độ liên kết chung giữa chúng. Giả
sử rằng hai biến ngẫu nhiên rời rạc X và Y quan hệ đồng hướng với nhau, và do đó khi
giá trò Y tăng thì giá trò X cũng tăng theo như biểu diễn trên hình 2.6. Các vòng tròn nhỏ
biểu thò các cặp giá trò của X và Y tương ứng với các kết quả khả dó giới hạn. Đường
gạch chấm biểu diễn giá trò trung bình µ
x
và µ
y
. Bằng cách chuyển trục toạ độ đến đường
gạch chấm này với gốc toạ độ là (µ
x
, µ
y
), chúng ta có thể thấy rằng X
i
– µ
x
và Y
i
– µ
y
là
độ dài tính từ gốc toạ độ mới, đối với một kết quả nào đó được ký hiệu bằng hậu tố
i
. Từ
hình vẽ, có thể chứng minh rằng các điểm nằm trong phần tư thứ nhất và thứ ba sẽ làm
cho tích (X
i
– µ
x
)(Y
i
– µ
y
) luôn có giá trò dương, vì từng số hạng trong biểu thức sẽ cùng
dương hoặc cùng âm. Khi chúng ta tính toán đại lượng đồng phương sai là tổng có trọng
số các tích biểu thức trên, kết quả cuối cùng có khuynh hướng nhận giá trò dương vì có
nhiều số hạng dương hơn các số hạng âm. Vì vậy, giá trò đồng phương sai có khuynh
hướng dấu dương. Trong trường hợp cả hai biến X và Y di chuyển theo hướng ngược lại,
giá trò Cov(X, Y) sẽ có dấu âm.
Mặc dù đại lượng đồng phương sai rất có ích trong việc xác đònh tính chất của mối
liên kết giữa X và Y nhưng nó tồn tại một vấn đề khá nghiêm trọng là các giá trò tính
bằng số rất nhạy đối với giá trò đơn vò dùng để đo biến X và Y. Nếu X là một loại biến
tài chính tính bằng đô-la hơn là tính bằng đơn vò ngàn đô-la, đại lượng đồng phương sai
sẽ dốc đứng do ảnh hưởng của hệ số 1.000. Để tránh vấn đề này, người ta sẽ sử dụng đại
lượng đồng phương sai “được chuẩn hóa”. Đại lượng này còn được gọi là
hệ số tương
quan
giữa biến X và Y và được ký hiệu là ρ
xy
.
ĐỊNH NGHĨA 2.5 (HỆ SỐ TƯƠNG QUAN)
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 18 Thục Đoan/Hào Thi
Hệ số tương quan giữa biến X và Y được đònh nghóa như sau:
2/1
yx
xy
xy
)]Y(Var)X(Var[
)Y,X(Cov
=
σσ
σ
=ρ
(2.7)
Nếu biến X và Y có quan hệ dương thì hệ số tương quan sẽ có dấu dương. Nếu biến
X và y có quan hệ âm thì chúng sẽ di chuyển theo hướng ngược lại. Trong trường hợp
này, giá trò đồng phương sai và hệ số tương quan đều có dấu âm. Hệ số tương quan hoàn
toàn có thể bằng zero. Trong trường hợp này, chúng ta có thể kết luận rằng biến x và y
không có tương quan. Người ta có thể viết rằng 1
2
xy
≤ρ hay tương đương với ρ
xy
≤ 1.
Giá trò
ρ
xy
sẽ bằng 1 khi và chỉ khi có một mối quan hệ tuyến tính chính xác giữa X và
Y theo biểu thức Y –
µ
y
= β( X – µ
x
). Nếu ρ
xy
= 1 thì quan hệ giữa X và Y được gọi
là
tương quan hoàn hảo. Nêu lưu ý rằng mối tương quan hoàn hảo chỉ xảy ra khi giữa X
và Y có
mối quan hệ tuyến tính một cách chính xác. Ví dụ, Y có thể xuất hiện trong biểu
thức dạng Y = X
2
, rõ ràng là có biểu hiện mối quan hệ nhưng hệ số tương quan giữa X và
Y sẽ không thể bằng 1. Vì vậy, hệ số tương quan sẽ đo lường phạm vi của mối liên kết
tuyến tính giữa hai biến.
Nếu biến X và Y là hai biến độc lập thì f
XY
(x, y) = f
X
(x) . f
Y
(y), có nghóa là xác suất
kết hợp chính là tích của các xác suất riêng lẻ. Trong trường hợp này, nên lưu ý từ đònh
nghóa của
σ
xy
, chúng ta có
)y(f)x(f)y)(x(
yxy
xy
xxy
µ−µ−=σ
∑∑
Vì biến x và y bây giờ có thể tách rời nhau nên chúng ta có
µ−
µ−=σ
∑∑
y
yy
x
xxxy
)y(f)y()x(f)x(
)()(
yx
YEXE
µ
µ
−
−=
Nhưng do E(X – µ
x
) = E(X) – µ
x
= 0 (xin xem tính chất 2.1a), nên σ
xy
= 0 và ρ
xy
= 0 nếu
hai biến ngẫu nhiên này là độc lập. Hay nói cách khác,
nếu biến X và Y là hai biến độc
lập thì chúng sẽ không tương quan nhau.
Kết luận ngược lại có thể không còn chính xác (nghóa là mối tương quan zero sẽ
không ngầm đònh tính chất độc lập), và có thể kiểm chứng thông qua các ví dụ sau. Đặt
f
XY
(x, y) tương tự như trong bảng 2.7.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 19 Thục Đoan/Hào Thi
Cov(X, Y) = E(XY) – E(X) E(Y)
E(X) = (1 × 0,4) + (2 × 0,2) + (3 × 0,4) = 2
E(Y) = (6 × 0,4) + (8 × 0,2) + (10 × 0,4) = 8
E(XY) = (6 × 1 × 0,2) + (6 × 3 × 0,2) + (8 × 2 × 0,2) + (10 × 1 × 0,2)
+ (10 × 3 × 0,2) = 16
Vì vậy, Cov(X, Y) = 0. Nhưng biến X và Y là không độc lập vì P(X = 2, Y = 6) = 0, P(X
= 2) = 0,2, và P(Y = 6) = 0,4. Do đó, xác suất kết hợp sẽ không thể bằng tích của các xác
suất riêng lẻ.
} BÀI TẬP THỰC HÀNH 2.6
Sử dụng các biến X và Y với xác suất kết hợp cho trong bảng 2.4, hãy tính giá trò Cov(X,
Y) và ρ
xy
(lưu ý rằng bạn đã tính giá trò trung bình và phương sai trong bài tập 2.5)
} BÀI TẬP THỰC HÀNH 2.7
+
Giả sử biến ngẫu nhiên X chỉ có thể nhận các giá trò 1, 2, 3, 4, và 5, mỗi giá trò ứng với
xác suất bằng nhau và bằng 0,2. Cho Y = X
2
. Hãy tính hệ số tương quan giữa X và Y và
chứng minh rằng hệ số này không bằng 1, cho dù giữa biến X và Y có mối quan hệ chính
xác.
} Bảng 2.7 Ví Dụ Cho Thấy Đồng Phương Sai Bằng Không Không Nhất Thiết Phải Là
Độc Lập
X
Y 6 8 10
F
X
(x)
1 0,2 0 0,2 0,4
2 0 0,2 0 0,2
3 0,2 0 0,2 0,4
F
Y
(y) 0,4 0,2 0,4 1
Tính chất 2.8
liệt kê một số tính chất liên quan đến hai biến ngẫu nhiên.
Tính chất 2.8
a. Nếu a và b là hằng số thì Var(aX + bY) = a
2
Var(X) + b
2
Var(Y) + 2abCov(X,Y). Một
trường hợp đặc biệt của tính chất này là Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,
Y). Tương tự, Var(X – Y) = Var(X) + Var(Y) – 2Cov(X, Y).
b.
Hệ số tương quan ρ
xy
nằm trong khoảng – 1 đến + 1.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 20 Thục Đoan/Hào Thi
c. Nếu X và Y là hai biến độc lập thì σ
xy
= Cov(X, Y) = 0; có nghóa là, X và Y không
tương quan nhau. Trong trường hợp này, kết hợp (a) và hệ quả rút ra từ tính chất này,
ta có Var(X + Y) = Var(X) + Var(Y) và Var(X – Y) = Var(X) + Var(Y).
d.
Giá trò ρ
xy
sẽ bằng 1 khi và chỉ khi tồn tại mối quan hệ tuyến tính chính xác giữa X
và Y theo biểu thức Y – µ
y
= β( X – µ
x
).
e.
Giá trò tương quan giữa biến X và chính nó bằng 1.
f.
Nếu U = a
0
+ a
1
X, V = b
0
+ b
1
Y, và a
1
b
1
> 0 thì ρ
uv
= ρ
xy
; nghóa là hệ số tương quan sẽ
thay đổi trong trường hợp đơn vò đo được điều chỉnh theo tỷ lệ. Nếu a
1
b
1
< 0 thì ρ
uv
=
– ρ
xy
. Tuy nhiên, nếu U = a
0
+ a
1
X + a
2
Y, V = b
0
+ b
1
X + b
2
Y thì ρ
uv
≠ ρ
xy
. Điều này
có nghóa là giá trò tương quan không thay đổi trong trường hợp có sự biến đổi tuyến
tính tổng quát (a
i
và b
i
được giả thiết có giá trò khác zero).
g.
Nếu giá trò a
1
, a
2
, b
1
và b
2
là cố đònh thì Cov(a
1
X + a
2
Y, b
1
X + b
2
Y) = a
1
b
1
Var(X) +
(a
1
b
2
+ a
2
b
1
)Cov(X, Y) + a
2
b
2
Var(Y).
Phân Phối Nhiều Biến
*
Trong phần này, các khái niệm vừa trình bày ở trên sẽ được mở rộng cho trường hợp có
nhiều hơn hai biến ngẫu nhiên. Gọi x
1
, x
2
, …, x
n
tương ứng với n số biến ngẫu nhiên. Và
hàm mật độ xác suất kết hợp của chúng là f
X
(x
1
, x
2
, …, x
n
). Tương tự như trước đây,
chúng là độc lập nếu hàm mật độ xác suất PDF chung là tích của mỗi PDF riêng lẻ. Vì
vậy, chúng ta có
f
X
(x
1
, x
2
, …, x
n
) = f
X1
(x
1
) . f
X2
(x
2
) . . . f
Xn
(x
n
)
Trong trường hợp đặc biệt khi mỗi giá trò x được phân phối giống nhau và độc lập lẫn
nhau (được ký hiệu là
iid – independently and idetically distributed), chúng ta có
f
X
(x
1
, x
2
, …, x
n
) = f
X
(x
1
) . f
X
(x
2
) . . . f
X
(x
n
)
Trong đó f
X
(x) là hàm phân phối chung của mỗi giá trò x. Một số kết quả đáng quan tâm
về phân phối đa biến được trình bày trong
tính chất 2.9.
Tính chất 2.9
a. Nếu a
1
, a
2
, …, a
n
là hằng số hoặc không ngẫu nhiên thì E[a
1
x
1
+ a
2
x
2
+ . . . + a
n
x
n
] =
a
1
E(x
1
) + a
2
E(x
2
) + . . . + a
n
E(x
n
). Vì vậy, giá trò kỳ vọng của một tổ hợp tuyến tính
các số hạng bằng tổ hợp tuyến tính của mỗi giá trò kỳ vọng riêng lẻ. Trong ký hiệu
phép lấy tổng, ta có E[Σ(a
i
x
i
)] = ΣE(a
i
x
i
) = Σa
i
E(x
i
).
b.
Nếu mỗi x
i
đều có giá trò trung bình bằng nhau thì E(x
i
) = µ, chúng ta có E(Σa
i
x
i
) =
µΣa
i
. Đặc biệt, nếu tất cả hệ số a
i
đều bằng nhau và bằng 1/n thì chúng ta sẽ có
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 21 Thục Đoan/Hào Thi
E(Σx
i
/n) = E( x ) = µ. Vì vậy, giá trò kỳ vọng của giá trò trung bình của các biến ngẫu
nhiên có phân phối giống nhau sẽ bằng giá trò trung bình chung của chúng.
c.
Var[Σ(a
i
x
i
)] = Σ
i
2
i
a Var(x
i
) +
∑
∑
≠ ji
ji
aa
Cov(x
i
, x
j
), trong đó các hệ số a
i
được giả
thiết là hằng số hoặc không ngẫu nhiên.
d.
Nếu tất cả các biến x
1
, x
2
, . . ., x
n
đều độc lập thì mỗi cặp tương quan (ρ
ij
) và đồng
phương sai sẽ bằng zero hay Cov(x
i
, x
j
) = 0 = ρ
ij
với mọi i ≠ j.
e.
Từ (c) và (d) ta có thể rút ra kết luận rằng khi biến x độc lập thì Var[Σ(a
i
x
i
)] =
Σ
2
i
a Var(x
i
), vì số hạng đồng phương sai sẽ không tồn tại nữa. Do đó, phương sai
của tổng các biến ngẫu nhiên độc lập sẽ bằng tổng các phương sai. Đặc biệt, nếu tất
cả các giá trò phương sai đều bằng nhau, nghóa là Var(x
i
) = σ
2
với mỗi i, thì
Var[Σ(a
i
x
i
)] = σ
2
Σ
2
i
a .
f.
Nếu tất cả các x
1
, x
2
, . . ., x
n
đều là biến ngẫu nhiên độc lập nghóa là tập biến x
i
có
phân phối chuẩn với giá trò trung bình µ
i
và phương sai
2
i
σ hay được thể hiện bằng
ký hiệu x
i
∼ N(µ
i
,
2
i
σ ) thì tổ hợp tuyến tính của tập biến x cho trước có dạng a
1
x
1
+
a
2
x
2
+ . . . + a
n
x
n
cũng sẽ có dạng phân phối chuẩn với giá trò trung bình là a
1
µ
1
+
a
2
µ
2
+ . . . + a
n
µ
n
và giá trò phương sai là
2
1
2
1
a σ +
2
2
2
2
a σ + . . . +
2
n
2
n
a σ . Trong ký hiệu
phép lấy tổng, chúng ta có thể viết như sau U = Σ( a
i
x
i
) ∼ N[(Σa
i
µ
i
), (Σ
2
i
2
i
a σ )].
g.
Nếu tất cả các x
1
, x
2
, . . ., x
n
đều độc lập và có phân phối giống nhau (iid) tuân theo
phân phối chuẩn N(µ, σ
2
) thì giá trò trung bình của chúng là x = (1/n)Σx
i
sẽ có dạng
phân phối chuẩn với giá trò trung bình bằng µ và phương sai bằng σ
2
/n, nghóa là x ∼
N(µ, σ
2
/n). Tương tự, chúng ta có z =
σµ− /)x(n
∼ N(0, 1).
} 2.4 Lấy Mẫu Ngẫu Nhiên và Các Phân Phối Lấy Mẫu
Một kiểm đònh bằng thống kê có thể phát sinh thêm ngoài nhu cầu giải quyết một bài
toán cụ thể nào đó. Nó có thể là một sự cố gắng nhằm giải thích một cách hợp lý hành vi
trong quá khứ của một tác nhân nào đó hay dự báo các hành vi trong tương lai của
chúng. Trong việc đònh dạng vấn đề, điều quan trọng là phải xác đònh được một
không
gian thống kê hợp lý, hay tổng thể mà bao gồm tổng tất cả các phần tử có liên quan đến
thông tin yêu cầu. Thuật ngữ
tổng thể được dùng theo một nghóa tổng quát và không chỉ
giới hạn khi đề cập đến các sinh vật mà thôi. Tất cả các hạt giống trong thùng lưu trữ,
mọi công ty trong thành phố, và tất cả các bồn sữa được sản xuất bởi trại bò sữa cũng
được gọi là
tổng thể.
Một nhà phân tích sẽ quan tâm nhiều đến những kết luận rút ra về những tính chất
của tổng thể. Điều hiển nhiên là chi phí sẽ rất cao nếu nghiên cứu từng phần tử của tập
chính để đưa ra các kết luận. Do đó mà nhà phân tích sẽ chọn ra một mẫu gồm một số
phần tử, tiến hành quan sát chúng, và sử dụng những quan sát này để rút các kết luận về
đặc điểm của tổng thể mà mẫu phần tử làm đại diện. Quá trình này được gọi là lấy mẫu.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 22 Thục Đoan/Hào Thi
Có thể có rất nhiều cách lấy mẫu: lấy mẫu ngẫu nhiên, lấy mẫu phán đoán, lấy mẫu
chọn lọc, lấy mẫu có hoặc không có hoàn trả phần tử trở lại tổng thể, lấy mẫu phân tầng,
v.v. Trong tài liệu này, chúng tôi chỉ đề cập đến
lấy mẫu ngẫu nhiên, là cách lấy mẫu
thường dùng nhất.
ĐỊNH NGHĨA 2.6 (Lấy mẫu ngẫu nhiên)
Một mẫu ngẫu nhiên đơn giản của
n yếu tố là một mẫu có tính chất rằng mọi tổ hợp của
n yếu tố đều có một cơ hội là mẫu được chọn bằng nhau. Một mẫu ngẫu nhiên của các
quan sát đối với một biến ngẫu nhiên X là một tập hợp của các biến ngẫu nhiên
độc lập,
được phân phối giống nhau (iid) X
1
, X
2
, . . . , X
n
, mỗi biến có cùng phân phối xác suất
như phân phối của X.
Các Phân Phối Mẫu
Một hàm của các giá trò quan sát của các biến ngẫu nhiên không chứa bất kỳ thông số
chưa biết nào được gọi là một
trò thống kê mẫu. Hai trò thống kê mẫu được sử dụng một
cách thường xuyên nhất là trung bình mẫu (ký hiệu là x
_
) và phương sai mẫu (ký hiệu là
s
2
):
Trung bình mẫu: x
_
= (x
1
+ x
2
+ . . . + x
n
)/n =
1
n
∑x
I
(2.8)
Phương sai mẫu: s
2
=
1
(
n
−
1)
(x
1
– x
_
)
2
+
1
(
n
−
1)
(x
2
– x
_
)
2
(2.9)
+ . . . +
1
(
n
−
1)
(x
n
– x
_
)
2
=
1
(
n
−
1)
∑ (x
i
- x
_
)
2
Lý do phải chia cho n – 1 chứ không phải là n được giải thích trong Phần 2.7. Căn bậc
hai của phương sai mẫu (
s) được gọi là độ lệch chuẩn mẫu hay sai số chuẩn. Sự khác
biệt giữa một
trò thống kê mẫu và một thông số tổng thể phải được hiểu một cách rõ
ràng. Giả sử biến ngẫu nhiên X có giá trò kỳ vọng
µ và phương sai σ
2
. Đây là những
thông số tổng thể có giá trò cố đònh và không ngẫu nhiên. Tuy nhiên ngược lại trung bình
mẫu x
_
và phương sai mẫu s
2
là các biến ngẫu nhiên. Điều này là do những thử nghiệm
khác nhau của một thí nghiệm cho các giá trò trung bình mẫu và phương sai khác nhau.
Bởi vì các trò thống kê này là các biến ngẫu nhiên, nó có ý nghóa khi nói về các phân
phối của chúng. Nếu chúng ta rút ra một mẫu ngẫu nhiên có cỡ mẫu là
n và tính trung
bình mẫu x
_
, chúng ta thu được một giá trò nhất đònh. Lặp lại thí nghiệm này nhiều lần,
mỗi lần rút ra một mẫu ngẫu nhiên có cùng cỡ mẫu
n. Chúng ta sẽ có được nhiều giá trò
của trung bình mẫu. Chúng ta khi đó có thể tính tỷ số những lần mà các giá trò trung bình
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 23 Thục Đoan/Hào Thi
này rơi vào một khoảng xác đònh. Tỷ số này cho chúng ta xác suất mà tại đó trung bình
mẫu sẽ nằm trong khoảng xác đònh đó (xem khái niệm tần suất trong xác suất đã được
giới thiệu trong Phần 2.1 và trong Ví dụ 2.1). Bằng cách thay đổi khoảng này, chúng ta
có thể đạt được toàn bộ khoảng xác suất, từ đó phát ra một phân phối xác suất. Phân
phối này được gọi là
phân phối của trung bình mẫu. Với một cách tương tự, chúng ta có
thể tính phương sai mẫu cho mỗi lần lặp lại thử nghiệm đó và sử dụng các giá trò khác
nhau có được từ cách này để đạt được
phân phối của phương sai mẫu. Bởi vì trung bình
và phương sai mẫu này là dành cho một mẫu có kích cỡ xác đònh là
n, chúng ta sẽ kỳ
vọng các phân phối mẫu phụ thuộc vào
n cũng như vào những thông số của phân phối
tổng thể mà mẫu đã được rút ra từ đó.
Lấy Mẫu từ một Phân phối Chuẩn
Các phân phối mẫu của trung bình và phương sai mẫu là mối quan tâm đáng kể trong
kinh tế lượng và thống kê, đặc biệt là khi tổng thể mà các quan sát được rút ra từ đó có
phân phối chuẩn. Cho X là một biến ngẫu nhiên có phân phối chuẩn với trung bình µ và
phương sai
σ
2
. Vì vậy, X ∼ N(µ,σ
2
). Hãy rút ra một mẫu ngẫu nhiên có cỡ n từ tổng thể,
đo lường biến ngẫu nhiên, và thu được các quan sát x
1
, x
2
, . . . , x
n
. Phân phối mẫu của x
_
và
s
2
? Chúng ta lưu ý rằng trung bình mẫu là một sự kết hợp tuyến tính của n biến ngẫu
nhiên. từ Tính chất 2.9g, chúng ta thấy rằng sự kết hợp tuyến tính này cũng có một phân
phối chuẩn. Cụ thể là x
_
cũng có trung bình µ và Var(x
_
) = σ
2
/ n. Do đó chúng ta có tính
chất sau.
Tính chất 2.10
a. Nếu một mẫu ngẫu nhiên x
1
, x
2
, . . . , x
n
được rút ra từ một tổng thể chuẩn với trung
bình
µ và phương sai σ
2
, trung bình mẫu x
_
được phân phối chuẩn với trung bình µ và
phương sai
σ
2
/n. Vì vậy, x
_
∼ N (µ,σ
2
/n). Chúng ta chú ý từ điểm này phân phối của
trung bình mẫu có một sự phân tán nhỏ hơn chung quanh trung bình, và cỡ mẫu càng
lớn thì phương sai càng nhỏ.
b. Phân phối của Z = (x
_
− µ) / (σ / √n ) = √n (x
_
− µ) / σ là N (0,1).
Các công thức của phân phối của phương sai mẫu được xác đònh trong Phương trình
(2.9) sẽ được bàn tiếp ở Phần 2.7.
Các phân phối Mẫu Lớn
Khi cỡ mẫu lớn, chúng ta có thể thu được từ một số tính chất khá hữu ích trong thực tế.
Hai trong số này là
luật số lớn và lý thuyết giới hạn trung tâm được phát biểu ở Tính
chất 2.11.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 24 Thục Đoan/Hào Thi
Tính chất 2.11
a.
Luật số lớn: Gọi Z
_
là trung bình của một mẫu ngẫu nhiên các giá trò Z
1
, Z
2
, . . . ,
Z
n
, được phân phối một cách độc lập và giống nhau. Khi đó Z
_
hội tu về E(Z). Nói
ngắn gọn là khi
n tăng, trung bình mẫu của một tập hợp các biến ngẫu nhiên tiến tới
giá trò kỷ vọng của nó. Một trường hợp đặc biệt của sự gia tăng này xảy ra khi Z
_
= x
_
, trung bình mẫu. Bởi vì
E(x
_
) = µ, trung bình của tổng thể, x
_
hội tụ về µ. Tương tự s
2
= [
∑(x
i
– x
_
)
2
] / (n –1) hội tụ về σ
2
khi n tiến tới vô cực.
b.
Lý thuyết giới hạn trung tâm: Gọi x
1
, x
2
, . . . , x
n
là mẫu ngẫu nhiên của các quan
sát từ cùng một phân phối và gọi E(x
i
) = µ và Var(x
i
) = σ
2
. Khi đó phân phối mẫu
của biến ngẫu nhiên Z
n
= √n (x
_
− µ) / σ hội tụ về phân phối chuẩn chuẩn hóa N
(0,1) khi n hội tụ về vô cực.
Lý thuyết giới hạn trung tâm rất có hiệu lực bởi vì
nó vẫn đúng ngay cả khi phân phối
xuất phát của các quan sát là không chuẩn. Điều này có nghóa là nếu chúng ta chắc chắn
rằng cỡ mẫu là lớn, thì chúng ta có thể sử dụng biến ngẫu nhiên Z
n
được xác đònh ở trên
để trả lời các câu hỏi về tổng thể của các quan sát mà chúng ta rút ra được, và chúng ta
không cần biết phân phối chính xác của tổng thể mà từ đó các quan sát được rút ra.
} 2.5 Các thủ tục Ước lượng Các Thông số
Cho đến đây chúng ta đã có thảo luận các chủ đề cụ thể về xác suất và thống kê để tự
chuẩn bò cho hai mục tiêu cơ bản của bất kỳ một nghiên cứu thực nghiệm nào: việc ước
lượng các thông số chưa biết và việc kiểm đònh các giả thuyết. Trong phần này chúng ta
sẽ thảo luận vấn đề của việc ước lượng. Kiểm đònh giả thuyết sẽ được đề cập ở Phần 2.8.
Trong một khảo sát thực nghiệm, nhà phân tích thường vẫn biết, hoặc có thể ước
đoán được dạng tổng quát của các phân phối xác suất của các biến ngẫu nhiên được quan
tâm. Tuy nhiên, các giá trò cụ thể của các thông số tổng thể của các phân phối là chưa
biết. Như đã có đề cập trước đây, một điều tra toàn diện về tổng thể là vượt ngoài phạm
vi câu hỏi vì chi phí cho việc này quá lớn. Do đó, nhà khảo sát chỉ đạt đến một mẫu quan
sát đối với các biến được quan tâm và sử dụng chúng để rút ra những suy luận về phân
phối xác suất đằng sau đó.
Như là một minh họa, giả sử chúng ta biết rằng chiều cao của một người có phân phối
gần như chuẩn nhưng chúng ta không biết trò trung bình,
µ, của phân phối, hay phương
sai của nó,
σ
2
. Vấn đề của việc ước lượng đơn giản chỉ là một cách lựa chọn một mẫu
các đối tượng, đo đạc chiều cao từng người một, và sau đó dùng các phương pháp đònh
lượng để thu được các ước lượng của
µ và σ
2
. Thuật ngữ ước lượng được dùng để chỉ
công thức cho chúng ta giá trò bằng số của các thông số được quan tâm. Mỗi giá trò bằng
số chính là một
giá trò ước lượng.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê
Ramu Ramanathan 25 Thục Đoan/Hào Thi
Trong phần này chúng ta trình bày hai thủ tục có thể thay thế nhau để ước lượng
các thông số chưa biết của phân phối xác suất mà các quan sát x
1
, x
2
, . . . , x
n
được rút ra
từ đó. trong Phụ lục, Phần 2.A.3, ta mô tả thêm một phương pháp nâng cao. trong phần
thảo luận tiếp theo, chúng ta sẽ giả sử rằng nhà khảo sát biết được bản chất của phân
phối xác suất nhưng chưa biết các giá trò của các thông số.
Phương pháp Momen
Phương pháp lâu đời nhất để ước lượng các thông số là phương pháp momen. Nếu một
phân phối có
k thông số chưa biết, thủ tục nhằm tính toán hệ số các momen mẫu k bậc
nhất của phân phối và sử dụng chúng như là các ước lượng của
các momen tổng thể
tương ứng. Trong Phần 2.2, chúng tôi đã có lưu ý rằng
trung bình tổng thể của phân
phối (
µ) cũng được đề cập đến như là momen bậc nhất của phân phối xung quanh giá trò
gốc. Đó là giá trò trung bình có trọng số của tất cả các x có thể có, các trọng số là các xác
suất tương ứng. Trung bình mẫu (x
_
) là trò trung bình số học của các quan sát mẫu x
1
, x
2
, .
. . , x
n
. Bằng phương pháp các momen, x
_
được tính như là một ước lượng của µ. Phương
sai của một biến ngẫu nhiên là
σ
2
= E [(X – µ)
2
] và được biết như là momen bậc hai xung
quanh giá trò trung bình. Phương sai mẫu (s
2
), được đònh nghóa trong Phương trình (2.9),
được sử dụng như là một ước lượng của
phương sai tổng thể của phân phối. Trong nhiều
trường hợp (ví dụ như, phân phối chuẩn), trung bình và phương sai đặc trưng hoàn toàn
cho một phân phối, và do đó không có nhu cầu phải sử dụng các momen bậc cao hơn như
là giá trò kỳ vọng của (X –
µ)
3
. Chúng ta sẽ thấy trong Phần 2.6 rằng trung bình mẫu có
một số tính chất mong muốn.
Cùng với nguyên lý này có thể được áp dụng để ước lượng hệ số của sự tương quan
giữa hai biến ngẫu nhiên X và Y (xem Đònh nghóa 2.5). Gọi x
1
, x
2
, . . . , x
n
và y
1
, y
2
, . . . ,
y
n
là các mẫu quan sát ngẫu nhiên độc lập (với cỡ mẫu n) tương ứng với X và Y. Phương
sai tổng thể giữa chúng được cho trong Đònh nghóa 2.4 là
E [(X – µ
x
) (Y – µ
y
)], trong đó
µ
x
và µ
y
là các trung bình tổng thể tương ứng của X và Y. Một trò ước lượng của thông số
này được cho bởi
phương sai mẫu
S
xy
= Cov(X, Y) =
1
n – 1
∑ (x
i
– x
_
) (y
i
– y
_
) (2.10)
Nếu các cặp giá trò của x
i
và y
i
được vẽ ra đồ thò, chúng ta có được một đồ thò như
Hình 2.7, trong đó X và Y có tương quan thuận với nhau (nghóa là, X và Y nói chung là
cùng dòch chuyển theo cùng một hướng). Chúng ta đã có đề cập rằng một đồ thò điểm
như vậy được gọi là
biểu đồ phân tán. Hình 2.6 cũng tương tự như vậy ngoại trừ việc
trung bình vẽ những điểm đề cập đến
tổng thể, trong khi ở đây nó lại đề cập đến mẫu.