Tải bản đầy đủ (.pdf) (62 trang)

Ôn tập lại xác xuất thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (388.67 KB, 62 trang )

Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

CHƯƠNG 2

Ôn Lại Xác Suất và Thống Kê
Trong chương này, chúng ta tóm tắt các khái niệm của xác suất và thống kê được sử dụng

trong kinh tế lượng. Bởi vì một số kiến thức trước đây của xác suất và thống kê cơ bản
được giả sử trong sách này, việc ôn lại này được thiết kế để phục vụ chỉ như là một sự
hướng dẫn lại các chủ đề được sử dụng trong các chương sau này. Điều đó không có nghóa
là một sự nghiên cứu chặt chẽ và trọn vẹn về chủ đề này. Vì lý do này, chúng ta trình bày
rất ít các chứng minh. Để thay thế, chúng ta định nghóa các khái niệm quan trọng dưới
tiêu đề “Định nghóa” và tóm tắt các kết quả hữu dụng dưới tiêu đề “Các tính chất.” Muốn
có sự thảo luận chi tiết của các chủ đề, bạn nên tham khảo các cuốn sách tuyệt hảo được
liệt kê trong mục lục sách tham khảo ở cuối chương. Các phần được đánh dấu hoa thị (*)
có tính chất cao cấp hơn và có thể bỏ qua mà không mất đi ý nghóa chính của nội dung
chủ đề:
Chương này ôn lại tất cả chủ đề có liên quan trong xác suất và thống kê. Nếu đã có
lúc do bạn đã học chủ đề này rồi, bạn nên lướt nhanh qua chương này để gợi nhớ lại. Tuy
nhiên, nếu bạn vừa mới hoàn thành một khóa học về các tài liệu này, chúng tôi đề nghị
bạn đọc Phần 2.1 đến 2.5 (đặc biệt chú trọng về đồng phương sai và sự tương quan được
thảo luận trong Phần 2.3) và tiếp đến đi vào trực tiếp Chương 3 hơn là đọc phần còn lại
của chương này. Bạn có thể quay lại để ôn những phần có liên quan của chương này khi
cần. Các phần trong Chương 2 song song với các phần trong Chương 3, và sự tham khảo


chéo này được chỉ định nhằm giúp cho một sự hoán đổi suôn sẻ giữa các phần có thể thực
hiện được. Điều này cho phép bạn hiểu lý thuyết kinh tế lượng cơ bản tốt hơn và đánh giá
đúng sự hữu ích của xác suất và thống kê một cách dễ dàng hơn.
2.1

Các Biến Ngẫu Nhiên và các Phân Phối Xác Suất
Một cách điển hình, một nhà nghiên cứu thực hiện một thí nghiệm có thể đơn giản như
tung đồng xu hay quay cặp súc sắc hoặc có thể phức tạp như làm một khảo sát các tác
nhân kinh tế hay thực hiện một chương trình điều trị y học thực nghiệm. Dựa trên kết
quả của thí nghiệm, một nhà phân tích có thể đo được các giá trị của các biến quan tâm
mà chúng mô tả đặc điểm của kết quả. Các biến như vậy được biết đến như biến ngẫu
nhiên và thường ký hiệu là X. Các ví dụ bao gồm nhiệt độ tại một thời điểm nào đó, số
cuộc gọi đến qua một tổng đài điện thoại trong một khoảng 5 phút, thu nhập của một hộ
gia đình, tồn kho của một công ty, và giá bán của một căn nhà cũng như các đặc điểm
của nó, như diện tích sinh hoạt hay kích thước lô đất. Một biến ngẫu nhiên là rời rạc nếu

Ramu Ramanathan

1

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng

Chương 2: Ôn lại xác suất và thống kê

nó chỉ mang các giá trị lựa chọn. Số đèn điện tử TV theo lô 20 và số mặt ngửa trong 10
lần tung một đồng xu là các ví dụ của các biến ngẫu nhiên rời rạc. Một biến ngẫu nhiên
là liên tục nếu nó có thể mang bất kỳ giá trị nào trong một khoảng số thực. Khi được đo
lường chính xác, chiều cao của một người, nhiệt độ tại một lúc riêng biệt nào đó, và
lượng năng lượng tiêu thụ trong một giờ là các ví dụ của các biến ngẫu nhiên liên tục.
Quy ước sử dụng trong sách này là ký hiệu một biến ngẫu nhiên bằng mẫu tự hoa (như X
hay Y) và các kết quả cụ thể của nó bởi mẫu tự thường (như x hay y).
Để giữ cho sự trình bày được đơn giản, ta minh họa các khái niệm khác nhau sử
dụng hầu hết các biến ngẫu nhiên rời rạc. Các mệnh đề dễ dàng mở rộng tới trường hợp
của biến ngẫu nhiên liên tục.
Liên kết với mỗi biến ngẫu nhiên là một phân phối xác suất [ký hiệu bởi hàm
f(x)] nó xác định xác suất mà biến ngẫu nhiên sẽ mang các giá trị trong các khoảng xác
định cụ thể. Định nghóa chính thức của một biến ngẫu nhiên không được trình bày ở đây
nhưng có thể tìm thấy trong mọi cuốn sách liệt kê trong mục lục sách tham khảo.
Trong cuốn sách này ta chỉ thảo luận những phân phối có sử dụng trực tiếp trong
kinh tế lượng. Ramanathan (1993) có nhiều ví dụ của cả các phân phối liên tục và rời rạc
không được trình bày ở đây.
VÍ DỤ 2.1
Như là một minh họa, Cục Thuế Nội Bộ Mỹ có thông tin về tổng thu nhập có hiệu chỉnh
từ tất cả tiền thu thuế thu nhập cá nhân (kể cả tính trả chung) cho toàn nước Mỹ. Giả sử
ta thiết lập các khoảng thu nhập 1 – 10.000, 10.000 – 20.000, 20.000 – 30.000, v.v… và
tính toán tỷ lệ tiền thu thuế thuộc vào mỗi nhóm thu nhập. Điều này tạo ra một phân
phối tần suất. Tỷ lệ tiền thu thuộc vào nhóm thu nhập 40.000 – 50.000 có thể được xem
là xác suất mà một khoản thu thuế được rút ngẫu nhiên sẽ có thu nhập thuộc vào khoảng
đó.
Trong Hình 2.1 tỷ lệ của tiền thu thuế được vẽ đồ thị dựa vào các trung điểm của
các khoảng dưới dạng biểu đồ thanh (được biết là biểu đồ tần suất) trong đó diện tích
của các hình chữ nhật bằng với các tỷ lệ tương ứng. Nếu kích thước mẫu là đủ lớn và các

khoảng đủ nhỏ, ta có thể làm gần đúng các tần suất với một đường cong trơn (như trình
bày trong biểu đồ), đó là phân phối xác suất của thu nhập.
VÍ DỤ 2.2
Điểm trung bình (GPA) của một sinh viên thay đổi từ 0 đến 4. Bảng 2.1 có một ví dụ của
phân phối xác suất của GPA. Hình 2.2 là một sự trình bày bằng hình vẽ của phân phối
xác suất. Xác suất mà một sinh viên được chọn ngẫu nhiên có GPA ở giữa 2 và 2,5 là
0,244. Sự diễn giải của các con số khác là tương tự.
Bảng 2.1 Phân Phối Xác Suất Của Điểm Trung Bình (GPA)

Ramu Ramanathan

2

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Khoảng

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

0 – 0,5

1,0 – 1,5


1,5 – 2,0

2,0 – 2,5

2,5 – 3,0

3,0 – 3,5

3,5 – 4,0

0,25
0

x
f(x)

0,5 – 1,0
0,75
0,002

1,25
0,010

1,75
0,049

2,25
0,244


2,75
0,342

3,25
0,255

3,75
0,098

Hình 2.1

Biểu Đồ Tần Suất Đối Với Thu Nhập Hàng Năm

Tỷ lệ
tiền thu thuế

5

15

Hình 2.2

25

35

45

Thu nhập
theo ngàn

đô la

55

Phân Phối Xác Suất Của Điểm Trung Bình (GPA)

f(x)
0,342
0,300

0,200

0,100

0,25

0,75

Hình 2.3 Đồ
Thị Mật Độ Chuẩn
Chuẩn Hóa
Ramu Ramanathan

1,25

1,75

2,25
f(x)


3

2,75

3,25

3,75

X

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

Người sử dụng chương trình GRELT nên thử Phần Máy Tính Thực Hành trong Phụ lục C.
Những người khác được khuyến khích dùng chương trình hồi qui của chính họ để thu
được phân phối tần suất cho DATA2-1 và DATA2-2 (xem Phụ lục D).
Phân Phối Chuẩn
Phân phối liên tục được dùng rộng rãi nhất là phân phối chuẩn (còn được biết là phân
phối Gaussian). Dạng đơn giản nhất của nó, được biết đến là phân phối chuẩn chuẩn
hóa (hoặc chuẩn chuẩn hóa), hàm mật độ xác suất (PDF) của phân phối này laø
f(x) =


1


exp( −x 2 / 2) – ∞ < x < ∞

trong đó exp là hàm mũ. Mật độ chuẩn f(x) là đối xứng xung quanh tọa đôï gốc và có hình
chuông (xem Hình 2.3). P(a ≤ X ≤ b) được xác định bởi vùng tô màu giữa a và b.
VÍ DỤ 2.3
Bảng Phụ lục A.1 có diện tích dưới đường cong chuẩn chuẩn hóa giữa 0 và điểm bất kỳ z.
Như vậy, lấy ví dụ, diện tích từ 0 đến 1,72 là 0,4573. Bởi vì đường cong chuẩn là đối
xứng xung quanh tọa độ gốc, diện tích từ 0 đến –1,72 cũng bằng 0,4573. Diện tích từ
0,65 đến 1,44 có được là độ chênh lệch của các diện tích tính từ 0 và do đó bằng 0,4251
– 0,2422 = 0,1829. Dùng kỹ thuật này và tính chất đối xứng, dễ dàng xác minh rằng P(–
0,65 ≤ X ≤ 1,44) = 0,2422 + 0,4251 = 0,6673 vaø P(–1,44 ≤ X ≤ –0,65) = 0,1829. Để tính

Ramu Ramanathan

4

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng

Chương 2: Ôn lại xác suất và thống kê

P(X > 1,12), ta dùng sự quan hệ P(X > 1,12) = P(X> 0) – P(0 < X < 1,12) = 0,5 – 0,3686
= 0,1314.

Bảng 2.2 Phân Phối Xác Suất cho Số Mặt Ngửa trong Ba Lần Tung Một Đồng Xu.
x
f(x)

0
1/8

1
3/8

2
3/8

3
1/8

Phân Phối Nhị Thức
Như một ví dụ của một hàm xác suất rời rạc, gọi X là số mặt ngửa xuất hiện trong ba lần
tung một đồng xu. X có thể có các giá trị 0, 1, 2, hay 3. Tám kết quả riêng biệt lẫn nhau,
mỗi kết quả có xác suất như nhau là 1/8, được xác định bởi (HHH), (HHT), (HTH),
(THH), (HTT), (THT), TTH), và (TTT). Từ đó có P(X=2) = P(HHT) + P(HTH) +
P(THH) = 3/8. Tiến hành theo cách tương tự, ta có thể thu được các xác suất cho mỗi giá
trị có thể có của X. Bảng 2.2 cung cấp hàm xác suất f(x) cho bốn giá trị của X.
Phân phối là một phần tử của một họ phân phối được biết đến như phân phối nhị
thức. Nó phát sinh khi chỉ có 2 kết quả có thể xảy ra đối với một thí nghiệm, một được

mệnh danh là “thành công” và một là “thất bại”. Gọi p là xác suất của thành công trong
một thí nghiệm cho trước. Xác suất của thất bại là 1 – p. Hơn nữa giả sử rằng xác suất
của thành công là như nhau cho mỗi thí nghiệm và các thí nghiệm là độc lập. Gọi X là số
lần thành công trong n thí nghiệm độc lập. Vậy f(x) có thể trình bày là [xem Freund
(1992), trang 184-185]

n!
n
f(x) =   p x q n −x =
p x q n−x
x! (n − x)!
x

x = 0, 1, . . . , n

trong đó 1 – p = q và n! = n(n –1) … 1 (0! được định nghóa là 1)
VÍ DỤ 2.4

Một sự điều trị bệnh bạch hầu đặc biệt có 25 phần trăm xác suất chữa khỏi hoàn toàn.
Nếu 40 bệnh nhân được chọn ngẫu nhiên được đem điều trị, xác suất để có ít nhất 15
bệnh nhân sẽ được chữa khỏi là gì?
Gọi X = số lần thành công trong 40 lần thử. Vậy ta cần P(X > 15) với p = 0,25. Bảng
Phụ Lục A.6 có xác suất tích lũy cận trên mong muốn là 0,0544.
Thử làm Bài tập 2.1 đến 2.5 và nghiên cứu các đáp án cho Bài tập 2.4 trong Phụ lục B.

Ramu Ramanathan

5

Thục Đoan/Hào Thi



Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

2.2 Kỳ Vọng, Trung Bình và Phương Sai Toán Học

Xét thí nghiệm nhị thức đã mô tả trước đây trong đó một đồng xu được tung ba lần. Giả
sử ta được trả 3$ nếu kết quả là ba mặt ngửa, 2$ nếu có hai mặt ngửa, 1$ nếu chỉ có một
ngửa, và không có gì hết nếu cả ba lần tung đều cho kết quả mặt sấp. Về mặt trung bình,
mỗi thí nghiệm tung ba lần, ta kỳ vọng thắng bao nhiêu? Từ Bảng 2.2 ta lưu ý rằng trong
8 lần thí nghiệm ta có thể kỳ vọng, về mặt trung bình, có một lần có ba mặt đều ngửa
(dẫn đến được trả 3$), ba lần có hai mặt ngửa (tổng tiền được trả là 6$, tính 2$ cho mỗi
lần), và ba lần với một mặt ngửa (tổng tiền được trả là 3$). Vậy ta có thể kỳ vọng tổng
tiền được trả là 12$ (3+6+3) trong 8 lần thử, thành ra tiền được trả trung bình là 1,5 $ cho
mỗi lần thử.
Trung Bình Của Một Phân Phối

Giá trị trung bình được tính trong phần trước được gọi là trung bình của phân phối
(cũng được biết đến như kỳ vọng toán học của X và giá trị kỳ vọng của X). Nó cũng
được biết đến như momen bậc nhất xung quanh giá trị gốc, hay momen định tâm bậc
nhất, và là một đại lượng của định vị. Nó được ký hiệu bởi E(X) hay µ. E(X) là một
trung bình có trọng số của X, với trọng số là các xác suất tương ứng. Trong trường hợp
tổng quát, giả sử một biến ngẫu nhiên rời rạc có thể có các giá trị x1, x2, . . ., xn. P(X = xi)

= f(xi) laø haøm xác suất của biến đó. Nếu tiền được trả cho kết quả X = xi là xi đô-la, tiền
được trả trung bình sẽ là x1f(x1) + x2f(x2) + . . . + xnf(xn) = ∑[xif(xi)], trong đó ∑ ký hiệu
cho phép lấy tổng các số hạng, với i = 1 đến n. (Xem Phụ lục 2.A.1 về phép tổng.) Vậy
ta có định nghóa sau đây.
ĐỊNH NGHĨA 2.1 (Trung Bình Của Một Phân Phối)

Với một biến ngẫu nhiên rời rạc, trung bình của phân phối (µ) được định nghóa là
µ = E(X) =

i =n

∑ [x f (x )]
i =1

i

i

(2.1)

Bởi vì E(X) là trọng số theo xác suất, nó có thể khác với trung bình số học, x =
(∑xi)/n.
Không có lý do vì sao kết quả được mô tả ở trên được giới hạn bằng x. Nó có thể là
bất kỳ hàm nào của x. Giả sử kết quả là x2. Kết quả trung bình sẽ là ∑[xi2f(xi)]. Điều này
được gọi là momen bậc hai của phân phối của X xung quanh giá trị gốc. Khái niệm của
kỳ vọng toán học có thể mở rộng cho bất kỳ hàm số nào của x. Vậy, ta có sự diễn tả sau
đây cho giá trị kỳ vọng của một hàm tổng quát g(X):

VÍ DỤ 2.5
Ramu Ramanathan


(2.2)

E[g(X)] = ∑[g(xi)f(xi)]

6

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

Điểm Kiểm Tra Khả Năng Học Thuật Về Từ Vựng (VSAT) đối với một sinh viên nộp
đơn xin vào đại học có giá trị trải từ 0 đến 700. Bảng 2.3 có một ví dụ của phân phối xác
suất của điểm VSAT cho một tổng thể lớn các sinh viên đại học. Trung bình của phân
phối này được tính là 100 × 0 + 225 × 0,003 + … + 675 × 0,063 = 506,25.
Bảng 2.3 Phân Phối Xác Suất Của Điểm VSAT
Khoaûng
0 – 200
200 – 250
250 – 300
300 – 350
350 – 400

400 – 450
450 – 500
500 – 550
550 – 600
600 – 650
650 – 700

x
100
225
275
325
375
425
475
525
575
625
675

f(x)
0
0,003
0,021
0,033
0,061
0,131
0,201
0,234
0,169

0,084
0,063

Bài Tập Thực Hành 2.1

Giả sử có 10.000 vé số 1$ được bán và có ba giải thưởng được đưa ra: giải nhất 5.000$,
giải nhì 2.000$, và giải ba 500$. Kỳ vọng thắng giải là bao nhiêu?
Bài Tập Thực Hành 2.2

Một thợ bánh mì có hàm xác suất như sau cho nhu cầu bánh mì (tính theo tá hay 12 đơn
vị mỗi ngày). Tồn kho trung bình nên là bao nhiêu?
x
f(x)

0
0,05

1
0,10

2
0,25

3
0,30

4
0,20

5

0,10

6 hay lớn hơn
0

Chúng ta viết một số kết quả liên quan đến giá trị kỳ vọng mà không có chứng
minh. Những kết quả này được kiến nghị nên được nghiên cứu kỹ lưỡng bởi vì chúng sẽ
được sử dụng thường xuyên trong các chương sau. (Hãy thử chứng minh chúng.)
Tính chất 2.1

a. E(X – µ) = E(X) – µ = 0.
b. Nếu c là hằng số hay là biến không ngẫu nhiên, E(c) = c.
c. Nếu c là hằng số hay là biến không ngẫu nhiên, E[cg(X)] = cE[g(x)].

Ramu Ramanathan

7

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê


d. E[u(X) + v(X)] = E[u(X)] + E[v(X)].
Diễn tả bằng từ ngữ, giá trị kỳ vọng của độ lệch so với trung bình là 0. Giá trị kỳ
vọng của một hằng số hay một biến không ngẫu nhiên chính bằng nó. Giá trị kỳ vọng
của một hằng số nhân với một biến ngẫu nhiên bằng hằng số nhân với giá trị kỳ vọng.
Giá trị kỳ vọng của tổng các hàm số của X là tổng các kỳ vọng. Đáp án cho Bài tập 2.6
trong Phụ lục B có chứng minh về Tính chất 2.1 cho trường hợp rời rạc.
Phương Sai và Độ Lệch Chuẩn của Một Biến Ngẫu Nhiên

Đặt µ = E(X) là trung bình của phân phối của X. Một trường hợp đặc biệt của hàm g(X),
mà kỳ vọng của nó được định nghóa trong Phương trình (2.2), được quan tâm đáng kể.
Cho g(X) = (X – µ)2. X – µ là một đại lượng để xem X lệch bao nhiêu so với trung bình
µ. Bình phương đại lượng này sẽ phóng rộng các độ lệch và xử lý các độ lệch dương và
âm như nhau. Trung bình có trọng số xác suất của các độ lệch bình phương này (hay, cụ
thể hơn, kỳ vọng của chúng) là một đo lường của sự phân tán của các giá trị X xung
quanh giá trị trung bình µ. Nó được gọi là phương sai của phân phối (hay momen định
tâm bậc hai) và được ký hiệu bởi σ2 hay Var(X). Nó là một đo lường của sự phân tán
của X xung quanh µ. Một cách chính thức, ta có định nghóa sau.
ĐỊNH NGHĨA 2.2 (Phương Sai và Độ Lệch Chuẩn)

Phương sai của X được định nghóa là
σ2 = Var(X) = E[(X – µ)2] = ∑(xi – µ)2f(xi)

(2.3)

Căn bậc hai (σ) của biểu thức này được gọi là độ lệch chuẩn (s.d.).

Tính chất 2.2 liệt kê vài tính chất của phương sai đúng cho cả phân phối liên tục và
rời rạc.

Tính chất 2.2


a. σ2 = E[(X – µ)2] = E[X2 – 2µX + µ2] = E(X2) – 2µE(X) + µ2 = E(X2) – µ2.
b. Theo đó nếu c là một hằng số hay không ngẫu nhiên, Var(c) = 0.
c. Nếu a và b là các hằng số hay không ngẫu nhiên, Var(a + bX) = b2σ2.
VÍ DỤ 2.6

Hàm xác suất của một biến ngẫu nhiên rời rạc được cho như sau:

Ramu Ramanathan

8

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

x
f(x)

0
0,1

Phương pháp phân tích
Bài đọc

1
0,3


2
0,4

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

3
0,2

Hãy tính trung bình, phương sai, và độ lệch chuẩn.
µ = E(X) = ∑xif(xi)
= (0 × 0,1) + (1 × 0,3) + (2 × 0,4) + (3 × 0,2)
= 0 + 0,3 + 0,8 + 0,6 = 1,7
2
E(X ) = ∑xi2f(xi) = (0 × 0,1) + (1 × 0,3) + (4 × 0,4) + (9 × 0,2)
= 0 + 0,3 + 1,6 + 1,8 = 3,7
Var(X) = E(X2) – µ2 = 3,7 – (1,7)2 = 0,81
σ = Var( X) = 0,9

BÀI TẬP THỰC HÀNH 2.3

Hãy tính trung bình, phương sai, và độ lệch chuẩn cho các phân phối trong các Bảng 2.1
và 2.3.
BÀI TẬP THỰC HÀNH 2.4

Hãy chứng tỏ rằng nếu biến ngẫu nhiên X có trung bình µ và độ lệch chuẩn σ, biến ngẫu
nhiên biến đổi Z = (X – µ)/σ (thường tham chiếu như là giá trị z) có trung bình 0 và
phương sai là 1.
Phân Phối Chuẩn Tổng Quát


Phân phối chuẩn được trình bày trong Phần 2.1 có trung bình 0 và phương sai đơn vị. Một
phân phối chuẩn tổng quát, với trung bình µ và phương sai σ2, thường được viết là N(µ,
σ2), có hàm mật độ như sau:
f(x) =

1

 (x − µ) 2 
exp −

2σ 2 
σ 2π


–∞
(2.4)

trong đó exp ký hiệu của hàm mũ. Nếu X là phân phối chuẩn, nó được viết là X ∼ N(µ,
σ2). Ba phân phối xác suất chuẩn được trình bày trong Hình 2.4. Vài tính chất của phân
phối chuẩn được liệt kê trong Tính chất 2.3.

Ramu Ramanathan

9

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright

Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

Tính chất 2.3

Phân phối chuẩn, với trung bình µ và phương sai σ2 [được viết là N(µ, σ2)], có các tính
chất sau:
a. Đối xứng xung quanh giá trị trung bình µ và có dạng hình chuông.
b. Diện tích dưới đường cong chuẩn giữa µ – σ và µ + σ – nghóa là trong khoảng 1 độ
lệch chuẩn tính từ trung bình – hơi lớn hơn 2/3(0,6826). 95,44 phần trăm diện tích
nằm trong khoảng 2 độ lệch chuẩn tính từ giá trị trung bình – nghóa là, giữa µ – 2σ
và µ + 2σ. 99,73 phần trăm diện tích nằm trong khoảng 3 độ lệch chuẩn tính từ giá
trị trung bình. Vậy, gần như toàn bộ phân phối nằm giữa µ – 3σ và µ + 3σ.
Hình 2.4 Ba Phân Phối Chuẩn

f(x)

(3)

(2)

σ = 10

σ = 15


(1)

σ = 20

10

20

30

X

c. Nếu X có phân phối chuẩn, với trung bình µ và độ lệch chuẩn σ, thì biến ngẫu nhiên
“chuẩn hóa” Z = (X – µ)/σ có phân phối chuẩn chuẩn hóa N(0,1). Bởi tính chất này,
diện tích giữa hai điểm a và b trong N(µ, σ2) sẽ bằng với diện tích giữa các điểm mút
chuẩn hóa (a – µ)/σ và (b – µ)/σ trong N(0, 1). Bảng A.1 có các diện tích theo chuẩn
hóa giữa trung bình 0 và các giá trị khác nhau của Z.
d. Nếu X được phân phối theo N(µ, σ2), thì Y = a + bX, trong đó a và b là hằng số cố
định, được phân phối theo N(a + bµ, b2σ2).
VÍ DỤ 2.7

Ramu Ramanathan

10

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004


Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

Một nhà sản xuất lốp xe đã nhận thấy rằng tuổi thọ của một loại lốp nào đó là một biến
ngẫu nhiên chuẩn với trung bình là 30.000 dặm và độ lệch chuẩn là 2.000 dặm. Công ty
mong muốn đảm bảo lốp xe đó cho N dặm với việc trả lại toàn bộ tiền nếu lốp xe không
dùng được đến giới hạn đó. Giả sử công ty muốn đảm bảo rằng xác suất mà một lốp xe
bị trả lại không quá 0,10 (nghóa là không quá 10 phần trăm số lốp xe sẽ được bán). Giá
trị N công ty nên chọn là bao nhiêu?
Cho X là tuổi thọ của lốp xe. Vậy X được phân phối theo N(30.000, 2.0002). Ta
X -µ
 X -µ N − µ 

muốn P(X ≤ N) ≤ 0,10. P(X ≤ N) = P
là chuẩn
 ≤ 0,10. Cho Z =
σ
σ 
 σ
N−µ

chuẩn hóa. Vậy P Z ≤ z =
 ≤ 0,10. Từ Hình 2.5 ta thấy rằng để thu được diện tích
σ 

của 0,10 phía bên trái của z, ta cần tìm điểm d (= – z) sao cho diện tích giữa 0 và d là

0,40 (do tính chất đối xứng). Từ Bảng A.1 của phụ lục, ta lưu ý rằng P(0 ≤ Z ≤ d = 1,282)
N -µ
= 0,40, nghóa là nếu
≤ – 1,282, thì bất đẳng thức trên sẽ thỏa mãn. Vậy, N ≤ µ –
σ
1,282σ = 30.000 – (1,282)2.000; nghóa là N ≤ 27.436 dặm.
Hình 2.5 Đồ Thị Mật Độ Chuẩn Chuẩn Hóa

f(Z)

40%

40%

10%

10%

z = – 1,828

0

d = 1,828

Z

Hệ Số Biến Thiên

Ramu Ramanathan


11

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

Hệ số biến thiên được định nghóa là tỷ số σ/µ, trong đó tử số là độ lệch chuẩn và mẫu số
là trị trung bình. Đó là một đại lượng của sự phân tán của phân phối tương đối so với trị
trung bình của phân phối. Chúng ta sẽ gặp phải khái niệm này lần nữa trong Chương 14
khi thực hiện một dự án thực nghiệm.
Để có thảo luận của các đo lường khác đặc trưng cho một phân phối, xem
Ramanathan (1993, Phần 3.5). Phần Máy Tính Thực Hành 2.2 (xem Bảng Phụ lục D.1)
minh họa các khái niệm này cho người sử dụng GRELT, dùng dữ liệu mẫu về điểm trung
bình của 427 sinh viên.
2.3 Các Xác Suất Kết Hợp, Đồng Phương Sai, và Tương Quan

Các hàm xác suất được xác định với một cặp biến ngẫu nhiên nào đó (ví dụ như biến
PRICE và SQFT hay biến tiêu dùng và thu nhập) được gọi là phân phối xác suất kết hợp
hay phân phối hai biến. Để việc trình bày đơn giản hơn, phần thảo luận chỉ tập trung vào
các biến ngẫu nhiên rời rạc. Sự khái quát hoá đối với trường hợp biến liên tục có thể dễ
dàng suy ra. Gọi X và Y là hai biến ngẫu nhiên rời rạc, x và y là các giá trị tương ứng mà
hai biến trên có thể đạt được. Xác suất mà X = x và Y = y được gọi là hàm xác suất kết

hợp đối với X và Y và được biểu thị thông qua hàm fXY(x, y). Vì thế ta có hàm fXY(x, y)
= P(X = x, Y = y), có nghóa là P(X = x và Y = y). Vì hàm xác suất thường được biểu thị
bằng f() nên chúng ta dùng ký hiệu XY đặt ở bên dưới để quy định hai biến ngẫu nhiên
kết hợp đang quan sát là X và Y.
VÍ DỤ 2.8

Hãy xem xét cuộc thí nghiệm thảy một cặp súc sắc. Có thể có 36 trường hợp xảy ra,
được biểu thị theo (1, 1), (1, 2), …, (6, 6), trong đó chữ số đầu tiên là kết quả của súc sắc
thứ nhất và số hạng thứ hai biểu thị kết quả của súc sắc thứ hai. Mỗi kết quả đều có khả
năng xảy ra như nhau, và vì vậy xác suất xảy ra của mỗi kết quả cụ thể là 1/36. Bây giờ,
đặt biến ngẫu nhiên X = số lần xuất hiện của số 3 ở kết quả thu được. Do đó, nêu kết quả
là (1, 5) thì X = 0; nếu là (3, 6) thì X = 1; và X = 2 khi và chỉ khi kết quả là (3, 3). Giá trị
X chỉ chỉ có thể là 0, 1, và 2. Kế tiếp, chúng ta định nghóa biến ngẫu nhiên Y = số lần
xuất hiện của số 5 xuất hiện nơi kết quả cụ thể, giá trị của Y cũng chỉ có thể là 0, 1, và 2.
Kết quả (1, 3) sẽ tương ứng với X = 1 và Y = 0. Dễ dàng kiểm chứng các giá trị xác suất
kết hợp cho trong bảng 2.4. Ví dụ, biến cố kết hợp (X = 1, Y = 1) có thể xảy ra chỉ khi có
kết quả là (3, 5) hoặc (5, 3), mỗi trường hợp đều có xác suất là 1/36. Vì thế, f(1, 1) = P(X
= 1, Y = 1) = 1/36. Các giá trị xác suất khác cũng được tính toán tương tự (hãy kiểm
chứng các kết luận này như là bài tập thực hành).

Ramu Ramanathan

12

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004


Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

Sự Độc Lập Thống Kê
Các biến ngẫu nhiên rời rạc được gọi là sự độc lập thống kê nếu P(X = x vaø Y = y) =
P(X = x) . P(Y = y). Vì vậy trong trường hợp này, xác suất kết hợp là tích của các xác
suất riêng lẻ. Đối với trường hợp biến có dạng liên tục, chúng ta sẽ có fXY(x, y) = fX(x).
fY(y).
Xác Suất Có Điều Kiện
Để biết thêm về xác suất của những biến cố xảy ra kết hợp của hai biến ngẫu nhiên X và
Y, chúng ta cũng cần nên biết về xác suất xảy ra của biến ngẫu nhiên cụ thể (Y) nào đó
cho trước sự kiện đã xảy ra của một biến (X) ngẫu nhiên khác. Ví dụ, chúng ta có thể
muốn biết xác suất để giá mua một căn nhà là 200.000 đô la, nếu cho trước diện tích sinh
hoạt phải là 1.500 thước vuông Anh. Yêu cầu này sẽ dẫn chúng ta đến khái niệm xác
suất có điều kiện, được định nghóa trong trường hợp biến ngẫu nhiên dạng rời rạc như
sau:

P(Y = y  X = x) =

P(X = x, Y = y)
với P(X = x) ≠ 0
P( X = x )

Ký hiệu “” có nghóa là cho trước.
Hàm mật độ xác suất có điều kiện (cho cả khi
biến ngẫu nhiên là rời rạc và liên tục) được định nghóa như sau:
fYX(x, y) =


fXY (x, y)
với mọi giá trị của x sao cho fX(x) > 0
f X ( x)

Trong đó fXY(x, y) là hàm mật độ xác suất kết hợp của X và Y và fX(x) là hàm mật độ
xác suất của riêng biến X, thường được đề cập đến như là hàm mật độ cận biên của
biến X. Lưu ý rằng xác suất có điều kiện phụ thuộc vào cả giá trị x và y. Khi cả hai biến
ngẫu nhiên này phụ thuộc thống kê lẫn nhau thì phân phối xác suất có điều kiện trở
thành các phân phối cận biên tương ứng. Để hiểu được điều này, hãy lưu ý rằng sự độc
lập thống kê ngầm định fXY(x, y) = fX(x) . fY(y). Rút ra từ kết luận này, chúng ta có:
fYX (yx) = fXY(x, y)/fX(x) = fY(y) và fXY (xy) = fXY(x, y)/fY(y) = fX(x)
Bảng 2.4 Phân phối xác suất kết hợp đối với số lần xuất hiện các con số 3 (X) và
số 5 (Y) khi một cặp súc sắc được thảy.

Ramu Ramanathan

13

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

X 0


Y
0
1
2

1

16/36
8/36
1/36

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

2
8/36
2/36
0

1/36
0
0

VÍ DỤ 2.9

Bảng 2.4 trình bày các giá trị xác suất kết hợp của số lần xuất hiện của số 3 (X) và số 5
(Y) khi một cặp súc sắc được thảy. Chúng ta hãy tính kết quả thứ nhất của mật độ cận
biên của biến X và Y. Vì X = 0 có thể xảy ra khi Y = 0 hoặc 1 hoặc 2, P(X = 0) có thể
tính toán được bằng P(X = 0, Y = 0) + P(X = 0, Y = 1) + P(X = 0, Y = 2) = 16/36 + 8/36 +
1/36 = 25/36. Tính toán tương tự, chúng ta có P(X = 1) = 10/36 và P(X = 2) = 1/36. Lưu ý

rằng tổng của ba giá trị xác suất trên là bằng 1, vì điều này là hiển nhiên. Phân phối cận
biên của Y cũng được xác định theo trình tự tính toán tương tự. Bảng 2.5 trình bày các
giá trị cận biên của X và Y ở các hàng và cột ngoài cùng tương ứng. Lưu ý rằng các giá
trị này xuất hiện với các quy luật giống nhau.
Bảng 2.5 Phân Phối Cận Biên Đối Với Số Lần Xuất Hiện Các Con Số 3 (X) Và Số
5 (Y) Khi Một Cặp Súc Sắc Được Thảy.

Y
0
1
2
fX(x)

X 0

1

16/36
8/36
1/36
25/36

2

fY(y)

8/36
2/36
0
10/36


1/36
0
0
1/36

25/36
10/36
1/36
1

Bảng 2.6 Phân Phối Có Điều Kiện Đối Với Số Lần Xuất Hiện Các Con Số 5 (Y)
Cho Trước Số Lần Xuất Hiện Của Các Số 3 (X) Khi Một Cặp Súc Sắc
Được Thảy.

Y
0
1
2

X 0
0,64
0,80
1,00

1

2

0,32

0,20
0,00

0,04
0,00
0,00

Xác suất có điều kiện để Y = 0 với X = 0 cho trước được tính toán như sau:
P(Y = 0X = 0) = P(X = 0, Y = 0)/ P(X = 0) = 16/36 ÷ 25/36 = 0,64
Ramu Ramanathan

14

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

Tiến hành tương tự, chúng ta sẽ có được các giá trị phân phối có điều kiện của biến Y
với X cho trước trình bày trong bảng 2.6.

Giá Trị Kỳ Vọng Toán Học Trong Trường Hợp Hai Biến


Khái niệm kỳ vọng toán học có thể mở rộng dễ dàng sang trường hợp các biến ngẫu
nhiên gồm hai biến. Cho trước hàm g(X, Y) và hàm xác suất kết hợp f(x, y), giá trị kỳ
vọng của g(X, Y) được xác định bằng cách nhân g(x, y) với f(x, y) và cộng tổng các giá
trị có thể có của x và y. Chúng ta có các định nghóa sau đây.
ĐỊNH NGHĨA 2.3 (GIÁ TRỊ KỲ VỌNG)

Giá trị kỳ vọng của g(X, Y) được xác định như sau:
E[g(X, Y)] =

∑∑ g(x, y)f (x, y)
x

y

Trong đó phép tính tổng hai lần biểu diễn phép tính tổng trên tất cả các giá trị có thể có
của x và y. (Vì vậy giá trị kỳ vọng sẽ bằng tổng có trọng số với giá trị xác suất kết hợp
được dùng làm trọng số).
Gọi µx là giá trị kỳ vọng của biến ngẫu nhiên X, và µy là giá trị kỳ vọng của biến
ngẫu nhiên Y. Phương sai của chúng được xác định tương tự như trường hợp đơn biến:
σ 2 = E[(X − µ x ) 2 ] và σ 2 = E[(Y − µ y ) 2 ]
x
y

(2.5)

BÀI TẬP THỰC HÀNH 2.5

Từ các giá trị xác suất kết hợp cho trong bảng 2.4, hãy tính trị trung bình µx = E(X), µy =
E(Y), và phương sai σ 2 , σ 2 . Hãy kiểm chứng rằng biến X và Y là không độc lập thống
x

y
kê với nhau.
Giá Trị Kỳ Vọng Có Điều Kiện và Phương Sai Có Điều Kiện

Giá trị kỳ vọng của Y với X cho trước được gọi là giá trị kỳ vọng của Y với X cho
trước. Một cách cụ thể hơn, đối với một cặp biến ngẫu nhiên rời rạc, thì E(YX =x) =
∑ y fYX(x,y). Hay nói cách khác, đó là giá trị trung bình của Y sử dụng giá trị mật độ
Y =y

có điều kiện của

∑ y fYX(x,y) như một trọng số. Giá trị kỳ vọng của Y với X cho trước

Y =y

Ramu Ramanathan

15

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê


còn được gọi là giá trị hồi quy của Y theo X. Từ bảng 2.6, chúng ta có thể thấy rằng
E(YX = 0) = (0,64 × 0) + (0,32 × 1) + (0,04 × 2) = 0,32 + 0,08 = 0,4; E(YX = 1) = 0,2;
vaø E(YX = 2) = 0. Trong mô hình hồi quy đơn giản được trình bày trong ví dụ 1.1,
chúng ta có PRICE = α + β SQFT + u. Nếu E(uSQFT) = 0 thì E(PRICESQFT) = α + β
SQFT. Vì vậy, phần xác định của mô hình là giá trị kỳ vọng có điều kiện của biến
PRICE với SQFT cho trước, khi E(uSQFT) = 0.
Khái niệm giá trị kỳ vọng có điều kiện đã trình ở trên có thể mở rộng dễ dàng để
tính toán phương sai có điều kiện, được xác định như sau. Gọi µ*(X) là giá trị kỳ vọng
có điều kiện của Y cho trước X, được ký hiệu là E(YX). Phương sai có điều kiện của Y
với X cho trước được định nghóa như sau Var(YX) = EYX [(Y – µ* )2 | X ]. Nói cách
khác, cố định giá trị của biến X và tính toán giá trị trung bình có điều kiện của Y với X
cho trước, và sau đó tính toán phương sai xung quanh giá trị trung bình này với trọng số
là mật độ có điều kiện fYX(x,y).
Một số tính chất của giá trị kỳ vọng có điều kiện sử dụng trong môn học kinh tế lượng
được tóm tắt sau đây. Để hiểu rõ thêm về phần chứng minh, xin tham khảo tác giả
Ramanathan (1993, phần 5.2).
Tính chất 2.4

Đối với mọi hàm u(x) thì ta luôn có E[u(x)X] = u(x). Tính chất này ngầm định
rằng khi tiến đến giá trị kỳ vọng có điều kiện cho trước X thì hàm u(X) tiến đến
giá trị hằng số. Do đó, một trường hợp đặc biệt được suy ra là nếu c là hằng số thì
E(cX) = c.

Tính chất 2.5

E([a(x) + b(X)Y]X) = a(X) + b(X) E(YX)

Tính chất 2.6


EXY(Y) = EX [EYX (YX)]. Tính chất này có nghóa là giá trị kỳ vọng không điều
kiện của Y, sử dụng mật độ chung giữa X và Y, có thể tính toán được bằng cách
tính trước tiên giá trị kỳ vọng có điều kiện của Y với X cho trước (là biểu thức
trong dấu ngoặc vuông), sau đó tính giá trị kỳ vọng của chúng theo X. Tính chất
này được gọi là luật của các giá trị kỳ vọng lặp (law of iterated expectations).

Tính chất 2.7

Var(Y) = EX[Var(YX)] + VarX[E(YX)]. Nói cách khác, giá trị phương sai của
Y sử dụng hàm mật độ kết hợp fXY(x, y) tính toán được sẽ tương đương với giá trị
kỳ vọng của phương sai có điều kiện của biến Y cộng với phương sai của giá trị
kỳ vọng có điều kiện của biến Y với X cho trước.

Đồng phương sai và tương quan

Khi gặp phải hai biến ngẫu nhiên, một trong những vấn đề thường thu hút sự quan tâm là
mối quan hệ giữa hai biến này như thế nào? Khái niệm đồng phương sai và tương quan
là hai cách để đo lường mức độ quan hệ “chặt” giữa hai biến ngẫu nhiên đó.
Ramu Ramanathan

16

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc


Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

Hãy xem xét hàm g(X, Y) = (X – µX)(Y – µY). Giá trị kỳ vọng của hàm số này được
gọi là đồng phương sai giữa X và Y và được ký hiệu là σXY hay Cov(X, Y).
ĐỊNH NGHĨA 2.4 (ĐỒNG PHƯƠNG SAI)

Giá trị đồng phương sai giữa X và Y được xác định như sau
σxy = Cov(X, Y) = E[(X – µx)(Y – µy)] = E[XY – Xµy – µxY + µxµy]
= E(XY) – µyE(X) – µxE(Y) + µxµy = E(XY) – µxµy

(2.6)

Dễ dàng suy ra từ kết luận trên rằng Cov(X,X) = Var(X)
Các định nghóa về phương sai và đồng phương sai đều đúng trong cả hai trường hợp
phân phối có dạng rời rạc và liên tục. Vì phương sai chỉ là một đại lượng đo lường mức
độ phân tán của biến ngẫu nhiên xung quanh giá trị trung bình, nên đồng phương sai
giữa hai biến ngẫu nhiên sẽ là đại lượng đo lường mức độ liên kết chung giữa chúng. Giả
sử rằng hai biến ngẫu nhiên rời rạc X và Y quan hệ đồng hướng với nhau, và do đó khi
giá trị Y tăng thì giá trị X cũng tăng theo như biểu diễn trên hình 2.6. Các vòng tròn nhỏ
biểu thị các cặp giá trị của X và Y tương ứng với các kết quả khả dó giới hạn. Đường
gạch chấm biểu diễn giá trị trung bình µx và µy. Bằng cách chuyển trục toạ độ đến đường
gạch chấm này với gốc toạ độ là (µx, µy), chúng ta có thể thấy rằng Xi – µx và Yi – µy là
độ dài tính từ gốc toạ độ mới, đối với một kết quả nào đó được ký hiệu bằng hậu tố i . Từ
hình vẽ, có thể chứng minh rằng các điểm nằm trong phần tư thứ nhất và thứ ba sẽ làm
cho tích (Xi – µx)(Yi – µy) luôn có giá trị dương, vì từng số hạng trong biểu thức sẽ cùng
dương hoặc cùng âm. Khi chúng ta tính toán đại lượng đồng phương sai là tổng có trọng
số các tích biểu thức trên, kết quả cuối cùng có khuynh hướng nhận giá trị dương vì có
nhiều số hạng dương hơn các số hạng âm. Vì vậy, giá trị đồng phương sai có khuynh

hướng dấu dương. Trong trường hợp cả hai biến X và Y di chuyển theo hướng ngược lại,
giá trị Cov(X, Y) sẽ có dấu âm.
Mặc dù đại lượng đồng phương sai rất có ích trong việc xác định tính chất của mối
liên kết giữa X và Y nhưng nó tồn tại một vấn đề khá nghiêm trọng là các giá trị tính
bằng số rất nhạy đối với giá trị đơn vị dùng để đo biến X và Y. Nếu X là một loại biến
tài chính tính bằng đô-la hơn là tính bằng đơn vị ngàn đô-la, đại lượng đồng phương sai
sẽ dốc đứng do ảnh hưởng của hệ số 1.000. Để tránh vấn đề này, người ta sẽ sử dụng đại
lượng đồng phương sai “được chuẩn hóa”. Đại lượng này còn được gọi là hệ số tương
quan giữa biến X và Y và được ký hiệu là ρxy.

ĐỊNH NGHĨA 2.5 (HỆ SỐ TƯƠNG QUAN)

Ramu Ramanathan

17

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

Hệ số tương quan giữa biến X và Y được định nghóa như sau:


ρ xy =

σ xy
σxσy

=

Cov(X, Y)
[Var(X)Var(Y)]1 / 2

(2.7)

Nếu biến X và Y có quan hệ dương thì hệ số tương quan sẽ có dấu dương. Nếu biến
X và y có quan hệ âm thì chúng sẽ di chuyển theo hướng ngược lại. Trong trường hợp
này, giá trị đồng phương sai và hệ số tương quan đều có dấu âm. Hệ số tương quan hoàn
toàn có thể bằng zero. Trong trường hợp này, chúng ta có thể kết luận rằng biến x và y
không có tương quan. Người ta có thể viết rằng ρ 2 ≤ 1 hay tương đương với ρxy ≤ 1.
xy
Giá trị ρxysẽ bằng 1 khi và chỉ khi có một mối quan hệ tuyến tính chính xác giữa X và
Y theo biểu thức Y – µy = β( X – µx). Nếu ρxy = 1 thì quan hệ giữa X và Y được gọi
là tương quan hoàn hảo. Nêu lưu ý rằng mối tương quan hoàn hảo chỉ xảy ra khi giữa X
và Y có mối quan hệ tuyến tính một cách chính xác. Ví dụ, Y có thể xuất hiện trong biểu
thức dạng Y = X2, rõ ràng là có biểu hiện mối quan hệ nhưng hệ số tương quan giữa X và
Y sẽ không thể bằng 1. Vì vậy, hệ số tương quan sẽ đo lường phạm vi của mối liên kết
tuyến tính giữa hai biến.
Nếu biến X và Y là hai biến độc lập thì fXY(x, y) = fX(x) . fY(y), có nghóa là xác suất
kết hợp chính là tích của các xác suất riêng lẻ. Trong trường hợp này, nên lưu ý từ định
nghóa của σxy, chúng ta có

σ xy = ∑∑ (x − µ x )(y − µ y )fx (x)f y (y)

x

y

Vì biến x và y bây giờ có thể tách rời nhau nên chúng ta có



σ xy = ∑ (x − µ x )f x (x) ∑ (y − µ y )fy (y)
 x
 y

= E ( X − µ x ) E (Y − µ y )

Nhưng do E(X – µx) = E(X) – µx = 0 (xin xem tính chất 2.1a), nên σxy = 0 và ρxy = 0 nếu
hai biến ngẫu nhiên này là độc lập. Hay nói cách khác, nếu biến X và Y là hai biến độc
lập thì chúng sẽ không tương quan nhau.
Kết luận ngược lại có thể không còn chính xác (nghóa là mối tương quan zero sẽ
không ngầm định tính chất độc lập), và có thể kiểm chứng thông qua các ví dụ sau. Đặt
fXY(x, y) tương tự như trong bảng 2.7.

Ramu Ramanathan

18

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004


Cov(X, Y)
E(X)
E(Y)
E(XY)

=
=
=
=

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

E(XY) – E(X) E(Y)
(1 × 0,4) + (2 × 0,2) + (3 × 0,4) = 2
(6 × 0,4) + (8 × 0,2) + (10 × 0,4) = 8
(6 × 1 × 0,2) + (6 × 3 × 0,2) + (8 × 2 × 0,2) + (10 × 1 × 0,2)
+ (10 × 3 × 0,2) = 16

Vì vậy, Cov(X, Y) = 0. Nhưng biến X và Y là không độc lập vì P(X = 2, Y = 6) = 0, P(X
= 2) = 0,2, vaø P(Y = 6) = 0,4. Do đó, xác suất kết hợp sẽ không thể bằng tích của các xác
suất riêng lẻ.
BÀI TẬP THỰC HÀNH 2.6

Sử dụng các biến X và Y với xác suất kết hợp cho trong bảng 2.4, hãy tính giá trị Cov(X,
Y) và ρxy (lưu ý rằng bạn đã tính giá trị trung bình và phương sai trong bài tập 2.5)

BÀI TẬP THỰC HÀNH 2.7

+

Giả sử biến ngẫu nhiên X chỉ có thể nhận các giá trị 1, 2, 3, 4, và 5, mỗi giá trị ứng với
xác suất bằng nhau và bằng 0,2. Cho Y = X2. Hãy tính hệ số tương quan giữa X và Y và
chứng minh rằng hệ số này không bằng 1, cho dù giữa biến X và Y có mối quan hệ chính
xác.
Bảng 2.7 Ví Dụ Cho Thấy Đồng Phương Sai Bằng Không Không Nhất Thiết Phải Là
Độc Lập
Y
X
1
2
3
FY(y)

6

8

10

FX(x)

0,2
0
0,2
0,4


0
0,2
0
0,2

0,2
0
0,2
0,4

0,4
0,2
0,4
1

Tính chất 2.8 liệt kê một số tính chất liên quan đến hai biến ngẫu nhiên.
Tính chất 2.8
a. Nếu a và b là hằng số thì Var(aX + bY) = a2Var(X) + b2Var(Y) + 2abCov(X,Y). Một
trường hợp đặc biệt của tính chất này là Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,
Y). Tương tự, Var(X – Y) = Var(X) + Var(Y) – 2Cov(X, Y).
b. Hệ số tương quan ρxy nằm trong khoảng – 1 đến + 1.

Ramu Ramanathan

19

Thục Ñoan/Haøo Thi


Chương trình Giảng dạy Kinh tế Fulbright

Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

c. Nếu X và Y là hai biến độc lập thì σxy = Cov(X, Y) = 0; có nghóa là, X và Y không
tương quan nhau. Trong trường hợp này, kết hợp (a) và hệ quả rút ra từ tính chất này,
ta có Var(X + Y) = Var(X) + Var(Y) và Var(X – Y) = Var(X) + Var(Y).
d. Giá trị ρxy sẽ bằng 1 khi và chỉ khi tồn tại mối quan hệ tuyến tính chính xác giữa X
và Y theo biểu thức Y – µy = β( X – µx).
e. Giá trị tương quan giữa biến X và chính nó bằng 1.
f. Neáu U = a0 + a1X, V = b0 + b1Y, và a1b1 > 0 thì ρuv = ρxy; nghóa là hệ số tương quan sẽ
thay đổi trong trường hợp đơn vị đo được điều chỉnh theo tỷ lệ. Nếu a1b1 < 0 thì ρuv =
– ρxy. Tuy nhiên, neáu U = a0 + a1X + a2Y, V = b0 + b1X + b2Y thì ρuv ≠ ρxy. Điều này
có nghóa là giá trị tương quan không thay đổi trong trường hợp có sự biến đổi tuyến
tính tổng quát (ai và bi được giả thiết có giá trị khác zero).
g. Nếu giá trị a1, a2, b1 và b2 là cố định thì Cov(a1X + a2Y, b1X + b2Y) = a1b1Var(X) +
(a1b2 + a2b1)Cov(X, Y) + a2b2Var(Y).
Phân Phối Nhiều Biến *

Trong phần này, các khái niệm vừa trình bày ở trên sẽ được mở rộng cho trường hợp có
nhiều hơn hai biến ngẫu nhiên. Gọi x1, x2, …, xn tương ứng với n số biến ngẫu nhiên. Và
hàm mật độ xác suất kết hợp của chúng là fX(x1, x2, …, xn). Tương tự như trước đây,
chúng là độc lập nếu hàm mật độ xác suất PDF chung là tích của mỗi PDF riêng lẻ. Vì
vậy, chúng ta có
fX(x1, x2, …, xn) = fX1(x1) . fX2(x2) . . . fXn(xn)
Trong trường hợp đặc biệt khi mỗi giá trị x được phân phối giống nhau và độc lập lẫn

nhau (được ký hiệu là iid – independently and idetically distributed), chúng ta có
fX(x1, x2, …, xn) = fX (x1) . fX (x2) . . . fX (xn)
Trong đó fX(x) là hàm phân phối chung của mỗi giá trị x. Một số kết quả đáng quan tâm
về phân phối đa biến được trình bày trong tính chất 2.9.
Tính chất 2.9
a. Nếu a1, a2, …, an là hằng số hoặc không ngẫu nhiên thì E[a1x1 + a2x2 + . . . + anxn] =
a1E(x1) + a2E(x2) + . . . + anE(xn). Vì vậy, giá trị kỳ vọng của một tổ hợp tuyến tính
các số hạng bằng tổ hợp tuyến tính của mỗi giá trị kỳ vọng riêng lẻ. Trong ký hiệu
phép lấy tổng, ta có E[Σ(aixi)] = ΣE(aixi) = ΣaiE(xi).
b. Nếu mỗi xi đều có giá trị trung bình bằng nhau thì E(xi) = µ, chúng ta có E(Σai xi) =
µΣai. Đặc biệt, nếu tất cả hệ số ai đều bằng nhau và bằng 1/n thì chúng ta sẽ có

Ramu Ramanathan

20

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

E(Σxi/n) = E( x ) = µ. Vì vậy, giá trị kỳ vọng của giá trị trung bình của các biến ngẫu
nhiên có phân phối giống nhau sẽ bằng giá trị trung bình chung của chúng.

c. Var[Σ(aixi)] = Σi a 2 Var(xi) + ∑∑ a i a j Cov(xi, xj), trong đó các hệ số ai được giả
i
i≠ j

d.
e.

f.

g.

thiết là hằng số hoặc không ngẫu nhiên.
Nếu tất cả các biến x1, x2, . . ., xn đều độc lập thì mỗi cặp tương quan (ρij) và đồng
phương sai sẽ bằng zero hay Cov(xi, xj) = 0 = ρij với mọi i ≠ j.
Từ (c) và (d) ta có thể rút ra kết luận rằng khi biến x độc lập thì Var[Σ(aixi)] =
Σ a 2 Var(xi), vì số hạng đồng phương sai sẽ không tồn tại nữa. Do đó, phương sai
i
của tổng các biến ngẫu nhiên độc lập sẽ bằng tổng các phương sai. Đặc biệt, nếu tất
cả các giá trị phương sai đều bằng nhau, nghóa là Var(xi) = σ2 với mỗi i, thì
Var[Σ(aixi)] = σ2Σ a 2 .
i
Nếu tất cả các x1, x2, . . ., xn đều là biến ngẫu nhiên độc lập nghóa là tập biến xi có
phân phối chuẩn với giá trị trung bình µi và phương sai σ 2 hay được thể hiện bằng
i
2
ký hiệu xi ∼ N(µi, σ i ) thì tổ hợp tuyến tính của tập biến x cho trước có dạng a1 x1 +
a2 x2 + . . . + an xn cũng sẽ có dạng phân phối chuẩn với giá trị trung bình là a1 µ1 +
2 2
a2 µ2 + . . . + an µn và giá trị phương sai là a 1 σ 1 + a 2 σ 2 + . . . + a 2 σ 2 . Trong kyù hiệu
2 2

n n
phép lấy tổng, chúng ta có thể viết như sau U = Σ( ai xi) ∼ N[(Σai µi), (Σ a 2 σ 2 )].
i
i
Nếu tất cả các x1, x2, . . ., xn đều độc lập và có phân phối giống nhau (iid) tuân theo
phân phối chuẩn N(µ, σ2) thì giá trị trung bình của chúng là x = (1/n)Σxi sẽ có dạng
phân phối chuẩn với giá trị trung bình bằng µ và phương sai bằng σ2/n, nghóa là x ∼
N(µ, σ2/n). Tương tự, chúng ta có z = n ( x − µ) / σ ∼ N(0, 1).

2.4 Lấy Mẫu Ngẫu Nhiên và Các Phân Phối Lấy Mẫu

Một kiểm định bằng thống kê có thể phát sinh thêm ngoài nhu cầu giải quyết một bài
toán cụ thể nào đó. Nó có thể là một sự cố gắng nhằm giải thích một cách hợp lý hành vi
trong quá khứ của một tác nhân nào đó hay dự báo các hành vi trong tương lai của
chúng. Trong việc định dạng vấn đề, điều quan trọng là phải xác định được một không
gian thống kê hợp lý, hay tổng thể mà bao gồm tổng tất cả các phần tử có liên quan đến
thông tin yêu cầu. Thuật ngữ tổng thể được dùng theo một nghóa tổng quát và không chỉ
giới hạn khi đề cập đến các sinh vật mà thôi. Tất cả các hạt giống trong thùng lưu trữ,
mọi công ty trong thành phố, và tất cả các bồn sữa được sản xuất bởi trại bò sữa cũng
được gọi là tổng thể.
Một nhà phân tích sẽ quan tâm nhiều đến những kết luận rút ra về những tính chất
của tổng thể. Điều hiển nhiên là chi phí sẽ rất cao nếu nghiên cứu từng phần tử của tập
chính để đưa ra các kết luận. Do đó mà nhà phân tích sẽ chọn ra một mẫu gồm một số
phần tử, tiến hành quan sát chúng, và sử dụng những quan sát này để rút các kết luận về
đặc điểm của tổng thể mà mẫu phần tử làm đại diện. Quá trình này được gọi là lấy mẫu.

Ramu Ramanathan

21


Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

Có thể có rất nhiều cách lấy mẫu: lấy mẫu ngẫu nhiên, lấy mẫu phán đoán, lấy mẫu
chọn lọc, lấy mẫu có hoặc không có hoàn trả phần tử trở lại tổng thể, lấy mẫu phân tầng,
v.v. Trong tài liệu này, chúng tôi chỉ đề cập đến lấy mẫu ngẫu nhiên, là cách lấy mẫu
thường dùng nhất.
ĐỊNH NGHĨA 2.6 (Lấy mẫu ngẫu nhiên)

Một mẫu ngẫu nhiên đơn giản của n yếu tố là một mẫu có tính chất rằng mọi tổ hợp của
n yếu tố đều có một cơ hội là mẫu được chọn bằng nhau. Một mẫu ngẫu nhiên của các
quan sát đối với một biến ngẫu nhiên X là một tập hợp của các biến ngẫu nhiên độc lập,
được phân phoái gioáng nhau (iid) X1, X2, . . . , Xn, mỗi biến có cùng phân phối xác suất
như phân phối của X.
Các Phân Phối Mẫu
Một hàm của các giá trị quan sát của các biến ngẫu nhiên không chứa bất kỳ thông số
chưa biết nào được gọi là một trị thống kê mẫu. Hai trị thống kê mẫu được sử dụng một
_

cách thường xuyên nhất là trung bình mẫu (ký hiệu là x) và phương sai mẫu (ký hiệu là
s2):

1
_
(2.8)
Trung bình mẫu: x = (x1 + x2 + . . . + xn)/n = ∑xI
n
Phương sai mẫu: s2 =

1
(n − 1)

+...+
=

1

_

(x1 – x)2 +
1

(n − 1)

(n − 1)

_

(x2 – x)2

(2.9)


_

(xn – x)2

1

_
∑ (xi - x)2
(n − 1)

Lý do phải chia cho n – 1 chứ không phải là n được giải thích trong Phần 2.7. Căn bậc
hai của phương sai mẫu (s) được gọi là độ lệch chuẩn mẫu hay sai số chuẩn. Sự khác
biệt giữa một trị thống kê mẫu và một thông số tổng thể phải được hiểu một cách rõ
ràng. Giả sử biến ngẫu nhiên X có giá trị kỳ vọng µ và phương sai σ2. Đây là những
thông số tổng thể có giá trị cố định và không ngẫu nhiên. Tuy nhiên ngược lại trung bình
_

mẫu x và phương sai mẫu s2 là các biến ngẫu nhiên. Điều này là do những thử nghiệm
khác nhau của một thí nghiệm cho các giá trị trung bình mẫu và phương sai khác nhau.
Bởi vì các trị thống kê này là các biến ngẫu nhiên, nó có ý nghóa khi nói về các phân
phối của chúng. Nếu chúng ta rút ra một mẫu ngẫu nhiên có cỡ mẫu là n và tính trung
_

bình mẫu x, chúng ta thu được một giá trị nhất định. Lặp lại thí nghiệm này nhiều lần,
mỗi lần rút ra một mẫu ngẫu nhiên có cùng cỡ mẫu n. Chúng ta sẽ có được nhiều giá trị
của trung bình mẫu. Chúng ta khi đó có thể tính tỷ số những lần mà các giá trị trung bình

Ramu Ramanathan

22


Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

này rơi vào một khoảng xác định. Tỷ số này cho chúng ta xác suất mà tại đó trung bình
mẫu sẽ nằm trong khoảng xác định đó (xem khái niệm tần suất trong xác suất đã được
giới thiệu trong Phần 2.1 và trong Ví dụ 2.1). Bằng cách thay đổi khoảng này, chúng ta
có thể đạt được toàn bộ khoảng xác suất, từ đó phát ra một phân phối xác suất. Phân
phối này được gọi là phân phối của trung bình mẫu. Với một cách tương tự, chúng ta có
thể tính phương sai mẫu cho mỗi lần lặp lại thử nghiệm đó và sử dụng các giá trị khác
nhau có được từ cách này để đạt được phân phối của phương sai mẫu. Bởi vì trung bình
và phương sai mẫu này là dành cho một mẫu có kích cỡ xác định là n, chúng ta sẽ kỳ
vọng các phân phối mẫu phụ thuộc vào n cũng như vào những thông số của phân phối
tổng thể mà mẫu đã được rút ra từ đó.
Lấy Mẫu từ một Phân phối Chuẩn
Các phân phối mẫu của trung bình và phương sai mẫu là mối quan tâm đáng kể trong
kinh tế lượng và thống kê, đặc biệt là khi tổng thể mà các quan sát được rút ra từ đó có
phân phối chuẩn. Cho X là một biến ngẫu nhiên có phân phối chuẩn với trung bình µ và
phương sai σ2. Vì vậy, X ∼ N(µ,σ2). Hãy rút ra một mẫu ngẫu nhiên có cỡ n từ tổng thể,
_


đo lường biến ngẫu nhiên, và thu được caùc quan saùt x1, x2, . . . , xn. Phân phối mẫu của x
và s2? Chúng ta lưu ý rằng trung bình mẫu là một sự kết hợp tuyến tính của n biến ngẫu
nhiên. từ Tính chất 2.9g, chúng ta thấy rằng sự kết hợp tuyến tính này cũng có một phân
_

_

phối chuẩn. Cụ thể là x cũng có trung bình µ và Var(x) = σ2 / n. Do đó chúng ta có tính
chất sau.
Tính chất 2.10
a. Nếu một mẫu ngẫu nhiên x1, x2, . . . , xn được rút ra từ một tổng thể chuẩn với trung
_

bình µ và phương sai σ2, trung bình mẫu x được phân phối chuẩn với trung bình µ và
_

phương sai σ2/n. Vì vậy, x ∼ N (µ,σ2/n). Chúng ta chú ý từ điểm này phân phối của
trung bình mẫu có một sự phân tán nhỏ hơn chung quanh trung bình, và cỡ mẫu càng
lớn thì phương sai càng nhỏ.
b.

_

_

Phân phối của Z = (x − µ) / (σ / √n ) = √n (x − µ) / σ là N (0,1).

Các công thức của phân phối của phương sai mẫu được xác định trong Phương trình
(2.9) sẽ được bàn tiếp ở Phần 2.7.
Các phân phối Mẫu Lớn

Khi cỡ mẫu lớn, chúng ta có thể thu được từ một số tính chất khá hữu ích trong thực tế.
Hai trong số này là luật số lớn và lý thuyết giới hạn trung tâm được phát biểu ở Tính
chất 2.11.

Ramu Ramanathan

23

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Tính chất 2.11

a.

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê

_

Luật số lớn: Gọi Z là trung bình của một mẫu ngẫu nhiên các giá trị Z1, Z2, . . . ,
_

Zn , được phân phối một cách độc lập và giống nhau. Khi đó Z hội tu về E(Z). Nói

ngắn gọn là khi n tăng, trung bình mẫu của một tập hợp các biến ngẫu nhiên tiến tới
_

_

giá trị kỷ vọng của nó. Một trường hợp đặc biệt của sự gia tăng này xảy ra khi Z = x
_

_

, trung bình mẫu. Bởi vì E(x) = µ, trung bình của tổng thể, x hội tụ về µ. Tương tự s2
_

= [∑(xi – x)2] / (n –1) hội tụ về σ2 khi n tiến tới vô cực.
b. Lý thuyết giới hạn trung tâm: Gọi x1, x2, . . . , xn là mẫu ngẫu nhiên của các quan
sát từ cùng một phân phối và gọi E(xi) = µ và Var(xi) = σ2. Khi đó phân phối mẫu
_

của biến ngẫu nhiên Zn = √n (x − µ) / σ hội tụ về phân phối chuẩn chuẩn hóa N
(0,1) khi n hội tụ về vô cực.
Lý thuyết giới hạn trung tâm rất có hiệu lực bởi vì nó vẫn đúng ngay cả khi phân phối
xuất phát của các quan sát là không chuẩn. Điều này có nghóa là nếu chúng ta chắc chắn
rằng cỡ mẫu là lớn, thì chúng ta có thể sử dụng biến ngẫu nhiên Zn được xác định ở trên
để trả lời các câu hỏi về tổng thể của các quan sát mà chúng ta rút ra được, và chúng ta
không cần biết phân phối chính xác của tổng thể mà từ đó các quan sát được rút ra.
2.5 Các thủ tục Ước lượng Các Thông số
Cho đến đây chúng ta đã có thảo luận các chủ đề cụ thể về xác suất và thống kê để tự
chuẩn bị cho hai mục tiêu cơ bản của bất kỳ một nghiên cứu thực nghiệm nào: việc ước
lượng các thông số chưa biết và việc kiểm định các giả thuyết. Trong phần này chúng ta
sẽ thảo luận vấn đề của việc ước lượng. Kiểm định giả thuyết sẽ được đề cập ở Phần 2.8.

Trong một khảo sát thực nghiệm, nhà phân tích thường vẫn biết, hoặc có thể ước
đoán được dạng tổng quát của các phân phối xác suất của các biến ngẫu nhiên được quan
tâm. Tuy nhiên, các giá trị cụ thể của các thông số tổng thể của các phân phối là chưa
biết. Như đã có đề cập trước đây, một điều tra toàn diện về tổng thể là vượt ngoài phạm
vi câu hỏi vì chi phí cho việc này quá lớn. Do đó, nhà khảo sát chỉ đạt đến một mẫu quan
sát đối với các biến được quan tâm và sử dụng chúng để rút ra những suy luận về phân
phối xác suất đằng sau đó.
Như là một minh họa, giả sử chúng ta biết rằng chiều cao của một người có phân phối
gần như chuẩn nhưng chúng ta không biết trị trung bình, µ, của phân phối, hay phương
sai của nó, σ2. Vấn đề của việc ước lượng đơn giản chỉ là một cách lựa chọn một mẫu
các đối tượng, đo đạc chiều cao từng người một, và sau đó dùng các phương pháp định
lượng để thu được các ước lượng của µ và σ2. Thuật ngữ ước lượng được dùng để chỉ
công thức cho chúng ta giá trị bằng số của các thông số được quan tâm. Mỗi giá trị bằng
số chính là một giá trị ước lượng.

Ramu Ramanathan

24

Thục Đoan/Hào Thi


Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004

Phương pháp phân tích
Bài đọc

Nhập môn kinh tế lượng với các ứng dụng
Chương 2: Ôn lại xác suất và thống kê


Trong phần này chúng ta trình bày hai thủ tục có thể thay thế nhau để ước lượng
các thông số chưa biết của phân phối xác suất mà các quan sát x1, x2, . . . , xn được rút ra
từ đó. trong Phụ lục, Phần 2.A.3, ta mô tả thêm một phương pháp nâng cao. trong phần
thảo luận tiếp theo, chúng ta sẽ giả sử rằng nhà khảo sát biết được bản chất của phân
phối xác suất nhưng chưa biết các giá trị của các thông số.
Phương pháp Momen
Phương pháp lâu đời nhất để ước lượng các thông số là phương pháp momen. Nếu một
phân phối có k thông số chưa biết, thủ tục nhằm tính toán hệ số các momen mẫu k bậc
nhất của phân phối và sử dụng chúng như là các ước lượng của các momen tổng thể
tương ứng. Trong Phần 2.2, chúng tôi đã có lưu ý rằng trung bình tổng thể của phân
phối (µ) cũng được đề cập đến như là momen bậc nhất của phân phối xung quanh giá trị
gốc. Đó là giá trị trung bình có trọng số của tất cả các x có thể có, các trọng số là các xác
_

suất tương ứng. Trung bình mẫu (x) là trị trung bình số học của các quan sát mẫu x1, x2, .
_

. . , xn . Bằng phương pháp các momen, x được tính như là một ước lượng của µ. Phương
sai của một biến ngẫu nhiên là σ2 = E [(X – µ)2] và được biết như là momen bậc hai xung
quanh giá trị trung bình. Phương sai mẫu (s2), được định nghóa trong Phương trình (2.9),
được sử dụng như là một ước lượng của phương sai tổng thể của phân phối. Trong nhiều
trường hợp (ví dụ như, phân phối chuẩn), trung bình và phương sai đặc trưng hoàn toàn
cho một phân phối, và do đó không có nhu cầu phải sử dụng các momen bậc cao hơn như
là giá trị kỳ vọng của (X – µ)3. Chúng ta sẽ thấy trong Phần 2.6 rằng trung bình mẫu có
một số tính chất mong muốn.
Cùng với nguyên lý này có thể được áp dụng để ước lượng hệ số của sự tương quan
giữa hai biến ngẫu nhiên X và Y (xem Định nghóa 2.5). Gọi x1, x2, . . . , xn và y1, y2, . . . ,
yn là các mẫu quan sát ngẫu nhiên độc lập (với cỡ mẫu n) tương ứng với X và Y. Phương
sai tổng thể giữa chúng được cho trong Định nghóa 2.4 là E [(X – µx) (Y – µy)], trong đó

µx và µy là các trung bình tổng thể tương ứng của X và Y. Một trị ước lượng của thông số
này được cho bởi phương sai maãu
Sxy = Cov(X, Y) =

1
n–1

_
_
∑ (x – x) (y – y)
i

i

(2.10)

Nếu các cặp giá trị của xi và yi được vẽ ra đồ thị, chúng ta có được một đồ thị như
Hình 2.7, trong đó X và Y có tương quan thuận với nhau (nghóa là, X và Y nói chung là
cùng dịch chuyển theo cùng một hướng). Chúng ta đã có đề cập rằng một đồ thị điểm
như vậy được gọi là biểu đồ phân tán. Hình 2.6 cũng tương tự như vậy ngoại trừ việc
trung bình vẽ những điểm đề cập đến tổng thể, trong khi ở đây nó lại đề cập đến mẫu.

Ramu Ramanathan

25

Thục Đoan/Hào Thi



×