Tải bản đầy đủ (.pdf) (55 trang)

Một số ứng dụng của phương pháp bootstrap trong xử lý số liệu thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.06 MB, 55 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT
ÐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ÐIỂM

MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP
TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
Mã số: T2013-156

Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung

S K C0 0 5 4 0 8

Tp. Hồ Chí Minh, tháng 11/2013


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN CẤP TRƯỜNG

MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP
BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
Mã số: T2013-156

Chủ nhiệm đề tài: Th.S NGUYỄN HỒNG NHUNG



TP. HCM, 11/2013


TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
KHOA KHOA HỌC CƠ BẢN

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN CẤP TRƯỜNG

MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP
BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
Mã số: T2013-156

Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung

TP. HCM, 11/2013


MỤC LỤC
MỤC LỤC .................................................................................................................................... 1
THÔNG TIN KẾT QUẢ NGHIÊN CỨU ............................................................................. 2
MỞ ĐẦU....................................................................................................................................... 6
CHƢƠNG 1: PHƢƠNG PHÁP BOOTSTRAP ................................................................... 8
1. Đặt vấn đề.................................................................................................................... 8
2. Nội dung phương pháp Bootstrap ............................................................................ 9
3. Sai số tiêu chuẩn Bootstrap ..................................................................................... 13
3.1 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị trung bình μ .......... 14

3.2 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị hệ số tương quan.. 15
3.3 Ước lượng Bootstrap cho sai số tiêu chuẩn của giá trị độ lệch................... 19
4. Ước lượng Bootstrap cho độ chệch........................................................................ 22
CHƢƠNG 2: KHOảNG ƢớC LƢợNG BOOTSTRAP .................................................... 25
1. Khoảng ước lượng Bootstrap-t ............................................................................... 25
1.1 Khoảng ước lượng Bootstrap-t cho trung bình ............................................. 27
1.2 Khoảng ước lượng Bootstrap-t cho trung bình thu gọn ............................... 29
1.3 Khoảng ước lượng Bootstrap-t cho tỷ lệ p .................................................... 31
2. Khoảng ước lượng Bootstrap phần trăm ............................................................... 32
2.1 Khoảng ước lượng Bootstrap 95% cho trung vị (median) .......................... 33
2.2 Khoảng ước lượng Bootstrap 95% cho độ lệch ............................................ 35
2.3 Khoảng ước lượng Bootstrap 95% cho hệ số tương quan ........................... 35
3. Khoảng ước lượng Bootstrap BCa ......................................................................... 36
CHƢƠNG 3: KIểM ĐịNH BOOTSTRAP .......................................................................... 40
1. Kiểm định Bootstrap bài toán hai mẫu .................................................................. 40
1.1 Kiểm định Bootstrap so sánh hai trung bình ................................................. 40
1.2 Kiểm định Bootstrap so sánh hai t ỷ lệ ........................................................... 43
2. Kiểm định Bootstrap bài toán một mẫu................................................................ 45
2.1 Kiểm định Bootstrap so sánh trung bình với µ0 cho trước .......................... 45
2.2 Kiểm định Bootstrap so sánh tỷ lệ với P 0 cho trước..................................... 48
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................................ 50
TÀI LIỆU THAM KHẢO ...................................................................................................... 51

1


TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM


THÀNH PHỐ HỒ CHÍ MINH

Độc lập - Tự do - Hạnh phúc

KHOA KHOA HỌC CƠ BẢN
Tp. HCM, Ngày 25 tháng 11 năm 2013

THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1 . Thông tin chung:

- Tên đề tài: MỘT SỐ ỨNG DỤNG CỦA PHƢƠNG PHÁP BOOTSTRAP
TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
- Mã số: T2013-156
- Chủ nhiệm: Th.S NGUYỄN HỒNG NHUNG
- Cơ quan chủ trì: Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh
- Thời gian thực hiện: 2/2013 đến 11/2013
2. Mục tiêu
Đề tài nghiên cứu ứng dụng của phương pháp Bootstrap đối với bài toán ước lượng và
kiểm định.
3. Tính mới và sáng tạo
Trình bày bài tốn ước lượng bootstrap, kiểm định bootstrap cho các tham số thống kê
cụ thể như trung bình, tỷ lệ, hệ số tương quan,…
Xây dựng thủ tục giải bài toán kiểm định Bootstrap bằng phần mềm Matlab.
4. Kết quả nghiên cứu
Trình bày bài toán ước lượng và kiểm định Bootstrap.
Sử dụng phần mềm Matlab xây dựng thủ tục tính khoảng ước lượng Bootstrap và giải
bài toán kiểm định Bootstrap.
5. Hiệu quả, phƣơng thức chuyển giao kết quả nghiên cứu và khả năng áp dụng
Tài liệu tham khảo cho sinh, học viên cao học chuyên ngành Xác suất Thống kê và
những đối tượng sử dụng phương pháp Bootstrap trong nghiên cứu.

2


Trƣởng Đơn vị

Chủ nhiệm đề tài

(ký, họ và tên)

(ký, họ và tên)

3


INFORMATION ON RESEARCH RESULTS
1. General information:
Project title: Some applications of Bootstrap method
Code number: T2013-156
Coordinator: ME. Nguyễn Hồng Nhung –HCMC University of Technical Education
Implementing institution: HCMC University of Technical Education
Duration: from 2/2013 to 11/2013
2. Objective(s):
Study the applications of Bootstrap with confidence intervals and hypothesis test.
3. Creativeness and innovativeness:
It is shown that the Bootstrap intervals and hypothesis testing with the Bootstrap for
average, percentage, correlation,…
Developprocedures tosolve the hypothesis testing with the Bootstrap by Matlab
software.
4. Research results:
It is shown that the Bootstrap confidence intervals and hypothesis testing with the

Bootstrap.
UsingMatlabsoftwareto developprocedures

in finding the confidence intervals

Bootstrap and solving the hypothesis testing with the Bootstrap.
5. Effects, transfer alternatives of reserach results and applicability:

4


Referencesto students, post-graduate studentsmajoring inStatisticsandProbability and
who using Bootstrapmethodsinthe study.

5


MỞ ĐẦU
1. Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài ở trong và ngoài nƣớc
Phương pháp Bootstrap là phương pháp coi mẫu gốc ban đầu đóng vai trị tổng thể
mà từ đó nó được rút ra. Từ mẫu ban đầu lấy lại các mẫu ngẫu nhiên cùng cỡ với mẫu
gốc bằng phương pháp lấy mẫu có hồn lại, gọi là mẫu bootstrap. Phương pháp
Bootstrap được B.Efron đề xuất vào năm 1970 là một phương pháp lấy mẫu mới và
nó khác so với phương pháp truyền thống ở chỗ nó cho phép xử lý nhiều lần với mẫu
gốc ban đầu. Hiện nay sự phổ biến và phát triển của máy tính đã khắc được nhược
điểm của phương pháp là có khối lượng tính tốn lớn. Chính vì vậy phương pháp
Bootstrap ngày càng được phát triển và được phổ biến rộng rãi.

2. Tính cấp thiết
Trong thống kê, Bootstrap được xem như là một phương pháp giải quyết các bất

định của bài toán thống kê khi cỡ mẫu nhỏ mà không cần giả thuyết về phân phối xác
suất của tham số thống kê cần nghiên cứu. Việc nghiên cứu và phát triển phương
pháp Bootstrap thu hút được sự quan tâm của nhiều nhà khoa học trên thế giới.
Phương pháp cũng được phổ biến rộng rãi khi nhiều trường đại học trên thế giới
giảng dạy cho sinh viên cách s ử dụng.Vì vậy việc tìm hiểu, nghiên cứu và phổ biến
các ứng dụng của phương pháp Bootstrap là việc làm cấp thiết.

3. Mục tiêu
Mục tiêu của đề tài là tìm hiểu ứng dụng của phương pháp Bootstrap đối với bài
toán ước lượng và kiểm định giả thuyết thống kê. Trình bày các bước tìm các khoảng
lượng Bootstrap của các tham số thống kê cụ thể. Xây dựng thủ tục kiểm định
Bootstrap cho bài toán kiểm định một mẫu và bài toán kiểm định hai mẫu.

4. Cách tiếp cận

6


Để giải quết vấn đề trên, đề tài đã sử dụng các kết quả của lý thuyết thống kê cổ
điển về bài tốn ước lượng và kiểm định, từ đó xây dựng bài toán ước lượng và kiểm
định Bootstrap.
5. Phƣơng pháp đối tƣợng và phạm vi nghiên cứu
Tìm hiểu cơ sở của phương pháp Bootstrap và ứng dụng của phương pháp. Nghiên
cứu sử dụng phần mềm Matlab giải các bài tốn tìm khoảng ước lượng Bootstrap và
kiểm định Bootstrap cụ thể.

6. Nội dung nghiên cứu.
Bản báo cáo đề tài gồm phần mở đầu, ba chương nội dung và phần kết luận.
Chương 1 trình bày xuất xứ và ý nghĩa của đề tài khi tìm hiểu ứng dụng của
phương pháp Bootstrap, nội dung của phương pháp Bootstrap và ước lượng sai số tiêu

chuẩn cho các tham số trung bình, tương quan, độ lệch. Sử dụng phần mềm Matlab
lấy mẫu Bootstrap từ đó tính các giá trị tham số mẫu Bootstrap.
Chương 2 trình bày cách tìm khoảng ước lượng Bootstrap-t, khoảng ước lượng
Bootstrap phần trăm và khoảng ước lượng Bootstrap BCa. Sử dụng phần mềm Matlab
lập chương trình tìm một số khoảng lượng Bootstrap trên mẫu cụ thể.
Chương 3 trình các bước kiểm định giả thuyết Bootstrap đối với một mẫu và hai
mẫu cho tham số trung bình và tỷ lệ. Sử dụng phần mềm Matlab lập chương trình
kiểm định giả thuyết Bootstrap đối với một mẫu và hai mẫu cho tham số trung bình và
tỷ lệ.

7


Chƣơng 1: Phƣơng pháp Bootstrap
1. Đặt vấn đề
Giả sử X là biến ngẫu nhiên đặc trưng cho tính chất cần nghiên cứu, X có phân
phối F chưa biết. Để biết X ta cần tìm hiểu phân phối F, bằng cách xác định các
tham sốθcủa F như trung bình, phương sai, median, hệ số tương quan của phân
phối hai biến,…Theo phương pháp thống kê truyền thống ta lấy các mẫu ngẫu
nhiên từ tổng thể nghiên cứu.Sử dụng hàm thống kê T(θ) với mỗi mẫu ta xác định
một giá trịθ của tham số θ tương ứng với mẫu đó. Khi đó với số lượng mẫu quan
sát lớn, ta sẽ có một phân phối mẫu mô phỏng xấp xỉ với phân phối của θ.

Tổng thể
nghiên cứu

Mẫu 1

Giá trị θ 1


Mẫu 2

Giá trị θ 2

Mẫu 3

Giá trị θ 3

Mẫu m

Giá trị θ m

Mô phỏng
phân phối
của ước
lượng θ

Hình 1.Sơ đồ mơ phỏng phân phối mẫu
Ta minh họa với ví dụ tham số θ là trung bình μ. Giả sử X 1 , X 2 , … , X n là các biến
ngẫu đặc trưng cho tính chất cần nghiên cứu của cá thể thứ i với i=1, 2,…,n được
rút ra ngẫu nhiên từ tổng thể. X 1, X 2 ,… , X n có cùng phân phối F với X. X 1 ,
X 2 , … , X n được gọi là mẫu ngẫu nhiên cỡ mẫu n. Ta có X =

1
n

n
i=1 X i

là một hàm


thống kê ước lượng cho tham số μ. Quan sát m mẫu ngẫu nhiên cụ thể

xk 1 ,
8


x k 2 , … , x k n , k=1, 2,…,m. Với mỗi mẫu ngẫu nhiên cụ thể ta có giá trị trung bình
mẫu thực nghiệm x k =

1
n

n
i=1 xk i .

Khi m khá lớn theo định lý giới hạn trung tâm X

có phân phối chuẩn. Do đó ta có mơ phỏng phân phối của BNN trung bình mẫu X
là có dạng chuẩn N(x ,

σ n −1
n

)vớix =

1
n

n

i=1 xi

; σn −1 =

1
n −1

n
i=1

xi − x

2

1

2

. Từ

kết quả này ta có một loạt các bài tốn ước lượng, kiểm định cho giá trị trung bình
μ.
Vấn đề đặt ra trong trường hợp ta chỉ quan sát được duy nhất một mẫu thực
nghiệm x11 , x12 , … , x1n được lấy ra ngẫu nhiên từ tổng thể. Khi đó ta có duy
nhất một giá trị θ1 , vậy làm thế nào chúng ta có thơng tin về phân phối ước lượng
θ của θ?
Để trả lời cho câu hỏi này ta có phương pháp bootstrap.
2. Nội dung phƣơng pháp Bootstrap
Phương pháp Bootstrap là phương pháp coi mẫu gốc ban đầu đóng vai trị tổng thể
mà từ đó nó được rút ra. Từ mẫu ban đầu lấy lại các mẫu ngẫu nhiên cùng cỡ với

mẫu gốc bằng phương pháp lấy mẫu có hồn lại, gọi là mẫu bootstrap. Với mỗi
mẫu lấy lại ta tính được giá trị tham số thống kê quan tâm gọi lại tham số
bootstrap. Sự phân bố của các tham số thống kê mẫu bootstrap là phân phối
bootstap.
Lấy mẫu có hồn lại có nghĩa là sau khi chúng ta rút ra ngẫu nhiên một quan sát từ
mẫu ban đầu, ta đặt nó trở lại trước khi lấy quan sát tiếp theo. Điều này cũng giống
như lấy một số từ một chiếc hộp, sau đó đặt nó trở lại trước khi rút lại.Kết quả là,
bất kỳ số có thể được rút ra một lần, nhiều hơn một lần, hoặc không được rút ra
lần nào.

9


Ký hiệux = x1 , x2 , … , xn

là mẫu gốc ban đầu ta có

mẫu bootstrap x ∗ =

x1∗ , x2∗ , … , xn∗ với mỗi giá trị xi∗ được lấy ngẫu nhiên từ tập các giá trị x1 , x2 , … ,
xn với xác suất 1 n.
Tương ứng với mỗi mẫu bootstrap x ∗ ta có mô phỏng bootstrap của θ là
θ∗ = T(x ∗ )
Với hàm thống kê T(x ∗ ) tương tự với hàm thống kê T(x) tác động lên mẫu x.
Ví dụ như ta có giá trị trung bình bootstrap có dạng


x =

1

n

n

xi∗
i=1

Với mẫu bootstrap ngẫu nhiênX ∗ = X ∗1 ,X ∗2 , … , X ∗n , θ ∗ = T(X ∗ ) là một thống kê
trên mẫu bootstrap, khi đó F ∗ t = P(θ ∗ < 𝑡) là phân phối bootstrap của θ∗ .



Mẫu ban
đầu

Mẫu bootstrap 1

Giá trị θ1

Mẫu bootstrap 2

Giá trị θ 2

Mẫu bootstrap 3

Giá trị θ 3






θ∗

Giá trị

θ1

Mơ phỏng
phân phối
bootstrap của
ước lượng

Mẫu bootstrap b



Giá trị θ b

Hình 2.Sơ đồ mô phỏng phân phối bootstrap
Ta sẽ sử dụng phần mềm Matlab xử lý số liệu thống kê bằng phương pháp
Bootstrap. Matlab là một ngơn ngữ lập trình cấp cao của hãng MathWorks.Matlab
được sử dụng rông rãi trong môi trường học thuật, cơng nghệ.Matlab có khả năng
hỗ trợ tối ưu cho việc nghiên cứu cũng như giảng dạy toán học, kỹ thuật và khoa
học với tính trực quan cao.Matlab có hàng ngàn lệnh và hàm tiện ích và các hàm
10


chuyên dụng trong các Toolbox. Các Toolbox chuyên dụng cho người dùng với
nhiều mục đích như giải tốn sơ cấp, giải tốn thống kê, xử lý tín hiệu số, xử lý
ảnh, logic mờ,…

Khảo sát chiều cao và cân nặng của 50 nam sinh viên năm nhất khoa chất lượng
cao trường đại học sư phạm kỹ thuật, ta có file dữ liệu hightclc1.m và
weightclc1.m đóng vai trị là hai mẫu gốc ban đầu.

>> load hightclc1.m
>> load weightclc1.m
>> n=length(hightclc1); % cỡ mẫu gốc.
>> b=1000; % số lần lấy mẫu bootstrap.
>>theta=mean(hightclc1) % trung bình mẫu gốc.

theta =
1.6812
>>inds= unidrnd(n,n,b);
>>xboot = hightclc1(inds); % lấy b mẫu bootstrap từ mẫu gốc hightclc1.
>>xboot(:,1:7) % biểu diễn 7 mẫu bootstrap đầu tiên.

ans =
1.6600 1.6000 1.6500 1.6600 1.6500 1.7000 1.6800
1.6900 1.6700 1.8200 1.6800 1.7400 1.7700 1.6500
1.6900 1.6500 1.6300 1.6900 1.6600 1.7300 1.6800
1.6900 1.6500 1.7300 1.6900 1.7300 1.6900 1.7300
1.6600 1.7300 1.6500 1.7200 1.5700 1.7200 1.7300
1.7300 1.7200 1.7100 1.7200 1.6400 1.6600 1.7300
1.6000 1.6900 1.6000 1.6800 1.6500 1.6700 1.6600
1.7700 1.5700 1.6500 1.6900 1.7700 1.7400 1.6600
1.6900 1.6800 1.6500 1.7400 1.6600 1.7400 1.7000
1.7000 1.6900 1.7100 1.7300 1.6800 1.7300 1.6200
1.6200 1.7100 1.6400 1.8200 1.7300 1.7300 1.6500
1.7000 1.6300 1.7300 1.7400 1.6300 1.7200 1.6700
1.6900 1.6700 1.6900 1.6300 1.6900 1.6900 1.7000


11


1.7200 1.6500 1.6900 1.6600 1.6900 1.8200 1.6500
1.6600 1.7200 1.6200 1.7300 1.7000 1.7300 1.6600
1.6200 1.6900 1.6600 1.6900 1.6000 1.6000 1.6400
1.7300 1.7700 1.7300 1.6900 1.6900 1.6800 1.7300
1.6900 1.6900 1.7300 1.6900 1.6500 1.6700 1.6600
1.8200 1.6200 1.7300 1.6000 1.6900 1.6900 1.7300
1.6900 1.6300 1.6400 1.6800 1.7300 1.7000 1.6900
1.6500 1.7000 1.7300 1.6900 1.6300 1.7300 1.6500
1.7300 1.6300 1.7000 1.5700 1.6400 1.6500 1.7400
1.7000 1.6600 1.5800 1.6600 1.7300 1.7200 1.6600
1.6400 1.6300 1.6900 1.5800 1.6000 1.6900 1.6600
1.6700 1.6400 1.6600 1.6800 1.6900 1.6400 1.7300
1.7100 1.5700 1.6500 1.6500 1.7000 1.6900 1.7400
1.7100 1.6000 1.7300 1.6500 1.7300 1.7200 1.7300
1.7400 1.6300 1.7400 1.7000 1.7300 1.6800 1.6600
1.6500 1.7100 1.6300 1.6500 1.6300 1.6500 1.6500
1.6500 1.6900 1.6600 1.6400 1.6600 1.6000 1.6600
1.6400 1.5700 1.7300 1.7700 1.6800 1.7300 1.6800
1.7300 1.6600 1.6900 1.6800 1.6000 1.7100 1.7300
1.6000 1.6800 1.6000 1.7100 1.7100 1.6700 1.5800
1.6800 1.7700 1.6000 1.6000 1.6400 1.6900 1.7300
1.7300 1.6900 1.6200 1.6500 1.6900 1.6900 1.6500
1.6600 1.6800 1.6900 1.6000 1.7300 1.7100 1.7300
1.6500 1.7100 1.6500 1.7400 1.6800 1.7100 1.7400
1.6300 1.7100 1.6000 1.6600 1.6300 1.7000 1.6000
1.6900 1.7400 1.7700 1.8200 1.7300 1.6600 1.7200

1.7300 1.6000 1.6200 1.7300 1.6700 1.6000 1.6800
1.7300 1.7300 1.7000 1.6400 1.7300 1.6000 1.6900
1.7400 1.6800 1.6600 1.6900 1.6000 1.6900 1.6400
1.6900 1.7300 1.5700 1.7200 1.6600 1.7200 1.6800
1.8200 1.6900 1.6700 1.7300 1.7300 1.7300 1.7000
1.6000 1.6400 1.6600 1.6400 1.6400 1.7200 1.6000
1.7200 1.6900 1.7300 1.6300 1.7000 1.6500 1.7300
1.6400 1.6000 1.6900 1.6700 1.7200 1.7000 1.7700
1.6500 1.6900 1.6900 1.6700 1.6000 1.6400 1.6900
1.6400 1.5800 1.6000 1.6600 1.6900 1.6700 1.6600
1.7100 1.6800 1.6900 1.8200 1.6400 1.6900 1.7300

>>thetab = mean(xboot); % trung bình của các mẫu bootstrap
>>thetab(:,1:5)% biểu diễn 5 giá trị trung bình bootstrap đ ầu tiên

ans =
1.6870 1.6682 1.6732 1.6846 1.6752
>>hist(thetab) %biểu đồ lịch sử các giá trị trung bình bootstrap
12


%Biểu đồ này cho chúng ta hình ảnh mơ phỏng phân phối của trung bình mẫu
Trung bình các mau bootstrap
300

250

so mau bootstrap

200


150

100

50

0
1.65

1.66

1.67

1.68
1.69
chieu cao trung binh (m)

1.7

1.71

1.72

Hình 3. Biểu đồ mơ phỏng phân phối trung bình mẫu
3. Sai số tiêu chuẩn Bootstrap
Mục đích của thống kê học là đưa ra thơng tin về các tham số của tổng thể nghiên
cứu. Trong thực tế ta khơng biết chính xác các tham số này mà chỉ ước tính dựa
vào một hay nhiều mẫu rút ra từ tổng thể. Nhưng việc chọn mẫu là ngẫu nhiên nên
với mỗi mẫu thực nghiệmthứ kxk = x k 1 , x k 2 , … , xk n


ta có giá trị θ k =

T x k 1 , x k 2 , … , xk n thứ k và các giá trị θ k này có thể thay đổi khi k thay đổi.
Chọn m mẫu (cùng kích thước n), ta có m giá trị θk (k=1, 2, 3, …, m). Độ lệch
tiêu chuẩn của m giá trị θ k gọi là sai số tiêu chuẩn của θ, ký hiệu
se θ =

1
m−1

m

θk −
k=1

1
m

2

m

θk
k =1

13


Sai số tiêu chuẩn phản ánh mức độ thay đổi của các giá trị θk . Giá trị se θ nhỏ

thì các giá trị θ k ít thay đổi (ít biến thiên) ngược lại giá trị se θ lớn thì các giá trị
θk thay đổi nhiều (biến thiên nhiều).
Trong trường hợp không thể lấy nhiều mẫu từ tổng thể để xác định sai số tiêu
chuẩn của θ, ta dùng phương pháp bootstrap ước lượng sai số tiêu chuẩn của θ từ
một mẫu gốc ban đầu. Các bước thực hiện như sau:
Bƣớc 1: Lấy theo phương pháp có hồn l ại từ mẫu gốc ban đầu được b mẫu
bootstrap độc lập cùng cỡ với mẫu gốc xk∗ = xk∗1 , xk∗2 , … , x ∗k n , k=1, 2, …, b.


Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị thống kê θ k =
T x∗k = T x∗k1 , x∗k2 , … , x∗kn , k=1, 2, …, b.

Bƣớc 3: Tính độ lệch tiêu chuẩn của b giá trị tính được ở bước 2.

seb∗ θ∗ =

1
b−1

b

θ∗k −
k=1

1
b

2

b


θ∗k
k=1

Độ lệch tiêu chuẩn này là ước lượng bootstrap của sai số tiêu chuẩn se θ .
Ta có giá trị se∗b θ∗ xấp xỉ se θ khi số lượng mẫu bootstrap b là lớn.
lim seb∗ θ∗ = se θ = se θ∗

b→∞

3.1 Ƣớc l ƣợng Bootstrap cho sai s ố tiêu chu ẩn của gi á trị trung bì nh 𝛍
Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn
của giá trị trung bình μ như sau:
Bƣớc 1: Lấy theo phương pháp có hồn lại từ mẫu gốc ban đầu được b mẫu
bootstrap độc lập cùng cỡ với mẫu gốc xk∗ = xk∗1 , xk∗2 , … , x ∗k n , k=1, 2, …, b.
Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị trung bình
mẫu bootstrap

14


x ∗k

1
=
n

n

i=1


x ∗ki ; k = 1, 2, … , b

Bƣớc 3: Tính độ lệch tiêu chuẩn của b giá trị tính được ở bước 2.
seb∗ μ∗ =

1
b−1

b

xk∗ −
k =1

1
b

2

b

xk∗
k=1

>>seb=std(thetab) % ước lượng bootstrap c ủa sai số tiêu chuẩn của
% chiều cao trung bình c ủa các nam sinh viên năm nhất

seb =
0.0071
3.2 Ƣớc l ƣợng Bootstrap cho sai s ố tiêu chu ẩn của gi á trị hệ số tƣơng

quan
Giả sử với mỗi cá thể nghiên cứu xi ta quan sát hai đặc trưng yi và zi . Ví dụ
như với mỗi hộ gia đinh xi ta quan sát giá trị tổng thu nhập yi và mức chi tiêu
zi . Nói cách khác BNN X là c ặp BNN (Y, Z).Mẫu thực nghiệm x cỡ n gồm
n cặp giá trị (yi , zi ) i=1, 2, …,n.
Hệ số tương quan corr(Y, Z) là tham số đo mức độ phụ thuộc tuyến tính
giữa hai BNN Y và Z. Ta có giátrị |corr(Y, Z)|≤1, và
 Nếu |corr(Y, Z)|=1 thì hai BNN Y, Z có mối quan hệ phụ thuộc tuyến
tính.
 Nếu |corr(Y, Z)| gần 1 thì mối quan hệ phụ thuộc tuyến giữa X và Y là
khá rõ ràng,
 Nếu |corr(Y, Z)| gần 0 thì mối quan hệ phụ thuộc tuyến giữa X và Y là
không rõ ràng,
 Nếu |corr(Y, Z)|=0 thì hai BNN Y, Z khơng phụ thuộc tuyến tính.

15


Công thức xác định hệ số tương quan corr(Y, Z)
E(Y − EY)(Z − EZ)

corr Y, Z =

E(Y − EY)2 E(Z − EZ) 2

Để ước lượng cho hệ số tương quan của tổng thể ta có hệ số tương quan mẫu
n
i=1

corr y, z =


vớiy =

1

n
i =1 y i

n

và z =

1

n
i=1

y i − y zi − z
n
i =1

yi − y

zi − z

n
i =1 zi .

n


Với mẫu bootstrap x ∗ = x1∗ , x2∗ , … , xn∗ =

y1∗ , z1∗ , y2∗ , z2∗ , … , yn∗ , zn∗

ta tính được hệ số tương quan mẫu bootstrap


corr y ,z
vớiy ∗ =

1
n

n

i=1 y i



và z ∗ =

n
i=1

=
1

n
i=1


yi∗ − y ∗ zi∗ − z ∗

yi∗ − y ∗

n
i=1

zi∗ − z ∗

n

i =1 zi .

n

Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn
của giá trị hệ số tương quan corr Y, Z như sau:
Bƣớc 1: Lấy theo phương pháp có hồn lại từ mẫu gốc ban đầu mỗi lần lấy
một cặp giá trị yi∗ , zi∗ , được b mẫu bootstrap độc lập cùng cỡ với mẫu gốc
xk∗ = x ∗k 1 , x ∗k 2 , … , x ∗k n =

y1∗ , z1∗ , y2∗ , z2∗ , … , yn∗ , zn∗ , k=1, 2, …, b.

Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị hệ số tương
quan mẫu bootstrap
rk∗

= corr

vớiyk∗ =


1
n

yk∗ , zk∗

n

i=1 y k i

n
i=1

=

và zk∗ =

yk∗i − yk∗

n
i=1

yk∗
i

1

n

i=1 zk i .


n



yk∗

z∗k i − zk∗
n
i=1

zk∗
i



; k = 1, 2, … , b
zk∗

16


Bƣớc 3: Tính độ lệch tiêu chuẩn của b giá trị rk∗ tính được ở bước 2.
seb∗ corr ∗ =

1
b−1

b


rk∗ −
k=1

1
b

2

b

rk∗
k =1

>> [bootstat,bootsam] = bootstrp(b,@corr,hightclc1,weightclc1);
>>bootstat(1:5,:)% biểu diễn hệ số tương quan của 5 mẫu bootstrap đầu tiên
ans =
0.4126
0.3581
0.2028
0.1114
0.3489
>>bootsam(:,1:5) % Biểu diễn các chỉ số của 5 mẫu bootstrap đầu tiên
ans =
32 37 16 14
2 16

3

7 13 16


24 18 41 40 43
25 28 38 45 43
17 10 30 24 30
21 30 29 30 12
9

3 14 22 29

2 41

4 24 49

36 19 22

8 30

26 13 28 15 48
14 29 33 30 29
21 32 22 41 10
9 16 21 47 34
13 24

3 30 24

38 30

8 44

6


42 44 40 15 46
24

9

8 22 40

15 25 46 24 28
38 27 30 26 38
37 42 45 27 47
4 46
50

3 50 34

1 24 44 25

2 11

6

7

8

39 13 46 12 13

17



49 33 48 24 49
21 48 41

7 46

16 41 17 11 36
31 31 14 24 10
7 17

3 38 13

10 21 45 35 26
23 30 50

6 34

17 18 19 20 34
24 20 33 22 47
3

1

2 13 39

2 34 12 31 15
5 47 37 46

3

37 50 47 27 44

41 12 29 46 48
10 44 42 43

4

46 36 47 14 15
45

5 13 47

30

3

3

2 13 11

35 44 37 27 24
42 48

3

5 27

38 49 28 12 11
29

7


3 24 10

20 37 45 44 37
3 49 27 49 28
3 19 37 20

2

16 26

7

7 46

>>hist(bootstat)
he so tuong quan giua chieu cao va can nang
300

250

so mau bootstrap

200

150

100

50


0
-0.2

-0.1

0

0.1
0.2
0.3
0.4
he so tuong quan bootstrap

0.5

0.6

0.7

Hình 4. Biểu đồ mơ phỏng phân phối hệ số tương quan mẫu
18


>>sebr=std(bootstat) % ước lượng bootstrap của sai số tiêu chuẩn của
% hệ số tương quan giữa chiều cao và cân nặng của các nam sinh viên
% năm nhất

sebr =
0.1031
3.3 Ƣớc l ƣợng Bootstrap cho sai s ố tiêu chu ẩn của gi á trị độ l ệch

Giả sử biến ngẫu nhiên X có phân phối F chưa xác định. Độ lệch γcủa phân
phối F là tham số đo độ bất đối xứng của phân phối F. Ta có
 γ = 0thì F là một phân phối đối xứng tức là giá trị trung vị medX
bằng giá trị modX bằng giá trị trung bìnhEX.
 γ > 0thì F là một phân phối bất đối xứng và modX< medX.
 γ < 0thì F là một phân phối bất đối xứng và modX> medX.
Ta có độ lệch γ được xác định theo cơng thức
X−μ

γ=E

3

σ

Trong đó μ = EX là trung bình c ủa X và σ =

E X − EX

2

là độ lệch chuẩn

của X.
Để ước lượng cho γ ta có giá trị độ lệch mẫu đối với mẫu thực nghiệm
x = x1 , x2 , … , xn
1

g=


n
1
n

với x =

1
n

n
i=1
n
i=1

xi − x

3
3

xi − x

2

2

n
i =1 xi .

19



Với mỗi mẫu bootstrap x ∗ = x1∗ , x2∗ , … , xn∗

ta tính giá trị độ lệch mẫu

bootstrap
1

g =

1
n

với x ∗ =

1
n

n
i=1

n



n
i=1

xi∗ − x ∗


xi∗

3
3



x∗ 2

2

n

i=1 xi .

Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn
của giá trị độ lệch γ như sau:
Bƣớc 1: Lấy theo phương pháp có hồn lại từ mẫu gốc ban đầu được b mẫu
bootstrap độc lập cùng cỡ với mẫu gốc xk∗ = xk∗1 , xk∗2 , … , x ∗k n , k=1, 2, …, b.
Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị độ lệch mẫu
bootstrap
1

g ∗k =

n
1
n

với xk∗ =


1
n

n
i=1
n
i=1

xk∗i − xk∗

xk∗
i



2
xk∗

3
3

2

; k = 1, 2, … , b

n

i =1 x k i .


Bƣớc 3: Tính độ lệch tiêu chuẩn của b giá trị tính được ở bước 2.

seb∗ γ∗ =

1
b−1

b

g ∗k −
k =1

1
b

2

b

g ∗k
k=1

>>skewness(hightclc1) %giá trị độ lệch mẫu
ans =
0.0019
>> skewb = skewness(xboot); % giá trị độ lệch của các mẫu bootstrap
20


>>skewb(:,1:5) %biểu diễn giá trị độ lệch của 5 mẫu bootstrap đầu tiên

ans =
0.4703 -0.2218 0.2200 0.4610 -0.1974
>>hist(skewb)

250

so mau bootstrap

200

150

100

50

0
-1.5

-1

-0.5

0
Do lech bootstrap

0.5

1


1.5

Hình 5. Biểu đồ mơ phỏng phân phối hệ số độ lệch mẫu
>>seskewb=std(skewb) % ước lượng bootstrap của sai số tiêu chuẩn của
% độ lệch mẫu chiều cao của các nam sinh viên năm nhất
seskewb =
0.3612

21


4. Ƣớc lƣợng Bootstrap cho độ chệch
Trong mục trên ta đã xét về sai số tiêu chuẩn là một tham số để đo độ chính xác
của ước lượng θ = T(X) so với giá trị thực θ. Bên cạnh tham số sai số tiêu chuẩn
ta còn một tham số khác dùng để đo độ chính xác của ước lượng θ = T(X) so với
giá trị thực θ đó là độ chệch. Độ chệch là tham số đo độ sai lệch giữa giá trị thực θ
và ước lượng θ = T(X) của nó. Ta có
bias θ , θ = E θ − θ = E T X

−θ

θ = T(X)là một ước lượng không chệch củaθ nếu độ chệch bias θ, θ = 0 tức là
E T X

= θ.Ví dụ như E X − μ = 0 với X =

1
n

n

i=1 X i

là biến ngẫu nhiên trung

bình mẫu. Suy ra trung bình mẫu X là một ước lượng khơng chệch của trung bình
tổng thể μ.
Giá trị bias θ ∗ , θ(x) là nhỏ so với sai số tiêu chuẩn se θ = se θ∗ thì θ = T(X)
là một ước lượng tốt cho tham số θ.
Ta dùng bootstrap để đánh giá độ chệch bias θ, θ của θ = T(X). Công thức xác
định giá trị ước lượng bootstrap cho độ chệch giữa ước lượng bootstrapθ∗ =
T(X ∗ ) so với tham số thống kê mẫu gốc ban đầu θ (x) như sau:
bias θ∗ , θ (x) = E θ∗ − θ (x) = E T x ∗

− θ (x)

Ta có các bước thực hiện để tính giá trị ước lượng bootstrap cho độ chệch như sau:
Bƣớc 1: Lấy theo phương pháp có hồn l ại từ mẫu gốc ban đầu được b mẫu
bootstrap độc lập cùng cỡ với mẫu gốc xk∗ = xk∗1 , xk∗2 , … , x ∗k n , k=1, 2, …, b.


Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị thống kê θ k =
T x∗k = T x∗k1 , x∗k2 , … , x∗kn , k=1, 2, …, b.

Bƣớc 3: Giá trịước lượng bootstrap cho độ chệch là
22


×