Tải bản đầy đủ (.docx) (62 trang)

(Đề tài NCKH) một số ứng dụng của phương pháp bootstrap trong xử lý số liệu thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (782.34 KB, 62 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT
ÐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ÐIỂM

MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP
BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
Mã số: T2013-156

Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung

SKC005408

Tp. Hồ Chí Minh, tháng 11/2013


BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG
ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH
PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN CẤP TRƯỜNG

MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP
BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
Mã số: T2013-156

Chủ nhiệm đề tài: Th.S NGUYỄN HỒNG NHUNG


TP. HCM, 11/2013


TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH KHOA KHOA
HỌC CƠ BẢN

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN CẤP TRƯỜNG

MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP
BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
Mã số: T2013-156

Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung

TP. HCM, 11/2013


MỤC LỤC
MỤC LỤC

...................................

THÔNG TIN KẾT QUẢ NGHIÊN CỨU .............................................................................
MỞ ĐẦU.......................................................................................................................................
CHƢƠNG 1: PHƢƠNG PHÁP BOOTSTRAP ...................................................................

1.Đặt vấn đề............................................................

2.Nội dung phương pháp Bootstrap .....................
3.Sai số tiêu chuẩn Bootstrap ...............................
3.1
3.2Ước lượng Bootstra
3.3Ước lượng Bootstra
4.Ước lượng Bootstrap cho độ chệch..................

Ước lượng Bootstrap cho sai số tiêu chuẩn c ủa giá trị trung bình μ .......

CHƢƠNG 2: KHOảNG ƢớC LƢợNG BOOTSTRAP ....................................................

1.Kho ảng ước lượng Bootstrap-t ........................
1.1Kho ảng ước lượng
1.2Kho ảng ước lượng
1.3Kho ảng ước lượng
2.Kho ảng ước lượng Bootstrap phần trăm .........
2.1Kho ảng ước lượng
2.2Kho ảng ước lượng
2.3Kho ảng ước lượng
3.Kho ảng ước lượng Bootstrap BCa ...................
CHƢƠNG 3: KIểM ĐịNH BOOTSTRAP ..........................................................................

1.Kiểm định Bootstrap bài toán hai mẫu ............
1.1Kiểm định Bootstra
1.2Kiểm định Bootstrap
2.Kiểm định Bootstrap bài toán một mẫu...........
2.1Kiểm định Bootstra
2.2Kiểm định Bootstra
KẾT LUẬN VÀ KIẾN NGHỊ................................................................................................
TÀI LIỆU THAM KHẢO ......................................................................................................



TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM

THÀNH PHỐ HỒ CHÍ MINH

Độc lập - Tự do - Hạnh phúc

KHOA KHOA HỌC CƠ BẢN
Tp. HCM, Ngày 25 tháng 11 năm 2013

THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thông tin chung:

Tên đề tài: MỘT SỐ ỨNG DỤNG CỦA PHƢƠNG PHÁP
BOOTSTRAP
TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ
- Mã số: T2013-156
- Chủ nhiệm: Th.S NGUYỄN HỒNG NHUNG
- Cơ quan chủ trì: Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh
- Thời gian thực hiệ n: 2/2013 đến 11/2013
2.

Mục tiêu

Đề tài nghiên cứu ứng dụng c ủa phương pháp Bootstrap đối với bài toán ước lượng
và kiểm định.
3. Tính mới và sáng tạo

Trình bày bài tốn ước lượng bootstrap, kiểm định bootstrap cho các tham số thống kê
cụ thể như trung bình, tỷ lệ, hệ số tương quan,…
Xây dựng thủ tục giải bài toán kiểm định Bootstrap bằng phần mềm Matlab.
4. Kết quả nghiên cứu
Trình bày bài tốn ước lượng và kiểm định Bootstrap.
Sử dụng phần mềm Matlab xây dựng thủ tục tính kho ảng ước lượng Bootstrap và giải
bài toán kiểm định Bootstrap.
5. Hiệu quả, phƣơng thức chuyể n giao kết quả nghiên cứu và khả năng áp
dụng
Tài liệu tham khảo cho sinh, học viên cao học chuyên ngành Xác suất Thống kê và
những đối tượng sử dụng phương pháp Bootstrap trong nghiên cứu.


2

Tr ƣởng Đơn vị

Chủ nhiệm đề tài

(ký, họ và tên)

(ký, họ và tên)

3


INFORMATION ON RESEARCH RESULTS
1. General information:
Project title: Some applications of Bootstrap method
Code number: T2013-156

Coordinator: ME. Nguyễ n Hồ ng Nhung –HCMC University of Technical Education

Implementing institution: HCMC University of Technical Education
Duration: from 2/2013 to 11/2013
2.

Objective(s):

Study the applications of Bootstrap with confidence intervals and hypothesis test.
3.

Creativeness and innovativeness:

It is shown that the Bootstrap intervals and hypothesis testing with the Bootstrap for
average, percentage, correlation,…
Developprocedures tosolve the hypothesis testing with the Bootstrap by Matlab
software.
4.

Research results:

It is shown that the Bootstrap confidence intervals and hypothesis testing with the
Bootstrap.
UsingMatlabsoftwareto developprocedures

in finding the confidence intervals

Bootstrap and solving the hypothesis testing with the Bootstrap.
5. Effects, transfer alternatives of reserach results and applicability:


4


Referencesto students, post-graduate studentsmajoring inStatisticsandProbability and
who using Bootstrapmethodsinthe study.

5


MỞ ĐẦU
1. Tổ ng quan tình hình nghiên cứu thuộc lĩnh vực đề tài ở trong và ngoài nƣớc
Phương pháp Bootstrap là phương pháp coi mẫu gốc ban đầu đóng vai trị tổng thể
mà từ đó nó được rút ra. Từ mẫu ban đầu lấy lại các mẫu ngẫu nhiên cùng cỡ với mẫu
gốc bằng phương pháp lấy mẫu có hoàn lại, gọi là mẫu bootstrap. Phương pháp
Bootstrap được B.Efron đề xuất vào năm 1970 là một phương pháp lấy mẫu mới và
nó khác so với phương pháp truyề n thống ở chỗ nó cho phép xử lý nhiều lần với mẫu
gốc ban đầu. Hiện nay sự phổ biến và phát triển c ủa máy tính đã khắc được nhược
điểm của phương pháp là có khối lượng tính tốn lớn. Chính vì vậy phương pháp
Bootstrap ngày càng được phát triển và được phổ biế n rộng rãi.
2. Tính cấp thiết
Trong thống kê, Bootstrap được xem như là một phương pháp giải quyết các bất
định c ủa bài toán thống kê khi cỡ mẫu nhỏ mà không c ần giả thuyết về phân phối
xác suất của tham số thống kê cần nghiên cứu. Việc nghiên cứu và phát triển phương
pháp Bootstrap thu hút được sự quan tâm của nhiều nhà khoa học trên thế giới.
Phương pháp cũng được phổ biến rộng rãi khi nhiều trường đại học trên thế giới
giảng dạy cho sinh viên cách s ử dụng.Vì vậy việc tìm hiểu, nghiên cứu và phổ biến
các ứng dụng của phương pháp Bootstrap là việc làm cấp thiết.
3. Mục tiêu
Mục tiêu của đề tài là tìm hiểu ứng dụng của phương pháp Bootstrap đối với bài
toán ước lượng và kiểm định gi ả thuyết thống kê. Trình bày các bước tìm các

khoảng lượng Bootstrap của các tham số thống kê cụ thể. Xây dựng thủ tục kiểm
định Bootstrap cho bài toán kiểm định một mẫu và bài toán kiểm định hai mẫu.
4. Cách tiếp cận

6


Để giải quết vấn đề trên, đề tài đã sử dụng các kết quả của lý thuyết thống kê cổ
điển về bài tốn ước lượng và kiểm định, từ đó xây dựng bài toán ước lượng và kiểm
định Bootstrap.
5. Phƣơng pháp đối tƣợng và phạm vi nghiên cứu
Tìm hiểu cơ sở c ủa phương pháp Bootstrap và ứng dụng của phương pháp.
Nghiên cứu sử dụng phần mềm Matlab giải các bài tốn tìm khoảng ước lượng
Bootstrap và kiểm định Bootstrap cụ thể.
6. Nội dung nghiên cứu.
Bản báo cáo đề tài gồm phần mở đầu, ba chương nội dung và phần kết luận.
Chương 1 trình bày xuất xứ và ý nghĩa của đề tài khi tìm hiểu ứng dụng c ủa
phương pháp Bootstrap, nội dung của phương pháp Bootstrap và ước lượng sai số tiêu
chuẩn cho các tham số trung bình, tương quan, độ lệch. Sử dụng phần mềm Matlab
lấy mẫu Bootstrap t ừ đó tính các giá trị tham số mẫu Bootstrap.
Chương 2 trình bày cách tìm khoảng ước lượng Bootstrap-t, kho ảng ước lượng
Bootstrap phần trăm và khoảng ước lượng Bootstrap BCa. Sử dụng phần mề m
Matlab lập chương trình tìm một số khoảng lượng Bootstrap trên mẫu c ụ thể.
Chương 3 trình các bước kiểm định giả thuyết Bootstrap đối với một mẫu và hai
mẫu cho tham số trung bình và t ỷ lệ. Sử dụng phần mềm Matlab l ập chương trình
kiểm định giả thuyết Bootstrap đối với một mẫu và hai mẫu cho tham số trung bình và
tỷ lệ.

7



Chƣơng 1: Phƣơng pháp Bootstrap
1.

Đặt vấn đề

Giả sử X là biến ngẫu nhiên đặc trưng cho tính chất cần nghiên cứu, X có phân phối F chưa biết. Để biết X ta cần
tìm hiểu phân phối F, bằng cách xác định các tham sốθcủa F như trung bình, phương sai, median, hệ số tương
quan của phân phối hai biến,…Theo phương pháp thố ng kê truyề n thố ng ta lấy các mẫu ngẫu nhiên từ tổng thể
nghiên cứu.Sử dụng hàm thống kê T(θ) với mỗi mẫu ta xác định một giá trịθ của tham số θ tương ứng với mẫu
đó. Khi đó với số lượng mẫu quan sát lớn, ta sẽ có một phân phối mẫu mơ phỏng xấp xỉ với phân phối của θ.

Mẫu 1
Tổ ng thể
nghiên cứu

Mẫu 2

Mô phỏng
phân phối

của ước
lượng θ

Mẫu 3

Mẫu m
Hình 1.Sơ đồ mơ phỏng phân phối mẫu
Ta minh họa với ví dụ tham số θ là trung bình μ. Giả sử X1, X2, … , Xn là các biến ngẫu đặc trưng cho tính chất cần nghiên cứu của cá thể thứ i với
i=1, 2,…,n được

rút ra ngẫu nhiên từ tổ ng thể. X1, X2,… , Xncó cùng phân phối F với X. X1, X2, … , Xn được gọi là mẫu ngẫu nhiên cỡ mẫu n. Ta có X =
thống kê ước lượng cho tham số μ. Quan sát m mẫu ngẫu nhiên cụ thể

1 n
n i=1

Xi là một hàm
xk1 ,

8


xk2 , … , xkn , k=1, 2,…,m. Với mỗi mẫu ngẫu nhiên cụ thể ta có giá trị trung
bình
mẫu thực nghiệm x

k

=

1

n

n

i=1

xki . Khi m khá lớn theo định lý giới hạn trung tâm X có phân phối chuẩn. Do đó ta có mơ phỏ ng phân phối của BNN trung bình mẫu X


là có dạng chuẩn N(x ,

kết quả này ta có một loạt các bài tốn ước lượng, kiểm định cho giá trị trung bình μ.

Vấn đề đặt ra trong trường hợp ta chỉ quan sát được duy nhất một mẫu thực
nghiệm x11 , x12 , … , x1n được lấy ra ngẫu nhiên từ tổng thể. Khi đó ta có duy nhất một giá trị θ1, vậy làm thế nào chúng ta có thơng tin về
phân phối ước lượng
θ

của θ?

Để trả lời cho câu hỏi này ta có phương pháp bootstrap.
2.

Nội dung phƣơng pháp Bootstrap

Phương pháp Bootstrap là phương pháp coi mẫu gốc ban đầu đóng vai trị tổng thể
mà từ đó nó được rút ra. Từ mẫu ban đầu lấy lại các mẫu ngẫu nhiên cùng cỡ với
mẫu gốc bằng phương pháp lấy mẫu có hoàn l ại, gọi là mẫu bootstrap. Với mỗi
mẫu lấy lại ta tính được giá trị tham số thố ng kê quan tâm gọi lại tham số
bootstrap. Sự phân bố c ủa các tham số thống kê mẫu bootstrap là phân phối
bootstap.
Lấy mẫu có hồn lại có nghĩa là sau khi chúng ta rút ra ngẫu nhiên một quan sát từ
mẫu ban đầu, ta đặt nó trở lại trước khi lấy quan sát tiếp theo. Điều này cũng
giống như lấy một số từ một chiếc hộp, sau đó đặt nó trở lại trước khi rút lại.Kết
quả là, bất kỳ số có thể được rút ra một lần, nhiều hơn một lần, hoặc không được
rút ra lần nào.
9



Ký hiệux = x1, x2, … , xn là mẫu gốc ban đầu ta có mẫu bootstrap x∗ = x1∗, x2∗, … , xn∗ với mỗi giá trị xi∗ được lấy ngẫu nhiên từ tập các giá trị x1,
x2, … ,

xn với xác suất

1

n.

Tương ứng với mỗi mẫu bootstrap x∗ ta có mơ phỏng bootstrap của θ là


θ∗ = T(x∗)

Với hàm thống kê T(x ) tương tự với hàm thống kê T(x) tác động lên mẫu x. Ví dụ như ta có giá trị trung bình bootstrap có dạng
x∗=1

n

n i=1

x∗

i

Với mẫu bootstrap ngẫu nhiênX∗ = X∗1,X∗2, … ,X∗n , θ∗ = T(X∗) là một thống kê trên mẫu bootstrap, khi đó F∗ t = P(θ∗ < ) là phân phối bootstrap c ủa
θ∗ .

Mẫu bootstrap 1


Giá trị

Giá trị

Giá trị

Giá trị

Hình 2.Sơ đồ mô phỏng phân phối bootstrap
Ta sẽ sử dụng phần mềm Matlab xử lý số liệu thống kê bằng phương pháp
Bootstrap. Matlab là một ngơn ngữ lập trình cấp cao của hãng MathWorks.Matlab
được sử dụng rông rãi trong môi trường học thuật, cơng nghệ.Matlab có khả năng
hỗ trợ tối ưu cho việc nghiên cứu cũng như giảng dạy toán học, kỹ thuật và khoa
học với tính trực quan cao.Matlab có hàng ngàn lệnh và hàm tiện ích và các hàm
10


chuyên dụng trong các Toolbox. Các Toolbox chuyên d ụng cho người dùng với
nhiề u mục đích như giải tốn sơ cấp, gi ải toán thố ng kê, xử lý tín hiệ u số, xử lý
ảnh, logic mờ,…
Khảo sát chiều cao và cân nặng của 50 nam sinh viên năm nhất khoa chất lượng
cao trường đại học sư phạm kỹ thuật, ta có file dữ liệu hightclc1.m và
weightclc1.m đóng vai trò là hai mẫu gốc ban đầu.
> load hightclc1.m
> load weightclc1.m
> n=length(hightclc1); % cỡ mẫu gốc.
> b=1000; % số lần lấy mẫu bootstrap.
>>theta=mean(hightclc1) % trung bình m ẫu gốc.

theta =

1.6812
>>inds= unidrnd(n,n,b);
>>xboot = hightclc1(inds); % l ấy b mẫu bootstrap từ mẫu gốc hightclc1.
>>xboot(:,1:7) % biểu diễn 7 mẫu bootstrap đầu tiên.
ans =
1.6600 1.6000 1.6500 1.6600 1.6500 1.7000 1.6800
1.6900 1.6700 1.8200 1.6800 1.7400 1.7700 1.6500
1.6900 1.6500 1.6300 1.6900 1.6600 1.7300 1.6800
1.6900 1.6500 1.7300 1.6900 1.7300 1.6900 1.7300
1.6600 1.7300 1.6500 1.7200 1.5700 1.7200 1.7300
1.7300 1.7200 1.7100 1.7200 1.6400 1.6600 1.7300
1.6000 1.6900 1.6000 1.6800 1.6500 1.6700 1.6600
1.7700 1.5700 1.6500 1.6900 1.7700 1.7400 1.6600
1.6900 1.6800 1.6500 1.7400 1.6600 1.7400 1.7000
1.7000 1.6900 1.7100 1.7300 1.6800 1.7300 1.6200
1.6200 1.7100 1.6400 1.8200 1.7300 1.7300 1.6500
1.7000 1.6300 1.7300 1.7400 1.6300 1.7200 1.6700
1.6900 1.6700 1.6900 1.6300 1.6900 1.6900 1.7000

11


1.7200 1.6500 1.6900 1.6600 1.6900 1.8200 1.6500
1.6600 1.7200 1.6200 1.7300 1.7000 1.7300 1.6600
1.6200 1.6900 1.6600 1.6900 1.6000 1.6000 1.6400
1.7300 1.7700 1.7300 1.6900 1.6900 1.6800 1.7300
1.6900 1.6900 1.7300 1.6900 1.6500 1.6700 1.6600
1.8200 1.6200 1.7300 1.6000 1.6900 1.6900 1.7300
1.6900 1.6300 1.6400 1.6800 1.7300 1.7000 1.6900
1.6500 1.7000 1.7300 1.6900 1.6300 1.7300 1.6500

1.7300 1.6300 1.7000 1.5700 1.6400 1.6500 1.7400
1.7000 1.6600 1.5800 1.6600 1.7300 1.7200 1.6600
1.6400 1.6300 1.6900 1.5800 1.6000 1.6900 1.6600
1.6700 1.6400 1.6600 1.6800 1.6900 1.6400 1.7300
1.7100 1.5700 1.6500 1.6500 1.7000 1.6900 1.7400
1.7100 1.6000 1.7300 1.6500 1.7300 1.7200 1.7300
1.7400 1.6300 1.7400 1.7000 1.7300 1.6800 1.6600
1.6500 1.7100 1.6300 1.6500 1.6300 1.6500 1.6500
1.6500 1.6900 1.6600 1.6400 1.6600 1.6000 1.6600
1.6400 1.5700 1.7300 1.7700 1.6800 1.7300 1.6800
1.7300 1.6600 1.6900 1.6800 1.6000 1.7100 1.7300
1.6000 1.6800 1.6000 1.7100 1.7100 1.6700 1.5800
1.6800 1.7700 1.6000 1.6000 1.6400 1.6900 1.7300
1.7300 1.6900 1.6200 1.6500 1.6900 1.6900 1.6500
1.6600 1.6800 1.6900 1.6000 1.7300 1.7100 1.7300
1.6500 1.7100 1.6500 1.7400 1.6800 1.7100 1.7400
1.6300 1.7100 1.6000 1.6600 1.6300 1.7000 1.6000
1.6900 1.7400 1.7700 1.8200 1.7300 1.6600 1.7200
1.7300 1.6000 1.6200 1.7300 1.6700 1.6000 1.6800
1.7300 1.7300 1.7000 1.6400 1.7300 1.6000 1.6900
1.7400 1.6800 1.6600 1.6900 1.6000 1.6900 1.6400
1.6900 1.7300 1.5700 1.7200 1.6600 1.7200 1.6800
1.8200 1.6900 1.6700 1.7300 1.7300 1.7300 1.7000
1.6000 1.6400 1.6600 1.6400 1.6400 1.7200 1.6000
1.7200 1.6900 1.7300 1.6300 1.7000 1.6500 1.7300
1.6400 1.6000 1.6900 1.6700 1.7200 1.7000 1.7700
1.6500 1.6900 1.6900 1.6700 1.6000 1.6400 1.6900
1.6400 1.5800 1.6000 1.6600 1.6900 1.6700 1.6600
1.7100 1.6800 1.6900 1.8200 1.6400 1.6900 1.7300


>>thetab = mean(xboot); % trung bình của các mẫu bootstrap
>>thetab(:,1:5)% biểu diễ n 5 giá trị trung bình bootstrap đ ầu tiên

ans =
1.6870 1.6682 1.6732

1.6846

1.6752

>>hist(thetab) %biểu đồ lịch sử các giá trị trung bình bootstrap
12


%Biểu đồ này cho chúng ta hình ảnh mơ phỏng phân phối của trung bình mẫu

so mau bootstrap

Trung bình các mau bootstrap

Hình 3. Biểu đồ mơ phỏng phân phối trung bình mẫu
3. Sai số tiêu chuẩn Bootstrap
Mục đích của thống kê học là đưa ra thông tin về các tham số của tổng thể nghiên
cứu. Trong thực tế ta không biết chính xác các tham số này mà chỉ ước tính dựa
vào một hay nhiều mẫu rút ra từ tổng thể. Nhưng việc chọn mẫu là ngẫu nhiên nên
với mỗi mẫu thực nghiệmthứ
x ,x ,…,x
ta có giá trị
kxk =
k1

thứ k và các giá trị θk này có thể thay đổi khi k thay đổi.

Tx
k1

,x

k2

kn

θk =

, … ,x
k2

kn

Chọ n m mẫu (cùng kích thước n), ta có m giá trị θk (k=1, 2, 3, …, m). Độ lệch tiêu chuẩn của m giá trị θk gọi là sai số tiêu chuẩn của θ, ký
hiệu

se θ =

13


Sai số tiêu chuẩn phản ánh mức độ thay đổi c ủa các giá trị θk . Giá trị se θ nhỏ thì các giá trị θk ít thay đổi (ít biến thiên) ngược lại giá trị se θ lớn thì
các giá trị θk thay đổi nhiề u (biế n thiên nhiều).

Trong trường hợp không thể lấy nhiều mẫu từ tổng thể để xác định sai số tiêu chuẩn c ủa θ, ta dùng phương pháp bootstrap ước lượng sai số tiêu chuẩn

của θ từ một mẫu gốc ban đầu. Các bước thực hiện như sau:

Bƣớc 1: Lấy theo phương pháp có hồn l ại từ mẫu gốc ban đầu được b mẫu
bootstrap độc lập cùng cỡ với mẫu gốc xk∗ =

Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị thống kê θ∗k =

xk∗1 ,xk∗2 , … ,x∗kn , k=1, 2, …, b.

T x∗

k

Bƣớc 3: Tính độ lệch tiêu chuẩn c ủa b giá trị tính được ở bước 2.

Độ lệch tiêu chuẩn này là ước lượng bootstrap của sai số tiêu chuẩn se θ .

Ta có giá trị se∗

b

3 .1 Ƣớc l ƣợng Bootstrap cho sai s ố tiêu chu ẩ n c ủ a gi á tr ị trung bì nh
Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn của giá trị trung bình μ như sau:

Bƣớc 1: Lấy theo phương pháp có hồn lại từ mẫu gốc ban đầu được b mẫu
bootstrap độc lập cùng cỡ với mẫu gốc xk∗ =

xk∗1 ,xk∗2 , … ,x∗kn , k=1, 2, …, b.

Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị trung bình

mẫu bootstrap

14


x ∗k

=1
n i=1

n

x∗ki ; k = 1,2, … ,b

Bƣớc 3: Tính độ lệch tiêu chuẩn c ủa b giá trị tính được ở bước 2.

se∗

b

>>seb=std(thetab) % ước lượng bootstrap c ủa sai số tiêu chuẩn của
%

chiều cao trung bình c ủa các nam sinh viên năm nhất

seb =
0.0071
3 .2 Ƣớc l ƣợng Bootstrap cho sai s ố tiêu chu ẩ n c ủ a gi á tr ị hệ số tƣơng
quan
Giả sử với mỗi cá thể nghiên cứu xi ta quan sát hai đặc trưng yivà zi. Ví d ụ như với mỗi hộ gia đinh xi ta quan sát giá trị tổng thu nhập yivà mức chi

tiêu zi. Nói cách khác BNN X là c ặp BNN (Y, Z).Mẫu thực nghiệm x cỡ n gồm
n

cặp giá trị (yi, zi) i=1, 2, …,n.

Hệ số tương quan corr(Y, Z) là tham số đo mức độ phụ thuộc tuyến tính giữa
hai BNN Y và Z. Ta có giátrị |corr(Y, Z)|≤1, và



Nếu |corr(Y, Z)|=1 thì hai BNN Y, Z có mối quan hệ phụ
thuộc tuyế n tính.



Nếu |corr(Y, Z)| gần 1 thì mối quan hệ phụ thuộc tuyến giữa X
và Y là khá rõ ràng,

 Nếu |corr(Y, Z)| gần 0 thì mối quan hệ phụ thuộc tuyến giữa X
và Y là không rõ ràng,
 Nếu |corr(Y, Z)|=0 thì hai BNN Y, Z khơng phụ thuộc tuyến
tính.

15

μ∗


Công thức xác định hệ số tương quan corr(Y, Z)
corr Y, Z =


E(Y − EY)(Z − EZ)

E(Y − EY)2E(Z − EZ)2

Để ước lượng cho hệ số tương quan của tổng thể ta có hệ số tương quan mẫu

1
n
i=1

vớiy =

yi và z =

n

bootstrap x∗

Với mẫu
ta tính được hệ số tương quan mẫu bootstrap

cor

1

vớiy∗ =

n
i=1


n

Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn của giá trị hệ số tương quan corr Y, Z như sau:

Bƣớc 1: Lấy theo phương pháp có hồn lại từ mẫu gốc ban đầu mỗi lần lấy
một cặp giá trị
x



=

x



,x

k1

k



k2

Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị hệ số tương
quan mẫu bootstrap


k

1

vớiy∗ =

k

n

yi∗ và


16




Bƣớc 3: Tính độ lệch tiêu chuẩn c ủa b giá trị rk tính được ở bước 2.

se∗

corr∗

b

> [bootstat,bootsam] = bootstrp(b,@corr,hightclc1,weightclc1);
>>bootstat(1:5,:)% biểu diễn hệ số tương quan của 5 mẫu bootstrap đầu tiên
ans =
0.4126

0.3581
0.2028
0.1114
0.3489
>>bootsam(:,1:5) % Biểu diễn các chỉ số của 5 mẫu bootstrap đầu tiên
ans =
2
24
25
17
21
9
2
36
26
14
21
9
13
38
42
24
15
38
37
4
50
2
39


17


49
21
16
31
7
10
23
17
24
3
2
5
37
41
10
46
45
30
35
42
38
29
20
3
3
16


>>hist(bootstat)

so mau bootstrap

he so tuong quan giua chieu cao va can nang

Hình 4. Biểu đồ mơ phỏng phân phối hệ số tương quan mẫu
18



>>sebr=std(bootstat) % ước lượng bootstrap của sai số tiêu chuẩn c ủa
%

hệ số tương quan giữa chiều cao và cân nặng của các nam sinh viên

%

năm nhất

sebr =
0.1031
3 .3 Ƣớc l ƣợng Bootstrap cho sai s ố tiêu chu ẩ n c ủ a gi á tr ị độ l ệch
Giả sử biến ngẫu nhiên X có phân phối F chưa xác định. Độ lệch γcủa phân phối F là tham số đo độ bất đối xứng của phân phối F. Ta có



γ = 0thì F là một phân phối đối xứng tức là giá trị trung vị medX bằng giá trị modX bằng giá trị
trung bìnhEX.



γ > 0thì F là một phân phối bất đối xứng và modX< medX.



γ < 0thì F là một phân phối bất đối xứng và modX> medX.

Ta có độ lệch γ được xác định theo cơng thức

γ=E

Trong đó μ = EX là trung bình c ủa X và σ = E X − EX

2

là độ lệch chuẩn của X.

Để ước lượng cho γ ta có giá trị độ lệch mẫu đối với mẫu thực nghiệm x = x1, x2 , … , xn

với x =

19


Với mỗi

mẫu

bootstrap


1

với x



=

n
i=1

n

Ta có các bước xác định giá trị ước lượng bootstrap cho sai số tiêu chuẩn của giá trị độ lệch γ như sau:

Bƣớc 1: Lấy theo phương pháp có hồn lại từ mẫu gốc ban đầu được b mẫu
bootstrap độc lập cùng cỡ với mẫu gốc xk∗ =

xk∗1 ,xk∗2 , … ,x∗kn , k=1, 2, …, b.

Bƣớc 2: Với mỗi mẫu bootstrap có được ở bước 1 ta tính giá trị độ lệch mẫu
bootstrap

với x



=

k


Bƣớc 3: Tính độ lệch tiêu chuẩn c ủa b giá trị tính được ở bước 2.

se∗ γ∗

b

>>skewness(hightclc1) %giá trị độ lệch mẫu
ans =


×