Tải bản đầy đủ (.docx) (29 trang)

(TIỂU LUẬN) tìm một dữ liệu định lượng (a) và một dữ liệu định tính (b) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.06 MB, 29 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ
MINH KHOA KHOA HỌC ỨNG DỤNG BỘ MƠN TỐN ỨNG
DỤNG

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ

ĐỀ TÀI 1
GVHD: NGUYỄN KIỀU DUNG
THỰC HIỆN: NHĨM 1 – L08

1)

VĂN CƠNG BẰNG - 1410258

2)

NGUYỄN KHÁNH BÌNH - 1410284

3)

VÕ MINH ĐẠI - 1410756

4)

PHAN THẾ HIỀN - 1411231

5)

TRẦN VĂN HUY - 1411514


6)

BÙI LÊ NGỌC MIN - 1412249

7)

ĐẶNG HỒNG NHẬT - 1412670

8)

LƯƠNG HÀ PHƯƠNG – 1413016

Thành phố Hồ Chí Minh, tháng 05 năm 2016


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

2


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ
liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2)Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3)
Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với
độ tin cậy 91% (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.

5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó
hay
khơng.
Bài làm:
Dạng bài: Thống kê mơ tả
Dữ liệu A: Khảo sát 50 sinh viên năm thứ 2, ngành Máy Tính về số ngơn ngữ lập trình mà
sinh viên sử dụng thành thạo bao gồm (được học và tự học).
6
5
1
3
4
Dữ liệu B: Kết quả phân ngành của sinh viên khoa Máy Tính:
Kỹ sư tài năng Khoa Học Máy Tính
Kỹ sư tài năng Kỹ Thuật Máy Tính
Khoa Học Máy Tính
Kỹ Thuật Máy Tính
Thực hiện phân tổ dữ liệu A:
Nhập dữ liệu (A) vào Excel:

1.1. Phân tổ dữ liệu (A)
-

Xác định số tổ cần chia: k =
Nhập vào ô A7 biểu thức: = (2*COUNT(A1:J5))^(1/3)
Kết quả: 4.641589, chọn k = 4.
3


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1


-

-

Xác định trị số khoảng cách h theo công thức
+
Nhập vào ô B6 công thức: = (MAX(A1:J5)-MIN(A1:J5))/4
+
Kết quả: 2
+
Chọn h = 2
Xác định được cận trên và cận dưới 4 tổ:
+
Tổ1:0-2
+
Tổ2:2-4
+
Tổ3:4-6
+
Tổ4:6-8
Nhập vào các ô K2->K10 lần lượt các giá trị:

-

Chọn chức năng Data/Data Analysis/Histogram.

-

Input Range: Địa chỉ tuyệt đối chứa dữ liệu


-

Bin Range: Địa chỉ chứa bảng phân nhóm.

-

Output options: Vị trí xuất kết quả.

-

Chọn Cumulative Percentage để tính tần suất tích lũy nếu khơng Excel chỉ tính tần số

-

4


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

- Kết quả:

1.2) Vẽ đồ thị tần số và đa giác tần số (A):
-

Quét bảng tần số B11:B14

-

Insert Column Chart


-

Kết quả:

-

Vẽ đa giác tần số:
+

Sử dụng bảng phân phối tần số của dữ liệu (A):

+

Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:

5


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

+

Quét chọn B24:B29, dung chức năng Insert Line Chart

-Kết quả sau chỉnh sửa:

1.3) Tính các mẫu đặc trưng với ước lượng giá trị trung bình của dấu hiệu quan sát với độ
tin cậy 91% (A).
* Nhập dữ liệu vào bảng tính:


6


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

* Chọn chức năng Data/Data
Analysis/Descriptive Statistics

- Input Range: Địa chỉ tuyệt đối chứa dữ liệu
- Output options: Vị trí xuất kết quả
- Confidence Level for Mean: Độ tin cậy cho
trung bình.

* Kết quả:

1.4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
7


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

* Nhập dữ liệu vào bảng tính

* Tính tỉ lệ sinh viên cho các ngành:
Nhập vào:
+ C91 = B91/$B$95
+ C92 = B92/$B$95
+ C93 = B93/$B$95
+ C94 = B94/$B$95

Kết quả:

* Vẽ biểu đồ đứng thể hiện số lượn sinh viên ở các chuyên
ngành - Quét chọn cột Số sinh viên (B2:B7).
- Dùng chức năng Insert/Insert Column Chart/2-D Column trên menu Insert.
*

Kết quả:
8


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

* Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành:
- Quét chịn cột Số sinh viên (C2:C7).
- Dùng chức năng Insert/Insert Pie/2-D trên menu Insert.
*

Kết quả:

9


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

1.5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
đó hay khơng.
Kiểm định A: Với mức ý nghĩa 1%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không?
Giả thuyết kđ H0: Mẫu phù hợp với phân phối chuẩn
Giả thuyết đối kđ H1: Mẫu không phù hợp với phân phối chuẩn

-

Tính các đặc trưng mẫu: n = 50 (COUNT(A37:A86)
= 3.64 (AVERAGE(A37:A86))
= 2.0274 (STDEVP(A37:A86))

+

là ước lượng hợp lý cực đại cho a => a = 3.64

+

là ước lượng hợp lý cực đại cho

Với k = 4, r = 2 =>
Miền bác bỏ:

=> σ = 2.0274

= 6.6349 (CHISQ.INV(0.99,1))

= (6.6349;+ ∞)

Tính tiêu chuẩn kiểm định:

Khoảng

ni

(-∞;2)


(2;4)

(4;6)

(6;+∞)

=

= 6.7221

=> Chấp nhận H1, bác bỏ H0

17
18

0.2

=N

0.3

=N
9

0.3

=N
6


0.1
=1


=(1/A119)*((B124^2/C124)+(B125^2/C125)+(B126^2/C126)+(B127^2/C127))-A119
Vậy Mẫu (A) khơng có phân phổi chuẩn.
10


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

*Có sử dụng dữ liệu bảng tính ở câu 3

11


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Bài 2: Theo dõi doanh số bán hàng ( triệu đồng/ ngày) của một cửa hàng trong 12 ngày của
tháng 4 và 12 ngày của tháng 10, người ta thu được kết quả sau:
Ngày trong tháng
Tháng 4
Tháng 10
Với mức ý nghĩa 3%, có thể cho rằng doanh số bán trung bình hàng ngày trong tháng
10 có giảm sút so với tháng 4 hay khơng? Tìm thêm giá trị P trong kiểm định. Bài làm:

* Dạng bài: So sánh 2 trung bình với từng cặp dữ liệu.
Đặt

: Doanh số bán hàng tháng 4.

: Doanh số bán hàng tháng 10.

*

Công cụ: t-test Paired Two Sample for Means

- Giả thiết đặt ra là kiểm định hai bên:
H0:



H1 :

* Thực hiện bài toán bằng Excel:
- Nhập dữ liệu vào bảng tính:

12


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Vào Data/Data Analysis/ t-test: Paired
Two Sample for Means.

-

Chọn các mục như hình:

+ Input: địa chỉ tuyệt đối chứa dữ liệu tương
ứng của mẫu 1 và 2

+

Output options: vị trí xuất kết quả

+

Apha: mức ý nghĩa α

* Kết quả:
bán ra của cửa hàng trong 2 tháng là như
nhau”.
H1:
“Doanh số bán ra của
cửa hàng trong 2 tháng khác nhau”.
= 1.2400 <
giả thuyết H0.

= 2.4907 => Chấp nhận

Vậy doanh số bán hang trong 2 tháng là như
nhau.
Giá trị P cần tìm: P = 0.2408.
13


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Bài 3: Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành:

Lượng báo thực sự bán ra ở 5 quận có khác nhau khơng? Lượng báo bán ra có chịu yếu tố tác

động là ngày trong tuần hay không? Kết luận với mức ý nghĩa 5 %.
1.Cơ sở lý thuyết:
Đây la dang toan phân tich phương sai hai yêu tô (không lăp):
2.Tính toán trên máy tính:
Gia thiêt: H0 – cac gia tri trung binh la băng nhau
Đôi gia thiêt: H1 – cac gia tri trung binh la không băng nhau.
Nhâp dư liêu vao may tinh:

Các bước thực hiện:
Sử dụng công cụ “Anova: Two – Factor without Replication”:
a)Tai nhom lênh Data analysis, chon Anova:Two – Factor without Replication”.
b)Trong hôp thoai Anova:Two – Factor without Replication, lân lươt ân đinh cac gia tri:


Page | 14


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

- Pham vi đâu vao (input range): chon bang tinh ta vưa tao.
-Nhãn dư liêu (labels in first row/column)
-Ngưỡng tin cây: Alpha = 5% = 0.05
-Pham vi đâu ra (output Range).

Sau khi click Ok thi kêt qua đươc hiên trong wooksheet mơi:

Page | 15


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1


Nhận xét: Ta thấy FA > F5 (4.305483 > 2.71089) -> Lượng báo bán ra chịu yếu tố tác động trực
tiếp của các ngày trong tuần.
Tương tự, FB > F4 -> Lượng báo bán ra ở 5 quận có sự khác nhau.

Page | 16


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Bài 4: Ba loại vật liệu được thử sức bền dưới ảnh hưởng của việc thay đổi nhiệt độ vô cùng
lớn, chúng ta có số liệu:
Kết cục
Vỡ vụn
Bị phá hủy một phần
Cịn tồn vẹn
Hãã̃y kiểm định xem có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt
độ không? Sử dụng mức ý nghĩa 2%.
BÀI LÀM:
Dạng bài: Kiểm định giả thiết về tỉ lệ.
Phương pháp giải: Áp dụng Kiểm định chi bình phương 2.
Cơng cụ giải: hàm CHITEST trên Excel.
Cơ sở lý thuyết:
- Trong thống kê, kiểm định chi bình phương hay kiểm tra 2. (đơi khi đọc là "khi bình
phương") là một họ các phương pháp kiểm định giả thiết thống kê trong đó thống kê
kiểm định tuân theo phân bố 2 nếu giả thuyết khơng là đúng. Chúng gồm:
Kiểm định chi bình phương Pearson
Kiểm định chi bình phương Yates
Kiểm định chi bình phương Mantel-Haenszel
...

- Dạng thống kê kiểm định thông dụng nhất là:
2

γ2=(o−e)
e

Với o là dữ liệu đo đạc, e là giá trị dự đốn chính xác.
Xét một bộ A gồm r tính trạng, A = (A1, A2, ...Ar), trong đó mỗi cá thể của tập hợp chính
H có và chỉ có một trong các tính trạng (hay phạm trù) Ai.
Gọi pi (i = 1, 2, ... r) là tỷ lệ cá thể tính trạng Ai trong tập hợp chính H. Khi đó véctơ =(p1
, p2, ...pr) được gọi là phân bố của A trong tập hợp chính H.
Giả sử (p1, p2,...pr) là phân bố của (A1, A2,...Ar) trong tập hợp chính H và (q1,
q2,...qr) là phân bố của A = (A1, A2,...Ar) trong tập hợp chính Y. Ta nói (A1,
A2,...Ar) có phân bố như
nhau trong X và Y nếu (p1, p2,...pr) = (q1, q2,...qr)
p1 = q1,...pr = qr.
Chúng ta muốn kiểm định xem A = (A1, A2,...Ar) có cùng phân số trong X và Y hay không
dựa trên các mẫu ngẫu nhiên rút từ X và Y.
Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2,...Hk. Gọi πi=(pi1 , pi2 , … , pir ) là phân bố
của A = (A1, A2,...Ar) trong tập hợp chính Hi.
Page | 17


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Ta muốn kiểm định giả thuyết sau:
H0 :π =π =…=π (Các phân bố này là như nhau trên các tập hợp chính Hi).
Chú ý rằng H0 tương đương với hệ đẳng thức sau:
1


2

k

{p = p =…= p
1

1

2

k

1

1

p1= p2=…= pk
i

i

i

Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên. Mẫu ngẫu nhiên chọn từ tập
hợp chính Hi được gọi là mẫu ngẫu nhiên thứ i (i = 1, 2,... k).
Giả sử trong mẫu ngẫu nhiên thứ i:
Có n1i cá thể có tính trạng A1
n2i cá thể có tính trạng A2
..............................

nri cá thể có tính trạng Ar
k

Ký hiệu: nio=∑ nij ;noj=∑ nij

r

j=1i=1

Như vậy n0j là kích thước của mẫu thứ j, cịn nio là tổng số cá thể có tính
trạng Ai trong toàn bộ k mẫu đang xét:
r

nio=∑ nio=∑ noj là tổng số tất cả các cá thể của k mẫu đang xét.
i=1

thì các tỷ lệ chung p1, p2,...pr được ước lượng bởi:
^pi=

n

io

n

Đó ước lượng cho xác suất để một cá thể có mang tính trạng Ai. Khi đó số cá thể có tính
trạng Ai trong mẫu thứ j sẽ xấp xỉ bằng:
Các số n^ij

n^ij=noj ^pi =


noj nio
n

(i = 1,2,...r; j = 1,2,...k) được gọi là các tần số lý thuyết (TSLT), các số nij
được gọi là các tần số quan sát (TSQS).
Ta quyết định bác bỏ Ho khi các TSLT cách xa TSQS một cách bất thường. Khoảng cách

Page | 18


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

giữa TSQS và TSLT được đo bằng test thống kê sau đây:
T=∑∑

Người ta chứng minh được rằng nếu H0 đúng và các TSLT khơng nhỏ hơn 5 thì T sẽ có
phân bố xấp xỉ phân bố với (k-1)(r-1) bậc tự do. Thành thử miền bác bỏ có dạng {T > c} ở
đó c được tìm từ điều kiện P{T > c} = . Vậy c là phân vị mức của phân bố 2 với (k-1)(r-1)
bậc tự do.

Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó, ta
dùng kiểm định 2 (chi-quared):
r

c

γ2=∑∑
i=1


j=1

npij: tần số lý thuyết của ô (i,j);
r:
số hàng;
c:
số cột
Dùng hàm CHITEST (actual_range,expected_range).
Tính giá trị: P (X > χ2 ) = CHITEST

Nếu: P ( X > χ2 ) > ∝thì chấp nhận H0 và ngược lại.
Thực hiện bài toán bằng excel:
Nhập dữ liệu vào bảng tính và tính tổng các hàng các cột:

Tính các tần số lý thuyết:
tần số lý thuyết = (Tổng hàng × Tổng cột)/(Tổng cộng):

Page | 19


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Sử dụng hàm CHITEST tính xác suất P(X>

2 ):

Kết quả và biện luận:
Giả thiết H0: có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ
H1: Khơng có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ
Ta có: P(X> 2 ) = 0.026580894 > α=0.02

Bác bỏ giả thiết H1, chấp nhận giả thiết H0 . Vậy: có mối liên hệ phụ thuộc giữa loại vật liệu với
tác động thay đổi nhiệt độ.

Page | 20


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

Bài 5: Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mơ hình
hồi quy tuyến tính đơn. Thực hiện các u cầu:

1)

Tìm hệ số tương quan giữa X,Y.

2)

Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay khơng? Hãã̃y ước
lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.

3)

Tìm sai số chuẩn của ước lượng.

Bài làm:


1)

Cơ sở lý thuyết :

Tìm hệ số tương quan X và Y:

2) Quan hệ giữa X và Y có được coi là tuyến tính hay khơng:
Giả thiết H0: X và Y khơng có tương quan tuyến tính:

Page | 21


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1



Ước lượng hồi quy tuyến tính Y theo X:
-

Cơ sở lý thuyết:
-

+ Giả thiết
+ Giả thiết
nghiệm t <

+ Trắc
+ Giả thiết
+ Giả thiết
nghiệm F < F

+ Trắc

Bảng số liệu về thời gian thí nghiệm mạch điện tử với cơng suất tiêu thụ trên tải được

lấy ngẫu nhiên trên các thiết bị :
Thơi gian
(phut)
Cơng st(W)

1) Tìm hệ số tương quan giữa X và Y:
 Thực hiện trên Excel:
Nhập số liệu vào bảng tính:

Chọn chức năng Data/Data Analysis/Correlation.

Page | 22


Báo Cáo Bài Tập Lớn Xác Suất Thống Kê_Nhóm 1

 Kết quả:

=> Ta có hệ số tương quan là R = 0.74871046 chứng tỏ giữa thời gian và công suất tiêu
thụ có quan hệ khá chặt chẽ và có tương quan thuận.

2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay khơng?
Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X.

 Thực hiện trên Excel:
Tính T : chọn ơ B10 và nhập biểu thức =B7*SQRT(10-2)/SQRT(1- B7^2).
- Tính c: chọn ơ B11 và nhập biểu thức =TINV(0.05,8) (c là phân vị mức α/2 = 0.025
của phân bố Student với n-2=8 bậc tự do).

Page | 23



×