Tải bản đầy đủ (.docx) (63 trang)

Nhóm 5 l09 XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.94 MB, 63 trang )

cĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ

STT

Giảng viên hướng dẫn:

ThS. Nguyễn Kiều Dung

Nhóm sinh viên thực hiện:

5 – L09

Họ tên SINH VIÊN

MSSV

Nhóm

Ngành học

/Tổ

1

Huỳnh Gia Huy


1711482

L09

Cơ điện tử

2

Võ Thế Nhân

1813353

L09

Xây dựng

3

Nguyễn Hoàng Anh Vũ 1814814

L09

Điện – Điện tử

4

Nguyễn Trương Giang

1810901


L09

Điện – Điện tử

5

Lê Huỳnh Ái Trân

1814418

L09

Logistics và Quản

6

Trần Thị Tuyết

1814639

L09

lí chuỗi cung ứng

7

Nguyễn Tiến Phát

1712572


L09

Khoa học máy tính

8

Nguyễn Hồng Đào

1811831

L20

Dệt

Ký tên tham
dự


MỤC LỤ

C

ĐỀ TÀI................................................................................................................................1
Câu 1: Vẽ biểu đồ histogram; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến
định lượng. Nêu nhận xét.....................................................................................................1
Câu 2: Vẽ biểu đồ Pie của một biến định tính....................................................................7
Câu 3. Chọn một biến định lượng nào đó và thực hiện:......................................................9


Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý.....................................9




Tìm các đặc trưng từ mẫu dữ liệu.................................................................................9

Câu 4: Kiểm định xem một biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể
hay không...........................................................................................................................14
Câu 5: Chọn dữ liệu 2 biến để lập bài toán kiểm định so sánh 2 trung bình tổng thể. Trình
bày các bước thực hiện và nhận xét kết quả......................................................................20
Câu 6. Chọn dữ liệu cho k biến (k  3) để lập bài tốn so sánh về trung bình. Trình bày
các bước thực hiện và nhận xét..........................................................................................25
Câu 7: Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán. Trình
bày các bước thực hiện và nhận xét kết quả......................................................................30
Câu 8: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài tốn kiểm định
tính độc lập). Trình bày các bước thực hiện và nhận xét kết quả.....................................35
Câu 9: Khảo sát hệ số tương quan giữa 2 biến cụ thể, dự đốn phương trình đường hồi
quy tuyến tính giữa chúng (có hình vẽ minh họa) và nhận xét về mối tương quan giữa 2
biến....................................................................................................................................40
Câu 10: Chọn ra k biến ( k >= 3) và xem xét có thể lập mơ hình hồi quy tuyến tính đa biến
giữa chúng hay không........................................................................................................50



ĐỀ TÀI

NGHIÊN CỨU MỐI LIÊN QUAN GIỮA MỘT SỐ THÔNG SỐ
CỦA BỆNH NHÂN VỚI BỆNH TIM MẠCH
Bệnh Tim mạch là bệnh lý về tim và mạch máu bao gồm: tăng huyết áp, rối loạn
nhịp tim, bệnh động mạch vành, bệnh van tim, suy tim, xơ vữa động mạch, đột quỵ…
Bệnh Tim mạch là nguyên nhân hàng đầu gây tử vong trên thế giới. Mỗi năm, bệnh Tim

mạch gây ra cho hơn 17,5 triệu cái chết và dự đốn sẽ có khoảng 25 triệu người bị bệnh
Tim mạch tử vong vào năm 2020.
Với mục đích tìm thấy bất kỳ xu hướng nào khác các triệu chứng trong dữ liệu về
tim của bệnh nhân để dự đoán các sự kiện tim mạch nhất định hoặc tìm thấy bất kỳ dấu
hiệu rõ ràng nào về sức khỏe của tim, đề tài “Nghiên cứu mối liên quan giữa một số thông
số của bệnh nhân với bệnh tim mạch” đã được thực hiện với cơ sở dữ liệu của Cleveland.
Nghiên cứu được thực hiện trên 300 đối tượng từ độ tuổi 30 tới 80 với 14 loại thông
tin. Để phù hợp với bài tập lớn, nhóm chúng em đã chọn ra 8 loại của 150 đối tượng (gồm
có: độ tuổi, giới tính, loại đau ngực, huyết áp lúc nghĩ ngơi, chỉ số Cholesterol, chỉ số
đường huyết, nhịp tim tối đa, đoạn ST giảm xuống gây ra khi tập thể dục tương đối với
lúc nghỉ trong điện tâm đồ) cho việc thống kê và đánh giá.
/>Những người thực hiện thí nghiệm:
1. Viện Tim mạch Hungary. Budapest: Andras Janosi, M.D.
2. Bệnh viện Đại học, Zurich, Thụy Sĩ: William Steinbrunn, M.D.
3. Bệnh viện Đại học, Basel, Thụy Sĩ: Matthias Pfisterer, M.D.
4. V.A. Trung tâm y tế, Long Beach và Tổ chức phòng khám Cleveland: Robert Detrano,
M.D., Ph.D.
1


2


Câu 1: Vẽ biểu đồ histogram; biểu đồ mật độ tần số; biểu đồ tích lũy tần số
của một biến định lượng. Nêu nhận xét.
Bài làm
Dạng bài: Thống kê mô tả
 Chọn dữ liệu
Bảng dữ liệu về bệnh tim (A)


 Thực hiện phương pháp phân tổ dữ liệu (A).
 Nhập dữ liệu (A) vào Excel
 Chọn biến định lượng để vẽ biểu đồ: Chỉ số Cholesterol (E1-E151)

1


 Xác định số tổ cần chia:
+ Chọn ô A7 nhập vào biểu thức: =(2*COUNT(E2:E151))^(1/3)
+ Kết quả: k = 6.6943
+ Chọn k = 7
 Xác định trị số khoảng cách h theo công thức:
+ Chọn ô A8 nhập vào biểu thức: =(MAX(E2:E151)-MIN(E2:E151))/7
+ Kết quả: h = 73
 Ta xác định được cận trên và cận dưới của các tổ lần lượt là:
+ Tổ 1: 126
+ Tổ 2: 199
+ Tổ 3: 272
+ Tổ 4: 345
+ Tổ 5: 418
+ Tổ 6: 491
+ Tổ 7: 564
 Chọn chức năng Data → Data Analysis → Histogram
 Input Range: địa chỉ tuyệt đối chứa dữ liệu
 Bin Range: địa chỉ chứa bảng phân nhóm
 Output Range: vị trí xuất kết quả
 Chọn Cumulative Percentage để tính tần suất tích lũy nếu khơng Excel chỉ tính
tần suất

2



 Kết quả:

 Vẽ biểu đồ histogram; biểu đồ mật độ tần số; biểu đồ tích lũy tần số.
 Vẽ biểu đồ phân bố tần số
 Quét chọn bảng tần số: M4 – M10
 Dùng chức năng Insert Column Chart trên menu Insert
 Kết quả:

3


BIỂU ĐỒ TẦN SỐ

100
90
80
70
60
50
40
30
20
10
0

1

2


3

4

5

6

7

 Vẽ biểu đồ tích lũy tần số
 Quét chọn cột tần số tích lũy: N4 – N10
 Dùng chức năng Insert Column Chart trên menu Insert
 Kết quả:

BIỂU ĐỒ TÍCH LŨY TẦN SỐ
120.00%
100.00%
80.00%
60.00%
40.00%
20.00%
0.00%

1

2

3


4

5

6

7

4


 Biểu đồ mật độ: là hình chữ nhật cho mỗi tổ với đáy là khoảng cách tổ và chiều cao
tính theo cơng thức:
Trong đó :

fi là tỉ lệ của từng tổ.
h là khoảng cách tổ.

 Đối với dữ liệu A:
+ i = 1,2,3,4.
+ h = 73 (khoảng cách tổ).
+ Ta có bảng số liệu:



Vẽ biểu đồ mật độ;
 Quét chọn cột độ cao H(x)
 Dùng chức năng Insert Column Chart trên menu Insert
 Kết quả:


5


BIỂU ĐỒ MẬT ĐỘ TẦN SỐ
0.01
0.009
0.008
0.007
0.006
0.005
0.004
0.003
0.002
0.001
0

1

2

3

4

5

6

7


6


Câu 2: Vẽ biểu đồ Pie của một biến định tính.
Bài làm
Dạng bài: Thống kê mơ tả
 Chọn biến định tính trong dữ liệu (A): Giới tính (B2;B151)

 Vẽ biểu đồ tròn thể hiện tỉ lệ giữa con trai và con gái:
 Quét chọn cột (B2:B151)
 Dùng chức năng Insert pie
 Kết quả thu được

7


BIỂU ĐỒ TỈ LỆ NAM NỮ

45%

Con trai

55%

Con gái

8



Câu 3. Chọn một biến định lượng nào đó và thực hiện:
 Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý
 Tìm các đặc trưng từ mẫu dữ liệu.
Ý một: Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý:
Giới thiệu: Giá trị ngoại lại (Outlier) có ảnh hưởng lớn đến độ chính xác của các mơ
hình dự đốn. Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá
trình chuẩn bị dữ liệu cho mơ hình dự đốn.
 Phương pháp xử lý: Dùng Quartile để tìm các giá trị ngoại lai.
 Hàm QUARTILE có dạng: QUARTILE(array,quart), với:
 Array: Là list các giá trị trong một colunm.
 Quart: Các option để lựa chọn cho phù hợp với mục đích tính tốn.

 Q trình xử lý: Chọn biến Đoạn ST giảm...điện tâm đồ trong bảng dữ liệu để khảo
sát.
+ Q1: Tứ phân vị thứ nhất( là phân vị thứ 25)
+ Q3: Tứ phân vị thứ ba ( là phân vị thứ 75)
+ IQR: Là độ rộng từ giá trị Q1 đến Q3. Tình bằng: IQR = Q3-Q1.
+ Lower Bound = Q1 – (1.5*IQR) : Biên dưới của miền dữ liệu, công thức được xác
định dựa theo định nghĩa trong thống kê.
+ Uppon Bound = Q3 + (1.5*IQR): Biên trên của miền dữ liệu.

9


Giá trị ngoại lai (Oulier) được xác định khi (Values > Uppon Bound || Values <
Lower Bound) là TRUE.
Cuối cùng, dùng hàm COUNTIF([dữ liệu cột Outlier],TRUE) để đếm xem có bao
nhiêu giá trị ngoại lai xuất hiện.
 Kết quả:


 Đề xuất xử lý giá trị ngoại lại (Outlier)
 Xóa dịng dữ liệu chưa outlier ra khỏi dữ liệu phân tích. Việc này sẽ làm mất một
số thông tin trên các cột khác nếu cần phân tích.
 Các giá trị outlier sẽ thay bằng giá trị trung bình của dữ liệu.
 Xóa các giá trị outlier và đặt lại là NULL(empty).
 Đổi outlier thành một giá trị cụ thể(do người phân tích, chuyên gia đề xuất).
10


11


Ý hai: Tìm các đặc trưng từ mẫu dữ liệu
 Giới thiệu: Mẫu dữ liệu bao gồm một số đặc trưng như: Giá trị trung bình, phương
sai, độ lệch chuẩn,.... Tính tốn các giá trị đặc trưng của mẫu là cơng việc cần thiết
nhất trong phân tích số liệu ở thống kê.
 Phương pháp: Tại phần mềm Excel, chức năng Descriptive Statistics hổ trợ trong
việc tính tốn các giá trị đặc trưng của mẫu. Để mở chức năng này trong Excel, thực
hiện các bước: Data -> Data Analysis -> Hộp option xuất hiện, chọn Descriptive
Statistics rồi nhấn OK.

 Quá trình xử lý: Chọn biến Đoạn ST giảm...điện tâm đồ trong bảng dữ liệu để thực
hiện tính tốn các giá trị đặc trưng.
Tại Input Range trong Descriptive Statistics ta nhập độ rộng của column dữ liệu.

12


Option: chọn Summary statistics


 Kết quả: Sau khi nhập giá trị tại Input Range và nhấn OK, kết quả cho được như
sau:

Statistic

Describle

Mean

Giá trị trung bình của mẫu dữ liệu

Standard Error

Giá trị sai số tiêu chuẩn của mẫu (thước đo khác nhau giữa dự đoán
và thực tế)

Median

Trung vị của mẫu dữ liệu

Mode

Mốt của mẫu dữ liệu

Standard

Độ lệch chuẩn

Deviation
13



Sample

Phương sai

Variance
Kurtosis

Giá trị KURT

Skewness

Giá trị SKEW

Range

Khoảng khảo sát

Minimum

Giá trị nhỏ nhất

Maximum

Giá trị lớn nhất

Sum

Tổng giá trị các phần tử của mẫu dữ liệu


Count

Tổng số lượng các phần tử của mẫu

14


Câu 4: Kiểm định xem một biến nào đó có phù hợp với 1 dạng phân phối xác
suất cụ thể hay khơng.
 Cơ sở lý thuyết:
Bài tốn: Giả sử đại lượng ngẫu nhiên X chưa rõ phân phối. Cho một mẫu có kích
thước n. Hãy kiểm định giả thuyết:
H: X có phân phối là F(x)
- Trường hợp mẫu là đại lượng ngẫu nhiên rời rạc:
Xét mẫu:
xi

x1 x2

...........

ni

n1

n2

...........


xk
n3

Từ mẫu trên, ta tính được các ước lượng hợp lý cực đại của các tham số của F(x)
nếu các tham số đó chưa biết. Từ các tham số đó ta sẽ tính được các xác suất:
pi < P(X = x i) , i = 1 , k

Ta có quy tắc kiểm định như sau:
Bước 1: Tìm X 2α (k-r-1) từ bảng phân phối X 2 , ở đây r là số tham số của F(x)
k

Bước 2: Tính thống kê => X 20 = ∑
1

2

(O i−Ei )
Ei

ở đây: Oi = ni là tần số từ thực nghiệm
Ei = npi là tần số lý thuyết theo giả thuyết H 0 đúng

Nếu X 20 ≤ X 2α thì chấp nhận H
Nếu X 20 > X 2α thì bác bỏ H
15



×