cĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
STT
Giảng viên hướng dẫn:
ThS. Nguyễn Kiều Dung
Nhóm sinh viên thực hiện:
5 – L09
Họ tên SINH VIÊN
MSSV
Nhóm
Ngành học
/Tổ
1
Huỳnh Gia Huy
1711482
L09
Cơ điện tử
2
Võ Thế Nhân
1813353
L09
Xây dựng
3
Nguyễn Hoàng Anh Vũ 1814814
L09
Điện – Điện tử
4
Nguyễn Trương Giang
1810901
L09
Điện – Điện tử
5
Lê Huỳnh Ái Trân
1814418
L09
Logistics và Quản
6
Trần Thị Tuyết
1814639
L09
lí chuỗi cung ứng
7
Nguyễn Tiến Phát
1712572
L09
Khoa học máy tính
8
Nguyễn Hồng Đào
1811831
L20
Dệt
Ký tên tham
dự
MỤC LỤ
C
ĐỀ TÀI................................................................................................................................1
Câu 1: Vẽ biểu đồ histogram; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến
định lượng. Nêu nhận xét.....................................................................................................1
Câu 2: Vẽ biểu đồ Pie của một biến định tính....................................................................7
Câu 3. Chọn một biến định lượng nào đó và thực hiện:......................................................9
Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý.....................................9
Tìm các đặc trưng từ mẫu dữ liệu.................................................................................9
Câu 4: Kiểm định xem một biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể
hay không...........................................................................................................................14
Câu 5: Chọn dữ liệu 2 biến để lập bài toán kiểm định so sánh 2 trung bình tổng thể. Trình
bày các bước thực hiện và nhận xét kết quả......................................................................20
Câu 6. Chọn dữ liệu cho k biến (k 3) để lập bài tốn so sánh về trung bình. Trình bày
các bước thực hiện và nhận xét..........................................................................................25
Câu 7: Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán. Trình
bày các bước thực hiện và nhận xét kết quả......................................................................30
Câu 8: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài tốn kiểm định
tính độc lập). Trình bày các bước thực hiện và nhận xét kết quả.....................................35
Câu 9: Khảo sát hệ số tương quan giữa 2 biến cụ thể, dự đốn phương trình đường hồi
quy tuyến tính giữa chúng (có hình vẽ minh họa) và nhận xét về mối tương quan giữa 2
biến....................................................................................................................................40
Câu 10: Chọn ra k biến ( k >= 3) và xem xét có thể lập mơ hình hồi quy tuyến tính đa biến
giữa chúng hay không........................................................................................................50
ĐỀ TÀI
NGHIÊN CỨU MỐI LIÊN QUAN GIỮA MỘT SỐ THÔNG SỐ
CỦA BỆNH NHÂN VỚI BỆNH TIM MẠCH
Bệnh Tim mạch là bệnh lý về tim và mạch máu bao gồm: tăng huyết áp, rối loạn
nhịp tim, bệnh động mạch vành, bệnh van tim, suy tim, xơ vữa động mạch, đột quỵ…
Bệnh Tim mạch là nguyên nhân hàng đầu gây tử vong trên thế giới. Mỗi năm, bệnh Tim
mạch gây ra cho hơn 17,5 triệu cái chết và dự đốn sẽ có khoảng 25 triệu người bị bệnh
Tim mạch tử vong vào năm 2020.
Với mục đích tìm thấy bất kỳ xu hướng nào khác các triệu chứng trong dữ liệu về
tim của bệnh nhân để dự đoán các sự kiện tim mạch nhất định hoặc tìm thấy bất kỳ dấu
hiệu rõ ràng nào về sức khỏe của tim, đề tài “Nghiên cứu mối liên quan giữa một số thông
số của bệnh nhân với bệnh tim mạch” đã được thực hiện với cơ sở dữ liệu của Cleveland.
Nghiên cứu được thực hiện trên 300 đối tượng từ độ tuổi 30 tới 80 với 14 loại thông
tin. Để phù hợp với bài tập lớn, nhóm chúng em đã chọn ra 8 loại của 150 đối tượng (gồm
có: độ tuổi, giới tính, loại đau ngực, huyết áp lúc nghĩ ngơi, chỉ số Cholesterol, chỉ số
đường huyết, nhịp tim tối đa, đoạn ST giảm xuống gây ra khi tập thể dục tương đối với
lúc nghỉ trong điện tâm đồ) cho việc thống kê và đánh giá.
/>Những người thực hiện thí nghiệm:
1. Viện Tim mạch Hungary. Budapest: Andras Janosi, M.D.
2. Bệnh viện Đại học, Zurich, Thụy Sĩ: William Steinbrunn, M.D.
3. Bệnh viện Đại học, Basel, Thụy Sĩ: Matthias Pfisterer, M.D.
4. V.A. Trung tâm y tế, Long Beach và Tổ chức phòng khám Cleveland: Robert Detrano,
M.D., Ph.D.
1
2
Câu 1: Vẽ biểu đồ histogram; biểu đồ mật độ tần số; biểu đồ tích lũy tần số
của một biến định lượng. Nêu nhận xét.
Bài làm
Dạng bài: Thống kê mô tả
Chọn dữ liệu
Bảng dữ liệu về bệnh tim (A)
Thực hiện phương pháp phân tổ dữ liệu (A).
Nhập dữ liệu (A) vào Excel
Chọn biến định lượng để vẽ biểu đồ: Chỉ số Cholesterol (E1-E151)
1
Xác định số tổ cần chia:
+ Chọn ô A7 nhập vào biểu thức: =(2*COUNT(E2:E151))^(1/3)
+ Kết quả: k = 6.6943
+ Chọn k = 7
Xác định trị số khoảng cách h theo công thức:
+ Chọn ô A8 nhập vào biểu thức: =(MAX(E2:E151)-MIN(E2:E151))/7
+ Kết quả: h = 73
Ta xác định được cận trên và cận dưới của các tổ lần lượt là:
+ Tổ 1: 126
+ Tổ 2: 199
+ Tổ 3: 272
+ Tổ 4: 345
+ Tổ 5: 418
+ Tổ 6: 491
+ Tổ 7: 564
Chọn chức năng Data → Data Analysis → Histogram
Input Range: địa chỉ tuyệt đối chứa dữ liệu
Bin Range: địa chỉ chứa bảng phân nhóm
Output Range: vị trí xuất kết quả
Chọn Cumulative Percentage để tính tần suất tích lũy nếu khơng Excel chỉ tính
tần suất
2
Kết quả:
Vẽ biểu đồ histogram; biểu đồ mật độ tần số; biểu đồ tích lũy tần số.
Vẽ biểu đồ phân bố tần số
Quét chọn bảng tần số: M4 – M10
Dùng chức năng Insert Column Chart trên menu Insert
Kết quả:
3
BIỂU ĐỒ TẦN SỐ
100
90
80
70
60
50
40
30
20
10
0
1
2
3
4
5
6
7
Vẽ biểu đồ tích lũy tần số
Quét chọn cột tần số tích lũy: N4 – N10
Dùng chức năng Insert Column Chart trên menu Insert
Kết quả:
BIỂU ĐỒ TÍCH LŨY TẦN SỐ
120.00%
100.00%
80.00%
60.00%
40.00%
20.00%
0.00%
1
2
3
4
5
6
7
4
Biểu đồ mật độ: là hình chữ nhật cho mỗi tổ với đáy là khoảng cách tổ và chiều cao
tính theo cơng thức:
Trong đó :
fi là tỉ lệ của từng tổ.
h là khoảng cách tổ.
Đối với dữ liệu A:
+ i = 1,2,3,4.
+ h = 73 (khoảng cách tổ).
+ Ta có bảng số liệu:
Vẽ biểu đồ mật độ;
Quét chọn cột độ cao H(x)
Dùng chức năng Insert Column Chart trên menu Insert
Kết quả:
5
BIỂU ĐỒ MẬT ĐỘ TẦN SỐ
0.01
0.009
0.008
0.007
0.006
0.005
0.004
0.003
0.002
0.001
0
1
2
3
4
5
6
7
6
Câu 2: Vẽ biểu đồ Pie của một biến định tính.
Bài làm
Dạng bài: Thống kê mơ tả
Chọn biến định tính trong dữ liệu (A): Giới tính (B2;B151)
Vẽ biểu đồ tròn thể hiện tỉ lệ giữa con trai và con gái:
Quét chọn cột (B2:B151)
Dùng chức năng Insert pie
Kết quả thu được
7
BIỂU ĐỒ TỈ LỆ NAM NỮ
45%
Con trai
55%
Con gái
8
Câu 3. Chọn một biến định lượng nào đó và thực hiện:
Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý
Tìm các đặc trưng từ mẫu dữ liệu.
Ý một: Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý:
Giới thiệu: Giá trị ngoại lại (Outlier) có ảnh hưởng lớn đến độ chính xác của các mơ
hình dự đốn. Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá
trình chuẩn bị dữ liệu cho mơ hình dự đốn.
Phương pháp xử lý: Dùng Quartile để tìm các giá trị ngoại lai.
Hàm QUARTILE có dạng: QUARTILE(array,quart), với:
Array: Là list các giá trị trong một colunm.
Quart: Các option để lựa chọn cho phù hợp với mục đích tính tốn.
Q trình xử lý: Chọn biến Đoạn ST giảm...điện tâm đồ trong bảng dữ liệu để khảo
sát.
+ Q1: Tứ phân vị thứ nhất( là phân vị thứ 25)
+ Q3: Tứ phân vị thứ ba ( là phân vị thứ 75)
+ IQR: Là độ rộng từ giá trị Q1 đến Q3. Tình bằng: IQR = Q3-Q1.
+ Lower Bound = Q1 – (1.5*IQR) : Biên dưới của miền dữ liệu, công thức được xác
định dựa theo định nghĩa trong thống kê.
+ Uppon Bound = Q3 + (1.5*IQR): Biên trên của miền dữ liệu.
9
Giá trị ngoại lai (Oulier) được xác định khi (Values > Uppon Bound || Values <
Lower Bound) là TRUE.
Cuối cùng, dùng hàm COUNTIF([dữ liệu cột Outlier],TRUE) để đếm xem có bao
nhiêu giá trị ngoại lai xuất hiện.
Kết quả:
Đề xuất xử lý giá trị ngoại lại (Outlier)
Xóa dịng dữ liệu chưa outlier ra khỏi dữ liệu phân tích. Việc này sẽ làm mất một
số thông tin trên các cột khác nếu cần phân tích.
Các giá trị outlier sẽ thay bằng giá trị trung bình của dữ liệu.
Xóa các giá trị outlier và đặt lại là NULL(empty).
Đổi outlier thành một giá trị cụ thể(do người phân tích, chuyên gia đề xuất).
10
11
Ý hai: Tìm các đặc trưng từ mẫu dữ liệu
Giới thiệu: Mẫu dữ liệu bao gồm một số đặc trưng như: Giá trị trung bình, phương
sai, độ lệch chuẩn,.... Tính tốn các giá trị đặc trưng của mẫu là cơng việc cần thiết
nhất trong phân tích số liệu ở thống kê.
Phương pháp: Tại phần mềm Excel, chức năng Descriptive Statistics hổ trợ trong
việc tính tốn các giá trị đặc trưng của mẫu. Để mở chức năng này trong Excel, thực
hiện các bước: Data -> Data Analysis -> Hộp option xuất hiện, chọn Descriptive
Statistics rồi nhấn OK.
Quá trình xử lý: Chọn biến Đoạn ST giảm...điện tâm đồ trong bảng dữ liệu để thực
hiện tính tốn các giá trị đặc trưng.
Tại Input Range trong Descriptive Statistics ta nhập độ rộng của column dữ liệu.
12
Option: chọn Summary statistics
Kết quả: Sau khi nhập giá trị tại Input Range và nhấn OK, kết quả cho được như
sau:
Statistic
Describle
Mean
Giá trị trung bình của mẫu dữ liệu
Standard Error
Giá trị sai số tiêu chuẩn của mẫu (thước đo khác nhau giữa dự đoán
và thực tế)
Median
Trung vị của mẫu dữ liệu
Mode
Mốt của mẫu dữ liệu
Standard
Độ lệch chuẩn
Deviation
13
Sample
Phương sai
Variance
Kurtosis
Giá trị KURT
Skewness
Giá trị SKEW
Range
Khoảng khảo sát
Minimum
Giá trị nhỏ nhất
Maximum
Giá trị lớn nhất
Sum
Tổng giá trị các phần tử của mẫu dữ liệu
Count
Tổng số lượng các phần tử của mẫu
14
Câu 4: Kiểm định xem một biến nào đó có phù hợp với 1 dạng phân phối xác
suất cụ thể hay khơng.
Cơ sở lý thuyết:
Bài tốn: Giả sử đại lượng ngẫu nhiên X chưa rõ phân phối. Cho một mẫu có kích
thước n. Hãy kiểm định giả thuyết:
H: X có phân phối là F(x)
- Trường hợp mẫu là đại lượng ngẫu nhiên rời rạc:
Xét mẫu:
xi
x1 x2
...........
ni
n1
n2
...........
xk
n3
Từ mẫu trên, ta tính được các ước lượng hợp lý cực đại của các tham số của F(x)
nếu các tham số đó chưa biết. Từ các tham số đó ta sẽ tính được các xác suất:
pi < P(X = x i) , i = 1 , k
Ta có quy tắc kiểm định như sau:
Bước 1: Tìm X 2α (k-r-1) từ bảng phân phối X 2 , ở đây r là số tham số của F(x)
k
Bước 2: Tính thống kê => X 20 = ∑
1
2
(O i−Ei )
Ei
ở đây: Oi = ni là tần số từ thực nghiệm
Ei = npi là tần số lý thuyết theo giả thuyết H 0 đúng
Nếu X 20 ≤ X 2α thì chấp nhận H
Nếu X 20 > X 2α thì bác bỏ H
15