Tải bản đầy đủ (.docx) (8 trang)

Câu 3 4 XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (153.56 KB, 8 trang )

Câu 3. Chọn một biến định lượng nào đó và thực hiện:



Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý
Tìm các đặc trưng từ mẫu dữ liệu.

Ý một: Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý:
*Giới thiệu: Giá trị ngoại lại (Outlier) có ảnh hưởng lớn đến độ chính xác của các mơ hình dự đốn. Phát
hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mơ hình dự
đốn.
*Phương pháp xử lý: Dùng Quartile để tìm các giá trị ngoại lai.
Hàm QUARTILE có dạng: QUARTILE(array,quart), với:



Array: Là list các giá trị trong một colunm.
Quart: Các option để lựa chọn cho phù hợp với mục đích tính tốn.

*Q trình xử lý: Chọn biến Đoạn ST giảm...điện tâm đồ trong bảng dữ liệu để khảo sát.
Q1: Tứ phân vị thứ nhất( là phân vị thứ 25)
Q3: Tứ phân vị thứ ba ( là phân vị thứ 75)
IQR: Là độ rộng từ giá trị Q1 đến Q3. Tình bằng: IQR = Q3-Q1.
Lower Bound = Q1 – (1.5*IQR) : Biên dưới của miền dữ liệu, công thức được xác định dựa theo định
nghĩa trong thống kê.
Uppon Bound = Q3+(1.5*IQR): Biên trên của miền dữ liệu.
Giá trị ngoại lai (Oulier) được xác định khi (Values > Uppon Bound || Values < Lower Bound) là TRUE.
Cuối cùng, dùng hàm COUNTIF([dữ liệu cột Outlier],TRUE) để đếm xem có bao nhiêu giá trị ngoại lai xuất
hiện.
*Kết quả:



*Đề xuất xử lý giá trị ngoại lại (Outlier)





Xóa dịng dữ liệu chưa outlier ra khỏi dữ liệu phân tích. Việc này sẽ làm mất một số thông tin
trên các cột khác nếu cần phân tích.
Các giá trị outlier sẽ thay bằng giá trị trung bình của dữ liệu.
Xóa các giá trị outlier và đặt lại là NULL(empty).
Đổi outlier thành một giá trị cụ thể(do người phân tích, chuyên gia đề xuất).

Ý hai: Tìm các đặc trưng từ mẫu dữ liệu
Giới thiệu: Mẫu dữ liệu bao gồm một số đặc trưng như: Giá trị trung bình, phương sai, độ lệch chuẩn,....
Tính tốn các giá trị đặc trưng của mẫu là cơng việc cần thiết nhất trong phân tích số liệu ở thống kê.
Phương pháp: Tại phần mềm Excel, chức năng Descriptive Statistics hổ trợ trong việc tính tốn các giá trị
đặc trưng của mẫu. Để mở chức năng này trong Excel, thực hiện các bước: Data -> Data Analysis -> Hộp
option xuất hiện, chọn Descriptive Statistics rồi nhấn OK.


Quá trình xử lý: Chọn biến Đoạn ST giảm...điện tâm đồ trong bảng dữ liệu để thực hiện tính tốn các giá
trị đặc trưng.
Tại Input Range trong Descriptive Statistics ta nhập độ rộng của column dữ liệu.

Option thì chọn Summary statistics

Kết quả: Sau khi nhập giá trị tại Input Range và nhấn OK, kết quả cho được như sau:



Statistic
Mean
Standard Error
Median
Mode
Standard Deviation
Sample Variance
Kurtosis
Skewness
Range
Minimum
Maximum
Sum
Count

Describle
Giá trị trung bình của mẫu dữ liệu
Giá trị sai số tiêu chuẩn của mẫu( thước đo khác nhau giữa dự đoán và thực tế)
Trung vị của mẫu dữ liệu
Mốt của mẫu dữ liệu
Độ lệch chuẩn
Phương sai
Giá trị KURT
Giá trị SKEW
Khoảng khảo sát
Giá trị nhỏ nhất
Giá trị lớn nhất
Tổng giá trị các phần tử của mẫu dữ liệu
Tổng số lượng các phần tử của mẫu


Câu 4: Kiểm định xem một biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không.
*Cơ sở lý thuyết:
Bài toán: Giả sử đại lượng ngẫu nhiên X chưa rõ phân phối. Cho một mẫu có kích thước n. Hãy kiểm định
giả thuyết:
H: X có phân phối là F(x)
- Trường hợp mẫu là đại lượng ngẫu nhiên rời rạc
Xét mẫu:

xi
ni

x 1 x 2 ...........
xk
n1
n2 ...........
n3

Từ mẫu trên, ta tính được các ước lượng hợp lý cực đại của các tham số của F(x) nếu các tham số đó
chưa biết. Từ các tham số đó ta sẽ tính được các xác suất:


pi < P(X = x i) , i = 1 , k
Ta có quy tắc kiểm định như sau:
2

B1: Tìm X α (k-r-1) từ bảng phân phối X 2 , ở đây r là số tham số của F(x)
k

2


(Oi−Ei )
B2: Tính thống kê => X = ∑
Ei
1
2
0

ở đây: O i = ni là tần số từ thực nghiệm

Ei = npi là tần số lý thuyết theo giả thuyết H 0 đúng
2

2

2

2

Nếu X 0 ≤ X α thì chấp nhận H
Nếu X 0 > X α thì bác bỏ H
- Trường hợp X là đại lượng ngẫu nhiên liên tục
Viết lại mẫu đã cho dưới bảng:

xi

(-∞ ; a 1)
(a 1 ; a 2 ¿
(a 2 ; a 3 ¿
....
a

( k−1 ; +∞)

ni
n1
n2
n3

....

nk
∑ ni = n

Từ mẫu ta tìm được các ước lượng hợp lý cực đại của các tham số của F(x) nếu các tham số này chưa
biết. Từ đó ta tính được:

p1 = P(X < a 1), p2 = P(a 1< X <a2) , ...., pk = P(X > a k−1)
Ta có quy tắc kiểm định như sau:
2

2

B1: Tìm X α = X α (k-r-1) từ bảng phân phối X 2 , ở đây là tham số của F(x)
k

2

(O i−Ei )
B2: Tính thống kê => X = ∑
Ei
1

2
0

ở đây: O i = ni là tần số từ thực nghiệm

Ei = npi là tần số lý thuyết theo giả thuyết H 0 đúng
2

2

2

2

Nếu X 0 ≤ X α thì chấp nhận H
Nếu X 0 > X α thì bác bỏ H
* Thực hiện câu hỏi:


Ở bài này, dùng biến Huyết áp lúc nghỉ ngơi(tạm gọi là A) để kiểm định dạng phân phối
Để thuận tiện cho việc kiểm định, đầu tiên ta phân tổ dữ liệu:
+ Xác định số tổ cần chia (k):
Ở đây dùng công thức: k = (2*n)^(1/3)
Biểu thức nhập trong Excel: =(2*COUNT(D2:D151))^(1/3)
Kết quả: 6.69433.
Vậy k = 7.
+ Xác định khoảng cách h theo công thức: h =

Xmax− Xmin
k


Nhập biểu thức vào Excel: =(MAX(D2:D151)-MIN(D2:D151))/7
Kết quả: 12,2857
Chọn h = 13.
Dùng chức năng Data/Data Analysis/Histogram.

Và kết quả cho được như sau:


Kiểm định A: Với mức ý nghĩa 5%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không?
Giả thuyết kiểm định H 0 : Mẫu phù hợp với phân phối chuẩn
Giả thuyết kiểm định H 1: Mẫu khơng phù hợp với phân phối chuẩn
Tính các đặc trưng của mẫu :

x = 128.8267

n = 150

^s= 16.16323 (Excel: =STDEV.P(D2:D151))

+ x là ước lượng hợp lý cực đại cho a => a= 128.8267
+ ^s2 là ước lượng hợp lý cực đại choσ 2 => σ = 16.16323
Nếu X có phân phối chuẩn thi X ~ N(128.8267; (16.16)2)
Khoảng

Tần số

-∞ - 107
107- 120


12
45

120 – 133

37

133 – 146

35

146 – 159

14

159 – 172

5

172- +∞

2

Pi=¿ P(

β−a
α −a
) -P(
) Hàm NORMSDIST
σ

σ

=(NORM.S.DIST((106-O16)/O17,TRUE)) - 0
=(NORM.S.DIST((118-O16)/O17,TRUE)NORM.S.DIST((106-O16)/O17,TRUE))
=(NORM.S.DIST((130-O16)/O17,TRUE)NORM.S.DIST((118-O16)/O17,TRUE))
=(NORM.S.DIST((142-O16)/O17,TRUE)NORM.S.DIST((130-O16)/O17,TRUE))
=(NORM.S.DIST((154-O16)/O17,TRUE)NORM.S.DIST((142-O16)/O17,TRUE))
=(NORM.S.DIST((166-O16)/O17,TRUE)NORM.S.DIST((154-O16)/O17,TRUE))
=(NORM.S.DIST((178-O16)/O17,TRUE)NORM.S.DIST((166-O16)/O17,TRUE))

Số tham số của phân phối chuẩn là r =2, nên:
2

2

Với k = 8, r = 2=> X α = X 0.04 (7−2−1) = 9.487729 (Excel =CHIINV(0.05,4))
Miền bác bỏ W α = (9.487729 ; +∞)

Kết quả Pi
0.07893
0.17254
0.27745
0.26353
0.14784
0.04895
0.00955


(ni−n pi )2
= 19.1429 (Excel =SUM(P19:P26)

X =∑
n pi
i=1
8

2
o

2

2

Vì X o > X α nên không thể coi mẫu này là phân phối chuẩn.



×