Tải bản đầy đủ (.pdf) (94 trang)

Bài giảng Thống kê trong kỹ thuật

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.93 MB, 94 trang )

08/09/2021

TRƯỜNG ĐẠI HỌC THỦY LỢI
KHOA KỸ THUẬT TÀI NGUYÊN NƯỚC
BỘ MÔN THỦY VĂN - BĐKH

THỐNG KÊ TRONG KỸ THUẬT

Giảng viên: Nguyễn Thị Thu Hà
Email:

1

TRƯỜNG ĐẠI HỌC THỦY LỢI
KHOA KỸ THUẬT TÀI NGUYÊN NƯỚC
BỘ MÔN THỦY VĂN - BĐKH

Chương 1: Những khái niệm cơ bản

Giảng viên: Nguyễn Thị Thu Hà
Email:

2

1


08/09/2021

Nội dung
I.



Vai trò ứng dụng của thống kê trong các bài toán kỹ
thuật

Khái niệm về biến ngẫu nhiên, xác suất,
III. Phân bố xác suất của biến ngẫu nhiên
IV. Khái niệm mẫu, tổng thể, phương pháp chọn mẫu, đặc
trưng thống kê của mẫu.
V. Miêu tả đồ họa phân bố của mẫu
II.

3

I. Vai trị ứng dụng của thống kê trong
các bài tốn kỹ thuật
• Là một chun ngành có phạm vi rộng, thống kê

liên quan đến những thủ tục/ phương pháp để rút
ra các thông tin từ dữ liệu bị ảnh hưởng bởi sự
biến thiên ngẫu nhiên, từ đó đưa ra các quyết
định về kỹ thuật hoặc trả lời các câu hỏi liên quan
đến kỹ thuật.
• Thống kê là khoa học và nghệ thuật thử nghiệm, thu

thập, phân tích và đưa ra suy luận từ dữ liệu.

4

2



08/09/2021

I. Vai trò ứng dụng của thống kê trong
các bài tốn kỹ thuật
• Đối với mục đích miêu

tả

5

I. Vai trị ứng dụng của thống kê trong
các bài tốn kỹ thuật
• Đối với mục đích phân tích và diễn giải phức tạp

hơn (thống kê suy luận)!!

6

3


08/09/2021

I. Vai trò ứng dụng của thống kê trong
các bài tốn kỹ thuật
• Đối với các suy luận thống kê hoặc những dự đốn

đưa ra có xét đến tính bất định
• Phân tích tần suất

• Thống kê Bayes…

7

II. Khái niệm về biến ngẫu nhiên, xác suất
Phép thử ngẫu nhiên, Không gian mẫu, Sự kiện
 Phép thử ngẫu nhiên (random experiment): Là một thí

nghiệm hay một quan sát nào đó mà kết quả không thể
nào biết trước được, tuy nhiên ta có thể xác định được
tập hợp tất cả các kết quả có thể xảy ra của phép thử đó.
V

8

4


08/09/2021

II. Khái niệm về biến ngẫu nhiên, xác suất
Phép thử ngẫu nhiên, Không gian mẫu, Sự kiện
 Không gian mẫu (sample space): Tập hợp tất cả các kết

quả có thể xảy ra khi thực hiện một phép thử ngẫu
nhiên được gọi là không gian mẫu, mỗi kết quả được
gọi là một biến cố sơ cấp (hay là một điểm mẫu
(sample point)).
 Không gian mẫu rời rạc:.


 Không gian mẫu liên tục:

9

II. Khái niệm về biến ngẫu nhiên, xác suất
Phép thử ngẫu nhiên, Không gian mẫu, Sự kiện
 Sự kiện hay biến cố là một tập con của không gian

mẫu
 Sự kiện có thể bao gồm một điểm mẫu (biến cố sơ
cấp) hay nhiều điểm mẫu (không gian mẫu rời rạc)
hoặc một dãy thuộc không gian mẫu (không gian mẫu
liên tục).

10

5


08/09/2021

II. Khái niệm về biến ngẫu nhiên, xác suất
Biến ngẫu nhiên
 Biến ngẫu nhiên (random variables) là các biến nhận

1 giá trị ngẫu nhiên đại diện cho kết quả của phép
thử.
 Biến ngẫu nhiên thường được ký hiệu bởi chữ cái viết

hoa X, và chữ cái viết thường tương ứng của nó, ví dụ

x, được sử dụng để thể hiện giá trị cụ thể của biến
ngẫu nhiên đó.
 Mỗi giá trị nhận được x của biến ngẫu nhiên X được

gọi là một thể hiện của X, đây cũng là kết quả của
phép thử hay còn được hiểu là một sự kiện.
11

II. Khái niệm về biến ngẫu nhiên, xác suất
Biến ngẫu nhiên
 Biến ngẫu nhiên có thể là biến rời rạc hoặc biến liên tục, phụ

thuộc vào loại không gian mẫu tương ứng với nó.
 Biến ngẫu nhiên tương ứng với khơng gian mẫu rời rạc, các trị
số của nó là những số tách rời nhau và đếm được.
 Biến ngẫu nhiên liên tục tương ứng với không gian mẫu liên
tục, các trị số có thể của nó là những biến số liền nhau, giữa
chúng khơng có khoảng cách nào.
 Biến ngẫu nhiên (X) được miêu tả bởi phân phối xác suất.

12

6


08/09/2021

II. Khái niệm về biến ngẫu nhiên, xác suất
Định nghĩa xác suất
 Định nghĩa xác suất theo lối cổ điển

 Xác suất (P) của một sự kiện (E) bằng số kết quả thuận lợi có

thể xảy ra (h) chia cho tổng số kết quả có thể xảy ra (n):

( )=
 Lý thuyết cổ điển giả định rằng tất cả các kết quả có thể xảy ra

đều có khả năng xảy ra như nhau và chúng ta biết rằng n.

13

II. Khái niệm về biến ngẫu nhiên, xác suất
Định nghĩa xác suất

 Tần số tương đối:
 Khi số phép thử lớn và ta khơng thể quan

sát tất cả các phép thử đó. Chúng ta cần
quan sát đủ các trường hợp (n phải đủ lớn),
và các trường hợp chúng ta quan sát cần
phải là điển hình.
 P(E) = h (xuất hiện)/ n (quan trắc)

14

7


08/09/2021


II. Khái niệm về biến ngẫu nhiên, xác suất
Định nghĩa xác suất

 Nếu sự kiện h được định nghĩa là một kết quả

thuận lợi hoặc thành cơng, thì sự kiện không
phải (h) được định nghĩa là một sự kiện bất lợi
hoặc thất bại. Do đó:
 P(E) = h / n là thành cơng thì
 P (khơng phải E) = (n-h) / n = 1 - h / n = (1-P (E)).
 Xác suất thất bại = 1 - (xác suất thành công).

15

II. Khái niệm về biến ngẫu nhiên, xác suất

Một số định nghĩa cơ bản liên quan đến định lý xác suất
 Hai sự kiện được gọi là loại trừ hay phủ định lẫn nhau nếu chúng







không thể xảy ra đồng thời
Hai sự kiện E1 và E2 được gọi là độc lập với nhau nếu việc xảy ra hay
không xảy ra của sự kiện này không làm ảnh hưởng tới xác suất xuất
hiện của sự kiện kia
Trong trường hợp ngược lại ta nói E1 và E2 là 2 sự kiện phụ thuộc

nhau
Xác suất để sự kiện E2 xảy ra, với điều kiện là sự kiện E1 phải xảy ra
trước, được gọi là một xác suất có điều kiện. Xác suất có điều kiện
của sự kiện E2, khi đã có sự kiện E1 được kí hiệu là P(E2|E1).
Phần bù (đối lập) của một sự kiện là việc sự kiện đó khơng xảy ra.
Xác suất để sự kiện E1 không xảy ra được kí hiệu bởi P( 1).

16

8


08/09/2021

II. Khái niệm về biến ngẫu nhiên, xác suất

Các định lý cơ bản của lý thuyết xác suất
 Xác suất của một sự kiện trong khoảng từ 0 tới 1:

0≤


≤1

Tổng của xác suất của tất cả các sự kiện có thể xảy ra là 1
=1

 Nếu E1 và E2 xung khắc hay loại trừ lẫn nhau (chúng không bao giờ xảy ra đồng thời)
 P(E1  E2 ) = P(E1) + P(E2)


17

II. Khái niệm về biến ngẫu nhiên, xác suất

Các tính chất cơ bản của lý thuyết xác suất
 Quy tắc cộng xác suất
 Quy tắc cộng: Nếu E1 và E2 xung khắc thì:
 P(E1  E2 ) = P(E1) + P(E2) hay P(E1 và E2 ) = P(E1) + P(E2)
 Trong trường hợp tổng quát, khi E1 và E2 khơng xung khắc với

nhau ta có cơng thức sau:
 P(E1 hoặc E2) = P(E1) + P(E2) – P(E1E2)


Trong đó E1E2 là biến cố “E1 và E2 đồng thời xảy ra”

18

9


08/09/2021

II. Khái niệm về biến ngẫu nhiên, xác suất

Các định lý cơ bản của lý thuyết xác suất
 Quy tắc nhân
 Quy tắc nhân: Nếu E1 và E2 độc lập thì
 P(E1E2) hay P(E1E2) = P(E1).P(E2) hay P(E1 và E2 ) = P(E1).P(E2)


19

II. Khái niệm về biến ngẫu nhiên, xác suất
Các định lý cơ bản của lý thuyết xác suất
 Xác suất có điều kiện
 Nếu E1 và E2 là 2 sự kiện phụ thuộc.
 Cơng thức tính xác suất có điều kiện P(E2/E1) thơng qua

các xác suất khơng điều kiện
(E2/E1) =

(E2 ⋂ E1)
( 1)

20

10


08/09/2021

III. Phân bố xác suất của ĐLNN
 Mỗi một đại lượng ngẫu nhiên đều có 1 luật phân bố của

nó, luật phân bố này phụ thuộc vào bản chất của đại
lượng ngẫu nhiên.
 Luật phân bố xác suất của đại lượng ngẫu nhiên là quy
luật liên hệ những trị số có thể của đại lượng ngẫu nhiên
với những xác suất tương ứng của chúng.
 Biến rời rạc: Hàm mật độ khối, hàm phân bố lũy tích

 Biến liên tục: Hàm mật độ xác suất và hàm phân bố

lũy tích

21

III. Phân bố xác suất của ĐLNN
Hàm mật độ khối của biến rời rạc
 Hàm xác suất như vậy đối với biến ngẫu nhiên

rời rạc được gọi là hàm khối xác suất (PMF Probability Mass Function).
= ( = )

22

11


08/09/2021

III. Phân bố xác suất của ĐLNN
Hàm phân bố lũy tích của biến rời rạc
 Hàm phân bố lũy tích (cumulative distribution

function, cdf): FX(x)
= ( ≤ )
 (





≤1)
=∑

(

)

23

III. Phân bố xác suất của ĐLNN
Hàm mật độ xác suất của biến liên tục

 Biến liên tục có thể giả định bất kỳ giá trị x nào trong một phạm vi số thực

nhất định, có thể có hoặc khơng có giới hạn.
 Với các biến ngẫu nhiên liên tục ta có khái niệm hàm mật độ xác

suất (PDF - Probability Density Function) để ước lượng độ tập trung
xác suất tại lân cận điểm nào đó.
 Dạng liên tục của hàm mật độ khối là hàm mật độ xác suất
( ) là hàm tốn học khơng âm mà trong biểu
diễn đồ họa của nó thường có dạng một đường cong liên tục trên một
phạm vi giá trị mà biến ngẫu nhiên có thể nhận.

 Hàm mật độ xác suất

24

12



08/09/2021

III. Luật phân phối xs của ĐLNN
Hàm mật độ xác suất của biến liên tục
 Tính chất của hàm mật độ xác suất
 Tính chất 1: Hàm mật độ xác suất luôn không âm: f(z) ≥ 0, với mọi z
 Tính chất 2: tích phân suy rộng trong khoảng (-∞;∞) của hàm mật

độ xác suất bằng 1: ∫
( ) = 1.
 Tính chất 3: Xác suất để đại lượng ngẫu nhiên liên tục X nhận giá trị
trong khoảng (a,b) bằng tích phân xác định của hàm mật độ xác suất
trong khoảng đó:
≤ 2 = ∫
1 ≤

25

III. Luật phân phối xs của ĐLNN
Hàm lũy tích xác suất của biến liên tục
 Hàm lũy tích xác suất FZ(z) của đại lượng ngẫu nhiên liên tục Z bằng tích phân

suy rộng của hàm mật độ xác suất trong khoảng (-∞; z).



Hay:


( )=∫
( )
( )

( )

=

 Hàm phân phối tích lũy (CDF): xác suất nó nhỏ hơn hoặc bằng một giá trị x

cho trước:
=

 Xác suất vượt quá, là xác suất mà bất kỳ kết quả nào trong X lớn hơn
hoặc bằng một giá trị giới hạn đã nêu, x
P(Z  zi) = 1 – FZ(zi)

26

13


08/09/2021

cdf

cdf

27


III. Luật phân phối xs của ĐLNN
Hàm mật độ đối xứng và bất đối xứng
Symmetric and non-symmetric distribution

0.06
non-symmetric

0.05
symmetric

f(x)

0.04
0.03
0.02
0.01
0
0

10

20

30

40

x
28


14


08/09/2021

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu

1. Mẫu và tổng thể
 Để tìm luật phân bố của đại lượng ngẫu nhiên, chúng ta

phải liên tiếp lặp đi, lặp lại thí nghiệm trên đại lượng ngẫu
nhiên đó
 Những kết quả thí nghiệm thu được này lập thành 1 chuỗi
số, trong thống kê toán học chuỗi số này được gọi là chuỗi
số thống kê hay liệt thống kê.
 Mẫu: Những kết quả thí nghiệm thu được được gọi là
mẫu. Như vậy mẫu chính là chuỗi số thống kê hay liệt
thống kê. Số những kết quả thí nghiệm gọi là dung lượng
mẫu.
 Tổng thể: Tất cả các trị số có thể của đại lượng ngẫu
nhiên được gọi là tổng thể. Như vậy chúng ta sẽ có tổng
thể nếu dung lượng mẫu tiến tới . Trong thực tế, khi thí
nghiệm được lặp đi lặp lại liên tiếp, ta khơng thể thu được
tổng thể mà chỉ thu được mẫu mà thôi.

29

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu

1. Mẫu và tổng thể

Phương pháp chọn mẫu
 Mẫu phải có tính đại biểu.
 Mẫu phải có tính độc lập:
 Mẫu phải có tính đồng nhất:

30

15


08/09/2021

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu
2. Đặc trưng thống kê của mẫu
a. Biểu thị xu thế tập trung
 Trị số bình qn (x):
- Cơng thức tính: Giả sử có một chuỗi số quan trắc x1, x2,…, xn, ta

 xi
x
n

31

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu
2. Đặc trưng thống kê của mẫu
a. Biểu thị xu thế tập trung
 Số đông Xđ:
- Là số xuất hiện nhiều nhất
trong chuỗi số.

- Ví dụ: cho chuỗi số: 3, 18, 13,
14, 13, 16, 14, 21, 13
 Trung vị (Median):

-

là số nằm ở giữa (middle)
trong chuỗi số
Ví dụ: cho chuỗi số: 3, 18, 13, 14,
13, 16, 14, 21, 13

32

16


08/09/2021

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu
2. Đặc trưng thống kê của mẫu
b. Biểu thị mức độ phân tán
 Phương sai
∑ ( − ̄)
 2=
 Khoảng lệch quân phương


=

∑ (


− ̄)

- Sx càng lớn thì độ phân tán của chuỗi số càng lớn và ngược lại
- Sx có thứ ngun nên khơng thể dùng để so sánh mức độ phân tán giữa các

chuỗi số có thứ nguyên khác nhau. Mặt khác với hai chuỗi có X khác nhau
lớn cũng không dùng để so sánh mức độ phân tán được

33

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu
2. Đặc trưng thống kê của mẫu
b. Biểu thị mức độ phân tán
 Hệ số biến thiên (Hệ số phân tán) Cv
- Công thức
-

=

- Cv không âm và không thứ nguyên

34

17


08/09/2021

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu

2. Đặc trưng thống kê của mẫu
c. Biểu thị tính đối xứng
 Biểu thị tính khơng đối xứng
 Cơng thức

=

( − 1)( − 2)

− ̅

• Hệ số khơng đối xứng (Hệ số thiên lệch) Cs
• Cơng thức

=

- Nếu Cs > 0; thì phân phối bất đối xứng và đồ thì xi về bên phải nhiều

hơn, với chỉ một số lượng nhỏ những giá trị rất lớn

- Nếu Cs < 0; thì phân phối bất đối xứng và đồ thị sẽ xuôi về bên trái nhiều

hơn,

- Nếu Cs = 0, thì phân phối là đối xứng

35

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu
2. Đặc trưng thống kê của mẫu

d. Phân vị (Quantiles),
 Các số phân vị (percentile) được dùng để xác định vị trí tương đối của một giá

trị so với các giá trị khác trong một tập hợp số. Một cách tổng quát, các số phân
vị sẽ chia một tập hợp số đã được xếp thứ tự thành nhiều phần có số số hạng
bằng nhau (hay gần bằng nhau).

36

18


08/09/2021

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu
2. Đặc trưng thống kê của mẫu
d. Phân vị (Quantiles)
 Tứ phân vị: Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba. Ba giá trị

này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần
có số lượng quan sát đều nhau:
 Số tứ phân vị thứ nhất (Q1) = phân vị thứ 25 (p25)
 Tứ phân vị thứ hai (Q2) hay trung vị TV = phân vị thứ 50 (p50)
 Từ phân vị thứ 3 (3rd quartile) = phân vị thứ 75 (p75)
 Khoảng liên tứ phân (interquartile range hay IQR) = Q3- Q1

37

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu
4. Sai số chuẩn (Stardard error) của giá trị trung bình và

độ lệch chuẩn
 Giá trị trung bình ( ̅ ) và S tính từ mẫu, chỉ là một ước tính cho giá trị trung

bình của tổng thể ( ) và  tương ứng.

 Mẫu khác nhau sẽ có giá trị trung bình khác nhau và độ lệch chuẩn khác nhau,

tạo nên một tập hợp những giá trị trung bình và độ lệch chuẩn (gọi là tổng thể
của trung bình hoặc tổng thể của độ lệch chuẩn)
 Thuật ngữ "Sai số chuẩn" được sử dụng để chỉ độ lệch chuẩn của các
mẫu thống kê khác nhau, chẳng hạn như giá trị trung bình hoặc độ lệch
chuẩn

38

19


08/09/2021

IV. Khái niệm mẫu, tổng thể, đặc trưng thống kê của mẫu
4. Sai số chuẩn (Stardard error) của giá trị trung bình và
độ lệch chuẩn
 Mẫu có kích thước càng lớn sai số chuẩn càng nhỏ. Khi

sai số chuẩn nhỏ, giá trị trung bình mẫu được cho là đại
diện nhiều hơn cho giá trị trung bình tổng thể. Trong
trường hợp sai số chuẩn lớn, dữ liệu có thể có một số
điểm dữ liệu ngoại lai đáng chú ý.
 Sai số chuẩn của những giá trị trung bình và độ lệch chuẩn của

mẫu là
( ̅) =



( )=

(

)

39

V. Trình bày đồ họa phân bố của dữ liệu
 Biểu đồ phân phối tần số (Histogram)
 Biểu đồ phân phối lũy tích kinh nghiệm (Cumulative Distribution)
 Biểu đồ hộp (Box plot)

40

20


08/09/2021

V. Trình bày đồ họa phân bố của dữ liệu
Tần số (Histograms): Phân bố tần suất

X (mm)


Lượng Mưa Năm
160
140
120
100
80
60
40
20
0
1985

1990

1995

2000

2005

2010

2015

Biểu đồ tần số tuyệt đối

Năm

Tần số tuyệt đối


8

Biểu thị tần suất
trong khoảng
(Bin): 40 < x < 60

6
4
2
0
40-60

Bin

60-80

80-100

100-120

120-140

140-160

Lượng mưa (mm)

41

Biểu đồ tần số tuyệt đối


Tần số TUYỆT ĐỐI
(ABSOLUTE frequency)
Hay đơn giản gọi là tần số
(frequency)

Tần số tuyệt đối

8
6
4
2
0
40-60

60-80

80-100

100-120

120-140

140-160

Lượng mưa (mm)

Tần sốTƯƠNG ĐỐI
(RELATIVE frequency)
Tầ ố
tổng số lần quan trắc,


Tần suất tương đối (%)

Biểu đồ tần suất tương đối
35.00
30.00
25.00
20.00
15.00
10.00
5.00
0.00
40-60

60-80

80-100

100-120

120-140

140-160

Lượng mưa (mm)

Tần số tương đối f(x) là một
ước lượng của xác suất p(x)
42


21


08/09/2021

Biểu đồ tần suất lũy tích
• Trong kỹ thuật thường quan tâm đến việc xác định khả

năng vượt quá (HOẶC Khơng Vượt Q) một giá trị nhất
định.
• Xây dựng biểu đồ tần suất lũy tích
• Cho phép hiển thị số các giá trị < x như là một hàm của x.
• CDF là TỔNG tần số của tất cả các giá trị nhỏ hơn giá trị biên

trên của một bin hay một khoảng xác định.

43

Mối quan hệ giữa phân phối lũy tích
(trái) và biểu đồ phân phối tần số
Biểu đồ tần số lũy tích tương đối
Tần suất lũy tích tương đối (%)

Tần suất tương đối (%)

Biểu đồ tần suất tương đối
35.00
30.00
25.00
20.00

15.00
10.00
5.00
0.00
40-60

60-80

80-100

100-120

Lượng mưa (mm)

120-140

140-160

100
90
80
70
60
50
40
30
20
10
0
40


60

80

100

120

140

160

Lượng mưa (mm)

44

22


08/09/2021

Biểu đồ tần suất lũy tích
Biểu đồ tần số lũy tích tuyệt đối

Tần suất lũy tích tuyệt đối

25

20


15

10

5

0
40

60

80

100

120

140

160

Lượng mưa (mm)

Tần suất lũy tích tương đối (%)

Biểu đồ tần số lũy tích tương đối
100
90
80

70
60
50
40
30
20
10
0
40

60

80

100

120

140

160

Lượng mưa (mm)

45

Biểu đồ hộp (Box plot): Biểu đồ hộp (boxplot) dùng để trình bày các số
tứ phân và một vài giá trị khác có liên quan của dữ liệu.
Biểu đồ này có thể ở dạng đứng hay dạng ngang




min,max: giá trị thấp nhất và giá trị cao nhất của tập hợp số,



Giữa số tứ phân thứ 1 Q1 và thứ 3 Q3 là một hình chữ nhật ("hộp"), trong có một vạch đậm tại trung vị.
Khoảng cách giữa hai số này được gọi là khoảng liên tứ phân (interquartile range hay IQR)



Ở hai phía của hộp, ta có hai "râu" (whisker), nối từ số tứ phân đến một vị trị xa nhất về hai phía
 Chiều dài cuả râu bên trái (phía dưới) = Q1-1,5xIQR
 Chiều dài cảu râu bên phải (phía trên) R = Q3 + 1,5xIQR



Các số nằm bên ngoài các râu được gọi là số ngoại lệch (outlier) do có sự khác biệt đáng kể so với các số
liệu còn lại.

46

23


08/09/2021

Boxplot: Đo lường vị trí trung tâm

47


Boxplot: Đo lường sự biến thiên của dữ liệu

48

24


08/09/2021

Boxplot: Đo lường tính đối xứng

49

Boxplot: Chiều dài đi của phân bố

50

25


×