(TIỂU LUẬN) báo cáo bài tập nhóm tuần 10 12 bài 1 probability bài 2 linear regression

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.46 MB, 22 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI
HỌC QUỐC GIA TPHCM Chương trình
Kỹ sư Chất lượng cao Việt Pháp Khoa
Kỹ thuật giao thơng

BÁO CÁO BÀI TẬP NHĨM TUẦN 10-12

STT
1
2
3
4

Mục lục
I.

MỤC ĐÍCH:................................................................................................................................... 3

II.

CƠ SỞ LÝ THUYẾT:............................................................................................................... 3
1.

Độ khơng chắc chắn:........................................................................................................ 3

2.

Các phân bố thống kê:...................................................................................................... 4

3.

Hồi quy tuyến tính:............................................................................................................. 5

III.

BÀI TẬP:.................................................................................................................................... 6
1.

BÀI 1: PROBABILITY......................................................................................................... 6

2.

BÀI 2: LINEAR REGRESSION....................................................................................... 15

MỤC ĐÍCH:

I.

Tính tốn ước lượng khoảng độ chính xác dữ liệu là cần thiết đối
với một người kỹ sư. Việc này có thể bao gồm các cơng việc sau:
Ước lượng độ tin cậy.
Xác định khoảng tin cậy.
Ước lượng độ chính xác ln ln cần thiết vì giá trị khi đo thực tế
ln có các sai lệch nhất định: sai số dụng cụ, sai số do người làm thí
nghiệm, các điều kiện ngoại cảnh,...

CƠ SỞ LÝ THUYẾT:

AI.

1.

Độ không chắc chắn:
Khoảng tin cậy là một khoảng đối xứng quanh giá trị đo được. Một cách lý

tưởng, ta phải chọn sao cho có 95% xác suất để giá trị nằm trong khoảng này.
Một cách tổng quát, phân tích độ chính xác được chia làm hai phần: xác định độ
không chắc chắn trong các phép đo cơ bản (không thể được suy ra từ những phép đo
khác), xác định độ khơng chính xác trong các kết quả dẫn xuất từ các phép đo.

Độ phân giải số, là độ đo nhỏ nhất trong thang đo. Điều này giới hạn
mức độ chính xác của phép đo. Giá trị không chắc chắn nhỏ nhất là bằng
một nữa độ phân giải số.
Thông tin từ nhà sản xuất. Đây là giá trị mà nhà sản xuất tạo ra thiết bị đo, đọc
giá trị này cho ta biết về độ chính xác tối đa có thể đạt được đối với một dụng cụ.
Ta phải lặp lại quá trình đo cùng một đại lượng để đạt được độ chính xác hơn.

Mức độ không chắc chắn bằng 2 lần độ lệnh chuẩn của các lần đo.
Ta có thể lặp lại tồn bộ quá trình đo với một thiết bị đo khác để so
sánh hai kết quả đo với nhau. Đây là một thông tin cực kỳ hữu dụng.
Sự không chắc chắc của kết quả đo có thể đến từ những nguyên
nhân khác hoặc đến từ sự chủ quan cá nhân.

Nếu R là một đại lượng liên hệ với các đại lượng được đo cơ bản theo quan hệ

sau:
R f a,b,c

Thì mức độ khơng chắc chắn của đại lượng R là:

R
R

2.

Các phân bố thống kê:
Giá trị trung bình của một đại lượng:

Đối với các giá trị rời rạc:

Đối với các giá trị liên tục: x

1
T

T
0

f t dt .

Phương sai của một đại lượng:

Đối với các giá trị rời rạc:

Đối với các giá trị liên tục:

x

x

T

1
0

T

f t x 2 dt .

Ta có thể biểu diển các dữ liệu thống kê trên một histogram.
Ta gọi một hàm mật độ xác suất là một hàm số thỏa:
P x0 x x1

x

x

1
0

p x dx

Hàm mật độ phân phối chuẩn là một hàm có biểu thức tốn học như sau:

p x

Ta có
thể tính
xác
suất

của
hàm
phân
phối
chuẩn
như
sau:

(1.3)
P x0

(1.4)

(1.5)

Trong đó:

3.

Hồi quy tuyến tính:
Là q trình chọn đường thẳng tốt nhất để xấp xỉ dữ liệu của một

dãy điểm. với một tập hợp các điểm đo của hai đại lượng x và y, phương
trình đường thẳng xấp xỉ có dạng:
y Ax B

Trong đó các hệ số:

A

B y Ax .
Để đánh giá mức độ phù hợp của sự hồi quy, ta dùng hệ số tương quan:
xy
r
Hệ số tương quan càng gần 1 1 thì càng chính xác.

BÀI TẬP:

BI.
1.

BÀI 1: PROBABILITY

Ta có bảng dữ liệu đo vận tốc trong một hầm gió như sau:

Lần đo
1
2
3
4
5
6
7
8
9
10
11

12
13
14
15
16
17
18
19
20

Vận tốc
(m/s)

4.515
4.477
4.792
4.671
4.734
4.568
4.621
4.734
4.771
4.486
4.559
4.614
4.687
4.721
4.62
4.701

4.503
4.731
4.802
4.553

21

4.605

22

4.189

23

4.235

a) Dùng máy tính Casio cầm tay, giả thiết phân phối chuẩn (normal distribution).
(i) Tính Mean, Standard deviation, variance của dữ liệu bằng máy tính Casio cầm

tay.
(ii) Tính xác suất để dữ liệu nằm trong khoảng 4.5 đến 4.6.
(iii) Tính xác suất để dữ liệu lớn hơn 4.7.
(iv) Tính xác suất để dữ liệu nằm trong khoảng 2 lần độ lệch chuẩn từ giá trị trung

bình.
b) Lập bảng tính Excel thực hiện lại (i) - (iv).

Bài làm
Lập bảng tính Excel thực hiện (i) - (iv).
(i) Tính Mean, Standard deviation, variance của dữ liệu.

Để tính Mean (Giá trị trung bình) ta sử dụng hàm AVERAGE với cú
pháp =AVERAGE(number1, number2,…).

Vậy ta có giá trị Mean: µ = 4.59592

Để tính Standard deviation (Độ lệch chuẩn) ta sử dụng hàm
STDEV.P với cú pháp =STDEV.P(number1, number2,…).

Vậy ta có giá trị Standard deviation: σ = 0.183433894 ≈ 0.18343

Để tính Variance (Phương sai) ta sử dụng hàm VAR.P với cú pháp
=VAR.P(number1, number2,...)

2

Vậy ta có giá trị Variance: σ = 0.033647994 ≈ 0.03365

(ii) Xác suất để dữ liệu nằm trong khoảng 4.5 đến 4.6:

Xác suất để dữ liệu nằm trong khoảng 4.5 đến 4.6 là:
P(4.5 < X < 4.6) = P(X < 4.6) – P(X < 4.5)
Để tính xác suất dữ liệu bé hơn một giá trị x (P(X< x)), ta sử dụng hàm
NORM.DIST với cú pháp =NORM.DIST(x, mean, standard_dev, cumulative).

Trong đó, mean là giá trị trung bình của dữ liệu, standard_dev là độ lệch
chuẩn, và đối với cumulative chúng ta để là TRUE.

Tính P(X < 4.6):
Nhập hàm NORM.DIST vào Excel với x = 4.6 ta có:

P(X < 4.6) = 0.50887268

Tính P(X < 4.5):

Tương tự, nhập hàm NORM.DIST vào Excel với x = 4.5 ta có:

P(X < 4.5) = 0.300517338

Suy ra P(4.5 < X < 4.6) = P(X < 4.6) – P(X < 4.5) = 0.50887268 0.300517338
= 0.208355342
≈ 20.8355%

Vậy xác suất để dữ liệu nằm trong khoảng 4.5 đến 4.6 là 20.8355%.

(iii) Xác suất để dữ liệu lớn hơn 4.7:
Xác suất để dữ liệu nằm trong khoảng 4.5 đến 4.6 là:
P(X > 4.7) = 1 – P(X ≤ 4.7)
Tương tự như câu (ii), ta sử dụng hàm NORM.DIST với cú pháp
=NORM.DIST(x, mean, standard_dev, cumulative).
Tính P(X ≤ 4.7):

Nhập hàm NORM.DIST vào Excel với x = 4.7 ta có:

P(X ≤ 4.7) = 0.71477805

Suy ra P(X > 4.7) = 1 – P(X ≤ 4.7) = 1 - 0.71477805 = 0.28522195
≈ 28.5222%
(iv) Xác suất để dữ liệu nằm trong khoảng 2 lần độ lệch chuẩn từ giá trị trung

bình:
Xác suất để dữ liệu nằm trong khoảng 2 lần độ lệch chuẩn từ giá trị trung bình là:

P(μ-2σVới:
μ+2σ = 4.962787789
μ-2σ = 4.229052211

Tương tự như câu (ii) và (iii), ta sử dụng hàm NORM.DIST với cú pháp
=NORM.DIST(x, mean, standard_dev, cumulative).

Tính P(X<μ+2σ):
Nhập hàm NORM.DIST vào Excel với x = 4.962787789 ta có:

P(X<μ+2σ) = 0.977249868
Tính P(X<μ-2σ):

Nhập hàm NORM.DIST vào Excel với x = 4.229052211 ta có:

P(X<μ-2σ) = 0.022750132

Suy ra P(μ-2σ= 0.977249868 - 0.022750132
= 0.954499736

≈ 95.44997%
Vậy xác suất để dữ liệu nằm trong khoảng 2 lần độ lệch chuẩn từ giá trị
trung bình là 95.44997%.

2.

BÀI 2: LINEAR REGRESSION

Ta có bảng dữ liệu như sau:
velocity (m/s)

pressure (Pa)

Tìm cơng cụ hồi qui tuyến tính trên Excel kiểm tra:
(i)

Thực hiện hồi qui tuyến tính tìm phương trình đường thẳng khớp
với dữ liệu nhất có thể

(ii)

Vẽ đồ thị từ dữ liệu và nhận xét về vật lý của dữ liệu

Bài làm

Để dùng cơng cụ hồi quy tuyến tính trong Excel, trước tiên ta phải kích hoạt chức năng

Data Analysis theo các bước sau:
o

Chọn File chọn Option

o

Vào mục Add-Ins, chọn Analysis ToolPak và nhấn Go

o

Sau khi bấm Go sẽ hiện ra 1 cửa sổ như hình dưới, tích
chọn Analysis ToolPak và nhấn OK

(i) Thực hiện hồi qui tuyến tính tìm phương trình đường thẳng khớp với

dữ liệu nhất có thể
-

Vậy là xong, sau đó ta sẽ có tính năng Data Analysis trong mục Data trên
thanh cơng cụ. Để sử dụng tính năng đó cho bài này, ta làm theo các bước:

Vào mục Data trên thanh công cụ chọn Data Analysis sẽ hiện ra 1

cửa sổ, chọn Regression và nhấn OK
Lúc này sẽ hiện lên cửa sổ Regression, lúc này ta chọn dãy giá trị của
biến Y và X tại mục Input Y Range và Input X Range, chọn vị trí xuất

ra kết quả tại mục Output Range rồi nhấn OK

Như trong hình, dãy giá trị của Y là B2:B10 và của X là A2:A10,
kết quả sẽ được xuất ra tại ô C22
-

Sau khi làm xong các bước trên, dữ lệu xuất ra sẽ như sau:

-

Hệ số tương quan:

-

Hai hệ số hồi quy B và A lần lượt là:

Phương trình đường thẳng có dạng y = Ax + B khớp với dữ liệu sẽ có:

≈ −13638.5
≈ 335781.8
-

Vậy phương trình đường thẳng khớp với dữ liệu là:
y = -13638.5x + 335781.8

(ii) Vẽ đồ thị từ dữ liệu và nhận xét về vật lý của dữ liệu
-

Đồ thị biểu diễn tương quan của dữ liệu:

Đồ thị biểu diễn giá trị áp suất theo vận tốc
350000
300000

y = -13638x + 335782
pressure (Pa)

250000
200000
150000
100000
50000
0
0

2

4

6

8

10

12

14

16

Velocity (m/s)
-

Nhận xét:
o

Có sự tuyến tính hóa rất tốt giữa áp suất và vận
tốc, vì hệ số tương quan rất gần 1 (≈0.988984).

o

Phương trình rất giống với phương trình đã tìm
được ở câu (i)

18

(TIỂU LUẬN) báo cáo bài tập nhóm tuần 10 12 bài 1 probability bài 2 linear regression

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về