báo cáo bài tập lớn môn xác suất và thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.4 MB, 44 trang )

Trang 1<div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

BÁO CÁO BÀI TẬP LỚN

MƠN XÁC SUẤT VÀ THỐNG KÊ

Giảng viên hướng dẫn: TS Nguyễn Tiến Dũng

</div>Trang 2<div class="page_container" data-page="2">

</div>Trang 3<div class="page_container" data-page="3">

Mục lục

1. Tổng quan dữ liệu...3

2. Kiến thức nền...3

2.1 Giới thiệu mơ hình hồi quy tuyến tính bội...4

2.2Ước lượng các tham số của mơ hình hồi quy tuyến tính bội...4

2.2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function):...5

2.2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)...5

2.2.4 Độ phù hợp của mơ hình...7

2.2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy...9

2.2.6 Kiểm định ý nghĩa của mơ hình...10

4. Thống kê mơ tả...12

4.1 Thực hiện tích thống kê mơ tả cho các biến trong bộ dữ liệu:...12

4.2 Vẽ biểu đồ thể hiện phân phối cho các biến...13

5. Thống kê suy diễn...19

5.1 Ta cần nghiên cứu xem mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến độ nhám của bản in như thế nào?...19

5.2 Ta cần nghiên cứu xem mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến độ căng của bản in như thế nào?...26

5.3 Ta cần nghiên cứu xem mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến độ giãn dài của bản in như thế nào ?...30

Code R... 37

</div>Trang 4<div class="page_container" data-page="4">

1. Tổng quan dữ liệu

Tập tin “data.csv” chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học

Selcuk. Mục đích của nghiên cứu là xác định mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến chất lượng in, độ chính xác và độ giãn của bản in.

Bộ dữ liệu bao gồm 50 quan sát với 9 thông số cài đặt và 3 thông số đầu ra được đo lường.

Các biến chính trong bộ dữ liệu gồm:

Các biến liên tục: layer_height, nozzle_temperature, bed_temperature, print_speed, roughness, tension strenght, elongation.

Các biến phân loại: infill_pattern và material

2. Kiến thức nền

Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập. Mơ hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến).

Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mơ hộ gia đình, thu

nhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinh nghiệm, độ tuổi,…

</div>Trang 5<div class="page_container" data-page="5">

2.1 Giới thiệu mơ hình hồi quy tuyến tính bội

Mơ hình hồi quy tuyến tính bội có dạng tổng qt như sau:

Y = β1 + β2X2 + β3X3 + … + βkXk + u

Trong đó: Y: biến phụ thuộc

Xi: biến độc lập

β1: hệ số tự do (hệ số chặn)

βi: hệ số hồi quy riêng. βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác trong mơ hình khơng đổi. Cụ thể hơn, nếu các biến khác trong mơ hình khơng đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên.

Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc

(Y) dựa trên giá trị của biến độc lập (X). Thuật ngữ tuyến tính dùng để chỉ rằng bản chất

cho các trường hợp chúng ta muốn dự đốn một số lượng liên tục. Ví dụ: dự đoán thời

gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó v.v... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước lượng các tham số của tổng thể: β1, β2,…, βk

2.2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội

2.2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)

phân phối xác suất nào đó. Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định. Do vậy, F(X2, X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2, X3,…, Xk. Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)

</div>Trang 6<div class="page_container" data-page="6">

2.2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function):

Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.

Trên một mẫu có n cá thể, gọi Ŷ = F̂ (X2, X3,…, Xk) là hồi quy mẫu.

Với một cá thể mẫu Yi ≠ F̂ (X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂ (X2, X3,…, Xk); ei

gọi là phần dư SRF.

Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau: ŷi = β̂1 + β̂2x2,i + β̂3x3,i + … + β̂kxk,i

Phần dư sinh ra: ei = yi – ŷi

Ký hiệu: β̂m là ước lượng của βm. Chúng ta trông đợi β̂m là ước lượng không chệch của

Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F.

2.2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)

Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl Friedrich Gauss. Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư. Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ.

2.2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mơ hình hồi quytuyến tính bội

Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mơ hình, tuy nhiên mơ hình ước lượng phải thỏa mãn 7 giả thiết. Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính khơng chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp OLS đưa ra ước lượng khơng chệch tuyến tính tốt nhất (BLUE).

</div>Trang 7<div class="page_container" data-page="7">

Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng

OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính khơng chệch của Y, ước lượng OLS có phương sai bé nhất. Các giả thiết như sau:

1/ Hàm hồi quy là tuyến tính theo các hệ số.

Điều này có nghĩa là q trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng:

y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + u

hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.

2/ E(ui) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0.

Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm. Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể.

3/Var(ui) = σ2 : Phương sai bằng nhau và thuần nhất với mọi ui.

Var(ui) = E(ui2) = σ2.

4/ ui phân phối chuẩn.

Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này trở nên khơng mấy quan trọng.

5/ Giữa các ui thì độc lập với nhau.

2.2.3.2 Ước lượng

Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i ŷi ký hiệu giá trị của hàm hồi quy mẫ

</div>Trang 8<div class="page_container" data-page="8">

Σei2 = Σ(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i))2 Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:

Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu. Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β̂ chưa biết. β̂1, β̂2,…, β̂k

được gọi là các ước lượng bình phương nhỏ nhất.

2.2.4 Độ phù hợp của mơ hình

Để có thể biết mơ hình giải thích được như thế nào hay bao nhiêu % biến động của

Ta có: Σ(yi – ӯ)2)2 = Σ[(yi – ŷi) + (ŷi – ӯ)2)]2 = Σ[ei + (ŷi – ӯ)2)]2 = Σei2 + 2Σei(ŷi – ӯ)2) + Σ(ŷi – ӯ)2)2

 Σ(yi – ӯ)2)2 : TSS – Total Sum of Squares  Σ(ŷi – ӯ)2)2 : ESS – Explained Sum of Squares

</div>Trang 9<div class="page_container" data-page="9">

</div>Trang 10<div class="page_container" data-page="10">

nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi quy.

trị nhận được từ hàm hồi quy.

Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:

Tỷ số giữa tổng biến thiên được giải thích bởi mơ hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình

quy: 0 ≤ R2 ≤ 1.

của biến phụ thuộc.

thuộc y.

Trong mô hình hồi quy đa biến tỷ lệ của tồn bộ sự khác biệt của biến y do tất cả các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2

</div>Trang 11<div class="page_container" data-page="11">

2.2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy2.2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy

kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β1, β2,…, βk.

phối chuẩn:

β̂j ~ N(βj, Se(β̂j)) β̂j -βj

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k là số hệ số có trong phương trình hồi quy đa biến:

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay khơng. Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay khơng.

Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj*. Nếu giả thiết này đúng thì:

Ta có bảng sau:

</div>Trang 12<div class="page_container" data-page="12">

T = β̂j -βj Se(β̂j)

~T(n − k)

</div>Trang 13<div class="page_container" data-page="13">

2.2.6 Kiểm định ý nghĩa của mơ hình

Trong mơ hình hồi quy đa biến, giả thuyết “khơng” cho rằng mơ hình khơng có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.

Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:

 Bước 1: Giả thuyết “không” là H0: β2 = β3 = … = βk = 0.

Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác khơng”.

phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:

 Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n – k)

cho mẫu số, và với mức ý nghĩa α cho trước.

 Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F(α, k-1, n-k). Đối với phươngpháp giá trị p, tính giá trị p = P(F>Fc|H0) và bác bỏ giả thuyết H0 nếu p < α.

</div>Trang 14<div class="page_container" data-page="14">

- Đọc dữ liệu và xem dữ liệu.

- Kiểm tra dữ liệu khuyết:

Nhận xét: Khơng có dữ liệu khuyết trong tệp tin.

</div>Trang 15<div class="page_container" data-page="15">

4. Thống kê mơ tả:

4.1 Thực hiện tích thống kê mô tả cho các biến trong bộ dữ liệu:

Dựa trên kết quả, ta nhận thấy có 2 biến phân loại là infill_pattern và material - Lập bảng thống kê số lượng cho infill_pattern, material:

</div>Trang 16<div class="page_container" data-page="16">

hist(data_BTL$tension_strenght,xlab="tension_strenght",main="Biểu đồ histogram của biếntension_strenght",col="cyan3")

4.2 Vẽ biểu đồ thể hiện phân phối cho các biến

- Biểu đồ Histogram của các biến “tension strenght”, “elongation”, “roughness”

</div>Trang 17<div class="page_container" data-page="17">

boxplot(data_BTL$roughness~data_BTL$infill_pattern,xlab="infill_pattern",ylab="roughness", col="red")

- Biểu đồ boxplot thể hiện phân phối của biến roughness:

",ylim=c(0,10),col="aquamarine3")

</div>Trang 18<div class="page_container" data-page="18">

boxplot(data_BTL$tension_strenght~data_BTL$infill_pattern,xlab="infill_pattern",

col="green3")

- Biểu đồ boxplot thể hiện phân phối của biến tension strenght:

- Biểu đồ boxplot thể hiện phân phối của biến elongation:

</div>Trang 19<div class="page_container" data-page="19">

data_cor <- subset(data_BTL,select = -c(infill_pattern,material)) cor(data_cor)

tension_strenght and layer_height")

in="tension_strenght and wall_thickness")

"tension_strenght and infill_density")

erature",main="tension_strenght and nozzle_temperature")

re",main="tension_strenght and bed_temperature")

ension_strenght and print_speed")

- Vẽ ma trận tương quan giữa các biến:

Nhận xét:

- Dựa vào hệ số tương quan của roughness, dự đốn roughness có quan hệ tuyến tính với layer_height.

- Dựa vào hệ số tương quan của tension_strenght và elongation, dự đoán tension_strenght và elongation khơng có mối quan hệ tuyến tính mạnh với các biến còn lại.

- Hệ số tương quan giữa biến bed_temperature và fan_speed = 1 nên hai biến độc lập này có mơi quan hệ phụ thuộc hay hiện tượng đa cộng tuyến xảy ra, nên ta sẽ loại bỏ 1 trong 2 biến này khi xây dựng mơ hình. Trong bài toán này ta lựa chọn bỏ biến fan_speed. - Biểu đồ phân tán của biến tension strenght:

</div>Trang 20<div class="page_container" data-page="20">

plot(data_BTL$roughness,data_BTL$layer_height,xlab="roughness",ylab="layer_height",main="roughness and layer_height")

ess and wall_thickness")

and infill_density")

in="roughness and nozzle_temperature")

and print_speed")

Nhận xét: Dựa trên các đồ thị phân tán của biến tension strenght ta thấy tension strenght

khơng có mối quan hệ tuyến tính với các biến này - Biểu đồ phân tán của biến roughness:

</div>Trang 21<div class="page_container" data-page="21">

plot(data_BTL$elongation,data_BTL$layer_height,xlab="elongation",ylab="layer_height",main="elongati on and layer_height")

gation and wall_thickness")

on and infill_density")

="elongation and bed_temperature")

Nhận xét: Dựa trên các đồ thị phân tán của biến roughness ta thấy roughness có mối

quan hệ tuyến tính mạnh với biến layer_height - Biểu đồ phân tán của biến elongation:

</div>Trang 22<div class="page_container" data-page="22">

Nhận xét: Dựa trên các đồ thị phân tán của biến elongation ta thấy elongation khơng có

mối quan hệ tuyến tính với các biến này

5. Thống kê suy diễn

5.1 Ta cần nghiên cứu xem mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến độ nhám của bản in như thế nào?

Biến phụ thuộc: roughness

Biến dự báo ( biến độc lập): layer_height, wall_thickness, infill_desity,nozzle_temperature, bed_temperature, print_speed, infill_pattern, material.

Mơ hình được biểu diễn như sau:

Ta thực hiện ước lượng các hệ số 𝛽𝑖:

</div>Trang 23<div class="page_container" data-page="23">

 Ta thấy rằng p-value tương ứng với thống kê F=3.834e-16 bé hơn 2.2e-16 có ý nghĩa rất cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mơ hình có ý

nghĩa giải thích rất cao cho biến độ nhám roughness.

summary(model_1)

</div>Trang 24<div class="page_container" data-page="24">

model_2 <- lm(roughness ~ layer_height + wall_thickness + infill_density + nozzle_temperature +

với wall_thickness, infill_density, infill_patternhoneycomb lớn hơn mức ý

ý nghĩa đối với mơ hình hồi quy ta vừa xây dựng, do đó ta có thể loại bỏ biến các biến này ra khỏi mơ hình hồi quy.

Ta xây dựng mơ hình 2 là mơ hình loại bỏ biến infill_pattern từ mơ hình 1:

</div>Trang 25<div class="page_container" data-page="25">

model_3 <- lm(roughness ~ layer_height + wall_thickness + nozzle_temperature + bed_temperature

= 0.8509 nên có thể cho rằng mơ hình 2 là mơ hình hiệu quả hơn.

Ta xây dựng mơ hình 3 là mơ hình loại bỏ infill_density từ mơ hình 2:

= 0.8544 nên có thể co rằng mơ hình 3 là mơ hình hiệu quả hơn.

Ta xây dựng mơ hình 4 là mơ hình loại bỏ biến wall_thickness từ mơ hình 3:

</div>Trang 26<div class="page_container" data-page="26">

4 = 0.8571 nên có thể cho rằng mơ hình 3 là mơ hình hiệu quả hơn.

Phân tích sự ảnh hưởng của các thơng số điều chỉnh trong máy in 3D đến độ nhám

▪ Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét các hệ số hồi quy ( 𝛽̂

)và p-value tương ứng với các biến layer_height bé hơn 2e−16, điều này nói

lên rằng ảnh hưởng của biến này có ý nghĩa rất cao lên biến độ nhám

roughness. Kiểm tra các giả định của mơ hình.

summary(model_4)

</div>Trang 27<div class="page_container" data-page="27">

- Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính.

- Sai số có phân phối chuẩn. - Sai số có kỳ vọng bằng 0.

- Phương sai của các sai số là hằng số - Các sai số 𝜖1, . . . , 𝜖𝑛 độc lập với nhau. Vẽ đồ thị kiểm tra các giả định của mơ hình.

</div>Trang 28<div class="page_container" data-page="28">

Nhận xét mơ hình:

Đồ thị 1 (Residuals vs Fitted): ta thấy đường màu đỏ gấp khúc, do đó giả định tính tuyến tính của dữ liệu khơng thỏa mãn. Đường mau đỏ nằm khá gần đường bằng 0 do đó giả định sai số có kỳ vọng bằng 0 thỏa mãn. Các điểm sai số phân tán ngẫu nhiên dọc theo đường màu đỏ, do đó giả định phương sai các sai số là hằng số thỏa mãn.

Đồ thị 2 (Q-Q Residuals): Ta thấy các điểm sai số nằm sát đường kỳ vọng phân phối chuẩn, do đó giả định sai số có phân phối chuẩn thỏa mãn.

Đồ thị 3 (Scale-Location): Ta thấy đường màu đỏ nằm khá nghiêng và các điểm sai số phân tán ngẫu nhiên dọc theo đường màu đỏ do đó giả định phương sai các sai số là hằng số tương đối thỏa mãn.

</div>