Tải bản đầy đủ (.pdf) (31 trang)

Bài tập lớn xác suất thống kê nhóm 17 chủ đề 05 tập tin heat data được thu thập với mục tiêu đánh giá các nhân tố ảnh hưởng đến mức độ thu nhiệt và toả nhiệt của các ngôi nhà

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.6 MB, 31 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

Bài tập lớn Xác suất - Thống kê
Nhóm: 17

GVHD:
SV thực hiện:

Chủ đề: 05

Hoàng Văn Hà
Lê Minh Châu 3 2010947
Nguyễn Trọng Tín 3 2012215
Huỳnh Nguyễn Xuân Phú 3 2014133
Phạm Lại Đức Lộc 3 2013695
Trần Đình Quang 3 2014252

Thành phố Hồ Chí Minh, tháng 5/2022


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Mục lục
1 Member list & Workload
2 Yêu cầu và dữ liệu cho bài tập lớn
2.1 Hoạt động 1 . . . . . . . . . . . . . . . .
2.1.1 Các biến chính trong bộ dữ liệu:
2.1.2 Các bước thực hiện . . . . . . . .
2.2 Hoạt động 2 . . . . . . . . . . . . . . . .


2
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

3
3
3
3
4

3 Cơ sở lí thuyết
3.1 Hồi quy tuyến tính bội . . . . . . . . . . . .
3.1.1 Mơ hình hồi quy bội . . . . . . . . .

3.1.2 Phương trình hồi quy bội của mẫu .
3.1.3 Khoảng tin cậy của hệ số hồi quy . .
3.1.4 Kiểm định tham số hồi quy tổng thể
3.1.5 Phân tích phương sai hồi quy . . . .
3.2 Giới thiệu về thống kê mô tả . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

4
4
4
4
5
5

5
6

4 Sử dụng R giải quyết bài toán
4.1 Hoạt động 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Nhập dữ liệu từ file heat_data.csv . . . . . . . . . . . .
4.1.2 Làm sạch dữ liệu . . . . . . . . . . . . . . . . . . . . . . .
4.1.3 Làm rõ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . .
4.1.3.a Một số thông số của dữ liệu . . . . . . . .
4.1.4 Biểu đồ trực quan . . . . . . . . . . . . . . . . . . . . . .
4.1.5 Xây dựng mơ hình hồi quy tuyến tính . . . . . . . . . . .
4.1.5.a Ước lượng mơ hình . . . . . . . . . . . . .
4.1.5.b Kiểm định và lựa chọn mơ hình . . . . . .
4.1.5.c Dự báo cho mơ hình . . . . . . . . . . . .
4.1.5.d Xuất kết quả của phép hồi quy . . . . . .
4.1.6 T.test . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Hoạt động 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Làm rõ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2.a Đọc dữ liệu . . . . . . . . . . . . . . . . .
4.2.2.b Thống kê mô tả . . . . . . . . . . . . . .
4.2.3 Mơ hình hồi quy tuyến tính . . . . . . . . . . . . . . . . .
4.2.3.a Ước lượng mơ hình . . . . . . . . . . . . .
4.2.3.b Kiểm định mơ hình bằng đồ thị phần dư
4.2.3.c Kết luận mơ hình hồi quy tuyến tính . .
4.2.3.d Một mơ hình đề xuất khác . . . . . . . .

.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

7
7
7
9
9
9

10
14
14
15
16
17
17
18
18
19
19
20
24
24
26
27
28

5 Tổng kết

Bài tập lớn môn Xác suất và Thống Kê MT2013

.
.
.
.

29

Trang 1/30



Trường Đại học Bách Khoa Tp.Hồ Chí Minh

1

Member list & Workload
STT

BẢNG ĐÁNH GIÁ CƠNG VIỆC
Họ và Tên

MSSV

Cơng việc

Đánh giá

1

Nguyễn Trọng
Tín (nhóm
trưởng)

2012215

100%

2


Lê Minh Châu

2010947

3

Phạm Lại Đức
Lộc
Huỳnh Nguyễn
Xn Phú

2013695

Trần Đình Quang

2014252

Hoạt động 2: Giới
thiệu, Đọc dữ
liệu, Thống kê mơ
tả, Một mơ hình
đề xuất khác,
chßnh sửa và hồn
thiện
Cơ sở lý thuyết,
Hoạt động 1:
Nhập dữ liệu,
Làm sạch và làm
rõ dữ liệu, Biểu
đồ trực quan, Xây

dựng mơ hình hồi
quy tuyến tính
Hoạt động 1:
Tồn bộ T-test
Hoạt động 2: Xây
dựng mơ hình hồi
quy tuyến tính
Hoạt động 2: Xây
dựng mơ hình hồi
quy tuyến tính

4
5

Bài tập lớn mơn Xác suất và Thống Kê MT2013

2014133

100%

100%
100%
100%

Trang 2/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

2


Yêu cầu và dữ liệu cho bài tập lớn

2.1

Hoạt động 1

Tập tin heat_data được thu thập với mục tiêu đánh giá các nhân tố ảnh hưởng đến mức
độ thu nhiệt và toả nhiệt của các ngơi nhà.
2.1.1

Các biến chính trong bộ dữ liệu:

• X1 - Độ nhỏ gọn
• X2 - Diện tích bề mặt
• X3 - Diện tích tường
• X4 - Khu vực mái nhà
• X5 - Chiều cao tổng thể
• X6 - Định hướng
• X7 - Khu vực dán kính
• X8 - Phân bố khu vực dán kính
• y1 - Mức độ thu nhiệt
• y2 - Mức độ toả nhiệt
2.1.2

Các bước thực hiện

1. Đọc dữ liệu (Import data): heat_data.csv
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)

(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. Mơ hình hồi quy tuyến tính : Sử dụng một mơ hình hổi quy tuyến tính phù hợp để đánh
giá các nhân tố tác động đến mức độ thu nhiệt của các ngôi nhà.
5. t.test: Đề xuất một kiểm định phù hợp để so sánh trung bình mức thu nhiệt và toả nhiệt
của các ngôi nhà.

Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 3/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

2.2

Hoạt động 2

Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên
sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, ... trong chun ngành của
mình. Ngồi ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong
kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu
của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mơ hình dữ liệu
(model fitting).

3

Cơ sở lí thuyết


3.1
3.1.1

Hồi quy tuyến tính bội
Mơ hình hồi quy bội

Giả sử Y phụ thuộc vào k biến độc lập X1 ... Xk . Mơ hình hồi quy tuyến tính bội có dạng:
Y = α + β1 X1 + β2 X2 + ... + β3 X3 + U
Trong đó:
α là điểm cắt của đường thẳng hồi quy và trục Y
βi được gọi là các hệ số hồi quy riêng, thể hiện mức độ biến thiên Y khi Xi thay đổi một
đơn vị khi các biến cịn lại khơng đổi.
U : sai số trong phép hồi quy, tương tự như với hồi quy đơn giản.
3.1.2

Phương trình hồi quy bội của mẫu

Gọi các hệ số a, b1 , ... bk là ước lượng cho α, β1 , ...βk được xác định bởi phương pháp bình
phương cực tiểu:
n

→ min
(yi − a − b1 x1i − ... − bk xki )2 −
f=
i=1

Từ điều kiện trên ta có hệ:
δf
δf
δf

= 0, ...
=0
= 0,
δb1
δbk
δa
Giải hệ phương trình sẽ thu được a, b1, ...bk
Phương trình y = a + b1 x1 + ... + bk + xk được gọi là phương trình hồi quy bội của mẫu.

Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 4/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Ngồi ra, chúng ta cũng có thể tìm được nghiệm (a, bi , ...bk ) bằng phương pháp ma trận, tuy
nhiên các phương pháp thủ công khá phức tạp. Tuy nhiên, với sự phát triển của khoa học hiện
đại, ta có nhiều cơng cụ để phát triển mơ hình dựa trên dữ liệu đã có. Tuy vậy, vẫn phải đảm
bảo các giả thiết cơ bản sau:
• U có phân phối chuẩn N (0, σ2 ).
• Các biến Xi độc lập với nhau.
3.1.3

Khoảng tin cậy của hệ số hồi quy

Mơ hình hồi quy tuyến tính bội có dạng:
Y = α + β1 X1 + β2 X2 + ... + βk Xk + U
Tương tự như đối với hồi quy đơn giản, ước lượng khoảng của các hệ số như sau:
Ước lượng khoảng của αi với độ tin cậy (1 - α) = 100% là:

ai − tα/2 (n − k − 1)Sa < αi < ai + tα/2 (n − k − 1)Sa
Ước lượng khoảng của βi với độ tin cậy (1 - α) = 100% là:
bi − tα/2 (n − k − 1)Sbi < βi < bi + tα/2 (n − k − 1)Sbi
3.1.4

Kiểm định tham số hồi quy tổng thể

Ta làm tương tự như đối với kiểm định của hồi quy đơn giản, trường hợp βi = 0 thì Xi và
Y khơng có mối quan hệ nào, trường hợp αi > 0(βi < 0) giữa Xi và Y có mỗi quan hệ thuận
(nghịch).
Đây là một phương pháp xây dựng mơ hình hồi quy, được gọi là phương pháp loại biến dần.
Chúng ta sẽ loại từng biến một dựa vào giá trị p kiểm định lớn ra trước.
3.1.5

Phân tích phương sai hồi quy

Hệ số xác định
Tương tự như hồi quy đơn giản, ta có:
• Hệ số xác định
R2 =

SSE
SSR
=1−
SST
SST

Nhưng ở đây, hệ số R2 nói lên tính chặt chẽ giữa biển phụ thuộc Y và các biến độc lập Xi ,
tức là nó thể hiện phân trăm biến thiên của Y có thể được giải thích bởi sự biến thiên của tất
cả các biến Xi .


Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 5/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Đối với người nghiên cứu thì họ mong muốn hệ số R2 càng lớn càng tốt. Tuy nhiên, R2 là
một hàm không giảm theo số lượng biên đưa vào. Điều này dẫn đến một vấn đề rằng đưa vào
mơ hình cảng nhiều biến thì hệ số R2 càng lớn. Để khắc phục nhược điểm này, người ta đưa ra
hệ số xác định điều chßnh đánh giá mức độ phụ thuộc của Y vào các biển X chính xác hơn.
• Hệ số đã điều chßnh
2

R =

3.2

SSR
n−k−1
SST
n−1

= 1 − (1 − R2 )

n−1
n−1−k

Giới thiệu về thống kê mô tả


Thống kê mô tả được sử dụng để mơ tả những đặc tính cơ bản của dữ liệu thu thập được từ
nghiên cứu thực nghiệm qua các cách thức khác nhau. Nó giúp hiểu được các tính chất của một
bộ dữ liệu cụ thể bằng cách đưa ra các tóm tắt ngắn về mẫu và các thơng số của dữ liệu. Loại
thống kê mô tả phổ biến nhất là các thông số xu hướng tập trung gồm: giá trị trung bình, trung
vị, độ lệch chuẩn,... Trong đề tài này, ta sẽ làm việc với một số khái niệm:
• Giá trị trung bình (mean)
Là đại lượng thường được sử dụng nhất để đo giá trị trung tâm của dữ liệu. Được tính bằng
cách cộng tất cả các số liệu trong tập dữ liệu sau đó chia cho số lượng dữ liệu trong tập.
Giá trị trung bình được tính theo cơng thức:
x=

n

xi
n
i=1

Trong đó:
x là giá trị trung bình mẫu.
xi là phần tử thứ i của mẫu.
n là số lượng phần tử của mẫu.
• Trung vị mẫu (median)
Là một số tách giữa nửa lớn hơn và nửa bé hơn của một mẫu, một quần thể, hay một phân
bố xác suất. Nó là giá trị giữa trong một phân bố, mà số các số nằm trên hay dưới con số đó
là bằng nhau. Điều đó có nghĩa rằng 1/2 quần thể sẽ có các giá trị nhỏ hơn hay bằng số trung
vị, và một nửa quần thể sẽ có giá trị bằng hoặc lớn hơn số trung vị. Để tìm số trung vị của một
danh sách hữu hạn các số, ta xếp tăng dần tất cả các quan sát, rồi lấy giá trị nằm giữa danh
sách. Nếu số quan sát là số chẵn, người ta thường lấy trung bình của hai giá trị nằm giữa.
Cách xác định trung vị của một mẫu:

i=

Bài tập lớn môn Xác suất và Thống Kê MT2013

n+1
2

Trang 6/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

- i chắn: median = Xi
- i lẻ: median =

X[i] +X[i]+1
2

với [i] là phần nguyên của i

• Cực đại mẫu (max), cực tiểu mẫu (min): lần lượt là giá trị lớn nhất và nhỏ nhất trong một
danh sách
• Độ lệch chuẩn (Standard deviation)
Là một đại lượng thống kê mô tả dùng để đo mức độ phân tán của một tập dữ liệu đã được
lập thành bảng tần số.
Độ lệch chuẩn của mẫu được tính theo cơng thức:

n
2
i=1 (Xi − X)

S=
n−1
Trong đó:
S là độ lệch chuẩn
Xi là phần tử thứ i của mẫu
X là trung bình (mean) của mẫu
n là số phần tử của mẫu

4

Sử dụng R giải quyết bài toán
Tiếp theo, ta sẽ sử dụng phần mềm R để tính tốn trên số liệu của mỗi hoạt động.

4.1
4.1.1

Hoạt động 1
Nhập dữ liệu từ file heat_data.csv

Trình tự thực hiện:
• Gọi các thư viện cần thiết
• Dùng lệnh read.csv trong R và import file heat_data.csv.

Hình 1: Import data từ heat_data.csv

Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 7/30



Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Sau khi đã import được dữ liệu vào trong chương trình, ta có thể kiểm tra bằng lệnh
view(heat_data).

Hình 2: heat_data sau khi được import

Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 8/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

4.1.2

Làm sạch dữ liệu

Dữ liệu sau khi được nhập vào có khả năng bị lỗi và gây ảnh hưởng tới kết quả của bài tốn.
Vì vậy, ta cần phải làm sạch dữ liệu đầu vào.
Để kiểm tra xem có bao nhiêu dữ liệu bị khuyết, ta sử dụng hàm colSums() và hàm is.na()

Hình 3: Kiểm tra dữ liệu khiếm khuyết
Nhận xét: tất cả các cột khi kiểm tra bằng lệnh is.na() khơng có bất kì dữ liệu khuyết nào
trong heat_data.
4.1.3
4.1.3.a

Làm rõ dữ liệu
Một số thông số của dữ liệu


Ở phần này, ta sẽ thực hiện khảo sát dữ liệu thông qua các giá trị trung bình, trung vị,
phương sai, độ lệch chuẩn, giá trị thấp nhất và cao nhất của dữ liệu.
Để kiểm tra tồn bộ các dữ liệu đó, ta thực hiện như sau

Hình 4: Các trị số của mức độ tỏa nhiệt của ngôi nhà
Bảng thống kê các giá trị khảo sát

Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 9/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Hình 5: Các trị số của mức độ tỏa nhiệt của ngôi nhà
4.1.4

Biểu đồ trực quan

Việc thống kê mà chß nhìn vào số liệu dường như là khơng thể. Vì vậy trong phần này, ta sẽ
mô tả dữ liệu trên các đồ thị trực quan, nhằm đưa ra những nhận xét tổng quát cũng như là
đưa ra các nhận xét và dự đoán từ những dữ liệu mô tả trong đồ thị.
Ta sẽ xét trên hai loại biểu đồ chính là biểu đồ phổ (histogram) và biểu đồ hộp (boxplot).
• Biểu đồ Histogram
Biểu đồ phổ để phân tích dữ liệu dựa trên hai giá trị y1 -Mức độ thu nhiệt và Y2 -Mức độ tỏa
nhiệt.

Hình 6: Vẽ biểu đồ phổ và biểu đồ hỗ trợ phân tích
Dưới đây là biểu đồ mơ tả hai giá trị thu và tỏa nhiệt của ngôi nhà


Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 10/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Hình 7: Biểu đồ phổ mô tả mức độ thu/tỏa nhiệt của ngôi nhà
Nhận xét: Dựa vào hình ảnh giữa hai biểu đồ, ta thấy cả hai đều là biểu đồ có nhiều đßnh.
Bên dưới mỗi hình là hình vẽ mơ tả cho hai biểu đồ phổ ở trên. Một điều đáng chú ý là cả hai
biểu đồ đều có hình dạng gần như là giống nhau, điều này đặc trưng cho mức độ ổn định tương
quan giữa việc thu và tỏa nhiệt của ngôi nhà, tuy nhiên lại không ổn định cho việc thu hoặc tỏa
nhiệt theo nhiệt độ.
• Biểu đồ Boxplot
Biều đồ hộp cũng là một trong những biểu đồ thông dụng trong thống kê mơ tả do nó có
khả năng thể hiện khá rõ một số vị trí phân bố của dữ liệu gồm giá trị lớn nhất (max), giá trị
nhỏ nhất (min), tứ phân vị phần nhất (Q1), tứ phân vị phần 3 (Q3) và trung vị (median).
Ta sẽ xét mức độ thu và tỏa nhiệt của ngôi nhà theo một các yếu tố X2 -Diện tích bề mặt
(tổng diện tích nhận và tỏa nhiệt của nhà với mơi trường) và X6 -Định hướng (khu vực sẽ nhận
nhiệt trực tiếp từ mơi trường).

Hình 8: Vẽ biểu đồ thu nhiệt

Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 11/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh


Hình 9: Vẽ biểu đồ tỏa nhiệt
Biểu đồ mức độ ảnh hưởng của các yếu tố đang xét đến mức độ thu/tỏa nhiệt của ngơi nhà
• Thu nhiệt

Hình 10: Biểu đồ hộp mơ tả mức độ thu nhiệt của ngôi nhà qua diện tích bề mặt và định hướng
Nhận xét:
• Ảnh hưởng của diện tích bề mặt (phía trên):
Nhìn vào biểu đồ, ta có thể thấy diện tích bề mặt có ảnh hưởng rất lớn tới nhiệt độ của ngôi
nhà và không đều nhau. Cụ thể, trong khoảng diện tích từ 514.5 đến 661.5 lượng nhiệt độ hấp
thu khá cao, trung bình cao nhất thuộc về khoảng 637 và mức độ hấp thu cũng có chênh lệch
lớn với độ lệch gần 15 độ. Trong khi đó, từ mức diện tích 661.5 trở đi, mức thu nhiệt cho số liệu
Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 12/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

thấp hơn và ổn định hơn nhiều so với trước. Tổng quan có thể thấy diện tích càng lớn thì mức
độ thu nhiệt và chênh lệch mức thu nhiệt càng giảm.
• Ảnh hưởng của định hướng ngơi nhà (phía dưới):
So với ảnh hưởng từ diện tích bề mặt thì ảnh hưởng từ định hướng có tác động cực kì ít. Cụ
thể, dù trung bình nhiệt độ thu dường như khơng hề thay đổi trong bộ định hướng đang xét.
• Tỏa nhiệt

Hình 11: Biểu đồ hộp mô tả mức độ tỏa nhiệt của ngôi nhà qua diện tích bề mặt và định hướng
Nhận xét:
• Ảnh hưởng của diện tích bề mặt (phía trên):
Như đã nhận xét ở phần trước bằng biểu đồ phổ, ta cũng thấy hai biểu đồ đều có những đặc

điểm gần như là như nhau về mức độ tỏa nhiệt theo diện tích.

Bài tập lớn mơn Xác suất và Thống Kê MT2013

Trang 13/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

• Ảnh hưởng của định hướng ngơi nhà (phía dưới)
Tương tự như ảnh hưởng của diện tích bề mặt, ảnh hưởng từ định hướng của ngôi nhà cũng
cho kết quả với đặc điểm đồ thị tương tự như ở đồ thị thu nhiệt.
4.1.5

Xây dựng mơ hình hồi quy tuyến tính

Dựa trên mơ hình hồi quy bội đã trình bài ở trên, ta sẽ phân tích các tác động của các yếu
tố được xét. Cụ thể ta sẽ xét biến Y1 biểu hiện mức độ thu nhiệt của ngôi nhà thông qua các
biến độc lập từ dữ liệu trong file heat_data.csv.
4.1.5.a

Ước lượng mơ hình

Đâu tiên, ta sẽ kiểm tra xem mơ hình hồi quy tuyến tính có xây dụng được trên tập đang
xét hay khơng bằng lệnh lm().

Hình 12: Ước lượng mơ hình
Sau khi thực hiện ước lượng mơ hình, kết quả thực thi như sau:

Hình 13: Mơ hình ước lượng sau khi được thực thi


Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 14/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Ta thấy trong mơ hình ước lượng có hai biến khơng cần thiết đó là X4 vì khơng độc lập và
X6 vì khơng có giá trị thống kê. Do đó, ta sẽ loại bỏ hai biến đó trong mơ hình hồi quy.

Hình 14: Mơ hình ước lượng sau khi đã loại bỏ các biến khơng cần thiết

4.1.5.b

Kiểm định và lựa chọn mơ hình

Ta sẽ kiểm định mơ hình thơng qua đồ thị phần dư.

Hình 15: Vẽ đồ thị phần dư mơ tả mơ hình ước lượng

Bài tập lớn mơn Xác suất và Thống Kê MT2013

Trang 15/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Đồ thị sau khi vẽ như sau:


Hình 16: Đồ thị phần dư mơ tả mơ hình ước lượng
Đồ thị thứ 1 (Residuals vs Fitted) cho thấy giả thiết về tính tuyến tính của dữ liệu hơi bị vi
phạm. Tuy nhiên giả thiết trung bình của phần dư có thể coi là thỏa mãn.
Đồ thị Normal Q-Q cho thấy giả thiết phần dư có phân phối chuẩn được thỏa mãn.
Đồ thị (Scale - Location) cho ta thấy rằng giả thiết về tính đồng nhất của phương sai cũng
thỏa mãn.
Đồ thị thứ tư chß ra có các quan trắc thứ 16 và 28 có thể là các điểm có ảnh hưởng cao trong
bộ dữ liệu.
4.1.5.c

Dự báo cho mơ hình

Tiếp theo ta sẽ thực hiện một số dự báo về giá trị trung bình trong mơ hình trên.

Bài tập lớn mơn Xác suất và Thống Kê MT2013

Trang 16/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Hình 17: Dự báo giá trị trung bình
4.1.5.d

Xuất kết quả của phép hồi quy

Từ những số liệu ở trên, ta có thể xuất kết quả hệ số hồi quy tuyến tính cho mức độ thu
nhiệt như sau:

Y 1 = 83.9318 − 64.7734X1 − 0.0873X2 + 0.0608X3 + 4.17X5 + 19.9327X7 + 0.2038X8

4.1.6

T.test

Nhóm tác giả đề xuất kiểm định giả thuyết - trường hợp 2 mẫu độc lập (independent t - test)
để so sánh trung bình mức thu nhiệt và tỏa nhiệt của ngơi nhà.
Mặc dù, theo Hình 7, đồ thị phân phối của mức thu nhiệt và tỏa nhiệt không tuân theo phân
phối chuẩn. Tuy nhiên, với cỡ mẫu lớn (hơn 800 mẫu) nên ta xem như mức trung bình sẽ tiến
tới phân phối chuẩn và khơng ảnh hưởng đến kiểm định.
• Giả thuyết H0: Trung bình mức thu nhiệt và tỏa nhiệt của ngơi nhà là bằng nhau
• Đối thuyết H1: Trung bình mức thu nhiệt khác trung bình mức tỏa nhiệt.

Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 17/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Thực hiện kiểm định:

Nhận xét: Từ kết quả phân tích, ta thu được:
- p-value = 5.592e-06 (bé hơn nhiều so mức ý nghĩa a = 0.05) nên ta bác bỏ giả thuyết H0, chấp
nhận H1.

4.2
4.2.1

Hoạt động 2
Giới thiệu


Nhóm đề xuất chủ đề dựa trên chuyên ngành đang học liên quan đến máy tính là phân tích
dữ liệu Hiệu suất của CPU. Đánh giá hiệu suất dựa trên việc phân loại các thiết bị và sự tác
động của các thuộc tính khác ảnh hưởng đến hiệu suất của CPU.
Bộ dữ liệu được thu thập bởi Phillip Ein-Dor and Jacob Feldmesser và được tài trợ bởi David
W. Aha năm 1987.
Giải thích các biến liên quan đế bộ dữ liệu:
V1. Vendor name: bao gồm 30 tên hãng sản xuất thiết bị khác nhau
(adviser, amdahl,apollo, basf, bti, burroughs, c.r.d, cambex, cdc, dec, dg, formation, four-phase,
gould, honeywell, hp, ibm, ipl, magnuson, microdata, nas, ncr, nixdorf, perkin-elmer, prime,
siemens, sperry, sratus, wang)
V2. Model Name: Gồm nhiều ký tự biểu diễn các model khác nhau
V3. MYCT: Chu kỳ biểu diễn ở nanoseconds (integer)
V4. MMIN: Bộ nhớ tổi thiểu ở kilobytes (integer)
V5. MMAX: Bộ nhớ tối đa ở kilobytes (integer)
V6. CACH: Bộ nhớ cache ở kilobytes (integer)
V7. CHMIN: Các kênh tối thiểu (integer)
V8. CHMAX: Các kênh tối đa (integer)
V9. PRP: Hiệu suất tương đối được công bố (integer)
V10. ERP: Hiệu suất tương đối được ước tính từ bài báo gốc (integer)
Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 18/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

4.2.2
4.2.2.a


Làm rõ dữ liệu
Đọc dữ liệu

Dữ liệu được lấy từ file machine_data.data. Các bước thực hiện như sau đây:
• Khai báo các thư viện cần thiết bao gồm (dplyr, ggplot2, car )
• Đọc dữ liệu từ file .data bằng hàm read_table(), các dữ liệu được phân cách bởi dấu ",".
• Kiểm tra và làm sạch dữ liệu bằng hàm colsums() và is.na(). Tuy nhiên, dữ liệu hồn tồn
đã sạch khơng có giá trị NaN hay NA (hình 20)

1
2
3
4

#1 / Libr ar y decl ara ti on
library ( dp ly r )
library ( ggplot2 )
library ( car )

5
6
7

#2 / I mpo rt Dat a
ma ch ine _ da ta = read. t ab le ( " m achi ne . data " , sep = " , " )

8
9
10


#3 / Da ta cl ea ni ng
col Sums ( is . na ( ma chin e _ data ) )

Hình 18: Code nhập dữ liệu từ machine_data.data

Hình 19: Hình ảnh dữ liệu thu thập được

Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 19/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Hình 20: Data hồn tồn sạch, khơng có giá trị NA
4.2.2.b

Thống kê mơ tả

Ở đây ta chß dùng dữ liệu từ các tham số từ 3 đến 10 để thống kê mô tả các dữ liệu định
lượng.
1
2
3
4
5
6
7
8


## Th ong ke mo ta
Mean = apply ( m achi ne _ data [3:10] , 2 , mean )
Med ian = apply ( m achi ne _ data [3:10] , 2 , median )
Var = ap ply ( m ac hin e _ da ta [3:10] , 2 , var )
Sd = ap ply ( m ac hin e _ da ta [3:10] , 2 , sd )
Min = ap ply ( m ac hin e _ da ta [3:10] , 2 , min )
Max = ap ply ( m ac hin e _ da ta [3:10] , 2 , max )
summary . ta ble = data . fra me ( Mean , Median , Var , Sd , Min , Max )

Hình 21: Code tạo bảng thống kê các thông số định lượng
Kết quả của bảng thống kê như sau:

Hình 22: Bảng thống kê các thông số

Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 20/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Sau đây ta sẽ phân loại hiệu suất CPU dựa trên các nhà sãn xuất nhằm mục đích xác định
xem các nhà sản xuất nào đạt yêu cầu, hoặc nổi bật hơn các đơn vị còn lại.
1

## P ha n lo ai theo ve ndor nam es

2
3


Ven dor = unique ( ma chin e _ data $ V1 )

4
5
6
7
8
9
10
11

MaxPerformance = c ()
MinPerformance = c ()
for (x in Ven do r ){
s = subset ( mac hine _ data , V1 == x )
MaxPerformance = append ( MaxPerformance , max ( s $ V10 ) )
MinPerformance = append ( MinPerformance , min ( s $ V10 ) )
}

12
13

Pe rfo rman ce . ta ble = data . fram e ( Vend or , M ax Per for ma nce , M in Per for ma nce )

Hình 23: Code phân loại hiệu suất theo các nhà sản xuất

Hình 24: Bảng thống kê các nhà sản xuất theo thứ tự hiệu suất CPU

Bài tập lớn môn Xác suất và Thống Kê MT2013


Trang 21/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Tuy nhiên để dễ quan sát hiệu suất phân bố theo các nhà sản xuất khác nhau, ta biểu diễn
dưới dạng đồ thị như sau:
1
2
3

4
5
6
7

ggp lo t ( mach ine _ data , aes (x = V1 , y = V 10 ) ) +
geom _ po in t ( color = " d arkg reen " , si ze = 3 , al pha = 1) +
labs ( titl e = " Cl ass if ic ati on of ve ndo rs ba sed on es ti ma te d rel ativ e CPU
pe rf orma nce " ,
x = " Ven dor " ,
y = " Pe rf orma nce "
)+
the me ( axis . text . x = e le men t _text ( an gl e = 90) )

Hình 25: Code biểu diễn đồ thị hiệu suất theo các nhà sản xuất

Hình 26: Đồ thị biểu diễn hiệu suất theo các nhà sản xuất
Như ta thấy ở đồ thị trên, Amdahl có CPU hiệu quả nhất trong các doanh nghiệp khác, được
biết tập đoàn Amdahl được điều hành bởi Gene Amdahl - người đã từng là kỹ sư quan trọng tại

IBM và cũng là tác giả của Amdahl’s Law nổi tiếng thời bấy giờ. Ngồi ra cũng có các nhà sản
xuất như Sperry hay Nas cũng sản xuất những CPU hiệu suất khá tốt. Nhưng nhìn chung hiệu
suất của các CPU tập trung nhiều trong khoảng từ 0-100.
Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 22/30


Trường Đại học Bách Khoa Tp.Hồ Chí Minh

Sau đây ta sẽ khảo sát sự tương quan giữa các yếu tố linh kiện phần cứng ảnh hưởng đến
hiệu suất của CPU.
1

sc att erp lot Mat rix ( m achi ne _ data [3:10])

Hình 27: Code ma trận đồ thị Scatter giữa các thơng số

Hình 28: Ma trận đồ thị Scatter giữa các thông số
Ta nhận xét rằng, đồ thị histogram của các thơng số linh kiện phần cứng tồn bộ là lệch
phải. Đa số các giá trị nằm bên trái, có một vài điểm ngoại lai phía bên phải.
Đối với các đồ thị có chứa V3 (chu kỳ hoạt động) đa số là đồ thị dạng Reverse J shaped, có
dạng như phân phối mũ. Đặc biệt, chu kỳ hoạt động càng nhỏ thì hiệu suất càng lớn.
Đối với các thơng số khác như bộ nhớ tối đa, tối thiểu, bộ nhớ cache, kênh luồng tối thiểu,
tối đa nhìn chung tß lệ thuận với hiệu suất, nghĩa là các thông số linh kiện trên càng tăng thì
hiệu suất càng tăng.

Bài tập lớn môn Xác suất và Thống Kê MT2013

Trang 23/30



Trường Đại học Bách Khoa Tp.Hồ Chí Minh

4.2.3
4.2.3.a

Mơ hình hồi quy tuyến tính
Ước lượng mơ hình

Đầu tiên ta ước lượng mơ hình để xem dữ liệu hiệu suất CPU sẽ được giải thích bởi các biến
nào.
1
2

mod el . ma chin e _ data <- lm ( V9 ~ V3 + V4 + V5 + V6 + V7 + V8 , data = ma chin e _ data )
summary ( mo de l . mach ine _ da ta )

Hình 29: Code ước lượng mơ hình hồi quy tuyến tính bội

Hình 30: Kết quả ước lượng mơ hình hồi quy
Ta thấy biến v7 khơng có ý nghĩa trong mơ hình hồi quy bội được xây dựng, ta có thể loại
bỏ biến này và xây dựng lại mơ hình hồi quy bội.
1
2

mod el . ma chin e _ data <- lm ( V9 ~ V3 + V4 + V5 + V6 + V8 , data = ma chin e _ data )
summary ( mo de l . mach ine _ da ta )

Hình 31: Code ước lượng mơ hình hồi quy tuyến tính bội lần 2


Bài tập lớn mơn Xác suất và Thống Kê MT2013

Trang 24/30


×