Tải bản đầy đủ (.docx) (16 trang)

Xử lí số liệu hiệu suất tương đối CPU bằng phần mềm r CHỦ đề COMPUTER HARDWARE

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (838.59 KB, 16 trang )

B. Phần riêng
Mỗi nhóm bắt buộc tự tìm một bộ dữ liệu thuộc về chun ngành của mình.
Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát,
dự án… trong chuyên ngành của mình. Ngồi ra sinh viên có thể tự tìm kiếm dữ
liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin
“kho_du_lieu_BTL_xstk.xlsx”.
Các nhóm được yêu cầu xử lí số liệu mà mình đã chọn. Sinh viên được tự do
chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình,
nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu ( data visialization) và mơ hình dữ
liệu ( model fitting).
CHỦ ĐỀ: COMPUTER HARDWARE
Tập tin “ machine.data” chứa số liệu về dữ liệu hiệu suất tương đối của CPU,
được mô tả theo thời gian chu kỳ, kích thước bộ nhớ, v.v. Các giá trị hiệu suất
tương đối ước tính được tính bằng phương pháp hồi quy tuyến tính
Nguồn: kho_du_lieu_BTL_xstk.xlsx
Chú thích:
Vendor name ( text) : Tên nhà cung cấp ( có 30 nhà cung cấp)
Model name

: Biểu tượng đặc biệt

MYCT ( nano giây)

: Thời gian chu kỳ máy tính

MMIN ( kilobytes)

: Bộ nhớ chính tối thiểu

MMAX (kilobytes)


: Bộ nhớ chính tối đa

CACH ( kilobytes)

: Bộ nhớ đệm

CHMIN ( integer)

: Kênh tối thiểu tính bằng đơn vị

CHMAX (integer)

: Kênh tối đa tính bằng đơn vị

download by :


PRP (integer)

: Hiệu suất tương đối

ERP (integer)

: Ước tính hiệu suất tương đối từ bài báo
gốc

THỰC HIỆN TRÊN RSTUDIO
Trước hết chuyển file thành “ machin.data.csv”
1. Đọc dữ liệu (Import data): Dùng lệnh read.csv() để đọc tệp tin
 setwd(“ D:/”)

 dl = read.csv (“ machine.csv”, header= TRUE)
 dl
 View dl

Output:

2. Làm sạch dữ liệu ( Data cleaning):


download by :


Loại bỏ các dữ liệu khuyết, chỉ giữ lại các cột dữ liệu chính và đặt tên cho chúng
Code:
clean<-na.omit(dl)
names(clean) [1]<-paste(‘Vendor_name’)
names(clean)[2] <-paste(‘Model name ‘)
names(clean)[3] <-paste(‘MYCT’)
names(clean)[4] <-paste(‘MMIN’)
names(clean)[5] <-paste(‘MMAX’)
names(clean)[6] <-paste(‘CACH’)
names(clean)[7] <-paste(‘CHMIN’)
names(clean)[8] <-paste(‘CHMAX’)
names(clean)[9] <-paste(‘PRP’)
names(clean)[10] <-paste(‘ERP’)
View clean
Output:

download by :



Kiểm tra các dữ liệu bị khuyết trong tập tin.(Các câu lệnh tham khảo: is.na(),
which(), apply()). Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho
những dữ liệu bị khuyết này.
Kiểm tra dữ liệu khuyết:
Code:
anyNA(clean)

Vậy không có dữ liệu khuyết

download by :


3. Làm rõ dữ liệu:
a. Chuyển đổi biến

Code:
str(clean)
Output:

Các biến đã định dạng phù hợp nên không cần chuyển đổi biến.
b. Thống kê mô tả: dùng thống kê mẫu và dùng đồ

thị. Xem một số đại lượng thống kê
Code: summary(clean)
Output:


download by :



Lập bảng giá trị thống kê:
Sử dụng các hàm:mean(), median(), sd(), min(), max()
Để tính các giá trị: Trung bình, Trung vị, Độ lệch chuẩn, Min, Max của các biến
Sau đó xuất kết quả dưới dạng bảng.
(Hàm gợi ý: mean(), median(), sd(),max(), apply(), as.data.frame(), rownames()).
Các biến liên tục trong bộ dữ liệu là: MYCT,MMIN,MMAX, CACH, CHMIN,
CHMAX, PRP, ERP tương ứng cột thứ 3,4,5,6,7,8,9,10 trong dữ liệu.
Input:

Output:

download by :


Biểu diễn biểu đồ tần suất của các biến ( hist) hoặc đồ thị mật độ phân phối xác
suất( plot):
-

Các biến độc
lập: Code:

Output:

download by :


Các biến phụ thuộc:
Code:


Output:

download by :


Biểu đồ hộp tóm lược dữ liệu Hiệu suất tương đối PRP và Hiệu suất ban đầu ERP theo
các yếu tố : Thời gian chu ký (MYCT), Bộ nhớ chính tối đa ( MMAX), Bộ nhớ chính tối
thiểu (MMIN),..
Code:

Output:

download by :


Cụ thể biểu đồ phân phối của biến PRP cho từng nhóm phân loại của biến thời gian chu
kỳ máy tính (MYCT) như sau:

download by :


Nhận xét: Từ biểu đồ cho ta thấy trung vị hiệu suất tương đối CPU( PRP) với thời gian
chu kỳ 32 nano giây là lớn nhất, và thấp nhất ở 112 nano giây. Các giá trị trung vị hiệu
suất tương đối CPU tăng dần từ thời gian 17( nano giây) đến 32 (nano giây) và giảm dần
ở các thời gian ( nano giây) lớn

hơn. Tương tự với các biến còn lại.

4. Xây dựng mơ hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng


đến hiệu suất tương đối CPU.
a. Lập mơ hình hồi quy tuyến tính bao gồm biến “PRP, ERP” là một biến phụ

thuộc, và cả các biến còn lại đều là biến độc lập bằng lệnh lm().
Code:

Output:

download by :


Đặt giả thiết H0: không mang ý nghĩa thống kê
Giả thiết đối H1: mang ý nghĩa thống kê
Theo mơ hình k_11, mức ý nghĩa lớn hơn 5% sẽ khơng có dấu sao nên loại biến
“CHMIN”
b. Lập mơ hình tuyến tính k_22 loại biến “CHMIN”

Code:

Output:

Đặt giả thiết H0: không mang ý nghĩa thống kê
Giả thiết đối H1: mang ý nghĩa thống kê
Theo mơ hình k_22, mức tin cậy lớn hơn 5% sẽ khơng có dấu sao nên khơng
loại biến nào

download by :


c. Phân tích phương sai 2 mơ hình k_11 và k_22


Code:
anova(k_11, k_22)
Output:

Đặt giả thiết H0: k_11 và k_22 có độ phù hợp như nhau
Giả thiết đối: H1 : k_11 và k_22 có độ phù hợp khác nhau
Ta thấy Pr(>F) = 0,5232 lớn hơn mức ý nghĩa 5% nên mơ hình k_11 và k_22 có độ
phù hợp như nhau
Mà ta thấy k_22 không loại biến nào nên k_22 phù hợp hơn.
d. Vẽ đồ thị biểu hiện sai số hồi quy và giá trị dự báo bằng lênh

Plot() Code:
Plot(k_22)
Output:

download by :


Nhận xét: Ta thấy đường màu đỏ ( Residuals) gần giá trị 0 nên sai số nhỏ =>
k_22 hiệu quả và hợp lí hơn. Các giá trị dự báo ( Fitted values) tập trung chủ
yếu trong khoảng từ 0 đến 200. Trong đồ thị có những giá trị ngoại lai, nếu
khắc phục xử lí được các giá trị đó thì mơ hình sẽ hiệu quả hơn nữa
BI. TÀI LIỆU THAM KHẢO
[1] Ngôn ngữ R và xử lý thống kê

/>[2] Nguyễn Văn Tuấn. Phân tích số liệu và tạo biểu đồ bằng R.

/>
Rebecca Bevans, ANOVA in R: A step-by-step guide,

truy cập ngày 17/04/2022

[3]

[4] Cẩm nang R cơ bản

/>IV. NGUỒN DỮ LIỆU
[1] machine.data – Truy cập từ: />
databases/cpu-performance/

download by :



×