Tải bản đầy đủ (.docx) (33 trang)

BÁO cáo bài tập môn xác SUẤT THỐNG kê làm sạch dữ liệu (data cleaning)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.11 MB, 33 trang )

reli

TRƯỜNG ĐẠI HỌC BÁCH KHOA
--oOo--

Số TT

1

2

3

4

5

I. Phần chung:
1. Đọc dữ liệu (Import data):

0

download by :


2.

Làm sạch dữ liệu (Data cleaning):

3.


Làm rõ dữ liệu (Data visualization):

4. t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks
5.

ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân.

6.

ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) và giới tính ( gender ) có ảnh hưởng thế nào đến việc giảm cân weight.loss

II. Phần riêng:
1.

Đọc dữ liệu (Import data):

2.

Làm sạch dữ liệu (Data cleaning)

3.

Làm rõ dữ liệu (Data visualization):

4.

Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models):

5.


Nhận xét.

III. Tài liệu tham khảo
IV. Nguồn dữ liệu

I. Phần chung:
Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một thử nghiệm về hiệu quả của các chế độ ăn kiêng trong việc
giảm cân nặng đối với những người trưởng thành. Một người tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trong vòng 6 tuần lễ.
Cân nặng của người tham gia sẽ được ghi nhận trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng.
Các biến chính trong bộ dữ liệu:



Person = số thứ tự của người tham gia thử nghiệm



gender = giới tính của người tham gia (1 = nam, 0 = nữ)



Age = tuổi (năm)



Height = chiều cao (cm)



pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)


1

download by :





Diet = chế độ ăn kiêng (3 chế độ khác nhau)

weight6weeks = cân nặng sau 6 tuần ăn kiêng

Các bước thực hiện:
1. Đọc dữ liệu (Import data): house_price.csv
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks
5. ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân.
6. ANOVA hai nhân tố: Chế dộ ăn kiêng Diet và giới tính gender ảnh hưởng thế nào đến việc giảm cân weightLOST?

1. Đọc dữ liệu Data (Import data)
Để đọc dữ liệu vào R, ta dùng lệnh sau:

Để xem dữ liệu vừa nhập ta dùng lệnh diet, R sẽ xuất ra bảng như sau:

2


download by :


2. Làm sạch dữ liệu (Data cleaning):
Kiểm tra các dữ liệu bị khuyết trong tập tin. (Các câu lệnh tham khảo: is.na(), which(), apply()). Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp
thay thế cho những dữ liệu bị khuyết này
Kiểm tra dữ liệu khuyết:
Input:

Output:

3

download by :


Dịng lệnh >colSums(is.na(Diet)) để kiểm tra có bao nhiêu dữ liệu khuyết
Dịng lệnh >apply(is.na(Diet),2,which) để kiểm tra vị trí các dữ liệu khuyết
Dòng lệnh >apply(Diet, 2, function(x)sum(is.na(x))/length(x)) để kiểm tra tỉ lệ dữ liệu khuyết so với số liệu đề bài, nếu bé qua thì có thể bỏ
qua Dịng lệnh >Diet_new<- na.omit(Diet) để loại bỏ các dữ liệu khuyết
Đề xuất phương án xóa dữ liệu khuyết vì nó chiếm q nhỏ trên dữ liệu đề bài nên bỏ sẽ không ảnh hưởng

Dữ liệu Diet sau khi loại bỏ các dữ liệu khuyết ta được Diet_new:

4

download by :


3. Làm rõ dữ liệu (Data visualization):




Chuyển đổi dữ liệu: (không cần thiết)



Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.

Tạo biến weight.loss = pre.weight - weight6weeks là cân nặng giảm được sau 6 tuần thực hiện chế độ ăn kiêng.

Nhìn vào bảng số liệu ta thấy có 2 biến cần được phân tích gồm: biến rời rạc và biến liên tục:
+Biến rời rạc gồm: gender, Diet
+Biến liên tục gồm: Age, Height, pre.weight, weight6weeks.

a.Thống kê mẫu:
Đối với các biến phân loại ( rời rạc), hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table()).

Input:

Output:

5

download by :


Đối với các biến liên tục, hãy tính các giá trị thống kê mơ tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả
với dưới dạng bảng. (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()).


Ta sử dụng lệnh apply() với tham số đầu là các biến liên tục: Age, Height,pre.weight,weight6weeks. Với mục đích để tính các giá trị thống kê cụ thể
theo hàm function().
Sau đó dùng lệnh rownames() để đặt tên cho các giá trị thống kê vừa tính để tạo ra bảng stat_table bên dưới.

Khái quát hơn, để biết được các giá trị thống kê của biến weight.loss theo từng chế độ ăn kiêng, ta dùng lệnh sau:

6

download by :


b.Dùng đồ thị:
Dùng lệnh hist() để cho ra kết quả tổng quan sau quá trình ăn kiêng:

Hàm hist() nhận vào một danh sách để biểu diễn biểu đồ, ở đây cần xem “weight.loss” nên tham số vào đầu là “weight.loss” và các tham số tùy chọn
bao gồm main để đặt tên cho biểu đồ, col để chỉnh màu cho biểu đồ , xlab để đặt tên cho trục hoành và ylab để đặt tên cho trục tung.

Dùng lệnh boxplot để có được đồ thị mơ tả weight.loss theo từng chế độ Diet

Hàm boxplot() có cú pháp tương tự hàm hist(). Sau khi thực hiện lên trên thì ta được đồ thị sau :

4. t.test: Dùng một kiểm định phù hợp cho hai biến pre.weight và weight6weeks.
Giả thuyết H0: Cân nặng trung bình trước ăn kiêng và sau ăn kiêng bằng nhau.

7

download by :


Giả thuyết H1: Cân nặng trung bình sau ăn kiêng thấp hơn trước ăn kiêng.

Dùng hàm t.test kiểm định một phía đối với hai biến pre.weight và weight6weeks:

Dựa vào kết quả từ R, ta biết được độ tin cậy là 95% (mức ý nghĩa α = 0.05) và p-value < 2.2×10

-16

. Vì p-value rất bé so với mức ý nghĩa α nên ta

bác bỏ giả thuyết H0,chấp nhận giả thuyết H1. Vậy cân nặng trung bình sau ăn kiêng giảm so với cân nặng trung bình trước ăn kiêng.
5. ANOVA một nhân tố: Chế độ ăn kiêng Diet nào hiệu quả nhất trong việc giảm cân.
5.1. Trình bày Phân tích phương sai một nhân tố, phát biểu các giả thuyết và đối thuyết. Nêu các giả định của mơ hình cần kiểm tra.
-

Phân tích phương sai ANOVA: so sánh 1 biến liên tục giữa các nhóm (nhiều hơn 2 nhóm)

-

Giả thuyết vơ hiệu: H0: khơng có sự khác biệt nào giữa các quần thể

-

Giả thuyết đảo: H1: có tối thiểu một sự khác biệt trong quần thể.

5.2. Thực hiện kiểm tra giả định của mơ hình:
Một số giả định khi phân tích ANOVA:
– Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên.
– Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn.
– Phương sai của các nhóm so sánh phải đồng nhất.
5.2.1. Kiểm tra giả định các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên.
Các nhóm so sánh phải độc lập và được chọn ngẫu nhiên: thỏa mãn, vì 3 nhóm khảo sát trên những người khác nhau.

5.2.2. Kiểm tra giả định các nhóm phải có phân phối chuẩn hoặc cỡ mẫu đủ lớn để được xem như tiệm cận phân phối chuẩn:
Ở đây các nhóm có cỡ tương đối nhỏ nên phải xem các nhóm có là phân phối chuẩn hay khơng với 2 bước sau:
(1) Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot). Phân phối chuẩn khi biểu đồ xác suất này có quan hệ tuyến tính (đường thẳng).
(2) Để chính xác hơn ta thực hiện thêm Shapiro - Wilk test

a) Nhóm thực hiện chế độ ăn kiêng 1 (diet1)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:

8

download by :


Output:

Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì vọng.
Thực hiện Sharpio - Wilk test.

Input:

Output:

Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân phối chuẩn.

b) Nhóm thực hiện chế độ ăn kiêng 2 (diet2)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:

Output:


9

download by :


Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì vọng.
Thực hiện Sharpio - Wilk test.
Input:

Output:

Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân phối chuẩn.

c) Nhóm thực hiện chế độ ăn kiêng 3 (diet3)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:

Output:

10

download by :


Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì vọng.
Thực hiện Sharpio - Wilk test.
Input:

Output:


Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân phối chuẩn.

5.2.2. Kiểm tra giả định về tính đồng nhất của các phương sai: Bartlett test
Lý thuyết: giả thuyết vô hiệu là tất cả các phương sai của quần thể đều bằng nhau; giả thuyết thay thế là ít nhất hai trong số chúng khác nhau.

Giả thuyết:
H0 : tất cả các nhóm có phương sai tương đương nhau.
H1 : Có ít nhất 1 cặp trong số các nhóm có phương sai khơng tương đương nhau.
Câu lệnh:

Kết quả:

11

download by :


Nhận xét: giá trị p >0.05 nên chấp nhận H0, tức khơng có bằng chứng nào cho thấy phương sai của 3 chế độ ăn kiêng có sự khác biệt rõ rệt, tức 3 chế
độ ăn kiêng có phương sai tương đương nhau.
5.3. Thực hành phân tích phương sai một nhân tố. Cho kết luận về hiệu quả của các phương pháp ăn kiêng đối với việc giảm cân.
Câu hỏi đặt ra: mức độ giảm cân của 3 chế độ ăn kiêng có khác nhau hay khơng?
Gọi số cân giảm trung bình của 3 nhóm là µ1, µ2, µ3;
H0: µ1= µ2=µ3;
H1: có một sự khác biệt giữa 3 µj (j=1, 2, 3);
Đầu tiên, nhập dữ liệu:
Input:

Output:
:


Dựa vào kết quả này, chúng ta có:
Tổng bình phương giữa các nhóm (SSB) = 60.53
Trung bình bình phương giữa các nhóm (MSB) = 30.2635
Tổng bình phương trong mỗi nhóm (SSW) = 410.40
Trung bình bình phương trong mỗi nhóm (MSW) = 5.6219
Như vậy, F = MSB/MSW = 30.2635/ 5.6219 = 5.3831
Trị số p = 0.006596 < 0.05 nên bác bỏ H0 có nghĩa là tín hiệu cho thấy có sự khác biệt về độ giảm cân giữa ba chế độ ăn kiêng.
Để biết thêm kết quả phân tích, chúng ta dùng lệnh summary như sau:
Input

12

download by :


Output:

Nhận xét: So với chế độ ăn kiêng 1 và chế độ 2 thì chế độ 3 đều có độ giảm cân và lớn hơn chế độ 1, nhưng độ giảm cân của chế độ 2 lại khơng có ý
nghĩa thống kê, cịn chế độ 3 thì có ý nghĩa thống kê.
Thực hiện so sánh bội (Multiple Comparisons):
Input

Output:

Vẽ đồ thị:
Input:

Output:


13

download by :


Nhận xét: Kết quả cho thấy sự khác nhau về cân nặng giảm được giữa:



Phương pháp ăn kiêng 3 cao hơn phương pháp ăn kiêng 1 là 1.848148, khoảng tin cậy 95% là (0,2567422; 3,439554).



-Phương pháp ăn kiêng 3 cao hơn phương pháp ăn kiêng 2 là 1.880148, khoảng tin cậy 95% là (0,3056826; 3,454614)



Ở phương pháp ăn kiêng 2 và phương pháp ăn kiêng 1 không thể so sánh được sự khác nhau vì p adj=0,9987711> 0,05.

Như vậy sự so sánh có ý nghĩa thống kê ở cặp nhóm (3-1) và (3-2) nhưng khơng có ý nghĩa ở cặp (2-1). Phương pháp ăn kiêng hiệu quả nhất là
phương pháp 3.

6.

ANOVA hai nhân tố: Chế độ ăn kiêng ( Diet ) và giới tính ( gender ) có ảnh hưởng thế nào đến việc giảm cân weight.loss

1.Phân tích phương sai 2 nhân tố và điều kiện để phân tích phương sai hai nhân tố

a.


Định nghĩa

Một phép thử cho phép so sánh giữa các trung bình của nhiều nhóm dữ liệu, trong đó hai biến độc lập được xem xét.

ANOVA hai yếu tố là một phần mở rộng của phân tích phương sai một yếu tố. Với One Way, bạn có một biến độc lập ảnh hưởng đến biến phụ thuộc.
Còn với two-way ANOVA, sẽ có 2 biến độc lập.
Ví dụ: Với dữ liệu đề cho, ta có thể thực hiện phân tích ANOVA hai nhân tố với hai biến độc lập là giới tính (gender) và chế độ ăn kiêng (Diet), biến
phụ thuộc là cân nặng giảm được sau 6 tuần (weight.loss).

b.

Điều kiện để phân tích ANOVA hai chiều:



Biến phụ thuộc phải là biến liên tục



Hai biến độc lập phải có nhiều mức phân loại (Ví dụ: giới tính có 2 phân loại là nam và nữ)



Các quan sát trong mỗi nhóm và giữa các nhóm phải độc lập với nhau (Ví dụ: cơ sở dữ liệu được cho về cân nặng của 78 cá nhân

độc lập)



Khơng nên có điểm dị biệt.




Dữ liệu của biến phụ thuộc phải là phân phối chuẩn hay xấp xỉ phân phối chuẩn. (Đã chứng minh khi xét ANOVA một nhân tố ở

trên)



Cần phải có sự đồng nhất của phương sai cho mỗi sự kết hợp của các nhóm của hai biến độc lập.

Thực hiện phân tích two way ANOVA sử dụng R Studio
Để thực hiện phân tích phương sai ANOVA hai chiều xem xét chế độ ăn và giới tính ảnh hưởng thế nào đến việc giảm cân, ta lần lượt phân tích như
sau:

a)



Xem tác tác động của lần lượt từng yếu tố chế độ ăn kiêng, giới tính đến việc giảm cân



Xem xét tác động tổng hợp của việc giảm cân



Vẽ đồ thị thể hiện tương quan giữa hai yếu tố chế độ giảm cân và giới tính

Các câu lệnh và ý nghĩa:


14


download by :


Các câu lệnh

b)

Phân tích kết quả

15

download by :




Ảnh hưởng của giới tính (độ tin cậy 1)

H0: cân nặng giảm đi trung bình giữa các giới tính bằng nhau.

H1: cân nặng giảm đi trung bình giữa các giới tính là khác nhau.

Pr(>F)= 0.820623 > 0.05 (mức ý nghĩa) ==> chấp nhận H0
Kết luận: Giới tính khơng ảnh hưởng đến việc giảm cân




Ảnh hưởng của chế độ ăn kiêng (độ tin cậy 0.01)

H0: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng là giống nhau.

H1: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng là khác nhau.

Pr(>F)=0,005456 < 0.05 bác bỏ H0, chấp nhận H1

Kết luận: Chế độ ăn kiêng có ảnh hưởng đến việc giảm cân



Ảnh hưởng tổng hợp của giới tính và chế độ ăn kiêng

H0: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng và giới tính là giống nhau.

H1: cân nặng giảm đi trung bình giữa các phương pháp ăn kiêng và giới tính là khác nhau.

Pr(>F)=0,048842 < 0.05

bác bỏ H0, chấp nhận H1.

Kết luận: Có sự ảnh hưởng của tổng hợp hai yếu tố giới tính và chế độ ăn kiêng lên sự giảm cân.

c.

Một số so sánh bội để làm rõ ảnh hưởng của hai yếu tố giới tính và chế độ ăn kiêng lên sự giảm cân.

Sau khi thực hiện phân tích ANOVA hai chiều ta kết luận được có sự ảnh hưởng của tổng hợp hai yếu tố giới tính và chế độ ăn kiêng lên sự giảm cân.

Để có cái nhìn rõ hơn về sức ảnh hưởng của tương tác gender*Diet ta thực hiện so sánh bội giữa 6 nhóm (được tạo nên từ
gender(Nam;Nữ)*Diet(1;2;3)). Từ đó, ta sẽ quan sát được giữa 6 nhóm, nhóm nào chịu tác động của tương tác gender*Diet nhiều hay ít (thơng qua so
sánh trong bình các nhóm)

16

download by :


Thực hiện Tukey HSD (Tukey Honest Significant Differences)
Sử dụng hàm TukeyHSD() để so sánh theo từng cặp nhóm đối tượng (có 6 nhóm).

Code R: TukeyHSD(aov(model1))





Diff: sự khác biệt giữa trung bình của các cặp nhóm



Lwr, upr: Cận trên và cận dưới của khoảng tin cậy 95% (default)

Từ bảng trên, ta thấy được sự khác biệt giữa cặp Fe:Diet3 – Fe:Diet2 (3.27) và cặp Fe:Diet3 – Fe:Diet1 (2.83) hay cặp Fe:Diet3 – Ma:

Diet1 (2.23) là có ý nghĩa đáng kể.
=> có thể thấy rằng: Chế độ ăn kiêng 3 áp dụng cho đối tượng nữ đem lại hiệu quả cao nhất, trái lại chế độ kiêng 2 áp dụng cho nữ đem lại hiệu
quả thấp.


Để có cái nhìn trực quan hơn, ta sử dụng đồ thị:

plot(TukeyHSD(res.aov3))

d. Thực hiện việc kiểm tra các giả định của mơ hình trong TH2:

Giả định về phân phối chuẩn

-

#

Sử dụng Q-Q plot

-

#

Nếu ta thu được đồ thị xấp xỉ theo đường

thẳng tuyến tính thì khơng bác bỏ giả định về phân
phối chuẩn plot(res.aov3, 2)

17


download by :


-


Có thể thấy đồ thị xấp xỉ theo đường thẳng tuyến tính nên sai số được phân phối chuẩn. # Có thể sử dụng kiểm

định Shapiro-Wilk
aov_residuals <- residuals(object = res.aov3) shapiro.test(x = aov_residuals)

Vì W đủ lớn nên giả định về phân phối chuẩn của sai số được đảm bảo hơn.

Giả định về sự đồng nhất các phương sai (sử dụng kiểm định Lenver)

# import thư viện Car

library(car)

leveneTest(weight.loss ~ gender*Diet, data = Data.gen.diet)

Từ kết quả ta thấy p-value > mức ý nghĩa α= 0.05. Vậy khơng có bằng chứng để khẳng định rằng phương sai giữa các nhóm là có sự khác biệt
đáng kể về mặt thống kê, nên có thể giả định tính đồng nhất của các phương sai.

18

download by :


B. Phần riêng:
• Mỗi nhóm bắt buộc tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí
nghiệm, khảo sát, dự án ... trong chun ngành của mình. Ngồi ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong
kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
• Các nhóm được u cầu xử lý số liệu mà mình đã chọn. Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của
mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mơ hình dữ liệu (model fitting).


CHỦ ĐỀ: CƯỜNG ĐỘ NÉN BÊ TÔNG
Tập tin “Concrete_Data.csv” chứa số liệu về thành phần có trong khối bê tơng từ đó tìm ra được sức chịu nén của bê tơng đó.
Nguồn: kho_du_lieu_BTL_xstk.xlsx
Chú thích:
Cement (kg/m3)

- Xi măng

Blast Furnace Slag (kg/m3)

- Xỉ lò cao

Fly Ash (kg/m3)

- Tro bay

Water (kg/m3)

- Nước

Superplasticizer (kg/m3)

- Phụ gia siêu dẻo

Coarse Aggregate (kg/m3)

- Cốt liệu thô

Fine Aggregate (kg/m3)


- Cốt liệu nhỏ

Age (Day)

- Tuổi

Concrete compressive strength (MPa)

- Cường độ nén bê tông

THỰC HIỆN TRÊN RSTUDIO
Trước hết phải chuyển file thành “ Concrete_Data.csv”
1.Đọc dữ liệu (Import data): Hãy dùng lệnh read.csv() để đọc tệp tin
>

setwd('E:/xstk')

>

library(readr)

>

library(mice)

>

library(psych)


>

library(relaimpo)

>

cuongdo<-read.csv("Concrete_Data.csv",header = T)

>

View(cuongdo)

19

download by :


2.Làm sạch dữ liệu (Data cleaning):
Gán biến cho gọn hơn:
>

Ce<-cuongdo$Cement..component.1..kg.in.a.m.3.mixture.

>

BFS<-cuongdo$Blast.Furnace.Slag..component.2..kg.in.a.m.3.mixture.

>

FA<-cuongdo$Fly.Ash..component.3..kg.in.a.m.3.mixture.


>

Water<-cuongdo$Water...component.4..kg.in.a.m.3.mixture.

>

Super<-cuongdo$Superplasticizer..component.5..kg.in.a.m.3.mixture.

>

CA<-cuongdo$Coarse.Aggregate...component.6..kg.in.a.m.3.mixture.

>

Fine<-cuongdo$Fine.Aggregate..component.7..kg.in.a.m.3.mixture.

>

Age<-cuongdo$Age..day.

> CCS<-cuongdo$Concrete.compressive.strength.MPa..megapascals.. Tạo
tập tin con new_cd chứa các biến cần dùng:

>

new_cd=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,Age,CCS)

>


names(new_cd)

Kiểm tra dữ liệu khuyết
> anyNA(new_cd)

Vậy khơng có dữ liệu khuyết
3.Làm rõ dữ liệu (Data visualization):
a. Đối với các biến liên tục, hãy tính các giá trị thống kê mơ tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết
quả với dưới dạng bảng. (Hàm gợi ý: mean(), median(), sd(), min(), max(), apply(), as.data.frame(), rownames()).

20

download by :


Tạo tập “mota” để chứa các biến liên tục
Tạo tập “motacuthe” để chứa các yếu tố cần mô tả như trung bình, trung vị, độ lệch chuẩn, min,max trong “mota”

>

new_cd2=data.frame(Ce,BFS,FA,Water,Super,CA,Fine,CCS)

>

mota=describe(new_cd2)

>

attach(mota)


>

motacuthe=data.frame(mota[,0],vars,mean,sd,median,min,max)

>

detach(mota)

>

motacuthe

b. Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý: table()).
> table(Age)

c. Vẽ đồ thị phân phối của CCS bằng hàm hist()
> hist(CCS,col="red")

21

download by :


Nhận xét: Cường độ nén bê tông trong mẫu số liệu tập trung nhiều ở khoảng 20 – 50

(MPa) như vậy có thể xem đây là khoảng ước lượng
d. Vẽ phân phối của biến CCS cho từng nhóm phân loại của biến Age
> boxplot(CCS~Age)

22


download by :


×