lOMoARcPSD|9242611
1
TỔNG LIÊN ĐỒN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG
TIỂU LUẬN GIỮA KỲ
MÔN HỌC: THỐNG KÊ TRONG KHOA HỌC SỰ SỐNG
Mã mơn học: C01145
TP. HỒ CHÍ MINH, THÁNG 03 NĂM 2022
lOMoARcPSD|9242611
2
TỔNG LIÊN ĐỒN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG
TIỂU LUẬN GIỮA KỲ
MÔN HỌC: THỐNG KÊ TRONG KHOA HỌC SỰ SỐNG
Mã môn học: C01145
Họ và tên sinh viên: Nguyễn Hải Trung
Mã số sinh viên: 62101070
Ngành học: Kỹ thuật hóa học
Email:
TP. HỒ CHÍ MINH, THÁNG 03 NĂM 2022
lOMoARcPSD|9242611
3
MSSV:62101070 (a=0,b=1,c=0,d=7,e=0)
BÀI LÀM
Câu 1:
a)
> No. = c(1:10)
> No.
[1] 1 2 3 4 5 6 7 8 9 10
> Name = c('Anh','Dat','Hong','Huong','Khoa','Lành','Linh','Thoai','Trung','Ngoc')
> Name
[1] "Anh" "Dat" "Hong" "Huong" "Khoa" "Lành" "Linh" "Thoai" "Trung"
[10] "Ngoc"
> Gender =
c('Female','Male','Female','Female','Male','Female','Female','Male','Male','Female')
> Gender
[1] "Female" "Male" "Female" "Female" "Male" "Female" "Female" "Male"
[9] "Male" "Female"
> YOB = c(2001,2001,1992,1978,2004,1993,1994,1989,2002,2002)
> YOB
[1] 2001 2001 1992 1978 2004 1993 1994 1989 2002 2002
lOMoARcPSD|9242611
4
> Subject =
c('Student','Student',NA,'Officer','Other','Officer','Officer','Other','Student','Student')
> Subject
[1] "Student" "Student" NA
"Officer" "Other" "Officer" "Officer"
[8] "Other" "Student" "Student"
> Class =
c('English','Chinese','Chinese','English','English','Chinese','Chinese','English','Chinese','
English')
> Class
[1] "English" "Chinese" "Chinese" "English" "English" "Chinese"
[7] "Chinese" "English" "Chinese" "English"
> data.cau1 = data.frame(No.,Name,Gender,YOB,Subject,Class)
> data.cau1
➔ Diễn giải kết quả: Dữ liệu được nhập tên data.cau1 có 11 hàng và 6 cột.
b)
> is.na(data.cau1)
lOMoARcPSD|9242611
5
➔ Diễn giải kết quả: Dữ liệu được nhập tên data.cau1 có một “missing value” tại cột
5 dịng 3.
> data.cau1[is.na(data.cau1)]='Student'
> data.cau1
c)
> a=0
> b=1
> c=0
> d=7
> e=0
>data.cau1$Fee[data.cau1$Class=='English']=(a+1)*100000+(b+1)*10000+(c+1)*100
0
lOMoARcPSD|9242611
6
>data.cau1$Fee[data.cau1$Class=='Chinese']=(c+1)*100000+(d+1)*10000+(e+1)*100
0
> data.cau1
➔ Diễn giải kết quả: Dữ liệu data.cau1 có 5 Class là “English” với Fee là 121000 và có
5 Class là “Chinese” với Fee là 181000.
d)
> data.cau1$Discount[data.cau1$Subject=='Student']=data.cau1$Fee*0.1
In data.cau1$Discount[data.cau1$Subject == "Student"] = data.cau1$Fee * :
number of items to replace is not a multiple of replacement length
> data.cau1$Discount[data.cau1$Subject=='Officer']=data.cau1$Fee*0.05
In data.cau1$Discount[data.cau1$Subject == "Officer"] = data.cau1$Fee * :
number of items to replace is not a multiple of replacement length
> data.cau1$Discount[data.cau1$Subject=='Other']=0
> data.cau1
lOMoARcPSD|9242611
7
➔ Diễn giải kết quả: Dữ liệu data.cau1 có 5 Subject là “Student” -> Discount=Fee*0.1;
3 Subject là “Officer” -> Discount=Fee*0.05; 2 Subject là “Other” ->
Discount=Fee*0.
e)
> data.cau1$pile.fees=data.cau1$Fee-data.cau1$Discount
> data.cau1
➔ Diễn giải kết quả: Dữ liệu đã nhập tên data.cau1 có tổng cộng 11 dòng và 9 cột.
f)
> data.cau1[order(YOB),]
lOMoARcPSD|9242611
8
➔ Diễn giải kết quả: Dữ liệu data.cau1 đã được xắp xếp theo chiều năm tăng dần từ
1978 đến 2004.
g)
>with(data.cau1,Name[data.cau1$Gander=='Female'&data.cau1$Discount==0
])
→ Diễn giải kết quả: Dữ liệu data.cau1 khơng có học viên Female nào được
giảm học phí.
h)
> with(data.cau1,Name[data.cau1$Class=='English'&data.cau1$Discount>0])
→ Diễn giải kết quả: Dữ liệu data.cau1 có 3 học viên lớp English là “Anh”,
“Huong”, “Ngoc” được giảm học phí.
i)
> sum(data.cau1$pile.fees[data.cau1$Subject=='Student'])
[1] 712500
> sum(data.cau1$pile.fees[data.cau1$Subject=='Officer'])
[1] 458850
> sum(data.cau1$pile.fees[data.cau1$Subject=='Other'])
[1] 242000
lOMoARcPSD|9242611
9
→ Diễn giải kết quả: Tổng số tiền học của “Student” bằng 712500; tổng số tiền học
của “Officer” bằng 458850 và tổng số tiền học của “Other” bằng 242000.
j)
>Solieu=c(sum(data.cau1$pile.fees[data.cau1$Subject=='Student']),sum(data.cau1$pile
.fees[data.cau1$Subject=='Officer']),sum(data.cau1$pile.fees[data.cau1$Subject=='Oth
er']))
> Ten=c('Student','Officer','Other')
> Nhandan=paste(Ten,Solieu,sep='=')
> pie(Solieu,col=c('pink','lightblue','lightyellow'),labels=Nhandan,main='Statis of
tuition according to "Subject"')
lOMoARcPSD|9242611
10
→Nhận xét: Nhìn biểu đồ ta thấy tổng tiền theo Subject có “Student” có tổng số tiền
lớn nhất chiếm hơn 50% biểu đồ và “Other” có tổng số tiền thấp nhất chiếm chưa đến
20% biểu đồ và oficer chiếm khoảng 30%.
Câu 2 (4,0 điểm).
a)
> data.cau2=read.csv(file.choose(),header=TRUE)
lOMoARcPSD|9242611
11
> data.cau2
➔ Diễn giải kết quả: Dữ liệu đã nhập tên data.cau2 có tổng cộng 27 hàng và 9 cột.
b)
a là số chẵn (a=0): tính các giá trị trung bình của dân số Việt Nam theo vùng
> DBSH<-as.numeric(data.cau2[1:26,4])
> TDMNPB<-as.numeric(data.cau2[1:26,5])
> BTBDHMT<-as.numeric(data.cau2[1:26,6])
> TN<-as.numeric(data.cau2[1:26,7])
> DNB<-as.numeric(data.cau2[1:26,8])
lOMoARcPSD|9242611
12
> DBSCL<-as.numeric(data.cau2[1:26,9])
> mean(DBSH)
[1] 19667.4
> mean(TDMNPB)
[1] 11046.13
> mean (BTBDHMT)
[1] 18855.28
> mean(TN)
[1] 4888.593
> mean(DNB)
[1] 13552.89
> mean(DBSCL)
[1] 16808.9
→ Diễn giải kết quả: Dữ liệu data.cau2 có
❖ Trung bình của dân số ở Đơng bằng sơng Hồng bằng 19667.4
❖ Trung bình của dân số ở Trung du miền núi phía Bắc bằng 11046.13
❖ Trung bình của dân số ở Bắc Trung Bộ Duyên hải miền Trung bằng 18855.28
❖ Trung bình của dân số ở Tây Nguyên bằng 4888.593
❖ Trung bình của dân số ở Đơng Nam Bộ bằng 13552.89
❖ Trung bình của dân số ở Đồng bằng sông Cửu Long bằng 16808.9
c) b là số lẻ (b=1): độ trải giữa, độ lệch chuẩn của dân số Việt Nam theo vùng.
Độ trải giữa:
Downloaded by tran quang ()
lOMoARcPSD|9242611
13
> IQR(DBSH)
[1] 2711.2
> IQR(TDMNPB)
[1] 1346.68
> IQR(BTBDHMT)
[1] 1156.48
> IQR(TN)
[1] 1099.635
> IQR(DNB)
[1] 4965.57
> IQR(DBSCL)
[1] 820.5075
→ Diễn giải kết quả: Dữ liệu data.cau2 có Đơng Nam Bộ có độ trải giữa cao nhất
bằng 4965.57 và có Đồng bằng Sơng Cửu Long có độ trải giữa thaaos nhấ bằng
820.5075.
Độ lệch chuẩn:
> sd(DBSH)
[1] 1742.074
> sd(TDMNPB)
[1] 917.3197
> sd(BTBDHMT)
Downloaded by tran quang ()
lOMoARcPSD|9242611
14
[1] 851.8149
> sd(TN)
[1] 743.1504
> sd(DNB)
[1] 2897.522
> sd(DBSCL)
[1] 563.4787
→ Diễn giải kết quả: Dữ liệu data.cau2 có Đơng Nam bộ có độ lệch chuẩn cao nhất
bằng 2897.522 và có đồng bằng song Cửu Long có độ lệch chuẩn thấp nhất bằng
563.4787
d) Vẽ biểu đồ thích hợp miêu tả dữ liệu trên và đưa ra một số nhận xét về kết quả.
> data.cau2
*Đồng bằng sông Hồng
> DBSH=ts(data.cau2$DBSH, start = 1995, end = 2020, frequency = 1)
> plot.ts(DBSH, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn
người",xlab="Năm", main ="Đồng bằng sông Hồng ")
Downloaded by tran quang ()
lOMoARcPSD|9242611
15
→Nhận xét: Từ bản đồ ta thấy Đồng bằng sông Hồng dân số đông và tăng đều từ năm
1995 đến 2020.
*Trung du và miền núi phía Bắc
Downloaded by tran quang ()
lOMoARcPSD|9242611
16
> TDMNPB=ts(data.cau2$ TDMNPB, start = 1995, end = 2020, frequency = 1)
> plot.ts(TDMNPB, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn
người",xlab="Năm", main ="Trung du và miền núi phía Bắc")
→Nhận xét: Từ bẳn đồ ta thấy Trung du và miền núi phía Bắc từ năm 1995 đến 2020
dân số tăng khá đồng đều. Nhưng Từ năm 2007 đến 2008 dân số giảm nhẹ.
*Bắc Trung Bộ và duyên hải miền Trung
>BTBDHMT =ts(data.cau2$ BTBDHMT, start = 1995, end = 2020, frequency = 1)
> plot.ts(BTBDHMT, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn
người",xlab="Năm", main ="Bắc Trung Bộ và duyên hải miền Trung")
Downloaded by tran quang ()
lOMoARcPSD|9242611
17
→Nhận xét: từ bản đồ trên ta thấy Bắc trung bộ và duyên hải miền Trung từ năm 1995
đến 2020 dân số có tăng nhưng khơng đồng đều.
*Tây Ngun
> TN=ts(data.cau2$TN, start = 1995, end = 2020, frequency = 1)
> plot.ts(TN, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn người",xlab="Năm",
main ="Tây Nguyên")
Downloaded by tran quang ()
lOMoARcPSD|9242611
18
→Nhận xét: Từ bản đồ trên ta có thể thấy dân số Tây Nguyên từ năm 1995 đến năm
2020 dân số không đông nhưng hàng năm tăng rất đồng đều.
*Đông Nam Bộ
> DNB=ts(data.cau2$DNB, start = 1995, end = 2020, frequency = 1)
> plot.ts(DNB, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn
người",xlab="Năm", main ="Đơng Nam Bộ")
→Nhận xét: Từ bản đồ trên ta thấy dân số Đông Nam Bộ tăng khá đồng đều và nhanh.
Năm 1995 dân số đang ở dưới mức 10000 nghìn người nhưng đến năm 202 dân số đã
trên 18000 nghìn người.
*Đồng bằng sơng Cửu Long
> DBSCL=ts(data.cau2$DBSCL, start = 1995, end = 2020, frequency = 1)
> plot.ts(DBSCL, col = "blue", type = "l", lty = 1, lwd = 3, ylab="Nghìn
người",xlab="Năm", main ="Đồng bằng sơng Cửu Long")
Downloaded by tran quang ()
lOMoARcPSD|9242611
19
→Nhận xét: Từ bản đồ ta thấy dân số Đồng bằng sông Cửu Long tăng theo hàng năm
nhưng bắt đâu từ năm 2010 dân số tăng rất chậm và dường như không đáng kể.
Downloaded by tran quang ()