TỔNG LIÊN ĐỒN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG
KHOA CƠNG NGHỆ THƠNG TIN
BÀI THI CUỐI KÌ MƠN XÁC SUẤT THỐNG KÊ CNTT
PROBABILITY STATISTICS
FINAL EXAMINATION
Người hướng dẫn: ThS NGUYỄN THỊ HUỲNH TRÂM
Người thực hiện: LÂM QUỐC HUY – 52000216
Lớp
:
20050301
Khoá
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022
:
24
TỔNG LIÊN ĐỒN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG
KHOA CƠNG NGHỆ THƠNG TIN
BÀI THI CUỐI KÌ MƠN XÁC SUẤT THỐNG KÊ CNTT
PROBABILITY STATISTICS
FINAL EXAMINATION
Người hướng dẫn: ThS NGUYỄN THỊ HUỲNH TRÂM
Người thực hiện: LÂM QUỐC HUY – 52000216
Lớp
:
20050301
Khoá
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022
:
24
1
LỜI CẢM ƠN
Em là Lâm Quốc Huy thay mặt mọi người viết lên những dịng tri ân này. Những
lời nói cao đẹp xin gửi đến Cơ đã giúp đỡ nhóm chúng em nói riêng và cả lớp nói chung
trong suốt quá trình học tập và làm bài, thầy đã giúp đỡ rất nhiều trong cơng tác định
hình về góc nhìn thực tế của bài báo cáo về đề tài. Những khía cạnh và cơng việc thực
tế mà có lẽ chúng em sẽ khơng nêu ra được nếu khơng có đầy đủ sự trải nghiệm và thấu
hiểu quy trình vận hành. Đồng thời, chúng em cũng muốn gửi lời cảm ơn chân thành đến
tập thể khoa CNTT và toàn thể cán bộ công nhân viên chức trường Đại Học Tôn Đức
Thắng. Những sự cống hiến đóng góp thầm lặng của những con người anh hùng khơng
tên, bỏ đi lợi ích của mình góp phần tạo nên giá trị to lớn của cả một thể hoàn chỉnh. Xin
chân thành cảm ơn tất cả.
2
ĐỒ ÁN ĐƯỢC HỒN THÀNH
TẠI TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG
Tôi xin cam đoan đây là sản phẩm đồ án của riêng tôi và được sự hướng dẫn của
ThS Nguyễn Thị Huỳnh Trâm; Các nội dung nghiên cứu, kết quả trong đề tài này là
trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Những số liệu trong
các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập
từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo.
Ngồi ra, trong đồ án cịn sử dụng một số nhận xét, đánh giá cũng như số liệu của
các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc.
Nếu phát hiện có bất kỳ sự gian lận nào tơi xin hoàn toàn chịu trách nhiệm
về nội dung đồ án của mình. Trường đại học Tơn Đức Thắng khơng liên quan đến
những vi phạm tác quyền, bản quyền do tơi gây ra trong q trình thực hiện (nếu có).
TP. Hồ Chí Minh, ngày 12 tháng 06 năm 2022
Tác giả
Lâm Quốc Huy
3
PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN
Phần xác nhận của GV hướng dẫn
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
Tp. Hồ Chí Minh, ngày
tháng năm
Nguyễn Thị Huỳnh Trâm
Phần đánh giá của GV chấm bài
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
Tp. Hồ Chí Minh, ngày
tháng năm
Nguyễn Thị Huỳnh Trâm
4
TĨM TẮT
Trình bày tóm tắt vấn đề nghiên cứu, các hướng tiếp cận, cách giải quyết vấn đề
và một số kết quả đạt được, những phát hiện cơ bản trong vòng 1 -2 trang.
1
MỤC LỤC
LỜI CẢM ƠN
i
PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN
i
TĨM TẮT
i
MỤC LỤC
1
DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ
1
CHƯƠNG 1 – GIẢ SỬ TẬP DỮ LIỆU THỨ NHẤT
1
1.1 Câu 1
1
1.2 Câu 2
1
1.2 Câu 3
1
1.2 Câu 4
1
1.2 Câu 5
1
1.2 Câu 6
1
1.2 Câu 7
1
1.2 Câu 8
1
CHƯƠNG 2 – GIẢ SỬ TẬP DỮ LIỆU THỨ HAI
2.1 Câu 9
TÀI LIỆU THAM KHẢO
1
1
1
2
DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT
CÁC KÝ HIỆU
M
W
%
S
Giới tính nam
Giới tính nữ
Đơn vị phần tram.
Độ lệch chuẩn.
CÁC THUẬT NGỮ
Giá trị trung bình
Median
Giá trị trung tâm hay giá trị chính giữa.
Giá trị xuất hiện nhiều nhất.
Mode
Standard deviation Độ lệch chuẩn
Mean
CÁC CHỮ VIẾT TẮT
SV
Sinh viên
3
DANH
MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ
DANH MỤC HÌNH
Hình 2.1: Kiến trúc FTP
1
DANH MỤC BẢNG
Bảng 3.1 Ví dụ cho chèn bảng
1
4
CHƯƠNG 1 – GIẢ SỬ TẬP DỮ LIỆU THỨ NHẤT
➢
ĐỀ BÀI :
Khảo sát mức lương khởi điểm của sinh viên vừa ra trường của một lớp học
gồm 65 sinh viên. Kết quả được đánh số thứ tự như bảng sau.
● Giới tính :
W là nữ.
M là nam.
STT
1
2
3
4
5
6
7
8
9
10 11 12
13
14
15
16
17
Giới tính
W
M
M
W
M
M
W
M
M
W
M
W
M
M
M
Tiền lương
27
61
52 69 88
85
99
90 77 145 41 83 140 74
STT
18
19
20 21 22
23
24
25 26 27 28 29
30
31
32
33
34
Giới tính
W
M
M
W
W
M
W
M
M
W
W
Tiền lương
59
46 108 61 128 114 138
24 67 130 56 79 145 87
40 119 40
STT
35
36
37 38 39
40
41
42 43 44 45 46
47
48
49
50
51
Giới tính
M
M
W
M
M
W
W W W
W
M
M
M
W
Tiền lương
15
44 113 45 25
94
86 128 69 102 91 106 119 139 67
47
42
STT
52
53
54 55 56
57
58
59 60 61 62 63
64
65
Giới tính
W
W
M
W
W
W
W
M
Tiền lương
102 124
M
M
M
W
M
M
M
W
M
M
M
M
W
M
M
M W
31 39 68 105 138 100 84 76 66 128 146 41
143 131 34
5
1.1 Câu 1 :
➢
Bảng phân bố tần số cho giới tính sinh viên bảng dữ liệu :
● Giới tính :
Số lượng nam giới trong lớp là : 37 M
Số lượng nữ giới trong lớp là : 28 W
Tổng số lượng sinh viên là : 65 WM
Công thức tần suất:
đạ ượ
ầ ấ ổốố ượ
ượ ủ ậ ữ ệ
Tần suất nam giới =
Tần số nữ giới =
3765 × 100
=
= 56.92%
×100 = = 43.07%
GIỚI TÍNH
TẦN SỐ
TẦN SUẤT
M
37
56.92%
W
28
43.07%
Số mode trong hệ quy chiếu giới tính = 37 M
6
● Biểu đồ phân bố tần số giới tính :
● Source code python :
txt = "W
M
M
W
M
M
W
M
M
W
M
W
M
W
M
M
M
W
M
M
M
W
W
W
M
M
W
M
M
W
M
M
W
W
M
M
W
M
M
M
W
W
W
W
M
M
W
M
M
M
W
W
W
M
M
M
W
W
W
M
M
M
W
W
M"
data = txt.split("
")
#1:W
#0:M
7
import matplotlib
from matplotlib import pyplot as plt
for idx,val in enumerate(data):
if val == 'W':
data[idx] = 1
elif val == 'M':
data[idx] = 0
plt.hist(data,bins = 3)
plt.ylim([0,65])
plt.xticks([0.15,0.84],['Nam','Nữ'])
plt.title("Biểu đồ phân bố tần số giới tính",fontsize=14)
plt.ylabel("Số lượng người nam hoặc nữ",fontsize=12)
plt.xlabel("Giới tính",fontsize = 12)
plt.show()
● Kết luận :
■ Vậy chúng ta có tổng cộng 37 sinh viên nam và 28 sinh viên nữ trong
tổng số 65 sinh viên theo học. Trong đó sinh viên nam chiếm tỷ lệ
56.92% và sinh viên nữ chiếm 43.07% và tỷ lệ nam là cao nhất trong
tập dữ liệu này.
8
● Tập dữ liệu tiền lương :
○ Bảng phân bố tần số của tập dữ liệu lương :
■ Giá trị tiền lương nhỏ nhất = 15
■ Giá trị tiền lương lớn nhất = 146
STT
KHOẢNG
TẦN SỐ
1
1-20
1
2
21-40
8
3
41-60
10
4
61-80
12
5
81-100
11
6
101-120
9
7
121-140
10
8
141-160
4
Tổng
65
TẦN SUẤT
1
65
8
65
10
65
12
65
11
65
9
65
10
65
4
65
0.015
0.123
0.153
0.184
0.169
0.138
0.153
0.061
1
9
○ Biểu đồ phân bố tần số của tập dữ liệu tiền lương khởi điểm :
■ Source code python :
inp = "27 61 52 69 88 85 99 90 77 145 41 83 140 74 143 131 34 59 46
108 61 128 114 138 24 67 130 56 79 145 87 40 119 40 15 44 113 45
25 94 86 128 69 102 91 106 119 139 67 47 42 102 124 31 39 68 105
138 100 84 76 66 128 146 41"
data = inp.split(" ")
for idx,val in enumerate(data):
data[idx] = int(val)
10
import matplotlib
from matplotlib import pyplot as plt
plt.hist(data,bins=[0,21,41,61,81,101,121,141,160],rwidth=0.9)
plt.title("Biểu đồ phân bố tần số mức lương khởi điểm SV",fontsize = 14)
plt.ylabel("Số lần xuất hiện",fontsize=12)
plt.xlabel("Khoảng giá trị mức lương",fontsize=12)
plt.show()
○ Tính giá trị trung bình ( Mean )
■ Cơng thức tính giá trị trung bình :
Trung bình lương =
ươ + ươ + …. +ượ
ổ ố ượsinhê
++++++++++++++++++
++++++++++++++++++
++++++++++++++++++++
++++++++
=
=
84
○ Tính giá trị trung vị ( Median )
Vị trí trung vị =
ố ượsinhê
Nếu vị trí trung vị là số chẵn:
+ Sắp xếp lại dữ liệu theo tứ tự tăng dần
+ Lấy ra dữ liệu ở trị trí tương ứng.
Nếu vị trí trung bị là số lẻ :
+ Sắp xếp lại dữ liệu theo thứ tự tăng dần
+ Tính tổng 2 phần tử ở giữa
+ Chia tổng vừa rồi cho 2
11
=
. =32
Do 32 là số chẵn thế cho nên :
Mảng dữ liệu lương chúng ta được sắp xếp lại như sau :
15 24 25 27 31 34 39 40 40 41 41 42 44 45 46 47 52 56 59 61
61 66 67 67 68 69 69 74 76 77 79 83 84 85 86 87 88 90 91 94
99 100 102 102 105 106 108 113 114 119 119 124 128 128 128
130 131 138 138 139 140 143 145 145 146
Median = giá trị ở vị trí 32 = 84
○ Tìm giá trị xuất hiện nhiều nhất (Mode )
■ Giá Trị mode được định nghĩa là giá trị xuất hiện nhiều nhất trong tập
dữ liệu.
● Mode lương sinh viên = 128
○ Tính độ lệch chuẩn của bộ dữ liệu ( standard deviation )
■
Cơng thức tính độ lệch chuẩn :
●
●
Ố ƯỢ
Ê ∑= (ươ)
84
12
(−) +(−)+(−)+(−)+(−)+(−)+(−)+(−)
+(−)
+(−)
+(−)
+(−)
+(−)
+(−)
+(−)
+(−)
+(−)+(−)+(−)+(−)+(−)+(−)
+(−)+(−)+(−)
+(−) +(−)+(−)+(−)+(−)+(−)+(−)+(−)+(−)
+(−) +(−) +(−) +(−) +(−) +(−)
+(−) +(−) +(−)
+(−)+(−)+(−)+(−)
+(−)+(−)
+(−)
+(−)
+(−)
+(−)+(−)+(−)+(−)+(−)
+(−)+(−)+(−)
+(−)+(−)+(−)+(−)+(−)
= 36.91153665809023
● Kết luận :
○
Vậy trung bình tiền lương sinh viên khi ra trường khởi điểm của sinh
viên vừa ra trường sẽ là 8.400.000 VNĐ
Vậy giá trị trung vị của tiền lương sinh viên chính là 8.400.000
VNĐ
○ Vậy giá trị xuất hiện nhiều nhất trong tập dữ liệu là 12.800.000 VNĐ
○ Vậy độ lệch chuẩn của tập dữ liệu lương khởi điểm sinh viên là
36.91153665809023 VNĐ.
○
1.2
Câu 2 :
Sắp xếp tăng dần 3 số khác không, khác nhau và từ bên phải qua trong MSSV
của bạn. Gọi 3 số đó là abc với a
vấn. Tính xác suất để có
a) Có a sinh viên nam
b) Có ít nhất b sinh viên nữ
Ví dụ: Nếu mã số sinh viên của bạn là 64433550 thì a=3 b=4 c=5
MSSV : 52000216
Thì a = 1 , b = 2 , c = 6
13
○ Phát biểu lại đề bài như sau :
Chọn ngẫu nhiên 6 sinh viên để phỏng vấn. Tính xác suất để có :
a ) Có 1 sinh viên là nam.
b ) Có ít nhất 2 sinh viên là nữ.
Thông tin của tập dữ liệu :
65 sinh viên :
+ 37 sinh viên Nam
+ 28 sinh viên Nữ
GIẢI
Xác suất có 1 sinh viên là nam :
Gọi A là biến cố có « 1 sinh viên là nam khi lấy ra 6 sinh
viên để phỏng vấn ».
a.
Cơng thức tính xác suất :
P(A) =
()
()
Chọn ngẫu nhiên 1 sinh viên nam trong 37 SV nam của lớp :
Chọn ngẫu nhiên 5 sinh viên nữ trong 28 SV nữ của lớp :
×
P(A) =
= = 0.044024
Vậy xác suất để chọn ngẫu nhiên 6 sinh viên phỏng vấn có 1 người sinh
viên là nam là : 0.04424 .
14
b.
Xác suất có ít nhất 2 sinh viên là nữ :
Gọi B là biến cố có « có ít nhất 2 sinh viên là nữ ».
Cơng thức tính xác suất :
P(A) =
()
()
Chọn ngẫu nhiên 4 sinh viên nam trong 37 SV nam của lớp :
Chọn ngẫu nhiên 2 sinh viên nữ trong 28 SV nữ của lớp :
viên nam trong 37 SV nam của lớp :
sinh viên nữ trong 28 SV nữ của lớp :
viên nam trong 37 SV nam của lớp :
sinh viên nữ trong 28 SV nữ của lớp :
viên nam trong 37 SV nam của lớp :
sinh viên nữ trong 28 SV nữ của lớp :
viên nam trong 37 SV nam của lớp :
sinh viên nữ trong 28 SV nữ của lớp :
Chọn ngẫu nhiên 3 sinh
Chọn ngẫu nhiên 3
Chọn ngẫu nhiên 2 sinh
Chọn ngẫu nhiên 4
Chọn ngẫu nhiên 1 sinh
Chọn ngẫu nhiên 5
Chọn ngẫu nhiên 0 sinh
Chọn ngẫu nhiên 6
P(A) =
437 ×228 + 337 × 328 +237 × 428 + × + 037 ×628
= 0.8240908351
Vậy xác suất để chọn ngẫu nhiên 6 sinh viên phỏng vấn có ít nhất 2 người
sinh viên là nữ là : 0.8240908351.