Tải bản đầy đủ (.pdf) (24 trang)

BÀI THI CUỐI KÌ MÔN XÁC SUẤT THỐNG KÊ CNTT PROBABILITY STATISTICS FINAL EXAMINATION

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (502.46 KB, 24 trang )

TỔNG LIÊN ĐỒN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG
KHOA CƠNG NGHỆ THƠNG TIN

BÀI THI CUỐI KÌ MƠN XÁC SUẤT THỐNG KÊ CNTT

PROBABILITY STATISTICS
FINAL EXAMINATION

Người hướng dẫn: ThS NGUYỄN THỊ HUỲNH TRÂM
Người thực hiện: LÂM QUỐC HUY – 52000216
Lớp

: 20050301
Khố

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022

: 24


TỔNG LIÊN ĐỒN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG
KHOA CƠNG NGHỆ THƠNG TIN

BÀI THI CUỐI KÌ MƠN XÁC SUẤT THỐNG KÊ CNTT

PROBABILITY STATISTICS
FINAL EXAMINATION

Người hướng dẫn: ThS NGUYỄN THỊ HUỲNH TRÂM


Người thực hiện: LÂM QUỐC HUY – 52000216
Lớp

: 20050301
Khố

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022

: 24


1

LỜI CẢM ƠN
Em là Lâm Quốc Huy thay mặt mọi người viết lên những dịng tri ân này. Những
lời nói cao đẹp xin gửi đến Cơ đã giúp đỡ nhóm chúng em nói riêng và cả lớp nói chung
trong suốt quá trình học tập và làm bài, thầy đã giúp đỡ rất nhiều trong cơng tác định
hình về góc nhìn thực tế của bài báo cáo về đề tài. Những khía cạnh và cơng việc thực
tế mà có lẽ chúng em sẽ khơng nêu ra được nếu khơng có đầy đủ sự trải nghiệm và thấu
hiểu quy trình vận hành. Đồng thời, chúng em cũng muốn gửi lời cảm ơn chân thành đến
tập thể khoa CNTT và toàn thể cán bộ công nhân viên chức trường Đại Học Tôn Đức
Thắng. Những sự cống hiến đóng góp thầm lặng của những con người anh hùng khơng
tên, bỏ đi lợi ích của mình góp phần tạo nên giá trị to lớn của cả một thể hoàn chỉnh. Xin
chân thành cảm ơn tất cả.


2

ĐỒ ÁN ĐƯỢC HỒN THÀNH
TẠI TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG

Tôi xin cam đoan đây là sản phẩm đồ án của riêng tôi và được sự hướng dẫn của
ThS Nguyễn Thị Huỳnh Trâm; Các nội dung nghiên cứu, kết quả trong đề tài này là
trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Những số liệu trong
các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập
từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo.
Ngồi ra, trong đồ án cịn sử dụng một số nhận xét, đánh giá cũng như số liệu của
các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc.
Nếu phát hiện có bất kỳ sự gian lận nào tơi xin hồn tồn chịu trách nhiệm
về nội dung đồ án của mình. Trường đại học Tôn Đức Thắng không liên quan đến
những vi phạm tác quyền, bản quyền do tôi gây ra trong q trình thực hiện (nếu có).
TP. Hồ Chí Minh, ngày 12 tháng 06 năm 2022
Tác giả

Lâm Quốc Huy


3

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN
Phần xác nhận của GV hướng dẫn

_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
Tp. Hồ Chí Minh, ngày


tháng năm

Nguyễn Thị Huỳnh Trâm

Phần đánh giá của GV chấm bài

_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
Tp. Hồ Chí Minh, ngày

tháng năm

Nguyễn Thị Huỳnh Trâm


4

TĨM TẮT
Trình bày tóm tắt vấn đề nghiên cứu, các hướng tiếp cận, cách giải quyết vấn đề
và một số kết quả đạt được, những phát hiện cơ bản trong vòng 1 -2 trang.


1

MỤC LỤC

LỜI CẢM ƠN

i

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN

i

TĨM TẮT

i

MỤC LỤC

1

DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ

1

CHƯƠNG 1 – GIẢ SỬ TẬP DỮ LIỆU THỨ NHẤT

1

1.1 Câu 1

1

1.2 Câu 2


1

1.2 Câu 3

1

1.2 Câu 4

1

1.2 Câu 5

1

1.2 Câu 6

1

1.2 Câu 7

1

1.2 Câu 8

1

CHƯƠNG 2 – GIẢ SỬ TẬP DỮ LIỆU THỨ HAI
2.1 Câu 9
TÀI LIỆU THAM KHẢO


1
1
1


2

DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT
CÁC KÝ HIỆU
M

Giới tính nam

W

Giới tính nữ

%

Đơn vị phần tram.

S

Độ lệch chuẩn.

CÁC THUẬT NGỮ
Mean

Giá trị trung bình


Median

Giá trị trung tâm hay giá trị chính giữa.

Mode

Giá trị xuất hiện nhiều nhất.

Standard deviation

Độ lệch chuẩn

CÁC CHỮ VIẾT TẮT
SV

Sinh viên


3

DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ
DANH MỤC HÌNH
Hình 2.1: Kiến trúc FTP

1

DANH MỤC BẢNG
Bảng 3.1 Ví dụ cho chèn bảng

1



4

CHƯƠNG 1 – GIẢ SỬ TẬP DỮ LIỆU THỨ NHẤT
➢ ĐỀ BÀI :

Khảo sát mức lương khởi điểm của sinh viên vừa ra trường của một lớp học
gồm 65 sinh viên. Kết quả được đánh số thứ tự như bảng sau.
● Giới tính :
W là nữ.
M là nam.

STT

1

2

3

5

6

7

8

Giới tính


W

M

M W M

M

W

M M W

Tiền lương

27

61

52 69 88

85

99

90 77 145 41 83 140 74

STT

18


19

20 21 22

23

24

25 26 27 28 29

30

31

32

33

34

Giới tính

W

M

M

W


W

M M W

W

M

M

W

W

Tiền lương

59

46 108 61 128 114 138 24 67 130 56 79 145 87

40 119 40

STT

35

36

37 38 39


40

41

42 43 44 45 46

47

48

49

50

51

Giới tính

M

M

W M M

M

W

W W W


W

M

M

M

W

Tiền lương

15

44 113 45 25

94

86 128 69 102 91 106 119 139 67

47

42

STT

52

53


54 55 56

57

58

59 60 61 62 63

64

65

Giới tính

W

W

M

W

W

W M M

W

M


Tiền lương

4

M W

M M

9

10 11 12
M W

M M

M M

M W

13

14

15

16

17


M

W

M

M

M

102 124 31 39 68 105 138 100 84 76 66 128 146 41

143 131 34


5

1.1 Câu 1 :
➢ Bảng phân bố tần số cho giới tính sinh viên bảng dữ liệu :
● Giới tính :
Số lượng nam giới trong lớp là : 37 M
Số lượng nữ giới trong lớp là : 28 W
Tổng số lượng sinh viên là : 65 WM
Công thức tần suất:
𝑇ầ𝑛 𝑠𝑢ấ𝑡 =

𝑆ố 𝑙ượ𝑛𝑔 đạ𝑖 𝑙ượ𝑛𝑔
𝑇ổ𝑛𝑔 𝑠ố 𝑙ượ𝑛𝑔 𝑐ủ𝑎 𝑡ậ𝑝 𝑑ữ 𝑙𝑖ệ𝑢

Tần suất nam giới =


Tần số nữ giới =

28
65

37
65

× 100 =

× 100 =

740

560
13

13

= 56.92%

= 43.07%

GIỚI TÍNH

TẦN SỐ

TẦN SUẤT


M

37

56.92%

W

28

43.07%

Số mode trong hệ quy chiếu giới tính = 37 M


6

● Biểu đồ phân bố tần số giới tính :

● Source code python :

txt = "W

M

M

W

M


M

W

M

M

W

M

W

M

W

M

M

M

W

M

M


M

W

W

W

M

M

W

M

M

W

M

M

W

W

M


M

W

M

M

M

W

W

W

W

M

M

W

M

M

M


W

W

W

M

M

M

W

W

W

M

M

M

W

W

M"


data = txt.split("

")

#1:W
#0:M


7

import matplotlib
from matplotlib import pyplot as plt

for idx,val in enumerate(data):
if val == 'W':
data[idx] = 1
elif val == 'M':
data[idx] = 0

plt.hist(data,bins = 3)
plt.ylim([0,65])
plt.xticks([0.15,0.84],['Nam','Nữ'])
plt.title("Biểu đồ phân bố tần số giới tính",fontsize=14)
plt.ylabel("Số lượng người nam hoặc nữ",fontsize=12)
plt.xlabel("Giới tính",fontsize = 12)
plt.show()

● Kết luận :
■ Vậy chúng ta có tổng cộng 37 sinh viên nam và 28 sinh viên nữ trong

tổng số 65 sinh viên theo học. Trong đó sinh viên nam chiếm tỷ lệ
56.92% và sinh viên nữ chiếm 43.07% và tỷ lệ nam là cao nhất trong
tập dữ liệu này.


8

● Tập dữ liệu tiền lương :
○ Bảng phân bố tần số của tập dữ liệu lương :
■ Giá trị tiền lương nhỏ nhất = 15
■ Giá trị tiền lương lớn nhất = 146
STT

KHOẢNG

TẦN SỐ

1

1-20

1

2

21-40

8

3


41-60

10

4

61-80

12

5

81-100

11

6

101-120

9

7

121-140

10

8


141-160

4

Tổng

65

TẦN SUẤT
1
65
8
65
10
65
12
65
11
65
9
65
10
65
4
65

0.015
0.123
0.153

0.184
0.169
0.138
0.153
0.061
1


9

○ Biểu đồ phân bố tần số của tập dữ liệu tiền lương khởi điểm :

■ Source code python :
inp = "27 61 52 69 88 85 99 90 77 145 41 83 140 74 143 131 34 59 46
108 61 128 114 138 24 67 130 56 79 145 87 40 119 40 15 44 113 45
25 94 86 128 69 102 91 106 119 139 67 47 42 102 124 31 39 68 105
138 100 84 76 66 128 146 41"

data = inp.split(" ")

for idx,val in enumerate(data):
data[idx] = int(val)


10

import matplotlib
from matplotlib import pyplot as plt
plt.hist(data,bins=[0,21,41,61,81,101,121,141,160],rwidth=0.9)
plt.title("Biểu đồ phân bố tần số mức lương khởi điểm SV",fontsize = 14)


plt.ylabel("Số lần xuất hiện",fontsize=12)
plt.xlabel("Khoảng giá trị mức lương",fontsize=12)
plt.show()
○ Tính giá trị trung bình ( Mean )
■ Cơng thức tính giá trị trung bình :
Trung bình lương =

=

𝑙ươ𝑛𝑔1 + 𝑙ươ𝑛𝑔2 + …. +𝑙ượ𝑛𝑔𝑁
𝑡ổ𝑛𝑔 𝑠ố 𝑙ượ𝑛𝑔 sinh 𝑣𝑖ê𝑛

27+61+52+69+88+85+99+90+77+145+41+83+140+74+143+131+34+59+46
+108+61+128+114+138+24+67+130+56+79+145+87+40+119+40+15+44+113
+45+25+94+86+128+69+102+91+106+119+139+67+47+42+102+124+31+39+68+105
+138+100+84+76+66+128+146+41
65

=

5460
65

= 84

○ Tính giá trị trung vị ( Median )
Vị trí trung vị =

𝑆ố 𝑙ượ𝑛𝑔 sinh 𝑣𝑖ê𝑛

2

Nếu vị trí trung vị là số chẵn:
+ Sắp xếp lại dữ liệu theo tứ tự tăng dần
+ Lấy ra dữ liệu ở trị trí tương ứng.
Nếu vị trí trung bị là số lẻ :
+ Sắp xếp lại dữ liệu theo thứ tự tăng dần
+ Tính tổng 2 phần tử ở giữa
+ Chia tổng vừa rồi cho 2


11

=

𝟔𝟓
𝟐

= 𝟑𝟐. 𝟓 =32

Do 32 là số chẵn thế cho nên :
Mảng dữ liệu lương chúng ta được sắp xếp lại như sau :
15 24 25 27 31 34 39 40 40 41 41 42 44 45 46 47 52 56 59 61
61 66 67 67 68 69 69 74 76 77 79 83 84 85 86 87 88 90 91 94
99 100 102 102 105 106 108 113 114 119 119 124 128 128 128
130 131 138 138 139 140 143 145 145 146

Median = giá trị ở vị trí 32 = 84

○ Tìm giá trị xuất hiện nhiều nhất (Mode )

■ Giá Trị mode được định nghĩa là giá trị xuất hiện nhiều nhất trong tập
dữ liệu.
● Mode lương sinh viên = 128

○ Tính độ lệch chuẩn của bộ dữ liệu ( standard deviation )


Cơng thức tính độ lệch chuẩn :
𝟏

𝟐
● 𝑺 = √𝑺Ố 𝑳ƯỢ𝑵𝑮 𝑺𝑰𝑵𝑯 𝑽𝑰Ê𝑵 ∑𝟔𝟓
𝒊=𝟏(𝒍ươ𝒏𝒈𝒊 − 𝑴𝒆𝒂𝒏)

● 𝑀𝑒𝑎𝑛 = 84


12

(27−84)2 +(61−84)2 +(52−84)2 +(69−84)2 +(88−84)2 +(85−84)2 +(99−84)2 +(90−84)2
+(77−84)2 +(145−84)2 +(41−84)2 +(83−84)2 +(140−84)2 +(74−84)2 +(143−84)2 +(131−84)2
+(34−84)2 +(59−84)2 +(46−84)2 +(108−84)2 +(61−84)2 +(128−84)2 +(114−84)2 +(138−84)2 +(24−84)2
+(67−84)2 +(130−84)2 +(56−84)2 +(79−84)2 +(145−84)2 +(87−84)2 +(40−84)2 +(119−84)2 +(40−84)2
+(15−84)2 +(44−84)2 +(113−84)2 +(45−84)2 +(25−84)2 +(94−84)2 +(86−84)2 +(128−84)2 +(69−84)2
+(102−84)2 +(91−84)2 +(106−84)2 +(119−84)2 +(139−84)2 +(67−84)2 +(47−84)2 +(42−84)2 +(102−84)2
+(124−84)2 +(31−84)2 +(39−84)2 +(68−84)2 +(105−84)2 +(138−84)2 +(100−84)2 +(84−84)2
+(76−84)2 +(66−84)2 +(128−84)2 +(146−84)2 +(41−84)2




65

= 36.91153665809023
● Kết luận :



Vậy trung bình tiền lương sinh viên khi ra trường khởi điểm của sinh
viên vừa ra trường sẽ là 8.400.000 VNĐ

Vậy giá trị trung vị của tiền lương sinh viên chính là 8.400.000
VNĐ
○ Vậy giá trị xuất hiện nhiều nhất trong tập dữ liệu là 12.800.000 VNĐ


○ Vậy độ lệch chuẩn của tập dữ liệu lương khởi điểm sinh viên là
36.91153665809023 VNĐ.

1.2 Câu 2 :
Sắp xếp tăng dần 3 số khác không, khác nhau và từ bên phải qua trong MSSV
của bạn. Gọi 3 số đó là abc với avấn. Tính xác suất để có
a) Có a sinh viên nam
b) Có ít nhất b sinh viên nữ
Ví dụ: Nếu mã số sinh viên của bạn là 64433550 thì a=3 b=4 c=5
MSSV : 52000216
Thì a = 1 , b = 2 , c = 6


13


○ Phát biểu lại đề bài như sau :
Chọn ngẫu nhiên 6 sinh viên để phỏng vấn. Tính xác suất để có :
a ) Có 1 sinh viên là nam.
b ) Có ít nhất 2 sinh viên là nữ.
Thơng tin của tập dữ liệu :
65 sinh viên :
+ 37 sinh viên Nam
+ 28 sinh viên Nữ

GIẢI
a. Xác suất có 1 sinh viên là nam :
Gọi A là biến cố có « 1 sinh viên là nam khi lấy ra 6 sinh
viên để phỏng vấn ».
Cơng thức tính xác suất :
P(A) =

𝑛(𝐴)
𝑛(Ω)

1
Chọn ngẫu nhiên 1 sinh viên nam trong 37 SV nam của lớp : 𝐶37
5
Chọn ngẫu nhiên 5 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28

P(A) =

1 ×𝐶 5
𝐶37
28

6
𝐶65

=

333
7564

= 0.044024

Vậy xác suất để chọn ngẫu nhiên 6 sinh viên phỏng vấn có 1 người sinh
viên là nam là : 0.04424.


14

b. Xác suất có ít nhất 2 sinh viên là nữ :
Gọi B là biến cố có « có ít nhất 2 sinh viên là nữ ».
Cơng thức tính xác suất :
P(A) =

𝑛(𝐵)
𝑛(Ω)

4
Chọn ngẫu nhiên 4 sinh viên nam trong 37 SV nam của lớp : 𝐶37
2
Chọn ngẫu nhiên 2 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28
3
Chọn ngẫu nhiên 3 sinh viên nam trong 37 SV nam của lớp : 𝐶37

3
Chọn ngẫu nhiên 3 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28
2
Chọn ngẫu nhiên 2 sinh viên nam trong 37 SV nam của lớp : 𝐶37
4
Chọn ngẫu nhiên 4 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28
1
Chọn ngẫu nhiên 1 sinh viên nam trong 37 SV nam của lớp : 𝐶37
5
Chọn ngẫu nhiên 5 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28
0
Chọn ngẫu nhiên 0 sinh viên nam trong 37 SV nam của lớp : 𝐶37
6
Chọn ngẫu nhiên 6 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28

P(A)

1 ×𝐶 5 + 𝐶0 ×𝐶6
𝐶437 ×𝐶228 + 𝐶337 × 𝐶328 +𝐶237 × 𝐶428 + 𝐶37
37
28
28
=
6
𝐶65

= 0.8240908351
Vậy xác suất để chọn ngẫu nhiên 6 sinh viên phỏng vấn có ít nhất 2 người
sinh viên là nữ là : 0.8240908351.




×