XỬ LÝ THỐNG KÊ CÁC SỐ LiỆU TRONG HÓA PHÂN TÍCH
NỘI DUNG
•
•
•
•
•
Một số đại lượng đặc trưng trong thống kê
Sai số trong phân tích
Các bước tiến hành khi xử lý số liệu
So sánh các dãy số liệu
Chữ số có nghĩa
Phân tích dữ liệu
1. Mô tả dữ liệu
Mốt (Mode), Trung vị (Median), Giá trị trung bình
(Mean) và Độ lệch chuẩn (SD).
2. So sánh dữ liệu
Phép kiểm chứng T-test, Phép kiểm chứng Khi bình
phương 2 (chi square).
3. Liên hệ dữ liệu
Hệ số tương quan Pearson (r).
Mô tả dữ liệu
- Là bước đầu tiên để xử lý dữ liệu đã thu
thập.
- Đây là các dữ liệu thô và cần chuyển thành
thông tin có thể sử dụng được trước khi công
bố các kết quả nghiên cứu.
Mô tả dữ liệu:
Hai câu hỏi cần trả lời về kết quả NC được đánh giá
bằng điểm số là:
(1) Điểm số tốt đến mức độ nào?
(2) Điểm số phân bố rộng hay hẹp?
Về mặt thống kê, hai câu hỏi này nhằm tìm ra:
(1) Độ hướng tâm
(2) Độ phân tán
Mô tả dữ liệu:
Mô tả
Tham số thống kê
1. Độ hướng tâm
Mốt (Mode)
Trung vị (Median)
Giá trị trung bình (Mean)
2. Độ phân tán
Độ lệch chuẩn (SD)
Mô tả dữ liệu
* Mốt (Mode): là giá trị có tần suất xuất hiện nhiều
nhất trong một tập hợp điểm số.
* Trung vị (Median): là điểm nằm ở vị trí giữa trong
tập hợp điểm số xếp theo thứ tự.
* Giá trị trung bình (Mean): là giá trị trung bình
cộng của các điểm số.
* Độ lệch chuẩn (SD): cho biết mức độ phân tán của
các điểm số xung quanh giá trị trung bình.
Cách tính giá trị trong phần mềm Excel
Mốt
=Mode (number 1, number 2… number n)
Trung vị
=Median (number 1, number 2… number n)
Giá trị trung
bình
Độ lệch
Chuẩn
=Average (number 1, number 2… number n)
=Stdev (number 1, number 2… number n)
Ví dụ:
Nhóm thực nghiệm Nhóm đối chứng
Kết quả điểm kiểm
tra ngôn ngữ của:
• Nhóm thực nghiệm
• Nhóm đối chứng
Trung vị
Giá trị trung bình
Độ lệch chuẩn
9
1. Một số đại lượng đặc trưng trong thống kê
1. Một số đại lượng đặc trưng trong thống kê
• Các đại lượng hướng tâm: trung bình,
trung vị, Mod, phân vị, trung bình
khoảng.
• Các đại lượng biến thiên: biên độ,
khoảng tứ vị phân, phương sai, độ lệch
chuẩn, hệ số biến thiên
• Dạng đồ thị: đối xứng, nhọn, sử dụng
hộp và phần đuôi.
Các đại lượng
Các đại lượng
Hướng tâm
Trung
Mod
bình Trung vị
trung bình
khoảng
Biến thiên
Phân vị
Hệ số biến thiên
Biên độ
Phương sai
Độ lệch chuẩn
Các đại lượng hướng tâm
Các đại lượng
hướng tâm
Trung bình
Trung vị
Mod
n
xi
i 1
n
Trung
bình
khoảng
Trung bình
•Là trung bình số học của số liệu:
x
Sample Mean
n
xi
i 1
n
xi x2 xn
n
•Hầu hết là hướng tâm
• Bị ảnh hưởng bởi yếu tố ngoại lai
0 1 2 3 4 5 6 7 8 9 10
Mean = 5
0 1 2 3 4 5 6 7 8 9 10 12 14
Mean = 6
Đặc trưng chính của trung bình:
1.
2.
3.
4.
Yêu cầu một khoảng giá trị xác định.
Sử dụng tất cả các giá trị.
Là duy nhất.
Tổng độ sai lệch tính từ trung bình đến
các giá trị bằng 0.
Minh họa tính chất 4:
xét các số liệu có giá trị: 3, 8, 4 và có
trung bình là 5.
( X X ) (3 5) (8 5) (4 5) 0
Bài toán
Tính trung bình độ tuổi của học sinh?
Học sinh
Tần xuất
0 đến 10
3
10 đến 20
8
20 đến 30
16
30 đến 40
10
40 đến 50
9
50 đến 60
4
Tổng
50
Trung bình của một nhóm số liệu
Trung bình của một mẫu số liệu được
cho ở dạng bảng phân phối tần xuất
được tính như sau:
Xf
X
n
Trong đó: f là tần số
Trung vị
•Là một đại lượng hướng tâm quan trọng
•Trong một mảng có thứ tự, trung vị là số “ở
giữa”:
•Nếu n chẵn, trung vị là số ở chính giữa.
•Nếu n lẻ, trung vị là trung bình của hai số nằm
chính giữa.
•Không bị ảnh hưởng bởi giá trị ngoại lai
0 1 2 3 4 5 6 7 8 9 10
Median = 5
0 1 2 3 4 5 6 7 8 9 10 12 14
Median = 5
Mod
•
Là một đại lượng hướng tâm
Là giá trị xuất hiện nhiều nhất
Không bị ảnh hưởng bởi giá trị ngoại lai
Có thể có hoặc không có Mod
Có thể có một vài Mod
•
•
•
•
• Được sử dụng với số liệu hoặc biến định tính
0 1 2 3 4 5 6
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Mode = 9
No Mode
Trung bình khoảng
•Là một đại lượng hướng tâm
•Là trung bình của giá trị lớn nhất và nhỏ
nhất quan sát được.
Midrange
x l arg est x smallest
2
•Bị ảnh hưởng bởi giá trị ngoại lai
0 1 2 3 4 5 6 7 8 9 10
Midrange = 5
0 1 2 3 4 5 6 7 8 9 10
Midrange = 5
Điểm phân vị
•
•
Không là đại lượng hướng tâm
Chia khoảng số liệu có thứ tự làm 4 phần bằng nhau
25%
25%
Q1
Q2
•Vị trí điểm phân vị thứ i:
Dãy số liệu:
Vị trí Q1
25%
Qi
25%
Q3
i(n+1)
4
11 12 13 16 16 17 18 21 22
=
1•(9 + 1)
4
= 2.50
Q1 =12.5
Các đại lượng biến thiên
x i x
s
n 1
2
2
Variation
Phương sai
Biên độ
Phương sai
tổng thê
Phương
sai mẫu
Khoảng tứ vị phân
Hệ số biến thiên
Độ lệch chuẩn
Độ lệch chuẩn
tổng thể
Độ lệch
chuẩn mẫu
S
CV
X
100%
Biên độ
• là một đại lượng biến thiên
• là sự sai khác giữa giá trị lớn nhất và nhỏ
nhất của quan sát:
Range =
x La rgest x Smallest
• không cần biết phân phối:
Range = 12 - 7 = 5
Range = 12 - 7 = 5
7
8
9
10
11
12
7
8
9
10
11
12
Khoảng tứ vị phân
•
Là đại lượng biến thiên
•
Cho biết độ co giãn trung bình:
Spread in the Middle 50%
•
Công thức tính: là hiệu của điểm phân vị thứ 3 và thứ 1
Interquartile Range = Q 3 Q 1
Data in Ordered Array: 11 12 13 16 16 17
Q 3 Q 1 = 17.5 - 12.5 = 5
•Không bị ảnh hưởng bởi giá trị ngoại lai
17 18 21