Phân tích dữ liệu thống kê
v 1.1 - 04/2013
Lê Viết Mẫn -
Wednesday, May 8, 13
1
Phân tích dữ liệu thống kê
Nội dung
1. Thống kê mô tả
2. Bảng tần suất
3. Xếp hạng và phần trăm theo nhóm
Lê Viết Mẫn -
Wednesday, May 8, 13
2
Phân tích dữ liệu thống kê
Thống kê mô tả
Descriptive Statistics
Lê Viết Mẫn -
Wednesday, May 8, 13
3
Phân tích dữ liệu thống kê
Khái niệm cơ bản (1/2)
•
Tổng thể (Populations) - toàn bộ các quan sát có thể có của
một biến với một phân bố xác suất xác định. Số phần tử của
tổng thế ký hiệu là N.
•
Mẫu (Sample) - một bộ phận của tổng thể được quan sát nhờ
thì nghiệm hay điều tra để nghiên cứu một tổng thế chưa biết
quy luật phân bố xác suất. Mẫu gồm hữu hạn n phần tử. Số n
được gọi là cỡ mẫu.
•
Tần số (Frequency) - Gọi xi là các giá trị quan sát được của
biến ngẫu nhiên X (i = 1, 2,...n). Số lần xuất hiện của giá trị xi
trong khối dữ liệu được gọi là tần số của xi và được ký hiệu là fi.
Ta có
l
∑ fi =n
i =1
Lê Viết Mẫn -
Wednesday, May 8, 13
4
Phân tích dữ liệu thống kê
Khái niệm cơ bản (2/2)
•
•
•
Tần số tích luỹ (Cumulative Frequency) - Tần số tích luỹ của
một giá trị xi là tổng số tần số của giá trị này với tần số của các
giá trị nhỏ hơn xi.
Số định tâm (Measure of Central Tendency) - Số định tâm của
nhóm dữ liệu là số đại diện cho tất cả các dữ liệu đó, nó thể
hiện vai trò trung tâm của nhóm dữ liệu.
• Số trung bình (Mean)
• Số trung vị (Median)
• Trung bình trọng số (Weighted mean)
• Số yếu vị (Mode)
Số phân tán (Measure of Dispersion) - Số phần tán dùng để
thể hiện sự khác biệt giữa các số trong khối dữ liệu đối với số
định tâm
• Hàng số (Khoảng) (Range)
• Phương sai (Variance)
• Độ lệch chuẩn (Standard deviation)
Lê Viết Mẫn -
Wednesday, May 8, 13
5
Phân tích dữ liệu thống kê
Thông số thống kê (1/4)
Thông số
Hàm Excel
Giải thích
Số trung bình
AVERAGE(number1, number2,...) Tính trung bình của các tham số
Số trung vị
MEDIAN(number1, number2,...)
Là số mà phân nửa giá trị quan
sát được của khối dữ liệu nhỏ hơn
nó và phân nữa còn lại lớn hơn nó
Số yếu vị
MODE(number1, number2,...)
Là số có tần số lớn nhất
Phương sai mẫu
VAR(number1, number2,...)
Là số trung bình số học của bình
phương các độ lệch giữa các
lượng biến và số trung bình số
học của các lượng biến đó
của nó
Lê Viết Mẫn -
Wednesday, May 8, 13
6
Phân tích dữ liệu thống kê
Thông số thống kê (2/4)
Thông số
Hàm Excel
Giải thích
Độ lệch chuẩn
STDEV(number1, number2,...)
Là căn bậc 2 của phương sai
Hàng số
Range = XMax - XMin
Là sai biệt giữa lượng biến lớn
nhất và lượng biến nhỏ nhất của
dãy số
Giá trị nhỏ nhất
MIN(number1, number2,...)
Giá trị nhỏ nhất của lượng biến
Giá trị lớn nhất
MAX(number1, number2,...)
Giá trị lớn nhất của lượng biến
Số phần tử
COUNT(value1, value2,...)
Số phần tử trong mẫu
Thứ hạng
RANK(number, ref, order)
Trả về thứ hạng của một số trong
danh sách
order=0 danh sách giảm dần
order≠0 danh sách tăng dần
Lê Viết Mẫn -
Wednesday, May 8, 13
7
Phân tích dữ liệu thống kê
Thông số thống kê (3/4)
Thông số
Hàm Excel
Giải thích
Độ bất đối xứng
SKEW(number1, number2,...)
Độ bất đối xứng được tính bằng
cách lấy moment thứ ba của trị
trung bình chia cho độ lệch chuẩn
luỹ thừa ba
Độ nhọn
KURT(number1, number2,...)
Độ nhọn được tính bằng cách lấy
moment thứ tư của trị trung bình
chia cho độ lệch chuẩn luỹ thừa
bốn
Tìm giá trị nhỏ thứ SMALL(array, k)
SMALL(array, 1) → Số Min
k trong mẫu
Hàm trả về lượng biến nhỏ thứ k
trong mẫu có n lượng biến
Tìm giá trị lớn thứ LARGE(array, k)
LARGE(array, 1) → Số Max
k trong mẫu
Hàm trả về lượng biến lớn thứ k
trong mẫu có n lượng biến
SMALL(array, n) → Số Max
LARGE(array, n) → Số Min
Lê Viết Mẫn -
Wednesday, May 8, 13
8
Phân tích dữ liệu thống kê
Thông số thống kê (4/4)
Thông số
Hàm Excel
Giải thích
Tần số xuất hiện
của các giá trị
trong mẫu
FREQUENCY(data_array,
bins_array)
Nhóm theo phần
trăm
PERCENTILE(array, k)
Xếp hạng theo
phần trăm
PERCENTRANK(array, x,
significance)
Data_array : tập số liệu
Bins_array : các nhóm trong tập số liệu
Trả về nhóm tính theo phần trăm
của giá trị trong tập số liệu
array : tập số liệu
k : nhóm phần trăm (0..1)
array : tập số liệu
x : giá trị cần biết hạng
significance : số lẻ cần thiết
Lê Viết Mẫn -
Wednesday, May 8, 13
Trả về tần số xuất hiện các biến
cố trong các khoảng cho trước
9
Trả về hạng của một giá trị trong
tập số liệu theo phần trăm trong
tập số liệu
Phân tích dữ liệu thống kê
Descriptive Statistics
Vùng địa chỉ dữ liệu cần
thống kê
Bấm OK để thực hiện
tính toán
Vùng địa chỉ dữ liệu được
chọn bao gồm cả nhãn ?
Dữ liệu theo hàng hay cột
Nơi chứa kết quả tính được
Phải chọn ít nhất 1 trong
4 mục này
Độ tin cậy của giá trị trung
bình
Trị quan sát lớn/nhỏ thứ k
Lê Viết Mẫn -
Wednesday, May 8, 13
10
Phân tích dữ liệu thống kê
Ví dụ
Lê Viết Mẫn -
Wednesday, May 8, 13
11
Phân tích dữ liệu thống kê
Ví dụ
Lê Viết Mẫn -
Wednesday, May 8, 13
12
Phân tích dữ liệu thống kê
Bảng tần suất
Histogram
Lê Viết Mẫn -
Wednesday, May 8, 13
13
Phân tích dữ liệu thống kê
Histogram
•
•
Mô tả số lần xuất hiện của một mẫu thông tin trong một tập dữ liệu
Mỗi mẫu thông tin gọi là bin, mỗi lần số bin lặp lại được hiểu là tần suất xuất
hiện của nó
Vùng địa chỉ dữ liệu cần
thống kê
Bấm OK để thực hiện
tính toán
Vùng địa chỉ dữ liệu được
chọn bao gồm cả nhãn ?
Vùng địa chỉ các bin
Nơi chứa kết quả tính được
Tính phần trăm tích luỹ
Thêm một bảng kết quả
trong đó, kết quả phần trăm
tích luỹ sẽ được sắp xếp
giảm dần
Thêm đồ thị tần suất
Lê Viết Mẫn -
Wednesday, May 8, 13
14
Phân tích dữ liệu thống kê
Ví dụ
Lê Viết Mẫn -
Wednesday, May 8, 13
15
Phân tích dữ liệu thống kê
Ví dụ
Lê Viết Mẫn -
Wednesday, May 8, 13
16
Phân tích dữ liệu thống kê
Xếp hạng và phần trăm
theo nhóm
Rank and Percentile
Lê Viết Mẫn -
Wednesday, May 8, 13
17
Phân tích dữ liệu thống kê
Rank and Percentile
Vùng địa chỉ dữ liệu cần
thống kê
Bấm OK để thực hiện
tính toán
Dữ liệu theo hàng hay cột
Vùng địa chỉ dữ liệu
được chọn bao gồm cả
nhãn ?
Nơi chứa kết quả tính được
Lê Viết Mẫn -
Wednesday, May 8, 13
18
Phân tích dữ liệu thống kê
Ví dụ
Lê Viết Mẫn -
Wednesday, May 8, 13
19
Phân tích dữ liệu thống kê
Ví dụ
Lê Viết Mẫn -
Wednesday, May 8, 13
20
Phân tích dữ liệu thống kê
Cảm ơn sự chú ý
Câu hỏi ?
Lê Viết Mẫn -
Wednesday, May 8, 13
21
Phân tích dữ liệu thống kê