Tải bản đầy đủ (.pdf) (21 trang)

Bài giảng Tin học ứng dụng nâng cao: Phân tích dữ liệu thống kê - Lê Viết Mẫn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.74 MB, 21 trang )

Phân tích dữ liệu thống kê

v 1.1 - 04/2013

Lê Viết Mẫn -
Wednesday, May 8, 13

1

Phân tích dữ liệu thống kê


Nội dung

1. Thống kê mô tả
2. Bảng tần suất
3. Xếp hạng và phần trăm theo nhóm

Lê Viết Mẫn -
Wednesday, May 8, 13

2

Phân tích dữ liệu thống kê


Thống kê mô tả
Descriptive Statistics

Lê Viết Mẫn -
Wednesday, May 8, 13



3

Phân tích dữ liệu thống kê


Khái niệm cơ bản (1/2)


Tổng thể (Populations) - toàn bộ các quan sát có thể có của
một biến với một phân bố xác suất xác định. Số phần tử của
tổng thế ký hiệu là N.



Mẫu (Sample) - một bộ phận của tổng thể được quan sát nhờ
thì nghiệm hay điều tra để nghiên cứu một tổng thế chưa biết
quy luật phân bố xác suất. Mẫu gồm hữu hạn n phần tử. Số n
được gọi là cỡ mẫu.



Tần số (Frequency) - Gọi xi là các giá trị quan sát được của
biến ngẫu nhiên X (i = 1, 2,...n). Số lần xuất hiện của giá trị xi
trong khối dữ liệu được gọi là tần số của xi và được ký hiệu là fi.
Ta có
l
∑ fi =n
i =1


Lê Viết Mẫn -
Wednesday, May 8, 13

4

Phân tích dữ liệu thống kê


Khái niệm cơ bản (2/2)





Tần số tích luỹ (Cumulative Frequency) - Tần số tích luỹ của
một giá trị xi là tổng số tần số của giá trị này với tần số của các
giá trị nhỏ hơn xi.
Số định tâm (Measure of Central Tendency) - Số định tâm của
nhóm dữ liệu là số đại diện cho tất cả các dữ liệu đó, nó thể
hiện vai trò trung tâm của nhóm dữ liệu.
• Số trung bình (Mean)
• Số trung vị (Median)
• Trung bình trọng số (Weighted mean)
• Số yếu vị (Mode)
Số phân tán (Measure of Dispersion) - Số phần tán dùng để
thể hiện sự khác biệt giữa các số trong khối dữ liệu đối với số
định tâm
• Hàng số (Khoảng) (Range)
• Phương sai (Variance)
• Độ lệch chuẩn (Standard deviation)

Lê Viết Mẫn -

Wednesday, May 8, 13

5

Phân tích dữ liệu thống kê


Thông số thống kê (1/4)
Thông số

Hàm Excel

Giải thích

Số trung bình

AVERAGE(number1, number2,...) Tính trung bình của các tham số

Số trung vị

MEDIAN(number1, number2,...)

Là số mà phân nửa giá trị quan
sát được của khối dữ liệu nhỏ hơn
nó và phân nữa còn lại lớn hơn nó

Số yếu vị


MODE(number1, number2,...)

Là số có tần số lớn nhất

Phương sai mẫu

VAR(number1, number2,...)

Là số trung bình số học của bình
phương các độ lệch giữa các
lượng biến và số trung bình số
học của các lượng biến đó

của nó

Lê Viết Mẫn -
Wednesday, May 8, 13

6

Phân tích dữ liệu thống kê


Thông số thống kê (2/4)
Thông số

Hàm Excel

Giải thích


Độ lệch chuẩn

STDEV(number1, number2,...)

Là căn bậc 2 của phương sai

Hàng số

Range = XMax - XMin

Là sai biệt giữa lượng biến lớn
nhất và lượng biến nhỏ nhất của
dãy số

Giá trị nhỏ nhất

MIN(number1, number2,...)

Giá trị nhỏ nhất của lượng biến

Giá trị lớn nhất

MAX(number1, number2,...)

Giá trị lớn nhất của lượng biến

Số phần tử

COUNT(value1, value2,...)


Số phần tử trong mẫu

Thứ hạng

RANK(number, ref, order)

Trả về thứ hạng của một số trong
danh sách

order=0 danh sách giảm dần
order≠0 danh sách tăng dần
Lê Viết Mẫn -
Wednesday, May 8, 13

7

Phân tích dữ liệu thống kê


Thông số thống kê (3/4)
Thông số

Hàm Excel

Giải thích

Độ bất đối xứng

SKEW(number1, number2,...)


Độ bất đối xứng được tính bằng
cách lấy moment thứ ba của trị
trung bình chia cho độ lệch chuẩn
luỹ thừa ba

Độ nhọn

KURT(number1, number2,...)

Độ nhọn được tính bằng cách lấy
moment thứ tư của trị trung bình
chia cho độ lệch chuẩn luỹ thừa
bốn

Tìm giá trị nhỏ thứ SMALL(array, k)
SMALL(array, 1) → Số Min
k trong mẫu

Hàm trả về lượng biến nhỏ thứ k
trong mẫu có n lượng biến

Tìm giá trị lớn thứ LARGE(array, k)
LARGE(array, 1) → Số Max
k trong mẫu

Hàm trả về lượng biến lớn thứ k
trong mẫu có n lượng biến

SMALL(array, n) → Số Max


LARGE(array, n) → Số Min

Lê Viết Mẫn -
Wednesday, May 8, 13

8

Phân tích dữ liệu thống kê


Thông số thống kê (4/4)
Thông số

Hàm Excel

Giải thích

Tần số xuất hiện
của các giá trị
trong mẫu

FREQUENCY(data_array,
bins_array)

Nhóm theo phần
trăm

PERCENTILE(array, k)

Xếp hạng theo

phần trăm

PERCENTRANK(array, x,
significance)

Data_array : tập số liệu
Bins_array : các nhóm trong tập số liệu

Trả về nhóm tính theo phần trăm
của giá trị trong tập số liệu

array : tập số liệu
k : nhóm phần trăm (0..1)

array : tập số liệu
x : giá trị cần biết hạng
significance : số lẻ cần thiết
Lê Viết Mẫn -
Wednesday, May 8, 13

Trả về tần số xuất hiện các biến
cố trong các khoảng cho trước

9

Trả về hạng của một giá trị trong
tập số liệu theo phần trăm trong
tập số liệu

Phân tích dữ liệu thống kê



Descriptive Statistics
Vùng địa chỉ dữ liệu cần
thống kê

Bấm OK để thực hiện
tính toán

Vùng địa chỉ dữ liệu được
chọn bao gồm cả nhãn ?

Dữ liệu theo hàng hay cột
Nơi chứa kết quả tính được

Phải chọn ít nhất 1 trong
4 mục này

Độ tin cậy của giá trị trung
bình

Trị quan sát lớn/nhỏ thứ k

Lê Viết Mẫn -
Wednesday, May 8, 13

10

Phân tích dữ liệu thống kê



Ví dụ

Lê Viết Mẫn -
Wednesday, May 8, 13

11

Phân tích dữ liệu thống kê


Ví dụ

Lê Viết Mẫn -
Wednesday, May 8, 13

12

Phân tích dữ liệu thống kê


Bảng tần suất
Histogram

Lê Viết Mẫn -
Wednesday, May 8, 13

13

Phân tích dữ liệu thống kê



Histogram



Mô tả số lần xuất hiện của một mẫu thông tin trong một tập dữ liệu
Mỗi mẫu thông tin gọi là bin, mỗi lần số bin lặp lại được hiểu là tần suất xuất
hiện của nó

Vùng địa chỉ dữ liệu cần
thống kê

Bấm OK để thực hiện
tính toán

Vùng địa chỉ dữ liệu được
chọn bao gồm cả nhãn ?

Vùng địa chỉ các bin
Nơi chứa kết quả tính được

Tính phần trăm tích luỹ
Thêm một bảng kết quả
trong đó, kết quả phần trăm
tích luỹ sẽ được sắp xếp
giảm dần

Thêm đồ thị tần suất


Lê Viết Mẫn -
Wednesday, May 8, 13

14

Phân tích dữ liệu thống kê


Ví dụ

Lê Viết Mẫn -
Wednesday, May 8, 13

15

Phân tích dữ liệu thống kê


Ví dụ

Lê Viết Mẫn -
Wednesday, May 8, 13

16

Phân tích dữ liệu thống kê


Xếp hạng và phần trăm
theo nhóm

Rank and Percentile

Lê Viết Mẫn -
Wednesday, May 8, 13

17

Phân tích dữ liệu thống kê


Rank and Percentile
Vùng địa chỉ dữ liệu cần
thống kê

Bấm OK để thực hiện
tính toán

Dữ liệu theo hàng hay cột

Vùng địa chỉ dữ liệu
được chọn bao gồm cả
nhãn ?

Nơi chứa kết quả tính được

Lê Viết Mẫn -
Wednesday, May 8, 13

18


Phân tích dữ liệu thống kê


Ví dụ

Lê Viết Mẫn -
Wednesday, May 8, 13

19

Phân tích dữ liệu thống kê


Ví dụ

Lê Viết Mẫn -
Wednesday, May 8, 13

20

Phân tích dữ liệu thống kê


Cảm ơn sự chú ý

Câu hỏi ?

Lê Viết Mẫn -
Wednesday, May 8, 13


21

Phân tích dữ liệu thống kê



×