Tải bản đầy đủ (.ppt) (41 trang)

Chương 3 - Các thống kê cơ bản, tương quan và hồi quy ppt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (775.69 KB, 41 trang )

Chương 3

Các thống kê cơ bản, tương quan và hồi quy

 Thống kê mô tả (Desriptive Statistics)
 Tổ chức đồ (Histogram)
 Tương quan và hồi qui

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

1


Giới thiệu phân phối chuẩn
 Phân phối chuẩn, còn gọi là phân phối Gauss, là
một phân phối xác suất rất quan trọng trong nhiều
lĩnh vực
 Định nghĩa: Biến ngẫu nhiên X có phân phối chuẩn
với các tham số m (kỳ vọng), σ2 (phương sai) nếu
nó có hàm mật độ:

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

2



Đồ thị hàm mật độ phân phối chuẩn

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

3


Đồ thị hàm phân bố trong phân phối chuẩn

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

4


Thống kê mô tả (Descriptive Statistics)
 Thống kê mô tả cho phép tính các số đặc trưng mẫu, các
giá trị thống kê mẫu như trung bình, độ lệch chuẩn, sai số
chuẩn, trung vị, mode…Số liệu tính tốn được bố trí theo
cột hoặc theo dịng
 Mean (trung bình hay kỳ vọng): đặc trưng cho giá trị trung
bình của DLNN
 Standard Deviation (độ lệch chuẩn), Sample Variance
(phương sai mẫu): đặc trưng cho độ phân tán các giá trị

của DLNN xung quanh giá trị trung bình

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

5


Thống kê mô tả (Descriptive Statistics)
 Standard Error (sai số chuẩn): Sai số của trung bình
 Median (trung vị): cho giá trị điểm giữa của dãy số, trong
xác suất là giá trị Me của đại lượng ngẫu nhiên X sao cho
P(X<Me)=P(X>Me)
 Mode: là giá trị của biến ngẫu nhiên ứng với xác suất cực
đại hay giá trị có tần suất xuất hiện trong mẫu lớn nhất
 Kurtosis (độ nhọn): đánh giá đường mật độ phân phối của
dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn
tắc. Nếu trong [-2,2] thì coi xấp xỉ chuẩn.
07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

6


Thống kê mô tả (Descriptive Statistics)
 Skewness (Độ lệch): đánh giá đường phân phối lệch trái

hay lệch phải. Nếu trong [-2,2] thì coi số liệu cân đối gần
như số liệu trong phân phối chuẩn.
 Confidence Level (Nửa độ dài khoảng tin cậy):
 Ví dụ: Confidence level = 95%
 Trong xác suất tương đương bài tốn tìm giá trị α sao
cho P(m- α<=X<=m+ α) = 95%
 Tìm giá trị α sao cho xác suất X rơi vào khoảng [mα,m+ α] là 95%
07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

7


Kurtosis > 0 đường màu đỏ, Kurtosis <0 đường màu xanh
phía dưới, =0 đường màu xanh ở giữa (chuẩn)

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

8


Nếu Kurtosis > 0, kurtosis càng lớn đồ thị càng nhọn. Nếu
kurtosis <0, kurtosis càng bé đồ thị càng tù

07/10/14


Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

9


Skewness > 0 là lệch phải, <0 là lệch trái

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

10


Các bước thực hiện
 Tools -> Data Analysis

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

11


Các bước thực hiện


Miền dữ liệu
Nhóm số liệu theo hàng
hay theo cột
Nếu dữ liệu có cả nhãn
đầu dịng thì tích
Nơi đặt kết quả
Hiện các thống kê cơ bản
Độ tin cậy
Số lớn thứ nhất
Số nhỏ nhất
07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

12


Tổ chức đồ
 Tần số xuất hiện của số liệu trong các khoảng
cách đều nhau cho phép phác họa biểu đồ tần số.
Để vẽ biểu đồ cần thực hiện qua 2 bước: bước
chuẩn bị và bước vẽ tổ chức đồ

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

13



Tổ chức đồ
 Chuẩn bị:
 Dể số liệu ở một cột, một hàng hay một bảng chữ nhật
 Tìm giá trị lớn nhất (hàm Max), nhỏ nhất (hàm Min)
 Tính khoảng biến thiên R=Max-Min
 Chọn số khoảng k của miền phân tổ (thực tế chọn k từ
20-30, ví dụ minh họa chọn k từ 6-10), có thể lấy bằng
cơng thức 6*log(n) trong đó n là số giá trị của DLNN X
(lấy giá trị nguyên xấp xỉ)
 Tìm giá trị bước tăng trong miền phân tổ h = R/k (Sử
dụng hàm Round(R/k,số chữ số lẻ)
 Tạo cột bin (Edit->Fill->Series)
07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

14


Tổ chức đồ
 Vẽ tổ chức đồ
 Chọn Tool -> Data Analysis-> Histogram để khai báo
các mục:
 Input range: Miền dữ liệu
 Input Bin: Miền phân tổ
 Labels: Nhãn ở dịng đầu nếu có
 Output range: Miền kết quả

 Pareto: Tần số sắp xếp trong tổ chức đồ là giảm dần
 Cumulative Percentage: Hiển thị đường tần suất cộng
dồn %
 Chart output: Hiển thị biểu đồ
07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

15


Tổ chức đồ
 Chọn Tool -> Data Analysis-> Histogram
Miền dữ liệu
Miền phân tổ
Nhãn ở đầu dịng nếu có
Nơi chứa kết quả

Tần số sắp xếp giảm dần
% Cộng dồn
Biểu đồ
07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

16



Tổ chức đồ
 Phân tích kết quả từ biểu đồ
 Trong khoảng nào số liệu xuất hiện nhiều nhất
 Hình dạng tổ chức đồ có giống hình dạng đường mật
độ trong phân phối chuẩn khơng (có tính đối xứng, nhơ
cao ở giữa-> dạng đường cong chng). Nếu có thì kết
luận dữ liệu có thể tuân theo luật chuẩn

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

17


Hình ảnh về tổ chức đồ

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

18


Xem xét các đỉnh của các HCN xấp xỉ đường cong hàm mật độ trong
phân phối chuẩn hay không?

07/10/14


Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

19


Xem xét trường hợp sau

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

20


Tương quan và hồi quy
 Tính hệ số tương quan
 Tìm phương trình hồi quy

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

21


Tính hệ số tương quan

 Tính hệ số tương quan giữa các biến sắp xếp
thành một bảng gồm n hàng, n cột (mỗi cột là một
biến)
 Vào Tools → Data Analysis → Correlation

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

22


Tính hệ số tương quan

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

23


Hộp thoại Correlation

Miền dữ liệu kể cả nhãn
Nhóm số liệu theo hàng
hay cột
Chọn nhãn đầu dịng khơng
Chọn nơi để kết quả


07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

24


Kết quả

07/10/14

Ch3 – Các thống kê cơ bản, tương
quan & hồi quy

25


×