Chương 3
Các thống kê cơ bản, tương quan và hồi quy
Thống kê mô tả (Desriptive Statistics)
Tổ chức đồ (Histogram)
Tương quan và hồi qui
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
1
Giới thiệu phân phối chuẩn
Phân phối chuẩn, còn gọi là phân phối Gauss, là
một phân phối xác suất rất quan trọng trong nhiều
lĩnh vực
Định nghĩa: Biến ngẫu nhiên X có phân phối chuẩn
với các tham số m (kỳ vọng), σ2 (phương sai) nếu
nó có hàm mật độ:
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
2
Đồ thị hàm mật độ phân phối chuẩn
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
3
Đồ thị hàm phân bố trong phân phối chuẩn
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
4
Thống kê mô tả (Descriptive Statistics)
Thống kê mô tả cho phép tính các số đặc trưng mẫu, các
giá trị thống kê mẫu như trung bình, độ lệch chuẩn, sai số
chuẩn, trung vị, mode…Số liệu tính tốn được bố trí theo
cột hoặc theo dịng
Mean (trung bình hay kỳ vọng): đặc trưng cho giá trị trung
bình của DLNN
Standard Deviation (độ lệch chuẩn), Sample Variance
(phương sai mẫu): đặc trưng cho độ phân tán các giá trị
của DLNN xung quanh giá trị trung bình
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
5
Thống kê mô tả (Descriptive Statistics)
Standard Error (sai số chuẩn): Sai số của trung bình
Median (trung vị): cho giá trị điểm giữa của dãy số, trong
xác suất là giá trị Me của đại lượng ngẫu nhiên X sao cho
P(X<Me)=P(X>Me)
Mode: là giá trị của biến ngẫu nhiên ứng với xác suất cực
đại hay giá trị có tần suất xuất hiện trong mẫu lớn nhất
Kurtosis (độ nhọn): đánh giá đường mật độ phân phối của
dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn
tắc. Nếu trong [-2,2] thì coi xấp xỉ chuẩn.
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
6
Thống kê mô tả (Descriptive Statistics)
Skewness (Độ lệch): đánh giá đường phân phối lệch trái
hay lệch phải. Nếu trong [-2,2] thì coi số liệu cân đối gần
như số liệu trong phân phối chuẩn.
Confidence Level (Nửa độ dài khoảng tin cậy):
Ví dụ: Confidence level = 95%
Trong xác suất tương đương bài tốn tìm giá trị α sao
cho P(m- α<=X<=m+ α) = 95%
Tìm giá trị α sao cho xác suất X rơi vào khoảng [mα,m+ α] là 95%
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
7
Kurtosis > 0 đường màu đỏ, Kurtosis <0 đường màu xanh
phía dưới, =0 đường màu xanh ở giữa (chuẩn)
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
8
Nếu Kurtosis > 0, kurtosis càng lớn đồ thị càng nhọn. Nếu
kurtosis <0, kurtosis càng bé đồ thị càng tù
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
9
Skewness > 0 là lệch phải, <0 là lệch trái
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
10
Các bước thực hiện
Tools -> Data Analysis
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
11
Các bước thực hiện
Miền dữ liệu
Nhóm số liệu theo hàng
hay theo cột
Nếu dữ liệu có cả nhãn
đầu dịng thì tích
Nơi đặt kết quả
Hiện các thống kê cơ bản
Độ tin cậy
Số lớn thứ nhất
Số nhỏ nhất
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
12
Tổ chức đồ
Tần số xuất hiện của số liệu trong các khoảng
cách đều nhau cho phép phác họa biểu đồ tần số.
Để vẽ biểu đồ cần thực hiện qua 2 bước: bước
chuẩn bị và bước vẽ tổ chức đồ
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
13
Tổ chức đồ
Chuẩn bị:
Dể số liệu ở một cột, một hàng hay một bảng chữ nhật
Tìm giá trị lớn nhất (hàm Max), nhỏ nhất (hàm Min)
Tính khoảng biến thiên R=Max-Min
Chọn số khoảng k của miền phân tổ (thực tế chọn k từ
20-30, ví dụ minh họa chọn k từ 6-10), có thể lấy bằng
cơng thức 6*log(n) trong đó n là số giá trị của DLNN X
(lấy giá trị nguyên xấp xỉ)
Tìm giá trị bước tăng trong miền phân tổ h = R/k (Sử
dụng hàm Round(R/k,số chữ số lẻ)
Tạo cột bin (Edit->Fill->Series)
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
14
Tổ chức đồ
Vẽ tổ chức đồ
Chọn Tool -> Data Analysis-> Histogram để khai báo
các mục:
Input range: Miền dữ liệu
Input Bin: Miền phân tổ
Labels: Nhãn ở dịng đầu nếu có
Output range: Miền kết quả
Pareto: Tần số sắp xếp trong tổ chức đồ là giảm dần
Cumulative Percentage: Hiển thị đường tần suất cộng
dồn %
Chart output: Hiển thị biểu đồ
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
15
Tổ chức đồ
Chọn Tool -> Data Analysis-> Histogram
Miền dữ liệu
Miền phân tổ
Nhãn ở đầu dịng nếu có
Nơi chứa kết quả
Tần số sắp xếp giảm dần
% Cộng dồn
Biểu đồ
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
16
Tổ chức đồ
Phân tích kết quả từ biểu đồ
Trong khoảng nào số liệu xuất hiện nhiều nhất
Hình dạng tổ chức đồ có giống hình dạng đường mật
độ trong phân phối chuẩn khơng (có tính đối xứng, nhơ
cao ở giữa-> dạng đường cong chng). Nếu có thì kết
luận dữ liệu có thể tuân theo luật chuẩn
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
17
Hình ảnh về tổ chức đồ
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
18
Xem xét các đỉnh của các HCN xấp xỉ đường cong hàm mật độ trong
phân phối chuẩn hay không?
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
19
Xem xét trường hợp sau
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
20
Tương quan và hồi quy
Tính hệ số tương quan
Tìm phương trình hồi quy
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
21
Tính hệ số tương quan
Tính hệ số tương quan giữa các biến sắp xếp
thành một bảng gồm n hàng, n cột (mỗi cột là một
biến)
Vào Tools → Data Analysis → Correlation
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
22
Tính hệ số tương quan
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
23
Hộp thoại Correlation
Miền dữ liệu kể cả nhãn
Nhóm số liệu theo hàng
hay cột
Chọn nhãn đầu dịng khơng
Chọn nơi để kết quả
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
24
Kết quả
07/10/14
Ch3 – Các thống kê cơ bản, tương
quan & hồi quy
25