Tải bản đầy đủ (.docx) (12 trang)

Tiểu luận 2 Môn Phân tích dữ liệu kinh doanh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (412.79 KB, 12 trang )

Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Mục lục
1. GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN SPSS.........................3
1.1.Tiến hành.................................................................................................3
1.2.

Kết quả.................................................................................................................5

1.3.

Nhận xét và giải thích.........................................................................................6

2. GIẢI BÀI TỐN HỒI QUI LOGISTIC TRÊN R...............................9
2.1.

Nhập dữ liệu vào R và xem cấu trúc của tập dữ liệu.......................................9

2.2. Tiến hành thực hiện................................................................................................9
2.3. Đánh giá kết quả và nhận xét:.............................................................................10

3. GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN EXCEL..................11

1


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân



Tập dữ liệu cho bài tốn hồi quy Logistics: />Mơ tả bài tốn: Bộ dữ liệu nghiên cứu các nhân tố ảnh hưởng đến khả năng mắc bệnh
tim mạch, để từ đó đưa ra chuẩn đốn và có biện pháp điều trị phù hợp. Các yếu tố được
nghiên cứu hướng tới là thông tin cá nhân của người bệnh:
- Tuổi(age)
- Giới tính(sex)
- Dạng kiểu đau ngực(cp)
- Huyết áp(trestbps)
- Cholestoral huyết thanh(chol)
- Đường huyết(fbs)
- Kết quả nghỉ ngơi điện tâm đồ(restecg)
- Nhịp tim tối đa đạt được(thalach)
- Tập thể dục gây đau thắt ngực(exang)
- ST trầm cảm do tập tthể dục liên quan đến nghỉ ngơi(oldpeak)
- Độ dốc của đoạn ST tập thể dục đỉnh(slope)
- Lượng động mạch chủ(0-3) được nội soi huỳnh quang (ca)
- Khuyến khuyết ở tim (thal).
1. GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN SPSS
1.1. Tiến hành
 Bước 1: Chọn Analyze à Regression à Binary Logistic…

2


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

 Bước 2: Chọn thuộc tính phụ thuộc vào ơ Dependent: và thuộc tính độc lập vào ô
Covariates:


3


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

 Bước 3: Chọn OK
1.2. Kết quả

4


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

1.3. Nhận xét và giải thích
 Dựa vào giá trị sig ở bảng Variable not in the equation, ta có sig của chol và fbs >
0.05. Nên ta tính tốn lại logistic regression bỏ chol và fbs ra khỏi Covariates.
 Sau khi tính tốn lại, ta có kết quả:

5


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân


6


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

 Ta thấy tất cả các giá trị sig ở bảng Omnibus Tests of Model Coefficients đều <
0.05 (độ tin cậy 95%) nên mô hình hồi quy này có ý nghĩa
 Ý nghĩa của bảng Classification Table:
+ Trong 138 trường hợp quan sát không bị bệnh tim, thì dự đốn có 108 trường hợp
khơng mắc bệnh, tỉ lệ dự đoán đúng là 108/138 =78.3%
+ Trong 165 trường hợp quan sát mắc bệnh tim thì dự đốn có 151 trường hợp mắc
bệnh, tỉ lệ dự đoán đúng là 151/165 = 91.5%
Như vậy tỉ lệ trung bình dự đốn đúng là: 85.5%
 Từ bảng Variable in the equation ta có phương trình hồi quy:
Log() = -0.09*age – 1.59*sex + 0.873*cp – 0.019*trestbps + 0.537*restecg +
0.021*thalach – 0.98*exang - 0.561*oldpeak + 0.565*slope – 0.753*ca – 0.936*thal
+ 2.797

7


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thn

2. GIẢI BÀI TỐN HỒI QUI LOGISTIC TRÊN R
2.1. Nhập dữ liệu vào R và xem cấu trúc của tập dữ liệu


Tập dữ liệu có 14 thuộc tính, có 303 dịng dữ liệu. Với mục tiêu chúng ta cấn xét tới là
cột “target” trong đó: “target” = 1: có mắc bệnh tim, “target” = 0: khơng mắc bệnh
Kiểm tra các bệnh nhân có đầy đủ số liệu để thống kê:

Chúng ta kiểm tra xem có bao nhiêu bệnh nhân mắc bệnh tim:

2.2. Tiến hành thực hiện
- Xây dựng mơ hình Logistics sử dụng tất cả các biến số: dùng lệnh glm(), trong đó:
 Chúng ta u cầu R phân tích theo mơ hình target là một hàm số với các biến
còn lại.
 Luật phân phối nhị phân (binomial) là luật phân phối chuẩn cho hồi qui
logistic. Do đó, family=” binomial” cần thiết cho R.

8


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

2.3. Đánh giá kết quả và nhận xét:
- Từ kết quả trên:
+ Biến có ý nghĩa là các biến có dấu hình ngơi sao, cịn các biến cịn lại khơng có hay
có ít thì hầu như khơng có ý nghĩa thống kê, có thể loại bỏ ra mơ hình.
-

Phần Call: Cho chúng ta biết về mơ hình phân tích.
Phần Deviance: phần thứ hai của kết quả cho biết qua về deviance, tức phần dư
trong mơ hình.
 Deviance như giải thích trên phản ánh độ khác biệt giữa mơ hình và dữ liệu

(cũng tương tự như mean square residual trong phân tích hồi qui tuyến tính

9


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

vậy). Đối với một mơ hình này thì giá trị của deviance khơng có ý nghĩa gì
nhiều.
- Phần Coefficients: cung cấp ước số của α (mà R đặt tên là intercept) và β (các biến
age, sex,cp , trestbps, chol, fbs, restecg, exang, oldpeak, ca, thal, thalach ) và sai số
chuẩn (standard error) cho từng ước số:
 Với các ước số âm(β) trong Estimate cho thấy mối liên hệ giữa nguy cơ bệnh tim
với age, sex, trestbps, chol,exang, oldpeak, ca, thal là mối liên hệ nghịch đảo: xác
suất bị bệnh tim tăng thì các giá trị này giảm. Kiểm định z (tính bằng cách lấy ước
số chia cho sai số chuẩn) cho chúng ta thấy ảnh hưởng của các biến này có ý nghĩa
thống kê, vì trị số p đều < 0.05
 Với các ước số dương (β) trong Estimate cho thấy mối liên hệ giữa nguy cơ bệnh
tim với cp, fbs, restecg, thalach, slope là mối quan hệ thuận: : xác suất bị bệnh tim
tăng thì các giá trị này cũng tăng.
 Mơ hình hồi quy logistics có dạng: log(P) = 3.45 - 0.005*x1 - 1.76*x2 + 0.86*x3 0.02*x4 - 0.005*x5 + 0.05*x6 + 0.47*x7 + 0.02*x8 - 0.98*x9 - 0.54*x10 +
0.58*x11 – 0.77*x12 – 0.9*x13

3. GIẢI BÀI TOÁN HỒI QUI LOGISTIC TRÊN EXCEL
Kiểm chứng bài toán hồi quy Logistic trên Excel, và kết quả đạt được qua link này:
/>usp=sharing

10



Tiểu luận 2

GVHD: TS. Nguyễn Đình Thn
BẢNG PHÂN CƠNG CƠNG VIỆC

Thành Viên
Hồ Thị Ngọc Huyền - 17520596
Nguyễn Thị Cẩm Hoài - 17520499
Trương Thị Mỹ Linh – 17520692
Phạm Huỳnh Mỹ Hạnh - 17520443
Trà Thảo Nguyên - 17520831

Công việc
Hồi qui Logistic trên SPSS
Hồi qui Logistic trên R
Viết báo cáo

11


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân
TÀI LIỆU THAM KHẢO

[1] />[2] />%E1%BB
%93i+&aqs=chrome.0.69i59l2j35i39j69i57j46j69i61l3.5592j0j7&sourceid=chrome&ie=UTF-8
[3] />[4] Into the R language.pdf


12



×