Tải bản đầy đủ (.pdf) (31 trang)

Tiểu luận học phần khai phá dữ liệu sử dụng phần mềm exel và phần mềm r để phân tích hồi quy tuyến tính bội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (785.34 KB, 31 trang )

lOMoARcPSD|15963670

TRƯỜNG ĐẠI HỌC ĐẠI NAM
KHOA CÔNG NGHỆ THÔNG TIN

TIỂU LUẬN KẾT THÚC HỌC
PHẦN
Học phần: Khai Phá Dữ Liệu

ĐỀ TÀI :Sử dụng phần mềm exel và phần mềm R để

phân tích hồi quy tuyến tính bội
Giảng viên hướng dẫn : Thầy Nguyễn Văn Tuấn
Sinh viên thực hiện
Lớp
Mã sinh viên

: Giáp Thiên Thanh
: CNTT13-03
: 1571020231

Hà Nội, ngày 27 tháng 3 năm 2022

1

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

Mục lục


Contents
Sinh viên thực hiện

:Giáp Thiên Thanh.................1

MỞ ĐẦU..................................................................4
KIẾN THỨC CƠ BẢN..................................................6
1 Phân tích mơ tả.............................................................6
1.1 Khái niệm................................................................6
1.2 Hồi quy tuyến tính......................................................7
1.2.1 Giới thiệu về hồi quy...............................................7
1.2.2 Sơ đồ hồi quy tuyến tính..........................................7
1.3 Hồi quy tuyến tính bội.................................................8
1.3.1 Mơ hình hồi quy bội...............................................8
1.3.2 Ví dụ về mơ hình hồi quy tuyến tính bội..................8
1.3.3 Kiểm định từng tham số hồi qui tổng thể (Pi)..........12
1.3.4 Hệ số xác định bội.................................................13
Ví dụ 1...............................................................................15
1.3.5 Phân tích ANOVA hồi qui bội:................................16
CHƯƠNG 2:....................................................................... 18
Phân tích hồi quy bội bằng phần mềm Excel...............18
2.1 Triển khai hồi quy tuyến tính bội bằng Excel...............18
2.2 Phân tích kết quả thu được..........................................21
Chương 3..........................................................................22
phân tích hồi quy tuyến tính bội bằng phần mềm R.....22
3.1 Triển khai hồi quy tuyến tính bằng phần mềm R..........22
3.2 phân tích kết quả thu được..........................................22
3.3 phân tích biểu đồ.......................................................22
Tài liệu kham thảo..............................................................23


2

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

1. MỞ ĐẦU
Sự phát triển của công nghệ thông tn và việc ứng d ụng công ngh ệ
thông tn trong nhiềều lĩnh vực của đời sôống, kinh tềố xã hội trong nhiềều năm
qua cũng đôềng nghĩa với lượng dữ liệu đã được các cơ quan thu th ập và
lưu trữ ngày một tch luyỹ nhiềều lền. Họ lưu trữ các dữ liệu này vì cho răềng
trong nó ẩn chứa những giá trị nhấốt định nào đó. Tuy nhiền, theo thơống kề
thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đềốn 10%) là
luôn được phấn tch, sơố cịn lại họ khơng biềốt seỹ ph ải làm gì ho ặc có th ể
làm gì với chúng nhưng họ vấỹn tềốp tục thu thập rấốt tôốn kém v ới ý nghĩ lo
sợ răềng seỹ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cấền đềốn nó.
Mặt khác, trong mơi trường cạnh tranh, người ta ngày càng cấền có nhiềều
thơng tn với tơốc độ nhanh để trợ giúp việc ra quyềốt định và ngày càng có
nhiềều cấu hỏi mang tnh chấốt định tnh cấền phải trả lời d ựa trền m ột khôối
lượng dữ liệu khổng lơề đã có. Với những lý do nh ư vậy, các phương pháp
quản trị và khai thác cơ sở dữ liệu truyềền thôống ngày càng không đáp ứng
được thực tềố đã làm phát triển một khuynh hướng kyỹ thu ật m ới đó là Kyỹ
thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery
and Data Mining).
Kyỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được
nghiền cứu, ứng dụng trong nhiềều lĩnh vực khác nhau ở các nước trền thềố
giới, tại Việt Nam kyỹ thuật này tương đơối cịn mới mẻ tuy nhiền cũng đang
được nghiền cứu và dấền đưa vào ứng dụng. Phát hiện tri thức trong các cơ
sở dữ liệu là một qui trình nhận biềốt các mấỹu ho ặc các mơ hình trong d ữ

liệu với các tnh năng: hợp thức, mới, khả ích, và có thể hiểu được. Còn
khai thác dữ liệu là một bước trong qui trình phát hiện tri thức gơềm có các
thuật tốn khai thác dữ liệu chuyền dùng dưới một sôố qui định vềề hiệu
quả tnh toán chấốp nhận được để tm ra các mấỹu hoặc các mơ hình trong
dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức và khai phá d ữ

3

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

liệu chính là tm ra các mấỹu và/hoặc các mơ hình đang tơền tại trong các cơ
sở dữ liệu nhưng vấỹn cịn bị che khuấốt bởi hàng núi dữ liệu.
Mơn học “Khai phá dữ liệu” cung cấốp cho sinh viền cơng ngh ệ
thong tn cái nhìn tổng quan vềề phát hiện tri thức và khai phá d ữ liệu. Với
những kiềốn thức đã học, trong bài tểu luận môn học em tập trung vào các
thuật tốn Hơềi quy tuyềốn tnh cụ thể là “Hơềi quy tuyềốn tnh bội ” vì nó giúp
chúng ta dự đốn được những hiểm họa, tác dụng liền quan đềốn nhiềều
ứng dụng như: Y học , giáo dục, kinh doanh,......
2 Lý do chọn đề tài
Đấy là cách tôốt nhấốt để thu thập dữ liệu mà không có sai l ệch. Các
cơng ty có thể thu thập dữ liệu trực tềốp dựa trền sôố liệu thôống kề và thơng
tn có săỹn. Kềốt quả cũng áp dụng cho nhiềều chủ đềề và phịng ban khác.
Tiềốt kiệm chi phí và nhanh chóng. So với các hình th ức phấn tch
khác, việc thu thập dữ liệu cấền thiềốt để phấn tch nghiền cứu nhanh chóng
và dềỹ dàng hơn.
Hữu ích cho việc ra quyềốt định. Các công ty seỹ dềỹ dàng đ ưa ra các
quyềốt định kinh doanh thông minh hơn khi h ọ s ử d ụng phấn tch này. Nó

tập trung vào “cái gì” của một chủ đềề với các giá tr ị và thôống kề d ựa trền
sôố; thông tn là thực tềố và không thiền vị.
3 Mục đích nghiên cứu
Phấn tch hơềi quy nó giải thích "điềều gì" vềề một chủ đềề, băềng cách sử
dụng dữ liệu, sôố liệu thôống kề và xu hướng. Vận dụng các dữ liệu, thơống kề
mà các cơng ty đã có quyềền truy cập, như nghiền cứu đi ển hình, kh ảo sát
và khách hàng... Phấn tch tơốn ít chi phí và có thao tác dềỹ th ực hi ện hơn so
với các hình thức phấn tch khác và quá trình nghiền cứu cũng diềỹn ra
nhanh chóng, thuận tện hơn trong trường hợp thông tn dữ liệu đấềy đủ.
4 Phương pháp nghiên cứu

4

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

Để nghiền cứu, đánh giá dữ liệu hiệu quả trong phấn tch mơ t ả ta có th ể
tềốp cận với ba phương pháp chính như sau: phương pháp tương quan
phấn tch hôềi quy và phấn tch hôềi quy bội
5 Cấu trúc bài tập lớn
Gồm 3 chương :
+ CHƯƠNG 1: kiến thức cơ bản
+ CHƯƠNG 2: Phân tích hồi quy bội bằng phần mềm Excel
+ CHƯƠNG 3: Phân tích hồi quy bội bằng phần mềm R

CHƯƠNG 1
KIẾN THỨC CƠ BẢN
1.1


Phân tích mơ tả

Trong thời đại hiện nay, kyỹ năng phấn tch chiềốm vị trí quan trọng
trong hấều hềốt mọi lĩnh vực. Khơng đơn thuấền là tnh tốn, các kyỹ năng
phấn tch được áp dụng vào các hoạt động như marketng, bán hàng, nhấn
sự... để hôỹ trợ cho các doanh nghiệp vận hàng mơ hình kinh doanh, năốm
băốt xu hướng thị trường một cách hiệu quả nhấốt. Phấn tch mô t ả là m ột
trong những loại hình phấn tch phổ biềốn, được ưa chuộng ở nhiềều doanh
nghiệp. Bài nghiền cứu này seỹ làm rõ các khái niệm cơ bản vềề phấn tch mô
tả, bao gôềm việc định nghĩa, bản chấốt và lợi ích mà nó mang lại qua một sơố
ví dụ cụ thể.
1.1.1 Khái niệm
Phấn tch mơ tả hay cịn gọi là thôống kề mô t ả là vi ệc thu th ập d ữ
liệu thô từ nhiềều nguôền dữ liệu để cung cấốp chi tềốt những thông tn trong
quá khứ có giá trị. Chúng cung cấốp các bản tóm tăốt, phấn tch đôề h ọa đ ơn
giản, mô tả cả tnh năng cơ bản, là nềền tảng của hấều hềốt mọi phấn tch
định lượng dữ liệu. (UNI Train, 2021). Không giôống nh ư các lo ại phấn tch
khác, phấn tch mơ tả khơng đưa ra các dự đốn vềề tương lai, thay vào đó
trả lời cấu hỏi vềề những gì đã xảy ra, khơng giải thích tại sao. Thu th ập
5

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

thông tn chi tềốt từ dữ liệu trong quá khứ, việc gì đã diềỹn ra trong một
khoảng thời gian cơố định để rút ra những so sánh. Từ đó, doanh nghiệp có
thể kềốt hợp kềốt quả của phấn tch mơ tả với các loại phấn tch dữ liệu khác

nhăềm bổ trợ, chi tềốt hóa các dữ liệu hơn.
Ví dụ 1: Một cơng ty có thể quyềốt định được sản phẩm chiềốn lược
dựa trền kềốt quả doanh thu, lợi nhuận hàng tháng, hàng năm của s ản
phẩm đó. Một tập đồn seỹ xác định được các ưu, nhược điểm của d ịch vụ
mình đang kinh doanh hoạt động để tơối ưu hóa chức năng thơng qua phấn
tch mơ tả.
Dựa trền những dữ liệu có săỹn sau đó phấn tch kềốt quả giúp các
doanh nghiệp có thể mở rộng thị trường kinh doanh, tềốp th ị hi ệu qu ả và
phát triển các loại sản phẩm, dịch vụ mới. Phấn tch mô tả là một trong
những loại phấn tch cơ bản nhấốt nhưng lại hiệu quả mà các công ty
thường sử dụng. Một cơng ty có quy mơ càng lớn, seỹ càng s ử d ụng nhiềều
phấn tch mơ tả.
Ví dụ 2: Công ty X báo cáo doanh thu tháng 7 đạt được 10 tỷ đơềng,
con sơố này hồn tồn vơ nghĩa nềốu không so sánh v ới nh ững tháng tr ước
đó. Nềốu so với tháng 6 thì doanh thu đã tăng hay giảm bao nhiều phấền
trăm, từ đó, mới kềốt luận được chiềốn lược bán hàng đang có hoạt động
hiệu quả hay khơng. Tuy nhiền, cũng cấền nhìn nhận thềm nhiềều phấn tch
khác để có cái nhìn bao qt hơn.

1.2

Hồi quy tuyến tính
1.2.1 Giới thiệu về hồi quy

Hơềi quy là một phương pháp thôống kề được s ử dụng trong tài
chính, đấều tư và các lĩnh vực khác nhăềm xác định mức đ ộ và đặc đi ểm c ủa
môối quan hệ giữa một biềốn phụ thuộc (thường được ký hiệu là Y) và m ột
loạt các biềốn khác (được gọi là các biềốn độc lập)
Hơềi quy tuyềốn tnh có nhiềều ứng dụng trong thực tềố. Hấều hềốt các ứng
dụng của hôềi quy tuyềốn tnh thuộc một trong hai loại lớn sau:

- Nềốu mục tều là dự đoán hoặc dự báo, thì hơềi quy tuyềốn tnh có thể
được sử dụng để phù hợp mơ hình dự đốn với một tập dữ liệu quan sát
6

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

của các giá trị Y và X.
- Côố găống mô hình hóa mơối quan hệ giữa hai biềốn băềng cách điềều
chỉnh một phương trình tuyềốn tnh với dữ liệu quan sát.
Hơềi quy có thể giúp các chuyền gia tài chính và đấều tư cũng nh ư các
chuyền gia trong các doanh nghiệp khác. Hơềi quy cũng có thể giúp dự
đốn doanh sôố bán hàng cho một công ty d ựa trền th ời tềốt, doanh sơố bán
hàng trước đó, tăng trưởng GDP hoặc các loại điềều kiện khác .

1.2.2 Sơ đồ hồi quy tuyến tính
Mục đích của hơềi quy là mơ hình hóa sự phụ thuộc của một biềốn
Y vào biềốn X
+ Y được gọi là biềốn phụ thuộc hoặc biềốn đáp ứng.
+ X được găốn nhãn là biềốn độc lập, hiệp biềốn hoặc biềốn giải thích.
Phương trình hơềi quy tuyềốn tnh đơn giản:
Y = mX + c.
Mục tều của hơềi quy tuyềốn tnh là tm đường d ự đốn tơốt nhấốt
của Y từ X

1.3

Hồi quy tuyến tính bội

1.3.1 Mơ hình hồi quy bội
Khái niệm
Mơ hình hơềi quy bội là mơ hình có hàm hơềi quy tổng thể (PRF) gơềm
một biềốn phụ thuộc Y và K-1 biềốn độc lập X2 , X3 ,..., Xk có dạng nh ư sau:
Yi  1  2X2i  3X3i  ...  k Xki  ui (4.5)
trong đó
1 là hệ sơố chặn, hệ sơố tự do, nó cho ta biềốt trung bình của Y khi
X1, X2,....., Xk băềng 0
j ( j = 1, 2,..., k) là các hệ sơố hơềi quy riềng, nó cho ta biềốt sự thay
đổi của Y khi X j thay đổi một đơn vị
ui là các nhiềỹu ngấỹu nhiền.

7

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

1.3.2 Ví dụ về mơ hình hồi quy tuyến tính bội
Ví dụ 3:tơốc độ phát triển nềền kinh tềố (Y) phụ thuộc vào tôốc độ phát tri ển
của nông nghiệp(X1), tôốc độ tăng trưởng của kim ngạch xuát kh ẩu (X2) và
tỷ lệ lạm phát (X3) được thu thập 28 nước dưới đấy

(Table 1)
Kềốt quả trong Excel

8

Downloaded by ng?c trâm ()



lOMoARcPSD|15963670

(Program1-1 )
Kềốt quả trong R

(Program1-2)
Dưới đấy là mô tả ngăốn gọn vềề một sôố kềốt quả:
+ R-Square - R-Squared là tỷ lệ phương sai trong biềốn phụ thuộc có
9

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

thể được giải thích băềng các biềốn độc lập. R-Square là thôống kề đo lường
mức độ phù hợp của mô hình với dữ liệu thực tềố đã được tnh tốn trước
đó
+ Bình phương R được điềều chỉnh Trong nhiềều mơ hình hơềi quy, bình
phương rsquared seỹ tăng lền khi có nhiềều biềốn hơn đ ược đ ưa vào mơ
hình. Đấy là sự điềều chỉnh của bình phương R phạt việc bổ sung các yềốu
yềốu tơố dự đốn khơng liền quan vào mơ hình. Bình phương R đã điềều
chỉnh được tnh băềng công thức 1 - ((1 - Rsq) (N - 1) / (N - k - 1))
trong đó k là sơố yềốu tơố dự đốn
+ F-Sta琀椀s琀椀c - Mơ hình bình phương trung bình chia cho Sai sơố bình
phương trung bình. Đấy là một chỉ báo tơốt vềề việc có mơối quan hệ giữa yềốu
tơố dự đốn và các biềốn phản ứng hay khơng. Thơống kề F càng xa 1 thì càng
tơốt.

+ Coe昀케cients- giá trị mơ hình của chúng tơi, được tnh tốn th ủ cơng
trước đấy
+ Std. Error - đo lường sơố tềền trung bình mà hệ sơố ước tnh thay đổi so
với giá trị trung bình thực tềố của biềốn phản hôềi của chúng ta. Lý tưởng nhấốt
là chúng ta muôốn một sôố thấốp hơn so với giá trị của nó
+ Giá trị T - đấy là thước đo có bao nhiều độ lệch chuẩn mà ước tnh
hệ sơố của chúng tôi cách xa 0. Đôối với giá trị t, sơố càng cao thì kh ả năng dự
đốn biềốn càng mạnh . Ngoài ra, giá trị t cũng được sử dụng để tnh giá trị
p.
+ Pr |> t | cho chúng ta biềốt sức mạnh của dự đoán ‘y’. Giá trị càng
thấốp thì biềốn càng mạnh. Giá trị p từ 0,05 (5%) trở xuôống là một điểm giới
hạn tôốt.
Kềốt quả trền hai phấền mềềm exccel và phấền mềềm R ta thấốy ước
1= 1.261  2 = 0.589  3 = 0.245,4 = - 0,076 ta có

phương

trình hơềi quy tuyềốn tnh bội như sau :
  4i 
Yi    X2i  X3i X
Từ phương trình hơềi qui bội ta có nhận xét:
10

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

 Nềốu tôốc độ tăng trưởng của xuấốt khẩu và lạm phát không đổi,
1% tăng trưởng nông nghiệp seỹ làm tăng 0,589% tăng trưởng

của nềền kinh tềố.
 Nềốu tôốc độ tăng trưởng của nông nghiệp và lạm phát không đ ổi,
1% tăng trưởng xuấốt khẩu seỹ làm tăng 0,245% tăng trưởng của
nềền kinh tềố.
 Nềốu tôốc độ tăng trưởng của nông nghiệp và xuấốt khẩu không đổi,
tỷ lệ lạm phát tăng 1% seỹ làm cho nềền kinh tềố giảm 0,076%.
 Nềốu tôốc độ tăng trưởng của nông nghiệp, xuấốt khẩu, lạm phát
băềng 0 thì nềền nềền kinh tềố tăng trưởng 1,621%.
Phương trình (4.5) có thể viềốt chi tềốt dưới dạng hệ phương trình sau

1.3.3 Kiểm định từng tham số hồi qui tổng thể (Pi)
Tương tự như như đôối với kiểm định hôềi quy đơn giản
11

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

Trường hợp ithì Xi và Y khơng có mơối quan hệ nào, trong
trường hợp i > 0 i < 0) giữa Xi và Y có mơối quan hệ thuận (nghịch )
Ở mức ý nghĩa   giả thuyềốt H0 kiểm định ở các trường hợp sau

Đấy là phương pháp xấy dựng mơ hình hơềi quy, đ ược g ọi là ph ương
pháp loại biềốn dấền. Chúng ta seỹ loại từng biềốn m ột d ựa vào giá tr ị p ki ểm
định lớn ra trước

1.3.4 Hệ số xác định bội
Hệ sôố xác định bội :
Tương tự như đôối với hôềi quy đơn giản ta có

Hệ sơố xác định

Nhưng ở đấy, hệ sơố

là nói lền tnh chặt cheỹ giữa biềốn phụ thuộc Y

và các biềốn độc lập Xi, tức là nó thể hiện phấền trăm biềốn thiền c ủa Y có
thể được giải thích bởi sự biềốn thiền của tấốt cả các biềốn Xi
Đơối với người nghiền cứu thì họ mong muôốn hệ sôố
tôốt. Tuy nhiền

càng lớn càng

là một hàm không giảm theo sơố lượng biềốn đưa vào.

Điềều này có thể dấỹn đềốn một trị chơi vềề sơố
hình càng nhiềều biềốn để có hệ sơố

băềng cách đưa vào mơ

lớn. Để khăốc phục nhược điểm này,

người ta đưa ra hệ sôố xác định điềều chỉnh đánh giá mức độ phụ thuộc của
Y vào các biềốn X chính xác hơn
12

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670


Hệ sôố xác định đã điềều chỉnh

Xét vềề mặt ý nghĩa thì giữa



là như nhau, thơng thường thì

hai hệ sơố này chệnh lệch không nhiềều. Trong một sôố tr ường hợp l ượng
biềốn X tương đôối lớn so với n. Khi đó ta dùng h ệ sơố xác đ ịnh có điềều ch ỉnh
để đo lường mức độ thích hợp của mơ hình hơềi quy
Đấy cũng là một phương pháp xấy dựng mơ hình hơềi qui, được gọi là
phương pháp đưa biềốn vào dấền. Chúng ta seỹ đưa lấền l ượt các biềốn có tr ị
tuyệt đơối hệ sơố tương quan r y xi , —2 , , , lớn vào trước, nềốu R tăng lền thì
ta chấốp nhận biềốn, cịn ngược lại thì ta loại ra và kềốt thúc quá trình.
Kềốt quả tnh Regression Statstcs của phấền mềềm excel của bài ví dụ

(Program1-3)
Qua kềốt quả của của bài ví dụ ta thấốy hệ sôố xác định là :
R 2 = 0,346 có nghĩa là 35% sự biềốn thiền của kềốt quả kinh tềố có th ể
được giải thích băềng, môối quan hệ trực tuyềốn giữa tôốc đ ộ phát tri ển kinh
tềố với tôốc độ biềốn thiền của nông nghiệp, xuấốt khẩu và lạm phát
1.3.5 Quan hệ giữa hệ số xác định và tiêu chuẩn kiểm định F
Xét mô hình hơềi quy bội :
Yi  1  2X2i  3X3i  ...  k Xki  ui ,i  1,
n (1.1)
Mơ hình được gọi là khơng có hiệu lực giải thích, hay nói cách khác

13


Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

khơng giải thích được sự thay đổi của biềốn Y, nềốu tồn bộ các hệ sơố hơềi quy
riềng đềều băềng 0. Vì vậy để kiểm định sức mạnh hay mức ý nghĩa của mơ
hình ta cấền kiểm định bài tốn sau:

(1.2)
Để giải quyềốt bài toán kiểm định trền, ta dùng tều chuẩn thơống kề
sau:

Khi giả thiềốt thơống kề F có phấn phôối Fisher với k – 1 và n – k bậc tự
do. Vậy với mức ý nghĩa  ta có quy tăốc kiểm định:
 Nềốu Fqs  F  k 1, n  k  thì bác bỏ H0 .
 n  k  thì chưa bác bỏ H0 .
 Nềốu Fqs  F  k 1,
Quan hệ giữa hệ sôố xác định R 2 và thôống kề F được diềỹn giải như
sau: Từ (1.1) , ta thấốy kiểm định (1.2) tương đương với bài tốn kiểm định

(1.3)

Vậy thơống kề F cũng là tều chuẩn thôống kề cho bài tốn kiểm định (1.3)
Ví dụ 4
Một cơng ty mốn mở rộng thị trường kinh doanh tại một thành
phôố. Trước khi quyềốt định mở chi nhánh tại thành phơố đó, cơng ty đã tềốn
hành nghiền cứu thị trường băềng cách tềốn hành quảng cáo và chào bán
sản phẩm của mình từ đó xem xét khả năng tều th ụ sản ph ẩm. Thu th ập

14

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

sôố liệu trong 10 tuấền vềề sôố sản phẩm

Phấn tch sôố liệu băềng excel và R ta thu được báo cáo:
Dựa vào kềốt quả báo cáo trong Evievs ta xấy dựng được mơ hình hơềi quy
tuyềốn tnh 3 biềốn chỉ sự phụ thuộc của sản phẩm bán được Y với chi phí
quảng cáo X3 và giá thành sản phẩm X2 qua biểu thức
ˆ
ˆ
ˆ
Yˆ   1   2 X 2   3 X 3
qs

với ˆ 1  1360.84 ,ˆ 2  110.2952 ,ˆ 3  89.82406 . Ngoài
ra cịn có hệ sơố xác định = 0.772974 , hệ sôố xác định hiệu chỉnh (Adjusted
R-Squared) R 2  0.708110 , giá trị tều chuẩn thôống kề F (F-Statc) F 2 
11.91675 . Vậy mơ hình hơềi quy cụ thể là:
Yˆ  1360.84  110.2952X 2  89.82406X3
Đôối với mô hình này , ta cấền đặt ra cấu h ỏi : V ới m ức ý nghĩa  
0.05 thì giá bán và chi phí quảng cáo có ảnh hưởng đềốn sôố lượng sản phẩm
bán ra hay không ?
Để trả lời cấu hỏi này , ta cấền kiểm định bài toán

15


Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

Cả hai bài tốn trền đềều có thể giải quyềốt băềng cách sử dụng thơống
kề F Ta có

Fqs  11.91675 . Với n = 10, k = 2, tra bảng phấn phơối Fisher

hoặc dùng lệnh Excel tìm được phấn vị F0.05 2; 7  4.77 . Rõ ràng Fqs 
F0.05 2; 7 , vậy bác bỏ , kềốt luận giá bán của sản phẩm và chi phí cho
quảng cáo có ảnh hưởng đềốn sôố lượng sản phẩm bán ra
Hai bài tốn kiểm định trền cịn có thể giải quyềốt băềng cách so sánh
xác suấốt ý nghĩa tương ứng với mức ý nghĩa đã định. Kềốt quả của Excel và R
cho thấốy xác suấốt ý nghĩa của thôống kề F (Prob(F-statstc)) có giá tr ị băềng
0.005575, nhỏ hơn 0.05, vậy có thể bác bỏ giả thuyềốt H0 .

1.3.5 Phân tích ANOVA hồi qui bội:

16

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

Để rõ hơn chúng ta quay lại bảng kềốt quả trong ví dụ
Bảng kềốt quả tnh ANOVA trong phấền mềềm excel


(Program1-4)
Kềốt quả trong R

(Program1-5)
Trong bảng kềốt quả của phấền mềềm excel (hình 5) và kềốt qu ả c ủa
phấền mềềm R (hình 6) ta thấốy giá trị p = 0,0004 là rấốt nh ỏ, ta có th ể bác b ỏ
giả thuyềốt H0, có nghĩa là tơền tại mơối liền hệ tuyềốn tnh gi ữa tôốc đ ộ phát
triển kinh tềố với ít nhấốt một trong các yềốu tơố: nơng nghi ệp, xuấốt kh ẩu và
lạm phát

CHƯƠNG 2:
Phân tích hồi quy bội bằng phần mềm Excel

17

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

2.1 Triển khai hồi quy tuyến tính bội bằng Excel
Một tệp CSV mult2 chứa đơn hàng đôề uôống đấều tền được tều
thụ tại một nhà hàng / quán bar dựa trền 31 ngày đấều tền.
+ Ngày - ngày trong tháng;
+ x1 - Giá đơề ống trung bình;
+ x2 - Đơề uôống đã đặt;
+ x3 - Nhiệt độ ban ngày trung bình (F);
+ Y - thức ống cịn lại (pint).
Xấy dựng mơ hình hơềi quy tuyềốn tnh bội để dự đốn Y từ x1, x2 và x3.

Ngoài ra, hãy thềm vào khung dữ liệu, mult2, các giá trị được dự đoán
trong một cột

(Table 3)
Bước 1: ta chọn vào data rôềi chọn vào phấền data Anlysis seỹ hiện ra bảng
như trong hình và ta chọn vào chữ Regression

18

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

(Table-4)
Bước 2: Ta bấốm vào chữ ok trền bảng nó seỹ hiện ra bảng như sau:

(Table-5)
Bước 3: ta nhập phấền input Y Range( biềốn độc lập), input X Range( biềốn
phụ thuộc), Output Range, tch vào phấền Labels và phấền Con昀椀dence Level
ta được bảng như sau :

19

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

(Table-6)

Bước 4: Ta bấốm vào chữ ok trong bảng ta được kềốt quả như trong bảng :

(Table-7 )

20

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

2.2 Phân tích kết quả thu được
2.2.1 Bảng Regression Statistics

(Program 1-5)
Dựa bào kềốt quả bảng Regression Statstcs ta thấốy :
Adjusted R Square (hệ sơố R bình phương hiệu chỉnh) = 0.68, tức là 4 biềốn
độc lập(X1,X2,X3) đã đưa vào ảnh hưởng 68 % sự thay đổi của thức ống
cịn lại , 32% cịn lại là ảnh hưởng của sai sơố tự nhiền và biềốn ngồi mơ
hình.
2.2.2 Bảng ANOVA

(Program1-6)
Ta có
F = 1.782 > 0.05 ta không thể bác bỏ giả thuyềốt H0 => Giá đơề ống trung
bình, đơề ống đã đặt và Nhiệt độ ban ngày trung bình có ảnh hưởng đềốn
thức ống cịn lại
21

Downloaded by ng?c trâm ()



lOMoARcPSD|15963670

2.2.3 Bảng Coefficients

(program1-7)
Kềốt quả trền hai phấền mềềm exccel và phấền mềềm R ta thấốy ước 1=
2.133  2 = 0.216  3 = 0.034,4 = - 1.021 ta có: Phương trình hơềi
quy tuyềốn tnh bội như sau :
Thức ống còn lại = 2.134 + (-1.021*X1) + (0.216*X2) + (0.034*X3)
Từ phương trình hơềi qui bội ta có nhận xét:


Nềốu tơốc độ tăng của Nhiệt độ ban ngày trung bình (F) , Đôề

uôống đã đặt không đổi, tỷ lệ Giá đôề ống trung bình tăng 1% seỹ làm cho
giảm 0,076%. thức ống cịn lại


Nềốu tơốc độ tăng Giá đơề ống trung bình và nhiệt độ ban ngày

trung bình khơng đổi, 1% tăng của Đôề uôống đã đặt seỹ làm tăng 0.216 %
tăng trưởng của thức ống cịn lại


Nềốu tơốc độ tăng của Giá đơề ống trung bình, Đơề ống đã đặt

và Nhiệt độ ban ngày trung bình (F) băềng 0 thì nềền tăng của thức ống cịn
lại 2.134%.


22

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670



Nềốu tơốc độ tăng của Giá đơề ống trung bình và Đôề uôống đã

đặt không đổi , 1% tăng Nhiệt độ ban ngày trung bình (F) seỹ làm tăng
0,777% của nềền kinh tềố.

Chương 3
phân tích hồi quy tuyến tính bội bằng phần mềm R
3.1 Triển khai hồi quy tuyến tính bằng phần mềm R
Ví dụ 15. Để minh họa cho vấốn đềề, chúng ta th ử xem xét nghiền c ứu
sau đấy, mà trong đó nhà nghiền cứu đo lường độ cholestrol trong máu
của 18 đôối tượng nam. Tỉ trọng cơ thể (body mass index) cũng được ước
tnh cho môỹi đôối tượng băềng công thức tnh BMI là lấốy tr ọng l ượng (tnh
băềng kg) chia cho chiềều cao bình phương (m2). Kềốt quả đo lường như sau:
Độ tuổi, tỉ trọng cơ thể và cholesterol
Mã số ID

Độ tuổi

BMI


Cholesterol

(id)

(age)

(bmi)
25.4
20.6
26.2
22.6
25.4
23.1
22.7
24.9
19.8
25.3
23.2
21.8
20.9
26.7
26.4
21.2
21.2
22.8

(chol)

1
2

3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

46
20
52
30
57
25
28
36
22
43
57
33
22

63
40
48
28
49

3.5
1.9
4.0
2.6
4.5
3.0
2.9
3.8
2.1
3.8
4.1
3.0
2.5
4.6
3.2
4.2
2.3
4.0

23

Downloaded by ng?c trâm ()



lOMoARcPSD|15963670

. Chúng ta thử nhập sôố liệu này vào R và tnh hôềi quy ta được kềốt
quả như sau

(Program.1-8)

(Program.1-9)

3.2 Phân tích kết quả thu được

(Pr
24

Downloaded by ng?c trâm ()


lOMoARcPSD|15963670

ogram 1-10)
R bình phương hiệu chỉnh = 0.865 suy ra , tức là tuổi và bmi



ảnh hưởng 86,5 % sự thay đổi của Cholesterol , còn lại 13,5% là ảnh
hưởng của sai sơố tự nhiền
ta có p = 1,132 > 0.05 ta không thể bác bỏ giả thuyềốt H0 =>




tuổi và bmi có ảnh hưởng đềốn Cholesterol
Kềốt quả phấn tch trền cho thấốy ước sôố 1= 0.455  2 = 0.054

3 =0.0333. Nói cách khác, chúng ta có phương trình ước đốn độ

cholesterol dựa vào hai biềốn sơố độ tuổi và bmi như sau:
Cholesterol = 0.455 + 0.054(age) + 0.0333(bmi)
Phương trình cho biềốt khi độ tuổi tăng 1 năm thì cholesterol tăng
0.054 mg/L, và mơỹi 1 kg/m2 tăng BMI thì cholesterol tăng 0.0333 mg/L.
Hai yềốu tơố này “giải thích” khoảng 88.2% độ dao động củacholesterol giữa
các cá nhấn

3.1 biểu đồ tán xạ
Nhìn sơ qua sơố liệu chúng ta thấốy người có độ tuổi càng cao độ cholesterol
cũng càng cao. Chúng ta thử nhập sôố liệu này vào R và veỹ một biểu đôề tán
xạ như sau:
>data <- data.frame(AGE, BMI, CHOL)
>plot(CHOL ~ BMI, PCH=16)
>plot(CHOL

~

AGE,

25

Downloaded by ng?c trâm ()

PCH=16)



×