Tải bản đầy đủ (.docx) (58 trang)

Khai phá dữ liệu đường xu hướng và phân tích hồi quy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.81 MB, 58 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN TOÁN ỨNG DỤNG & TIN HỌC

——————– * ———————

TIỂU LUẬN CUỐI KÌ MƠN KHAI PHÁ DỮ LIỆU
ĐƯỜNG XU HƯỚNG VÀ PHÂN TÍCH HỒI QUY

Giảng viên hướng dẫn: TS. LÊ CHÍ NGỌC
Lớp: Hệ thống thơng tin quản lý-K61


MỤC LỤC
DANH MỤC HÌNH ẢNH..................................................................................................2
LỜI MỞ ĐẦU....................................................................................................................4
NỘI DUNG......................................................................................................................... 5
1. Mơ hình hóa mối quan hệ và xu hướng dữ liệu...............................................................6
2. Hồi quy tuyến tính đơn biến..........................................................................................11
2.1 Tìm đường hồi quy phù hợp nhất:...........................................................................13
2.2 Hồi quy bình phương cực tiểu.................................................................................15
2.3 Hồi quy đơn biến với Excel.....................................................................................18
2.4 Hồi quy bằng phân tích phương sai.........................................................................21
2.5 Kiểm định các giả thuyết cho các hệ số hồi quy......................................................22
2.6 Khoảng tin cậy cho hệ số hồi quy............................................................................23
3. Phân tích phần dư và giả định hồi quy..........................................................................24
Kiểm định các giả thuyết...............................................................................................25
4.Hồi quy bội.................................................................................................................... 28
5. Phân tích trong thực tế: Sử dụng mơ phỏng hồi quy tuyến tính và mơ phỏng rủi ro để
dự đốn hiệu suất tại ARAMARK....................................................................................33
6. Xây dựng mơ hình hồi quy tốt......................................................................................35
6.1 Sự tương quan và Đa cộng tuyến.............................................................................38


6.2 Các vấn đề thực tế trong Mơ hình Đường xu hướng và Hồi quy.............................40
7. Hồi quy với các biến độc lập phân loại.........................................................................41
Các biến phân loại có nhiều hơn hai cấp độ...................................................................45
8. Mơ hình hồi quy phi tuyến............................................................................................48
9. Kỹ thuật nâng cao cho mơ hình hồi quy bằng XLMiner...............................................50
THUẬT NGỮ...................................................................................................................55

1


DANH MỤC HÌNH ẢNH
Hình 1: Excel Format Trendline.........................................................................................8
Hình 2: Dữ liệu bán hàng và đường hồi quy.......................................................................9
Hình 3: Biểu đồ giá dầu thơ..............................................................................................10
Hình 4: Phù hợp đa thức của giá dầu thơ..........................................................................11
Hình 5: Ví dụ về mối quan hệ các biến.............................................................................12
Hình 6: Một phần của giá trị thị trường nhà......................................................................13
Hình 7: Biểu đồ phân tán giá trị thị trường so với quy mơ nhà.........................................13
Hình 8: Hai đường hồi quy khả thi...................................................................................14
Hình 9: Đường hồi quy tuyến tính đơn phù hợp nhất.......................................................15
Hình 10: Đo lường các sai số trong mơ hình hồi quy........................................................17
Hình 11: Hộp thoại cơng cụ hồi quy Excel.......................................................................19
Hình 12: Phân tích hồi quy cơ bản, Output cho ví dụ giá trị thị trường nhà ở..................19
Hình 13: Residual Output.................................................................................................24
Hình 14: Biểu đồ phần dư.................................................................................................24
Hình 15: Biểu đồ của phần dư chuẩn................................................................................27
Hình 16: Một phần tệp Excel Các trường đại học và cao đẳng.........................................29
Hình 17: Kết quả hồi quy bội cho dữ liệu đại học và cao đẳng.........................................32
Hình 18: Phần dư cho biến Top 10% HS.........................................................................32
Hình 19: Cấu trúc của một mơ phỏng rủi ro tương tác......................................................34

Hình 20: Dữ liệu ngân hàng..............................................................................................36
Hình 21: Kết quả phân tích hồi quy Dữ liệu ngân hàng....................................................36
Hình 22: Sau khi loại bỏ Giá trị nhà ở..............................................................................37
Hình 23: Ma trận tương quan cho dữ liệu Các trường đại học và cao đẳng......................39
Hình 24: Ma trận tương quan cho dữ liệu Ngân hàng.......................................................39
Hình 25: Kết quả hồi quy..................................................................................................40
Hình 26: Dữ liệu lương nhân viên.....................................................................................43
2


Hình 27: Mơ hình hồi quy ban đầu cho lương nhân viên..................................................43
Hình 28: Dữ liệu về Lương nhân viên...............................................................................44
Hình 29: Kết quả hồi quy với thời hạn tương tác..............................................................44
Hình 30: Mơ hình hồi quy cuối cùng cho Dữ liệu lương..................................................45
Hình 31: Dữ liệu Hồn thành bề mặt................................................................................47
Hình 32: Ma trận dữ liệu Hồn thành bề mặt với biến giả...............................................48
Hình 33: Kết quả hồi quy cho dữ liệu bề mặt....................................................................48
Hình 34: Dữ liệu bán đồ uống...........................................................................................50
Hình 35: Đường hồi quy cho dữ liệu bán đồ uống............................................................50
Hình 36: Đường hồi quy Curvilinear cho dữ liệu bán đồ uống.........................................50
Hình 37: Dải băng XLMiner.............................................................................................52
Hình 38: Hộp thoại hồi quy tuyến tính XLMiner, Bước 1................................................53
Hình 39: Hộp thoại hồi quy tuyến tính XLMiner, Bước 2................................................53
Hình 40: Hộp thoại Best Subsets XLMiner......................................................................53
Hình 41: XLMiner Output Navigator...............................................................................54
Hình 42: XLMiner Regression Output..............................................................................54
Hình 43: XLMiner Best Subsets Results...........................................................................54

3



LỜI MỞ ĐẦU
Ngày nay, nhiều ứng dụng phân tích kinh doanh liên quan đến mối quan hệ giữa
một hoặc nhiều biến độc lập và một số biến phụ thuộc. Ví dụ như dự đoán mức doanh số
dựa trên giá cả hay một cơng ty có thể dự đốn doanh số dựa trên GDP của Hoa Kỳ (tổng
sản phẩm quốc nội) và lãi suất trái phiếu kho bạc 10 năm để nắm bắt ảnh hưởng của chu
kỳ doanh nghiệp, hoặc một nhà phân tích thị trường có thể dự đốn ý định mua ô tô dựa
trên một cuộc khảo sát đo lường thái độ của người tiêu dùng đối với thương hiệu, truyền
miệng tiêu cực và mức thu nhập.
Đường xu hướng và phân tích hồi quy là các cơng cụ để xây dựng các mơ hình như vậy
và dự đốn kết quả trong tương lai. Mục tiêu là đạt được sự hiểu biết cơ bản về cách sử
dụng và giải thích các đường xu hướng và mơ hình hồi quy, thống kê, các vấn đề liên
quan đến diễn giải kết quả phân tích hồi quy và thực tế, các vấn đề trong việc sử dụng
đường xu hướng và hồi quy làm công cụ để thực hiện và đánh giá quyết định.

4


NỘI DUNG
-

Giải thích mục đích của phân tích hồi quy và cung cấp ví dụ trong kinh doanh

-

Sử dụng biểu đồ Scatter để nhận dạng mối quan hệ giữa hai biến

-

Nêu ra những hàm tính tốn phổ biến được sử dụng trong dự đốn mơ hình


-

Sử dụng cơng cụ Excel Trenlines để fit mơ hình dữ liệu

-

Giải thích cách phương pháp bình phương cực tiểu tìm ra đường hồi quy tốt nhất
cho mơ hình

-

Sử dụng hàm Excel tìm ra hệ số hồi quy

-

Sử dụng công cụ Excel Regression cho cả hồi quy đơn và hồi quy bội

-

Giải thích các biến thống kê hồi quy và kết quả bằng công cụ Excel Regression

-

Rút ra kết luận

-

Giải thích khoảng tin cậy cho hệ số hồi quy


-

Tính tốn độ lệch chuẩn

-

Liệt kê các giả định của phân tích hồi quy và mơ tả các phương pháp để xác minh
chúng

-

Giải thích sự khác nhau của kết quả mơ hình hồi quy đơn và hồi quy bội

-

Áp dụng để xây dựng mơ hình hồi quy có kết quả tốt

-

Giải thích tầm quan trọng của tính đa hình trong mơ hình hồi quy

-

Xây dựng mơ hình hồi quy cho dữ liệu phân loại bằng cách sử dụng biến giả

-

Kiểm tra sự tương quan trong các mô hình hồi quy với các biến phân loại

-


Xác định khi mơ hình hồi quy đường cong hơn mơ hình tuyến tính

5


1. Mơ hình hóa mối quan hệ và xu hướng dữ liệu
Hiểu được cả tốn học và các thuộc tính mô tả mối quan hệ của các chức năng
khác nhau là vô cùng quan trọng trong việc xây dựng các mơ hình phân tích dự đốn.
Chúng ta thường bắt đầu bằng tạo một biểu đồ dữ liệu để hiểu nó và chọn loại chức năng
phù hợp để kết hợp thành một mơ hình phân tích. Đối với dữ liệu cắt ngang, ta sử dụng
một biểu đồ phân tán; đối với dữ liệu chuỗi thời gian, ta sử dụng biểu đồ đường.
Các loại hàm toán học phổ biến được sử dụng trong các mơ hình phân tích dự báo bao
gồm:
-

Hàm tuyến tính: y = a + bx. Hàm tuyến tính hiển thị tăng đều hoặc giảm trên phạm
vi của x. Đây là loại hàm đơn giản nhất được sử dụng trong mơ hình dự báo. Rất
dễ hiểu và trong phạm vi giá trị nhỏ, hành vi có thể gần đúng khá tốt.

-

Hàm số logarit: y = ln(x). Hàm logarit được sử dụng khi tốc độ thay đổi trong một
biến tăng hoặc giảm nhanh chóng và sau đó giảm cấp, chẳng hạn như với lợi nhuận
giảm dần theo quy mơ. Ví dụ, các hàm logarit thường được sử dụng trong các mơ
hình tiếp thị trong đó phần trăm tăng liên tục của quảng cáo dẫn đến tăng liên tục,
tuyệt đối trong doanh số bán hàng.

-


Hàm đa thức: y ¿ a x 2 + bx + c (hàm bậc hai), y = a x 3 + bx 2 + dx + e (hàm thứ ba
của khối thứ ba), v.v. Một đa thức bậc hai là parabol trong tự nhiên và chỉ có một
ngọn đồi hoặc thung lũng; một đa thức bậc ba có một hoặc hai ngọn đồi hoặc thung
lũng. Mơ hình doanh thu kết hợp độ co giãn giá thường là các hàm đa thức.

-

Hàm công suất: y = a x b. Các hàm công suất xác định các hiện tượng tăng ở mức tỷ
lệ cụ thể. Nghiên cứu các đường cong thể hiện thời gian cải thiện việc thực hiện
một nhiệm vụ thường được mơ hình hóa với các hàm cơng suất có a>0 và b< 0.

-

Hàm số mũ: y = a b x . Hàm số mũ có thuộc tính y tăng hoặc giảm với tốc độ tăng
liên tục. Ví dụ: cảm nhận độ sáng của một bóng đèn phát triển với tốc độ giảm dần
khi công suất tăng. Trong trường hợp này, a sẽ là số dương và b sẽ nằm trong

6


khoảng từ 0 đến 1. Hàm số mũ thường được định nghĩa là y = a e x, trong đó b = e,
cơ sở của logarit tự nhiên (khoảng 2.71828).
Công cụ Excel Trendline cung cấp một phương pháp thuận tiện để xác định mức phù hợp
nhất trong mối quan hệ chức năng giữa các lựa chọn thay thế cho một tập hợp dữ liệu.
Đầu tiên, click vào biểu đồ mà bạn muốn thêm một đường xu hướng; điều này sẽ hiển thị
menu Chart Tools. Chọn biểu đồ Chart Tools Design tab, sau đó bấm Add Chart Element
từ nhóm Chart Layouts. Từ menu con Trendline, bạn có thể chọn một trong các tùy chọn
(Linear là phổ biến nhất) hoặc More Trendline Options. . . . Nếu bạn chọn MoreTrendline
Options, bạn sẽ nhận được Format Trendline trong bảng tính (xem Hình 1). Một cách đơn
giản hơn để làm tất cả điều này là đúng, click vào chuỗi dữ liệu trong biểu đồ và chọn

Add trendline từ menu bật lên. Chọn nút cho loại mối quan hệ chức năng bạn muốn fit dữ
liệu. Kiểm tra các hộp cho Display Equation on chart và Display R-squared value on
chart. Bạn sau đó có thể đóng ngăn Format Trendline. Excel sẽ hiển thị kết quả trên biểu
đồ bạn đã chọn; bạn có thể di chuyển phương trình và giá trị R-squared để dễ đọc hơn kéo
chúng đến một vị trí khác. Để xóa đường xu hướng, nhấp chuột phải vào nó và chọn
Delete.
R2 (R-squared) là thước đo mức độ phù hợp của dữ liệu. Giá trị của R2 sẽ nằm trong

khoảng từ 0 đến 1. Giá trị của R2 càng lớn thì càng phù hợp. Ta sẽ thảo luận thêm về điều
này trong phân tích hồi quy.
Đường xu hướng có thể được sử dụng để mơ hình hóa mối quan hệ giữa các biến và hiểu
biến phụ thuộc hoạt động như thế nào khi biến độc lập thay đổi.

7


Hình 1: Excel Format Trendline

Ví dụ 1: Mơ hình hóa hàm cầu giá
Một nghiên cứu thị trường đã thu thập dữ liệu về khối lượng bán hàng cho các mức giá
khác nhau của một sản phẩm cụ thể. Dữ liệu và sơ đồ phân tán được hiển thị trong Hình 2
(Tệp Excel Dữ liệu bán hàng). Mối quan hệ giữa giá cả và doanh số rõ ràng là tuyến tính,
vì vậy một tuyến tính đường xu hướng phù hợp với dữ liệu. Mơ hình kết quả là:
Doanh số = 20,512 - 9,516 × Giá
Mơ hình này có thể được sử dụng làm hàm cầu khác trong tiếp thị hoặc phân tích tài
chính.
Đường xu hướng cũng được sử dụng rộng rãi trong các xu hướng mơ hình hóa theo thời
gian, đó là khi biến x trong các mối quan hệ chức năng đại diện cho thời gian. Ví dụ, một
nhà phân tích cho một hãng hàng khơng cần dự đốn giá nhiên liệu sẽ đi đâu và một nhà
phân tích đầu tư sẽ muốn để dự đoán giá cổ phiếu hoặc các chỉ số kinh tế quan trọng.

Ví dụ 2: Dự đốn giá dầu thơ
Hình 3 cho thấy một biểu đồ dữ liệu lịch sử về giá dầu thô vào thứ Sáu đầu tiên của mỗi
tháng từ tháng 1 năm 2006 đến tháng 6 năm 2008 (dữ liệu nằm trong tệp Excel Giá dầu
thô). Sử dụng công cụ Trendline, chúng ta có thể cố gắng khớp các chức năng khác nhau

8


cho các dữ liệu này (ở đây x đại diện cho số tháng bắt đầu từ tháng 1 năm 2006). Kết quả
như sau:
Hàm mũ: y = 50,49 e 0,021 x
Logarit: y = 13,02ln( x ) + 39,60

R2 = 0,664
R2 = 0,382

Đa thức (bậc hai): y = 0,130 x 2 - 2,399 x + 68,01
Đa thức (bậc ba): y = 0,005 x 3 - 0,111 x 2 + 0,648 x + 59,497
Cơng suất: y = 45,96 x 0,0169 R2= 0,387
Mơ hình phù hợp nhất là đa thức bậc ba, thể hiện trong hình 4.

Hình 2: Dữ liệu bán hàng và đường hồi quy

9

R2 = 0,90
R2 = 0,928


Hình 3: Biểu đồ giá dầu thơ


Hãy thận trọng khi sử dụng các hàm đa thức. Giá trị R2 sẽ tiếp tục tăng khi thứ tự của đa
thức tăng; nghĩa là, một đa thức bậc ba sẽ cung cấp một sự phù hợp tốt hơn so với đa thức
bậc hai, v.v. Đa thức bậc cao sẽ nói chung là khơng được trơn tru và sẽ khó diễn giải trực
quan. Vì vậy, không nên vượt quá đa thức bậc ba khi bị khớp dữ liệu!
Tất nhiên, mơ hình thích hợp để sử dụng phụ thuộc vào phạm vi của dữ liệu. Như biểu đồ
cho thấy, giá dầu thô tương đối ổn định cho đến đầu năm 2007 và sau đó bắt đầu tăng
nhanh. Bằng cách bao gồm dữ liệu ban đầu, mối quan hệ chức năng dài hạn có thể khơng
thể hiện đầy đủ xu hướng ngắn hạn. Ví dụ: việc khớp một mơ hình chỉ với dữ liệu bắt đầu
từ tháng 1 năm 2007 mang lại các mơ hình này:
Hàm mũ: y = 50,56 e 0,044 x R2 = 0,969
Đa thức (bậc hai): y = 0.121 x 2 + 1.232 x + 53.48 R2 = 0.968
Tuyến tính: y = 3,548 x + 45,76 R2 = 0,944

10


Hình 4: Phù hợp đa thức của giá dầu thơ

Sự khác biệt trong dự đốn có thể là đáng kể. Ví dụ: để dự đốn giá 6 tháng sau điểm dữ
liệu cuối cùng ( x = 36) mang lại $ 172,24 cho sự phù hợp đa thức bậc ba với tất cả dữ liệu
và $ 246,45 cho mơ hình hàm mũ chỉ với dữ liệu gần đây. Vì vậy, phân tích phải cẩn thận
để chọn lượng dữ liệu thích hợp cho phân tích. Câu hỏi sau đó trở thành một trong những
lựa chọn giả định tốt nhất cho mơ hình. Có hợp lý khơng khi cho rằng giá sẽ tăng theo cấp
số nhân hoặc có thể với tốc độ chậm hơn, chẳng hạn như với mơ hình tuyến tính phù hợp?
Hoặc, chúng sẽ chững lại và bắt đầu giảm nhanh? Rõ ràng, các yếu tố khác ngoài xu
hướng lịch sử sẽ tham gia vào sự lựa chọn này. Như chúng ta đã biết, giá dầu đã giảm
trong nửa cuối năm 2008; do đó, tất cả các mơ hình dự đốn là rủi ro.

2. Hồi quy tuyến tính đơn biến

Phân tích hồi quy là một công cụ để xây dựng các mơ hình tốn học và thống kê
đặc trưng cho mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập, hoặc
biến giải thích, tất cả đều là số.
Hai loại mơ hình hồi quy rộng được sử dụng thường xun trong business:
(1) mơ hình hồi quy của dữ liệu cắt ngang và (2) mơ hình hồi quy của chuỗi thời gian,
trong đó các biến độc lập là thời gian hoặc một số chức năng của thời gian và trọng tâm là
về dự đoán tương lai. Hồi quy chuỗi thời gian là một công cụ quan trọng trong dự báo.

11


Một mơ hình hồi quy liên quan đến một biến độc lập duy nhất được gọi là hồi quy đơn.
Một mơ hình hồi quy liên quan đến hai hoặc nhiều biến độc lập được gọi là hồi quy bội.
Trong phần cịn lại của chương này, chúng ta sẽ mơ tả cách phát triển và phân tích cả hai
mơ hình hồi quy đơn biến và đa biến.
Hồi quy tuyến tính đơn biến liên quan đến việc tìm mối quan hệ tuyến tính giữa một
biến độc lập X và một biến phụ thuộc Y. Mối quan hệ giữa hai biến có thể có nhiều dạng,
như được minh họa trong Hình 5. Mối quan hệ có thể là tuyến tính hoặc phi tuyến, hoặc
có thể khơng có mối quan hệ nào cả. Bởi vì chúng ta đang tập trung thảo luận về các mơ
hình hồi quy tuyến tính, điều đầu tiên cần làm là xác minh rằng mối quan hệ là tuyến tính,
như trong Hình 5 (a). Ta khơng mong đợi để thấy đường dữ liệu hoàn hảo dọc theo một
đường thẳng; ta chỉ đơn giản muốn xác minh rằng mối quan hệ giữa chúng là tuyến tính.
Nếu mối quan hệ rõ ràng là phi tuyến tính, như trong Hình 5 (b), thì phải sử dụng các
phương pháp thay thế và nếu không có mối quan hệ nào rõ ràng, như trong Hình 5 (c), thì
việc xem xét phát triển mơ hình hồi quy tuyến tính là vơ nghĩa.
Để xác định xem mối quan hệ tuyến tính có tồn tại giữa các biến khơng, ta nên tạo một
biểu đồ phân tán có thể hiển thị mối quan hệ giữa các biến một cách trực quan.

Hình 5: Ví dụ về mối quan hệ các biến


Ví dụ 3: Dữ liệu giá trị thị trường nhà ở
Giá trị thị trường của một ngôi nhà thường liên quan đến kích thước của nó. Trong tệp
Excel Giá trị thị trường nhà ở (xem Hình 6), dữ liệu thu được từ kiểm tốn viên của quận
cung cấp thơng tin về tuổi, diện tích và giá trị thị trường hiện tại của nhà ở trong một phân
khu cụ thể. Người ta có thể muốn điều tra mối quan hệ giữa giá trị thị trường và kích
thước của ngơi nhà. Biến độc lập X là số feet vuông và biến phụ thuộc Y là giá trị thị
12


trường. Hình 7 cho thấy một biểu đồ phân tán giá trị thị trường liên quan đến kích thước
của ngơi nhà. Nói chung, nhận thấy rằng giá trị thị trường cao hơn được liên kết với kích
thước nhà lớn hơn và mối quan hệ là xấp xỉ tuyến tính. Do đó, chúng ta có thể kết luận
rằng hồi quy tuyến tính đơn giản sẽ là một kỹ thuật thích hợp để dự đốn giá trị thị trường
dựa trên kích thước nhà.

Hình 6: Một phần của giá trị thị trường nhà

Hình 7: Biểu đồ phân tán giá trị thị trường so với quy mơ nhà

2.1 Tìm đường hồi quy phù hợp nhất:
Ý tưởng đằng sau hồi quy tuyến tính đơn là biểu thị mối quan hệ giữa các biến phụ
thuộc và biến độc lập bằng một phương trình tuyến tính đơn giản, chẳng hạn như
Giá trị thị trường = a + b * feet vng
Trong đó a là giao điểm y và b là độ dốc của đường. Nếu chúng ta vẽ một đường thẳng
qua dữ liệu, một số điểm sẽ nằm trên đường thẳng, một số điểm sẽ nằm dưới nó, và một
số có thể rơi vào đường chính nó. Hình 8 cho thấy hai đường thẳng có thể đi qua dữ liệu.
13


Rõ ràng, bạn sẽ chọn A là dòng phù hợp hơn B vì tất cả các điểm gần với dịng hơn và

dòng dường như nằm ở giữa dữ liệu. Sự khác biệt duy nhất giữa các dòng là giá trị của độ
dốc và phần bị chắn; do đó, chúng ta tìm cách xác định các giá trị của độ dốc và phần bị
chắn cung cấp đường phù hợp nhất.

Hình 8: Hai đường hồi quy khả thi

Ví dụ 4: Sử dụng Excel để tìm dịng hồi quy tốt nhất
Khi sử dụng cơng cụ Trendline để thực hiện hồi quy tuyến tính đơn biến trong ví dụ Giá
trị thị trường nhà ở, hãy đảm bảo tùy chọn chức năng tuyến tính được chọn. Hình 9 cho
thấy đường hồi quy phù hợp nhất.
Phương trình là giá trị thị trường = $ 32,673 + $ 35,036 × feet vng
Giá trị của đường hồi quy có thể được giải thích là: Giả sử người ta muốn ước tính giá trị
thị trường nhà cho bất kỳ ngôi nhà nào mà dữ liệu mẫu được thu thập. Nếu tất cả những gì
chúng ta biết là giá trị thị trường, thì ước tính tốt nhất về giá trị thị trường cho bất kỳ ngôi
nhà nào chỉ đơn giản là giá trị trung bình mẫu, là $ 92,069. Do đó, bất kể nhà có 1.500
feet vng hay 2.200 feet vng, ước tính tốt nhất về giá trị thị trường vẫn sẽ là $ 92,069.
Bởi vì các giá trị thị trường thay đổi từ khoảng 75.000 đô la đến hơn 120.000 đơ la, có
khá nhiều sự khơng chắc chắn trong việc sử dụng giá trị trung bình như ước tính. Tuy
nhiên, từ biểu đồ phân tán, chúng ta thấy rằng nhà lớn hơn có xu hướng có giá trị thị
trường cao hơn. Do đó, nếu chúng ta biết rằng một ngơi nhà có 2.200 feet vng, chúng ta

14


sẽ kỳ vọng ước tính giá trị thị trường sẽ cao hơn so với một ngơi nhà chỉ có 1.500 feet
vng. Ví dụ: giá trị thị trường ước tính của một ngơi nhà có 2.200 feet vng sẽ là
Giá trị thị trường = $ 32,673 + $ 35,036 × 2,200 = $ 109,752
Trong khi giá trị ước tính cho một ngơi nhà có 1.500 feet vng sẽ là
Giá trị thị trường = $ 32,673 + $ 35,036 × 1.500 = $ 85,227
Mơ hình hồi quy giải thích sự khác biệt về giá trị thị trường như là một hàm của kích

thước nhà và cung cấp các ước tính tốt hơn so với việc sử dụng trung bình của dữ liệu
mẫu. Một lưu ý quan trọng: thật nguy hiểm khi ngoại suy mơ hình hồi quy bên ngồi
phạm vi được bao phủ bởi các quan sát. Chẳng hạn, nếu bạn muốn dự đốn giá trị thị
trường của một ngơi nhà có 3.000 feet vng, kết quả có thể lệch và khơng chính xác, vì
ước tính mơ hình hồi quy khơng sử dụng bất kỳ quan sát nào lớn hơn 2.400 feet vuông.
Chúng ta không thể chắc chắn rằng phép ngoại suy tuyến tính sẽ giữ và khơng nên sử
dụng mơ hình để đưa ra dự đốn như vậy.

Hình 9: Đường hồi quy tuyến tính đơn phù hợp nhất

2.2 Hồi quy bình phương cực tiểu
Cơ sở toán học cho đường hồi quy phù hợp nhất được gọi là hồi quy bình phương
cực tiểu. Trong phân tích hồi quy, chúng ta giả sử rằng các giá trị của biến phụ thuộc Y,
trong dữ liệu mẫu được rút ra từ một số chưa biết cho mỗi giá trị của biến độc lập, X. Ví
15


dụ: trong dữ liệu Giá trị thị trường nhà ở, các quan sát đầu tiên và thứ tư đến từ một quần
thể nhà có 1.812 feet vng; quan sát thứ hai đến từ một quần thể nhà có 1.914 feet
vng;...
Bởi vì chúng ta giả sử rằng tồn tại mối quan hệ tuyến tính, giá trị mong đợi của Y là β 0 +
β 1X cho mỗi giá trị của X. Các hệ số β 0 và β 1 lần lượt là các tham số đại diện cho độ chặn

và độ dốc mà từ đó một mẫu quan sát được thực hiện. Hệ số chặn là giá trị trung bình của
Y khi X = 0 và độ dốc là thay đổi giá trị trung bình của Y khi X thay đổi theo một đơn vị.
Do đó, đối với một giá trị cụ thể của X, chúng ta có nhiều giá trị Y có thể thay đổi xung
quanh giá trị trung bình. Để giải thích cho điều này, người ta thêm một thuật ngữ sai số, ɛ
(chữ cái Hy Lạp epsilon), vào trung bình. Điều này định nghĩa một mơ hình hồi quy tuyến
tính đơn biến:
Y = β0 + β1 + ɛ


(8.1)

Tuy nhiên, vì ta khơng biết tồn bộ, nên khơng biết giá trị thực sự của β 0 và β 1. Trong
thực tế, chúng ta phải ước lượng những điều này tốt nhất có thể từ dữ liệu mẫu. Xác định
b 0 và b 1 là ước lượng của β 0 và β 1. Do đó, phương trình ước lượng hồi quy tuyến tính đơn

biến là:
Ŷ = b0 + b1X

(8.2)

Đặt Xi là giá trị của biến độc lập của quan sát thứ i. Khi giá trị của biến độc lập là X i, thì
Ŷi = b0 + b1Xi là giá trị ước tính của Y cho Xi.
Một cách để định lượng mối quan hệ giữa từng điểm và phương trình hồi quy ước tính là
đo khoảng cách dọc giữa chúng, như được minh họa trong Hình 10. Chúng ta có thể nghĩ
về những khác biệt này, ei, là các sai số quan sát được (thường được gọi là phần dư) liên
quan đến việc ước tính giá trị của biến phụ thuộc bằng cách sử dụng đường hồi quy. Do
đó, sai số liên quan đến quan sát thứ i là:
ei = Yi – Ŷi

16

(8.3)


Hình 10: Đo lường các sai số trong mơ hình hồi quy

Đường phù hợp nhất nên giảm thiểu một số biện pháp của các sai số này. Bởi vì một số
sai số sẽ là tiêu cực và những sai số khác là tích cực, ta có thể lấy giá trị tuyệt đối của

chúng hoặc chỉ đơn giản là bình phương chúng. Về mặt toán học, ta dễ dàng hơn để làm
việc với các bình phương của các sai số. Thêm bình phương của các sai số, chúng ta có
được:
n

n

i=1

i=1

∑ ei2= ∑ ¿¿

(8.4)

Nếu chúng ta có thể tìm thấy các giá trị tốt nhất của độ dốc và hệ số chặn để giảm thiểu
tổng bình phương của các sai số được quan sát ei, chúng ta sẽ tìm thấy đường hồi quy phù
hợp nhất. Lưu ý rằng Xi và Yi là các giá trị của dữ liệu mẫu và b0 và b1 là ẩn số trong
phương trình (8.4). Sử dụng phép tính, chúng ta có thể chỉ ra rằng giải pháp đó giảm thiểu
tổng bình phương của các sai số quan sát được:

Ví dụ 5: Sử dụng các hàm Excel để tìm hệ số bình phương nhỏ nhất
Đối với tệp Excel Giá trị thị trường nhà ở, phạm vi của biến phụ thuộc Y (giá trị thị
trường) là C4: C45; các phạm vi của biến độc lập X (feet vuông) là B4: B45. Hàm
INTERCEPT (C4: C45, B4: B45) mang lại năng suất b0 = 32,673 và SLOPE (C4: C45,
B4: B45) b1 = 35.036, như chúng ta đã thấy trong ví dụ 4. Độ dốc cho chúng ta biết rằng
17


với mỗi foot vuông bổ sung, giá trị thị trường tăng thêm $ 35,036. Chúng ta có thể sử

dụng hàm Excel TREND(known_y’s,known_x’s, new_x’s) để ước lượng Y cho bất kỳ giá
trị nào của X; ví dụ, đối với một ngơi nhà có 1.750 feet vng, giá trị thị trường ước
lượng là TREND (C4: C45, B4: B45, 1750) = 93.986 đô la.
Chúng ta có thể dừng lại tại thời điểm này, bởi vì đã tìm thấy đường phù hợp nhất cho dữ
liệu được quan sát. Tuy nhiên, có nhiều hơn nữa để phân tích hồi quy từ góc độ thống kê,
bởi vì ta đang làm việc với dữ liệu mẫu và thường là các mẫu khá nhỏ mà ta biết có rất
nhiều biến thể so với tồn bộ. Do đó, điều quan trọng là phải hiểu một số thuộc tính thống
kê liên quan đến phân tích hồi quy.
2.3 Hồi quy đơn biến với Excel
Các cơng cụ phần mềm phân tích hồi quy có sẵn trong Excel cung cấp nhiều thơng
tin về các thuộc tính thống kê của phân tích hồi quy. Cơng cụ hồi quy Excel có thể được
sử dụng cho cả hồi quy tuyến tính đơn biến và đa biến. Hiện tại, hãy tập trung vào việc sử
dụng công cụ chỉ để hồi quy tuyến tính đơn.
Từ menu Data Analysis trong nhóm Analysis trong tab Data, chọn cơng cụ Regression.
Hộp thoại hiển thị trong Hình 11 được hiển thị. Trong hộp cho Input Y Range, chỉ định
phạm vi của các giá trị biến phụ thuộc. Trong hộp cho Input X Range, chỉ định phạm vi
cho các giá trị biến độc lập. Kiểm tra Labels nếu phạm vi dữ liệu có nhãn mơ tả (nên sử
dụng nhãn này). Bạn có tùy chọn buộc chặn bằng 0 bằng cách kiểm tra Constant là Zero;
tuy nhiên, thường sẽ khơng chọn hộp này vì thêm một thuật ngữ chặn cho phép phù hợp
hơn với dữ liệu. Bạn cũng có thể đặt Confidence Level (mặc định 95% thường được sử
dụng) để cung cấp khoảng tin cậy cho các tham số chặn và độ dốc. Trong phần Residuals,
bạn có tùy chọn bao gồm bảng đầu ra dư bằng cách chọn các hộp cho Residuals,
Standardized Residuals, Residual Plots, and Line Fit Plots. Residual Plots phù hợp. Các
phần dư tạo ra một biểu đồ cho từng biến độc lập so với phần dư và Line Fit Plots tạo một
biểu đồ phân tán với các giá trị được dự đốn bởi mơ hình hồi quy đi kèm (tuy nhiên, việc
tạo biểu đồ phân tán với đường xu hướng được thêm vào sẽ vượt trội hơn so với những gì
18


công cụ này cung cấp) . Cuối cùng, bạn cũng có thể chọn để Excel xây dựng một biểu đồ

xác suất bình thường cho biến phụ thuộc, biến đổi thang xác suất tích lũy (trục tung) để
đồ thị của phân phối chuẩn tích lũy là một đường thẳng. Các điểm càng gần với một
đường thẳng, càng phù hợp với phân phối bình thường.
Hình 12 cho thấy đầu ra phân tích hồi quy cơ bản được cung cấp bởi công cụ Hồi quy
Excel cho dữ liệu Giá trị thị trường nhà ở. Input bao gồm ba phần: Thống kê hồi quy
(hàng 3-8) ANOVA (hàng 10-14) và phần không được gắn nhãn ở dưới cùng (hàng 1618) với các thông tin thống kê khác. Các ước lượng bình phương nhỏ nhất của độ dốc và
tham số chặn được tìm thấy trong cột Coefficients trong phần dưới cùng của Output.

Hình 11: Hộp thoại công cụ hồi quy Excel

19



×