Tải bản đầy đủ (.doc) (82 trang)

Nghiên cứu một số mô hình hồi quy và ứng dụng trong bài toán dự báo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 82 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG
ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

NGUYỄN THỊ HUÂN

NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỒI QUY
VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO

LUẬN VĂN THẠC SĨ MÁY TÍNH

HÀ NỘI - 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG
ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

NGUYỄN THỊ HUÂN

NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỒI QUY
VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ MÁY TÍNH
Người hướng dẫn khoa học : TS. NGUYỄN LONG GIANG

HÀ NỘI - 2017


i


LỜI CẢM ƠN
Luận văn được hoàn thành tại Trường Đại học sư phạm Hà nội II.
Trước hết, em xin gửi lời cảm ơn chân thành đến các thầy cô giáo, Khoa công
nghệ thông tin, Phòng sau đại học Trường Đại học Sư phạm Hà Nội 2 đã tận
tình giảng dạy, truyền đạt những kiến thức, kinh nghiệm quý báu trong suốt
thời gian em theo học tại trường. Các kiến thức, kinh nghiệm quýbáu của các
thầy cô giáo không chỉ giúp cá nhân em hoàn thiện hệ thống kiến thức trong
học tập mà còn giúp em ứng dụng các kiến thức đó trong công tác hiện tại tại
đơn vị. Đặc biệt em xin bày tỏ lòng biết ơn chân thành và sâu sắc thầy hướng
dẫn khoa học TS. Nguyễn Long Giang, Viện Công nghệ thông tin - Viện
Hàn lâm Khoa học và Công nghệ Việt Nam đã nhiệt tình, tâm huyết trong
việc định hướng và giúp đỡ em hoàn thành luận văn này.
Em cũng xin được bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè đã
tạo điều kiện để cá nhân em có thể dành thời gian cho khóa học. Xin chân
thành cảm ơn tập thể lớp cao học K19- KHMT, trong 2 năm qua đã luôn luôn
động viên, khích lệ và hỗ trợ em trong quá trình học tập.
Trong quá trình thực hiện Luận văn mặc dù đã cố gắng hết mình, song
chắc chắn luận văn của em vẫn còn thiếu sót. Em rất mong nhận được sự chỉ
bảo vào đóng góp tận tình của các thầy cô để luận văn của em được hoàn
thiện hơn.
Hà Nội, ngày 10 tháng 11 năm 2017
Học viên

Nguyễn Thị Huân


ii

LỜI CAM ĐOAN
Tôi xin cam đoan những kết quả nghiên cứu được trình bày trong luận

văn là hoàn toàn trung thực, của tôi, không vi phạm bất cứ điều gì trong luật
sở hữu trí tuệ và pháp luật Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm
trước pháp luật.

Học viên

Nguyễn Thị Huân


3

MỤC LỤC
MỞ ĐẦU .................................................................................................................................... 1
1. Lý do chọn đề tài .................................................................................................................... 1
2. Mục đích nghiên cứu .............................................................................................................. 2
3. Nhiệm vụ nghiên cứu.............................................................................................................. 2
4. Đối tượng và phạm vi nghiên cứu .......................................................................................... 2
5. Phương pháp nghiên cứu ........................................................................................................ 2
NỘI DUNG ................................................................................................................................. 3
Chương 1. TỔNG QUAN VỀ HỒI QUY TUYẾN TÍNH.......................................................... 4
1.1. Giới thiệu về bài toán hồi quy.............................................................................................. 4
1.2. Các mô hình hồi quy ............................................................................................................ 6
1.2.1. Mô hình hồi quy tuyến tính............................................................................................... 6
1.2.2. Mô hình hồi quy logistic ................................................................................................... 6
1.2.3. Mô hình Logarit kép ........................................................................................................ 8
1.2.4. Mô hình Logarit-tuyến tính hay mô hình tăng trưởng ...................................................... 9
1.3. Các mô hình hồi quy tuyến tính ........................................................................................... 9
1.3.1. Mô hình hồi quy đơn giản.............................................................................................. 10
1.3.2. Mô hình hồi quy tuyến tính đa biến ................................................................................ 14
1.3.3. Mô hình ARIMA ............................................................................................................ 17

1.4. Một số đặc tính của mô hình hồi quy tuyến tính ............................................................... 25
1.5. Kết luận .............................................................................................................................. 26
Chương 2. TỔNG QUAN VỀ HỒI QUY PHI TUYẾN TÍNH ................................................ 27
2.1. Hồi quy đa thức.................................................................................................................. 27
2.2. Mô hình hồi quy cộng thêm (GAMs) ................................................................................ 29
2.2.1. Splines trơn ..................................................................................................................... 29
2.2.2. Mô hình hồi quy địa phương........................................................................................... 30
2.3. Vấn đề overfitting và regularization .................................................................................. 31
2.4. Kết luận .............................................................................................................................. 33
Chương 3. ĐÁNH GIÁ HIỆU QUẢ CỦA MÔ HÌNH HỒI QUY ........................................... 33
TRÊN DỮ LIỆU MẪU............................................................................................................. 33
3.1. Mục đích của thí nghiệm ................................................................................................... 33
3.2. Thu thập dữ liệu ................................................................................................................. 33


4

3.3. Các tham số của thí nghiệm ............................................................................................... 37
3.4. Công cụ và môi trường thử nghiệm ................................................................................... 38
3.4.1. Công cụ thử nghiệm........................................................................................................ 38
3.4.2. Môi trường thử nghiệm ................................................................................................... 40
3.5. Kết quả và nhận xét ........................................................................................................... 40
3.5.1. Kết quả sử dụng phương pháp hồi quy tuyến tính .......................................................... 40
3.5.2. Kết quả sử dụng phương pháp hồi quy ARIMA............................................................. 43
3.5.3. Kết quả thí nghiệm trên mô hình hồi quy đa thức .......................................................... 43
3.5.4. Kết quả thí nghiệm trên mô hình hồi quy sử dụng hàm GAMs...................................... 45
3.5.5. Kết quả sai số của 4 phương pháp .................................................................................. 46
3.6. Kết luận .............................................................................................................................. 46
Chương 4. DỰ BÁO CHỈ SỐ CPI VIỆT NAM ....................................................................... 49
4.1. Tổng quan về dự báo chuỗi thời gian ................................................................................ 49

4.2. Bài toán dự báo chỉ số giá tiêu dùng CPI .......................................................................... 50
4.3. Xây dựng bài toán và các tham số của bài toán ................................................................. 53
4.3.1. Xây dựng bài toán ........................................................................................................... 53
4.3.2. Các tham số của bài toán ................................................................................................ 53
4.4. Công cụ và môi trường thử nghiệm. .................................................................................. 57
4.5. Mô hình dự báo và kết quả ................................................................................................ 57
4.5.1. Kết quả ứng dụng mô hình hồi quy tuyến tính ............................................................... 57
4.5.2. Kết quả ứng dụng mô hình hồi quy tuyến tính ARIMA ................................................. 62
4.5.3. Kết quả ứng dụng mô hình hồi quy đa thức.................................................................... 63
4.5.4. Kết quả ứng dụng mô hình hồi quy sử dụng GAMs ....................................................... 64
4.5.5. Kết quả sai số ứng dụng 4 mô hình hồi quy ................................................................... 65
4.6. Kết luận .............................................................................................................................. 65
KẾT LUẬN, KHUYẾN NGHỊ................................................................................................. 67
1. Kết luận ................................................................................................................................. 67
2. Khuyến nghị.......................................................................................................................... 67
TÀI LIỆU THAM KHẢO ........................................................................................................ 69


5

DANH MỤC BẢNG BIỂU
Bảng 3.1. Thông tin về một số file dữ liệu thực nghiệm ..................................... 34
Bảng 3.2. Tạo các file thực nghiệm từ file dữ liệu thu thập ................................ 38
Bảng 3.3. Kêt quả của phương pháp hồi quy tuyên tính...................................... 41
Bảng 3.4. Mô hình hồi quy tuyến tính ................................................................. 42
Bảng 3.5. Kết quả của phương pháp hồi quy ARIMA ........................................ 43
Bảng 3.6. Kết quả sử dụng phương pháp hồi quy đa thức ................................... 44
Bảng 3.7. Kết quả sử dụng phương pháp hồi quy sử dụng hàm GAMs .............. 46
Bảng 3.8. Kêt quả sai số sử dụng 4 phương pháp hồi quy................................... 48
Bảng 4.1. CPI của Việt Nam từ tháng 1 năm 1997 đến tháng 12 năm 2016 [8]. 55

Bảng 4.2. Tạo các file thực nghiệm từ file dữ liệu thực tế CPI ........................... 57
Bảng 4.3. Mô hình hồi quy tuyến tính ................................................................. 61
Bảng 4.4. Kết quả phương pháp hồi quy tuyến tính ............................................ 62
Bảng 4.5. Kết quả phương pháp hồi quy tuyến tính ARIMA .............................. 62
Bảng 4.6. Kết quả phương pháp hồi quy đa thức................................................. 63
Bảng 4.7. Kết quả phương pháp hồi quy GAMs.................................................. 64
Bảng 4.8. Kết quả sai số của 4 phương pháp hồi quy .......................................... 66


6

DANH MỤC HÌNH VẼ
Hình 1.1. Biểu diễn tập dữ liệu quảng cáo.................................................................................. 4
Hình 1.2. Đồ thị của hàm sigmoid g(z)....................................................................................... 8
Hình 1.3. Mô hình hồi quy tuyến tính đơn biến........................................................................ 10
2

Hình 1.4. Giá trị R ................................................................................................................... 13
2

2

2

Hình 1.5. Phương pháp Bcillentine với R , (a) R = 0, (f) R =1 .................................... 14
Hình 1.6. Mô hình ba chiều, gôm hai biến dự báo và một biến phụ thuộc ................... 15
Hình 1.7. Quan hệ tuyến tính giữa X và Y ............................................................................... 25
Hình 2.1. Đồ thị mô hình hồi quy đa thức ................................................................................ 27
Hình 2.2. Hồi quy đa thức overfitting....................................................................................... 32
Hình 3.1. Giao diện làm việc trên ngôn ngữ R ........................................................................ 40

Hình 4.1. Chuỗi thời gian ......................................................................................................... 51


1

MỞ ĐẦU
1. Lý do chọn đề tài
Dự báo là một công việc quan trọng, không thể thiếu trong nhiều lĩnh
vực. Khi tiến hành dự báo người ta căn cứ vào xử lý dữ liệu thu thập được
trong quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng
trong tương lai nhờ vào một số mô hình toán học.
Dự báo thống kê là một phương pháp thống kê được dùng để lượng hóa
sự tiên đoán các nhân tố ảnh hưởng, các mối quan hệ nhân quả, các trạng thái
hay quá trình mới, chiều hướng biến động của hiện tượng trên cơ sở phân tích
thực trạng của đối tượng một cách khoa học. Dự báo tốt sẽ giúp cho các tổ
chức hoặc cá nhân có định hướng và kế hoạch phù hợp. Trong kinh doanh hay
trong lĩnh vực y học, dự báo là hết sức cần thiết, nó cung cấp cơ sở khoa học
để hoạch định chính sách kinh doanh phù hợp hoặc để có các phác đồ điều trị
bệnh hợp lý.
Hiện nay, có nhiều phương pháp dự báo khác nhau như dự báo bằng hệ
chuyên gia, dự báo bằng phương trình hồi quy, dự báo bằng chuỗi thời gian…
Nhưng dự báo bằng phương pháp hồi quy tuyến tính được ứng dụng rộng rãi
trong nhiều lĩnh vực nhất là kinh doanh và y học, nó có cơ sở khoa học rõ
ràng và mang lại kết quả với độ chính xác cao. Mô hình hồi quy tuyến tính
đưa ra các phương pháp ước lượng, kiểm định giả thiết và dự báo. Thuật ngữ
“hồi quy” được nhà nghiên cứu Francis Galton sử dụng lần đầu tiên vào cuối
thế kỷ 19 trong một nghiên cứu tại sao có sự ổn định chiều cao trung bình của
dân số. Từ đó trở đi, vấn đề hồi quy được quan tâm nhiều hơn và được nghiên
cứu sâu hơn. Trong đó, mô hình hồi quy tuyến tính được xem là nền tảng, là
cơ sở để xây dựng các đường hồi quy khác. Để hiểu rõ về các mô hình hồi

quy và ứng dụng trong dự báo chuỗi thời gian, luận văn đã lựa chọn đề tài
nghiên cứu, tiêu đề: “Nghiên cứu một số mô hình hồi quy và ứng dụng
trong bài toán dự báo”.


2. Mục đích nghiên cứu
Áp dụng một số mô hình hồi quy tuyến tính vào ứng dụng trong bài toán
dự báo chuỗi thời gian
3. Nhiệm vụ nghiên cứu
Với nội dung và nhiệm vụ chủ yếu là nghiên cứu các vấn đề liên quan
đến một số mô hình hồi quy tuyến tính, mô hình hồi quy phi tuyến và ứng
dụng các mô hình này trong thực tế.
4. Đối tượng và phạm vi nghiên cứu
Đối tượng và phạm vi nghiên cứu của đề tài luận văn này là một số mô
hình hồi quy tuyến tính, tuyến tính ARIMA, đa thức, cộng thêm (GAMs).
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu được sử dụng trong quá trình thực hiện luận
văn là phương pháp nghiên cứu lý thuyết và phương pháp thực nghiệm.
Bố cục của luận văn: Kết quả nghiên cứu đề tài của luận văn được trình
bày trong 69 trang, bao gồm 11 hình vẽ, đồ thị và 16 bảng số liệu, bố cục thành
04 chương nội dung, cùng với các phần Mở đầu, Kết luận và Tài liệu tham khảo.
Cụ thể, Chương 1 giới thiệu tổng quan về dự báo chuỗi thời gian, bài toán hồi
quy, các mô hình hồi quy, các mô hình hồi quy tuyến tính và một số đặc tính của
mô hình hồi quy tuyến tính. Trên cơ sở nghiên cứu tổng quan đó đưa ra kết luận;
Chương 2 trình bày một số mô hình hồi quy phi tuyến trên cơ sở những hạn chế
của mô hình hồi quy tuyến tính đưa ra một số các phương pháp mới nhằm khắc
phục những hạn chế đó, tìm hiểu mô hình hồi quy đa thức và hồi quy cộng thêm
(GAMs), đưa ra kết luận; Chương 3 phân tích hiệu quả của mô hình trên dữ liệu
mẫu, thu thập dữ liệu và thiết lập các tham số của thí nghiệm, đưa ra kết quả và
nhận xét, đánh giá; Chương 4 trình bày bài toán ứng dụng “Dự báo chỉ số CPI

của Việt Nam”, giới thiệu về bài toán, đưa ra mô hình dự báo, các tham số của
mô hình, kết quả và nhận xét.


NỘI DUNG
Luận văn gồm: Phần mở đầu, bốn chương chính, phần kết luận, danh
mục tài liệu tham khảo và phụ lục.
Bố cục như sau:
Phần mở đầu: Nêu lý do chọn đề tài và bố cục luận văn.

Chương 1. Tổng quan về hồi quy tuyến tính, giới thiệu tổng quan về dự
báo chuỗi thời gian, bài toán hồi quy, các mô hình hồi quy, các mô hình hồi quy
tuyến tính và một số đặc tính của mô hình hồi quy tuyến tính. Trên cơ sở nghiên
cứu tổng quan đó đưa ra kết luận.

Chương 2. Tổng quan về Mô hình hồi quy phi tuyến tính, trình bày một
số các phương pháp mới nhằm khắc phục những hạn chế của mô hình hồi quy
tuyến tính.

Chương 3. Đánh giá hiệu quả của mô hình trên dữ liệu mẫu, trình bày
thực nghiệm của các mô hình trên dữ liệu mẫu, qua đó đánh giá hiệu quả của
các phương pháp hồi quy nghiên cứu.

Chương 4. Dự báo chỉ số CPI Việt Nam, trong chương này, trình bày
kết quả nghiên cứu và thảo luận về ứng dụng các mô hình hồi quy đã được trình
bày ở trên vào bài toán cụ thể, đó là dự báo chỉ số CPI của Việt Nam. Trong đó,
kết quả cụ thể là tìm ra được mô hình dự báo và kết quả dự báo, trên cơ sở đó
đưa ra nhận xét, đánh giá về nghiên cứu định hướng ứng dụng vào thực tiễn.

Phần kết luận khuyên nghị: Tóm tắt các kết quả đạt được, hướng phát

triển tiếp theo.
Tài liệu tham khảo.


Chương 1. TỔNG QUAN VỀ HỒI QUY TUYẾN TÍNH
Chương 1 giới thiệu tổng quan về dự báo chuỗi thời gian, bài toán hồi
quy, các mô hình hồi quy, các mô hình hồi quy tuyến tính và một số đặc tính
của mô hình hồi quy tuyến tính. Trên cơ sở nghiên cứu tổng quan đó đưa ra
kết luận.
1.1. Giới thiệu về bài toán hồi quy
Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là
biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập
nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ
thuộc khi biết trước giá trị của biến độc lập [2].
Một số tên gọi khác của biến phụ thuộc và biến độc lập như sau:
- Biến phụ thuộc: biến được giải thích, biến được dự báo, biến được

hồi quy, biến phản ứng, biến nội sinh.
- Biến độc lập: biến giải thích, biến dự báo, biến hồi quy, biến tác

nhân hay biến kiểm soát, biến ngoại sinh.

Hình 1.1. Biểu diễn tập dữ liệu quảng
cáo
Để hiểu rõ hơn về bài toán hồi quy ta bắt đầu bằng một ví dụ sau: Một công
ty muốn được cung cấp lời khuyên về việc làm thế nào để cải thiện doanh số


bán hàng của một sản phẩm cụ thể. Các dữ liệu quảng cáo bao gồm doanh số
bán hàng (sales) của 200 sản phẩm khác nhau, cùng với ngân sách quảng cáo

chi cho các sản phẩm trong ba phương tiện truyền thông, gồm có TV, radio,
newspaper. Dữ liệu được biểu diễn theo sơ đồ trong hình 1.1.
Bài toán đặt ra là tìm mối liên hệ giữa doanh số bán hàng (sales) và
quảng cáo, sau đó đưa cho họ một hướng dẫn để họ điều chỉnh ngân sách
quảng cáo chi cho các phương tiện truyền thông, qua đó gián tiếp tăng doanh
số bán hàng. Nói cách khác, mục tiêu của chúng ta là phát triển một mô hình
chính xác mà có thể được sử dụng để dự đoán doanh số bán hàng trên cơ sở
của ba ngân sách
Trong bài toán này, ngân sách quảng cáo là các biến đầu vào, doanh số
bán hàng (sales) là một biến đầu ra. Các biến đầu vào ta ký hiệu là X, trong đó
X1 là ngân sách TV, X2 là ngân sách radio, X3 là ngân sách newspaper. Biến
đầu ra sales (biến phụ thuộc) ta ký hiệu là Y.
Tổng quát hơn, ta có một biến phụ thuộc Y và p biến độc lập, X 1, X2,
X3..., Xp, có một mối liên hệ giữa Y và X = {X1, X2, X3..., Xp} mà có thể viết
dưới dạng chung như sau:
Y= f(X) +�

(1.1)

là sai số ngẫu nhiên. f(X) là một giá trị mà chúng ta không xác định
được. Từ tập dữ liệu đầu vào X ta xác định giá trị dự đoán trên cơ sở sai số
bằng 0.

Y = f (X )

(1.2)

Trong đó, f là ước lượng của f và Y là giá trị dự báo của Y [4].
Việc xây dựng được một mô hình hồi quy hợp lý không phải là một bài
toán dễ. Đối với trường hợp đơn biến ta dễ dàng xây dựng được mô hình hồi

quy. Nhưng với dữ liệu đa biến thì việc xây dựng mô hình hồi quy đủ tốt phụ


thuộc vào rất nhiều yếu tố như: mối liên hệ giữa các biến, biến nào ảnh hưởng
nhiều đến mô hình, biến nào ít ảnh hưởng đến mô hình. Sau khi xây dựng
được mô hình phù hợp, bằng việc phân tích phần dư để đánh giá xem kết quả
dự báo có chính xác hay không.
1.2. Các mô hình hồi quy
1.2.1. Mô hình hồi quy tuyến tính
Mô hình hồi quy tuyến tính gồm có hai dạng là hồi quy tuyến tính đơn
biến và hồi quy tuyến tính đa biến [3].
Hồi quy tuyến tính đơn biến là tìm mối liên hệ giữa một biến phụ thuộc
và một biến độc lập. Mô hình tổng quát được viết dưới dạng sau:
Y = ß0 + ß1X1 + ε

(1.3)

Mô hình hồi quy tuyến tính đa biến là mối liên hệ giữa một biến phụ
thuộc và nhiều biến độc lập, được viết dưới dạng sau:
Y = ß0 + ß1X1 + ß2X2 + …. + ßpXp + ε

(1.4)

Trong đó, các giá trị ß0, ß1, ß2,… ßp là các tham số ước lượng của mô hình,
được gọi là hệ số hồi quy riêng hay các hệ số góc. Y là biến phụ thuộc, X i là
biến độc lập, ε là sai số ngẫu nhiên.
1.2.2. Mô hình hồi quy logistic
Chúng ta đã biết phân tích hồi quy là một phân tích thống kê nhằm xác
định mối quan hệ giữa một đối tượng đang được quan tâm (biến phụ thuộc)
và các đối tượng liên quan (các biến độc lập) để đưa ra kết luận có ý nghĩa

thống kê. Phương pháp hồi quy Logistic được sử dụng nhiều trong các bài
toán khi các biến phụ thuộc là nhị phân hay rời rạc [3].
Hồi quy Logistic được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau bao
gồm trang web, y tế, các lĩnh vực khoa khọc xã hội. Ví dụ như hồi quy
Logistic có thể được sử dụng để dự đoán liệu bệnh nhân có mắc bệnh nào đó
(chẳng hạn như bệnh tiểu đường) dựa trên các chỉ số quan sát được từ bệnh


nhân bao gồm: Giới tính, chỉ số khối của cơ thể, kết quả xét nghiệm máu...
Một ví dụ khác, hồi quy Logistic có thể ứng dụng để dự đoán xem một cử tri
người Mỹ sẽ bỏ phiếu cho đảng Dân chủ hay đảng Cộng hòa dựa vào tuổi tác,
thu nhập, giới tính, chủng tộc, tình trạng cư trú, phiếu trong các cuộc bầu cử
trước đó... Mô hình này cũng được sử dụng trong kỹ thuật, đặc biệt là để dự
đoán xác suất thất bại của một quy trình, một hệ thống hay một sản phẩm. Nó
cũng được sử dụng trong các ứng dụng tiếp thị như tiên đoán xu hướng của
khách hàng sẽ mua một sản phẩm hay tạm ngừng một thuê bao... Trong kinh
tế nó có thể được sử dụng để dự đoán khả năng vỡ nợ của một doanh nghiệp
dựa vào những con số thế chấp. Trong một dịch vụ ngân hàng trực tuyến nó
được sử dụng dự đoán độ tin cậy cho phép để thực hiện một giao dịch trên
các trang web căn cứ vào địa chỉ IP của người dùng, lịch sử giao dịch trong
quá khứ…
Hồi quy logistic là một phương pháp tiếp cận để nghiên cứu p(Y|X)
trong trường hợp Y có giá trị rời rạc, Y là một biến boolean và Y∈{0, 1}, X
=
(X1, ..., Xd) là vector bất kỳ với các tham số là rời rạc hoặc liên tục.
Mục tiêu của hồi quy logistic là ước tính trực tiếp xác suất p(Y|X) từ
dữ liệu huấn luyện. Mô hình hồi quy logistic được định nghĩa như sau:
(1.5)

(1.6)

Trong công thức (1.5)

xác suất để nhãn dữ liệu nhận giá trị

là 1 cho mẫu dữ liệu đầu vào là X.
Hàm g(z) được gọi là hàm logistic hoặc hàm sigmoid, với
Bằng cách quy ước cho X0 =1 (X =(X0, X1, ..., Xd)).


Hình 1.2. Đồ thị của hàm sigmoid
g(z)
Ta thấy g(z) có xu hướng hướng tới l khi z � + � , và g(z) có xu hướng
hướng tới 0 khi z � + � . Có thể nhận thấy g(z) hay p(Y|X) luôn nằm trong
đoạn [0, 1].
1.2.3. Mô hình Logarit kép
Mô hình logarit kép phù hợp với dữ liệu ở nhiều lĩnh vực khác nhau. Ví
dụ đường cầu với độ co dãn không đổi hoặc hàm sản xuất Cobb-Douglas.
Mô hình đường cầu:
Y � � 1 X � 2 + eε

(1.7)

Không thể ước lượng mô hình theo OLS (ordinary least squares) vì nó
phi tuyến trong tham số. Tuy nhiên nếu chúng ta lấy logarit hai vế thì ta được
mô hình:
ln(Y) = ln( �1 ) + �1 X + ε


*


Đặt Y = ln(Y) và �1* = ln( �1 ) ta được mô hình:
*

Y = �1
+
(1.8)

*

�2 X + ε

Mô hình này tuyến tính theo tham số nên có thể ước lượng theo OLS.
Theo phương pháp tổng phần dư nhỏ nhất theo OLS ta xác đinh được các
biến có trong mô hình chúng ta xác định được các tham số �1 và � 2 của mô
hình hồi quy cũng như các yếu tố khác có trong mô hình hồi quy
n
i �1

�e � �
2
i

n

(Yi � Yi ) � min
2

i �1

1.2.4. Mô hình Logarit-tuyến tính hay mô hình tăng trưởng

Gọi g là tốc độ tăng trưởng, t chỉ thời kỳ. Mô hình tăng trưởng như sau:
(1.9)

t

Yt = (1 + g) Y0
Lấy logarit hai vế của mô hình tăng trưởng trên, ta được:
ln(Y t) = t ln(1 + g) + ln(Y0)

Đặt Y1* = ln(Y t ), �1 = ln(Y0) và � 2 = ln(1 + g)) ta được mô hình hồi
quy:
Y1* = �1 + � 2 t + ε

(1.10)

Theo phương pháp tổng phần dư nhỏ nhất theo OLS ta xác đinh được
các biến có trong mô hình chúng ta xác định được các tham số �1 và � 2 của
mô hình hồi quy cũng như các yếu tố khác có trong mô hình hồi quy:



n

i
i �1

e� 2 �i

n


(Y � Y )2 � min

i
i �1

1.3. Các mô hình hồi quy tuyến tính
Hồi quy là phương pháp toán học được áp dụng thường xuyên trong
thống kê để phân tích mối liên hệ giữa các hiện tượng kinh tế xã hội. Hồi
quy tuyến tính được sử dụng rộng rãi trong thực tế do tính chất đơn giản


hóa của hồi quy. Hồi quy tuyến tính là một công cụ hữu ích để dự đoán và
định lượng. Hồi quy tuyến tính đã được ứng dụng trong nhiều lĩnh vực xã
hội như trong y học, kinh tế học, xã hội học...
1.3.1. Mô hình hồi quy đơn giản
Mô hình hồi quy đơn giản là giữa một biến phụ thuộc Y và một biến độc
lập X. Mối quan hệ giữa X và Y là tuyến tính [4]. Mô hình hồi quy tuyến tính
được viết như sau :
Y = �0 + � X + ε
1

(1.11)

Hình 1.3. Mô hình hồi quy tuyến tính đơn
biến
Trong đó, � 0 là giá trị chặn (Intercept) và �1 là độ dốc (slope) của mô
hình, ε là sai số ngẫu nhiên. ε là một biến số theo luật phân phối chuẩn với
trung bình 0 và phương sai � 2 .
� 0 , �1 là hai giá trị không biết chính xác, do vậy từ giá trị X mà ta thu thập


được phải ước tính các hệ số của mô hình là �1 , �2 ,� 2 .


y = � 0 + �1 x

(1.12)

Với y là biểu thị cho giá trị dự đoán Y, x = X.
1.3.1.1. Ước tính các tham số � 0 , �1 của mô hình hồi quy tuyến tính đơn
giản.
(xj yj), (x2 y2), (x3 y3).. (xn yn) là n cặp quan sát. Mục đích của hồi quy
tuyến tính là ước tính các tham số � 0 , �1 của mô hình hồi quy tuyến tính sao
cho biểu thị đúng các cặp dữ liệu mà chúng ta quan sát được, y i = � 0 + �1 xi
với i=1...n. Ta có ei = y i - y là sai số (residual) thứ i. Đây là sự khác biệt
giữa giá trị quan sát thứ i và giá trị thứ i được dự đoán bằng mô hình hồi quy
tuyến tính. Ta gọi tổng bình phương của phần dư là ESS (residual sum of
squares).
ESS = e 2 +2 e 2 +….+
1 e 2

(1.13)
n

2

ESS = ( y1 - � - � x + ( y � - � x 2 + … + ( y � - � x 2)
0
1 1
2
0

1 2
n
0
1 n
)
)
Phương pháp bình phương tối thiểu (the least squares) chọn � 0 , �1 sao cho
ESS đạt giá trị minimize [3]. Các hệ số ước tính của mô hình hồi quy
tuyến tính được tính theo phương pháp bình phương tối thiểu.

� �0

� �1

n

�[y - ( �
i

0

+ �1 xi )]2 = 0

�[y - ( �

0

+ �1 xi )]2 = 0

i �1


n

i �1

i

Lấy vi phân từng phần theo � 0 , �1 ta có:

� �0

n

n

i �1

i �1

�[yi - ( �0 +�1 xi )]2 = -2 � yi - ( �0 � �1 xi )




n

n

i �1


i �1

�[yi - (�0 +�1 xi )] 2 = -2 � (yi - �0 + �1 xi )xi

� �1

Xây dựng hệ phương trình ta có:
n

�y

i �1



n
i

n

i

= n �0 + �1 � x1
i �1

n

n

yi xi = �0 � i�1 xi � �1 � i�1 xi2


(1.14)

Giả hệ phương trình chuẩn trên ta được
n


�1 =

i
n



yi xi � � i �1 xi � i �1 yi
n

i

n

n

n�
(�

i

n


2

x �

x )

( x � x)( � y)
y

=

2

i �1

(1.15)

n


i �1

i

i �1

( xi � x) 2

i
i �1


�0 =



n
i �1


n�
(�

xi

2

n

n

yi � �
i �1

i �1
n
2

x �

i �1


Trong đó, y �

1
n

n



i

i �1

n

i �1

i

n



x

x)

i �1


2

i

xy
��

i

0

� y � � 1x

i

y và x �

(1.16)

1


n

i

n

x .


i �1

i

1.3.1.2. Đánh giá độ chính xác của mô hình hồi quy tuyến tính
Để đánh giá sự phù hợp của mô hình hồi quy tuyến tính ta tìm hiểu hai
2

khái niệm là sai số chuẩn RSE (residual standard error) và hệ số xác định R (R
squares) [4].
-Sai số chuẩn RSE (s hay � 2 ) là ước tính độ lệch chuẩn hay phương sai

của phần dư, đó là giá trị trung bình của các giá trị quan sát so với đường hồi quy,
được tính theo công thức sau:

RSE �

1
ESS �
n� 2

1



n

(

)2


n� 2
i �1


yi � yi
(1.17)


Sai số chuẩn được coi là giải pháp để đánh giá sự đúng đắn của mô hình
hồi quy tuyến tính, khi đó y i ≈ yi, sai số càng nhỏ thì giá trị dự báo càng gần với
giá trị quan sát, nghĩa là mô hình hồi quy là phù hợp.
2

- Hệ số xác định R

Một câu hỏi được đặt ra là làm thế nào chúng ta đo lường mức độ phù
hợp của hàm hồi quy tìm được cho dữ liệu mẫu. Thước đo độ phù hợp của mô
2

2

hình đối với dữ liệu là R . Để có cái nhìn trực quan về R , chúng ta xem xét
đồ thị hình 1.4.
2

R được tính theo công thức (1.18) sau: ESS �

2


R =
ESS

TSS �
TSS

n

Trong đó, TSS � � i �1 ( yi �

n
i �1

( yi � i y )

2

(1.18)

�1�
ESS
TSS

là tổng bình phương (total sum of

y)2
squares), là tổng số các biến thiên của các giá trị yi so với giá trị trung bình.

2


Hình 1.4. Giá trị R
2
2
2
ESS � e 1 � e 2 � ... � e 1 là tổng bình phương của phần dư. ESS là tổng số biến
thiên không giải thích được sau khi thực hiện hồi quy. Do đó, hiệu của TSS
2

và ESS biểu thị lượng biến thiên giải thích được bằng mô hình hồi quy. R là
2

tỷ lệ biến đổi trong Y có thể giải thích được bằng X [4], có giá trị 0 � R � 1
2

. Nếu R gần giá trị 1 cho thấy tỷ lệ lớn các biến thiên đã được giải thích bằng


hồi quy, do vậy mô hình hồi quy tuyến tính được đưa ra là phù hợp với dữ
2

liệu. Khi R gần 0 chỉ ra rằng hồi quy không giải thích được nhiều sự biến
thiên và mô hình hồi quy tuyến tính là không phù hợp hoặc lỗi � 2 là cao hoặc
2

cả hai trường hợp trên. Thể hiện giá trị R theo phương pháp đồ thị Venn, hay
là Ballentine như sau:

(a)

(d)


(b)

(c)

(e)

(f)
2

2

2

Hình 1.5. Phương pháp Bcillentine với R , (a) R = 0, (f) R =1
Trong hình 1.5, vòng tròn Y tượng trưng cho biến thiên trong
biến phụ thuộc Y và vòng tròn X tượng trưng cho biến thiên trong biến độc
lập X. Vùng chồng lên nhau của hai vòng tròn (vùng tối) chỉ rõ phạm vi mà
độ biến thiên trong Y được giải thích bởi biến thiên trong X (cho là theo
hướng hồi quy các bình phương tối thiểu thông thường OLS). Phạm vi vùng
chồng lên càng lớn, độ biến thiên trong Y được giải thích bởi X càng lớn. R

2

đơn giản là đại lượng đo bằng số cho vùng tối này. Trong hình, khi ta di
chuyển từ trái sang phải, vùng tối tăng dần nghĩa là tỷ lệ biến thiên trong Y
được giải thích bởi X tăng dần [3].
1.3.2. Mô hình hồi quy tuyến tính đa biến
Mô hình hồi quy tuyến tính đơn giản là một giải pháp hữu ích để dự
báo trên cơ sở một biến dự báo duy nhất. Tuy nhiên, trong thực tế chúng ta

thường có nhiều hơn một yếu tố dự báo. Ví dụ, trong bài toán ở phần 1.1 ta


thấy rằng có tới ba biến dự báo là TV, radio, newspaper (X1, X2, X3) và
chúng ta muốn biết sự ảnh hưởng của cả ba yếu tố này tới doanh thu bán hàng
(sales). Một giải pháp có thể được đưa ra là sử dụng 3 mô hình hồi quy đơn
giản cho ba biến, tuy nhiên, cách tiếp cận của mỗi mô hình hồi quy tuyến tính
đơn giản không hoàn toàn thảo mãn. Trước hết, nó không rõ ràng và nó
không là duy nhất cho mỗi phương tiện truyền thông vì mỗi phương tiện
truyềnthông gắn với một hàm hồi quy riêng. Thứ hai, một trong ba hàm hồi
quy bỏ qua hai phương tiện truyền thông khác khi thực hiện phân tích tương
quan. Do vậy, thay vì sử dụng hồi quy tuyến tính đơn giản riêng biệt cho từng
dự báo, một cách tiếp cận tốt hơn là mở rộng mô hình hồi quy tuyến tính đơn
giản để nó chứa nhiều hơn một yếu tố dự báo là mô hình hồi quy đa biến [4].
Dạng tổng quan của mô hình hồi quy đa biến:
Y = � 0 + �1 X1 + � 2 X2+...+ � p Xp + ε
(1.19)
Trong đó, Xj là các biến dự báo thứ j, và ßj là các hệ số của mô hình đa biến.
1.3.2.1. Ước tính các hệ số hôi quy của mô hình tuyến tính đa biến
Cũng giống như mô hình hồi quy tuyến tính đơn giản mà đã được đề cập tại
phần các tham số ß 0, ß 1,…, ß p không biết được, do vậy phải ước tính các hệ
số ß 0, 1,…, ß p và sử dụng công thức để dự báo sau:
y � �0 � �1x1 � �2 x2 � ... � � p
xp

(1.20)

Hình 1.6. Mô hình ba chiều, gôm hai biến dự báo và một biến phụ thuộc



Các tham số được ước tính giống phương phương pháp bình
phương tối thiểu đã được trình bày trong mô hình hồi quy tuyến tính
đơn giản. Chúng ta chọn ß 0 , ß 1 ,…, ß p ..., sao cho tổng bình phương
của phần dư là nhỏ nhất.

ESS � �

( 2y � y
) i
i
i �1
n

(1.21)

n

��

i1
i

0

i �1

2

i2


p

p

1

(y - � �
� ...
x � �
x � �
x )

2

Vì có nhiều biến dự báo nên giá trị của X là một ma trận n x pphần tử


được viết gọn lại Y � X � � � trong đó:

Áp dụng phương pháp bình phương tối thiểu để ước tính các giá trị
� sao cho sai số là nhỏ nhất

L( � ) � y � X �

2

Tìm � sao cho L( � ) đạt giá trị nhỏ nhất
2

� = argmin(L( � )) = argmin ||y — X � ||





T

[(y-X � ) (y-X � )]=0

��

T
T
[(y y-2y X � +

T

XT X � )]=0


��
XT X � =XT
y

(1.22)


×