Tải bản đầy đủ (.pdf) (62 trang)

NGHIÊN CỨU CÁC PHƯƠNG PHÁP ĐIỀU HÒA TRONG HỌC MÁY

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.53 MB, 62 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ

NGUYỄN MẠNH HƯNG

NGHIÊN CỨU CÁC PHƯƠNG PHÁP ĐIỀU HÒA
TRONG HỌC MÁY

LUẬN VĂN THẠC SĨ
Chuyên ngành: Khoa học máy tính

Hà Nội - Năm 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ

NGUYỄN MẠNH HƯNG

NGHIÊN CỨU CÁC PHƯƠNG PHÁP ĐIỀU HÒA
TRONG HỌC MÁY
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

CÁN BỘ HƯỚNG DẪN KHOA HỌC
Cán bộ hướng dẫn chính: TS. Nguyễn Quang Uy

Hà Nội - Năm 2016



CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
HỌC VIỆN KỸ THUẬT QUÂN SỰ
Cán bộ chấm phản biện 1: ...................................................................................
Cán bộ chấm phản biện 2: ...................................................................................
Luận văn thạc sĩ được bảo vệ tại:
HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ
HỌC VIỆN KỸ THUẬT QUÂN SỰ
Ngày…tháng…năm 2016


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Nguyễn Mạnh Hưng
Đề tài luận văn: Nghiên cứu các phương pháp điều hòa trong học máy
Chuyên ngành: Khoa học máy tính
Mã số: 60480101
Cán bộ hướng dẫn: TS. Nguyễn Quang Uy
Tác giả, cán bộ hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận
tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày

với

các nội dung như sau:
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
Ngày ..... tháng .... năm 2016
Cán bộ hướng dẫn


Tác giả luận văn

(Ký và ghi rõ họ tên)

(Ký và ghi rõ họ tên)

Nguyễn Quang Uy

Nguyễn Mạnh Hưng

CHỦ TỊCH HOẶC THƯ KÝ HỘI ĐỒNG
(Ký và ghi rõ họ tên)


Tôi xin cam đoan:
Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn
trung thực, của tôi, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và
pháp luật Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật.

TÁC GIẢ LUẬN VĂN
(Ký và ghi rõ họ tên)

Nguyễn Mạnh Hưng


MỤC LỤC
Trang
Trang phụ bìa:.....................................................................................................
Bản xác nhận chỉnh sửa luận văn:.......................................................................

Bản cam đoan: ....................................................................................................
Mục lục:...............................................................................................................
Tóm tắt luận văn:.................................................................................................
Danh mục các ký hiệu, viết tắt, các bảng, các hình vẽ (nếu có)..........................
MỞ ĐẦU .......................................................................................................... 1
Chương 1. TỔNG QUAN VỀ HỌC MÁY .................................................... 3
1.1. Giới thiệu tổng quan về học máy ............................................................... 3
1.2. Hồi quy Logistic ......................................................................................... 6
1.2.1. Bài toán hồi quy ................................................................................ 6
1.2.2. Mô hình hồi quy Logistic.................................................................. 9
1.2.3. Lập dự đoán .................................................................................... 14
1.2.4. Hồi quy Logistic đa biến................................................................. 14
1.3. Hồi quy Logistic cho nhiều lớp ................................................................ 15
1.4. Kết luận .................................................................................................... 15
Chương 2. ĐIỀU HÒA VÀ LỰA CHỌN MÔ HÌNH ................................ 16
2.1. Giới thiệu về lựa chọn mô hình................................................................ 16
2.2. Hồi quy chóp ............................................................................................ 18
2.3. Lasso......................................................................................................... 21
2.4. Cross validation ........................................................................................ 26


2.4.1. Holdout (Splitting) .......................................................................... 26
2.4.2. Leave-one-out cross validation ....................................................... 27
2.4.3. K-fold cross validation.................................................................... 28
2.5. Kết luận .................................................................................................... 30
CHƯƠNG 3. THỰC NGHIỆM ĐÁNH GIÁ .............................................. 31
3.1. Đánh giá trên bài toán 2 lớp ..................................................................... 31
3.1.1. Các tham số và kết quả thực nghiệm .............................................. 32
3.1.2. Kết quả ............................................................................................ 33
3.2. Đánh giá trên bài toán nhiều lớp .............................................................. 39

3.2.1. Các tham số và kết quả thực nghiệm .............................................. 40
3.2.2. Kết quả ............................................................................................ 40
3.3. Ứng dụng trong nhận dạng chữ số viết tay .............................................. 44
3.4. Kết luận .................................................................................................... 48
KẾT LUẬN VÀ KHUYẾN NGHỊ ............................................................... 49
1. Kết luận ....................................................................................................... 49
2. Khuyến nghị ................................................................................................ 49
PHỤ LỤC THAM KHẢO ............................................................................ 51


TÓM TẮT LUẬN VĂN

Họ và tên học viên: Nguyễn Mạnh Hưng
Chuyên ngành: Khoa học máy tính

Khoá: 26B

Cán bộ hướng dẫn: TS. Nguyễn Quang Uy
Tên đề tài: Các phương pháp điều hòa trong học máy
Tóm tắt: Luận văn nghiên cứu tổng quan về các phương pháp điều hòa
(Regularization) phổ biến trong học máy, cài đặt các phương pháp điều hòa
trong hồi quy Logistic. Cụ thể là, luận văn tập trung nghiên cứu vào các kỹ
thuật thống kê, về học máy, lý thyết về mô hình hồi quy Logistic và các phương
pháp điều hòa. Đã cài đặt thử nghiệm một số kỹ thuật với các tập dữ liệu
Logistic và áp dụng bài toán cụ thể.


DANH MỤC HÌNH VẼ
Hình 1.1. Học máy ............................................................................................ 3
Hình 2.1. Các hệ số hồi quy chóp được hiển thị cho tập dữ liệu tín dụng ...... 19

Hình 2.2. Biều đồ dự đoán sử dụng hồi quy chóp .......................................... 20
Hình 2.3. Các hệ số Lasso chuẩn trên tập dữ liệu tín dụng............................. 22
Hình 2.4. Mô tả hàm lỗi và giới hạn của Lasso và mô hình chóp .................. 24
Hình 2.5. So sánh giữa Lasso và hồi quy chóp ............................................... 25
Hình 2.6. Phương pháp Leave – One - Out..................................................... 28
Hình 2.7. Phương pháp K-fold cross validation ............................................. 30


DANH MỤC BẢNG BIỂU
Bảng 1.1. Hệ số ước tính của mô hình hồi quy Logistic sử dụng Balance ..... 13
Bảng 3.1. Thông tin về các dữ liệu thử nghiệm cho bài toán 2 lớp ................ 31
Bảng 3.2. Các tham số của thực nghiệm bài toán 2 lớp.................................. 33
Bảng 3.3. Kết quả bài toán Breast cancer và Banknote authentication .......... 34
Bảng 3.4. Kết quả bài toán Spambase và Magic Gamma Telescope.............. 35
Bảng 3.5. Mô hình thực nghiệm của bài toán 2 lớp ........................................ 36
Bảng 3.6. Thông tin về các dữ liệu thử nghiệm cho bài toán nhiều lớp ......... 39
Bảng 3.7. Các tham số của thực nghiệm bài toán nhiều lớp ........................... 40
Bảng 3.8. Kết quả bài toán Heart Disease và User Knowledge Modeling ..... 41
Bảng 3.9. Mô hình của dữ liệu Heart Disease ................................................ 42
Bảng 3.10. Mô hình của dữ liệu User Knowledge Modeling ......................... 44
Bảng 3.11. Phân bố lớp của dữ liệu chữ số viết tay ........................................ 46
Bảng 3.12. Kết quả thí nghiệm của bài toán nhận dạng chữ số viết tay ......... 47
Bảng 3.13. Số biến trong các mô hình bài toán nhận dạng chữ số viết tay .... 48


1

MỞ ĐẦU
Học máy là một phương pháp để tạo ra các chương trình máy tính bằng
việc phân tích các tập dữ liệu. Học máy có liên quan lớn đến thống kê, vì cả hai

lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học
máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán.
Học máy có tính ứng dụng rất cao bao gồm máy truy tìm dữ liệu, chẩn đoán y
khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại
các chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động….
Một trong những vấn đề quan trọng trong học máy là việc lựa chọn mô
hình lời giải. Một trong những tiêu chuẩn được sử dụng phổ biến trong lựa chọn
mô hình lời giải là dựa trên giá trị lỗi của mô hình trên tập huấn luyện. Mô hình
có giá trị lỗi càng nhỏ càng có khả năng được lựa chọn cho việc dự báo tương
lai. Tuy nhiên nếu chỉ dựa vào lỗi để lựa chọn mô hình thì có thể dẫn đến mô
hình bị quá khớp trên tập dữ liệu huấn luyện và vì vậy sẽ kém khi đưa ra dự
báo. Mục tiêu của đề tài này là nghiên cứu các phương pháp lựa chọn mô hình
trong học máy đặc biệt là trong học máy thông kê.
Với mục tiêu chính là tìm hiểu và áp dung một số phương pháp lựa chọn
mô hình cho hồi quy Logistic áp dụng vào lớp bài toán phân loại, dán nhãn,
nhận dạng tự động…, luận văn được trình bày trong ba chương với bố cục như
sau:
Chương 1: Tổng quan về học máy: Giới thiệu tổng quan về học máy,
các phương pháp học máy. Tìm hiểu mô hình hồi quy Logistic, áp dụng mô
hình hồi quy Logistic cho bài toán phân lớp.


2

Chương 2: Điều hòa và lựa chọn mô hình: Đưa ra vấn đề về điều hòa
và lựa chọn mô hình. Giới thiệu các vấn đề liên quan đến quy trình trong việc
lựa chọn các mô hình tốt nhất.
Chương 3: Thực nghiệm đánh giá: Tiến hành thực nghiệm trên tập dữ
liệu mẫu theo các phương pháp, từ đó đưa ra kết quả và nhận xét đánh giá.



3

Chương 1. TỔNG QUAN VỀ HỌC MÁY
Chương 1 giới thiệu về tổng quan về học máy, bài toán hồi quy, giới
thiệu về mô hình hồi quy Logistic, phương pháp huấn luyện mô hình hồi quy
Logistic, trên cơ sở đó đưa ra kết luận đánh giá.
1.1. Giới thiệu tổng quan về học máy
Học máy (Machine Learning) là xu hướng phát triển mới của lĩnh vực
Trí tuệ nhân tạo và ngày càng có nhiều ứng dụng trong thực tế. Trí tuệ nhân tạo
là lĩnh vực rộng nhất của Khoa học máy tính và có rất nhiều nhánh con như:
Học máy, biểu diễn tri thức và suy luận, xử lý ngôn ngữ tự nhiên, thị giác máy
tính …

Hình 1.1. Học máy
Có thể nói rằng, học máy là một nhánh nghiên cứu nhỏ trong lĩnh vực
Trí tuệ nhân tạo, là một ngành khoa học nghiên cứu các thuật toán cho phép


4

máy tính có thể học được khái niệm. Học máy cho phép máy tính có khả năng
học hỏi và lấy kinh nghiệm như con người để có thể giải quyết một vấn đề cụ
thể nào đó.
Học máy là một phương pháp phân tích dữ liệu mà sẽ tự động hóa việc
xây dựng mô hình phân tích. Sử dụng các thuật toán lặp để học từ dữ liệu, học
máy cho phép máy tính tìm thấy những thông tin giá trị ẩn sâu mà không được
lập trình một cách rõ ràng.
Theo Arthur Samuel: Học máy là ngành học cung cấp cho máy tính khả
năng học hỏi mà không cần được lập trình một cách rõ ràng [1].

Phân loại: Có hai phương pháp học máy chính:
- Phương pháp quy nạp: Máy học/phân biệt các khái niệm dựa trên dữ
liệu đã thu thập được trước đó. Phương pháp này cho phép tận dụng
được nguồn dữ liệu rất nhiều và sẵn có.
- Phương pháp suy diễn: Máy học/phân biệt các khái niệm dựa vào các
luật. Phương pháp này cho phép tận dụng được các kiến thức chuyên
ngành để hỗ trợ máy tính.
Các nhóm giải thuật học máy: Học máy được chia làm 3 loại chính là:
Học có giám sát (Supervised learning), học không giám sát (Unsupervised
learning), học tăng cường (Reinforcement learning) [6]. Trong đó phổ biến nhất
là 2 loại học có giám sát và học không giám sát.
- Học có giám sát: Máy tính được xem một số mẫu gồm đầu vào (input)
và đầu ra (output) tương ứng trước. Sau khi học xong các mẫu này,
máy tính quan sát một đầu vào mới và cho ra kết quả.


5

- Học không giám sát: Máy tính chỉ được xem các mẫu không có đầu
ra, sau đó máy tính phải tự tìm cách phân loại các mẫu này và các
mẫu mới.
- Học tăng cường: Máy tính đưa ra quyết định hành động và nhận kết
quả phản hồi từ môi trường. Sau đó máy tính tìm cách chỉnh sửa cách
ra quyết định hành động của mình.
Các ngành khoa học có liên quan:
- Lý thuyết thống kê: các kết quả trong xác suất thống kê là tiền đề cho
rất nhiều phương pháp học máy. Đặc biệt, lý thuyết thống kê cho phép
ước lượng sai số của các phương pháp học máy.
- Các phương pháp tính: các thuật toán học máy thường sử dụng các
tính toán số thực/số nguyên trên dữ liệu rất lớn. Trong đó, các bài

toán như: tối ưu có/không ràng buộc, giải phương trình tuyến tính
v.v… được sử dụng rất phổ biến.
- Khoa học máy tính: là cơ sở để thiết kế các thuật toán, đồng thời đánh
giá thời gian chạy, bộ nhớ của các thuật toán học máy.
Ứng dụng: Học máy có ứng dụng rộng khắp trong các ngành khoa
học/sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ.
Một số ứng dụng thường thấy:
- Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn
bản, giao tiếp người – máy, …
- Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay,
vân tay, thị giác máy (Computer Vision), …
- Tìm kiếm (Search Engine).
- Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chuẩn
đoán tự động.


6

- Sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein.
- Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt, …
- Phát hiện gian lận tài chính (financial fraud): gian lận thẻ tín dụng.
- Phân tích thị trường chứng khoán (stock market analysis).
- Chơi trò chơi: tự động chơi cờ, hành động của các nhân vật ảo.
- Robot: là tổng hợp của rất nhiều ngành khoa học, trong đó học máy
tạo nên hệ thần kinh/bộ não của người máy.
1.2. Hồi quy Logistic
1.2.1. Bài toán hồi quy
Học máy có mối quan hệ rất mật thiết đối với thống kê. Học máy sử dụng
các mô hình thống kê để “ghi nhớ” lại sự phân bố của dữ liệu. Tuy nhiên, không
đơn thuần là thống kê dữ liệu, học máy phải có khả năng tổng quát hóa những

gì đã được nhìn thấy và đưa ra dự đoán cho những trường hợp chưa được nhìn
thấy. Chúng ta có thể hình dung một mô hình học máy mà không có khả năng
tổng quát như một đứa trẻ học vẹt: chỉ trả lời được những câu trả lời mà nó đã
học thuộc lòng đáp án. Khả năng tổng quát là một khả năng tự nhiên và kì diệu
của con người: bạn không thể nhìn thấy tất cả các khuôn mặt người trên thế
giới nhưng ta có thể nhận biết được một thứ có phải là khuôn mặt người hay
không với xác suất đúng gần như tuyệt đối. Học máy sẽ là mô phỏng được khả
năng tổng quát hóa và suy luận này của con người. Nói đến học máy là nói đến
“dự đoán”: từ việc dự đoán nhãn phân loại đến dự đoán hành động cần thực
hiện trong bước tiếp theo. Vậy học máy có thể dự đoán tương lai hay không?
Có thể có hoặc có thể không: học máy có thể dự đoán được tương lai, nhưng
chỉ khi tương lai có mối liên hệ mật thiết với hiện tại.
Cho một dãy l quan sát: (x1, y1), (x2, y2), … , (xl, yl). Trong đó:


7

- x1, x2, …, xl là các mẫu, xi. Các mẫu xi được phát sinh ngẫu nhiên theo
một hàm phân bố xác suất f(x) mà ta chưa biết.
- yi là các kết quả học tương ứng với mẫu xi, yi. Thường thì y là kết quả
của một hàm f(x) nào đó – đơn trị. Tuy nhiên trong trường hợp tổng quát thì y
không đơn trị. Do đó y được xác định theo một hàm phân bố điều kiện f(y|x)
mà ta cũng không biết.
Ta có thể viết dưới dạng công thức chung như sau:
Y = f(X) + 

(1.1)

Ở đây X và Y là các giá trị quan sát của biến độc lập và biến phụ thuộc,
tiếp theo hàm f được xác định thông qua hai tham số  và  là các tham số chưa

biết và sẽ được ước lượng; và  là số hạng sai số không quan sát được và được
giả định là biến ngẫu nhiên với một số đặc tính nhất định. Hai tham số  và 
được gọi là hệ số hồi quy.
Y
(Xi, Yi)


+X

+Xi

0
Xi
Hình 1.2. Mô hình hồi quy

X


8

Mục tiêu đầu tiên của một nhà kinh tế lượng là làm sao sử dụng dữ liệu
thu thập được để ước lượng hàm hồi quy của tổng thể, đó là, ước lượng tham
số của tổng thể của  và . Ký hiệu 𝛼̂ là ước lượ𝑛g mẫu của  và 𝛽̂ là ước
lượng mẫu của . Ứng với một giá trị quan sát được cho trước i, ta sẽ có 𝑌̂𝑖 =
𝛼̂ + 𝛽̂ 𝑋𝑖 . Đây là giá trị dự báo của Y với một giá trị cho trước là Xi.
Lấy giá trị quan sát được Yi trừ cho giá trị này, ta sẽ được ước lượng của
 được gọi là phần dư ước lượng, hoặc đơn giản là phần dư, và ký hiệu là 𝜀̂𝑖 và
được thể hiện trong phương trình:
̂𝑖 =𝑌𝑖 − ̂𝛼 − 𝛽̂ 𝑋𝑖
𝜀̂𝑖 = 𝑌𝑖 − 𝑌


(1.2)

a) Ước lượng mô hình cơ bản bằng phương pháp bình phương tối thiểu
thông thường
Mục tiêu tiếp theo sẽ là sử dụng các dữ liệu X và Y và tìm kiếm ước
lượng “tốt nhất” của hai tham số của tổng thể là  và . Trong kinh tế lượng,
thủ tục ước lượng được dùng phổ biến nhất là phương pháp bình phương tối
thiểu. Phương pháp này thường được gọi là bình phương tối thiểu thông thường,
để phân biệt với những phương pháp bình phương tối thiểu khác. Ký hiệu ước
lượng của  và  là 𝛼̂ và 𝛽̂ phần dư ước lượng thì bằng 𝑌̂𝑖 = 𝛼̂ + 𝛽̂ 𝑋𝑖 .
Tiêu chuẩn tối ưu được sử dụng bởi phương pháp bình phương tối thiểu
là cực tiểu hóa hàm mục tiêu:
𝐸𝑆𝑆(𝛼̂, 𝛽̂ ) = ∑𝑛𝑖=1 𝜀̂𝑖2 = ∑𝑛𝑖=1(𝑌𝑖 − ̂𝛼 − 𝛽̂ 𝑋𝑖 )2

(1.3)

Với các tham số chưa biết là 𝛼̂ và 𝛽̂. ESS là tổng các phần dư bình
phương và ESS là khoảng cách bình phương được đo lường từ đường hồi quy.


9

b) Mean squared error (MSE)
Để đánh giá hiệu quả của một phương pháp học tập thống kê về một tập
dữ liệu cho trước, chúng ta cần một số cách để đo lường như thế nào cũng dự
đoán của nó thực sự phù hợp với các dữ liệu quan sát. Đó là, chúng ta cần phải
định lượng mức độ mà giá trị phản ứng dự đoán cho một quan sát đã cho gần
giá trị đáp ứng đúng với các quan sát đó. Trong bối cảnh suy thoái, các
nhất thường được sử dụng biện pháp là bình phương trung bình lỗi (MSE),

được xác định bằng công thức:
1

̂𝑖 )2
𝑀𝑆𝐸 = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌
𝑛

(1.4)

Trong đó f(xi) là dự đoán mà f cung cấp cho cho các quan sát thứ i. MSE là nhỏ
nhất nếu các giá trị dự đoán là rất gần với các giá trị quan sát. Để ước lượng
thử nghiệm MSE bằng cách sử dụng các tập dữ liệu huấn luyện. Một phương
pháp quan trọng được sử dụng đó là cross-validation.
1.2.2. Mô hình hồi quy Logistic
Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là
biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm
mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết
trước giá trị của biến độc lập [2].
Trong ví dụ trên, biến phản hồi là định lượng, nhưng trong nhiều trường
hợp, các biến phụ thuộc là định tính. Ví dụ, màu mắt là định tính, gồm các giá
trị: màu xanh, màu nâu hoặc màu xanh lá cây. Các biến định tính được gọi là
các loại (category). Trong thống kê, phương pháp hồi quy Logistic là một mô
hình hồi quy với biến phụ thuộc là biến định tính. Ngày nay, phương pháp hồi
quy Logistic được sử dụng nhiều trong các bài toán khi các biến phụ thuộc là
biến định tính [7].


10

Chúng ta sẽ minh họa các khái niệm về phân lớp thông qua dữ liệu về

tình trạng vỡ nợ. Ta quan tâm về việc dự đoán liệu một cá nhân có bị vỡ nợ
(default), dựa trên cơ sở thu nhập (income) hàng năm và số dư thẻ (balance) tín
dụng hàng tháng của cá nhân đó. Tập dữ liệu được biểu diễn trong hình 1.3.
Chúng ta có biểu đồ thu nhập hàng năm và số dư thẻ tín dụng hàng tháng của
10,000 cá nhân [3].

Hình 1.3. Dữ liệu vỡ nợ (Default)
Bên trái của biều đồ biểu diễn cá nhân bị vỡ nợ có màu cam, và những
người không bị vỡ nợ có màu xanh. Ở bên phải của biểu đồ cho thấy sự phân
bố của biến số dư và biến thu nhập với biến vỡ nợ. Chúng ta sẽ tìm hiểu làm
thế nào để xây dựng một mô hình để dự đoán mặc định (Y) cho bất kỳ giá trị
nào của số dư (X1) và thu nhập (X2).
Xem xét lại các thiết lập dữ liệu Default, mà phản hồi default thuộc một
trong hai lớp, Có hoặc Không. Mô hình này thay vì phản hồi trực tiếp Y, các
mô hình hồi quy Logistic trả về xác suất mà Y thuộc vào một lớp cụ thể.


11

Hình 1.4. Phân lớp bằng cách sử dụng dữ liệu Default
Hình 1.4 mô tả ước tính xác suất default sử dụng mô hình hồi quy tuyến
tính (bên trái) và mô hình hồi quy Logistic (bên phải). Có thể nhận thấy với
việc sử dụng mô hình hồi quy tuyến tính sẽ có một số ước tính tiêu cực, trong
khi đó, tất cả các ước tính mà mô hình hồi quy Logistic mang lại đều nằm trong
khoảng từ 0 đến 1.
Với hồi quy Logistic, xác suất của default có thể được viết như sau:
Pr(default = Yes|balance)
Các giá trị của Pr sẽ nằm trong khoảng từ 0 đến 1. Ta có thể dự đoán
default = Yes cho bất kỳ cá nhân nào có p (balance) > 0.5. Ngoài ra, ta cũng có
thể sử dụng một ngưỡng thấp hơn, ví dụ như p (balance) > 0.1.

Trong hồi quy Logistic, chúng ta sử dụng hàm:
𝑝(𝑋) =

𝑒 𝛽0+ 𝛽1𝑋
1+ 𝑒 𝛽0 + 𝛽1 𝑋

(1.5)

Hình bên trái của hình 1.4 minh họa cho sự phù hợp của mô hình hồi quy
Logistic với dữ liệu default. Chú ý rằng với balance thấp chúng ta dự đoán xác
suất default càng thấp, nhưng không bao giờ dưới 0. Tương tự như vậy, với
balance cao, chúng ta dự đoán xác xuất default càng cao, nhưng không bao giờ


12

lớn hơn 1. Hàm Logistic luôn tạo ra một đường cong chữ S, và chúng ta sẽ có
được một dự đoán hợp lý.
Biến đổi (1.5) chúng ta thấy rằng:
𝑝(𝑋)
1−𝑝(𝑋)

= 𝑒 𝛽0+ 𝛽1𝑋

(1.6)

Với p(x) / [ 1 – p(x) ] được gọi là tỷ lệ odd, và có thể đưa ra bất cứ giá
trị nào từ 0 đến ∞. Giá trị của tỷ lệ odd gần 0 và ∞ chỉ ra xác suất rất thấp và
rất cao default, tương ứng. Ví dụ, trung bình 1 trong 5 người sẽ vỡ với tỷ lệ odd
1/4, khi p (X) = 0,2 ngụ ý một tỷ lệ


0.2
1−0.2

= 1/4. Tương tự như vậy trung bình 9

trong số 10 người với tỷ lệ odd của 9 sẽ vỡ nợ, khi p (X) = 0,9 ngụ ý một tỷ lệ
odd của

0.9
1−0.9

= 9.

Bằng cách lấy logarit của cả hai vế trong (1.6), chúng ta có:
log (

𝑝(𝑋)

1−𝑝(𝑋)

) = 𝛽0 + 𝛽1 𝑋

(1.7)

Vế trái được gọi là log-odds hay logit. Chúng ta thấy rằng mô hình hồi
quy Logistic (1.5) có một logit là tuyến tính trong X. Trong mô hình hồi quy
Logistic, nếu X tăng lên một đơn vị thì sẽ thay đổi log odds bằng 𝛽1 (1.7).
Các hệ số 𝛽0 và 𝛽1 trong (1.5) là chưa biết, và phải được ước tính dựa
trên dữ liệu huấn luyện sẵn. Chúng ta tìm kiếm ước tính cho 𝛽0 và 𝛽1 sao cho

xác suất dự đoán 𝑝̂ (𝑥𝑖 ) của default cho mỗi cá nhân, sử dụng (1.5), tương ứng
càng sát càng tốt với trạng thái default mà ta quan sát được của cá nhân. Nói
cách khác, chúng ta cố gắng tìm 𝛽̂0 và 𝛽̂1 mà những ước tính của mô hình cho
p(X), được đưa ra trong (1.5), mang lại một số lượng gần bằng 1 cho tất cả các
cá nhân vỡ nợ, và một số gần bằng 0 cho tất cả các cá nhân người không bị vỡ
nợ. Chúng ta có thể thực hiện phương pháp bằng cách sử dụng phương trình
toán học gọi là hàm hợp lý cực đại (maximum likeihood).


13

Các ước lượng 𝛽̂0 và 𝛽̂1 được lựa chọn để cực đại hàm này.
Điều kiện hợp lý là xác suất của các giá trị Y quan sát trong dữ liệu huấn
luyện và các giá trị của X tương ứng. Việc chọn các tham số θ thỏa mãn:
θ̂ ← arg max L(θ)

(1.8)

Với θ = (θ0, θ1..., θd) là vector của các tham số được ước tính, và mô hình
này có d+1 tham số điều chỉnh cho một không gian đặc trưng d chiều.
Hàm hợp lý cực đại tương đương với logarit hàm hợp lý cực đại
(maximizing the log likelihood):
𝑁

𝑙(𝜃) = 𝑙𝑜𝑔𝐿(𝜃) = ∑ log 𝑝(𝑌 (𝑛) = 𝑦𝑘 |𝑋 (𝑛) ; 𝜃)

(1.9)

𝑛=1


Với θ là vector của các tham số được ước tính, Y(n) biểu thị các giá trị
quan sát được của Y trong lần huấn luyện thứ n, và X(n) biểu thị các giá trị quan
sát được của X trong lần huấn luyện thứ n.
Bảng 1.1 trình bày hệ số ước tính và các thông tin liên quan là kết quả
của việc sử dụng một mô hình hồi quy Logistic trên các dữ liệu default để dự
đoán xác suất default = Yes sử dụng balance. Chúng ta thấy rằng 𝛽̂1 = 0,0055;
điều này chỉ ra rằng tăng balance có liên quan với sự gia tăng xác suất vỡ nợ.
Để được chính xác, gia tăng một đơn vị trong balance có liên quan với sự gia
tăng log odd của default bằng 0,0055 đơn vị.
Bảng 1.1. Hệ số ước tính của mô hình hồi quy Logistic sử dụng Balance
Intercept
Balance

Coefficient
-10.6513
0.0055

Std. error
0.3612
0.0002

Z-statistic
-29.5
24.9

P-value
<0.0001
<0.0001

Nhiều thông tin đầu ra của hồi quy Logistic thể hiện trong bảng 1.1. Ví

dụ, chúng ta có thể đo độ chính xác của các ước tính hệ số bằng cách tính sai
số chuẩn (Std. error) của chúng. Z-statistic trong bảng 1.1 có vai trò kiểm định


14

giả thuyết thống kê. Ví dụ, Z-statistic kết hợp với 𝛽1 bằng 𝛽̂1 / SE (𝛽̂1 ), và do
đó, giá trị lớn của Z-statistic lớn chỉ ra bằng chứng chống lại giả thuyết H0: 𝛽1
= 0. Giả thuyết này ngụ ý rằng p (X) =

𝑒 𝛽0
1+ 𝑒 𝛽0

, nói cách khác, xác suất của vỡ

nợ không phụ thuộc vào balance. Với giá trị p-value liên quan đến balance trong
bảng 1.1 là rất nhỏ, chúng ta có thể phủ định H0. Nói cách khác, chúng ta kết
luận rằng thực sự có một sự liên quan giữa balance và default.
1.2.3. Lập dự đoán
Một khi các hệ số đã được ước tính, sẽ là một vấn đề đơn giản để tính
toán xác suất default cho bất kỳ số balance nào. Ví dụ, bằng cách sử dụng tính
toán hệ số được đưa ra trong bảng 1.1, chúng ta dự đoán rằng xác suất default
cho một cá nhân với một balance bằng 1,000 $ là dưới 1%. Ngược lại, xác suất
dự báo của default cho một cá nhân với một balance bằng 2,000$ là cao hơn
nhiều, bằng 0,586 hay 58,6%.
̂

𝑝̂ (𝑋) =

̂


𝑒 𝛽0+ 𝛽0 𝑋
1 + 𝑒 𝛽̂0+ 𝛽̂0 𝑋

𝑒 −10.6513+0.0055×1,000
=
= 0.00576
1 + 𝑒 −10.6513+0.0055×1,000

1.2.4. Hồi quy Logistic đa biến
Bây giờ chúng ta xem xét các vấn đề của dự đoán một phản hồi nhị phân
sử dụng nhiều dự đoán. Chúng ta có thể khái quát (1.7) như sau:
log (

𝑝(𝑋)

1−𝑝(𝑋)

) = 𝛽0 + 𝛽1 𝑋1 + ⋯ + 𝛽𝑝 𝑋𝑝

(1.10)

Trong đó X1, … , Xp là p dự đoán. Biểu thức (1.11) có thể được viết lại
như sau:
𝑝(𝑋) =

𝑒 𝛽0 + 𝛽1𝑋1 +⋯+𝛽𝑝 𝑋𝑝
1+ 𝑒 𝛽0+ 𝛽1 𝑋1+⋯+𝛽𝑝𝑋𝑝

(1.11)


Tương tự phần trên, chúng ta sử dụng phương pháp hợp lý cực đại để
ước tính 𝛽0 , 𝛽1 , … , 𝛽𝑝 .


15

1.3. Hồi quy Logistic cho nhiều lớp
Mô hình hồi quy logistic cho nhiều lớp (Multinomial logistic regression)
tương tự như mô hình hồi quy Logistic 2 lớp nhưng biến phụ thuộc là biến định
tính có nhiều hơn 2 lớp. Ví dụ: (khỏi bệnh, khỏi với dư chứng, tử vong) hoặc
(tốt, trung bình, xấu).
Hồi quy Logistic nhiều lớp ước tính một mô hình hồi quy Logistic nhị
phân riêng biệt cho mỗi biến số giả. Kết quả là M - 1 mô hình hồi quy Logistic
nhị phân. Mỗi mô hình truyền tải tác động của yếu tố dự báo về xác suất trong
lớp đó, so với các lớp tham khảo [7].
Khi biến phản hồi có K > 2 lớp, mô hình hồi quy Logistic cho cách mở
rộng truyền thống là cho K – 1 logit là:
log

Pr(𝐺= ℓ|𝑥)
Pr(𝐺= 𝐾|𝑥)

= 𝛽0ℓ + 𝑥 𝑇 𝛽ℓ , ℓ = 1, … , 𝐾 − 1

(1.12)

Với 𝛽ℓ là p vector các hệ số. Ở đây chúng ta chọn một cách tiếp cận đối
xứng hơn. Chúng ta có mô hình [8]:
Pr(𝐺 = ℓ|𝑥) =


𝑇
𝑒 𝛽0ℓ+ 𝑥 𝛽ℓ
𝛽0𝑘 + 𝑥𝑇 𝛽𝑘
∑𝐾
𝑘−1 𝑒

(1.13)

Chúng ta tìm mô hình phù hợp thông qua phương pháp hợp lý cực đại.
1.4. Kết luận
Mô hình hồi quy Logistic dễ xây dựng và cũng được ứng dụng nhiều bởi
tính thực tế của nó. Tuy nhiên, đối với bài toán có nhiều biến, để tìm được mô
hình hợp lý phụ thuộc vào nhiều yếu tố: mối liên hệ giữa các biến, biến nào ảnh
hưởng nhiều đến mô hình, biến nào ít ảnh hưởng đến mô hình. Trong chương
2 sẽ nghiên cứu một số phương pháp nhằm giải quyết vấn đề trên.


×