Tải bản đầy đủ (.pdf) (45 trang)

NGHIÊN cứu các PHƯƠNG PHÁP KHAI PHÁ dữ LIỆU và ỨNG DỤNG để dự báo KHẢ NĂNG ĐĂNG ký một KHOẢN TIỀN gửi có kỳ hạn của KHÁCH HÀNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (979.98 KB, 45 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC UEH
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

BÀI TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU
NGHIÊN CỨU CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ ỨNG
DỤNG ĐỂ DỰ BÁO KHẢ NĂNG ĐĂNG KÝ MỘT KHOẢN TIỀN GỬI
CÓ KỲ HẠN CỦA KHÁCH HÀNG

Tên học phần

: Khoa Học Dữ Liệu

Giảng viên hướng dẫn:

: TS. Thái Kim Phụng

Mã lớp học phần:

: 22C1INF50905971 – Sáng thứ 2

Nhóm sinh viên thực hiện – MSSV : Nguyễn Bảo Hà - 31211026611
Ng. Hồ Quỳnh Hoa - 31211024872


Châu Yến Linh - 31211022112
Thái Ái Thuận - 31211023244

Thành phố Hồ Chí Minh, ngày 30 tháng 10 năm 2022.



DANH SÁCH THÀNH VIÊN

STT

Thành viên

Mức độ tham gia, đóng góp

1

Nguyễn Bảo Hà

100%

2

Nguyễn Hồ Quỳnh Hoa

100%

3

Châu Yến Linh

100%

4

Thái Ái Thuận


100%


LỜI CẢM ƠN
Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành nhất đến thầy Thái
Kim Phụng. Trong suốt q trình học tập và tìm hiểu bộ mơn “Khoa học dữ
liệu”, chúng em đã nhận được rất nhiều sự quan tâm giúp đỡ, hướng dẫn tận
tình từ thầy. Để có thể hồn thành dự án này, khơng chỉ có cơng sức và sự cố
gắng của các thành viên trong nhóm mà cịn nhờ sự giúp đỡ của thầy.
Do kiến thức còn nhiều hạn chế nên bài dự án này của chúng em có thể sẽ
khơng tránh khỏi được những thiếu sót. Bản thân chúng em rất mong nhận
được nhận những góp ý đến từ thầy để bài luận này có thể hồn thiện hơn.
Chúng em tin rằng đây sẽ là những hành trang vơ cùng bổ ích trên con
đường sau này. Một lần nữa nhóm xin gửi lời cảm ơn chân thành đến thầy, xin
chúc thầy luôn nhiều sức khỏe, hạnh phúc và thành công trên con đường sự
nghiệp.
Chúng em xin chân thành cảm ơn!


DANH MỤC CHỮ VIẾT TẮT

Chữ viết tắt

Ý nghĩa

KHDL

Khoa học dữ liệu

CSDL


Cơ sở dữ liệu

SVM

Support Vector Machine

ROC

Receive Operating Characteristic

AUC

Area Under the Curve

MCU

Multipoint Control Unit


DANH MỤC BẢNG BIỂU- HÌNH VẼ VÀ BIỂU ĐỒ
Hình 1 : Làm sạch dữ liệu..........................................................................10
Hình 2 : Lựa chọn dữ liệu..........................................................................11
Hình 3 : Quy trình khai phá dữ liệu...........................................................12
Hình 4 : Bước 1 của quá trình trình phân lớp: Xây dựng mơ hình phân lớp
...........................................................................................................14
Hình 5 : Bước 2.1 của q trình trình phân lớp: Đánh giá mơ hình...........15
Hình 6 : Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới......15
Hình 7 : Minh họa thuật tốn phân lớp Hồi quy Logistic (Logistic
Regression)........................................................................................16

Hình 8 : Minh họa thuật tốn phân lớp cây quyết định (Decision tree)......17
Hình 9 : Minh họa thuật toán phân lớp Support Vector Machine (SVM). .18
Hình 10 : Minh họa thuật tốn phân lớp Mạng Nơ ron nhân tạo (Neural
Network)............................................................................................19
Hình 11 : Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix). .22
Hình 12 : Minh họa phương pháp ROC.....................................................24
Hình 13 : Minh họa phương pháp AUC ....................................................25
Hình 14 : Mơ tả các thuộc tính của các biến..............................................30
Hình 15 : Mơ tả các thuộc tính của các biến..............................................31
Hình 16 : Mơ tả các thuộc tính của các biến..............................................31
Hình 17 : Tổng quan về quy trình huấn luyện và dự báo bằng sơ đồ.........32
Hình 18 : Kết quả của mơ hình đánh giá phân lớp bằng Hồi quy logistic..32
Hình 19 : Ma trận nhầm lẫn với Hồi quy logistic......................................33
Hình 20 : Các thuộc tính của bộ dữ liệu dự báo.........................................34
Hình 21 : Các thuộc tính của bộ dữ liệu dự báo.........................................34
Hình 22 : Các thuộc tính của bộ dữ liệu dự báo.........................................34
Hình 23 : Kết quả của dự báo bằng Hồi quy logistic.................................35
Hình 24 : Chỉ số Logistic Regression........................................................35



CHƯƠNG 1: GIỚI THIỆU
1.1. Lý do chọn đề tài
Với sự phát triển nhanh chóng của internet hiện nay thì các thiết bị thông
minh như smartphone, tablet hay PC, laptop đang là cơng cụ giải trí được
người tiêu dùng sử dụng phổ biến và để lại những thông tin quan trọng mà các
doanh nghiệp cần khai thác. Hơn hết, sự kết nối giữa các công cụ thông minh
với nhau dựa trên nền tảng internet cho phép người tiêu dùng và các tổ chức có
thể tương tác trực tiếp từ đó có thể trao đổi và truyền tải dữ liệu cho nhau. Từ
vấn đề này, có thể thấy khối lượng dữ liệu và nhu cầu thu thập, xử lý và phân

tích dữ liệu của các doanh nghiệp càng gia tăng, bởi lẽ sự tiếp cận các nền tảng
công nghệ trong đời sống của người dân hiện nay rất cao. Một minh chứng cơ
vùng cụ thể đó là vào năm 2019, tập đồn cơng nghệ Cisco đã dự đốn khối
lượng dữ liệu có thể đạt đến 500 Zettabytes ở năm 2020.
Đối với các doanh nghiệp cạnh tranh cùng ngành, ngoài việc cạnh tranh về
nguồn cung ứng, đối tác, giá cả và khách hàng thì nguồn dữ liệu là một yếu tố
vơ cùng quan trọng. Nếu biết cách tận dụng tốt thì doanh nghiệp đó sẽ tạo nên
những lợi thế khác biệt với các đối thủ cịn lại. Như vậy, nhờ q trình đi sâu
vào bộ dữ liệu để phân tích và tìm kiếm các giá trị tiềm ẩn bên trong mà data
mining được cho là một công cụ lợi hại và không thể thiếu từ đó mang lại nhiều
lợi thế to lớn cho công ty nên nhu cầu đế phát huy và sử dụng các công nghệ
khai phá dữ liệu cho đến thời điểm hiện tại là rất cao.
Khai phá dữ liệu là một quá trình dài hạn chuyển biến dữ liệu thu thập
được thành các thơng tin có giá trị và tương quan mật thiết với nguồn dữ liệu
lớn của doanh nghiệp. Từ đó doanh nghiệp sẽ chủ động hơn trong việc tìm
kiếm những khách hàng tiềm năng, đưa ra được các chiến sách marketing phù
hợp với xu hướng thị trường cũng như các kế hoạch phát triển kinh doanh phù
hợp với cơ cấu doanh nghiệp. Một trong những ý nghĩa quan trọng nhất của
khai phá dữ liệu chính là hỗ trợ khả năng thấu hiểu với khách hàng. Khai phá
dữ liệu sẽ dựa trên các yếu tố như: độ tuổi, sở thích, thói quen, tâm lý tiêu


dùng, khu vực đại lý, thu nhập,...để có các định được nhu cầu của từng phân
khúc khách hàng một cách chính xác nhất. Từ những kết quả đã đạt được thì
doanh nghiệp có những kế hoạch triển khai các sản phẩm và dịch vụ để tương
tác phù hợp với khách hàng.
Lĩnh vực marketing, cơ bản khai phá dữ liệu là cho phép các doanh nghiệp
hiểu các điều ẩn đằng sau dữ liệu giao dịch mua bán, sử dụng dịch vụ của
khách hàng. Từ đó, doanh nghiệp có thể lên kế hoạch và khởi động các chiến
dịch marketing mới. Đặc biệt hơn các ngân hàng sử dụng khai phá dữ liệu để

hiểu rõ hơn rủi ro thị trường. Nó thường được áp dụng cho xếp hạng tín dụng
và cho các hệ thống chống gian lận thơng minh để phân tích các giao dịch, giao
dịch thẻ, mơ hình mua hàng và dữ liệu tài chính của khách hàng. Khai phá dữ
liệu cũng cho phép các ngân hàng tìm hiểu thêm về thơng tin, sở thích hoặc
thói quen trực tuyến của khách hàng. Từ đó tối ưu hóa lợi nhuận cho các chiến
dịch marketing của họ, nghiên cứu hiệu suất của các kênh bán hàng hoặc quản
lý nghĩa vụ tuân thủ quy định. Vì vậy nhờ cơng cụ khoa học mà các ngân hàng
có thể tiếp thị dịch vụ và dự đốn được mức an tồn, sinh lời, ít rủi ro của
khách hàng đồng thời giúp cho các doanh nghiệp tìm được các lợi ích chung tốt
nhất.
Cụ thể hơn, ngân hàng có nhiều kế hoạch tiếp cận để bán tiền gửi có kỳ
hạn cho khách hàng của họ như tiếp thị qua email, quảng cáo, tiếp thị qua điện
thoại và tiếp thị kỹ thuật số. Các chiến dịch tiếp thị qua điện thoại vẫn là một
trong những cách hiệu quả nhất để tiếp cận với mọi người. Tuy nhiên, họ yêu
cầu đầu tư rất lớn vì các trung tâm cuộc gọi lớn được thuê để thực sự thực hiện
các chiến dịch này. Do đó, điều quan trọng là phải xác định trước những khách
hàng có nhiều khả năng chuyển đổi nhất để họ có thể được nhắm mục tiêu cụ
thể thơng qua cuộc gọi. Để làm được điều đó, sự phát triển của các mơ hình
tốn học và các giải thuật hiệu quả là chìa khóa quyết định dự đốn xem liệu
khách hàng có đăng ký một khoản tiền gửi có kỳ hạn hay khơng. Qua đó,
chúng em quyết định chọn đề tài “Nghiên cứu về dự báo khả năng đăng ký
một khoản tiền gửi có kỳ hạn của khách hàng.” làm đề tài nghiên cứu. 


1.2. Mục tiêu nghiên cứu
Bài nghiên cứu chủ yếu tập trung vào các mục tiêu như sau:
- Bài nghiên cứu tiến hành phân tích các lý thuyết của khai phá dữ liệu
nhằm tập trung làm rõ những vấn đề của bài nghiên cứu.
- Xác định mơ hình nào mang lại đánh giá có độ chính xác cao nhất trong
việc nghiên cứu về dự đoán khả năng đăng ký một khoản tiền gửi có kỳ

hạn của khách hàng.
- Dựa trên mơ hình đã được huấn luyện trong quá trình nghiên cứu, đưa ra
được kết luận về khả năng đăng ký một khoản tiền gửi có kỳ hạn của khách
hàng và từ đó đưa ra các giải pháp tối ưu.
-

Tạo tiền đề phát triển các bài nghiên cứu sau này.

1.3. Đối tượng và phạm vi nghiên cứu
* Đối tượng nghiên cứu: 
- Mô hình Khoa học dữ liệu (KHDL) và phân tích thuật tốn để góp phần
dự đốn khả năng đăng ký một khoản tiền gửi có kỳ hạn của khách hàng.
- Lấy dữ liệu của 4521 khách hàng của một tổ chức ngân hàng tại Bồ Đào
Nha.
- Dữ liệu huấn luyện: 3000 khách hàng đầu tiên dùng để training.
- Dữ liệu dự báo: 1521 khách hàng còn lại trong bộ dữ liệu 4521 khách
hàng.
* Phạm vi nghiên cứu:
Được thực hiện dựa trên 5421 khách hàng của một tổ chức ngân hàng tại
Bồ Đào Nha gồm 13 chỉ số đo lường: age, job, marital, education, default,
balance, housing, loan, duration, campaign, pdays, previous, poutcome.
1.4. Phương pháp nghiên cứu


- Phương pháp thu thập dữ liệu: tôi đã thu thập dữ liệu dựa trên nguồn
kaggle.com. Đây được xem là một trong những nguồn đáng tin cậy để thu
thập các dữ liệu về các chỉ số thuộc lĩnh vực tài chính.
- Phương pháp nghiên cứu: Bài nghiên cứu được sử dụng Excel (2016) để
xử lí số liệu và chương trình Orange để chạy mơ hình dự báo.
1.5. Cấu trúc bài nghiên cứu

Đề tài được kết cấu thành 4 chương như sau:
-

Chương 1: Giới thiệu.

-

Chương 2: Cơ sở lý luận.

-

Chương 3: Phân tích dữ liệu huấn luyện và dự báo.

-

Chương 4: Kết luận và hạn chế - giải pháp.


CHƯƠNG 2: CƠ SỞ LÝ LUẬN
2.1. Khai phá dữ liệu
2.1.1. Khái niệm
Khai phá dữ liệu (Data Mining) là quá trình phân loại, sắp xếp các tập
hợp dữ liệu lớn, nhằm mục đích xác định các mẫu và thiết lập mối liên hệ,
giải quyết vấn đề nhờ việc phân tích dữ liệu. Các MCU khai phá dữ liệu
giúp các doanh nghiệp có thể dự đốn xu hướng tương lai.
Đây là một quá trình phức tạp gồm kho dữ liệu chuyên sâu cũng như
các cơng nghệ tính tốn. Ngồi ra, khai phá dữ liệu khơng chỉ giới hạn việc
trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợp
dữ liệu và phân tích mẫu.
2.1.2. Q trình khai phá dữ liệu

Quá trình khai phá dữ liệu gồm 7 bước chính sau:
- Bước 1: Làm sạch dữ liệu. Đây là bước đầu tiên trong quá trình khai phá
dữ liệu cũng là bước khá quan trọng. Những dữ liệu bẩn hay bất thường sẽ
được loại bỏ nhằm tránh thu được kết quả sai lệch, khơng có tính chính xác
cao. Bên cạnh đó cịn gây tốn kém thời gian và tiền bạc.


Hình 1: Làm sạch dữ liệu

- Bước 2: Tích hợp dữ liệu. Các chuyên gia sẽ thực hiện dọn dẹp dữ liệu
bổ sung trong các cơ sở dữ liệu khác nhau. Việc này giúp cải thiện độ
chính xác của kết quả hơn và đảm bảo chất lượng dữ liệu để đáp ứng các
u cầu kinh doanh. Trong q trình tích hợp dữ liệu, nhiều nguồn dữ liệu
sẽ kết hợp lại thành một.
- Bước 3: Lựa chọn dữ liệu. Đây là q trình giảm dữ liệu nhưng vẫn duy
trì tính tồn vẹn của nó. Các kỹ sư có thể chọn cách giảm kích thước, giảm
số lượng hoặc nén dữ liệu.

Hình 2: Lựa chọn dữ liệu


- Bước 4: Chuyển đổi dữ liệu. Ở bước này, các kỹ sư sẽ chuyển đổi dữ
liệu sang dạng phù hợp với mục tiêu khai thác. Dữ liệu sẽ được hợp nhất
để tối ưu hóa quy trình khai phá dữ liệu và giúp dễ dàng phân biệt các mẫu
trong tập dữ liệu cuối cùng.
- Bước 5: Khai phá dữ liệu. Các ứng dụng khai phá dữ liệu được sử dụng
để trích xuất các xu hướng và tối ưu hố việc khám phá kiến thức để tạo ra
thông tin kinh doanh. Một cách đơn giản, ở bước này, các kỹ sư trích xuất
dữ liệu hữu ích từ nhóm dữ liệu hiện có.
- Bước 6: Đánh giá mẫu. Chuyên gia sẽ sử dụng mơ hình, dữ liệu lịch sử

và thơng tin thời gian thực để tìm hiểu về khách hàng, nhân viên và doanh
số bán hàng. Các phương pháp trực quan hóa và tóm tắt dữ liệu được sử
dụng để người dùng có thể hiểu được bộ dữ liệu của mình.
- Bước 7: Trình bày thơng tin. Dữ liệu sẽ được trình bày dưới dạng báo
cáo. Thông tin được thể hiện dưới dạng cây, bảng, biểu đồ và ma trận.

Hình 3: Quy trình khai phá dữ liệu

2.1.3. Các kỹ thuật khai phá
Có 6 kỹ thuật cốt lõi trong việc khai phá dữ liệu:
Phân lớp (Classification): Dự báo dữ liệu thông qua bộ dữ liệu huấn
luyện, phân loại đối tượng. 


Hồi quy (Regression): Dùng để khám phá và ánh xạ dữ liệu.
Phân cụm (Clustering): Giúp việc mô tả dữ liệu trở nên dễ dàng hơn
bằng các xác định tập hợp hữu hạn các cụm với nhau.
Tổng hợp (Summarization): Cho phép người làm tìm kiếm một mơ
tả nhỏ gọn.
Mơ hình ràng buộc (Dependency modeling): Người làm sẽ tìm
được mơ hình cục bộ mô tả các phụ thuộc dựa vào phương pháp mơ hình
ràng buộc.
Dị tìm biến đổi và độ lệch (Change and Deviation Detection): Tìm
ra những thay đổi quan trọng.
2.1.4. Ứng dụng khai phá dữ liệu
Ngày nay, khai phá dữ liệu được ứng dụng phổ biến trong các lĩnh
vực, có thể kể đến như: tài chính, chăm sóc sức khoẻ, viễn thông,
marketing và sales, thương mại điện tử, giáo dục, kỹ thuật sản xuất, … và
rất nhiều lĩnh vực khác.
2.1.5. Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu Orange

Orange là phần mềm dùng để khai thác dữ liệu theo phương diện mã
nguồn mở. Orange thiết lập một giao diện lập trình sinh động và trực quan,
giúp người dùng dễ theo dõi, từ đó phân tích dữ liệu một cách nhanh và
chính xác. Orange dựa trên những cơng cụ dùng để trực quan hóa dữ liệu,
khai thác và phân tích dữ liệu chính xác thơng qua ngơn ngữ lập trình.
Ngồi ra, Orange cũng là một phần mềm kết hợp công cụ khai phá dữ liệu
và học máy, và cung cấp những trực quan tương tác, thẩm mỹ cho người
dùng phần mềm, nó được viết bằng Python. Orange là phần mềm mà nhóm
em sẽ sử dụng trong bài nghiên cứu.


2.2.

Phân lớp dữ liệu
2.2.1. Khái niệm
Phân lớp dữ liệu chính là một trong những hướng nghiên cứu chính
của khai phá dữ liệu. Phân lớp dữ liệu là quá trình phân một đối tượng dữ
liệu vào một hay nhiều lớp đã cho trước nhờ vào một mơ hình phân lớp.
Mơ hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn
trước đó. Q trình gán nhãn cho đối tượng dữ liệu chính là q trình phân
lớp dữ liệu.
2.2.2. Quy trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm 2 bước chính:
-

Bước 1: Xây dựng mơ hình phân lớp
Xây dựng mơ hình là mơ tả một tập những lớp được định nghĩa trước.

Trong đó mỗi bộ hoặc mẫu được gán thuộc ᴠề một lớp được định nghĩa
trước như là được хác định bởi thuộc tính nhãn lớp , tập hợp của những bộ

được ѕử dụng trong ᴠiệc ѕử dụng mơ hình được gọi là tập huấn luуện . Mơ
hình được biểu diễn là những luật phân lớp, câу quуết định ᴠà những cơng
thức tốn học. Kết quả của bước này là mơ hình phân lớp đã được huấn
luyện. Hình 2.3 dưới đây miêu tả quá trình này.


Hình 4: Bước 1 của quá trình trình phân lớp: Xây dựng mơ hình phân lớp

-

Bước 2: Sử dụng mơ hình chia thành 2 bước nhỏ.

Bước 2.1: Đánh giá mơ hình (kiểm tra tính đúng đắn của mơ hình)
Dữ liệu đầu vào là một tập dữ liệu mẫu khác đã được gán nhãn và tiền
xử lý. Tuy nhiên thuộc tính đã được gán nhãn này bị “lờ” khi được đưa vào
mơ hình tiến hành phân lớp.
Muốn xác định được tính đúng đắn của mơ hình, ta cần so sánh thuộc
tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mơ hình.

Hình 5: Bước 2.1 của q trình trình phân lớp: Đánh giá mơ hình

Bước 2.2: Phân lớp dữ liệu mới
Dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đốn lớp
(nhãn). Mơ hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu
này dựa vào những gì được huấn luyện ở bước 1.


Hình 6: Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới

2.2.3. Các phương pháp đánh giá mơ hình

2.2.3.1. Phương pháp hồi quy logistic (Logistic Regression)
Hồi quy logistic là một kỹ thuật phân tích dữ liệu sử dụng tốn
học để tìm ra mối quan hệ giữa hai yếu tố dữ liệu. Sau đó sử dụng
mối quan hệ tìm được để dự đốn giá trị của những yếu tố đó dựa
trên yếu tố cịn lại. Dự đốn thường cho ra một số kết quả hữu hạn,
như có hoặc khơng.
Có 3 dạng hồi quy Logistic:
-

Hồi quy logistic nhị phân: Biến phụ thuộc chỉ có 2 kết

quả/lớp có thể xảy ra.
-

Hồi quy logistic đa thức: Biến phụ thuộc chỉ có 2 hoặc 3

kết quả/lớp trở lên có thể có, thứ tự được xếp ngẫu nhiên.
-

Hồi quy logistic thông thường: Biến phụ thuộc chỉ có 2

hoặc nhiều hơn 3 kết quả / lớp có thể có, xếp theo đúng thứ
tự. 


Hình 7: Minh họa thuật tốn phân lớp Hồi quy Logistic (Logistic
Regression)

2.2.3.2. Phương pháp cây quyết định (Decision Tree)
Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết

định cùng các kết quả có khả năng đi kèm nhằm hỗ trợ quá trình ra
quyết định.
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương
pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.
Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phân
loại. Cây hồi quy có ước tính mơ hình là các giá trị số thực và cây
phân loại được dùng trong các mơ hình có giá trị cuối cùng nằm
mục đích chính là phần loại.
Một tập dữ liệu có thế được biểu diễn bởi nhiều cây quyết định
tương ứng. Cuối cùng, cây nào ngắn gọn nhất sẽ được lựa chọn
(theo nguyên lý Ockham’s Razor).          


Hình 8: Minh họa thuật tốn phân lớp cây quyết định (Decision tree)

2.2.3.3. Phương pháp SVM (Support Vector Machine) 
SVM là một thuật tốn có giám sát, SVM nhận dữ liệu vào,
xem chúng như những các vector trong không gian và phân loại
chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng
trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu. 
Để  kết quả phân lớp chính xác nhất, ta cần phải xác định siêu
phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin)
của tất cả các lớp càng xa càng tốt. Khi đó, sai số tổng quát hóa của
kỹ thuật phân loại càng bé. 
Hiện nay,  SVM có nhiều biến thể phù hợp với các bài tốn
phân loại khác nhau và cũng có thể được sử dụng cho hồi quy hoặc
các nhiệm vụ khác.


Hình 9: Minh họa thuật tốn phân lớp Support Vector Machine (SVM)


2.2.3.4. Phương pháp mạng lưới Nơ-ron nhân tạo (Neural
Network)
Neural network hay còn gọi là Mạng nơ-ron nhân tạo là mạng
sử dụng các mơ hình tốn học phức tạp để xử lý thơng tin. Chúng
dựa trên mơ hình hoạt động của các tế bào thần kinh và khớp thần
kinh trong não của con người. Giống như bộ não của con người,
mạng nơ-ron nhân tạo kết nối các nút đơn giản, còn được gọi là tế
bào thần kinh. Và một tập hợp các nút như vậy tạo thành một mạng
lưới các nút, do đó có tên là mạng nơ-ron nhân tạo. Đặc biệt, neural
network có khả năng tương thích với mọi thứ ngay từ khi chúng ta
thay đổi dữ liệu đầu vào. Nó có thể đưa ra các kết quả một cách tốt
nhất mà chúng ta không cần phải xây dựng các tiêu chí đầu ra.


Hình 10: Minh họa thuật tốn phân lớp Mạng Nơ ron nhân tạo (Neural Network)

2.2.4. Chi tiết mơ hình khai phá dữ liệu bằng Hồi quy logistic
Ở mục 2.2.3.1 chúng ta đã tìm hiểu về khái niệm của Hồi quy logistic
và các dạng của phương pháp này, bây giờ chúng ta sẽ tìm hiểu chi tiết
hơn về Hồi quy logistic.
2.2.4.1. Ưu điểm của Hồi quy logistic
Hồi quy logistic dễ thực hiện hơn nhiều so với các phương
pháp khác, đặc biệt là trong Machine Learning. Q trình thiết lập
mơ hình này u cầu đào tạo và thử nghiệm mơ hình. Trong khi đó,
hồi quy logistic dễ đào tạo và triển khai hơn so với các phương
pháp khác.
Hồi quy logistic hoạt động tốt đối với các trường hợp tập dữ
liệu có thể phân tách tuyến tính. Tập dữ liệu này có thể vẽ một
đường thẳng tách hai lớp dữ liệu ra khỏi nhau. Hồi quy logistic

được sử dụng khi biến Y của bạn chỉ có thể nhận hai giá trị và nếu
dữ liệu có thể phân tách tuyến tính, thì việc phân loại nó thành hai
lớp riêng biệt sẽ hiệu quả hơn.


Hồi quy logistic cung cấp những hiểu biết hữu ích. Phương
pháp này không chỉ cho phép đo lường mức độ liên quan của một
biến độc lập (tức là kích thước hệ số), mà cịn cho biết mối quan hệ
tích cực hay tiêu cực. Hai biến được cho là có một liên kết tích cực
khi sự gia tăng giá trị của một biến số cũng làm tăng giá trị của biến
số khác. 
2.2.4.2. Nhược điểm của Hồi quy logistic
Hồi quy logistic không dự đoán được kết quả liên tục. Chẳng
hạn như trong ứng dụng y tế, hồi quy logistic không thể dự đoán
được nhiệt độ của bệnh nhân viêm phổi sẽ tăng cao như thế nào.
Điều này là do quy mô đo lường là liên tục (hồi quy logistic chỉ
hoạt động khi biến phụ thuộc hoặc biến kết quả là lưỡng phân).
Hồi quy logistic giả định tính tuyến tính giữa biến dự đoán
(phụ thuộc) và biến dự báo (độc lập). Thực tế, việc các quan sát
được phân tách tuyến tính là rất khó xảy ra. Vì vậy, trong khi dữ
liệu có thể phân tách tuyến tính là giả định cho hồi quy logistic,
nhưng điều đó có thể khơng diễn ra trong thực tế.
Hồi quy logistic có thể khơng chính xác nếu kích thước mẫu
quá nhỏ. Kích thước mẫu nhỏ sẽ làm cho mơ hình được tạo ra bằng
hồi quy logistic dựa trên số lượng quan sát thực tế nhỏ hơn. Theo
thống kê, overfitting là một lỗi mơ hình hóa xảy ra khi mơ hình q
khớp với một bộ dữ liệu hạn chế vì thiếu dữ liệu đào tạo. Nói một
cách dễ hiểu,  dữ liệu đầu vào khơng đủ để mơ hình tìm ra các mẫu
trong đó. Trong trường hợp này, mơ hình khơng thể dự đốn chính
xác kết quả của một tập dữ liệu mới hoặc trong tương lai.

2.2.4.3. Ứng dụng của Hồi quy logistic


Hồi quy logistic có một số ứng dụng thực tế trong nhiều lĩnh
vực khác nhau. Đối với sản xuất, hồi quy logistic để ước tính xác
suất xảy ra sự cố ở bộ phận trong máy móc để doanh nghiệp có thể
chủ động lên lịch bảo trì, sửa chữa. Đối với y học, phương pháp này
giúp dự đoán khả năng mắc bệnh của bệnh nhân, so sánh tác động
của tiền sử gia đình hoặc của bộ gen lên bệnh tật. Từ đó, các nhà
nghiên cứu y khoa sẽ lên kế hoạch điều trị và chăm sóc dự phịng.
Cịn về tài chính, hồi quy logistic giúp các cơng ty phân tích giao
dịch tài chính nhằm đề phịng gian lận, rủi ro. Ngồi ra, các công cụ
quảng cáo trực tuyến sử dụng mô hình hồi quy logistic để dự đốn
xem người dùng sẽ nhấp vào một quảng cáo hay không. Các nhà
tiếp thị sẽ dựa vào đó để phân tích phản ứng của người dùng và tạo
ra các quảng cáo thu hút hơn.
2.2.5. Các phương pháp đánh giá mơ hình phân lớp
2.2.5.1. Ma trận nhầm lẫn (Confusion matrix)
Ma trận nhầm lẫn là ma trận chỉ ra có bao nhiêu điểm dữ liệu
thực sự thuộc một lớp cụ thể, và được dự đốn nó sẽ rơi vào lớp
nào. Ma trận nhầm lẫn có kích thước với là số lượng của lớp dữ
liệu. 
Có 4 loại giá trị chính trong ma trận nhầm lẫn:
• TP[i] (true positive) là số dự đốn chính xác của lớp i.
• FP[i] (false positive) là số lượng các mẫu không thuộc lớp i
, bị phân loại nhầm vào lớp i.
• TN[i] (true negative) là số lượng các ví dụ khơng thuộc lớp
i  được phân loại chính xác.
• FN[i] (false negative) là số lương các mẫu thuộc lớp i
nhưng bị phân loại nhầm vào lớp khác.



Hình 11: Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix)

Giả sử trong bài toán chẩn đoán bệnh tim ta có 2 lớp: lớp
bị bệnh tim được chẩn đốn Positive và lớp khơng bị bệnh tim
được chuẩn đốn là Negative:
TP (True Positive): Số lượng dự đốn chính xác. Là khi
mơ hình dự đốn đúng một người bị bệnh tim.
TN (True Negative): Số lượng dự đốn chính xác một
cách gián tiếp. Là khi mơ hình dự đốn đúng một người không bị
bệnh tim, tức là việc không chọn trường hợp bị ung thư là chính
xác.
FP (False Positive): Số lượng các dự đốn sai lệch. Là khi
mơ hình dự đốn một người bị bệnh tim nhưng người đó hồn
tồn khỏe mạnh.
FN (False Negative): Số lượng các dự đoán sai lệch một
cách gián tiếp. Là khi mơ hình dự đốn một người khơng bị bệnh
tim nhưng người đó bị bệnh tim.
2.2.5.1.1.

Precision, Recall, F1- score


×