Bài tập lớn Phân tích dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.56 MB, 25 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
Khoa Viễn Thơng 1

HỌC PHẦN: LƯU TRỮ VÀ PHÂN TÍCH DỮ LIỆU

ĐỀ TÀI:
PHÂN TÍCH DỮ LIỆU VÀ DỰ ĐỐN CROSS SELL
KHÁCH HÀNG CĨ NHU CẦU MUA BẢO HIỂM SỨC KHỎE

Giảng viên
Nhóm thực hiện
Sinh viên thực hiện

: Lê Hải Châu
: 04
: Nguyễn Công Dũng - B19DCVT054
: Đặng Thị Thùy Linh – B19DCVT218
: Phạm Thùy Trang – B19DCVT406
: Nguyễn Nhật Nam – B19DCVT266

Hà Nội – 2023

MỤC LỤC
DANH MỤC HÌNH ẢNH ................................................................................... 1
THUẬT NGỮ VIẾT TẮT .................................................................................. 2
LỜI NÓI ĐẦU ..................................................................................................... 3
CHƯƠNG I: TỔNG QUAN VỀ MƠ HÌNH ..................................................... 4
1.1. Đặt vấn đề và mơ tả bài toán................................................................... 4
1.2. Khái niệm và các thuật ngữ cơ bản ......................................................... 4
1.2.1 Cross sell (bán chéo) ............................................................................ 4

1.2.2. Bảo hiểm ô tô ....................................................................................... 5
1.2.3. Bảo hiểm sức khỏe .............................................................................. 5
1.2.4. Mối liên hệ giữa bảo hiểm ô tô và bảo hiểm sức khỏe ..................... 5
1.2.5. Dự đoán bán chéo sản phẩm( Cross sell Prediction) ....................... 6
1.3. Những yếu tố quan trọng.......................................................................... 7
1.4. Ứng dụng mơ hình .................................................................................... 8
CHƯƠNG 2: PHÂN TÍCH VÀ XỬ LÝ NGUỒN DỮ LIỆU .......................... 9
2.1 Mô tả và xử lý dữ liệu đầu vào .................................................................. 9
2.1.1: Đọc dữ liệu ......................................................................................... 10
2.2: Categorical data ...................................................................................... 10
2.3 Data scaling ............................................................................................... 11
CHƯƠNG 3: MƠ HÌNH THUẬT TỐN ....................................................... 13
3.1 Xử lý mất cân bằng dữ liệu bằng SMOTE (Synthetic Minority Oversampling) ......................................................................................................... 13
3.1.1. Dữ liệu mất cân bằng (Imbalanced data) ....................................... 13
3.1.2, SMOTE (Synthetic Minority Over-sampling) ............................... 14
3.1.3. Áp dụng SMOTE vào xử lý dữ liệu ................................................. 16
3.2 Thuật toán Logistic Regression .............................................................. 17
CHƯƠNG 3: KẾT LUẬN ............................................................................... 22
TÀI LIỆU THAM KHẢO ................................................................................ 23

DANH MỤC HÌNH ẢNH
Hình 1. 1: Hình ảnh về mối quan tâm của người Việt tới bảo hiểm sức khỏe ..... 6
Hình 1. 2: Một số thơng tin cơ bản phục vụ mơ hình ........................................... 7
Hình 1. 3: Một số thuật tốn phổ biến thường được sử dụng ............................... 7
Hình 2. 1: Dữ liệu được hiển thị ......................................................................... 10
Hình 2. 2: Bảng dữ liệu sau scale ........................................................................ 12
Hình 3. 1: Ví dụ về LR ........................................................................................ 17
Hình 3. 2: Đồ thị hàm Sigmoid ........................................................................... 18
Hình 3. 3: Đồ thị ROC ........................................................................................ 19

Hình 3. 4: Kết quả bài tốn trước khi tối ưu ....................................................... 19
Hình 3. 5: Kết quả bài tốn sau khi tối ưu .......................................................... 20
Hình 3. 6: ROC sau khi tối ưu............................................................................. 21

1

THUẬT NGỮ VIẾT TẮT
STT
1
2

Từ viết tắt
ID
ROI

Tên đầy đủ
Identification
Return on Investment

3
4
5

ML
AI
AUC

MachiFne Learning
Artificial Intelligence

Area Under the Curve

6

TPR

True positive rate

7

FPR

False Positive Rate

8

ROC

Receiver Operating Characteristi

9
10
11
12

TP
FN
FP
TN

True Positive
False Negative
False Positive
True Negative

2

Giải nghĩa
Mã khách hàng
Tỷ lệ lợi nhuận
rịng trên tổng chi
phí đầu tư
Học máy
Trí tuệ nhân tạo
Diện tích dưới
đường cong
Tỷ lệ dương tính
đúng
Tỷ lệ dương tính
sai
Đặc tính hoạt động
của máy nhận dạng
Dương tính đúng
Âm tính sai
Dương tính sai
Âm tính đúng

LỜI NÓI ĐẦU
Cross sell (bán chéo) được biết đến là một trong những nghệ thuật bán hàng hiệu

quả. Bất cứ lĩnh vực nào áp dụng chiến lược này cũng thu về lợi nhuận khủng. Trong
kinh doanh, tài chính hay bán lẻ đã khơng cịn q xa lạ khi áp dụng kỹ thuật cross sell
như một chiến lược kinh doanh mang lại nhiều lợi nhuận cho doanh nghiệp. Đặc biệt
trong lĩnh vực bảo hiểm, khi con người luôn hướng đến nhu cầu bảo vệ sức khỏe không
chỉ của bản thân mà ngay cả những đồ vật mà họ sở hữu thì đây là một dòng khai thác
rất lớn cho các doanh nghiệp hay công ty bảo hiểm. Tuy nhiên đây cũng là một lĩnh
vực đầy rủi ro khi gặp phải tình trạng những khách hàng khơng có mong muốn hoặc
đang dùng rồi nhưng không muốn sử dụng tiếp. Điều này sẽ gây ra tổn thất về tài
chính, có thể làm cho hoạt động kinh doanh của doanh nghiệp bị thua lỗ, thậm chí phá
sản nếu khơng tính tốn và dự đốn chính xác về mức độ sử dụng của khách hàng.
Để khắc phục vấn đề này nhiều giải pháp đã được đưa ra, một trong số đó là áp dụng
cơng nghệ vào việc phân dữ liệu và dự đoán khả năng bán chéo dịch vụ sản phẩm với
khách hàng đang là thành viên sử dụng. Với sự phát triển của các công nghệ như
Machine Learning, AI, Big Data, việc áp dụng chúng vào lĩnh vực bảo hiểm luôn được
các doanh nghiệp quan tâm và sử dụng rộng rãi. Điều này giúp các cơng ty bảo hiểm
có thể đưa ra những quyết định thông minh hơn, đồng thời giảm thiểu rủi ro và tối đa
hóa lợi nhuận. Tuy nhiên, để thực hiện được điều đó, việc phân tích dữ liệu và dự đoán
khả năng bán chéo sản phẩm là một yếu tố quan trọng cần được đặc biệt chú trọng và
nghiên cứu kỹ lưỡng. Báo cáo này tập trung vào việc tìm hiểu về các phương pháp
phân tích dữ liệu và dự đoán khả năng bán chéo dựa vào lần mua hàng trước đó để
khảo sát nhu cầu của khách hàng sau đó có thể áp dụng vào thực tế một cách hiệu quả.
Báo cáo được chia làm 3 chương như sau:
❖ CHƯƠNG 1: “Tổng quan về mơ hình” trình bày các khái niệm và thuật ngữ cơ bản,
đưa ra ứng dụng của mơ hình.
❖ CHƯƠNG 2: “Phân tích và xử lý nguồn dữ liệu” mô tả tập dữ liệu, đồng thời thực
hiện tiền xử lý dữ liệu.
❖ CHƯƠNG 3: “Mơ hình thuật tốn” trình bày mơ hình thuật tốn và phân tích kết
quả đạt được.
Mặc dù nhóm đã rất cố gắng nhưng do kiến thức còn hạn chế nên bài báo cáo khơng
tránh được thiếu sót. Do vậy, chúng em rất mong nhận được sự đóng góp ý kiến của

thầy cơ cùng các bạn để bài báo cáo của nhóm được hoàn thiện nhất.

3

CHƯƠNG I: TỔNG QUAN VỀ MƠ HÌNH
1.1. Đặt vấn đề và mơ tả bài tốn
Trong lĩnh vực bảo hiểm hiện nay, với thế mạnh khi áp dụng Machine Learning,
AI, Big Data, các cơng ty bảo hiểm có thể dự đốn sản phẩm dịch vụ mà khách hàng
muốn mua dựa trên lịch sử mua hàng trước đó hoặc thơng tin mà khách hàng cung cấp,
từ đó cải thiện trải nghiệm của khách hàng.
Bài tốn đặt ra: Một cơng ty bảo hiểm thu thập đc dữ liệu khách hàng mua bảo
hiểm tại công ty, dựa vào dữ liệu khảo sát quá khứ những khách hàng nào mua bảo hiểm
xe ô tô và có nhu cầu mua thêm bảo hiểm sức khỏe cho họ.
Mục tiêu: Để giải quyết bài toán này, chúng ta cần sử dụng các phương pháp phân
tích dữ liệu và học máy để xây dựng model dự đoán khách hàng mua bảo hiểm ơ tơ có
nhu cầu mua bảo hiểm sức khỏe. Từ đó tư vấn và tấn cơng tệp đối tượng đó, gia tăng
khả năng thành cơng tiếp cận, tiết kiệm nhiều chi phí như nhân sự, tin nhắn, khuyến
mãi,… có thể tiếp cận để bán thêm nhiều sản phẩm khác có liên quan tới khách hàng.
Bài tốn này có thể được giải quyết bằng nhiều phương pháp khác nhau. Cụ thể
trong bài này, nhóm chúng em sử dụng mơ hình thuật tốn Logictis Regression để so
sánh và dự đoán được thuật toán nào mang lại hiệu quả tối ưu nhất cho bài tốn sau đó
áp dụng đúng mục tiêu cần thiết, phù hợp với khách hàng.
1.2. Khái niệm và các thuật ngữ cơ bản
1.2.1 Cross sell (bán chéo)
Là một kĩ thuật bán hàng được sử dụng để khiến khách hàng chi tiêu nhiều hơn
bằng cách mua một hay nhiều sản phẩm có liên quan đến những gì họ dự định mua. Đó
là những sản phẩm có tác dụng bổ trợ, có tính tương đồng, hay chỉ đơn giản dùng chung
sẽ tăng trải nghiệm của khách hàng.
Ưu điểm của cross sell:

 Tăng lợi nhuận, doanh số: Lợi nhuận luôn là cái đích cuối cùng mà bất kỳ doanh
nghiệp nào cũng mong muốn. Vì vậy, cross sell chính là một trợ thủ đắc lực khiến cho
khách hàng bỏ thêm tiền để mua sản phẩm. Điều đó đồng nghĩa với việc, lợi nhuận mà
doanh nghiệp nhận được cũng nhiều hơn.
 Tăng trải nghiệm cho khách hàng: Việc áp dụng cross selling khơng dừng lại ở chỗ
cố bán được hàng mà nó cũng là một hình thức gián tiếp giúp nghiên cứu khả năng chi
tiêu và nhu cầu khách hàng để gợi ý cho họ một cách chính xác sản phẩm phù hợp. Từ
đó trải nghiệm khách hàng được nâng cao.
 Tăng ROI: Với cross sell, không cần bỏ ra quá nhiều chi phí để tiếp cận khách hàng
mà doanh thu vẫn tăng nhanh chóng.
 Tăng giá trị trọn đời: Khi giá trị chi tiêu trung bình của khách hàng tăng thì đồng
nghĩa với việc họ đã trở thành khách hàng trung thành của doanh nghiệp và kéo theo sự
gia tăng về giá trị trọn đời của họ.
 Sự tiện lợi: Có thể đánh phủ được nhu cầu của khách hàng trong tương lai bằng cách
cung cấp đầy đủ thậm chí là nhiều hơn những gì mà họ cần để tạo sự thuận lợi và linh
hoạt khi họ tìm đến.

4

1.2.2. Bảo hiểm ô tô
Bảo hiểm ô tô là loại bảo hiểm kết hợp nhiều loại hình bảo hiểm bao gồm cả về con
người, tài sản, hàng hóa vận chuyển có liên quan đến xe ơ tơ.
Bảo hiểm ơ tơ bắt buộc là loại hình bảo hiểm trách nhiệm dân sự đối với tất cả các
chủ sở hữu xe ô tô đều phải tham gia theo quy định. Bởi nếu bị cảnh sát giao thơng, cơ
quan chức năng có thẩm quyền kiểm tra mà chủ sở hữu xe khơng có bảo hiểm ơ tơ bắt
buộc thì sẽ bị coi là vi phạm quy định của pháp luật và sẽ bị xử phạt theo quy định.
Ngoài ra, khi mua bảo hiểm ô tô bắt buộc dù ở bất cứ đâu thì bạn cũng nên đọc thêm
các quy định và các phạm vi bảo hiểm, điểm loại trừ của bảo hiểm bắt buộc ô tô này để
được công ty bảo hiểm chi trả bồi thường.

Trên thị trường bảo hiểm ôtô hiện nay có 4 hình thức bảo hiểm phổ biến gồm:

Bảo hiểm bắt buộc trách nhiệm dân sự của chủ xe cơ giới

Bảo hiểm trách nhiệm dân sự của chủ xe đối với hàng hóa vận chuyển trên xe

Bảo hiểm thiệt hại vật chất xe cơ giới

Bảo hiểm người ngồi trên xe và tai nạn lái phụ xe.
1.2.3. Bảo hiểm sức khỏe
Bảo hiểm sức khỏe là một loại hình bảo hiểm tự nguyện, được sử dụng trong
trường hợp người được bảo hiểm gặp rủi ro. Cụ thể, doanh nghiệp bảo hiểm có nghĩa
vụ chi trả một phần hay tồn bộ chi phí điều trị theo thỏa thuận hợp đồng đã ký kết khi
người được bảo hiểm gặp tai nạn, thương tật,...
Đầu tư vào bảo hiểm sức khỏe là một dạng đầu tư thông minh. Tuy nhiên, thời
hạn hợp đồng bảo hiểm khá ngắn (khoảng 1 năm) và chỉ thu phí một lần duy nhất.
Bảo hiểm sức khỏe dược phân ra làm 3 loại chính:

Bảo hiểm tai nạn con người

Bảo hiểm y tế thương mại

Bảo hiểm chăm sóc sức khỏe
1.2.4. Mối liên hệ giữa bảo hiểm ô tô và bảo hiểm sức khỏe
Khảo sát của cơng ty tồn cầu về nghiên cứu thị trường Nielsen cũng chỉ ra mối
quan tâm của người Việt đối với sức khỏe ngày càng lớn, theo đó năm 2020 tăng 4% so
với năm 2019 và đứng top 1, trên cả sự ổn định của công việc hay sự cân bằng cuộc
sống - công việc.
Xu hướng của người tiêu dùng Việt cũng cho thấy mức độ quan tâm tới các gói
bảo hiểm sức khỏe cao cấp vẫn duy trì ở mức cao, đứng top 3 chỉ sau tiết kiệm và mua

sắm quần áo.

5

Hình 1. 1: Hình ảnh về mối quan tâm của người Việt tới bảo hiểm sức khỏe
Lý giải cho điều này, các chuyên gia cho rằng, dịch bệnh diễn biến phức tạp chính
là cú hích thay đổi tư duy tiêu dùng, tâm lý lựa chọn của nhiều người Việt thuộc giới
trung lưu đang tăng nhanh ở Việt Nam những năm gần đây. Kể từ hậu COVID-19 và
giãn cách xã hội, lối sống và quản lý tài chính của người Việt đã có thay đổi theo hướng
tăng ý thức phịng ngừa những rủi ro trong tương lai. Thay vì đầu tư vào những khoản
sinh lời hoặc tiêu sản, người tiêu dùng tìm đến những đầu tư mang giá trị bền vững, đặc
biệt là đầu tư cho sức khỏe.
Bảo hiểm sức khỏe bổ trợ thêm cho bảo hiểm ô tô, ứng dụng nhiều hơn về các vấn
đề sức khỏe và y tế. Khi người tham gia giao thơng có nhu cầu mua bảo hiểm ơ tơ thì
họ cũng là những khách hàng tiềm năng cho việc mua bảo hiểm về sức khỏe. Dựa vào
đó, cơng ty bảo hiểm có thể khai thác và cross sell hướng họ đến nhu cầu sử dụng thêm
bảo hiểm sức khỏe từ đó kích cầu cho cơng ty tạo ra nguồn lợi nhuận mới tăng đáng kể
đến từ chính những dữ liệu đang có.
1.2.5. Dự đốn bán chéo sản phẩm( Cross sell Prediction)
Cross sell Prediction là việc dự đốn khả năng khách hàng có nhu cầu sử dụng
thêm bảo hiểm sức khỏe dựa trên các thông tin liên quan đến khách hàng và lịch sử
dùng bảo hiểm ô tô của họ. Đây là một ứng dụng thực tế của mơ hình dự đốn bán chéo,
trong đó mục tiêu chính là xác định xem khách hàng có nhu cầu mua thêm khơng để
các cơng ty bảo hiểm có thể đưa ra quyết định khách quan chính xác nhất từ dữ liệu
khách hàng. Các thơng tin có thể được sử dụng để dự đoán xác suất nhu cầu dùng thêm
của khách hàng bao gồm: giới tính, độ tuổi, có bằng lái xe hay chưa, vùng khách hàng
cư trú, độ tuổi phương tiện, phương tiện đã bị hỏng chưa, thời gian khách hàng gắn bó
với cơng ty và nhiều yếu tố khác.

6

Hình 1. 2: Một số thơng tin cơ bản phục vụ mơ hình
Thơng thường, q trình dự đốn bán chéo sẽ sử dụng các thuật tốn và mơ hình
học máy để phân tích các yếu tố này . Sau đó, các mơ hình này sẽ ước tính khả năng
khách hàng muốn sử dụng thêm sản phẩm khác trong tương lai dựa trên chúng.

Hình 1. 3: Một số thuật tốn phổ biến thường được sử dụng
1.3. Những yếu tố quan trọng
Những yếu tố quan trọng cần lưu ý:
 Các yếu tố đánh giá khách hàng, bao gồm thu nhập, số tiền tiết kiệm, nợ xấu trong
quá khứ, điểm tín dụng, số năm làm việc, và các yếu tố khác.
 Dữ liệu lịch sử khách hàng trước đó, bao gồm lịch sử thanh toán các loại dịch vụ bảo
hiểm đã sử dụng
 Các yếu tố thị trường, bao gồm tình hình kinh tế và các yếu tố khác.
Từ đây, chúng ta sẽ xây dựng một mơ hình dự đốn và khai thác những khách
hàng có nhu cầu sử dụng thêm dịch vụ một cách chính xác nhất. Điều này giúp cho
doanh nghiệp có thể tối ưu hóa và khoanh vùng đổi tượng dễ dàng nhằm đảm bảo tính
ổn định. Tuy nhiên, để đạt được mục tiêu này, chúng ta cần có dữ liệu đầy đủ và chính
xácvề khách hàng, đồng thời cần xử lý và phân tích dữ liệu một cách khoa học và hiệu
quả. Thêm vào đó, một mơ hình dự đốn chính xác và tin cậy cũng là một yếu tố quan
trọng để giúp công ty đưa ra quyết định đúng đắn. Do đó, phân tích dữ liệu và dự đoán
7

cros sell khách hàng có nhu cầu mua bảo hiểm sức khỏe dựa vào dữ liệu khách hàng đã
mua bảo hiểm ơ tơ là một bài tốn quan trọng và được quan tâm trong lĩnh vực bảo
hiểm. Khi giải quyết thành cơng bài tốn này, các doanh nghiệp sẽ có thể cải thiện hoạt
động, đảm bảo tính ổn định tài chính và tối ưu hóa lợi nhuận.

1.4. Ứng dụng mơ hình
Mơ hình phân tích dữ liệu và dữ đốn khả năng cross sell khách hàng có nhu cầu
mua bảo hiểm sức khỏe có thể được ứng dụng rộng rãi trong lĩnh vực bảo hiểm và tài
chính. Dưới đây là một số ứng dụng cụ thể của mơ hình này:
 Đánh giá khách hàng tiềm năng: Các công ty bảo hiểm có thể sử dụng mơ hình phân
tích dữ liệu và dự đoán nhu cầu sử dụng thêm của khách hàng để đánh giá khách hàng
tiềm năng. Từ đó, các cơng ty có thể quyết định hướng tới tiếp cận khách hàng đó dễ
dàng hơn.
 Xác định các yếu tố ảnh hưởng đến nhu cầu sử dụng của khách hàng: Mô hình
phân tích dữ liệu và dự đốn nhu cầu sử dụng của khách hàng cũng có thể giúp cơng ty
bảo hiểm xác định các yếu tố ảnh hưởng đến loại bảo hiểm mà khách hàng đang quan
tâm thêm, như bảo hiểm sức khỏe, y tế, nhân thọ, v.v.
 Tối ưu hóa hoạt động tiếp cận khách hàng của cơng ty bảo hiểm: Sử dụng mơ hình
phân tích dữ liệu và dự đoán cross sell đối với khách hàng đã mua bảo hiểm, doanh
nghiệp sẽ mang lại được nguồn lợi nhuận cao mà ít rủi ro.
 Nâng cao trải nghiệm khách hàng: Mơ hình này đáp ứng cung cấp cho khách hàng
những sản phẩm và dịch vụ bảo hiểm phù hợp với khả năng của khách hàng.

8

CHƯƠNG 2: PHÂN TÍCH VÀ XỬ LÝ NGUỒN DỮ LIỆU
Việc phân tích và xử lý nguồn dữ liệu là một bước quan trọng và khơng thể thiếu.
Q trình phân tích và tiền xử lý dữ liệu sẽ giúp cải thiện kết quả và giảm thời gian tính
tốn cho model. Chương này sẽ giới thiệu về bộ dữ liệu về phân tích và xử lý nguồn dữ
liệu. Dữ liệu cũng sẽ được chia train-test theo tỉ lệ 80%-20% để phù hợp nhất với mơ
hình bài tốn.
2.1 Mơ tả và xử lý dữ liệu đầu vào
Dữ liệu trong bài tốn được cơng khai sử dụng từ Lending CLub. Dữ liệu bao gồm
381109 khách hàng được mơ tả với thuộc tính và tính năng có trong bảng dưới đây:

Variable

Class

Id

Description
Mã khách hàng

numeric
Gender

character

Male: nam
Female: nữ

Age

numeric

Tuổi của khách hàng

Driving_License

numeric

Region_Code

numeric

Bằng lái xe:
1: Khách hàng có bằng lái xe.
0: Khách hàng chưa có bằng lái xe.
Vùng cư trú của khách hàng.

Previously_Insured

numeric

0: Khách hàng chưa có bảo hiểm.
1: Khách hàng đã có bảo hiểm.

Vehicle_Age

character

Độ tuổi phương tiện.

Vehicle_Damage

character

Yes: Bảo hiểm đã từng bị hỏng
No: Bảo hiểm chưa từng bị hỏng.

Annual_Premium

numeric

Số tiền khách hàng phải đóng phí bảo
hiểm hàng năm

Policy_Sales_Channel

numeric

Kênh tiếp cận khách hàng (Các đại lý,
qua thư, điện thoại, trực tiếp,…)

Vintage

numeric

Thời gian khách hàng gắn bó với cơng
ty

Response

numeric

1: Khách hàng hứng thú mua bảo hiểm
sức khỏe
0: Khách hàng không hứng thú mua
bảo hiểm sức khỏe
9

2.1.1: Đọc dữ liệu
Bước 1: Import các thư viện cần dùng

import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
Bước 2: Read and display data (đọc và hiển thị dữ liệu )
train = pd.read_csv("train.csv")
train

Hình 2. 1: Dữ liệu được hiển thị
Sau khi đọc dữ liệu ta thấy cột “Id” là một số tăng dần và cột
“Policy_Sales_Channel” là kênh tiếp cận bán hàng không ảnh hưởng đến việc dự đốn
model nên có thể loại bỏ cột “Id” và cột “Policy_Sales_Channel”.
train.drop(columns=["id","Policy_Sales_Channel"], inplace=True)

2.2: Categorical data
Dữ liê ̣u phân loa ̣i, không giố ng với dữ liê ̣u da ̣ng số (numerical data), là loa ̣i dữ
liê ̣u chỉ nhâ ̣n mô ̣t số lươ ̣ng hữu ha ̣n các giá tri cố
̣ đinh.
̣ Ví du ̣ trong dataset trên, giới tính
là mơ ̣t feature da ̣ng categorical vì nó chỉ nhâ ̣n 1 trong 2 giá tri:̣ Nam hoă ̣c Nữ.
Viê ̣c sử du ̣ng categorical data trong bài toán ML có các thách thức như sau:
 Nhiề u model machine learning thường chỉ nhâ ̣n input là các giá tri ̣ numerical.
Để dùng các model này, categorical data buô ̣c phải đươ ̣c đưa về da ̣ng number.
10

 High cardinality: dữ liê ̣u có thể bao gồ m mô ̣t lươ ̣ng rấ t lớn các giá tri kha
̣ ́ c nhau,
trong đó mỗi giá tri ̣chỉ xuấ t hiê ̣n rấ t ít lầ n.
 Máy tính không nhìn nhâ ̣n dữ liê ̣u da ̣ng phân loa ̣i và mố i quan hê ̣ giữa chúng
như cách con người nhâ ̣n thức.
Vâ ̣y điề u cầ n thiế t là phải tim
̀ cách biế n đổ i các category này về da ̣ng numerical
để máy tính có thể xử lý, cũng như tìm cách extract đươ ̣c các thông tin "hữu ić h" trong
mố i quan hê ̣ giữa chúng.
Có nhiều cách thức làm việc với Categorical data như Integer encoding, Ordinal
encoding, One-hot encoding, Dummy encoding,…. Với bộ dữ liệu về thông tin người
mua bảo hiểm này, sử dụng phương pháp Dummy encoding cho cột “Gender”,
“Vehicle_Age ” và “Vehicle_Damage”. Dummy encoding là phương pháp biến biến
phân loại thành một tập hợp các biến nhị phân.
train = pd.get_dummies(train, columns=["Gender"],drop_first=True)
train = pd.get_dummies(train, columns=["Vehicle_Damage"],drop_first=True)
train = pd.get_dummies(train, columns=["Vehicle_Age"],drop_first=True)
2.3 Data scaling
Data scaling là một q trình chuẩn hóa dữ liệu để đưa các giá trị của các biến
về cùng một phạm vi hoặc khoảng giá trị nhất định. Quá trình này giúp cho các thuật
tốn phân tích dữ liệu và máy học hoạt động hiệu quả hơn và đảm bảo tính chính xác của
kết quả phân tích.
Các phương pháp phổ biến để tỷ lệ hóa dữ liệu là:





Min-max Scaling
Z-score Standardization

Log Transformation
Robust Scale

Với phương pháp Min-max Scaling để chuyển đổi các giá trị của một biến thành
khoảng giá trị cụ thể trong khoảng [0,1]. Phương pháp này được sử dụng để đưa các giá
trị của các biến về cùng một phạm vi, giúp cho việc so sánh và phân tích các biến dễ
dàng hơn. Min-max scaling được thực hiện bằng cách sử dụng công thức:

11

Phương pháp Min-max scaling có ưu điểm là đơn giản và dễ hiểu, cũng như giúp cho
các biến cùng chung một phạm vi và giảm độ lệch của các giá trị. Tuy nhiên, phương
pháp này có nhược điểm là nhạy cảm với nhiễu và giá trị cực đại/cực tiểu, khiến cho q
trình chuẩn hóa dữ liệu có thể bị sai lệch. Ngồi ra, phương pháp Min-max scaling cũng
có thể được áp dụng cho các phạm vi giá trị khác nhau bằng cách thay thế khoảng giá trị
[0,1] bằng một khoảng giá trị khác như [-1,1] hoặc [0, 100] tùy vào nhu cầu của bài toán.
Áp dụng vào bài toán gán các trường đầu vào là "Age","Annual_Premium","Vintage"
ta được:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
train[["Age","Annual_Premium","Vintage"]]=scaler.fit_transform(train[["Age",
"Annual_Premium", "Vintage"]])

Hình 2. 2: Bảng dữ liệu sau scale

12

CHƯƠNG 3: MƠ HÌNH THUẬT TỐN

Chương này trình bày về phương pháp SMOTE xử lý vấn đề mất cân bằng dữ liệu
nhằm giúp tăng tính đúng đắn của model. Bên cạnh đó là thuật tốn Logistics
Regression giải quyết bài tốn đặt ra và phân tích kết quả, đánh giá hiệu quả của
model.
3.1 Xử lý mất cân bằng dữ liệu bằng SMOTE (Synthetic Minority Oversampling)
3.1.1. Dữ liệu mất cân bằng (Imbalanced data)
Dữ liệu không cân bằng đề cập đến những loại bộ dữ liệu mà lớp mục tiêu có phân
phối quan sát khơng đồng đều, tức là một nhãn lớp có số lượng quan sát rất cao
(Majority) và nhãn kia có số lượng quan sát rất thấp (Minority).

Hình 3.1: So sánh giữa dữ liệu cân bằng và dữ liệu mất cân bằng
Việc mất cân bằng dữ liệu sẽ thường được thấy trong các bài toán phân loại
liên quan đến thư rác, bài tốn chó mèo, dự đốn rời bỏ khách hàng, dự đốn ung
thư…

Hình 3.2: Biểu đồ giá trị nhận diện giao dịch thẻ giả mạo của ngân hàng và
bài toán dự đoán khách hàng rời bỏ
Ở biểu đồ bên trái, có thể thấy số lượng giao dịch thẻ bình thường của ngân hàng rất
là nhiều (majority), còn số lượng giao dịch thẻ giả mạo ít (minority)
Ở biểu đồ bên phải, số lượng khách hàng ở lại chiếm 85.93%, số lượng khách hàng
rời bỏ chiếm 14.07%
Có thể thấy số liệu các lớp của hai biểu đồ trên đang bị mất cân bằng. Trong thực tế
13

đó là điều hiển nhiên, cịn trong các bài tốn nó sẽ ảnh hưởng đến độ chính xác của
model.
Tác hại của Imbalance:

Hầu hết các thuật toán phân lớp trong Machine Learning (ML) hoạt động tốt

với balance dataset

Khi dataset không balance:

Model có thiên hướng predict ra lớp đa số (majority) để tăng độ chính
xác lên (accuracy).

Khi đó accuracy sẽ khơng cịn tác dụng đánh giá model nữa.
Để xử lý vẫn đề mất cân bằng dữ liệu chúng ta có thể sử dụng một số phương pháp
như:

Thay đổi metric đánh giá model

Undersampling

Oversampling

Class weighted

Ensemble & Boosting
Trong bài toán xây dựng model dự đoán cho vay của khách hàng, để xử lý dữ liệu
mất cân bằng, nhóm quyết định chọn phương pháp upsambling bằng SMOTE.
3.1.2, SMOTE (Synthetic Minority Over-sampling)
a. SMOTE là gì?
SMOTE (Synthetic Minority Over-sampling) là phương pháp sinh mẫu nhằm gia
tăng kích thước mẫu của nhóm thiểu số trong trường hợp xảy ra mất cân bằng mẫu. Để
gia tăng kích thước mẫu, với mỗi một mẫu thuộc nhóm thiểu số ta sẽ lựa chọn ra mẫu
láng giềng gần nhất với nó và sau đó thực hiện tổ hợp tuyến tính để tạo ra mẫu giả lập.
- Giới thiệu về vấn đề:
Lớp thiểu số/tích cực là lớp được quan tâm và đặt mục tiêu đạt được kết quả tốt

nhất trong lớp này. Nếu dữ liệu mất cân bằng khơng được xử lý trước, thì điều này sẽ
làm giảm hiệu suất của mơ hình bộ phân loại. Hầu hết các dự đoán sẽ tương ứng với
lớp đa số và coi các đặc trưng của lớp thiểu số là nhiễu trong dữ liệu và bỏ qua chúng.
Điều này sẽ dẫn đến sự sai lệch cao trong mơ hình

Hình 3.3: Mơ hình phân bố dữ liệu
14

- Nghịch lý độ chính xác:
Giả sử, bạn đang giải quyết vấn đề phát hiện gian lận dựa trên bảo hiểm y tế. Trong
những vấn đề như vậy, chúng tôi thường nhận thấy rằng trong 100 yêu cầu bảo hiểm,
99 u cầu trong số đó là khơng gian lận và 1 là gian lận. Vì vậy, mơ hình phân loại
nhị phân khơng cần phải là một mơ hình phức tạp để dự đoán tất cả các kết quả là 0
nghĩa là khơng gian lận và đạt được độ chính xác cao là 99%. Rõ ràng, trong những
trường hợp phân phối lớp bị lệch như vậy, số liệu về độ chính xác sẽ bị sai lệch và
không được ưu tiên.
b. Sự khác biệt của SMOTE với các kỹ thuật lấy mẫu thông thường
Trong một kỹ thuật lấy mẫu quá mức cổ điển, dữ liệu thiểu số được sao chép từ
quần thể dữ liệu thiểu số. Mặc dù nó làm tăng số lượng dữ liệu, nhưng nó khơng cung
cấp bất kỳ thơng tin hoặc biến thể mới nào cho mơ hình học máy.
SMOTE hoạt động bằng cách sử dụng thuật toán k-hàng xóm gần nhất để tạo dữ
liệu tổng hợp. Đầu tiên, SMOTE bắt đầu bằng cách chọn dữ liệu ngẫu nhiên từ lớp
thiểu số, sau đó k-hàng xóm gần nhất từ dữ liệu được đặt. Dữ liệu tổng hợp sau đó sẽ
được tạo giữa dữ liệu ngẫu nhiên và hàng xóm k gần nhất được chọn ngẫu nhiên.

Hình 3.4: Mơ hình lấy mẫu của SMOTE.
c. Cách thức hoạt động
Lúc đầu, tổng số khơng có. của các quan sát lấy mẫu q mức, N được thiết lập.
Nói chung, nó được chọn sao cho phân phối lớp nhị phân là 1: 1. Nhưng điều đó có

thể được điều chỉnh dựa trên nhu cầu. Sau đó, q trình lặp bắt đầu bằng cách chọn
ngẫu nhiên một cá thể lớp tích cực.
Tiếp theo, KNN’s (theo mặc định là 5) cho trường hợp đó được lấy. Cuối cùng, N
trong số K cá thể này được chọn để nội suy các cá thể tổng hợp mới. Để làm điều đó,
sử dụng bất kỳ số liệu khoảng cách nào, sự khác biệt về khoảng cách giữa vectơ đối
tượng và các vùng lân cận của nó sẽ được tính toán. Bây giờ, sự khác biệt này được
nhân với bất kỳ giá trị ngẫu nhiên nào trong (0,1] và được thêm vào vectơ đặc trưng
trước đó. Điều này được biểu diễn bằng hình ảnh bên dưới:
15

Hình 3.5: Mơ hình hoạt động của SMOTE
Mặc dù thuật tốn này khá hữu ích, nhưng nó có một số nhược điểm đi kèm với nó
như :
- Các thể hiện tổng hợp được tạo ra theo cùng một hướng, tức là được nối với nhau
bằng một đường nhân tạo các thể hiện đường chéo của nó. Điều này đến lượt nó làm
phức tạp bề mặt quyết định được tạo ra bởi một số thuật tốn phân loại.
- SMOTE có xu hướng tạo ra số không lớn. của các điểm dữ liệu nhiễu trong không
gian đối tượng.
3.1.3. Áp dụng SMOTE vào xử lý dữ liệu
Upsampling bằng SMOTE:
from imblearn.over_sampling import SMOTE
sm = SMOTE()
X_train_os, y_train_os = sm.fit_resample(X_train, y_train)
X_train_os.shape, y_train_os.shape

- Kiểm tra sự cân bằng dữ liệu :
y_train_os.value_counts()
- Kết quả:

* Nhận xét: Dữ liệu trong “Respone” đã được cân bằng giữa số lượng khách hàng
phản hồi việc mua bảo hiểm và khách hàng không phản hồi việc mua bảo hiểm.
16

3.2 Thuật tốn Logistic Regression
Kỹ thuật mơ hình hóa thống kê logistic regression được sử dụng khi chúng ta có một
biến kết quả nhị phân. Ví dụ: dựa trên các thông số cho trước, học sinh sẽ đậu hay
trượt? Trời có mưa hay khơng

Hình 3. 1: Ví dụ về LR
Vì vậy, mặc dù chúng ta có thể có các biến độc lập liên tục hoặc rời rạc, chúng ta
vẫn có thể sử dụng kỹ thuật mơ hình hóa logistic regression để dự đoán kết quả khi
biến phụ thuộc là nhị phân.
Thuật tốn Logistic Regression sử dụng hàm logistic để tính toán xác suất của biến phụ
thuộc nhị phân. Hàm logistic có dạng S-shaped curve và có giá trị nằm trong khoảng từ
0 đến 1, phù hợp với việc dự đoán xác suất. Thuật tốn sử dụng các thơng số của mơ
hình để ước lượng hệ số của các biến độc lập, từ đó tính tốn ra giá trị xác suất của
biến phụ thuộc.
Thuật tốn Logistic Regression có nhiều ứng dụng trong thực tế, chẳng hạn
như trong lĩnh vực kinh doanh để dự đốn khả năng thành cơng của một chiến
dịch quảng cáo, trong y học để dự đoán khả năng một bệnh nhân mắc bệnh ung
thư , hoặc trong dự đốn khả năng mua sản phẩm của khách hàng,….
Cơng thức cho logistic regression:
1
𝑆𝑖𝑔(𝑥)

=

1 + e−x

Trong đó: e là số mũ cơ số của hệ thống logarit tự nhiên. X là giá trị số
học cần được chuyển đổi.

17

Hình 3. 2: Đồ thị hàm Sigmoid
Nếu chúng ta đưa một giá trị đầu ra cho hàm sigmoid, nó sẽ trả về xác suất
của kết quả nằm trong khoảng từ 0 đến 1. Nếu giá trị này nhỏ hơn 0.5, thì đầu ra
sẽ được trả về là No/Fail/Deceased (trong ví dụ ở trên). Nếu giá trị lớn hơn 0.5,
thì đầu ra sẽ được trả về là Yes/Pass/Deceased
Các tham số đánh giá mơ hình
- Độ chính xác (accuracy)
Khi xây dựng mơ hình phân loại chúng ta sẽ muốn biết một cách khái quát tỷ lệ các
trường hợp được dự báo đúng trên tổng số các trường hợp là bao nhiêu. Tỷ lệ đó được
gọi là độ chính xác. Độ chính xác giúp ta đánh giá hiệu quả dự báo của mô hình trên
một bộ dữ liệu. Độ chính xác càng cao thì mơ hình của chúng ta càng chuẩn xác.
- Recall
Recall đo lường tỷ lệ dự báo chính xác các trường hợp positive trên tồn bộ các mẫu
thuộc nhóm positive. Để tính được recall thì chúng ta phải biết trước nhãn của dữ liệu.
Do đó recall có thể được dùng để đánh gía trên tập train và validation vì chúng ta đã biết
trước nhãn.
- AUC

ROC là đường cong biểu diễn khả năng phân loại của một mơ hình phân loại
tại các ngưỡng threshold. Đường cong này dựa trên hai chỉ số :
+ TPR (true positive rate): Hay còn gọi là recall hoặc sensitivity. Là tỷ lệ các trường
hợp phân loại đúng positive trên tổng số các trường hợp thực tế là positive. Chỉ số này
sẽ đánh giá mức độ dự báo chính xác của mơ hình trên positive. Khi giá trị của nó càng

cao, mơ hình dự báo càng tốt trên nhóm positive. Nếu TPR = 0.9 chúng ta tin rằng 90%
các mẫu thuộc nhóm positive đã được mơ hình phân loại đúng.
+ FPR (false positive rate): Tỷ lệ dự báo sai các trường hợp thực tế là negative thành
thành positive trên tổng số các trường hợp thực tế là negative. Nếu giá trị của FPR=0.1,
mơ hình đã dự báo sai 10% trên tổng số các trường hợp là negative. Một mơ hình có
18

FPR càng thấp thì mơ hình càng chuẩn xác vì sai số của nó trên nhóm negative càng
thấp. Phần bù của FPR là specificity đo lường tỷ lệ dự báo đúng các trường hợp
negative trên tổng số các trường hợp thực tế là negative.
Đồ thị ROC là một đường cong cầu lồi dựa trên TPR và FPR có hình dạng như bên dưới:

Hình 3. 3: Đồ thị ROC
AUC là chỉ số được tính tốn dựa trên đường cong ROC (receiving operating curve)
nhằm đánh giá khả năng phân loại của mô hình tốt như thế nào. Phần diện tích nằm
dưới đường cong ROC và trên trục hoành là AUC (area under curve) có giá trị nằm trong
khoảng [0, 1]. Khi diện tích này càng lớn thì đường cong ROC có xu hướng tiệm cận
đường thẳng và khả năng phân loại của mơ hình càng tốt. Khi đường cong ROC nằm
sát với đường chéo đi qua hai điểm (0, 0) và (1, 1), mơ hình sẽ tương đương với một
phân loại ngẫu nhiên. Đây là trường hợp tệ nhất. Mơ hình hồn tồn khơng có khả năng
phân loại giữa 2 lớp.
Trước khi tối ưu

Hình 3. 4: Kết quả bài tốn trước khi tối ưu
Ta có bảng sau:
19

Model dự đốn

Khách hàng có
nhu cầu mua bảo
hiểm
Thực tế

Khách hàng có nhu
cầu mua bảo hiểm
Khách hàng khơng có
nhu cầu mua bảo hiểm

Khách hàng
khơng có
nhu cầu mua
bảo hiểm

TP = 66699

FN = 0

FP = 9522

TN = 1

Sau khi tối ưu:

Hình 3. 5: Kết quả bài toán sau khi tối ưu
 AUC: Giá trị AUC của mơ hình là 0,78414 khá tốt nhưng có thể được cải thiện.
Giá trị AUC được tạo bằng cách gọi hàm roc_auc_score() từ thư viện
sklearn.metrics. Sau đây là trực quan hóa đường cong ROC từ mơ hình thuật
tốn hồi quy logistic.

20

Hình 3. 6: ROC sau khi tối ưu

21

CHƯƠNG 3: KẾT LUẬN
Đầu tiên, phân tích dữ liệu là một cơng cụ quan trọng để hiểu và dự đốn hành vi khách
hàng. Bằng cách sử dụng các kỹ thuật phân tích dữ liệu, chúng ta có thể tìm ra các mối quan
hệ, xu hướng và mẫu đằng sau các dữ liệu khách hàng. Từ đó, chúng ta có thể xác định
được các yếu tố quan trọng nhất để dự đoán hành vi mua bảo hiểm của khách hàng.
Thứ hai, dự đoán cross sell là một phương pháp hiệu quả để tăng doanh số bảo hiểm.
Bằng cách sử dụng các kỹ thuật dự đốn, chúng ta có thể xác định được khách hàng có khả
năng mua bảo hiểm và đưa ra các đề xuất bán hàng phù hợp. Điều này giúp tăng doanh số
và cải thiện lợi nhuận. Cuối cùng, để thành cơng trong việc phân tích dữ liệu và dự đốn
cross sell, chúng ta cần sử dụng các cơng cụ và kỹ thuật phù hợp, đồng thời phải có kế
hoạch thực hiện và đánh giá kết quả. Chúng ta cũng cần lưu ý rằng dữ liệu là một tài nguyên
quý giá, vì vậy chúng ta cần bảo vệ và quản lý dữ liệu một cách cẩn thận để đảm bảo tính
chính xác và bảo mật.
Tóm lại, phân tích dữ liệu và dự đốn cross sell là những cơng cụ quan trọng để cải thiện
doanh số bảo hiểm và nâng cao hiệu quả kinh doanh. Tuy nhiên, để thành công, chúng ta
cần áp dụng các kỹ thuật và công cụ phù hợp và đánh giá kết quả một cách chính xác và
đầy đủ.

22

TÀI LIỆU THAM KHẢO
[1]. Mì AI, “Xây dựng model dự đoán bán chéo sản phẩm (Cross sell
prediction”, yt.
[2]. “Oánh giá” model AI theo cách Mì ăn liền – Chương 2. Precision, Recall
và F-Score
[3]. Sơn Nguyễn, “Logistic Regression thuật toán hồi quy Logistic”
[4]. “What is logistic regression?”, IBM
[5]. Tiep Vu, “Mã hóa one-hot”, machinelearningcoban.com
[6]. Anmol Kumar, “Health Insurance Cross Sell Prediction”, kaggle.com
[7]. Tuan Nguyen, “Random Forest algorithm”, machinelearningcoban.com
[8].
Lekhana_Ganji, “One Hot Encoding in Machine Learning”,
geeksforgeeks.org
[9]. Yugesh Verma, “Why Data Scaling is important in Machine Learning &
How to effectively do it”, AIM
[10]. Aniruddha Bhandari, Feature Engineering: Scaling, Normalization, and
Standardization (Updated 2023), Analytics Vidhya.
[11]. Dr. Dave Guggenheim, “Logistic Regression and the Feature Scaling
Ensemble”, Towards Data Science
[12].
Hugo Bowne-Anderson, “Preprocessing in Data Science (Part 2):
Centering, Scaling and Logistic Regression”, DataCamp

23

Bài tập lớn Phân tích dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về