(Tiểu luận) nghiên cứu dữ liệu khách hàng và áp dụng mô hìnhdự đoán khả năng đủ điều kiện vay mua nhà

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.98 MB, 60 trang )

Trang 1<div class="page_container" data-page="1">

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP.HCM

TRƯỜNG KINH DOANH

KHOA CÔNG NGHỆ THƠNG TIN KINH DOANH

DỰ ÁN KẾT THÚC HỌC PHẦNMơn học: KHOA HỌC DỮ LIỆU

NGHIÊN CỨU DỮ LIỆU KHÁCH HÀNG VÀ ÁP DỤNG MƠ HÌNHDỰ ĐỐN KHẢ NĂNG ĐỦ ĐIỀU KIỆN VAY MUA NHÀ

Giảng viên: Lê Hữu Thanh Tùng

</div>Trang 2<div class="page_container" data-page="2">

BẢNG PHÂN CÔNG NHIỆM VỤ VÀ TỶ LỆ ĐIỂM ĐỀ XUẤT

Họ và tênNhiệm vụTỷ lệ hoànthànhĐiểm đềxuất

Nguyễn Ngọc Minh Tâm Chương 2: 2.1Chương 3: 3.1 (thực hành) 100% 9 Nguyễn Thị Ngọc Ngân Chương 2: 2.3

Nguyễn Thị Tú Uyên Chương 2: 2.2Chương 3: 3.3.1 100% 9.5 Trương Thị Anh Thư Chương 1Chương 3: 3.3.2 và 3.4 100% 9.5

Trịnh Thị Ngọc Ánh Chương 3: 3.1 (mô tả dữ liệu)

</div>Trang 3<div class="page_container" data-page="3">

1.2. Mục tiêu nghiên cứu...2

1.3. Đốitượngnghiêncứuvàphươngphápnghiêncứu...2

1.3.1. Đối tượng nghiên cứu...2

1.3.2. Phương pháp nghiên cứu...2

1.3.2.1. Phương pháp nghiên cứu lý

2.1.2.1. Phân cụm phân cấp (Hierarchical Clustering)...7

2.1.2.2. Phân cụm phân hoạch (Partitioning approach)...11

2.1.3. Các phương pháp đánh giá chất lượng phân cụm dữliệu...12

</div>Trang 5<div class="page_container" data-page="5">

2.3.3. Precision, Recall, F1-score...26

3.2. Mô tả bộ dữ liệu huấn luyện và bộ dữ liệu dự báo...423.2.1 Mô tả bộ dữ liệu huấn luyện...43

</div>Trang 6<div class="page_container" data-page="6">

CHƯƠNG 1: GIỚI THIỆU1.1. Lý do chọn đề tài

Ngày nay, thời đại công nghệ số thống lĩnh toàn cầu, đã mang đến những ảnh hưởng to lớn đối với đời sống, xã hội. Sự phát triển của cơng nghệ thơng tin, số hóa đã và đang từng bước thúc đẩy sự phát triển đổi mới nhanh chóng tại nhiều lĩnh vực. Và tài chính – ngân hàng cũng khơng ngoại lệ. Lĩnh vực tài chính – ngân hàng là một trong những lĩnh vực trọng yếu, có nhiều cơ hội đổi mới nhưng ln tìm ẩn những rủi ro khơng lường trước được. Chính bởi vì lẽ đó, sự phát triển của thị trường đã đặt ra nhiều thách thức cho Nhà nước, yêu cầu xây dựng chính sách và định hướng thị trường tài chính – ngân hàng với mục tiêu tận dụng, khai thác triệt để được các cơ hội, đồng thời phòng ngừa, khắc phục được những rủi ro, nguy cơ tiềm tàng. Công nghệ số sẽ cho phép các tổ chức tài chính thu thập, phân tích và lưu trữ dữ liệu từ nhiều nguồn khác nhau. Việc áp dụng trí tuệ nhân tạo, học máy và khai phá dữ liệu giúp phát hiện xu hướng, dự báo rủi ro tín dụng, tối ưu hóa quy trình và cung cấp thơng tin chi tiết để đưa ra quyết định thông minh.

Hiện nay, nghiên cứu và ứng dụng dữ liệu khách hàng để đánh giá rủi ro tín dụng là xu hướng phổ biến trong ngành tài chính. Bên cạnh việc tiếp cận và áp dụng các kỹ thuật phân tích dữ liệu mới mở ra những cơ hội và lợi ích lớn cho các tổ chức tài chính, việc đánh giá khả năng vay của khách hàng cũng là một yếu tố quan trọng. Điều này giúp các cơng ty tài chính đưa ra quyết định thông minh về việc cấp vay hay từ chối vay cho khách hàng, từ đó giảm thiểu rủi ro tín dụng và tăng hiệu suất hoạt động. Thêm vào đó, do sự phát triển của cơng nghệ thông tin và viễn thông, thông tin về khách hàng dễ dàng thu thập được từ nhiều nguồn khác nhau như hồ sơ tín dụng, lịch sử giao dịch, dữ liệu trực tuyến và xã hội,... Nghiên cứu dữ liệu khách hàng và áp dụng mơ hình dự đốn khả năng vay sẽ giúp tiếp cận và phân tích các nguồn dữ liệu này để đưa ra những quyết định thơng minh.

Trong nghiên cứu này, mơ hình dự đốn khả năng vay có thể được xây dựng bằng cách áp dụng các thuật tốn trí tuệ nhân tạo và học máy như học có giám sát, học khơng giám sát,... Điều này mang lại tiềm năng lớn để tạo ra các công cụ và phương pháp hiệu quả để đánh giá khả năng vay của khách hàng. Việc nghiên cứu dữ liệu khách hàng cung cấp những thông tin quan trọng về ưu và nhược điểm của từng khách hàng. Thơng qua việc tối ưu hóa quy trình vay

1

</div>Trang 7<div class="page_container" data-page="7">

mua nhà, cơng ty vừa có thể tăng cường khả năng cạnh tranh, tập trung vào các đối tượng khách hàng có tiềm năng và nâng cao trải nghiệm khách hàng, vừa có thể kiểm sốt và giảm thiểu rủi ro tín dụng đối với cơng ty. Với những lý do trên, dự án “Nghiên cứu dữ liệu khách hàng và áp dụng mơ hình dự đốn khả năng đủ điều kiện vay mua nhà” có thể mang lại nhiều giá trị cho công ty và các tổ chức tài chính.

1.2. Mục tiêu nghiên cứu

Dự án “Nghiên cứu dữ liệu khách hàng và áp dụng mơ hình dự đoán khả năng đủ điều kiện vay mua nhà” nhằm tập trung 2 mục tiêu được đề cập dưới đây:

Nghiên cứu về các phương pháp tính tốn cụ thể và sẽ chọn ra một phương pháp tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu. Từ đó sẽ đưa ra những mơ hình hoạt động kinh doanh tốt nhất cho các doanh nghiệp.

Dựa trên mô hình đã được huấn luyện trong quá trình nghiên cứu, đưa ra được kết luận về phân loại khách hàng và mục tiêu kinh doanh gắn liền với hành vi khách hàng, nhằm mang lại cho doanh nghiệp phương án kinh doanh hiệu quả nhất, cùng với đó là những hạn chế của bài nghiên cứu.

1.3.Đối tượng và phương pháp nghiên cứu1.3.1. Đối tượng nghiên cứu

Mơ hình khoa học dữ liệu và thuật toán phân lớp dữ liệu bảng bằng Neural Network để ứng dụng trong việc ra quyết định xem xét cho vay tín dụng.

Dữ liệu được thu thập từ Kaggle với thông tin của 614 khách hàng, bao gồm các thông tin: ID Khoản vay (Loan_ID), số người phụ thuộc (Dependents), giới tính (Gender), tình trạng hơn nhân (Married), học vấn (Education), tự làm chủ (Self_Employed), thu nhập của người nộp đơn (Applicantincome), thu nhập của người giám hộ (Coapplicantincome), số tiền vay (LoanAmount), thời hạn khoản vay (Loan_Amount_Term), lịch sử tín dụng (Credit_History), khu vực bất động sản (Property_Area), khoản vay_trạng thái (Loan_Status).

1.3.2. Phương pháp nghiên cứu1.3.2.1. Phương pháp nghiên cứu lý luận

2

</div>Trang 8<div class="page_container" data-page="8">

“Tiến hành nghiên cứu, thu thập, chọn lọc và phân tích dữ liệu, thơng tin bằng cách đọc sách, báo, tài liệu nhằm tìm ra các quan niệm, quan điểm xây dựng cơ sở lý luận cho nghiên cứu, dự đốn các thuộc tính của đối tượng nghiên cứu, xây dựng sơ bộ lý luận. Bao gồm các phương pháp sau:

Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, nghiên cứu khoa học từ các tạp chí uy tín có được, sau đó đọc và tổng hợp để rút ra những nội dung cần thiết cho luận điểm của bài nghiên cứu.

Phương pháp mơ hình hóa: xây dựng mơ hình nghiên cứu dựa trên lý thuyết và ứng dụng mơ hình để dự báo nhằm kiểm định tính chính xác của mơ hình.”

1.3.2.2. Phương pháp nghiên cứu thực tiễn

“Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thực tiễn: Thơng qua các thuật tốn của phần mềm Orange - một công cụ khá trực quan để nghiên cứu về các thuật toán machine learning và thực hành khoa học dữ liệu phổ biến hiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên cứu.

Từ đó, xây dựng các mơ hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánh các kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất nhằm giúp các nhà đầu tư có quyết định chính xác hơn khi đầu tư hiệu quả.”

1.4.Cấu trúc bài nghiên cứu

</div>Trang 9<div class="page_container" data-page="9">

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ CÁC PHƯƠNG PHÁP TÍNH TỐN2.1. Một số phương pháp phân cụm

2.1.1. Giới thiệu phân cụm dữ liệu (Data Clustering)2.1.1.1. Định nghĩa

Phân cụm dữ liệu (hay Phân cụm Học không nhãn; ) là quá trình phân chia một tập hoặc các điểm dữ liệu có đặc điểm tương đồng thành từng cụm/nhóm tương ứng. Trong đó các điểm dữ liệu trong cùng một cụm/nhóm sẽ có tính chất tương đồng với nhau và những đối tượng ở những cụm khác nhau sẽ có đặc tính khác biệt nhau. Độ tương tự giữa các cụm được xác định theo một tiêu chuẩn nào đó, tuỳ thuộc vào từng ứng dụng cụ thể và được xác định trước. Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn mà ta phải dựa vào mối quan hệ giữa các đối tượng để tìm ra sự giống nhau đặc trưng cho mỗi cụm giữa các đối tượng theo một độ đo nào đó. Đây là dữ liệu tự nhiên thường thấy trong thực tế.

Ngồi ra phân cụm dữ liệu cịn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác. Phân cụm là một tác vụ chính của Data mining, và là một kỹ thuật phổ biến trong thống kê phân tích dữ liệu.

Hình 2.1: Mơ tả q trình phân cụm dữ liệu 4

</div>Trang 10<div class="page_container" data-page="10">

2.1.1.2. Đặc điểm

- Nhiệm vụ chính là tìm ra mẫu và sự tương đồng trong dữ liệu, giúp hiểu và phân tích thơng tin một cách rõ ràng hơn.

- Phân cụm thuộc nhóm phương pháp học không giám sát, hay học không nhãn (unsupervised learning) có nghĩa rằng dữ liệu để huấn luyện mơ hình khơng được gán nhãn trước.

- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao: • Độ tương đồng bên trong cụm cao

• Độ tương tự giữa các cụm thấp (khác biệt cao)

2.1.1.3. Các ứng dụng của phân cụm dữ liệu

Phân cụm dữ liệu được ứng dụng rộng rãi ở nhiều lĩnh vực khác nhau trong đời sống do chúng có tính ứng dụng cao và giúp con người đưa ra những quyết định chính xác, tiêu biểu trong các lĩnh vực như: kinh doanh, y tế, công nghệ thông tin, giáo dục, sinh học,…Cụ thể:

Lĩnh vực kinh doanh:

- Phân định đối tượng khách hàng: phân cụm dựa trên các thông tin như hành vi mua hàng, độ tuổi, giới tính,… để tạo chiến lược tiếp thị, tối ưu hoá dịch vụ khách hàng và phát triển sản phẩm mới.

- Phân loại sản phẩm: nhóm các sản phẩm tương tự lại với nhau nhằm tăng hiệu quả quản lý kho hàng, xây dựng chiến lược giá cả và tạo ra các gói sản phẩm phù hợp với từng nhóm khách hàng.

- Phân loại kênh tiếp thị: xác định các kênh tiếp thị mà khách hàng tiềm năng thuộc về. Bằng cách hiểu rõ về sự tương tác và ưu thích của khách hàng, ta có thể tối ưu hoá chiến lược quảng cáo và phân bổ nguồn lực.

Lĩnh vực y tế:

- Dự báo bệnh tật: phân loại bệnh nhân thành các nhóm rủi ro khác nhau, giúp dự báo nguy cơ mắc bệnh hoặc các biến chứng tiềm năng, từ đó đưa ra các biện pháp phòng ngừa và can thiệp sớm hơn.

- Tối ưu hoá điều trị: đưa ra sự phân loại khách quan về hiệu quả của các phương pháp điều trị khác nhau. Bằng cách phân tích và so sánh các nhóm bệnh nhân tương tự, ta có thể tìm ra các phương pháp điều trị tốt nhất cho từng nhóm bệnh nhân cụ thể.

Lĩnh vực công nghệ thông tin:

- Phát hiện gian lận: phát hiện các hành vi gian lận trong lĩnh vực bảo mật mạng, ví dụ như phát hiện tin tặc hoặc xác định các nhóm nguy hiểm dựa trên hành vi tấn công. - Phân loại tin tức và phân tích ý kiến: tổ chức tin tức hoặc bài viết thành các nhóm dựa trên

nội dung, chủ đề hoặc nguồn thơng tin. Nó cũng có thể được sử dụng để phân tích ý kiến 5

</div>Trang 11<div class="page_container" data-page="11">

từ các nguồn dữ liệu khác nhau, như mạng xã hội hoặc diễn đàn, để hiểu quan điểm của người dùng về một vấn đề cụ thể.

Lĩnh vực giáo dục:

- Phân nhóm học sinh: Phân cụm dữ liệu có thể được sử dụng để phân nhóm học sinh dựa trên tiến bộ học tập, động lực, kỹ năng hoặc các yếu tố khác. Điều này giúp giáo viên cung cấp dạy học cá nhân hóa và hướng dẫn phù hợp cho từng nhóm.

- Dự đốn thành cơng học tập: Phân cụm dữ liệu có thể giúp dự đốn khả năng thành công học tập của học sinh dựa trên các yếu tố như chỉ số học tập, động lực, sự tương tác xã hội và thói quen học tập. Điều này giúp giáo viên và nhà trường đưa ra các biện pháp hỗ trợ và tăng cường cho học sinh có nguy cơ thấp nhằm nâng cao tỷ lệ hồn thành và thành công học tập.

Lĩnh vực sinh học:

- Phân loại gen: Phân cụm dữ liệu có thể được sử dụng để phân loại gen dựa trên sự giống nhau về cấu trúc hoặc chức năng. Điều này giúp trong việc hiểu và phân tích các bộ gen, nhận biết đặc điểm di truyền và tìm kiếm liên kết giữa các gen và bệnh tật.

- Phân lớp loại sinh vật: phân lớp và phân loại các loài sinh vật dựa trên đặc điểm hình thái, di truyền hoặc mơ hình sinh thái. Điều này hỗ trợ trong việc nghiên cứu, bảo tồn và hiểu sâu về các loài sinh vật.

2.1.2. Các phương pháp phân cụm

Một số phương pháp phân cụm chính có thể kể đến như sau:

Xây dựng các phân hoạch khác nhau và đánh giá chúng. Sau đó, tìm cách tối

thiểu hóa tổng bình phương độ lỗi. Dựa trên lưới

(Grid-based approach) Dựa trên cấu trúc độ chi tiết nhiều cấp.

STING, Wave Cluster,CLIQUE Dựa trên mô hình

Giả định mỗi cụm có một mơ hình và tìm

cách fit mơ hình đó vào mỗi cụm EM, SOM, COBWEB

6

</div>Trang 12<div class="page_container" data-page="12">

Dựa trên cấu trúc phân cụm, Clustering có 2 dạng tổng quát: Phân cụm phân cấp (Hierarchical Clustering) và Phân cụm phân hoạch (Partitioning approach).

2.1.2.1. Phân cụm phân cấp (Hierarchical Clustering)

Hình 2.2: Tổng quan quá trình phân cụm phân cấp

Phân cụm phân cấp là phương pháp phân tích cụm bằng việc tổ chức các đối tượng thành một đồ thị có cấu trúc dạng cây, có các nhánh là các cụm mong muốn. Cây phân cấp được xây dựng cho dữ liệu cần gom cụm dựa trên:

● Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix) ● Độ đo khoảng cách giữa các cụm (single link, complete link…)

Theo phương pháp này, chúng tạo ra những biểu diễn phân cấp trong đó các cụm ở mỗi cấp của hệ thống phân cấp được tạo bằng cách hợp nhất các cụm ở cấp độ thấp hơn bên dưới. Ở cấp thấp nhất, mỗi cụm chứa một quan sát. Ở cấp cao nhất, chỉ có một cụm chứa tất cả dữ liệu. Thứ tự cấp bậc của các cụm này tạo thành một cấu trúc cây Dendrogram.

7

</div>Trang 13<div class="page_container" data-page="13">

Hình 2.3: Đồ thị Dendrogram

Ngược lại với phương pháp K-Means, phương pháp phân cụm phân cấp (Hierachical Clustering) không cần xác định trước số cụm nhưng cần xác định điều kiện dừng.

Các phương pháp điển hình bao gồm: Agnes và Diana.

Hình 2.4: Minh họa quá trình phân cụm theo phương pháp AGNES và DIANA + AGNES: Trên thực tế, đây là phương pháp được sử dụng phổ biến. Agglomerative sử dụng chiến lược Bottom up (từ dưới lên), nghĩa là quá trình phân cụm bắt đầu với những cụm chỉ là 1 phần tử. Sau đó trong các bước tiếp theo, hai cụm nhỏ ở gần nhau sẽ tập hợp lại thành một cụm

8

</div>Trang 14<div class="page_container" data-page="14">

lớn hơn. Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình. Số lượng cụm ở tập dữ liệu sẽ giảm đi một ở mỗi bước. Quá trình này sẽ lặp lại cho đến khi tất cả các cụm nhỏ tập hợp lại một cụm lớn duy nhất. Kết quả quá trình là phát sinh một dendrogram (cây phân cấp).

Hình 2.5: Minh họa phương pháp phân cụm AGNES Dendogram của phương pháp Agnes:

Hình 2.6: Dendogram của phương pháp AGNES

+ DIANA: Ngược lại với AGNES, phương pháp này sử dụng chiến lược Top down (từ trên xuống), nghĩa là phân chia bắt đầu với tất cả phần tử cùng nằm trong một cụm lớn. Sau đó trong các bước tiếp theo, cụm lớn ban đầu được chia thành 2 cụm. Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình. Các cụm mới được tách ra sẽ được phân tách ra theo phương pháp đệ quy (Recursive) và lặp lại cho đến khi mỗi phần tử là 1 cụm đại diện cho riêng nó. Kết quả phát sinh cây phân cấp (dendrogram).

9

</div>Trang 15<div class="page_container" data-page="15">

Hình 2.7: Minh họa phương pháp phân cụm DIANA Dendogram của phương pháp Diana:

Hình 2.8: Dendogram của phương pháp DIANA Một số phương pháp tính khoảng cách (Distance)

+ Single linkage: Phương pháp này đo lường sự khác biệt giữa hai cụm bằng cách lấy ra cặp điểm gần nhất giữa hai cụm. Độ đo sự khác biệt được tính theo cơng thức:

+ Complete linkage: Phương pháp này đo lường sự khác biệt giữa hai cụm bằng cách lấy ra hai cặp điểm xa nhau nhất giữa hai cụm.

10

</div>Trang 16<div class="page_container" data-page="16">

+ Average linkage: Phương pháp này sẽ lấy trung bình tồn bộ khoảng cách giữa các cặp điểm được lấy từ hai cụm. Chúng ta sẽ có tổng cộng N1N2 cặp điểm. Như vậy khoảng cách sẽ được tính bằng:

+ Mean: khoảng cách giữa các điểm trung bình (mean) của 2 cụm.

dist(C ,C

ij

) = |m - m |

ij

Với m và m là trung bình của các phần tử trong cụm C và Cijij

+ Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm.

dist(C ,C

ij

) = dist(c

i

,c )

j

Với c và c lần lượt là các trọng tâm của cụm C , Cijij

+ Medoid: khoảng cách giữa các trung tâm cụm (medoid) của 2 cụm.

dist(C ,C

ij

) = dist(M

i

,M )

j

Medoid là phần tử nằm ở trung tâm cụm

Với M và M là trung tâm của các phần tử trong cụm C và Ci ji j

2.1.2.2. Phân cụm phân hoạch (Partitioning approach):

Đây là phương pháp phân cụm ‘one-level’, tức một cấp, các cluster không được thể hiện dưới dạng cấp bậc. Phương pháp này phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm. Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau và mỗi cụm có ít nhất 1 phần tử. Điển hình cho phương pháp phân cụm phân hoạch là: Thuật toán K-Means và các biến thể của nó như K-Medoid, Fuzzy C-Means…

Thuật tốn K-Means: là thuật toán kinh điển được sử dụng rất rộng rãi trong thực tế và nó có thể được biến đổi để thích hợp cho từng bài tốn cụ thể, và nó nằm trong nhóm các phương pháp phân hoạch. Tư tưởng chính của thuật tốn K-Means đó chính là ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng). Phương pháp K-MEANS được thể hiện bằng các bước sau:

11

</div>Trang 17<div class="page_container" data-page="17">

Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.

Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các điểm dữ liệu

ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật tốn.

Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất các

các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2.

Bước 4: Quay lại bước 2

2.1.3. Các phương pháp đánh giá chất lượng phân cụm dữ liệu:

Đánh giá chất lượng phân cụm dữ liệu là một bước quan trọng nhằm đảm bảo tính chính xác, độ tin cậy của dữ liệu được xử lý dựa trên một số tiêu chí:

- Độ nén (compactness): các phần tử của cụm phải “gần nhau”

- Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõ ràng. Có 3 phương pháp chủ yếu đánh giá việc phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối.

- Đánh giá ngoài (external validation): đánh giá kết quả phân cụm dựa vào xu hướng, cấu trúc phân cụm được chỉ định trước cho tập dữ liệu. Các độ đo được sử dụng: Rand statistic, Jaccard coefficient, Folkes và Mallows index…

- Đánh giá nội bộ (internal validation): đánh giá kết quả phân cụm mà khơng có thơng tin từ bên ngồi, chủ yếu dựa trên các vector chính của dữ liệu thông qua ma trận xấp xỉ (proximity matrix). Các độ đo được sử dụng: Hubert’s statistic, Silhouette index, Dunn’s index, F-ratio, DBI (Davies Bouldin Index) ….

- Silhouette index: nằm trong khoảng [-1,1]. Trong đó: ● Si ≥ 0.5 : Sát thực tế

● 0.25 ≤ Si < 0.5 : cần đánh giá lại (Theo kinh nghiệm của chuyên gia) ● Si < 0.25: Khơng tin tưởng vào cluster, tìm phương pháp đánh giá khác

- Đánh giá tương đối (relative validation): Đánh giá việc phân cụm bằng cách so sánh nó với kết quả gom cụm ứng với các bộ trị thông số khác nhau, kết quả gom cụm của các phương

</div>Trang 18<div class="page_container" data-page="18">

Hồi quy Logistic là một mô hình xác suất dự đốn giá trị đầu ra rời rạc (output) từ một tập các giá trị đầu vào (input) bằng cách dùng tốn học để tìm xem hai yếu tố dữ liệu có quan hệ gì, từ đó dự đốn giá trị của những yếu tố đó dựa trên yếu tố còn lại.

2.2.1.2. Đặc điểm

Về cơ bản, đây là một thuật tốn phân loại có giám sát.

Mơ hình này dùng các hàm logarit (được biểu diễn dưới dạng vector).

Dự báo của phương pháp này là bất kì giá trị nhị phân nào, như True/False, 0/1, -1/1, Nam hoặc Nữ dựa vào input (giá trị đầu vào).

Bản chất là phương pháp hồi quy tuyến tính áp dụng trong bài tốn phân loại, địi hỏi sự độc lập của các quan sát.

2.2.1.3. Mơ tả, kiến trúc:

Hình 2.9: Phân lớp bằng hồi quy Logistic

Phương pháp hồi quy Logistic được dùng cho các bài toán phân loại nhị phân, các bài tốn có 2 lớp giá trị, ước tính xác suất của các sự kiện hay xác định mối quan hệ giữa các thông tin đặc trưng và xác suất kết quả. Trong hồi quy Logistic, ta cần một hàm số có tác dụng chiếu giá trị dự báo lên khơng gian xác suất nằm trong khoảng [0,1]. Vì vậy, trong mơ hình này ta có:

Input: dữ liệu đầu vào ta sẽ xem như có hai nhãn là Male và FemaleOutput: Xác suất để dữ liệu đầu vào rơi vào nhãn Male hoặc nhãn Female

Decision Boundary: Đường phân loại các lớp dữ liệu từ các điểm dữ liệu ban đầu (x:

Male và x: Female). Đối với hồi quy Logistic, ta sẽ biết được xác suất mỗi điểm rơi vào

nhãn và cũng như giữa và có một đường xxxxDecision Boundary.

Hàm hồi quy Logistic chạy kết quả thông qua một hàm non-linear (phi tuyến tính).Đó là hàm Logistic hay sigmoid với khả năng tạo ra xác suất p.

Công thức hồi quy của model hồi quy Logistic: Với log(), ta có xác suất p:

13

</div>Trang 19<div class="page_container" data-page="19">

( ký hiệu hàm Logistic Regression): là hàm sigmoid với đầu ra là một số có gia trị từ 0 đến 1 được định nghĩa với cơng thức:

Đồ thị:

Hình 2.10: Đồ thị phương trình hồi quy Logistic Dưới góc nhìn của graphic model thì mơ hình hồi quy Logistic có dạng:

Hình 2.11: Minh họa mơ hình Hồi quy Logistic Đồ thị trên gồm 2 bước:

Bước 1: Kết hợp tuyến tính:

Ta có các node (hình tròn) và các mũi tên minh họa cho các biến đầu vào và các hướng tính tốn của đồ thị. Cuối cùng ta kết hợp tuyến tính các node để tính ra đầu ra .

Bước này tương đương với q trình dự báo trong hồi quy tuyến tính. 14

</div>Trang 20<div class="page_container" data-page="20">

Bước 2: Biểu diễn hàm Sigmoid

Giá trị lại tiếp tục được đưa qua hàm để tính xác suất P(y = 1) ở output. Ưu điểm

Đầu ra của hồi quy Logistic là xác định.

Không yêu cầu bất kỳ dạng phân phối cụ thể nào của các biến độc lập.

Khơng u cầu mói quan hệ tuyến tính giữa các biến độc lạp và các biến phụ thuộc. Ít phức tạp và có cường độ điện tốn ít hơn so với Deep Learning => Các phép toán hồi quy Logistic minh bạch và dễ khắc phục sự cố.

Phương pháp này có thể giải quyết được hiệu ứng phi tuyến tính ngay cả khi các số hạng mũ và đa thức không được thêm vào một cách rõ ràng dưới dạng các biến độc lập bổ sung vì mối quan hệ logistic.

Nhược điểm

Hồi quy Logistic không thể xử lý một số lượng lớn các tính năng phân loại=> khơng cung cấp độ chính xác tốt đối với những bài tốn dự đốn cần nhiều tính năng phân loại.

Khơng thể áp dụng cho một bài tốn phi tuyến tính, dễ bị overfitting.

Hồi quy Logistic hoạt động kém với các biến độc lập không tương quan với mục tiêu và tương quan với nhau.

Ứng dụng

Sản xuất: Các công ty áp dụng phương pháp để ước tính xác suất xảy ra sự cố ở bộ phận

trong máy móc, dựa trên xác suất đã ước tính để lên lịch bảo trì nhằm giảm thiểu sự cố trong tương lai.

Tài chính: Các cơng ty tài chính phải phân tích các giao dịch tài chính để đề phịng gian

lận, xem xét xác đơn xin vay và đơn bảo hiểm để đề phòng rủi ro hay đưa ra phương án đầu tư hợp lý. Vì phương pháp sẽ giúp phân loại các đơn ở các xếp hạng: rủi ro cao, rủi ro thấp, đầu tư mạo hiểm hay an tồn, tín nhiệm cao hay thấp,…

Y tế: Dự đoán khả năng mắc bệnh của bệnh nhân hoặc tính tốn tác động của gen di

truyền,…

Dịch vụ quảng cáo, tiếp thị: Dựa đoán khả năng người dùng nhấp vào quảng cáo,

nghiên cứu phản ứng của người với những content trên mạng xã hội vì mục đích quảng bá sản phẩm hiệu quả.

2.2.2. Lý thuyết – mô tả phương pháp SVM (Support Vector Machines)

2.2.2.1. Khái niệm: Trong các bài toán phân lớp hay đệ quy, SVM nhận dữ liệu vào sau đo phân

loại chúng vào các lớp khác nhau bằng cách thiết lập một siêu phẳng trong không gia nhiều chiều làm mặt phẳng phân cách dữ liệu. Phương pháp này xem dữ liệu như những vector.

15

</div>Trang 21<div class="page_container" data-page="21">

Hình 2.12: Minh họa khái niệm SVM

2.2.2.2. Đặc điểm:

Đây là một thuật tốn có giám sát.

SVM có nhiều biến thể tương thích với nhiều loại bài toán phân loại. Thường được sử dụng để xử lý ảnh, phân loại văn bản, phân tích quan điểm.

2.2.2.3. Mơ tả, kiến trúc:

Với mục tiêu là tìm ra một siêu phẳng (hype lane) trong không gian N chiều (ứng với N tính năng), SVM giúp phân tách các điểm dữ liệu ( phân chia 2 lớp dữ liệu tương ứng).

Hình 2.13: Mơ hình SVM

Để kết quả phân lớp tốt nhất thì phải xác định siêu phẳng tách biệt nhất có thể về khoảng cách với các điểm dữ liệu (margin).

Cách chọn siêu phẳng tối ưu: + Sử dụng Support Vector:

Siêu phẳng phân tách hai lớp dữ liệu thỏa mãn <W.>+b=0. Siêu phẳng này tạo ra nửa không gian dữ liệu âm thỏa mãn <W.>+b -1 và nửa không gian dữ liệu lớp dương thỏa mãn <W.>+b 1. Support Vector đi qua các điểm lớp âm, gần siêu phẳng nhất và đi qua các điểm thuộc lớp dương, gần siêu phẳng nhất.

H1 : <W.X> + b =-1 H2 : <W.X> + b =1

16

</div>Trang 22<div class="page_container" data-page="22">

Hình 2.14: Siêu phẳng tối ưu và Support Vector d- là khoảng cách giữa support vector và .

d- là khoảng cách giữa support vector và . m = d- + d+: mức lề

Siêu phẳng tối ưu là siêu phẳng phân tách có lề lớn nhất, từ đó sẽ giúp bài tốn giảm thiểu tối đa các lỗi mắc phải.

Nếu dữ liệu không thể phân chia tuyến tính, ta có thể dùng:

Lề mềm: Cho phép SVM mắc một số lỗi nhất định vì mục tiêu chung là giữ cho lề càng

rộng càng tốt (tối đa hóa lề) để các điểm khác vẫn được phân loại chính xác.

Có hai kiểu phân loại sai có thể xảy ra: Dữ liệu nằm đúng bên nhưng phạm vào lề, dữ kiệu nằm sai bên.

Hình 2.15: Minh họa Soft margin

Mức độ chấp nhận lỗi: Được xem như một tham số phạt (C) trong lập trình sklearn, C

càng lớn thì SVM càng bị phạt nặng.

17

</div>Trang 23<div class="page_container" data-page="23">

Hình 2.16: Mức độ chấp nhận lỗi

Thủ thuật Kernel: Một Kernel là một hàm ánh xạ dữ liệu từ khơng gian ít chiều sang

khơng gian nhiều chiều hơn.

Các kiểu Kernel: Tuyến tính, Đa thức, RBF, Sigmoid

Hình 2.17: Thủ thuật Kernel Cách tính m (Margin)

+ Với là độ dài của vector W: <W.W>. Khoảng cách từ một điểm đến siêu phẳng : . = + Khoảng cách từ điểm nằm trên d- là: d- = =

+ Khoảng cách từ điểm nằm trên d+ là: d+ = =

+ Việc xác định siêu phẳng được giả sử trong điều kiện lý tưởng: tập dữ liệu có thể phân tách tuyến tính, tìm được hai siêu phẳng lề H và H mà khơng có điểm dữ liệu nào nằm giữa12

chúng. Ưu điểm:

SVM có thể xử lý trên khơng gian số chiều cao. Cho nên có thể áp dụng tốt cho các bài toán phân loại văn bản và phân tích quan điểm nơi chiều có thể cực kỳ lớn.

Sử dụng các điểm trong tập hỗ trợ để dự báo trong hàm quyết định => ít tốn dung lượng.

18

</div>Trang 24<div class="page_container" data-page="24">

Có tính linh hoạt cao vì khơng bị vướng theo những quy luật tuyến tính cứng nhắc

Mơ hình chẩn đoán bệnh: Biến target là cấc chỉ số dự xét nghiệm lâm sàng, thuật toán SVM sẽ đưa ra dự đoán về một số bênh như máu nhiễm mỡ, tiểu đường,…

Là một mơ hình được dùng phổ biến trong phân loại ảnh trong nhiều năm về trước. Mơ hình SVM có thể phân loại tin tức, xác định chủ đề của một đoạn văn bản, phân loại thư rác, phân loại cảm xúc văn bản.

Phát hiện gian lận

2.2.3. Phương pháp cây ra quyết định Decision Tree2.2.3.1. Khái niệm:

Trong lý thuyết quản trị, cây quyết định là mơ hình hỗ trợ việc đưa ra quyết định dựa trên các mố liên hệ tính tốn của các quyết định cùng các kết quả khả dĩ.

Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.”

2.2.3.2. Đặc điểm:

Là một thuật toán đơn giản, bắt đầu với một Root Notes và kết thúc bằng một quyết định của các lá.

Các thuộc tính có thể thuộc vào nhiều kiểu dữ liệu khác nhau như Định danh, Nhị phân, Thứ tự,…và thuộc tính phân lớp phải có kiểu dữ liệu là Nhị phân hoặc Thứ tự.”

Cây quyết định gồm hai loại là cây hồi quy ( ước lượng các hàm có giá trị là số thực: ước tính một ngơi nhà, thời gian hoa nở,…) và cây phân loại (biến y là một biến phân loại: Nam hoặc Nữ, Có hoặc Khơng,…). Mỗi nút trong (internal node) tương ứng với một biến, mỗi nút lá đại diện cho giá trị dự đốn của biến mục tiêu.

Hình 2.18: Mơ hình Decision Tree 19

</div>Trang 25<div class="page_container" data-page="25">

2.2.3.3: Mô tả, kiến trúc:

Entropy: Là một hàm đo độ tạp chất của một nút, cho thấy mức độ rối loạn của một nút

cụ thể. Tạp chất là mức độ ngẫu nhiên, nó cho biết dữ liệu của chúng ta ngẫu nhiên như thế nào. Etropy càng cao thì độ tinh khiết càng thấp và tạp chất càng cao.

Trong Machine Learning, sử dụng Entropy để xác định được tạp chất của một nút cụ thể. Đó là cơ sở để phục vụ mục tiêu giảm độ không chắc chắn, tạp chất của dữ liệu. Vì trong Decision Tree, đầu ra chủ yếu là Có hoặc Khơng.

Cơng thức Entropy:

Với một phân phối xác suất của một biến rời rạc x có thể nhận n giá trị khác nhau x1,x2, …xn:

Giả sử xác suất để x nhận các giá trị trên là: pi=p(x=xi). Ký hiệu phân phối này là p=(p1,p2,…pn)

Entropy của phân phối này là: Ta có minh họa:

Hình 2.19: Minh họa mơ hình Decision Tree với các Feature Nút Feature 3 có độ tạp chất nhiều hơn

Information Gain trong Cây quyết định: dựa trên sự giảm của hàm Entropy khi tập

dữ liệu được phân chia trên một thuộc tính. Để xây dựng một Decision Tree, ta phải tìm tất cả thuộc tính trả về Information Gain cao nhất.

+ Các bước tính Information Gain dựa trên hệ số Entropy để từ đó xác định các nút:

Bước 1: Tính hệ số Entropy của biến mục tiêu S có N phần tử với Nc phần tử thuộc lớp

c cho trước:

Bước 2: Tính hàm số Entropy tại mỗi thuộc tính: với thuộc tính x, các điểm dữ liệu

trong S được chia ra K child node S1, S2, …, SK với số điểm trong mỗi child node lần lượt là m1, m2 ,…, mK , ta có:

H(x, S) = ∑Kk=1 (mk / N) * H(Sk ) 20

</div>Trang 26<div class="page_container" data-page="26">

Bước 3: Chỉ số Gain Information được tính bằng:

G(x, S) = H(S) – H(x,S)

Ta có thể sử dụng thuật tốn ID3, C4.5 để mơ tả cách hoạt động của Decision Tree. Tiêu chuẩn dừng: Nếu chia mãi các node vẫn chưa tinh khiết, ta sẽ thu được một cây quyết địnhrất phức tạp, vài điểm dữ liệu lại có nhiều leaf node => Overfitting.

Giải pháp đưa ra là ta có thể dừng cây dựa trên một số tiêu chuẩn: - Dừng nếu node có Entropy = 0

- Hạn chế chiều sâu của tree khi giới hạn khoảng cách root node và note bất kỳ. - Entroppy giảm không đáng kể khi chia lớp.

- Chấp nhận một số điểm bị phân sai lớp, và ra quyết định cho số class cho leaf nod dựa trên class chiếm đa số trong node.

- Dừng tại một ngưỡng leaf node theo quy định. Ưu điểm:

Có nhiều quy tắc dễ hiểu cho người đọc, tạo ra bộ luật với mỗi nhánh lá là một luật của cây.

Không u cầu dữ liệu phải chuẩn hóa hồn tồn, vẫn chấp nhận missing data. Có thể xử lý nhiều kiểu dữ liệu khác nhau.

Xử lý tốt một lượng lớn dữ liệu trong thời gian ngắn. Nhược điểm:

Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian vì chỉ cần một sự thay đổi nhỏ trong dữ liệu, cả cả cây dữ liệu có thể thay đổi tồn bộ.

Chi phí xây dựng mơ hình cao Dễ bị overfitting.

Ứng dụng:

Xử lý tốt dữ liệu dạng bảo biểu với số thuộc tính khơng q lớn

Khơng phù hợp khi số lượng thuộc tính bùng nổ ( như dữ liệu văn bản, hình ảnh, video, âm thanh,…)

2.2.4. Lý thuyết – mơ tả phương pháp Neural Network 2.2.4.1. Khái niệm:

Neural Network hay mạng nơron thần kinh nhân tọa là mơt mơ hình tốn học phức tạp có khả năng xác định, xử lý thông tin, giải quyết các vấn đề phổ biến trong Machine Learning, Deep Learning, trí tuệ nhân tạo AI hay tìm kiếm tất cả mối quan hệ cơ bản trong một tập hợp các dữ liệu.

21

</div>Trang 27<div class="page_container" data-page="27">

Phương pháp lấy cảm hứng từ cách thức hoạt động của tế bào thần kinh và khớp thần kinh từ bộ não con người. Mạng nơron là một mạng gồm các nút cơ bản, đôi khi được gọi là nơ-ron. Một mạng lưới các nút được hình thành bởi một tập hợp các nút như vậy.

Hình 2.20: Mơ phỏng cơ chế hoạt động của nơ-ron từ bộ não con người

Các thuật toán trong phương pháp này được sử dụng với mục đích xác định và nhận ra tất cả các mối quan hệ có trong các tập dữ liệu.

Phương pháp có khả năng thích ứng rất tốt (rất nhạy) với sự thay đổi từ input. Vì thế, phương pháp này vẫn có thể đưa ra được mọi kết quả (output) một cách tốt nhất mà không tác động nhiều đến thiết kế dữ liệu đầu ra.

Hình 2.21: Mơ hình Neural Network

2.2.4.2. Đặc điểm

Neural network hoạt động như mạng nơ-ron trong bộ não con người. Mỗi nơ-ron thần“ kinh trong đó đại diện cho hàm tốn học với chức năng thu thập và phân loại các thông tin cần thiết dựa vào cấu trúc cụ thể.”

Chứa các nút được liên kết lại với nhau trong những lớp bao hàm, trong đó mỗi nút có cấu tạo gần giống với hàm hồi quy đa tuyến tính và với những phương pháp thống kê. Từ các

22

</div>Trang 28<div class="page_container" data-page="28">

lớp liên kết chặt chẽ với nhau bên trong một lớp tri giác đa lớp có thứ tự, quy tắc phân bổ. Lớp đầu vào sẽ thu thập các mẫu dữ liệu đầu vào và lớp đầu ra sẽ dựa vào đó mà thu nhận các phân loại hoặc tín hiệu đầu ra.”

2.2.4.3. Mô tả, kiến trúc Neural Network

Neural network là sự kết hợp hoàn hảo của những tầng perceptron, gồm 3 kiểu tầng: - Input layer: Nằm ở phía bên trái của Neural Network, đại diện cho các đầu vào của

Neural Network.

- Output layer: Nằm ở phía trên bên phải, đại diện cho những đầu ra của Neural Network.

Hidden layer : Nằm xem giữa hai tầng vào và tầng ra thể hiện cho quá trình suy luận logic của Neural Network

Đặc biệt, mỗi một Neural Network chỉ có duy nhất một tầng vào và 1 tầng ra nhưng tầng ẩn thì khơng bắt buộc số lượng như vậy.

Ưu điểm

Cho phép xây dựng một mơ hình tính tốn có khả năng học dữ liệu rất cao khi có thể chất chứa nhiều đầu vào, đầu ra hay thậm chí học được sự liên kết ẩn sâu, không hiện rõ của 2 bộ dữ liệu.

Nhược điểm

Người sử dụng mơ hình này phải có kinh nghiệm để chọn bộ dữ liệu huấn luyện có những thơng số hợp lý, dễ phân tích. Mơ hình này cũng khơng có cách tổng qt để đánh giá hoạt động thực sự bên trong mạng.

Ứng dụng

Nhận dạng chữ viết tay: Neural Network có thể chuyển đổi các ký tự viết tay thành ký tự kỹ thuật số mà máy tính đọc được.

Dự đốn các giao dịch chứng khốn: Neural Network có tính năng kiểm tra, theo dõi các yếu tố ảnh hưởng đến sự vận động của các mã chứng khốn hàng ngày.

Nén hình ảnh, dữ liệu,…

Neural Network có thể tìm ra con đường giao hàng tối ưu để giao hàng từ đó giảm thiểu chi phí vận chuyển.

Thị giác máy tính: Neural Network có thể trích xuất dữ liệu cũng như thơng tin chun sâu từ hình ảnh, video của máy tính:

23

</div>Trang 29<div class="page_container" data-page="29">

Hình 2.22: Minh họa cách ứng dụng tính năng thị giác máy tính

- Kiểm duyệt nội dung để tự động loại bỏ các nội dung khơng an tồn khỏi kho lưu trữ hình ảnh, video

- Nhận diện khn mặt

Nhận dạng giọng nói để chuyển đổi từ trị chuyện thành văn bản trong thời gian thực, tạo phụ đề chính xác cho video, bản ghi âm cuộc họp,…

Chẩn đoán y tế bằng cách phân loại hình ảnh y khoa Dự báo tài chính từ bộ dữ liệu lịch sử

Phân tích dữ liệu hành vi trên các nền tảng mạng xã hội để đưa ra phương pháp tiếp thị hợp lý

2.3. Một số phương pháp đánh giá mơ hình phân lớp2.3.1. Confusion Matrix (Ma trận nhầm lẫn)

Ma trận nhầm lẫn là một bố cục bảng có kích thước k x k (với k là số lượng lớp của dữ liệu) cụ thể cho phép trục quan hóa hiệu suất của một thuật toán. Đây là một trong những kĩ thuật đo lường phổ biến nhất và được sử dụng rộng rãi cho nhiều mơ hình phân lớp. Mỗi hàng của ma trận đại diện cho các cá thể trong một lớp thực tế và mỗi cột sẽ đại diện cho các cá thể trong một lớp được dự đoán hoặc ngược lại.

24

</div>Trang 30<div class="page_container" data-page="30">

Hình 2.23: Minh họa phương pháp ma trận nhầm lẫn ( Confusion Matrix)

Để hình dung rõ hơn về ma trận nhầm lẫn sau đây chúng ta sẽ tìm hiểu về một ví dụ về dự án dự đoán khả năng chi trả khoản vay của khách hàng. Bài toán dự báo khả năng chi trả này sẽ bao gồm 2 lớp: lớp có khả năng chi trả là Positive và Negative là lớp không có khả năng chi trả:

● TP (True Positive): số lượng dự đốn chính xác về khách hàng có thể chi trả khoản vay ● TN (True Negative): số lượng dự đốn chính xác về khách hàng khơng đủ khả năng chi trả

khoản vay

● FP (False Positive – Type 1 Error): số lượng các dự đốn sai lệch. Là khi mơ hình dự đốn người đó có thể chi trả nhưng họ lại không đủ khả năng.

● FN (False Negative – Type 2 Error): số lượng các dự đoán sai lệch một cách gián tiếp. Là khi mơ hình dự đốn người đó khơng đủ khả năng chi trả nhưng họ lại có thể.

2.3.2. Accuracy ( Tính chính xác)

Accuracy là tỉ lệ số mẫu được phân lớp chính xác trong tồn bộ dữ liệu. Tuy nhiên, Accuracy không thể chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp được phân loại đúng nhiều nhất là lớp nào, dữ liệu của lớp nào thường bị phân loại nhầm vào lớp khác nhất. Thế nhưng nó vẫn có thể giúp chúng ta đánh giá một mơ hình có dự đốn chính xác hay khơng. Độ chính xác càng cao thì mơ hình dự đốn càng hiệu quả.

Accuracy có thể tính bằng cơng thức:

Acc = (TP+TN)/n

error rate = 1- acc là độ lỗi của mơ hình. 25

</div>