Tải bản đầy đủ (.pdf) (44 trang)

Nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng đủ điều kiện vay mua nhà

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.69 MB, 44 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐẠI HỌC UEHTRƯỜNG KINH DOANH</b>

<b>KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH</b>

<b>ĐỒ ÁN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU</b>

<b>GIẢNG VIÊN HƯỚNG DẪN : THÁI KIM PHỤNG</b>

<b>TÊN SINH VIÊN - MSSV : Trần Huỳnh Phước Ngọc - 31221024030</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>CHƯƠNG 1: GIỚI THIỆU</b>

<b>1.1.Lý do lựa chọn đề tài </b>

Ngày nay, thời đại công nghệ phát triển mang đến cho con người nhiều cơ hội và tiềm lực mới để nâng cao, cải thiện đời sống , đồng thời cũng tạo nên những ảnh hưởng to lớn đến đời sống, xã hội. Đơn cử là cách thức làm việc của mọi lao động, sự phát triển của công nghệ thông tin, đang từng bước thúc đẩy sự phát triển đổi mới nhanh chóng tại nhiều lĩnh vực. Tài chính – ngân hàng là một trong số đó. Lĩnh vực tài chính – ngân hàng có nhiều cơ hội đổi mới nhưng ln tìm ẩn những rủi ro khơng lường trước được. Chính bởi lẽ đó, sự phát triển của thị trường đã đặt ra nhiều thách thức cho Nhà nước, yêu cầu xây dựng chính sách và định hướng thị trường tài chính – ngân hàng với mục tiêu tận dụng, khai thác triệt để được các cơ hội, đồng thời phòng ngừa, khắc phục được những rủi ro, nguy cơ tiềm tàng. Công nghệ số là một đáp án đúng đắn cho những yêu cầu trên, nó cho phép các tổ chức tài chính thu thập, phân tích và lưu trữ dữ liệu từ nhiều nguồn khác nhau. Việc áp dụng trí tuệ nhân tạo, học máy và khai phá dữ liệu giúp phát hiện xu hướng, dự báo rủi ro tín dụng, tối ưu hóa quy trình và cung cấp thông tin chi tiết để đưa ra quyết định.

Nghiên cứu và ứng dụng dữ liệu khách hàng để đánh giá rủi ro tín dụng là xu hướng phổ biến trong ngành tài chính. Bên cạnh việc tiếp cận và áp dụng các kỹ thuật phân tích dữ liệu hiện đại nhằm tìm kiếm những cơ hội và lợi ích lớn cho các tổ chức tài chính, việc đánh giá khả năng vay của khách hàng cũng là một yếu tố quan trọng. Điều này giúp các công ty tài chính đưa ra quyết định thơng minh về việc cấp vay hay từ chối vay cho khách hàng, từ đó giảm thiểu rủi ro tín dụng và tăng hiệu suất hoạt động. Thêm vào đó, do sự phát triển của công nghệ thông tin và viễn thông, thông tin về khách hàng dễ dàng thu thập được từ nhiều nguồn khác nhau như hồ sơ tín dụng, lịch sử giao dịch, dữ liệu trực tuyến và xã hội,... Nghiên cứu dữ liệu khách hàng và áp dụng mơ hình dự đoán khả năng vay sẽ giúp tiếp cận và phân tích các nguồn dữ liệu này để đưa ra những quyết định mang tính hiệu quả cao.

Trong bài nghiên cứu, trình bày về mơ hình dự đốn khả năng vay có thể được xây dựng bằng cách áp dụng các thuật tốn trí tuệ nhân tạo và học máy như học có giám sát, học khơng giám sát, ... Điều này mang lại tiềm năng lớn để tạo ra các công cụ và phương pháp hiệu quả để đánh giá khả năng vay của khách hàng. Việc nghiên cứu dữ liệu khách hàng nhằm cung cấp những thông tin quan trọng về ưu và nhược điểm của từng khách hàng. Qua đó tối ưu hóa quy trình vay mua nhà, cơng ty vừa có thể tăng cường khả năng cạnh tranh, tập trung vào các đối tượng khách hàng có tiềm năng và nâng cao trải nghiệm khách hàng, vừa có thể kiểm sốt và giảm thiểu rủi ro tín dụng. Với những lý do trên, dự án “Nghiên cứu dữ liệu khách hàng và áp dụng mơ hình dự đốn khả năng đủ điều kiện vay mua nhà” có thể mang lại nhiều giá trị cho ngân hàng nói riêng và những tổ chức tài chính nói chung.

<b>1.2.Mục tiêu nghiên cứu</b>

Dự án “Nghiên cứu dữ liệu khách hàng và áp dụng mơ hình dự đốn khả năng đủ điều kiện vay mua nhà” nhằm đáp ứng 2 mục tiêu:

 Nghiên cứu về các phương pháp tính tốn cụ thể và chọn ra một phương pháp tối cho quá trình dự báo dữ liệu. Từ đó đưa ra những mơ hình hoạt động kinh doanh tốt nhất cho các doanh nghiệp.

 Dựa trên mơ hình đã được xây dựng trong quá trình nghiên cứu, đưa ra kết luận về phân loại khách hàng và mục tiêu kinh doanh gắn liền với hành vi khách hàng, nhằm mang lại cho doanh nghiệp phương án kinh doanh hiệu quả nhất, đồng thời cũng đưa ra kết luận về những hạn chế của bài nghiên cứu.

<b>1.3. Đối tượng và phương pháp nghiên cứu1.3.1.Đối tượng nghiên cứu</b>

Mơ hình khoa học dữ liệu và thuật toán phân lớp dữ liệu bảng bằng Neural Network để ứng dụng trong việc ra quyết định xem xét cho vay tín dụng.

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Dữ liệu được thu thập từ Kaggle với thông tin của 614 khách hàng, bao gồm các thông tin: ID Khoản vay (Loan_ID), số người phụ thuộc (Dependents), giới tính (Gender), tình trạng hơn nhân (Married), học vấn (Education), tự làm chủ (Self_Employed), thu nhập của người nộp đơn (Applicantincome), thu nhập của người giám hộ (Coapplicantincome), số tiền vay (LoanAmount), thời hạn khoản vay (Loan_Amount_Term), lịch sử tín dụng (Credit_History), khu vực bất động sản (Property_Area), khoản vay_trạng thái (Loan_Status).

<b>1.3.2.Phương pháp nghiên cứu1.3.2.1. Phương pháp nghiên cứu lý luận</b>

“Tiến hành nghiên cứu, thu thập, chọn lọc và phân tích dữ liệu bằng cách đọc sách, báo, tài liệu nhằm tìm ra các quan niệm, quan điểm xây dựng cơ sở lý luận cho nghiên cứu, dự đoán các thuộc tính của đối tượng nghiên cứu, xây dựng sơ bộ lý luận. Bao gồm các phương pháp sau:

 Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, nghiên cứu khoa học từ các tạp chí uy tín có được, sau đó đọc và tổng hợp để rút ra những nội dung cần thiết cho luận điểm của bài nghiên cứu.

 Phương pháp mơ hình hóa: xây dựng mơ hình nghiên cứu dựa trên lý thuyết và ứng dụng mơ hình để dự báo nhằm kiểm định tính chính xác của mơ hình.”

<b>1.3.2.2. Phương pháp nghiên cứu thực tiễn</b>

“Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thực tiễn:

Thông qua các thuật toán của phần mềm Orange - một cơng cụ mang tính trực quan để nghiên cứu về các thuật toán machine learning và thực hành khoa học dữ liệu phổ biến hiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên cứu.

Từ đó, xây dựng các mơ hình dự báo và so sánh các kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất giúp các nhà đầu tư có quyết định chính xác khi cần có sự suy tính trong các lựa chọn đầu

<b>Phân cụm dữ liệu (hay </b><i>Phân cụm Học không nhãn</i>; ) là một phương pháp trong lĩnh vực học máy, được sử dụng để nhóm các điểm dữ liệu tương đồng thành các nhóm tương tự nhau dựa trên các đặc trưng chung. Trong quá trình phân cụm, các điểm dữ liệu được gom lại thành các cụm sao cho các điểm trong cùng một cụm có tính chất tương tự nhau và khác biệt so với các điểm thuộc vào các cụm khác. Mỗi cụm có thể có các đặc trưng riêng phản ánh sự tương đồng giữa các điểm dữ liệu trong cụm đó. Mục tiêu của phân cụm dữ liệu là tìm ra điểm chung đặc trưng giữa các đối tượng theo một độ đo nào đó mà không yêu cầu bất kỳ thông tin nhãn hay giám sát nào. Đây là dữ liệu tự nhiên thường thấy trong thực tế.

Ngồi ra phân cụm dữ liệu cịn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác. Phân cụm là một tác vụ chính của Data mining, và là một kỹ thuật phổ biến trong thống kê phân tích dữ liệu.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<i>Hình 2.1: Mơ tả q trình phân cụm dữ liệu</i>

<b>2.1.1.2. Đặc điểm</b>

Nhiệm vụ chính của phân cụm là tìm ra mẫu và sự tương đồng trong dữ liệu, giúp hiểu và phân tích thơng tin một cách rõ ràng hơn.

Phân cụm thuộc nhóm phương pháp học khơng giám sát, hay cịn gọi là không nhãn (Unsupervised learning) do ta không biết trước dữ liệu sẽ được phân thành bao nhiêu cụm, đây là sự khác biệt với bài toán Phân lớp.

Một phương pháp phân cụm tốt sẽ tạo ra các cụm có chất lượng cao đáp ứng những tiêu chí sau:

- Các điểm dữ liệu bên trong cụm có độ tương đồng cao - Giữa các cụm phải có độ tượng tự thấp.

<b>2.1.1.3. Các ứng dụng của phân cụm dữ liệu</b>

Do phân cụm dữ liệu có tính ứng dụng cao giúp đưa ra những kết quả chính xác nên được sử dụng rộng rãi trong nhiều lĩnh vực của cuộc sống, cụ thể như:

<i> Lĩnh vực kinh doanh:</i>

- Phân định đối tượng khách hàng, phân loại sản phẩm, phân loại kênh tiếp thị: phân cụm dựa trên các thông tin như hành vi mua hàng, độ tuổi, sản phẩm, … để tạo chiến lược tiếp thị, tối ưu hoá dịch vụ khách hàng và phát triển sản phẩm mới theo chiến lược mà kết quả cho ra

- Nhiều công ty thương mại điện tử áp dụng để bán hàng qua nhiều nước thông qua các trang web của họ. Một trong những công ty nổi tiếng nhất ứng dụng điều hành này là Amazon; họ sử dụng các kỹ thuật khai phá dữ liệu để lái “những người đã xem sản phẩm đó cũng thích sản phẩm được giới thiệu này”

<i>Lĩnh vực y tế:</i>

- Dự báo bệnh tật: phân loại bệnh nhân thành các nhóm rủi ro khác nhau, giúp dự báo nguy cơ mắc bệnh hoặc các biến chứng tiềm năng, từ đó đưa ra các biện pháp phịng ngừa và can thiệp sớm hơn. Tìm ra mối quan hệ giữa các loại bệnh và hiệu quả của phương pháp điều trị sẽ giúp thay đổi các loại thuốc mới hoặc đảm bảo rằng bệnh nhân được chăm sóc phù hợp, kịp thời.

<i> Lĩnh vực cơng nghệ thơng tin:</i>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

- Phát hiện gian lận: phát hiện các hành vi gian lận trong lĩnh vực bảo mật mạng, ví dụ như phát hiện tin tặc hoặc xác định các nhóm nguy hiểm dựa trên hành vi tấn cơng.

- Phân loại tin tức và phân tích ý kiến: tổ chức tin tức hoặc bài viết thành các nhóm dựa trên nội dung, chủ đề hoặc nguồn thơng tin. Nó cũng có thể được sử dụng để phân tích ý kiến từ các nguồn dữ liệu khác nhau, như mạng xã hội hoặc diễn đàn, để hiểu quan điểm của người dùng về một vấn đề cụ thể.

<i> Lĩnh vực giáo dục:</i>

- Phân cụm dữ liệu có thể giúp dự đốn khả năng thành công học tập của học sinh dựa trên các yếu tố như chỉ số học tập, động lực, sự tương tác xã hội và thói quen học tập. Điều này giúp giáo viên và nhà trường đưa ra các biện pháp hỗ trợ nhằm nâng cao tỷ lệ hồn thành và thành cơng học tập.

- Tuy nhiên, ứng dụng trong lĩnh vực giáo dục vẫn chưa thực sự được phát huy mạnh mẽ trong thời điểm hiện tại bởi vì sự mới mẻ của việc áp dụng cơng nghệ ở Việt Nam, cũng như những chi phí nhất định cho việc áp dụng kỹ thuật này vào hệ thống giáo dục.

<i>Lĩnh vực sinh học:</i>

- Phân loại gen: Phân cụm dữ liệu có thể được sử dụng để phân loại gen dựa trên sự giống nhau về cấu trúc hoặc chức năng. Điều này giúp trong việc hiểu và phân tích các bộ gen, nhận biết đặc điểm di truyền và tìm kiếm liên kết giữa các gen và bệnh tật.

- Phân lớp loại sinh vật: phân lớp và phân loại các loài sinh vật dựa trên đặc điểm hình thái, di truyền hoặc mơ hình sinh thái. Điều này hỗ trợ trong việc nghiên cứu, bảo tồn và hiểu sâu về các loài sinh vật.

<b>2.1.2. Các phương pháp phân cụm </b>

Một số phương pháp phân cụm chính có thể kể đến như sau:

Dựa trên phân cấp

Xây dựng nhiều phân hoạch và chọn cách tốt nhất ( sai số tối thiểu )

means, K-medoids,Fuzzy C-means. Dựa trên mật độ

(Density-based approach) <sup>Dựa trên mật độ kết nối</sup> OPTICS,DenClue<sup>DBSCAN, </sup> Dựa trên lưới

(Grid-based approach) <sup>Dựa trên cấu trúc của lưới</sup>

STING, Wave Cluster,CLIQUE Dựa trên mơ hình

(Model-based) <sup>Xác định mơ hình cho mỗi cluster</sup>

EM, SOM, COBWEB Dựa trên cấu trúc phân cụm, Clustering có 2 dạng tổng quát: Phân cụm phân cấp (Hierarchical Clustering) và Phân cụm phân hoạch (Partitioning approach).

<b>2.1.2.1. Phân cụm phân cấp (Hierarchical Clustering)</b>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<i>Hình 2.2: Tổng quan quá trình phân cụm phân cấp</i>

Phân cụm phân cấp là phương pháp phân tích cụm bằng việc tổ chức các đối tượng thành một đồ thị có cấu trúc dạng cây, có các nhánh là các cụm mong muốn. Cây phân cấp được xây dựng cho dữ liệu cần gom cụm dựa trên:

● Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix) ● Độ đo khoảng cách giữa các cụm (single link, complete link…)

Theo phương pháp này, chúng tạo ra những biểu diễn phân cấp trong đó các cụm ở mỗi cấp của hệ thống phân cấp được tạo bằng cách hợp nhất các cụm ở cấp độ thấp hơn bên dưới. Ở cấp thấp nhất, mỗi cụm chứa một quan sát. Ở cấp cao nhất, chỉ có một cụm chứa tất cả dữ liệu. Thứ tự cấp bậc của các cụm này tạo thành một cấu trúc cây Dendrogram.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<i>Hình 2.3: Đồ thị Dendrogram</i>

Ngược lại với phương pháp K-Means, phương pháp phân cụm phân cấp (Hierarchical Clustering) không cần xác định trước số cụm nhưng cần xác định điều kiện dừng.

Các phương pháp điển hình bao gồm: Agnes và Diana.

F

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<i>Hình 2.4: Minh họa quá trình phân cụm theo phương pháp AGNES và DIANA</i>

+ <b>AGNES</b>: Trên thực tế, đây là phương pháp được sử dụng phổ biến. Agglomerative sử dụng chiến lược Bottom up (từ dưới lên), nghĩa là quá trình phân cụm bắt đầu với những cụm chỉ là 1 phần tử. Sau đó trong các bước tiếp theo, hai cụm nhỏ ở gần nhau sẽ tập hợp lại thành một cụm lớn hơn. Khoảng cách giữa 2 cụm là khoảng cách gần nhất hoặc khoảng cách trung bình giữa 2 điểm từ hai cụm khác nhau. Số lượng cụm ở tập dữ liệu sẽ giảm đi một ở mỗi bước. Q trình này sẽ là vịng lặp cho đến khi tất cả các cụm nhỏ tập hợp lại một cụm lớn duy nhất. Kết quả quá trình là tạo thành một dendrogram (cây phân cấp).

<i>Hình 2.5: Minh họa phương pháp phân cụm AGNES</i>

Dendrogram của phương pháp Agnes:

<i>Hình 2.6: Dendrogram của phương pháp AGNES</i>

+ <b>DIANA</b>: Ngược lại với AGNES, phương pháp này sử dụng chiến lược Top down (từ trên xuống), nghĩa là phân chia bắt đầu với tất cả phần tử cùng nằm trong một cụm lớn. Sau đó trong các bước tiếp theo, cụm lớn ban đầu được chia thành 2 cụm. Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình. Các cụm mới được tách ra sẽ được phân tách ra theo phương pháp đệ quy (Recursive) và tạo thành vòng lặp cho đến khi mỗi phần tử là 1 cụm đại diện cho riêng nó. Kết quả của quá trình là tạo thành một cây phân cấp (dendrogram).

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<i>Hình 2.7: Minh họa phương pháp phân cụm DIANA</i>

Dendrogram của phương pháp Diana:

<i>Hình 2.8: Dendrogram của phương pháp DIANA</i>

● Một số phương pháp tính khoảng cách (Distance)

- <b>Single linkage</b>: Phương pháp này đo lường sự khác biệt giữa hai cụm bằng cách lấy ra cặp điểm gần nhất giữa hai cụm. Độ đo sự khác biệt được tính theo cơng thức:

- <b>Complete linkage: Phương pháp này đo lường sự khác biệt giữa hai cụm bằng cách lấy ra</b>

hai cặp điểm xa nhau nhất giữa hai cụm.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

- <b>Average linkage: Phương pháp này sẽ lấy trung bình tồn bộ khoảng cách giữa các cặp </b>

điểm được lấy từ hai cụm. Chúng ta sẽ có tổng cộng N1N2 cặp điểm. Như vậy khoảng cách sẽ được tính bằng:

- <b>Mean: khoảng cách giữa các điểm trung bình (mean) của 2 cụm. </b>

dist(C ,C<small>ij</small>) = |m - m |<small>ij</small>

<i>Với m và m là trung bình của các phần tử trong cụm C và C<small>ijij</small></i>

- <b>Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm.</b>

dist(C ,C<small>ij</small>) = dist(c<small>i</small>,c )

<i>Với c và c lần lượt là các trọng tâm của cụm C , C<small>ijij</small></i>

- <b>Medoid:</b> khoảng cách giữa các trung tâm cụm (medoid) của 2 cụm. dist(C ,C<small>ij</small>) = dist(M<small>i</small>,M )<small>j</small>

<i>Medoid là phần tử nằm ở trung tâm cụm</i>

<i>Với M và M là trung tâm của các phần tử trong cụm C và C<small>i ji j</small></i>

<b>2.1.2.2. Phân cụm phân hoạch (Partitioning approach):</b>

Đây là phương pháp phân cụm ‘one-level’, tức một cấp, các cluster không được thể hiện dưới dạng cấp bậc. Phương pháp này phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm. Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm) sao cho mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau và mỗi cụm có ít nhất 1 phần tử. Điển hình cho phương pháp phân cụm phân hoạch là: Thuật toán K-Means và các biến thể của nó như K-Medoid, Fuzzy C-Means…

Thuật toán K-Means: là thuật toán kinh điển được sử dụng rất rộng rãi trong thực tế và nó có thể được biến đổi để thích hợp cho từng bài tốn cụ thể, và nó nằm trong nhóm các phương pháp phân hoạch. Tư tưởng chính của thuật tốn K-Means đó chính là ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng). Phương pháp K-MEANS được thể hiện bằng các bước sau:

<b>Bước 1: Khởi tạo các trung tâm cụm ban đầu: Chọn ngẫu nhiên K điểm từ tập dữ liệu làm trung tâm </b>

cho từng cụm ban đầu.

<b>Bước 2: Gán các điểm dữ liệu vào cụm gần nhất: Nếu các điểm dữ liệu ở từng cụm vừa được phân </b>

chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật tốn.

<b>Bước 3: Cập nhật lại trung tâm cụm: Tính tốn lại vị trí trung tâm cụm bằng cách lấy trung bình của </b>

tất cả các điểm thuộc cùng một cụm sau khi phân chia ở bước 2.

<b>Bước 4: Quay lại bước 2 cho đến khi khơng có sự thay đổi đáng kể trong việc gán các điểm dữ liệu </b>

hoặc đạt được một tiêu chuẩn dừng nhất định.

<b>2.1.3.Các phương pháp đánh giá chất lượng phân cụm dữ liệu:</b>

Đánh giá chất lượng phân cụm dữ liệu là một bước quan trọng nhằm đảm bảo tính chính xác, độ tin cậy của dữ liệu được xử lý dựa trên một số tiêu chí:

+ Độ nén (compactness): các phần tử của cụm phải “gần nhau”

+ Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõ ràng. Có 3 phương pháp chủ yếu đánh giá việc phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

- Đánh giá ngoài (external validation): đánh giá kết quả phân cụm dựa vào xu hướng, cấu trúc phân cụm được chỉ định trước cho tập dữ liệu. Các độ đo được sử dụng: Rand statistic, Jaccard coefficient, Fowlkes và Mallows index…

- Đánh giá nội bộ (internal validation): đánh giá kết quả phân cụm mà khơng có thơng tin từ bên ngồi, chủ yếu dựa trên các vector chính của dữ thơng qua ma trận xấp xỉ (proximity matrix). Các độ đo được sử dụng: Hubert’s statistic, Silhouette index, Dunn’s index, F-ratio, DBI (Davies Bouldin Index) ….

- Silhouette index: nằm trong khoảng [-1,1]. Trong đó,

● Si ≥ 0.5 : Sát thực tế

● 0.25 ≤ Si < 0.5: cần đánh giá lại (Theo kinh nghiệm của chuyên gia) ● Si < 0.25: Khơng tin tưởng vào cluster, tìm phương pháp đánh giá khác

- Đánh giá tương đối (relative validation): Đánh giá việc phân cụm bằng cách so sánh nó với kết quả gom cụm ứng với các bộ trị thông số khác nhau, kết quả gom cụm của các phương pháp khác.

<b>2.2. Phân lớp dữ liệu</b>

<b>2.2.1. Lý thuyết – mô tả phương pháp Hồi quy Logistic (Logistic Regression)2.2.1.1. Khái niệm </b>

Hồi quy Logistic là một mơ hình xác suất dự đoán giá trị đầu ra rời rạc (output) từ một tập các giá trị đầu vào (input) bằng cách dùng tốn học để tìm xem hai yếu tố dữ liệu có quan hệ gì, từ đó dự đốn giá trị của những yếu tố đó dựa trên yếu tố còn lại.

<b>2.2.1.2. Đặc điểm</b>

● Về cơ bản, đây là một thuật tốn phân loại có giám sát.

● Mơ hình này dùng các hàm logarit (được biểu diễn dưới dạng vector).

● Dự báo của phương pháp này là bất kì giá trị nhị phân nào, như True/False, 0/1, -1/1, Nam hoặc Nữ dựa vào input (giá trị đầu vào).

● Bản chất là phương pháp hồi quy tuyến tính áp dụng trong bài tốn phân loại, địi hỏi sự độc lập của các quan sát.

<b>2.2.1.3. Mô tả, kiến trúc: </b>

<i>Hình 2.9: Phân lớp bằng hồi quy Logistic</i>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

● Phương pháp hồi quy Logistic được dùng cho các bài toán phân loại nhị phân, các bài toán có 2 lớp giá trị, ước tính xác suất của các sự kiện hay xác định mối quan hệ giữa các thông tin đặc trưng và xác suất kết quả. Trong hồi quy Logistic, ta cần một hàm số có tác dụng chiếu giá trị dự báo lên không gian xác suất nằm trong khoảng [0,1]. Vì vậy, trong mơ hình này ta có:

<b>Input: dữ liệu đầu vào ta sẽ xem như có hai nhãn là Male và FemaleOutput: Xác suất để dữ liệu đầu vào rơi vào nhãn Male hoặc nhãn Female</b>

<b>Decision Boundary</b>: Đường phân loại các lớp dữ liệu từ các điểm dữ liệu ban đầu (<b>x</b>: Male và

<b>x</b>: Female). Đối với hồi quy Logistic, ta sẽ biết được xác suất mỗi điểm rơi vào nhãn <b>x</b> và cũng <b>x</b>

như giữa và có một đường <b>xxDecision Boundary</b>.

● Hàm hồi quy Logistic chạy kết quả thông qua một hàm non-linear (phi tuyến tính).Đó là hàm Logistic hay sigmoid với khả năng tạo ra xác suất p.

● Công thức hồi quy của model hồi quy Logistic: Với log( p

1− p<sup>), ta có xác suất p:</sup>

1+e<small>−( h0 +h 1 x 1+…+hnxn)</small>

S<small>0</small> (ký hiệu hàm Logistic Regression): là hàm sigmoid với đầu ra là một số có giá trị từ 0 đến 1 được định nghĩa với công thức:

So (t)= <sup>1</sup> 1+exp exp(−t ) Đồ thị:

<i>Hình 2.10: Đồ thị phương trình hồi quy Logistic</i>

Dưới góc nhìn của graphic model thì mơ hình hồi quy Logistic có dạng:

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<i>Hình 2.11: Minh họa mơ hình Hồi quy Logistic</i>

Đồ thị trên gồm 2 bước:

<i><b>Bước 1: Kết hợp tuyến tính: </b></i>

Ta có các node (hình trịn) và các mũi tên minh họa cho các biến đầu vào và các hướng tính toán của đồ thị. Cuối cùng ta kết hợp tuyến tính các node để tính ra đầu ra ^y.

⇨ Bước này tương đương với quá trình dự báo trong hồi quy tuyến tính.

<b>Bước 2: Biểu diễn hàm Sigmoid</b>

Giá trị ^y lại tiếp tục được đưa qua hàm σ để tính xác suất P(y = 1) ở output. Ưu điểm

- Đầu ra của hồi quy Logistic là xác định.

- Không yêu cầu bất kỳ dạng phân phối cụ thể nào của các biến độc lập.

- Không yêu cầu mối quan hệ tuyến tính giữa các biến độc lập và các biến phụ thuộc. - Ít phức tạp và có cường độ điện tốn ít hơn so với Deep Learning => Các phép toán hồi quy Logistic minh bạch và dễ khắc phục sự cố.

- Phương pháp này có thể giải quyết được hiệu ứng phi tuyến tính ngay cả khi các số hạng mũ và đa thức không được thêm vào một cách rõ ràng dưới dạng các biến độc lập bổ sung vì mối quan hệ logistic.

Nhược điểm

- Hồi quy Logistic không thể xử lý một số lượng lớn các tính năng phân loại=> khơng cung cấp độ chính xác tốt đối với những bài tốn dự đốn cần nhiều tính năng phân loại.

- Khơng thể áp dụng cho một bài tốn phi tuyến tính, dễ bị overfitting.

- Hồi quy Logistic hoạt động kém với các biến độc lập không tương quan với mục tiêu và tương quan với nhau.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Ứng dụng

- Sản xuất: Các công ty áp dụng phương pháp để ước tính xác suất xảy ra sự cố ở bộ phận trong máy móc, dựa trên xác suất đã ước tính để lên lịch bảo trì nhằm giảm thiểu sự cố trong tương lai.

- Tài chính: Các cơng ty tài chính phải phân tích các giao dịch tài chính để đề phịng gian lận, xem xét xác đơn xin vay và đơn bảo hiểm để đề phòng rủi ro hay đưa ra phương án đầu tư hợp lý. Vì phương pháp sẽ giúp phân loại các đơn ở các xếp hạng: rủi ro cao, rủi ro thấp, đầu tư mạo hiểm hay an tồn, tín nhiệm cao hay thấp, …

- Y tế: Dự đoán khả năng mắc bệnh của bệnh nhân hoặc tính tốn tác động của gen di truyền, … - Dịch vụ quảng cáo, tiếp thị: Dự đoán khả năng người dùng nhấp vào quảng cáo, nghiên cứu phản ứng của người với những content trên mạng xã hội vì mục đích quảng bá sản phẩm hiệu quả.

<b>2.2.2. Lý thuyết – mô tả phương pháp SVM (Support Vector Machines)</b>

<b>2.2.2.1. Khái niệm: Trong các bài toán phân lớp hay đệ quy, SVM nhận dữ liệu vào sau đó phân loại </b>

chúng vào các lớp khác nhau bằng cách thiết lập một siêu phẳng trong không gian nhiều chiều làm mặt phẳng phân cách dữ liệu. Phương pháp này xem dữ liệu như những vector.

<i>Hình 2.12: Minh họa khái niệm SVM</i>

<b>2.2.2.2. Đặc điểm: </b>

- Đây là một thuật tốn có giám sát.

- SVM có nhiều biến thể tương thích với nhiều loại bài tốn phân loại. - Thường được sử dụng để xử lý ảnh, phân loại văn bản, phân tích quan điểm.

<b>2.2.2.3. Mơ tả, kiến trúc:</b>

- Với mục tiêu là tìm ra một siêu phẳng (hype lane) trong không gian N chiều (ứng với N tính năng), SVM giúp phân tách các điểm dữ liệu ( phân chia 2 lớp dữ liệu tương ứng).

<i>Hình 2.13: Mơ hình SVM</i>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

- Để kết quả phân lớp tốt nhất thì phải xác định siêu phẳng tách biệt nhất có thể về khoảng cách với các điểm dữ liệu (margin).

- Cách chọn siêu phẳng tối ưu: + Sử dụng Support Vector:

Siêu phẳng phân tách hai lớp dữ liệu H<small>0</small> thỏa mãn <W.X<small>i</small>>+b=0. Siêu phẳng này tạo ra nửa không gian dữ liệu âm X<small>i</small> thỏa mãn <W.X<small>i</small>>+b ≤ -1 và nửa không gian dữ liệu lớp dương X<small>j</small> thỏa mãn <W.X<small>i</small>

>+b ≥ 1. Support Vector H<sub>1</sub> đi qua các điểm lớp âm, gần siêu phẳng H<sub>0</sub> nhất và H<sub>2</sub> đi qua các điểm thuộc lớp dương, gần siêu phẳng H<small>0</small> nhất.

<i>H<small>1 </small></i> : <W.X> + b =-1

<i>H<small>2 </small></i>: <W.X> + b =1

<i>Hình 2.14: Siêu phẳng tối ưu và Support Vectord- là khoảng cách giữa support vector H</i><sub>1</sub> và H<sub>0</sub>.

<i>d- là khoảng cách giữa support vector H</i><sub>2</sub> và H<sub>0</sub>.

<i>m = d- + d+: mức lề</i>

Siêu phẳng tối ưu là siêu phẳng phân tách có lề lớn nhất, từ đó sẽ giúp bài toán giảm thiểu tối đa các lỗi mắc phải.

Nếu dữ liệu không thể phân chia tuyến tính, ta có thể dùng:

<b>Lề mềm: Cho phép SVM mắc một số lỗi nhất định vì mục tiêu chung là giữ cho lề càng rộng </b>

càng tốt (tối đa hóa lề) để các điểm khác vẫn được phân loại chính xác.

Có hai kiểu phân loại sai có thể xảy ra: Dữ liệu nằm đúng bên nhưng phạm vào lề, dữ liệu nằm sai bên.

<i>Hình 2.15: Minh họa Soft margin</i>

<b>Mức độ chấp nhận lỗi: Được xem như một tham số phạt (C) trong lập trình sklearn, C</b>

càng lớn thì SVM càng bị phạt nặng.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<i>Hình 2.16: Mức độ chấp nhận lỗi</i>

<b>Thủ thuật Kernel: Một Kernel là một hàm ánh xạ dữ liệu từ khơng gian ít chiều sang</b>

không gian nhiều chiều hơn.

Các kiểu Kernel: Tuyến tính, Đa thức, RBF, Sigmoid

+ Việc xác định siêu phẳng H<small>0</small> được giả sử trong điều kiện lý tưởng: tập dữ liệu có thể phân tách tuyến tính, tìm được hai siêu phẳng lề H và H mà khơng có điểm dữ liệu nào nằm giữa chúng.<small>12</small>

Ưu điểm:

- SVM có thể xử lý trên khơng gian số chiều cao. Cho nên có thể áp dụng tốt cho các bài toán phân loại văn bản và phân tích quan điểm nơi chiều có thể cực kỳ lớn.

- Sử dụng các điểm trong tập hỗ trợ để dự báo trong hàm quyết định => ít tốn dung lượng. - Có tính linh hoạt cao vì khơng bị vướng theo những quy luật tuyến tính cứng nhắc

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Nhược điểm:

- Trong trường hợp số chiều dữ liệu lớn hơn số dịng dữ liệu thì SVM cho kết quả khơng triệt để. - SVM chưa thể hiện tính xác suất trong phân lớp.

Ứng dụng:

- Mơ hình chẩn đốn bệnh: Biến target là cấc chỉ số dự xét nghiệm lâm sàng, thuật toán SVM sẽ đưa ra dự đoán về một số bênh như máu nhiễm mỡ, tiểu đường, …

- Là một mơ hình được dùng phổ biến trong phân loại ảnh trong nhiều năm về trước. - Mơ hình SVM có thể phân loại tin tức, xác định chủ đề của một đoạn văn bản, phân loại thư rác, phân loại cảm xúc văn bản.

- Phát hiện gian lận

<b>2.2.3. Phương pháp cây ra quyết định Decision Tree2.2.3.1. Khái niệm: </b>

- Trong lý thuyết quản trị, cây quyết định là mơ hình hỗ trợ việc đưa ra quyết định dựa trên các mối liên hệ tính tốn của các quyết định cùng các kết quả khả dĩ.

- Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.”

<b>2.2.3.2. Đặc điểm: </b>

- Là một thuật toán đơn giản, bắt đầu với một Root Notes và kết thúc bằng một quyết định của các lá.

- Các thuộc tính có thể thuộc vào nhiều kiểu dữ liệu khác nhau như Định danh, Nhị phân, Thứ tự, …và thuộc tính phân lớp phải có kiểu dữ liệu là Nhị phân hoặc Thứ tự.”

- Cây quyết định gồm hai loại là cây hồi quy (ước lượng các hàm có giá trị là số thực: ước tính một ngơi nhà, thời gian hoa nở, …) và cây phân loại (biến y là một biến phân loại: Nam hoặc Nữ, Có hoặc Khơng, …). Mỗi nút trong (internal node) tương ứng với một biến, mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<i>Hình 2.18: Mơ hình Decision Tree</i>

<b>2.2.3.3: Mô tả, kiến trúc:</b>

● <b>Entropy: Là một hàm đo độ tạp chất của một nút, cho thấy mức độ rối loạn của một nút cụ thể. </b>

Tạp chất là mức độ ngẫu nhiên, nó cho biết dữ liệu của chúng ta ngẫu nhiên như thế nào. Entropy càng cao thì độ tinh khiết càng thấp và tạp chất càng cao.

Trong Machine Learning, sử dụng Entropy để xác định được tạp chất của một nút cụ thể. Đó là cơ sở để phục vụ mục tiêu giảm độ không chắc chắn, tạp chất của dữ liệu. Vì trong Decision Tree, đầu ra chủ yếu là Có hoặc Khơng.

● <b>Cơng thức Entropy:</b>

Với một phân phối xác suất của một biến rời rạc x có thể nhận n giá trị khác nhau x1, x2, … xn:

Giả sử xác suất để x nhận các giá trị trên là: pi=p(x=xi). Ký hiệu phân phối này là p = (p1, p2, …pn)

Entropy của phân phối này là:

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<i>Hình 2.19: Minh họa mơ hình Decision Tree với các Feature</i>

⇨ Nút Feature 3 có độ tạp chất nhiều hơn

<b>Information Gain trong Cây quyết định: dựa trên sự giảm của hàm Entropy khi tập dữ </b>

liệu được phân chia trên một thuộc tính. Để xây dựng một Decision Tree, ta phải tìm tất cả thuộc tính trả về Information Gain cao nhất.

+ Các bước tính Information Gain dựa trên hệ số Entropy để từ đó xác định các nút:

<b>Bước 1: Tính hệ số Entropy của biến mục tiêu S có N phần tử với Nc phần tử thuộc lớp c </b>

<b>Bước 2: Tính hàm số Entropy tại mỗi thuộc tính: với thuộc tính x, các điểm dữ liệu trong S </b>

được chia ra K child node S1, S2, …, SK với số điểm trong mỗi child node lần lượt là m1, m2 , …, mK , ta có:

H(x, S) = ∑Kk=1 (mk / N) * H(Sk )

<b>Bước 3: Chỉ số Gain Information được tính bằng:</b>

G (x, S) = H(S) – H (x, S)

Ta có thể sử dụng thuật tốn ID3, C4.5 để mơ tả cách hoạt động của Decision Tree. Tiêu chuẩn dừng: Nếu chia mãi các node vẫn chưa tinh khiết, ta sẽ thu được một cây quyết định rất phức tạp, vài điểm dữ liệu lại có nhiều leaf node => Overfitting.

Giải pháp đưa ra là ta có thể dừng cây dựa trên một số tiêu chuẩn: - Dừng nếu node có Entropy = 0

- Hạn chế chiều sâu của tree khi giới hạn khoảng cách root node và node bất kỳ. - Entropy giảm không đáng kể khi chia lớp.

- Chấp nhận một số điểm bị phân sai lớp, và ra quyết định cho số class cho leaf node dựa trên class chiếm đa số trong node.

- Dừng tại một ngưỡng leaf node theo quy định. Ưu điểm:

- Có nhiều quy tắc dễ hiểu cho người đọc, tạo ra bộ luật với mỗi nhánh lá là một luật của cây.

- Khơng u cầu dữ liệu phải chuẩn hóa hồn tồn, vẫn chấp nhận missing data. - Có thể xử lý nhiều kiểu dữ liệu khác nhau.

- Xử lý tốt một lượng lớn dữ liệu trong thời gian ngắn. Nhược điểm:

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

- Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian vì chỉ cần một sự thay đổi nhỏ trong dữ liệu, cả cả cây dữ liệu có thể thay đổi tồn bộ.

- Chi phí xây dựng mơ hình cao - Dễ bị overfitting.

Ứng dụng:

- Xử lý tốt dữ liệu dạng bảo biểu với số thuộc tính khơng q lớn

- Khơng phù hợp khi số lượng thuộc tính bùng nổ ( như dữ liệu văn bản, hình ảnh, video, âm thanh,…)

<b>2.2.4. Lý thuyết – mô tả phương pháp Neural Network 2.2.4.1. Khái niệm: </b>

- Neural Network hay mạng nơron thần kinh nhân tạo là một mơ hình tốn học phức tạp có khả năng xác định, xử lý thông tin, giải quyết các vấn đề phổ biến trong Machine Learning, Deep Learning, trí tuệ nhân tạo AI hay tìm kiếm tất cả mối quan hệ cơ bản trong một tập hợp các dữ liệu.

- Phương pháp lấy cảm hứng từ cách thức hoạt động của tế bào thần kinh và khớp thần kinh từ bộ não con người. Mạng nơron là một mạng gồm các nút cơ bản, đôi khi được gọi là nơ-ron. Một mạng lưới các nút được hình thành bởi một tập hợp các nút như vậy.

<i>Hình 2.20: Mơ phỏng cơ chế hoạt động của nơ-ron từ bộ não con người</i>

- Các thuật toán trong phương pháp này được sử dụng với mục đích xác định và nhận ra tất cả các mối quan hệ có trong các tập dữ liệu.

- Phương pháp có khả năng thích ứng rất tốt (rất nhạy) với sự thay đổi từ input. Vì thế, phương pháp này vẫn có thể đưa ra được mọi kết quả (output) một cách tốt nhất mà không tác động nhiều đến thiết kế dữ liệu đầu ra.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<i>Hình 2.21: Mơ hình Neural Network</i>

<b>2.2.4.2. Đặc điểm </b>

- Neural network hoạt động như mạng nơ-ron trong bộ não con người. Mỗi nơ-ron thần kinh trong đó đại diện cho hàm tốn học với chức năng thu thập và phân loại các thông tin cần thiết dựa vào cấu trúc cụ thể.”

- Chứa các nút được liên kết lại với nhau trong những lớp bao hàm, trong đó mỗi nút có cấu tạo gần giống với hàm hồi quy đa tuyến tính và với những phương pháp thống kê. Từ các lớp liên kết chặt chẽ với nhau bên trong một lớp tri giác đa lớp có thứ tự, quy tắc phân bổ. Lớp đầu vào sẽ thu thập các mẫu dữ liệu đầu vào và lớp đầu ra sẽ dựa vào đó mà thu nhận các phân loại hoặc tín hiệu đầu ra.”

<b>2.2.4.3. Mô tả, kiến trúc Neural Network</b>

Neural network là sự kết hợp hoàn hảo của những tầng perceptron, gồm 3 kiểu tầng: - Input layer: Nằm ở phía bên trái của Neural Network, đại diện cho các đầu vào của Neural Network.

- Output layer: Nằm ở phía trên bên phải, đại diện cho những đầu ra của Neural Network. - Hidden layer: Nằm xem giữa hai tầng vào và tầng ra thể hiện cho quá trình suy luận logic của Neural Network

<i>Đặc biệt, mỗi một Neural Network chỉ có duy nhất một tầng vào và 1 tầng ra nhưng tầng ẩn thì khơng bắt buộc số lượng như vậy.</i>

Ưu điểm

Cho phép xây dựng một mơ hình tính tốn có khả năng học dữ liệu rất cao khi có thể chất chứa nhiều đầu vào, đầu ra hay thậm chí học được sự liên kết ẩn sâu, không hiện rõ của 2 bộ dữ liệu. Nhược điểm

Người sử dụng mơ hình này phải có kinh nghiệm để chọn bộ dữ liệu huấn luyện có những thơng số hợp lý, dễ phân tích. Mơ hình này cũng khơng có cách tổng qt để đánh giá hoạt động thực sự bên trong mạng.

Ứng dụng

- <i>Nhận dạng chữ viết tay, nhận diện khn mặt, nhận dạng giọng nói: Neural Network có </i>

thể chuyển đổi các ký tự viết tay thành ký tự kỹ thuật số mà máy tính đọc được.

- <i>Dự đoán các giao dịch chứng khoán, tài chính: vì có tính năng kiểm tra, theo dõi các </i>

yếu tố ảnh hưởng đến sự vận động của các mã chứng khốn hàng ngày.

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<i>-Nén hình ảnh, dữ liệu, …</i>

<i>-Neural Network có thể tìm ra con đường giao hàng tối ưu để giao hàng giúp giảm thiểu chi phí vận chuyển.</i>

- <i>Thị giác máy tính: Neural Network có thể trích xuất dữ liệu cũng như thơng tin chun </i>

sâu từ hình ảnh, video của máy tính:

<i>Hình 2.22: Minh họa cách ứng dụng tính năng thị giác máy tính</i>

- Kiểm duyệt nội dung để tự động loại bỏ các nội dung khơng an tồn khỏi kho lưu trữ hình ảnh, video

- Phân tích dữ liệu hành vi trên các nền tảng mạng xã hội để đưa ra phương pháp tiếp thị hợp lý

<b>2.3. Một số phương pháp đánh giá mơ hình phân lớp2.3.1. Confusion Matrix (Ma trận nhầm lẫn)</b>

Ma trận nhầm lẫn là một bố cục bảng có kích thước k x k ( k là số lượng lớp của dữ liệu) cụ thể cho phép trực quan hóa hiệu suất của một thuật toán. Đây là một trong những kỹ thuật đo lường phổ biến nhất và được sử dụng rộng rãi cho nhiều mơ hình phân lớp. Mỗi hàng của ma trận đại diện cho các cá thể trong một lớp thực tế và mỗi cột sẽ đại diện cho các cá thể trong một lớp được dự đốn hoặc ngược lại.

<i>Hình 2.23: Minh họa phương pháp ma trận nhầm lẫn (Confusion Matrix)</i>

Để hình dung rõ hơn về ma trận nhầm lẫn sau đây chúng ta sẽ tìm hiểu về một ví dụ về dự án dự đốn khả năng chi trả khoản vay của khách hàng. Bài toán dự báo khả năng chi trả này sẽ bao gồm 2 lớp: lớp có khả năng chi trả là Positive và Negative là lớp khơng có khả năng chi trả:

● TP (True Positive): số lượng dự đoán chính xác về khách hàng có thể chi trả khoản vay ● TN (True Negative): số lượng dự đốn chính xác về khách hàng không đủ khả năng chi trả khoản vay

</div>

×