Tải bản đầy đủ (.docx) (35 trang)

Nghiên cứu và ứng dụng các phương pháp khai thác dữ liệu để dự đoán thói quen sử dụng thẻ Tín dụng của người dân Ấn Độ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.11 MB, 35 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ĐẠI HỌC UEH

TRƯỜNG KINH DOANHKHOA TÀI CHÍNH

<b>BỘ MƠN KHOA HỌC DỮ LIỆU</b>

<i><b>Đề tài: Nghiên cứu và ứng dụng các phương pháp khai</b></i>

<i>thác dữ liệu để dự đốn thói quen sử dụng thẻ Tín dụngcủa người dân Ấn Độ</i>

<b>Giảng viên hướng dẫn: Trương Việt PhươngMã học phần: 22C1INF50905934</b>

<b>Lớp: FNC05Khố: K47</b>

Phạm Nguyễn Nhã Hân31211025069Nguyễn Thanh Thảo Ngun31211026026Tơn Nữ Quỳnh Vy31211021552Nguyễn Thuý Hà31211024967

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>BẢNG PHÂN CÔNG VÀ TỈ LỆ ĐÓNG GÓP CỦA NHÓM SINH VIÊN</b>

<b>Họ và tên thành</b>

<b>viên<sup>MSSV</sup><sup>Phân cơng nhiệm vụ</sup><sup>Tỉ lệ tham gia</sup>đóng góp</b>

Nguyễn Thanh An 31211021183

- Phân chia công việc.- Tạo nội dung sườn bài, timeline.

- Chạy và phân tích Orange.

Phạm Nguyễn Nhã

Hân <sup>31211025069</sup>

- Chạy và phân tích Orange.

- Chỉnh sửa bài nộp <sup>100%</sup>Nguyễn Thanh Thảo

Nguyên <sup>31211026026</sup>

- Tìm và tổng hợp nội dung theo chủ đề được giao.

Tơn Nữ Quỳnh Vy 31211021552

- Tìm và tổng hợp nội dung theo chủ đề được giao.

- Chỉnh sửa nội dung.

Nguyễn Thuý Hà 31211024967

-Tìm và tổng hợp nội dung theo chủ đề được giao.

- Chỉnh sửa nội dung.

100%

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<small>1.2.Vai trò của Data Science...7</small>

<small>1.3.Ứng dụng của Data Science trong tài chính – ngân hàng...8</small>

<b><small>Chương II: Giới Thiệu Đề Tài...9</small></b>

<small>2.1.Đặt vấn đề...9</small>

<small>2.2.Mục tiêu nghiên cứu...10</small>

<small>2.3.Đối tượng nghiên cứu và phạm vi nghiên cứu...10</small>

<i><small>2.1.1.Đối tượng nghiên cứu...10</small></i>

<i><small>2.1.2.Phạm vi nghiên cứu...10</small></i>

<small>2.4.Phương pháp nghiên cứu...10</small>

<small>2.5.Mơ tả và Thuộc tính dữ liệu...11</small>

<b><small>Chương III: Phân Tích Đề Tài Qua Các Thuật Tốn Trên Orange...12</small></b>

<small>3.1.Tiền xử lí dữ liệu...12</small>

<i><small>3.1.1.Chọn “Role” cho các thuộc tính...12</small></i>

<i><small>3.1.2.Xử lí “Missing Values” trong bộ dữ liệu...13</small></i>

<small>4.2.Dự báo về sự phát triẻn của ngành tín dụng ở Ấn Độ...32</small>

<b><small>Tài Liệu Tham Khảo...33</small></b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Hình 3.1.1.a: <sup>Type và Role của các thuộc tính</sup>Hình 3.1.1.b: Role của các thuộc tính sau khi xử líHình 3.1.2.a: Mơ hình quan sát dữ liệu

Hình 3.1.2.b: Bảng biểu dữ liệu

Hình 3.2.1: Mơ hình so sánh các thuật tốn phân cụm

Hình 3.2.2.a: Các bước phân cụm bằng phương pháp Hierarchical ClusteringHình 3.2.2.b: Kết quả phân cụm bằng Average-linkage

Hình 3.2.2.c: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Average-linkageHình 3.2.2.d: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Average-linkageHình 3.2.2.e: Kết quả phân cụm bằng Complete-linkage

Hình 3.2.2.f: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Complete-linkageHình 3.2.2.g: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Complete-linkageHình 3.2.2.h: Các bước phân cụm bằng phương pháp k-Means

Hình 3.2.2.i: Phân tích k-Means cho bộ dữ liệu

Hình 3.2.2.j: Bảng Silhouette Plot cho 2 phân cụm k-MeansHình 3.2.2.k: Bảng Silhouette Plot cho 2 phân cụm k-Means

Hình 3.2.3.a: Kết quả phân cụm theo phương pháp Hierarchical ClusteringHình 3.2.3.b: Kết quả phân cụm theo phương pháp k-Means

Hình 3.3.1: Lựa chọn mơ hình phân lớp phù hợp

Hình 3.3.2.a: Kết quả khi chia mẫu dữ liệu với K-fold với k=20

Hình 3.3.2.b: <sup>Kết quả khi lấy ngẫu nhiên mẫu dữ liệu với sự lặp lại là 20 và kích </sup>thước 66%

<b>DANH MỤC HÌNH ẢNH</b>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Hình 3.3.2.c: <sup>Kết quả khi lấy ngẫu nhiên mẫu dữ liệu với sự lặp lại là 10 và kích </sup>thước 50%

Hình 3.3.2.d: Kết quả ma trận nhầm lẫn của phương pháp Decision TreeHình 3.3.2.e: Kết quả ma trận nhầm lẫn của phương pháp Logistic RegressionHình 3.3.2.f: Kết quả ma trận nhầm lẫn của phương pháp SVM

Hình 3.4.1.a: Trích 10% dữ liệu từ bộ dữ liệuHình 3.4.1.b: Nạp dữ liệu và skip biến Card TypeHình 3.4.1.c: Thiết lập mẫu 10% từ bộ dữ liệu

Hình 3.4.1.d: Bảng dữ liệu sau khi trích 10% bộ dữ liệuHình 3.4.2.a: Mơ hình dự báo

Hình 3.4.2.b: Kết quả dự báo từ phương pháp Decision TreeHình 3.4.2.c: Bảng kết quả dự báo

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Nói đến thẻ tín dụng, sử phổ biến ở Mỹ-một trong những thị trường lớn nhất trên toàn thếgiới, dường như đã lên đến đỉnh điểm. Theo dữ liệu được công bố bởi TransUnion, một cơngty về thơng tin tín dụng, việc sử dụng thẻ tín dụng (credit card) và thẻ ghi nợ (debit card)đang ở mức cao lịch sử ở Mỹ, nơi có gần 70% người tiêu dùng sử dụng thẻ thanh toán. Tuynhiên, số liệu trên đây chỉ cho thấy một nửa câu chuyện mà để dự báo đúng về tương lai củathẻ tín dụng, chúng ta phải để ý tới các thị trường mới nổi khác ở phương Đông như Ấn Độ,Trung Quốc cũng như thị trường các quốc gia khu vực Đông Nam Á.

Tại các thị trường Châu Á lớn như Ấn Độ và Trung Quốc, câu chuyện tương tự cũng diễn ra khi tỷ lệ thẻ tín dụng bình quân đầu người ở Ấn Độ chỉ ở mức 2% trong khi Trung Quốc đạt tỷ lệ cao hơn ở mức khoảng 25%. Những con số này vẫn thấp hơn so với các thị trường phát triển như Nhật Bản và Vương quốc Anh, nơi có hơn 60% người tiêu dùng sử dụng thẻ và ở Mỹ, con số đó xấp xỉ gần 70%.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>Chương I : Tổng Quan Data Science1.1. Data Science là gì?</b>

Data Science, hay cịn gọi là khoa học dữ liệu có sự kết hợp của nhiều lĩnh vực khác nhau như tốn học, trí tuệ nhân tạo, kỹ thuật máy tính và thống kê để phân tích khối lượng lớn dữ liệu nhằm phân tích, khai thác những thơng tin có chiều sâu, ý nghĩa đốivới hoạt động kinh doanh, từ đó giúp đỡ các tổ chức giảm thiểu chi phí, gia tăng năng suất làm việc, nắm bắt được cơ hội, nhìn nhận rủi ro trên thị trường và làm gia tăng thêm lợi thế cạnh tranh của doanh nghiệp.

<i>Khoa học dữ liệu bao gồm 3 thành phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu và chuyển kết quả phân tích thành giá trị của hành động.</i>

<b>1.2. Vai trò của Data Science</b>

Các nhà phân tích khoa học dữ liệu sẽ tổng hợp nghiên cứu các dữ liệu đã được sắp xếp và tập trung phân tích kỹ vấn đề để trích xuất thông tin thông qua các phương pháp thống kê khác nhau. Những nhà khoa học trên áp dụng các phương pháp trực quan hóa, thống kê để mơ tả để đưa ra các thông tin giả thuyết.

Tiếp đến, nhà phân tích khoa học dữ liệu sẽ tiến hành thuật toán Machine learning để đoán các sự kiện xảy ra trong tương lai, tổng hợp lại và đưa ra quyết định dựa trên cácdata đó. Họ sẽ triển khai các mảng lớn cơng cụ và thực tiễn tìm ra các mẫu dư thừa, không liên quan trong dữ liệu. Các công cụ này bao gồm SQL, Hadoop, Weka, R và Python.

Thường họ có vai trị như nhà tư vấn trong cơng ty hay tập đồn, tham gia vào các quá trình đưa ra quyết định khác nhau và tìm hiểu phát minh những chiến lược phù hợp. Nhờ có vốn hiểu biết từ data, những nhà khoa học giúp các nhà kinh doanh đưa ra quyết định sáng suốt hơn .

Ví dụ như các cơng ty cơng nghệ lớn: Instagram, Twitter,… khoa học dữ liệu là công cụ hữu ích để phát triển, nâng cấp hệ thống các đề xuất các thơng tin hữu ích cho người sử dụng. Hay như, các cơng ty tài chính khác nhau sử dụng các phương pháp phân tích dựa vào data để dự đoán sự tăng hay giảm giá cổ phiếu, trái phiếu,…

<i>Tóm lại, khoa học dữ liệu có vai trò lớn trong việc hỗ trợ xây dựng lên một hệ thống </i>

thông minh hơn, hiện đại, hiệu quả hơn, giúp đưa ra các quyết định dựa trên các dữ liệu lịch sử.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>1.3. Ứng dụng của Data Science trong tài chính – ngân hàng</b>

Có 6 ứng dụng chính:

<i>o Hệ thống phịng chống gian lận: Áp dụng Data science, chúng ta khai thác </i>

được triệt để sức mạnh của Machine Learning và dự đốn phân tích, tạo ra cơng cụ được phân theo nhóm, từng cụm dữ liệu để có thể phát hiện và theo kịp các xu hướng hiện thời. Có thể nói, thuật tốn phân cụm như K-Means, SVM (Support Vector Machine) cực kì hữu ích trong cơng cuộc gây dựng nền tảng nhằm phát hiện, ngăn chạn sự bất hợp lý, khơng bình thường của các hoạtđộng giao dịch.

<i>o Phân khúc thị trường: là phân ra những nhóm khách hàng mà họ có cùng </i>

những tính cách nhất định và các hành vi thông thường. Để hỗ trợ định vị cũngnhư khoanh vùng chính xác hơn nhóm khách hàng này, Machine Learning là công cụ tối ưu hơn bao giờ hết. Việc phân loại nhóm khách hàng giúp cho ngân hàng: xác định khách hàng dựa trên lợi nhuận của họ, xây dựng mối quanhệ và tạo sự kết nối hơn với người sử dụng, cung cấp đồng thời cải thiện những dịch vụ phù hợp.

<i>o Mơ hình rủi ro: mơ hình này hỗ trợ các cơng ty hay tập đồn trong việc tạo ra </i>

và phát triển các chiến lược phù hợp dễ dàng hơn để có thể đánh giá đúng về hiệu quả và năng suất lao động. Có thể nói, đây được coi là một mơ hình vượt trội mà các công ty hoạt động trong lĩnh vực ngân hàng đặt lên hàng đầu. Với sự hỗ trợ đắc lực của khoa học dữ liệu trong mơ hình rủi ro, ngân hàng có thể phân tích, lọc ra những thành phần khơng có năng lực chi trả nhằm phịng ngừ trường hợp xấu nhất có thể xảy ra.

<i>o Giá trị vòng đời khách hàng: đây là một trong những yếu tố mang lại giá trị rất</i>

lớn cho doanh thu của cơng ty trong tương lai bằng cách dự đốn và xác định vịng đời khách hàng đóng góp vào giá trị chiết khấu. Ai sẽ là người ở lại sau một quá trình giao dịch nhất định và tương lai họ sẽ đóng góp ra saovào doanhthu là những câu hỏi lớn cần được chú ý, quan tâm. Chính khoa học dữ liệu sẽ là câu trả lời hiệu quả cho nhưng vấn đề phức tạp trên. Ngân hàng có thể áp dụng để sàng lọc, nhìn nhận và phân ra những khách hàng mang lại nhiều giá trị to lớn trong thực tiễn bằng cách phân tích dự đốn trong data science.

<i>o Phân tích dự đốn theo thời gian thực: đây là một quá trình sử dụng các kỹ </i>

thuật tốn học để dự đốn những tình huống mà tương lai có khả năng xảy ra, trong đó cơng cụ đóng góp vai trị to lớn chủ yếu trong q trình này là Machine Learning. Sự khơng ngừng phát triển của dữ liệu đã lan rộng đồng thời kèm theo sự đa dạng hơn trong khâu xử lý và phương thức phân tích.

<i>o Hệ thống gợi ý: Nhằm tăng sức hút và quan tâm từ phía khách hàng vào những</i>

sản phẩm và dịch vụ ngân hàng đề xuất, có 2 loại hệ thống được đề áp dụn rộng rãi: là User-Based Collaborative Filtering và Item-Based Collaborative Filtering.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>Chương II: Giới Thiệu Đề Tài 2.1. Đặt vấn đề</b>

Từ ngày ngân hàng đầu tiên trên thế giới được thành lập đến nay, ngành ngân hàng đãphát triển không ngừng và trở thành một trong những công cụ quan trọng trong việcđiều tiết cung tiền quốc gia, trở thành định chế tài chính quan trọng, cung ứng nhữngdịch vụ thanh toán giao dịch,…Tuy nhiên, một trong những hoạt động cốt lõi củangân hàng vẫn luôn là huy động vốn và cho vay. Nắm bắt những tiến bộ của cơngnghệ, các hình thức cho vay dần dễ tiếp cận với cá nhân hơn, không cần giấy tờ quáphức tạp và thậm chí có thể làm thủ tục vay tại nhà. Nổi bật trong những hình thứcvay nhanh chóng, tiện lợi và phù hợp với cá nhân là sử dụng thẻ tín dụng (creditcard).

<i>Thẻ tín dụng là loại thẻ được cấp bởi các đơn vị tài chính hoặc tổ chức tín dụng, chophép chủ thẻ thực hiện giao dịch với hạn mức tín dụng nhất định [1]. Hay nói cách</i>

khác, khi khơng có sẵn tiền thì chủ thẻ tín dụng vẫn có thể chi tiêu và thanh tốn lạicho ngân hàng sau. Tuy nhiên, đối với khách hàng là cá nhân thì cần 2 điều kiện quantrọng để được cấp thẻ tín dụng là phải có thu nhập tài chính ổn định để đảm bảo khảnăng thanh tốn và điểm tín dụng tốt thơng qua các giao dịch đúng hạn, đặc biệtkhơng nằm trong các nhóm nợ xấu tín dụng của ngân hàng (khơng thuộc 5 nhóm nợxấu theo quy định). Điểm tín dụng và thu nhập cá nhân càng vững vàng thì hạn mứcchi tiêu càng nhiều. Từ đây chúng ta có thể thấy cá nhân với nguồn thu nhập ổn địnhhồn tồn có thể tận dụng tối đa giá trị mà thẻ tín dụng mang lại từ thanh tốn chậmđến trả góp thiết bị điện tử hay căn hộ chung cư. Thẻ tín dụng giúp cải thiện phúc lợicủa cá nhân bằng cách cho phép người sở hữu thẻ rút ngắn thời gian cần thiết để sở

<i>hữu thứ gì đó. Thống kê của Napas tại các điểm giao dịch cho thấy, trong 5 năm trởlại đây, tốc độ tăng trưởng của số lượng giao dịch chi tiêu qua thẻ đạt 45% và giá trịgiao dịch đạt 40%. Nếu xét trên trực tuyến (online), con số này là 87% về số lượnggiao dịch và 107% về giá trị giao dịch [2].</i>

Theo nghiên cứu của Business Insider India và các dữ liệu của RBI (Ngân hàng Dữtrữ Ấn Độ) thì mỗi lần phát hành thẻ mới thì trong 100 thẻ ghi nợ mới có một thẻ tíndụng nhưng người dùng thẻ tín dụng online gấp 40 lần người dùng thẻ ghi nợ. Đây làđiểm vô cùng thú vị và cũng phần nào nói lên lý do nhóm chọn Ấn Độ cho lần nghiêncứu lần này. Ấn Độ là một nước vô cùng rộng lớn, gồm nhiều tầng lớp nên sẽ cho rasố liệu khách quan nhất về thẻ tín dụng đồng thời qua đó cho thấy với cách biệt về tàichính thì cách sử dụng thẻ tín dụng ở đất nước này sẽ như thế nào. Bên cạnh đó, vàotháng 8 năm 2022 thì RBI đã thắt chặt những luật lệ khi sử dụng thẻ tín dụng nhằmđảm bảo tăng trưởng nhưng nằm trong sự kiểm soát của RBI và thơng qua đó có thểbảo vệ người vay. RBI tích cực theo đuổi các biện pháp phịng chống gian lận và vi

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

phạm quyền riêng tư dữ liệu là một tín hiệu cho thấy đất nước này đang thúc đẩy cáchoạt động tín dụng mạnh mẽ hơn bao giờ hết và vì vậy những nghiên cứu về hành visử dụng thẻ tín dụng ở đất nước này là cơ sở để nhìn nhận những tiềm năng và hạnchế thẻ tín dụng ở nước ta.

<b>2.2. Mục tiêu nghiên cứu</b>

<b>Bài nghiên cứu nhằm tập trung những mục tiêu được đề cập dưới đây:</b>

 <i>Phân tích xu hướng và sở thích của người tiêu dùng bằng cách xem xét loại </i>

hàng hoá mà mọi người mua dựa trên giới tính và thành phố của họ.

 <i><b>Ngồi ra thơng qua đó có thể phát hiện những hành vi gian lận thẻ tín dụng tiềm ẩn hoặc các hoạt động gây hại khác thơng qua phân tích các thay đổi </b></i>

trong thói quen chi tiêu hoặc mua hàng bất thường.

 <i>Cuối cùng có thể dự đốn các mơ hình chi tiêu cho các chiến dịch quảng cáo, </i>

chẳng hạn như trong các lễ hội hoặc ngày lễ, để nhắm tới các phân khúc kháchhàng theo thành phố tốt hơn dựa trên thói quen chi tiêu.

 <i>Cung cấp cái nhìn tổng qt về thói quen chi tiêu qua thẻ tín dụng của người </i>

dân Ấn Độ, từ đó đưa ra nhận xét đánh giá dựa trên dữ liệu đã phân tích.

<b>2.3. Đối tượng nghiên cứu và phạm vi nghiên cứu</b>

<i>2.1.1. Đối tượng nghiên cứu</i>

Đối tượng nghiên cứu là loại thẻ tín dụng bao gồm Vàng, Bạc, Bạch Kim.

<b>2.4. Phương pháp nghiên cứu</b>

Nhóm sử dụng phần mềm Orange để thực hiện xử lý dữ liệu, phân cụm, phân lớp dữliệu rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp

<i><b>Đối với việc phân cụm bộ dữ liệu, nhóm sử dụng hai phương pháp:</b></i>

 <b>Phương pháp Hierarchical clustering nhóm tiến hành tính khoảng cách giữa</b>

các phần từ bằng Distance rồi quan sát dữ liệu được phân cụm và quan sát trênSillhouette Plot

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

 <b>Phương pháp K-means nhóm quan sát chỉ số Sillhouette trung bình khi phân</b>

dữ liệu thành cụm, chọn số cụm có chỉ số Sillhouette tốt, tương thích với sốlượng biến có sẵn trên bộ dữ liệu và quan sát trên Sillhouette Plot.

Sau khi thực hiện phân cụm, nhóm chọn phương pháp tốt nhất để phân cụm cho bộ dữliệu.

<i><b>Đối với việc phân lớp dữ liệu, nhóm chọn biến mục tiêu, tiến hành phân lớp trên 3</b></i>

<b>phương pháp là Cây quyết định (Decision Tree), SVM (Support Vector Machine),</b>

<b>Hồi quy Logistic Regression). Sử dụng Test and Score, quan sát chỉ số AUC của</b>

<b>từng phương pháp và cuối cùng quan sát trên Ma trận nhầm lẫn để đưa ra kết luận</b>

<b>2.5. Mô tả và Thuộc tính dữ liệu</b>

o Card type là loại thẻ tín dụng bao gồm Bạc (Silver), Gold (Vàng), Platinum(Bạch Kim); được định dạng là biến định tính.

o Exp Type là các loại chi phí liên quan đến giao dịch gồm Food (Đồ ăn), Fuel(Nhiên liệu), Bills (Hố đơn), Entertainment (Giải trí), Grocery (Đồ dùng sinhhoạt); được định dạng là định tính.

o Gender là giới tính; được định dạng là biến định tính.o Date là ngày thực hiện giao dịch

o City là các thành phố của Ấn Độ; được định dạng là biến định tính

o Amount là số lượng giao dịch diễn ra trong một ngày; được định dạng là biếnđịnh lượng

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<i>Hình 3.1.1.a: Type và Role của các thuộc tính</i>

<i>Hình 3.1.1.b: Role của các thuộc tính sau khi xử lí</i>

<b>Chương III: Phân Tích Đề Tài Qua Các Thuật Tốn Trên Orange</b>

<b>3.1. Tiền xử lí dữ liệu</b>

<b>Để mở file dữ liệu ta tiến hành nạp dữ liệu “credit card transactions India” vào File </b>

<i>3.1.1. Chọn “Role” cho các thuộc tính</i>

Từ bộ dữ liệu “credit card transactions India”, ta chọn ra 500 mẫu random làm dữ liệu ban đầu, ta có Type và Role của 7 thuộc tính như sau:

Với mục đích dự báo cho biến đầu ra là Card Type, ta thực hiện chuyển “Role” của thuộc tính Card Type thì Feature thành Target. Đồng thời Skip biến Index vì biến này khơng quan trọng trong việc dự báo cho biến đầu ra.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<i>Hình 3.1.2.a: Mơ hình quan sát dữ liệu </i>

<i>Hình 3.1.2.b: Bảng biểu dữ liệu3.1.2. Xử lí “Missing Values” trong bộ dữ liệu</i>

<b>Ta thực hiện kiểm tra % missing data bằng việc quan sát dữ liệu qua Data Table từ bộ dữ liệu đã chọn. Để quan sát dữ liệu bảng biểu, ta nối File widget vào Data </b>

<b>table widget. Khi double-click vào ta sẽ quan sát được dữ liệu.</b>

Sau khi quan sát, ta thấy file dữ liệu này khơng có missing data, nên ta khơng cần phải thực hiện tiền xử lí dữ liệu thiếu.

<i><b>3.2. Phân cụm dữ liệu </b></i>

Các phương pháp phân cụm dữ liệu:

o Dựa trên phân cấp - Hierarchical approach: Phân cấp các đối tượng dựa trên một số tiêu chí: Diana, Agnes, BIRCH, CAMELEON…

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<i>Hình 3.2.1: Mơ hình so sánh các thuật toán phân cụm</i>

o Dựa trên phân hoạch - Partitioning approach: Xây dựng các phân hoạch khác nhau và đánh giá. Sau đó, tìm cách tối thiểu hố tổng bình phương độ lỗi: K-means, K-medoids, fuzzy C-means…

o Dựa trên mật độ - Density-based approach: Dựa trên các kết nối giữa các đối tượng và hàm mật độ: DBSCAN, OPTICS, DenClue,…

o Dựa trên cấu trúc độ chi tiết nhiều cấp: STING, WaveCluster, CLIQUE,…o Dựa trên mơ hình - Model-based: Giả định mỗi cụm có một mơ hình và tìm

cách fit mơ hình đó vào mỗi cụm: EM, SOM, COBWEB,…

<b>Dựa trên cấu trúc độ chi tiết nhiều cấp: Dựa trên phân hoạch</b>

<b>Dựa trên cấu trúc độ chi tiết nhiều cấp Dựa trên phân hoạch </b>

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<i>3.2.2. Đánh giá các mơ hình</i>

Để kiểm tra tính đúng đắn và lựa chọn mơ hình phù hợp, ta tiến hành đánh giá cácphương pháp:

<b>A. Phương pháp Hierarchical Clustering</b>

<b>Ý tưởng khi dùng Hierarchical Clustering ( Phân cụm phân cấp): Ban đầu mỗi</b>

điểm (đối tượng) là một cụm riêng biệt. Thuật toán phân cụm phân cấp sẽ tạo ra các cụm lớn hơn bằng các sát nhập các cụm nhỏ hơn gần nhau nhất tại mỗi vòng lặp.

<b>Dùng Distances widget và chọn Euchidean để xác định khoảng cách “đường thẳng” giữa cặp điểm dữ liệu, sau đó nối với Hierarchical Clustering widget để </b>

tiến hành phân cụm phân lớp.

<i>Hình 3.2.2.a: Các bước phân cụm bằng phương pháp Hierarchical Clustering</i>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<i>Hình 3.2.2.c: Bảng Silhouette Plot cho 2 phân cụm phân cấp bằng Average-linkage</i>

Ta sử dụng phương pháp tính khoảng cách trung bình cho liên kết giữa các đối tượng

<b>Average-likage. Sau khi chạy dữ liệu bằng thuật toán Hierarchical Clustering, ta </b>

thấy nên chia toàn bộ mẫu trong bộ dữ liệu thành 2 phân cụm với số dữ liệu mỗi cụm tương đương nhau là hợp lí nhất (C1 gồm 235 dữ liệu và C2 gồm 265 dữ liệu).

<i>Hình 3.2.2.b: Kết quả phân cụm bằng Average-linkage</i>

</div>

×