KHAI PHÁ DỮ LIỆU VỚI CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI KHÁCH HÀNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 43 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

UBND TỈNH QUẢNG NAM

<b>TRƯỜNG ĐẠI HỌC QUẢNG NAM KHOA CÔNG NGHỆ THÔNG TIN </b>

<b>------VILAIVANH KEOPANYA</b>

<b>KHAI PHÁ DỮ LIỆU VỚI CÂY QUYẾT ĐỊNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI KHÁCH HÀNG</b>

<i><b>KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC </b></i>

<i><b>Quảng Nam, tháng 05 năm 2017 </b></i>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

UBND TỈNH QUẢNG NAM

<b>TRƯỜNG ĐẠI HỌC QUẢNG NAM KHOA CƠNG NGHỆ THƠNG TIN </b>

<b>------KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC</b>

<i><b>Tên đề tài: KHAI PHÁ DỮ LIỆU VỚI CÂY QUYẾT ĐỊNH </b></i>

<i><b>VÀ ỨNG DỤNG TRONG PHÂN LOẠI KHÁCH HÀNG </b></i>

Sinh viên thực hiện

<b>VILAIVANH KEOPANYA</b>

MSSV: 2113011014

<b>CHUYÊN NGÀNH: CÔNG NGHỆ THƠNG TIN </b>

KHĨA 2013 – 2017 Cán bộ hướng dẫn

<i><b>ThS. LÊ THỊ NGUYÊN AN </b></i>

<i><b>Quảng Nam, tháng 05 năm 2017 </b></i>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>LỜI CẢM ƠN </b>

Trước tiên em xin được gửi lời cảm ơn chân thành tới các thầy cô giáo trong khoa Công nghệ thông tin - Trường đại học Quảng Nam đã tận tình giúp đỡ và giảng dạy cho chúng em trong những năm học vừa qua.

Đặc biệt, em xin gửi lời cảm ơn chân thành nhất tới cô giáo Th.S Lê Thị Nguyên An cùng các thầy cô giáo trong tổ bộ môn Khai phá dữ liệu đã tận tình hướng dẫn, giúp đỡ em hồn thành đề tài nghiên cứu khoa học này.

Trong thời gian vừa qua mặc dù em đã cố gắng rất nhiều để hồn thành tốt khóa luận của mình. Song chắc chắn kết quả nghiên cứu sẽ khơng tránh khỏi những thiếu sót, vì vậy em kính mong nhận được sự chỉ bảo và góp ý của quý thầy cô và các bạn.

Em xin chân thành cảm ơn!

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

MỤC LỤC

PHẦN 1. LỜI MỞ ĐẦU ... 1

1. Lý do chọn đề tài ... 1

2. Mục tiêu nghiên cứu ... 1

3. Đối tượng và phạm vi nghiên cứu ... 1

4. Phương pháp nghiên cứu ... 1

TỔNG QUAN VỀ KHAI PHÁ DỮ DIỆU ... 3

1.1. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU ... 3

1.1.1. Khám phá tri thức và khai phá dữ liệu ... 3

1.1.2. Tại sao phải khai phá dữ liệu ... 3

1.1.3. Quá trình khám phá tri thức ... 4

1.1.4. Trình tự thực hiện trong quá trình khai phá dữ liệu ... 6

1.1.5. Chức năng của hệ thống khai phá dữ liệu (Data Mining Functions) ... 8

1.1.6. Các kỹ thuật khai phá dữ liệu ... 8

1.2. MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU HIỆN ĐẠI ... 10

1.2.1. Phương pháp hồi quy (Regression) ... 10

1.2.2. Phương pháp mẫu tuần tự (Sequential Pattern mining) ... 11

1.3. MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG DỤNG ... 11

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

1.4.3. Phát hiện gian lận ... 12

1.4.4. Quản trị quan hệ khác hhàng ... 12

CHƯƠNG 2 ... 13

ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG QUY TRÌNH TÍN DỤNG ... 13

2.1. CÂY QUYẾTĐỊNH ( DECISION TREE) ... 13

2.1.1. Cây quyết định làgì? ... 13

2.1.2 Một số vấn đề trong khai phá dữ liệu bằng cây quyết định ... 14

2.1.3 Ưu nhược điểm của cây quyết định trong khai phá dữ liệu ... 15

2.2. SỬ DỤNG CÂY QUYẾT ĐỊNH (DT) ĐỂ PHÂN LOẠI KHÁCH HÀNG 18 2.2.1 Tổng quan về thuật toán cây quyết định ... 18

2.2.2. Thiết kế cây quyết định ... 18

2.2.3 Các bước tổng quát để xây dựng cây quyết định ... 19

2.2.4 Nghiên cứu cây quyết định trong khai phá dữ liệu ... 20

2.3.THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH DỰA VÀO ENTROPY ... 21

2.3.1. Giới thiệu Entropy ... 21

2.3.2 Tiêu chí chọn thuộc tính phân lớp ... 22

2.3.3 Thuật toánID3 ... 23

CHƯƠNG 3 ... 30

XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM VÀ ĐÁNH GIÁ ... 30

3.1.Tóm lược lý thuyết về phân lớp (Classification) ... 30

3.2. Thực hiện bài toán phân lớp với Weka ... 30

PHẦN 3. KẾT LUẬN ... 36

PHẦN 4. TÀI LIỆU THAM KHẢO ... 37

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Hình 2.5. Cây sau khi chọn thuộc tính Độ ẩm (ID3) ... 26

Hình 2.6. Cây sau khi chọn thuộc tính Quang cảnh (ID3) ... 28

Hình 2.8. Cây kết quả (ID3) ... 29

Hình 3.1.Giao diện Weka ... 31

Hình 3.2.Bảng dữ liệu thời tiết ... 31

Hình 3.3. Nạp dữ liệu ... 31

Hình 3.4. Giao diện Tap classify ... 32

Hình 3.5. Chạy thuật tốn J48 ... 32

Hình 3.6. Chọn cây quyết định ... 33

Hình 3.7. Cây quyết định ... 33

<b>Hinh 3.9. Cây quyết định ... 35 </b>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>PHẦN 1. LỜI MỞ ĐẦU </b>

Lĩnh vực kinh doanh trên thế giới đã trải qua một sự thay đổi to lớn trong các cách thức kinh doanh,lĩnh vực kinh doanh đã bắt đầu nhận ra sự cần thiết của các kỹ thuật như khai phá dữ liệu, các kỹ thuật đó có thể giúp họ cạnh tranh trên thị trường. Họ đã và đang sử dụng các công cụ khai phá dữ liệu (DM: Data Mining) cho việc phân khúc khách hàng và lợi nhuận, chấm điểm tính dụng, duyệt quảng bá và bán sản phẩm, phát hiện các giao dịch gian lận, vv…

Có nhiều phương pháp phân lớp được đề xuất, tuy nhiên khơng có phương pháp tiếp cận phân loại nào là tối ưu và chính xác hơn hẳn những phương pháp khác. Dù sao với mỗi phương pháp có một lợi thế và bất lợi riêng khi sử dụng. Một trong những công cụ khai phá tri thức hiệu quả hiện nay là sử dụng cây quyết định để tìm ra các luật phân lớp. Với mong muốn nghiên cứu về việc ứng dụng cây quyết định để phân loại khách hàng tôi đã chọn đề tài “Khai phá dữ liệu với cây quyết định và ứng dụng trong phân loại khách hàng” làm báo cáo tốt nghiệp.

<b>2. Mục tiêu nghiên cứu </b>

Nghiên cứu các vấn đề cơ bản của thuật toán xây dựng cây quyết định ID3, cài đặt và đánh giá thuật toán, bước đầu áp dụng mơ hình cây quyết định (ID3: Decision Tree) đã xây dựng vào việc phân loại khách hàng.

<b>3. Đối tượng và phạm vi nghiên cứu </b>

- Tìm hiểu thuật toán khai phá dữ liệu ID3 để phân loại khách hàng - Cài đặt và thử nghiệm với dữ liệu thực tế với WEKA

<b>4. Phương pháp nghiên cứu </b>

- Phương pháp nghiên cứu tài liệu: Phân tích và tổng hợp các tài liệu về khai phá dữ liệu sử dụng thuật toán về Decision Tree có thuật tốn ID3, phân loại dữ liệu, mơ hình dự báo.

- Phương pháp thực nghiệm: Ứng dụng kết hợp kỹ thuật phân loại và mơ hình cây quyết định để phân loại khách hàng.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>5. Lịch sử nghiên cứu </b>

- Nội dung đã được dạy và học ở học phần Khai phá dữ liệu

Có nhiều người cũng như các nhóm nghiên cứu đã chọn kiến thức này làm nội dung cho đề tài nghiên cứu của họ

<small>- </small>Cung cấp kiến thức đầy đủ hơn, chi tiết hơn về cây quyết định

- Mở đầu - Nội dung

Chương 1: Tổng quan về khai phá dữ liệu

Nghiên cứu, tìm hiểu tổng quan, trích chọn và trình bày một số khái niệm cơ bản về khai phá dữ liệu.

Chương 2: Một số thuật toán xây dựng cây quyết định Chương 3: Xây dựng chương trình thử nghiệm và đánh giá

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>PHẦN 2. NỘI DUNG CHƯƠNG 1 </b>

<b>TỔNG QUAN VỀ KHAI PHÁ DỮ DIỆU </b>

<b>1.1. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU 1.1.1. Khám phá tri thức và khai phá dữ liệu </b>

Khai phá tri thức (Knowledge Discovery) trong các cơ sở dữ liệu. Kho dữ liệu là một quy trình gồm nhiều cơng đoạn để nhận biết các mẫu hoặc các mơ hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích và có thể hiểu được. Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá qui tắc cải thiện những quyết định trong tương lai.

Khai phá dữ liệu như là một quá trình phân tích được thiết kế thăm dị một lượng lực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp hợp thức hóa các kết quả tìm được bằng các áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu. Mục đích của khai phá dữ liệu là.

 Rút trích thơng tin hữu ích, chưa biết, các mẫu hoặc các mơ hình tiềm ẩn trong khối dữ liệu lớn dưới dạng các quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu.

 Phân tích dữ liệu bán tự động.

 Giải thích các tập dữ liệu lớn.

Khai phá dữ liệu là một bước trong quy trình khám phá tri thức để hỗ trợ ra quyết định, dự báo và khái quát dữ liệu.

Ước tính cứ mỗi năm lượng thông tin trên thế giới lại tăng lên khoảng 2 lần. Chính vì vậy, hiện nay dữ liệu mà con người thu thập và lưu trữ trong các kho dữ liệu là vô cùng lớn, thậm chí lớn đến mức vượt quá khả năng kiểm soát,… Cũng bởi lý do này các nhà khoa học đã đề cập đến việc tổ chức lại dữ liệu sao cho hiệu quả, đáp ứng được yêu cầu chất lượng ngày càng cao nhằm hỗ trợ những nhà quản lý ra quyết định trong các tổ chức quản lý tài chính, thương mại, khoa học,...

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Với lượng dữ liệu tăng nhanh hàng năm, rõ ràng áp dụng các phương pháp thủ cơng truyền thống để phân tích dữ liệu sẽ không hiệu quả, tốn kém và dễ dẫn đến những sai lệch. Do đó, để có thể sử dụng hiệu quả hơn nữa các cơ sở dữ liệu lớn thì nhất thiết cần phải có những kỹ thuật mới và kỹ thuật khai phá dữ liệu đã được các nhà khoa học đề cập tới.

Khai phá dữ liệu là một lĩnh vực khoa học nhằm tự động hóa khai thác những thông tin, tri thức hữu ích, tiềm ẩn trong các CSDL cho các tổ chức, doanh nghiệp,... Các kết quả nghiên cứu cùng với những ứng dụng thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu thế hơn hẳn so với các cơng cụ phân tích dữ liệu truyền thống. Hiện nay, khai phá dữ liệu được ứng dụng rộng rãi trong các lĩnh vực như: phân tích dữ liệu hỗ trợ ra quyết định, điều trị y học, tin- sinh học, thương mại, tài chính, bảo hiểm, text mining, web mining,...

<b>1.1.3. Quá trình khám phá tri thức </b>

Quá trình khám phá tri thức được tiến hành qua 5 bước sau:

Hình 1.1: Quá trình khám phá tri thức - Bước 1: Hình thành và định nghĩa bài tốn

Đây là bước tìm hiểu lĩnh vực ứng dụng và hình thành bài tốn, bước này sẽ quyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

phương pháp khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ liệu.

- Bước 2: Thu hợp và tiền xử lý dữ liệu

Trong bước này dữ liệu được thu thập ở dạng thô (nguồn dữ liệu thu thập có thể là từ các kho dữ liệu hay nguồn thông tin khác từ internet). Trong giai đoạn này dữ liệu cũng được tiền xử lý để biển đổi và cải thiện chất lượng dữ liệu cho phù hợp với phương pháp khai phá dữ liệu được chọn lựa trong bước trên.

Bước này thường chiếm nhiều thời gian nhất trong quá trình khám phá tri thức.

Các giải thuật tiền xử lý dữ liệu bao gồm:

a. Xử lý dữ liệu bị mất/thiếu: các dạng dữ liệu bị thiếu sẽ được thay thế bởi các giá trị thích hợp.

b. Khử sự trùng lặp: các đối tượng dữ liệu trùng lặp sẽ bị loại bỏ đi.

c. Giảm nhiễu: nhiễu và các đối tượng tách rời khỏi phân bố chung sẽ bị loại đi khỏi dữ liệu.

d. Chuẩn hóa: miền giá trị của dữ liệu sẽ được chuẩn hóa.

e. Rời rạc hóa: các dạng dữ liệu số sẽ được biến đổi ra các giá trị rời rạc. f. Rút trích và xây dựng đặc trưng mới từ các thuộc tính đã có.

g. Giảm chiều: các thuộc tính chứa ít thơng tin sẽ được loại bỏ bớt. - Bước 3: Khai phá dữ liệu và rút ra tri thức

Đây là bước quan trọng nhất trong tiến trình khám phá tri thức. Kết quả của bước này là trích ra được các mẫu và (hoặc) các mơ hình ẩn dưới các dữ liệu. Một mơ hình có thể là một biểu diễn cấu trúc một thành phần của hệ thống hay cả hệ thống trong cơ sở dữ liệu hay miêu tả các dữ liệu được nảy sinh. Còn một mẫu là một cấu trúc cục bộ có liên quan đến vài biến và vài trường hợp trong cơ sở dữ liệu.

- Bước 4: Phân tích và kiểm định kết quả

Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm sáng tỏ các mơ tả và dự đốn. Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù hợp với lĩnh vực ứng dụng và dễ hiểu hơn trong người dùng.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

- Bước 5: Sử dụng các tri thức phát hiện được

Trong bước này, các tri thức khám phá sẽ được củng cố, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức đó. Các mơ hình rút ra được đưa vào những hệ thống thông tin thực tế dưới dạng các module hỗ trợ việc đưa ra quyết định.

Các giai đoạn của q trình khám phá tri thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống. Các kỹ thuật được sử dụng trong giai đoạn trước có thể ảnh hưởng đến hiệu quả của các giải thuật được sử dụng các giai đoạn tiếp theo. Các bước của quá trình khám phá tri thức có thể được lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện.

Ví dụ: Để quyết định có cho khách hàng vay tiền không? Và vay bao nhiêu? Vay trong thời gian bao lâu thì các ngân hàng thường tiến hành như sau:

- Bước 2: Thu thập xử lý dữ liệu của các năm trước như: ai vay, vay bao

<i>nhiêu, những thông tin nào liên quan. </i>

- Bước 3: Từ bước 2 rút ra kết quả sẽ cho ai vay, vay bao nhiêu, vay bao

- Bước 4: Xem kết quả dự đoán bài toán cho vay của ngân hàng có đúng

<i>khơng. </i>

<i>- Bước 5: Củng cố, kết luận cho bài toán từ lý thuyết đến thực tế. </i>

<b>1.1.4. Trình tự thực hiện trong quá trình khai phá dữ liệu </b>

Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức. Thuật ngữ khai phá dữ liệu còn được một số mà khoa học gọi là phát hiện tri thức trong cơ sở dữ liệu (Knowledge discovery in database) (theo Fayyad Smyth và Piatestky-Shapiro 1989). Quá trình này gồm có 6 bước:

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Hình 1.2 : Quá trình khai phá dữ liệu

Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra. Nội dung của quá trình như sau:

- Gom (thu thập) dữ liệu(gatherin)

Tập hợp dữ liệu là bước đầu tiên trong khai phá dữ liệu. Bước này lấy dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thậm chí dữ liệu từ những nguồn cung ứng web.

- Trích lọc dữ liệu(selection)

Ở giai đoạn này dữ liệu được lựa chọn và phân chia theo một số tiêu chuẩn nào đó.

- Làm sạch và tiền xử lý dữ liệu (cleansingpreprocessing)

Giai đoạn thứ ba này là giai đoạn thường bị bỏ quên, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là dữ liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ, vơ nghĩa (ví dụ như: con người có chiều cao = 4 mét điều này là vô lý), do vậy ở giai đoạn thứ ba này nhằm xử lý các dữ liệu như trên (dữ liệu vô nghĩa, dữ liệu khơng có khả năng kết nối). Những dữ liệu dạng này thường được xem là thông tin dư thừa, khơng có giá trị. Bởi vậy đây là một quá trình rất quan trọng. Nếu dữ liệu không được làm sạch - tiền xử lý - chuẩn bị trước thì sẽ tạo ra những kết quả sai lệch nghiêm trọng về sau.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

- Chuyển đổi dữ liệu(transformation)

Trong giai đoạn này, dữ liệu có thể được tổ chức và sử dụng lại. Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu.

- Phát hiện và trích chọn mẫu dữ liệu (pattern extraction anddiscovery)

Đây là bước tư duy trong khai phá dữ liệu. Ở trong giai đoạn này nhiều thuật tốn khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng để trích mẫu dữ liệu là thuật tốn phân loại dữ liệu, kết hợp dữ liệu, thuật tốn mơ hình hố dữ liệu tuần tự.

- Đánh giá kết quả mẫu (evaluation ofresult)

Đây là giai đoạn cuối cùng trong quá trình khai phá dữ liệu, ở giai đoạn này các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải mẫu dữ liệu nào cũng hữu ích, đơi khi nó cịn bị sai lệch. Vì vậy cần phải đưa ra những tiêu chuẩn đánh giá độ ưu tiên cho các mẫu dữ liệu để rút ra được những tri thức cần thiết.

<b>1.1.5. Chức năng của hệ thống khai phá dữ liệu (Data Mining Functions) </b>

Khai phá dữ liệu có hai chức năng chính là mơ tả (description) và dự đốn (prediction) trong đó:

- Chức năng khai phá dữ liệu mô tả sẽ mô tả các tính chất hoặc đặc tính chung của dữ liệu trong cơ sở dữ liệu, nghĩa là phân tích và mơ tả một tập mẫu nhằm giúp hiểu rõ hơn, sâu hơn về dữ liệu.

- Chức năng khai phá dữ liệu dự đoán sẽ thực hiện việc suy luận dựa trên dữ liệu hiện hành để cho ra các dự báo, nghĩa là phân tích tập dữ liệu huấn luyện và tạo ra một hoặc vài mơ hình cho phép dự đốn các mẫu mới chưa biết.

<b>1.1.6. Các kỹ thuật khai phá dữ liệu </b>

Trong thực tế, có nhiều kỹ thuật khác nhau được sử dụng để khai phá dữ liệu nhằm thực hiện hai mục đích chính là mơ tả và dự đốn, trong đó:

- Kỹ thuật khai phá dữ liệu nhằm thực hiện chức năng mơ tả: có nhiệm vụ mơ tả các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Một số kỹ thuật khai phá trong nhóm này là: phân cụm dữ liệu (Clustering), tổng hợp (Summarisation), trực quan hoá(Visualization),...

- Kỹ thuật khai phá dữ liệu nhằm thực hiện chức năng dự đốn: có nhiệm vụ đưa ra các dự đốn dựa vào các suy diễn trên cơ sở dữ liệu hiện thời. Một số kỹ thuật khai phá trong nhóm này là: phân lớp (Classification), hồi quy (Regression), cây quyết định (Decision tree), thống kê (statictics), mạng nơron (Neural network), luật kết hợp,...

Một số kỹ thuật khai phá dữ liệu thường được sử dụng hiện nay:

Mục tiêu của phân lớp dữ liệu đó là dự đốn nhãn lớp cho các mẫu dữ liệu. Q trình gồm hai bước: xây dựng mơ hình, sử dụng mơ hình để phân lớp dữ liệu (mỗi mẫu 1 lớp). Mơ hình được sử dụng để dự đốn nhãn lớp khi mà độ chính xác của mơ hình chấp nhận được.

Bước 1: Tìm ra tất cả các tập mục phổ biến, một tập mục phổ biến được xác định thông qua độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu.

Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thoả mãn độ hỗ trợ và độ tin cậy cực tiểu.

Phương pháp hồi quy tương tự như là phân lớp dữ liệu. Nhưng khác ở chỗ nó dùng để dự đốn các giá trị liên tục cịn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<b>e. Giải thuật di truyền </b>

Là q trình mơ phỏng theo tiến hố của tự nhiên. Ý tưởng chính của giải thuật là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá

<b>trong sinh học. </b>

<b>f. Mạng nơron </b>

Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay. Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mơ hình thần kinh trung ương của con người.

Kết quả mà mạng nơron học được có khả năng tạo ra các mơ hình dự báo, dự đốn với độ chính xác và độ tin cậy cao. Nó có khả năng phát hiện ra được các xu hướng phức tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được. Tuy nhiên, phương pháp mạng nơron rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: địi hỏi mất nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm.

<b>g. Cây quyết định </b>

Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo. Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng.

<b>1.2. MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU HIỆN ĐẠI 1.2.1. Phương pháp hồi quy (Regression) </b>

Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đốn có giá trị thực. Phân tích hồi quy sẽ xác định được định lượng quan hệ giữa các biến và biến phụ thuộc vào giá trị của những biến khác. Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau chính là ở chỗ thuộc tính để dự báo là liên tục còn phân lớp dữ liệu là dự đoán các giá trị rời rạc.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<b>1.2.2. Phương pháp mẫu tuần tự (Sequential Pattern mining) </b>

Là việc xác định những mẫu mà sự xuất hiện của chúng trong CSDL thỏa mãn ngưỡng tối thiểu. Luật tuần tự được sinh ra từ mẫu tuần tự, biểu diễn mối quan hệ giữa hai loại sự kiện này sẽ xảy ra sau loạt sự kiện kia.

<b>1.3. MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG DỤNG 1.3.1. Phân lớp(Classification) </b>

Quá trình phân lớp dữ liệu thường gồm 2 pha: Bước 1: Xây dựng mơ hình

Trong bước này, một mơ hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có. Đầu vào của q trình này là một tập dữ liệu có cấu trúc được mơ tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó. Mỗi bộ giá trị được gọi chung là một mẫu (sample). Trong tập dữ liệu này, mỗi mẫu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính quyết định. Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật dạng if-then (nếu-thì), cây quyết định, cơng thức logic hay mạng nơron.

Bước 2: Sử dụng mơ hình đã xây dựng để phân lớp dữ liệu

Trong bước này việc đầu tiên là phải làm là tính độ chính xác của mơ hình. Nếu độ chính xác là chấp nhận được mơ hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai.

<b>1.3.2. Phân cụm(Clustering) </b>

Phân cụm là việc mơ tả chung để tìm ra các tập hay các nhóm, loại mơ tả dữ liệu. Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác. Các ứng dụng khai phá dữ liệu có nhiệm vụ phân nhóm như phát hiện tập các khách hàng có phản ứng giống nhau trong CSDL tiếp thị; xác định các quang phổ từ các phương pháp đo tia hồng ngoại...

<b>1.3.3. Luật kết hợp (AssociationRules) </b>

Khai phá luật kết hợp được thực hiện qua 2 bước:

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<small>- </small>Bước 1: Tìm tất cả các tập mục phổ biến, một văn bản phổ biến được xác định quađộhỗ trợ và thỏa mãn độ hỗ trợ cực tiểu.

<small>- </small>Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãnđộ hỗ trợ cực tiểu và độ tin cậy cực tiểu.

<b>1.4. ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG LĨNH VỰC KHÁCH HÀNG </b>

<b>1.4.1. Marketing </b>

Một trong những lĩnh vực được ứng dụng rộng rãi nhất cho ngành ngân hàng của kỹ thuật khai phá dữ liệu đó là lĩnh vực quảng bá sản phẩm. Bộ phận tiếp thị và bán hàng của các Ngân hàng có thể sử dụng kỹ thuật khai phá dữ liệu để phân tích cơ sở dữ liệu về khách hàng. Kỹ thuật khai thác dữ liệu cũng giúp xác định khách hàng nào sẽ mang lại lợi nhuận và khách hàng nào không mang lại lợi nhuận.

Khai phá dữ liệu được sử dụng rộng rãi để quản lý rõ ràng được ngành công nghiệp ngân hàng. Giám đốc điều hành ngân hàng cần phải biết rằng các khách hàng mà họ đang có liệu đáng tin cậy hay không.

Một lĩnh vực khác trong khai phá dữ liệu có thể được sử dụng trong ngành công nghiệp ngân hàng là việc phát hiện gian lận. Phát hiện các hành động gian lận là một mối quan tâm ngày càng tăng cho nhiều doanh nghiệp và với sự giúp đỡ của kỹ thuật khai phá dữ liệu các hành động gian lận ngày càng được phát hiện nhiều hơn.

<b>1.4.4. Quản trị quan hệ khách hàng </b>

Trong thời đại cạnh tranh khốc liệt ngày nay nói chung, đặc biệt là trong ngành ngân hàng, khách hàng luôn luôn là nhân tố quan trọng nhất quyết định sự tồn tại và phát triển của họ. Khai phá dữ liệu rất hữu ích trong tất cả ba giai đoạn trong một chukỳ mối quan hệ khách hàng: Tìm kiếm khách hàng, tăng giá trị của khách hàng và duy trì khách hàng.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<b>CHƯƠNG 2 </b>

<b>ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG QUY TRÌNH TÍN DỤNG </b>

<b>2.1. CÂY QUYẾT ĐỊNH (DECISION TREE) </b>

Cây quyết định (Decision Tree) là một trong những giải pháp trực quan và hữu hiệu để mơ tả q trình phân lớp dữ liệu. Trên cây quyết định, chúng ta tìm được các luật, những luật này cung cấp những thơng tin hữu ích để hỗ trợ việc ra quyết định giải quyết một vấn đề nào đó.

<b>2.1.1. Cây quyết định là gì? </b>

Trong lĩnh vực học máy, cây quyết định là một kiểu mơ hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi nút trong tương ứng với một biến; Đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết

<i>định hay chỉ gọi với cái tên ngắn gọn là cây quyết định. </i>

Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mơ tả trong

Hình 2.1 : Ví dụ về cây quyết định - Trong cây quyết định

+ Gốc: Là node trên cùng của cây

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

+ Node trong: Biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật)

+ Nhánh: Biểu diễn các kết quả của kiểm tra trên node trong (mũi tên) + Node lá: Biểu diễn lớp hay sự phân phối lớp (hình trịn)

- Các kiểu cây quyết định

+ Cây hồi quy (Regression tree) ước lượng các hàm giá có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại (ví dụ: Ước tính khoảng thời gian một bệnh nhân nằm viện hoặc giá của một ngôi nhà).

+ Cây phân loại (Classification tree) nếu y là một biến phân loại như giới tính (nam hay nữ), kết quả của một kỳ thi đại học (đỗ hay trượt).

<b>2.1.2 Một số vấn đề trong khai phá dữ liệu bằng cây quyết định </b>

Các vấn đề đặc thù trong khi học hay phân lớp dữ liệu bằng cây quyết định gồm: Xác định độ sâu để phát triển cây quyết định, xử lý với những thuộc tính liên tục, chọn phép đo lựa chọn thuộc tính thích hợp, sử dụng tập dữ liệu đào tạo với những giá trị thuộc tính bị thiếu, sử dụng các thuộc tính với những chi phí khác nhau, và cải thiện hiệu năng tính tốn. Sau đây khóa luận sẽ đề cập đến những vấn đề chính đã được giải quyết trong các thuật toán phân lớp dựa trên cây quyết định.

+ Tránh “quá vừa” dữ liệu

Có thể hiểu “quá vừa” là hiện tượng cây quyết định chứa một số đặc trưng riêng của tập dữ liệu đào tạo, nếu lấy chính tập dữ liệu đào tạo để kiểm tra lại mơ hình phân lớp thì độ chính xác sẽ rất cao, trong khi đối với những dữ liệu tương lai khác nếu sử dụng cây đó lại khơng đạt được độ chính xác như vậy.

“Quá vừa” dữ liệu là một khó khăn đáng kể đối với học bằng cây quyết định và những phương pháp học khác. Đặc biệt khi số lượng ví dụ trong tập dữ liệu đào tạo q ít hay có “nhiễu” trong dữ liệu.

Có hai phương pháp tránh “quá vừa” dữ liệu trong cây quyết định:

a. Dừng phát triển cây sớm, trước khi đạt tới điểm phân lớp hoàn hảo tập dữ liệu đào tạo. Với phương pháp này, một thách thức đặt ra là phải ước lượng chính xác thời điểm dừng phát triển cây.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

b. Cho phép cây có thể “quá vừa” dữ liệu, sau đó sẽ cắt, tỉacây. Mặc dù phương pháp thứ nhất có vẻ trực tiếp hơn, nhưng với phương pháp thứ hai thì cây quyết định được sinh cho phép quá vừa và sau đó sẽ thực hiện thao tác cắt tỉa, điều này sẽ đơn giản hơn nhiều so với việc ước lượng thời điểm dừng phát triển cây. Hơn nữa việc cắt tỉa cây quyết định còn giúp tổng quát hóa và cải thiện độ chính xác của mơ hình phân lớp. Dù thực hiện phương pháp nào thì vấn đề mấu chốt ở đây là tiêu chuẩn nào được sử dụng để xác định kích thước hợp lý của cây cuối cùng.

+ Thao tác với thuộc tính liên tục

<i> Việc thao tác với thuộc tính liên tục trên cây quyết định hồn tồn khơng </i>

đơn giản như với thuộc tính rời rạc.

Thuộc tính rời rạc có tập giá trị (domain) xác định từ trước và là tập hợp các giá trị rời rạc; Ví dụ loại ơ tơ là một thuộc tính rời rạc với tập giá trị là: {xe tải, xe khách, xe con, taxi}. Việc phân chia dữ liệu dựa vào phép kiểm tra giá trị của thuộc tính rời rạc được chọn tại một ví dụ cụ thể có thuộc tập giá trị của thuộc tính đó hay không: Value(A) X với X domain(A). Đây là phép kiểm tra logic đơn giản, không tốn nhiều tài ngun tính tốn. Trong khi đó, với thuộc tính liên tục (thuộc tính dạng số) thì tập giá trị là khơng xác định trước. Chính vì vậy, trong quá trình phát triển cây, cần sử dụng kiểm tra dạng nhị phân: value(A) ≤ θ. Với θ là ngưỡng (threshold) được lần lượt xác định dựa trên từng giá trị riêng biệt hay từng cặp giá trị liền nhau (theo thứ tự đã sắp xếp) của thuộc tính liên tục đang xem xét trong tập dữ liệu đào tạo. Điều đó có nghĩa là nếu thuộc tính liên tục A trong tập dữ liệu đào tạo có n giá trị phân biệt thì cần thực hiện n-1 lần kiểm tra value(A) ≤ θi với i = 1..n-1 để tìm ra ngưỡng θbest tốt nhất tương ứng với thuộc tính đó. Việc xác định giá trị của θ và tiêu chuẩn tìm θbest tốt nhất tùy vào chiến lược của từng thuật toán.

<b>2.1.3 Ưu nhược điểm của cây quyết định trong khai phá dữ liệu </b>

So với các phương pháp khai phá dữ liệu khác, kỹ thuật khai phá dữ liệu bằng cây quyết định có một số ưu nhược điểm sau:

- Ưu điểm:

</div>