Tải bản đầy đủ (.pdf) (115 trang)

Ứng dụng phần mềm khai phá dữ liệu rapidminer trong quản lý khách hàng vay vốn tại ngân hàng nông nghiệp và phát triển nông thôn chi nhánh huyện a lưới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 115 trang )

GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ

in

h

tế
H

uế

KHOA HỆ THỐNG THÔNG TIN KINH TẾ

họ

cK

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

ỨNG DỤNG PHẦN MỀM KHAI PHÁ DỮ LIỆU RAPIDMINER
TRONG QUẢN LÝ KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG NÔNG

Đ
ại

NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN



Võ Thị Dạ Tiên

Tr

ườ

ng

CHI NHÁNH HUYỆN A LƯỚI

Huế, tháng 5 năm 2014

Sinh viên thực hiện: Võ Thị Dạ Tiên

1


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ

h

tế
H


uế

KHOA HỆ THỐNG THÔNG TIN KINH TẾ

cK

in

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

họ

ỨNG DỤNG PHẦN MỀM KHAI PHÁ DỮ LIỆU RAPIDMINER
TRONG QUẢN LÝ KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG NÔNG

Đ
ại

NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN

ng

CHI NHÁNH HUYỆN A LƯỚI

Giáo viên hướng dẫn:

Võ Thị Dạ Tiên

ThS. Dương Thị Hải Phương


Tr

ườ

Sinh viên thực hiện:
Lớp: K44 Tin học kinh tế
Niên khóa: 2010 - 2014

Huế, tháng 5 năm 2014
2

Sinh viên thực hiện: Võ Thị Dạ Tiên


GVHD: Th.S Dương Thị Hải Phương

uế

Khóa luận tốt nghiệp

Sinh viên thực hiện
Võ Thị Dạ Tiên

Tr

ườ

ng

Đ

ại

họ

cK

in

h

tế
H

Trước hết, tôi xin chân thành cảm ơn các thầy, cô giáo trường
Đại học Kinh Tế Huế nói chung và các thầy, cô giáo của khoa Hệ
thống thông tin kinh tế nói riêng đã giảng dạy và truyền đạt những
kiến thức, kinh nghiệm quý báu cho tôi trong suốt 4 năm học tập tại
trường.
Để hoàn thành được khóa luận tốt nghiệp này, tôi xin cảm ơn
chân thành và sâu sắc nhất tới cô giáo hướng dẫn Thạc sĩ Dương
Thị Hải Phương đã tận tình chỉ bảo, hướng dẫn tôi trong suốt quá
trình nghiên cứu và thực hiện đề tài.
Tôi xin chân thành cảm ơn Ngân hàng Nông nghiệp và Phát
triển nông thôn chi nhánh huyện A Lưới tôi đã tạo điều kiện cho
tôi học hỏi và tiếp xúc với môi trường làm việc thực tế trong thời
gian thực tập tại ngân hàng.
Tôi xin chân thành cảm ơn các cô, chú ở phòng tín dụng tại
Ngân hàng nông nghiệp và phát triển nông thôn chi nhánh huyện
A Lưới đã hướng dẫn và cung cấp nhiều thông tin, kiến thức cho
tôi trong suốt thời gian qua để giúp tôi hoàn thành khóa luận này.

Một lần nữa tôi xin chân thành cảm ơn.

Sinh viên thực hiện: Võ Thị Dạ Tiên

3


ng

ườ

Tr
Đ
ại
h

in

cK

họ

uế

tế
H


GVHD: Th.S Dương Thị Hải Phương


Khóa luận tốt nghiệp

MỤC LỤC
DANH MỤC THUẬT NGỮ VIẾT TẮT .......................................................................v

uế

DANH MỤC HÌNH VẼ ................................................................................................vi
DANH MỤC BẢNG BIỂU......................................................................................... vii

tế
H

MỞ ĐẦU ........................................................................................................................1
1. Lý do chọn đề tài ........................................................................................................1
2. Mục tiêu nghiên cứu ...................................................................................................2
3. Đối tượng và phạm vi nghiên cứu ..............................................................................2

h

4. Phương pháp nghiên cứu ............................................................................................3

in

5. Cấu trúc khóa luận......................................................................................................3

1.1.

cK


CHƯƠNG I: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU ...... 4
Khám phá tri thức .............................................................................................4

1.1.1. Khái niệm và sự cần thiết của khám phá tri thức ..........................................4
Khái niệm ............................................................................................4

1.1.1.2.

Sự cần thiết của khám phá tri thức ......................................................4

họ

1.1.1.1.

1.2.

Đ
ại

1.1.2. Tiến trình khám phá tri thức ..........................................................................5
Khai phá dữ liệu................................................................................................6

1.2.1. Khái niệm ......................................................................................................6
1.2.2. Quá trình khai phá dữ liệu .............................................................................7

ng

1.2.3. Nhiệm vụ của khai phá dữ liệu......................................................................9

ườ


1.2.4. Hướng tiếp cận và các kỹ thuật chính trong khai phá dữ liệu ........................9
1.2.4.1. Các dạng dữ liệu có thể khai phá ............................................................9

Tr

1.2.4.2. Các kỹ thuật KPDL ...............................................................................10
1.2.4.2.1 Phương pháp phân lớp .....................................................................10
1.2.4.2.2. Phương pháp hồi quy ......................................................................11
1.2.4.2.3. Phương pháp phân nhóm và phân đoạn ..........................................11
1.2.4.2.4 Phát hiện luật kết hợp.......................................................................11
1.2.4.2.5. Phương pháp quy nạp/ suy diễn......................................................12
1.2.4.2.6. Các phương pháp dựa trên mẫu ......................................................12

Sinh viên thực hiện: Võ Thị Dạ Tiên

i


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

1.2.4.2.7. Khai phá dữ liệu dạng văn bản .......................................................13
1.2.4.2.8. Khai thác mẫu tuần tự .....................................................................13
1.2.4.2.9. Mô hình hóa sự phụ thuộc ..............................................................13
1.2.4.2.10. Phát hiện sự biến đổi và độ lệch ...................................................13
1.2.5. Ứng dụng của khai phá dữ liệu .....................................................................14

Luật kết hợp ....................................................................................................15


tế
H

2.1.

uế

CHƯƠNG II: KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ PHÂN CỤM ........15

2.1.1. Khái niệm ....................................................................................................15
Luật kết hợp.......................................................................................15

2.1.1.2.

Độ hỗ trợ............................................................................................15

2.1.1.3.

Độ tin cậy ..........................................................................................16

2.1.1.4.

Tập mục .............................................................................................16

in

h

2.1.1.1.


cK

2.1.2. Các tính chất ................................................................................................17
2.1.2.1.

Tính chất của luật kết hợp .................................................................17

2.1.2.2.

Tính chất của tập mục phổ biến.........................................................17

họ

2.1.3. Giới thiệu bài toán khai phá luật kết hợp ....................................................18
2.1.4. Thuật toán Apriori trong luật kết hợp..........................................................19
Giới thiệu thuật toán ..........................................................................19

2.1.4.2.

Bài toán 1: Xác định các tập mục phổ biến.......................................20

2.1.4.3.

Bài toán 2: Sinh các luật kết hợp từ tập mục phổ biến......................23

Đ
ại

2.2.


2.1.4.1.

Phân cụm dữ liệu.............................................................................................26

ng

2.2.1. Khái niệm ....................................................................................................26
2.2.2. Các yêu cầu về thuật toán phân cụm dữ liệu ...............................................26

Tr

ườ

2.2.3. Các kiểu dữ liệu trong phân cụm.................................................................28
2.2.3.1.

Phân loại các kiểu dữ liệu dựa trên kích thước miền ........................28

2.2.3.2.

Phân loại các kiểu dữ liệu dựa trên hệ đo..........................................28

2.2.4. Phép đo độ tương tự và khoảng cách đối với các kiểu dữ liệu....................29

ii

2.2.4.1.

Không gian metric .............................................................................29


2.2.4.2.

Thuộc tính khoảng cách ....................................................................30

2.2.4.3.

Thuộc tính nhị phân...........................................................................30

2.2.4.4.

Thuộc tính định danh.........................................................................31

Sinh viên thực hiện: Võ Thị Dạ Tiên


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp
2.2.4.5.

Thuộc tính có thứ tự ..........................................................................31

2.2.4.6.

Thuộc tính tỉ lệ ..................................................................................31

2.2.5. Thuật toán K-Means trong phân cụm dữ liệu..............................................32
2.2.5.1.


Giới thiệu bài toán .............................................................................32

2.2.5.2.

Thuật toán K-Means ..........................................................................32

tế
H

uế

CHƯƠNG III: ỨNG DỤNG PHẦN MỀM KHAI PHÁ DỮ LIỆU RAPIDMINER
TRONG QUẢN LÝ KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG NÔNG
NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN CHI NHÁNH HUYỆN A LƯỚI...........40
3.1. Tổng quan về ngân hàng Nông nghiệp và Phát triển nông thôn chi nhánh huyện
A Lưới .......................................................................................................................40
3.1.1. Thông tin chung ............................................................................................40

h

3.1.2. Lịch sử hình thành.........................................................................................40

in

3.1.3. Chức năng và nhiệm vụ của ngân hàng ........................................................41

cK

3.1.4. Nội dung hoạt động.......................................................................................41
3.1.5. Cơ sở vật chất................................................................................................42

3.1.6. Cơ cấu tổ chức ..............................................................................................43

họ

3.2. Phần mềm khai phá dữ liệu RapidMiner ...........................................................45
3.2.1. Giới thiệu chung............................................................................................45

Đ
ại

3.2.2. Luật kết hợp trong phần mềm khai phá dữ liệu RapidMiner........................49
3.2.2.1. Thêm phần mềm Weka Extension vào phần mềm RapidMiner ...........49
3.2.2.2. Xây dựng thuật toán Apriori trong phần mềm RapidMiner..................50

ng

3.2.3. Xây dựng phân cụm trong RapidMiner ........................................................52
3.3. Ứng dụng khai phá luật kết hợp và phân cụm vào cơ sở dữ liệu quản lý khách
hàng vay vốn .............................................................................................................53

ườ

3.3.1. Xác định nội dung cần khai phá....................................................................53
3.3.2. Lựa chọn dữ liệu ...........................................................................................54

Tr

3.3.3. Tiền xử lý dữ liệu..........................................................................................54
3.3.4. Khai phá dữ liệu với luật kết hợp..................................................................57
3.3.4.1. Đặt tham số cho mô hình.......................................................................57

3.3.4.2. Kết quả ..................................................................................................57
3.3.4.3. Ý nghĩa của các luật kết hợp tạo được ..................................................66
3.3.4.4. Nhận xét ................................................................................................75
Sinh viên thực hiện: Võ Thị Dạ Tiên

iii


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

3.3.5. Thuật toán K-Means trong phân cụm dữ liệu của bài toán...........................77
3.3.5.1. Đặt tham số cho mô hình.......................................................................77
3.3.5.2. Kết quả ..................................................................................................77
3.3.5.3. Nhận xét ................................................................................................80
3.4. Một số giải pháp trong việc quản lý khách hàng vay vốn .................................81

uế

KẾT LUẬN ..................................................................................................................84

tế
H

Tài liệu tham khảo ........................................................................................................85

Tr

ườ


ng

Đ
ại

họ

cK

in

h

PHỤ LỤC .....................................................................................................................86

iv

Sinh viên thực hiện: Võ Thị Dạ Tiên


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

DANH MỤC THUẬT NGỮ VIẾT TẮT

Ngân hàng nông nghiệp và phát triển nông thôn

Conf


Confidence – Độ tin cậy

CSDL

Cơ sở dữ liệu

KPDL

Khai phá dữ liệu

NHNo&PTNT

Ngân hàng nông nghiệp và phát triển nông thôn

minconf

Độ tin cậy tối thiểu

minsup

Độ hỗ trợ tối thiểu

Sup

Support – Độ hỗ trợ

Tr

ườ


ng

Đ
ại

họ

cK

in

h

tế
H

uế

Agribank

Sinh viên thực hiện: Võ Thị Dạ Tiên

v


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp


DANH MỤC HÌNH VẼ
Hình 1.1: Tiến trình phát hiện tri thức.............................................................................5
Hình 1.2: Quá trình khai phá dữ liệu ...............................................................................7
Hình 2.1: Mô tả thuật toán Apriori ................................................................................25

uế

Hình 2.2: Sơ đồ thuật toán K-Means.............................................................................34
Hình 3.1: Sơ đồ cơ cấu tổ chức .....................................................................................43

tế
H

Hình 3.2: Cửa sổ của phần mềm RapidMiner ...............................................................46
Hình 3.3: Môi trường làm việc của RapidMiner ...........................................................47
Hình 3.4: Các công cụ khai phá dữ liệu ........................................................................48

h

Hình 3.5 : Hộp thoại cài đặt Weka Extension 5.3.1 ......................................................49

in

Hình 3.6: Hộp thoại diễn tả quá trình sử dụng thuật toán Apriori ................................50
Hình 3.7: Hộp thoại các tham số của thuật toán Apriori ...............................................51

cK

Hình 3.8: Hộp thoại các tham số trong Clustering (K-Means) .....................................52
Hình 3.9: Cách lọc từng cụm mẫu (Filter Examples)....................................................53


họ

Hình 3.10: Kết quả sau khi tiền xử lý dữ liệu ...............................................................56
Hình 3.11: Đặt tham số cho mô hình sử dụng thuật toán Apriori .................................57
Hình 3.12: Đặt tham số cho mô hình với kỹ thuật phân cụm........................................77

Đ
ại

Hình 3.13: Kết quả lọc dữ liệu của cụm 0 .....................................................................78
Hình 3.14: Kết quả lọc dữ liệu của cụm 1 .....................................................................79

Tr

ườ

ng

Hình 3.15: Kết quả dữ liệu cho cụm 2...........................................................................80

vi

Sinh viên thực hiện: Võ Thị Dạ Tiên


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp


DANH MỤC BẢNG BIỂU
Bảng 2.1: Cơ sở dữ liệu giao dịch.………………………………………….……..…24
Bảng 2.2: Các luật được tạo ra…………………………………………………….....25

uế

Bảng 2.3: Số liệu bài toán minh họa…………………………………………...…......35

Tr

ườ

ng

Đ
ại

họ

cK

in

h

tế
H

Bảng 2.4: Kết quả phân nhóm của bài toán minh họa.……………………..……......39


Sinh viên thực hiện: Võ Thị Dạ Tiên

vii


ng

ườ

Tr
Đ
ại
h

in

cK

họ

uế

tế
H


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp


MỞ ĐẦU
1. Lý do chọn đề tài
Nền kinh tế đang trên đà phát triển nên nhu cầu về vốn của các cá nhân và tổ chức
ngày càng phong phú hơn. Nhằm mở rộng quy mô sản xuất kinh doanh và vấn đề tiêu

uế

dùng ngày càng cao hơn nên việc vay vốn của khách hàng càng lớn. Do đó, đóng vai
trò là trung gian, ngân hàng Nông nghiệp và Phát triển nông thôn chi nhánh huyện A

được nhu cầu của họ trong việc phát triển nền kinh tế.

tế
H

Lưới đã tạo điều kiện cho các cá nhân, doanh nghiệp vay vốn dễ dàng hơn, đáp ứng

Sự phát triển của công nghệ thông tin ngày càng lớn để ứng dụng nhiều trong các
lĩnh vực như ngân hàng, truyền thông, quảng cáo,… đã tạo điều kiện tốt hơn giúp giải

in

h

quyết các khó khăn và dùng công nghệ thông tin để phát triển mạnh mẽ hơn trong lĩnh
vực của mình. Đặc biệt là các phần mềm khai phá dữ liệu người ta đã sản xuất rất

cK

nhiều để họ giải quyết được các vấn đề đó. Ngành ngân hàng đã bắt đầu nhận ra sự cần

thiết của các kỹ thuật như khai phá dữ liệu, các kỹ thuật đó có thể giúp họ cạnh tranh
trên thị trường. Đồng thời với số lượng khách hàng vay vốn lớn thì việc quản lý rất

họ

phức tạp vì vậy để có thể quản lý khách hàng dễ dàng hơn và có thể phản ánh được
tình trạng vay vốn, phân tích được những nhu cầu của khách hàng thì người ta đã ứng

Đ
ại

dụng phần mềm khai phá dữ liệu vào trong lĩnh vực này.
Hiện nay, huyện A Lưới đang phát triển trong nhiều lĩnh vực như trồng trọt, chăn
nuôi, sản xuất kinh doanh,…nhằm tạo điều kiện phát triển mạnh hơn, ngân hàng Nông

ng

nghiệp và Phát triển nông thôn chi nhánh huyện A Lưới đã giúp cho người dân được
vay vốn dễ dàng hơn. Hoạt động cho vay là hoạt động truyền thống đem lại lợi nhuận

ườ

cho ngân hàng, với số lượng khách hàng hằng năm từ 350 đến 400 chủ yếu là cá nhân
và doanh nghiệp vừa và nhỏ sử dụng vốn vay cho các mục đích hợp pháp, thời hạn vay

Tr

phần lớn là trung hạn và ngắn hạn. Hiện tại, ngân hàng đang sử dụng phần mềm
IPCAS là một phần mềm để quản lý thanh toán nội bộ ngân hàng và kế toán khách
hàng, tuy nhiên nhiều thông tin vay vốn của khách hàng vẫn còn quản lý trên giấy tờ,

việc quản lý và xử lý những thông tin đó còn khó khăn là một trở ngại của ngân hàng
Agribank chi nhánh huyện A Lưới.

Sinh viên thực hiện: Võ Thị Dạ Tiên

1


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

Với đề tài: “Ứng dụng phần mềm khai phá dữ liệu RapidMiner trong quản lý khách
hàng vay vốn tại ngân hàng Nông nghiệp và Phát triển nông thôn chi nhánh huyện A
Lưới” sẽ giúp ngân hàng xử lý dữ liệu thông tin tốt hơn và có các giải pháp để nâng
cao chất lượng, tình hình vay vốn của khách hàng.

uế

2. Mục tiêu nghiên cứu
 Mục tiêu chung

tế
H

Đề tài “Ứng dụng phần mềm khai phá dữ liệu RapidMiner trong quản lý khách

hàng vay vốn tại ngân hàng Nông nghiệp và Phát triển nông thôn chi nhánh huyện A
Lưới” nhằm giúp ngân hàng quản lý thông tin khách hàng, tìm hiểu được khả năng vay


h

vốn của khách hàng sẽ phụ thuộc vào những thông tin nào và phân cụm được khách

 Mục tiêu cụ thể

cK

 Tìm hiểu lý thuyết khai phá dữ liệu

in

hàng để từ đó ngân hàng có các quyết định cho mỗi cụm.

 Tìm hiểu phần mềm khai phá dữ liệu RapidMiner
Ứng dụng thuật toán Apriori và thuật toán K-Means vào cơ sở dữ liệu quản

họ



lý khách hàng của Agribank chi nhánh huyện A Lưới để tìm ra một số luật kết
hợp liên quan đến hoạt động vay vốn của khách hàng và phân cụm khách hàng.
Đề xuất một số giải pháp, chính sách để tạo điều kiện cho khách hàng vay

Đ
ại




vốn tại Agribank chi nhánh huyện A Lưới tốt hơn.

ng

3. Đối tượng và phạm vi nghiên cứu
 Đối tượng nghiên cứu
Lý thuyết về khai phá dữ liệu, luật kết hợp và phân cụm với hai thuật toán là

ườ



Apriori và K-Means.

Tr



Số liệu về 250 khách hàng vay vốn tại Ngân hàng Nông nghiệp và Phát triển

nông thôn chi nhánh huyện A Lưới.

 Phạm vi nghiên cứu
 Về lĩnh vực: Nghiên cứu lý thuyết khai phá dữ liệu, sử dụng phầm mềm khai
phá dữ liệu RapidMiner và ứng dụng của nó trong quản lý khách hàng tại Ngân
hàng Nông nghiệp và Phát triển nông thôn chi nhánh huyện A Lưới.

2

Sinh viên thực hiện: Võ Thị Dạ Tiên



GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp


Về không gian: Ngân hàng Nông nghiệp và Phát triển nông thôn chi nhánh

huyện A Lưới.
 Về thời gian: Số liệu ngày 23/4/2013 đến 20/1/2014.
4. Phương pháp nghiên cứu

uế

 Phương pháp nghiên cứu tài liệu: Tham khảo và sử dụng các tài liệu có liên
quan như sách vở, báo chí, các nguồn internet,…

tế
H

 Phương pháp thu thập số liệu: Sử dụng số liệu sơ cấp về khách hàng vay vốn,
được thu thập tại phòng tín dụng của ngân hàng Agribank chi nhánh huyện A Lưới.

 Phương pháp phân tích và xử lý số liệu: Xử lý số liệu của khách hàng bằng việc sử

h

dụng các thuật toán khai phá dữ liệu và ứng dụng phần mềm khai phá dữ liệu


in

RapidMiner, từ đó ta phân tích được khả năng và tình hình vay vốn của khách hàng.

cK

5. Cấu trúc khóa luận

Ngoài phần mở đầu và kết luận, nội dung chính của khóa luận bao gồm 3 chương
như sau:

họ

Chương 1: Tổng quan về khám phá tri thức và khai phá dữ liệu
Chương này bao gồm một số lý thuyết về khai phá dữ liệu như khái niệm, các

Đ
ại

kỹ thuật khai phá, ứng dụng của khai phá dữ liệu,…
Chương 2: Khai phá dữ liệu với luật kết hợp và phân cụm

ng

Nội dung chương 2 tìm hiểu về hai kỹ thuật khai phá là luật kết hợp và phân
cụm với hai thuật toán để áp dụng vào bài toán là thuật toán Apriori và thuật toán

ườ

K-Means.


Chương 3: Ứng dụng phần mềm khai phá dữ liệu RapidMiner trong quản lý

Tr

khách hàng vay vốn tại ngân hàng Nông nghiệp và Phát triển nông thôn chi nhánh
huyện A Lưới
Chương 3 sẽ trình bày một số nội dung như tổng quan về NHNo&PTNT chi
nhánh huyện A Lưới, tìm hiểu về phần mềm khai phá dữ liệu RapidMiner, áp
dụng thuật toán Apriori và thuật toán K-Means vào cơ sở dữ liệu khách hàng và
đề xuất một số giải pháp trong việc quản lý khách hàng vay vốn.
Sinh viên thực hiện: Võ Thị Dạ Tiên

3


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

CHƯƠNG I: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ
KHAI PHÁ DỮ LIỆU
1.1. Khám phá tri thức

uế

1.1.1. Khái niệm và sự cần thiết của khám phá tri thức
1.1.1.1. Khái niệm

tế

H

Khám phá tri thức là quá trình tự động trích rút các tri thức ẩn, trước đó chưa
biết và là thông tin hữu ích đáng tin cậy.

Khám phá tri thức từ CSDL là một quá trình sử dụng các phương pháp và công

h

cụ tin học, trong đó con người là trung tâm của quá trình. Do đó, con người cần phải

in

có kiến thức cơ bản về lĩnh vực cần khám phá để có thể chọn được tập con dữ liệu tốt,
từ đó phát hiện các mẫu phù hợp với mục tiêu đề ra. Đó chính là tri thức, được rút ra từ

cK

CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một
lĩnh vực nhất định. Tuy vậy, quá trình khám phá tri thức mang tính chất hướng nhiệm

họ

vụ vì không phải là mọi tri thức tìm được đều áp dụng vào thực tế được.
1.1.1.2. Sự cần thiết của khám phá tri thức

Đ
ại

Khám phá tri thức đã và đang được áp dụng một cách rộng rãi trong nhiều

lĩnh vực kinh doanh và đời sống khác nhau như: marketing, tài chính, ngân hàng, bảo
hiểm, khoa học, y tế, an ninh, internet,…

ng

Việc nắm bắt được thông tin hiện nay rất quan trọng đối với mọi hoạt động
sản xuất, kinh doanh. Cá nhân hoặc tổ chức nào thu thập, hiểu được thông tin và hành

ườ

động dựa trên thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công
trong mọi hoạt động. Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưu trữ và khai

Tr

thác ngày càng trở nên quan trọng và gia tăng không ngừng.

4

Sinh viên thực hiện: Võ Thị Dạ Tiên


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

in

h


tế
H

uế

1.1.2. Tiến trình khám phá tri thức[4]

cK

Hình 1.1: Tiến trình phát hiện tri thức
(Nguồn: )

Bước thứ nhất: Hình thành và định nghĩa bài toán. Đây là bước tìm hiểu lĩnh

họ

vực áp dụng, từ đó hình thành bài toán, xác định các nhiệm vụ cần hoàn thành. Bước
này cho phép chọn ra các phương pháp KPDL thích hợp với mục đích ứng dụng và

Đ
ại

bản chất của dữ liệu.

Bước thứ hai: Thu thập và tiền xử lý dữ liệu. Là thu thập và xử lý số liệu thô,
còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (Làm sạch dữ liệu), xử lý việc

ng

thiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước

này thường chiếm nhiều thời gian nhất trong toàn bộ quy trình phát hiện tri thức do dữ

ườ

liệu được lấy từ nhiều nguồn khác nhau, không đồng nhất.
Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức, hay nói cách khác là trích ra

Tr

các mẫu hoặc các mô hình ẩn dưới các dữ liệu. Giai đoạn này rất quan trọng, bao gồm
các công đoạn như: chức năng, nhiệm vụ, mục đích của KPDL và phương pháp khai
phá. Thông thường, các bài toán KPDL bao gồm: các bài toán mang tính chất mô tả đưa ra tính chất chung nhất của dữ liệu, các bài toán dự báo (bao gồm cả việc phát hiện
các suy diễn dựa trên dữ liệu hiện có). Tùy theo bài toán xác định được mà ta lựa chọn
các phương pháp khai phá dữ liệu cho phù hợp.

Sinh viên thực hiện: Võ Thị Dạ Tiên

5


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

Bước thứ tư: Phân tích và kiểm định kết quả. Giai đoạn này nhằm làm sáng tỏ
các tri thức, đặc biệt là việc làm sáng tỏ phạm vi của mô tả và dự báo – hai đích chính
của hệ thống khám phá trong thực tế. Các thí nghiệm chỉ ra rằng các khuôn mẫu hoặc
các mô hình từ dữ liệu không phải luôn luôn được quan tâm hay sử dụng trực tiếp, và

uế


quá trình khám phá tri thức cần phải được lặp đi lặp lại tùy theo đánh giá của tri thức
khám phá. Một cách chuẩn để đánh giá kết quả là chia dữ liệu thành hai tập, một tập để

tế
H

huấn luyện, một tập để kiểm thử. Một tập có thể lặp đi lặp lại quá trình một số lần với
sự phân tách khác nhau và kết quả luật trung bình sẽ dùng để ước lượng luật thực thi.
Bước thứ năm: Sử dụng các tri thức phát hiện được. Giai đoạn này sẽ đưa ra các

tri thức khám phá được vào ứng dụng thực tế. Trong một số trường hợp, giai đoạn này

h

có thể sử dụng tri thức khám phá được mà không nhúng vào hệ thống máy tính. Về

in

mặt khác, người sử dụng có thể trông chờ vào tri thức được khám phá trên máy tính

cK

hay khai thác bởi một số chương trình. Việc đưa kết quả vào ứng dụng thực tế là đích

1.2. Khai phá dữ liệu
1.2.1. Khái niệm

họ


cuối cùng của quá trình khám phá tri thức.

Khai phá dữ liệu là một quá trình phát hiện các mẫu mới, thường bao gồm việc

Đ
ại

thử tìm mô hình phù hợp với tập dữ liệu và tìm kiếm các mẫu từ tập dữ liệu theo mô
hình đó. Sử dụng các kỹ thuật và các khái niệm của các lĩnh vực đã được nghiên cứu
từ trước như: học máy, nhận dạng, thống kê, hồi quy, xếp loại, phân nhóm, các mô

ng

hình đồ thị, các mạng Bayes,… Hầu hết các CSDL đều chứa rất nhiều các mẫu mới và
có ích, tuy nhiên mẫu có giá trị với mục tiêu đặt ra phải là những mẫu không tầm

ườ

thường. Để các mẫu trở nên không tầm thường, hệ thống phải làm nhiều hơn là chỉ mò
mẫm thống kê vì kết quả của việc tính toán trực tiếp qua công tác thống kê là đã có đối

Tr

với người dùng. Một hệ thống tìm kiếm cần phải có khả năng quyết định cần thực hiện
tính toán nào và kết quả là có đáng quan tâm để tạo nên tri thức trong ngữ cảnh hiện
tại hay không.
KPDL được sử dụng để tạo ra giả thuyết. Ví dụ như để xác định các yếu tố rủi
ro khi cho vay tín dụng, kỹ thuật KPDL phải phát hiện được những người có thu nhập
6


Sinh viên thực hiện: Võ Thị Dạ Tiên


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

thấp và nợ nhiều là những người sẽ có mức rủi ro cao. Ngoài ra kỹ thuật cũng có thể
phát hiện ra những quy luật mà nhà phân tích có thể chưa tìm ra ví dụ như tỷ lệ giữa
thu nhập trên nợ và tuổi cũng là các yếu tố xác định mức rủi ro. Để làm được điều này,
KPDL sử dụng các thông tin trong quá khứ để học. Nó sẽ tìm kiếm các thông tin này

uế

trong các CSDL và sử dụng chúng để tìm ra các mẫu đáng quan tâm.
Khai phá dữ liệu là một bước quan trọng trong quá trình khám phá tri thức, sử

tế
H

dụng các thuật toán KPDL chuyên dùng với một số qui định về hiệu quả tính toán chấp
nhận được để chiết xuất ra các mẫu hoặc các mô hình có ích trong dữ liệu.

ườ

ng

Đ
ại


họ

cK

in

h

1.2.2. Quá trình khai phá dữ liệu [3]

Tr



Hình 1.2: Quá trình khai phá dữ liệu
(Nguồn: )

Gom dữ liệu

Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước

được khai thác trong một CSDL, một kho dữ liệu và thậm chí các dữ liệu từ các
nguồn ứng dụng Web.


Trích lọc dữ liệu

Sinh viên thực hiện: Võ Thị Dạ Tiên

7



GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp

Ở giai đoạn này lựa chọn những dữ liệu phù hợp với nhiệm vụ phân tích trích
rút từ CSDL.


Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu
Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước

uế

rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong

khi gom dữ liệu là tính không đủ chặt chẻ, logic. Vì vậy, dữ liệu thường chứa các

tế
H

giá trị vô nghĩa và không có khả năng kết nối dữ liệu, ví dụ: điểm = -1. Giai đoạn
này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những dữ liệu
dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một quá

h

trình rất quan trọng vì dữ liệu này nếu không được “làm sạch” sẽ gây nên những kết


in

quả sai lệch nghiêm trọng.

cK

 Chuyển đổi dữ liệu

Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu được chuyển đổi hay được

 Khai phá dữ liệu

họ

hợp nhất về dạng thích hợp cho việc khai phá.

Đây là một tiến trình cốt yếu. Ở giai đoạn này nhiều thuật toán khác nhau đã

Đ
ại

được sử dụng một cách phù hợp để trích xuất thông tin có ích hoặc cá mẫu điển
hình trong dữ liệu.

 Đánh giá kết quả mẫu

ng

Đây là giai đoạn cuối trong quá trình khai phá dữ liệu. Ở giai đoạn này, các
mẫu dữ liệu được chiết xuất, không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích,


ườ

đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để

Tr

chiết xuất ra các tri thức cần thiết.
Từ quá trình khám phá tri thức trên chúng ta thấy được sự khác biệt giữa khám

phá tri thức và khai phá dữ liệu. Trong khi khám phá tri thức là nói đến quá trình
tổng thể phát hiện tri thức hữu ích từ dữ liệu. Còn KPDL chỉ là một bước trong quá
trình khám phá tri thức, các công việc chủ yếu là xác định được bài toán khai phá,
tiến hành lựa chọn phương pháp KPDL phù hợp với dữ liệu có được và tách ra các
tri thức cần thiết.

8

Sinh viên thực hiện: Võ Thị Dạ Tiên


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp
1.2.3. Nhiệm vụ của khai phá dữ liệu

Mục đích của KPDL là các tri thức chiết xuất được sử dụng cho lợi ích cạnh
tranh trên thương trường và các lợi thế trong nghiên cứu khoa học. Do đó, các mẫu mà
KPDL phát hiện được nhằm vào các mục đích chính của KPDL sẽ là mô tả và dự


uế

đoán. Dự đoán liên quan đến việc sử dụng các biến hoặc các trường hợp trong CSDL
để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị

tế
H

trong tương lai của các biến đáng quan tâm. Mô tả tập trung vào việc tìm kiếm các
mẫu mô tả dữ liệu mà con người có thể hiểu.

1.2.4. Hướng tiếp cận và các kỹ thuật chính trong khai phá dữ liệu

h

1.2.4.1. Các dạng dữ liệu có thể khai phá

in

 Cơ sở dữ liệu quan hệ (relational database): là những CSDL được tổ chức theo
mô hình dữ liệu quan hệ. Hiện nay, các hệ quản trị CSDL đều hỗ trợ mô hình này

cK

như: MS Access, MS SQL Server, Oracle, IBM DB2,...

 Cơ sở dữ liệu đa chiều (multidimention structures, data warehouse, data mart):

họ


là các kho dữ liệu được tập hợp và chọn lọc từ nhiều nguồn khác nhau và chứa
những đặc tính lịch sử thông qua thuộc tính thời gian tường minh hoặc ngầm định.
 Cơ sở dữ liệu giao tác (transaction database): là loại dữ liệu được sử dụng nhiều

Đ
ại

trong siêu thị, thương mại, ngân hàng,...
 Cơ sở dữ liệu quan hệ – hướng đối tượng (object relational database): mô hình
CSDL này là lai giữa mô hình hướng đối tượng và mô hình CSDL quan hệ.

ng

 Cơ sở dữ liệu không gian và thời gian (spatial, temporal, and time – series
data): Là dạng dữ liệu có tích hợp thuộc tính về không gian như dữ liệu bản đồ

ườ

mạng cáp điện thoại hoặc thông tin theo thời gian như dữ liệu cước điện thoại, phát
hành báo chí, chỉ số chứng khoáng.

Tr

 Cơ sở dữ liệu đa phương tiện (Multimedia database): là loại dữ liệu có nhiều
trên mạng, bao gồm các loại như âm thanh, hình ảnh, video, văn bản và nhiều kiểu
dữ liệu định dạng khác.

Sinh viên thực hiện: Võ Thị Dạ Tiên

9



GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp
1.2.4.2. Các kỹ thuật KPDL
1.2.4.2.1 Phương pháp phân lớp

Trong kỹ thuật phân lớp chúng ta có thể sử dụng các phương pháp như:
 Cây quyết định

uế

Cây quyết định để phân tách các dữ liệu cho đến khi mỗi phần chứa đựng hầu

hết các mẫu từ một lớp đặc trưng, kết quả của quá trình sẽ cho ra một cây quyết định.

tế
H

Điểm phân tách trong cây quyết định là một nút (không phải là nút lá) sẽ sử dụng một
số điều kiện để quyết định dữ liệu sẽ được phân tách như thế nào. Các nút cuối cùng
trong cây quyết định chứa đựng các bộ mẫu giống nhau.

h

Lợi thế của cây quyết định là các thuật toán chạy khá nhanh, với kết quả khá

in


tốt và có thể giải thích được rõ ràng. Tuy nhiên, bất lợi mà các thuật toán của cây
quyết định có thể gặp phải đó là chúng có thể tìm ra các điểm tới hạn cục bộ, đưa ra

cK

các kết quả không đúng.

 Phương pháp mạng Nơron

họ

Mạng nơron là mạng được mô phỏng theo bộ não của con người. Đó là một
cấu trúc dữ liệu của các hàm với một hoặc nhiều trọng số đầu vào, với kết quả đầu ra
là một nhãn các lớp. Từng phần riêng biệt của dữ liệu được đưa vào mạng nơron và

Đ
ại

các hàm - các trọng số trong mạng nơron bị thay đổi (học - huấn luyện) tùy theo tỷ lệ
lỗi của đầu ra. Phương pháp này thường đưa đến một khoảng thời gian huấn luyện dài
ngay cả khi tập dữ liệu nhỏ.

ng

Lợi thế của mạng nơron là đưa đến các kết quả khá chính xác, nhưng bất lợi
của nó là thường đòi hỏi thời gian huấn luyện dài và đưa ra các kết quả khó hiểu, cứng

ườ

nhắc, bị bao bọc trong một hộp đen, khó giải thích tường minh.


Tr

 Phương pháp giải thuật di truyền
Các giải thuật di truyền được sử dụng để đưa ra công thức giả thuyết về sự phụ

thuộc giữa các biến. Đối với một giải thuật di truyền phải sử dụng các giải pháp như
cạnh tranh, lựa chọn và kết hợp giữa các tập hợp cá thể.
Lợi thế của giải thuật di truyền là thường đưa đến các kết quả kiểm tra khá
chính xác, nhưng bất lợi của nó là kết quả có được thông qua việc lập trình tiến hóa và
các kết quả cũng thường cứng nhắc, khó hiểu.
10

Sinh viên thực hiện: Võ Thị Dạ Tiên


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp
1.2.4.2.2. Phương pháp hồi quy

Hồi quy là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự
đoán có giá trị thực. Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau
chính là ở chỗ thuộc tính để dự báo là liên tục chứ không rời rạc. Việc dự báo các giá

uế

trị số thường được làm bởi các phương pháp thống kê cổ điển chẳng hạn như hồi quy
tuyến tính.


tế
H

1.2.4.2.3. Phương pháp phân nhóm và phân đoạn

Mục tiêu chính của việc phân nhóm dữ liệu là nhóm các đối tượng tương tự
nhau trong tập dữ liệu vào các nhóm sao cho mức độ tương tự giữa các đối tượng

h

trong cùng một nhóm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong

nhau và số lượng các nhóm là chưa biết trước.

in

các nhóm khác nhau là nhỏ nhất. Các nhóm có thể tách nhau hoặc phân cấp gối lên

cK

Mẫu đầu ra của quá trình KPDL sử dụng kỹ thuật này là các tập mẫu chứa
các dữ liệu có chung những tính chất nào đó được phân tách từ CSDL. Khi các mẫu

họ

được thiết lập, chúng có thể được sử dụng để tái tạo tập dữ liệu ở dạng dễ hiểu hơn,
đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như việc phân tích.

Đ
ại


Đối với CSDL lớn, việc lấy ra các nhóm này là rất quan trọng.
1.2.4.2.4 Phát hiện luật kết hợp

Luật kết hợp là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản. Mục

ng

tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu
trong CSDL. Mẫu đầu ra của giải thuật KPDL là tập luật kết hợp tìm được. Lấy một ví

ườ

dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và B có nghĩa
là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng bản ghi đó:

Tr

A=>B.

Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý

nghĩa. Thông tin mà dạng luật này đem lại rất có lợi trong các hệ hỗ trợ ra quyết định.
Tìm kiếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ CSDL tác
nghiệp là một trong những hướng tiếp cận chính của lĩnh vực khai phá dữ liệu.

Sinh viên thực hiện: Võ Thị Dạ Tiên

11



GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp
1.2.4.2.5. Phương pháp quy nạp/ suy diễn

Một CSDL là một kho thông tin nhưng các thông tin quan trọng hơn cũng có
thể suy diễn từ kho thông tin đó. Có 2 kỹ thuật chính để thực hiện việc này là suy diễn
và quy nạp.

uế

 Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin

trong CSDL. Ví dụ như toán tử liên kết áp dụng cho bảng quan hệ, bảng đầu chứa

tế
H

thông tin về nhân viên và phòng ban, bảng thứ hai chứa các thông tin về các phòng

ban và các trưởng phòng. Phương pháp suy diễn dựa trên các sự kiện chính xác để
suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng
phương pháp này thường là các luật suy diễn.

in

h

 Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh ra

từ CSDL. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra các tri thức chứ không

cK

phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp này đem
lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong CSDL.

họ

Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL.
1.2.4.2.6. Các phương pháp dựa trên mẫu
Sử dụng các mẫu mô tả từ CSDL để tạo nên một mô hình dự đoán các mẫu

Đ
ại

mới bằng cách rút ra những thuộc tính tương tự như các mẫu đã biết trong mô hình.
Các kỹ thuật bao gồm phân lớp theo láng giềng gần, các giải thuật hồi quy (Dasarathy
1991) và các hệ thống suy diễn dựa trên tình huống (case- based reasoning) (Kolodner

ng

1993).

ườ

Khuyết điểm của kỹ thuật này là cần phải xác định được khoảng cách, đo độ

giống nhau giữa các mẫu. Mô hình thường được đánh giá bằng phương pháp đánh giá


Tr

chéo trên các lỗi dự đoán (Weiss & Kulikowski, 1991). “Tham số” của mô hình được
đánh giá có thể bao gồm một số láng giềng dùng để dự đoán và số đo khoảng cách.
Giống như phương pháp hồi quy phi tuyến, các phương pháp này khá mạnh trong việc
đánh giá xấp xỉ các thuộc tính, nhưng lại rất khó hiểu vì mô hình không được định
dạng rõ ràng và tiềm ẩn trong dữ liệu.

12

Sinh viên thực hiện: Võ Thị Dạ Tiên


GVHD: Th.S Dương Thị Hải Phương

Khóa luận tốt nghiệp
1.2.4.2.7. Khai phá dữ liệu dạng văn bản

Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm thương
mại. Công cụ KPDL rất phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu
văn bản không định dạng. Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập

hỏi mở trong khảo sát thị trường, tìm kiếm các tài liệu phức tạp.

tế
H

1.2.4.2.8. Khai thác mẫu tuần tự

uế


tình báo,… KPDL dạng văn bản đã được sử dụng để phân tích câu trả lời cho các câu

Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời
gian. Một luật mô tả mẫu tuần tự có dạng tiêu biểu X => Y phản ánh sự xuất hiện của

báo.

cK

1.2.4.2.9. Mô hình hóa sự phụ thuộc

in

h

biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Hướng tiếp cận này có tính dự

Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến, thuộc tính
theo hai mức. Mức cấu trúc của mô hình mô tả (thường dưới dạng đồ thị), trong đó,

họ

các biến phụ thuộc bộ phận vào các biến khác. Và mức định lượng mô hình mô tả mức
độ phụ thuộc. Những phụ thuộc này thường được biểu thị dưới dạng theo luật “nếu -

Đ
ại

thì” - nếu tiền đề đúng thì kết luận đúng. Về nguyên tắc, cả tiền đề và kết luận đều có

thể là sự kết hợp logic của các giá trị thuộc tính. Trên thực tế, tiền đề thường là nhóm
các giá trị thuộc tính và kết luận chỉ là một thuộc tính. Hơn nữa, hệ thống có thể phát

ng

hiện các luật phân lớp trong đó tất cả các luật cần phải có cùng một thuộc tính do
người dùng chỉ ra trong kết luận.

ườ

1.2.4.2.10. Phát hiện sự biến đổi và độ lệch
Tập trung vào khám phá hầu hết sự thay đổi có nghĩa dưới dạng độ đo đã

Tr

biết trước hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ
liệu thực và nội dung mong đợi. Hai mô hình độ lệch hay dùng là lệch theo thời gian
và lệch theo nhóm. Độ lệch theo thời gian là sự thay đổi có ý nghĩa của dữ liệu thời
gian. Độ lệch theo nhóm là sự khác nhau của dữ liệu trong hai tập con dữ liệu, ở đây
xét cả trường hợp tập con dữ liệu này thuộc tập con kia. Nghĩa xác định dữ liệu trong

Sinh viên thực hiện: Võ Thị Dạ Tiên

13


×