Tải bản đầy đủ (.pdf) (118 trang)

Ứng dụng kĩ thuật khai phá dữ liệu vào hoạt động phân loại, chăm sóc khách hàng tại công ty cổ phần khoáng sản gạch men Thừa Thiên Huế

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.57 MB, 118 trang )

GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp
.

MỤC LỤC

MỤC LỤC .......................................................................................................................i
THUẬT NGỮ VIẾT TẮT.............................................................................................v
CÁC KÝ HIỆU SỬ DỤNG TRONG KHÓA LUẬN.................................................vi
DANH MỤC HÌNH VẼ.............................................................................................. vii
DANH MỤC BẢNG BIỂU ..........................................................................................ix
TÓM TẮT NGHIÊN CỨU ...........................................................................................x
MỞ ĐẦU.........................................................................................................................1
1. Lý do chọn đề tài......................................................................................................1
2. Mục tiêu của đề tài ...................................................................................................2
3. Đối tượng và phạm vi nghiên cứu............................................................................2
4. Phương pháp nghiên cứu..........................................................................................3
5. Cấu trúc của khóa luận.............................................................................................3
CHƯƠNG I TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ
DỮ LIỆU ........................................................................................................................4
1.1. Phát hiện tri thức ...................................................................................................4
1.1.1 Khái niệm khám phá tri thức ...........................................................................4
1.1.2 Sự cần thiết của phát hiện tri thức ...................................................................4
1.1.3 Tiến trình khai phá tri thức ..............................................................................6
1.2. Khai phá dữ liệu ....................................................................................................8
1.2.1 Khái niệm.........................................................................................................8
1.2.2 Quá trình khai phá dữ liệu ...............................................................................9
1.2.4 Các thành phần của giải thuật khai phá dữ liệu .............................................12
1.2.5 Nhiệm vụ chính của khai phá dữ liệu ............................................................13
1.2.6 Các kỹ thuật khai phá dữ liệu ........................................................................15


1.2.6.1 Cây quyết định và luật.............................................................................15
1.2.6.2 Phát hiện luật kết hợp ..............................................................................15
1.2.6.3 Các phương pháp phân lớp và hồi quy phi tuyến tính ............................16
1.2.6.4 Phương pháp quy nạp..............................................................................16
1.2.6.5 Phân nhóm và phân đoạn ........................................................................16
SVTH: Hoàng Thị Hoa

i


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

1.2.6.6 Các phương pháp dựa trên mẫu...............................................................17
1.2.6.7 Mô hình phụ thuộc dựa trên đồ thị xác suất ............................................17
1.2.6.8 Mô hình học quan hệ ...............................................................................18
1.2.6.9 Khai phá dữ liệu dạng văn bản................................................................18

uế

1.2.6.10 Mạng neuron..........................................................................................18
1.2.6.11 Giải thuật di truyền................................................................................19

tế
H

1.2.6.12 Tổng hợp hóa.........................................................................................20
1.2.7 Những ứng dụng của khai phá dữ liệu...........................................................20
1.2.8 Những thách thức trong khai phá dữ liệu ......................................................21

Chương II KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ PHÂN CỤM .......23

in

h

2.1. Luật kết hợp ........................................................................................................23
2.1.1 Các khái niệm ................................................................................................23

cK

2.1.1.1 Luật kết hợp.............................................................................................23
2.1.1.2 Độ hỗ trợ..................................................................................................23
2.1.1.3 Độ tin cậy ................................................................................................24

họ

2.1.1.4 Tập mục ................................................................................................24
2.1.2 Các tính chất ..................................................................................................24

Đ
ại

2.1.2.1 Tính chất của tập mục phổ biến .............................................................24
2.1.2.2 Tính chất của luật kết hợp .......................................................................25
2.1.3 Giới thiệu bài toán khai phá luật kết hợp.......................................................26

ng

2.1.4 Thuật toán Apriori trong luật kết hợp............................................................27

2.1.4.1 Giới thiệu thuật toán................................................................................27

ườ

2.1.4.2 Bài toán 1: xác định các tập mục phổ biến..............................................28
2.1.4.3 Bài toán 2: sinh các luật kết hợp từ tập mục phổ biến ............................30

Tr

2.2. Phân cụm dữ liệu.................................................................................................33
2.2.1 Khái niệm.......................................................................................................33
2.2.2 Các yêu cầu về thuật toán phân cụm dữ liệu .................................................36
2.2.3 Các kiểu dữ liệu trong phân cụm...................................................................37
2.2.4 Phép đo độ tương tự và khoảng cách đối với các kiểu dữ liệu ......................38
2.2.5 Thuật toán K-means trong phân cụm dữ liệu ................................................41

SVTH: Hoàng Thị Hoa

ii


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

2.2.5.1 Giới thiệu bài toán ...................................................................................41
2.2.5.2 Thuật toán K-means ................................................................................42
Chương III ỨNG DỤNG KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ
PHÂN CỤM VÀO HOẠT ĐỘNG PHÂN LOẠI, CHĂM SÓC KHÁCH


uế

HÀNG TẠI CÔNG TY CỔ PHẦN KHOÁNG SẢN GẠCH MEN THỪA
THIÊN HUẾ.................................................................................................................48

tế
H

3.1. Tổng quan về công ty cổ phần khoáng sản gạch men Thừa Thiên Huế .............48
3.1.1 Giới thiệu sơ lược ..........................................................................................48
3.1.2 Lịch sử hình thành và phát triển ....................................................................49
3.2.3 Chức năng và nhiệm vụ .................................................................................51

in

h

3.2.3.1. Chức năng..............................................................................................51
3.2.3.2. Nhiệm vụ ................................................................................................51

cK

3.2.4 Cơ cấu tổ chức bộ máy công ty .....................................................................52
3.2.4.1 Sơ đồ tổ chức bộ máy công ty.................................................................52
3.2.4.2 Quy định nhiệm vụ cụ thể của các phòng ban ........................................53

họ

3.2.4.3 Quy mô tổ chức sản xuất sản phẩm ........................................................55
3.2. Phần mềm khai phá dữ liệu RapidMiner ............................................................56


Đ
ại

3.2.1 Giới thiệu chung ............................................................................................56
3.2.2 Xây dựng luật kết hợp trong RapidMiner......................................................57
3.2.3 Xây dựng phân cụm dữ liệu trong RapidMiner.............................................59

ng

3.3. Ứng dụng khai phá luật kết hợp và phân cụm trong RapidMiner vào cơ sở dữ liệu
quản lý khách hàng tại công ty cổ phần khoáng sản gạch men Thừa Thiên Huế.............60

ườ

3.3.1 Xác định nội dung cần khai phá ....................................................................60

3.3.2 Lựa chọn dữ liệu ............................................................................................60

Tr

3.3.3 Tiền xử lý dữ liệu bài toán.............................................................................61
3.3.4 Khai phá dữ liệu với luật kết hợp bằng thuật toán Apriori............................75
3.3.4.1 Đặt tham số cho mô hình.........................................................................75
3.3.4.2 Kết quả phân tích ................................................................................... 76
3.3.4.3 Ý nghĩa của các luật kết hợp tạo được ....................................................79
3.3.5 Khai thác phân cụm dữ liệu bằng thuật toán K-means..................................84

SVTH: Hoàng Thị Hoa


iii


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

3.3.5.1 Đặt tham số cho mô hình.........................................................................84
3.3.5.2 Kết quả phân tích.....................................................................................85
3.3.5.3 Ý nghĩa của các cụm dữ liệu ...................................................................85
3.4. Một số giải pháp nâng cao hiệu quả chăm sóc khách hàng tại công ty cổ phần

uế

khoáng sản gạch men Thừa Thiên Huế......................................................................89
KẾT LUẬN ..................................................................................................................92

tế
H

1. Kết quả đạt được .................................................................................................92
2. Hạn chế của đề tài ...............................................................................................92
3. Hướng nghiên cứu tiếp theo của đề tài................................................................92
TÀI LIỆU THAM KHẢO...........................................................................................93

Tr

ườ

ng


Đ
ại

họ

cK

in

h

PHỤ LỤC

SVTH: Hoàng Thị Hoa

iv


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

THUẬT NGỮ VIẾT TẮT
Các chữ viết tắt

Ý nhgĩa
Bảo hiểm xã hội

BHYT


Bảo hiểm y tế

Conf

Confidence

CP

Cổ phần

CSDL

Cơ sở dữ liệu

DL

Dữ liệu

DNTN

Doanh nghiệp tư nhân

HĐQT

Hội đồng quản trị

Sup

tế

H

h

in

Khai phá dữ liệu
Support

Sản xuất kinh doanh

họ

SXKD

cK

KPDL

uế

BHXH

Ủy ban nhân dân

Tr

ườ

ng


Đ
ại

UBND

SVTH: Hoàng Thị Hoa

v


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

CÁC KÝ HIỆU SỬ DỤNG TRONG KHÓA LUẬN
Mô tả



Tập rỗng



Bị chứa trong



Thuộc




Không thuộc



Nhỏ hơn hoặc bằng



Lớn hơn hoặc bằng



Khác



Phép lấy giao của tập hợp

tế
H

h

in

cK

Phép lấy hợp của tập hợp


Tr

ườ

ng

Đ
ại

họ



uế

Ký hiệu

SVTH: Hoàng Thị Hoa

vi


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

DANH MỤC HÌNH VẼ
Hình 1.1: Tiến trình khai phá tri thức..............................................................................6


uế

Hình 1.2: Quy trình khai phá dữ liệu.............................................................................10

tế
H

Hình 2.1: Mô tả thuật toán Apriori ................................................................................32
Hình 2.2: Gom cụm ảnh. ...............................................................................................34
Hình 2.3: Ví dụ phân cụm. ............................................................................................34
Hình 2.4: Quá trình gom cụm........................................................................................35

h

Hình 2.5: Số cụm. ..........................................................................................................35

in

Hình 2.6: Quá trình phân cụm .......................................................................................35

cK

Hình 2.7: Sơ đồ thuật toán K-means .............................................................................42
Hình 2.8: Ví dụ minh họa thuật toán K-means..............................................................43
Hình 2.9: Khởi tạo trọng tâm.........................................................................................44

họ

Hình 2.10: Xác định tọa độ các tâm cho các nhóm mới................................................45
Hình 2.11: Lặp lại bước 5_ Xác định tọa độ các tâm cho các nhóm mới .....................46


Đ
ại

Hình 3.1: Sơ đồ tổ chức bộ máy công ty .......................................................................52
Hình 3.2: Sơ đồ quy trình sản xuất trong doanh nghiệp................................................55
Hình 3.3: Giao diện của RapidMiner ............................................................................57
Hình 3.4: Cài đặt mở rộng Weka...................................................................................57

ng

Hình 3.5: Tìm kiếm operator W-Apriori. ......................................................................58
Hình 3.6: Các tham số của thuật toán Apriori ...............................................................58

ườ

Hình 3.7: Tìm kiếm operator k-Means. .........................................................................59
Hình 3.8: Các tham số của thuật toán K-means. ...........................................................59

Tr

Hình 3.9: Biểu tượng lưu trữ dữ liệu. ............................................................................62
Hình 3.10: Nơi lưu trữ dữ liệu.......................................................................................62
Hình 3.11: Biểu tượng nơi đưa dữ liệu vào...................................................................62
Hình 3.12: Chọn file CVS. ............................................................................................63
Hình 3.13: Thiết lập cột cho các thuộc tính...................................................................64

SVTH: Hoàng Thị Hoa

vii



GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

Hình 3.14: Chú thích các thuộc tính..............................................................................65
Hình 3.15: Xác định các loại dữ liệu thuộc tính............................................................66
Hình 3.16: Lưu tên cho kho dữ liệu...............................................................................67
Hình 3.17: Cơ sở dữ liệu. ..............................................................................................68

uế

Hình 3.18: Thêm dữ liệu vào mô hình. .........................................................................68
Hình 3.19: Thông tin dữ liệu. ........................................................................................69

tế
H

Hình 3.20: Thay thế thuộc tính 1...................................................................................70
Hình 2.21: Thay thế thuộc tính 2...................................................................................70
Hình 3.22: Chia khoảng của miền giá trị.......................................................................70
Hình 3.23: Thực hiện câu lệnh if chia ra làm 3 khoảng của miền

giá trị

in

h


Gia_thanh_toan..............................................................................................................71
Hình 3.24: Thực hiện câu lệnh if của miền giá trị So_luong. .......................................72

cK

Hình 3.25: Thêm một toán tử chuyển đổi kiểu dữ liệu một mô hình khai thác
dữ liệu............................................................................................................................73
Hình 3.26: Các kết quả của một sự chuyển đổi kiểu dữ liệu.........................................73

họ

Hình 3.27: Thay thế thuộc tính Danh_gia_KH .............................................................73
Hình 3.28: Thay thế thuộc tính Phan_loai_SL ..............................................................74

Đ
ại

Hình 3.29: Lựa chọn các thuộc tính bao gồm trong mô hình........................................74
Hình 3.30: Kết quả dữ liệu sau khi tiền xử lý xong thuộc tính. ....................................75
Hình 3.31: Tham số mô hình thuật toán W-Apriori ......................................................76

ng

Hình 3.32: Phân cụm K-means......................................................................................84
Hình 3.33: Lọc ra kết quả cụm 0. ..................................................................................85

ườ

Hình 3.34: Kết quả phân cụm theo cụm 0. ....................................................................86
Hình 3.35: Kết quả phân cụm theo cụm 1. ....................................................................87


Tr

Hình 3.36: Kết quả phân cụm theo cụm 2. ....................................................................88

SVTH: Hoàng Thị Hoa

viii


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

DANH MỤC BẢNG BIỂU
Bảng 2.1: Cơ sở dữ liệu giao dịch .................................................................................32

uế

Bảng 2.2: Các luật được tạo ra ......................................................................................33

tế
H

Bảng 2.3: Bảng tham số thuộc tính nhị phân ................................................................39

Tr

ườ


ng

Đ
ại

họ

cK

in

h

Bảng 2.4: Ví dụ thuật toán K-means .............................................................................44

SVTH: Hoàng Thị Hoa

ix


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

TÓM TẮT NGHIÊN CỨU
Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trong
kinh doanh thì vấn đề tìm ra các thông tin hữu ích trong các cơ sở dữ liệu khổng lồ

uế


ngày càng trở thành mục tiêu quan trọng của các công ty. Khai phá dữ liệu dần trở
thành công cụ chính để thực thi nhiệm vụ đó, từ cơ sở dữ liệu sẵn có phải tìm ra những

tế
H

thông tin tiềm ẩn một cách nhanh chóng có giá trị. Công ty cổ phần khoáng sản gạch
men Thừa Thiên Huế chuyên sản xuất các loại gạch men sứ nhằm phục vụ nhu cầu cho
khách hàng trên thị trường, muốn lưu trữ và khai thác những thông tin hữu ích từ

h

CSDL khách hàng đó để công ty hiểu hơn về khách hàng nhằm có những chính sách

in

chăm sóc khách hàng. Từ lý do đó, đề tài “Ứng dụng kĩ thuật khai phá dữ liệu vào hoạt
động phân loại, chăm sóc khách hàng tại công ty cổ phần khoáng sản gạch men Thừa

cK

Thiên Huế” được chọn triển khai thực hiện.

Khóa luận đã trình bày các kiến thức cơ bản nhất của lý thuyết khai phá dữ liệu,
lý thuyết về luật kết hợp; thuật toán Apriori trong khai phá luật kết hợp và lý thuyết về

họ

phân cụm dữ liệu; Thuật toán K-means trong phân cụm dữ liệu. Khóa luận lấy thông
tin của khách hàng tại công ty cổ phần khoáng sản gạch men Thừa Thiên Huế để giải


Đ
ại

quyết bài toán. Sử dụng phần mềm khai phá dữ liệu RipidMiner để tiền xử lý dữ liệu
khách hàng và vận dụng thuật toán Apriori, thuật toán K-means nhằm đưa ra mối liên
hệ giữa các giá trị dữ liệu. Qua kết quả thu được từ luật kết hợp và phân cụm dữ liệu,

ng

rút ra một số nhận xét chung về thông tin thu được. Từ đó đưa ra một số giải pháp hỗ

Tr

ườ

trợ chăm sóc khách hàng của công ty.

SVTH: Hoàng Thị Hoa

x


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

MỞ ĐẦU

1. Lý do chọn đề tài

Ngày nay, khi xã hội ngày càng phát triển thì lượng thông tin càng tăng lên với

uế

tốc độ bùng nổ. Lượng dữ liệu khổng lồ ấy là một nguồn tài nguyên vô giá nếu như

chúng ta biết cách phát hiện và khai thác những thông tin hữu ích có trong đó. Như

tế
H

vậy vấn đề đặt ra với dữ liệu của chúng ta là việc lưu trữ và khai thác chúng. Các

phương pháp khai thác dữ liệu truyền thống ngày càng không đáp ứng được nhu cầu
thực tế. Một khuynh hướng kỹ thuật mới ra đời đó là Kỹ thuật Khai phá dữ liệu và

h

khám phá tri thức. Công nghệ khai phá dữ liệu ra đời đã cho phép ta khai thác được

in

những tri thức hữu dụng bằng việc trích xuất những thông tin có mối quan hệ hoặc mối
tương quan nhất định từ một kho dữ liệu lớn (cực lớn) mà bình thường không thể nhận

cK

diện được từ đó giải quyết các bài toán tìm kiếm, phân loại, dự báo các xu thế, các
hành vi trong tương lai, và nhiều tính năng thông minh khác. Ngày nay, các công nghệ


họ

khai phá dữ liệu được ứng dụng rộng rãi trong hầu hết các lĩnh vực: phân tích dữ liệu,
dự báo, marketing, y học…

Đặc biệt trong lĩnh vực kinh doanh, việc ứng dụng công nghệ khai phá dữ liệu

Đ
ại

vào trong việc quản lý là một trong những yếu tố quan trọng góp phần vào việc thành
công của công ty. Trong quá trình hoạt động kinh doanh, các dữ liệu của công ty phát
sinh ngày càng nhiều. Để tận dụng nguồn dữ liệu này sử dụng cho những mục đích

ng

kinh doanh của công ty đòi hỏi phải phát triển khai phá dữ liệu để có thể thống kê, báo
cáo, hỗ trợ ra các quyết định hay phân tích số liệu nhằm phân loại, chăm sóc khách

ườ

hàng… Khai phá dữ liệu là lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích đồng
thời có ưu thế hơn hẳn so với các công cụ phân tích truyền thống.

Tr

Đối với Công ty cổ phần- khoáng sản gạch men Thừa Thiên Huế trong bối cảnh
thị trường biến động phức tạp và xu thế hội nhập như hiện nay, công ty gặp rất nhiều
khó khăn. Do đó vấn đề cốt lõi của công ty hiện nay là phải có định hướng phát triển
lâu dài thông qua chiến lược kinh doanh đúng đắn để đưa ra chính sách, quyết định

phù hợp với những biến động về hành vi nhu cầu của khách hàng. Công ty với bề dày
hoạt động lâu năm thì lượng thông tin về khách hàng vô cùng lớn. Với lượng lớn thông

SVTH: Hoàng Thị Hoa

1


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

tin như vậy muốn lưu trữ và khai thác được những thông tin hữu ích từ CSDL khách
hàng đó cần khai phá dữ liệu và phân tích để phân cụm khách hàng, các phân đoạn
khách hàng cho phép xác định và mô tả đặc điểm các nhóm khách hàng điển hình.
Nhiệm vụ này rất có ích để phát triển các sản phẩm phù hợp với yêu cầu của khách

uế

hàng cụ thể (kích thước gạch men, cung cách đóng gói, mẫu mã, hình dáng…), giúp
hiểu hơn về những nhu cầu khác nhau của từng nhóm khách hàng này. Từ đó giúp
người quản lý đưa ra những chính sách, kế hoạch, giải pháp hỗ trợ chăm sóc từng

tế
H

nhóm khách hàng giúp công ty thu hút khách hàng và nâng cao được vị trí cạnh tranh.

Trước thực tế đó, em chọn thực hiện đề tài: “Ứng dụng kĩ thuật khai phá dữ liệu
vào hoạt động phân loại, chăm sóc khách hàng tại công ty cổ phần khoáng sản gạch

men Thừa Thiên Huế.”

h

2. Mục tiêu của đề tài

in

2.1 Mục tiêu chung

Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hàng truyền

cK

thống,…) sử dụng sản phẩm gạch men tại Công ty cổ phần- khoáng sản gạch men
Thừa Thiên Huế và hiểu được nhu cầu cũng như hành vi mua hàng của từng nhóm
khách hàng giúp công ty có chiến lược kinh doanh, những chính sách và giải pháp
2.2 Mục tiêu cụ thể

họ

nâng cao hiệu quả chăm sóc từng nhóm khách hàng.

Đ
ại

- Tìm hiểu về lý thuyết khai phá dữ liệu, các kỹ thuật khai phá dữ liệu, đặc biệt
là kỹ thuật phân cụm; thuật toán K-means trong phân cụm dữ liệu và luật kết hợp;
thuật toán Apriori trong khai phá luật kết hợp.
- Tìm hiểu cách thức sử dụng phần mềm RapidMiner.


ng

- Nghiên cứu vận dụng kỹ thuật phân cụm và luật kết hợp trong RapidMiner

vào CSDL khách hàng tại công ty cổ phần- khoáng sản gạch men Thừa Thiên Huế để

ườ

phân nhóm và dự đoán hành vi khách hàng.
3. Đối tượng và phạm vi nghiên cứu

Tr

3.1. Đối tượng nghiên cứu
 Lý thuyết khai phá dữ liệu.
 Thuật toán K-means trong phân cụm và thuật toán Apriori trong luật kết hợp.
 Phần mềm RapidMiner.
 Thông tin khách hàng của Công ty cổ phần- khoáng sản gạch men Thừa Thiên Huế.

SVTH: Hoàng Thị Hoa

2


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

3.2 Phạm vi nghiên cứu

3.2.1 Không gian:
Công ty cổ phần- khoáng sản gạch men Thừa Thiên Huế
3.2.2 Thời gian:
Từ ngày 10/02/2014 đến ngày 10/05/2014

uế

4. Phương pháp nghiên cứu

- Phương pháp nghiên cứu lý luận: thu thập, đọc hiểu, phân tích dữ liệu, thông

tế
H

tin từ các tài liệu, giáo trình, tạp chí, báo cáo khoa học,…liên quan đến khai phá dữ
liệu, các kỹ thuật khai phá dữ liệu.

- Phương pháp thu thập số liệu: sử dụng số liệu thứ cấp (từ phòng ban của công
ty cổ phần khoáng sản gạch men Thừa Thiên Huế).

in

h

- Phương pháp phân tích dữ liệu: vận dụng luật kết hợp và kỹ thuật phân cụm
trong phần mềm KPDL RapidMiner, trong đó CSDL bao gồm thông tin khách hàng,
5. Cấu trúc của khóa luận

cK


doanh thu bán hàng.

Ngoài phần mở đầu và kết luận, khóa luận bao gồm 3 chương được tổ chức như sau:

họ

Chương I: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
Trình bày tổng quan về khám phá tri thức và khai phá dữ liệu.
Chương II: KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ PHÂN CỤM

Đ
ại

Nội dung chính của chương này bao gồm: Tìm hiểu luật kết hợp; thuật toán
Apriori trong khai phá luật kết hợp; Tìm hiểu phân cụm dữ liệu; Thuật toán K-means
trong phân cụm dữ liệu.

Chương III: ỨNG DỤNG KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ

ng

PHÂN CỤM VÀO HOẠT ĐỘNG PHÂN LOẠI, CHĂM SÓC KHÁCH HÀNG TẠI
CÔNG TY CỔ PHẦN KHOÁNG SẢN GẠCH MEN THỪA THIÊN HUẾ

ườ

Trình bày tổng quan về Công ty cổ phần- khoáng sản gạch men Thừa Thiên Huế;
tìm hiểu phần mềm khai phá dữ liệu RapidMiner; kết quả khai phá dữ liệu bằng thuật

Tr


toán Apriori và kết quả khai phá dữ liệu bằng thuật toán K-means; một số giải pháp
được kiến nghị hỗ trợ quản lý khách hàng.

SVTH: Hoàng Thị Hoa

3


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

CHƯƠNG I
TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ

uế

KHAI PHÁ DỮ LIỆU

1.1. Phát hiện tri thức

tế
H

1.1.1 Khái niệm khám phá tri thức

Thông tin là một khái niệm rất rộng, khó có thể đưa ra một định nghĩa chính xác
cho khái niệm này. Cũng không thể định nghĩa cho khái niệm tri thức cho dù chỉ hạn
chế trong phạm vi những tri thức được chiết xuất từ các CSDL. Tuy nhiên, chúng ta có


h

thể coi tri thức như là các thông tin được tích hợp, bao gồm các sự kiện và các mối

in

quan hệ giữa chúng. Các mối quan hệ này có thể được nhận biết, phát hiện hay học

cK

được. Nói cách khác tri thức có thể được coi là dữ liệu có độ trừu tượng và tổ chức
cao. Nếu xét trong ngữ cảnh của ngôn ngữ thì có thể hiểu tri thức là một biểu thức
trong một ngôn ngữ nào đó diễn tả một (hoặc nhiều) mối quan hệ giữa các thuộc tính

họ

trong các dữ liệu đó. Các ngôn ngữ thường được dùng để biểu diễn tri thức (trong việc
phát hiện tri thức từ các CSDL) là các khung (frames), các cây và đồ thị, các luật

Đ
ại

(rules), các công thức trong ngôn ngữ logic mệnh đề hoặc tân từ cấp một, các hệ thống
phương trình,… Ví dụ như ta có các luật mô tả các thuộc tính của dữ liệu, các mẫu
thường xuyên xảy ra, các nhóm đối tượng trong CSDL…
Khám phá tri thức – một lĩnh vực học thuật đang phát triển nhanh chóng kết hợp

ng


với quản trị CSDL, khoa học thống kê, máy học và các lĩnh vực có liên quan mà mục

ườ

tiêu cuối cùng của nó là trích rút ra những tri thức hữu ích từ tập các dữ liệu lớn. Khám
phá tri thức có thể hiểu theo nhiều khía cạnh khác nhau, nhưng tựu chung lại chúng ta

Tr

có thể khái niệm Khám phá tri thức như sau:
Khám phá tri thức trong CSDL là một quá trình của việc xác định giá trị, cái mới

lạ, tri thức tiềm ẩn và tri thức cuối cùng của các khuôn mẫu/ mô hình trong dữ liệu.
1.1.2 Sự cần thiết của phát hiện tri thức
Có rất nhiều lí do để giải thích sự cần thiết của việc khám phá tri thức – Khai phá
dữ liệu, điển hình là:

SVTH: Hoàng Thị Hoa

4


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

- Có rất nhiều tổ chức tập hợp quá nhiều dữ liệu, vậy họ phải làm gì với chúng.
- Con người lưu trữ dữ liệu bởi vì họ cho rằng một số giá trị hữu ích được mã
hóa hoàn toàn trong dữ liệu.
- Trong kinh doanh, cần thu thập các thông tin về thị trường, về các đối thủ và


ưu nhất phục vụ cho mục đích cải tiến quy trình và giải quyết các sự cố.

uế

về khách hàng. Trong sản xuất, cần thu thập các dữ liệu về thời điểm hiệu quả và tối

tế
H

- Chỉ có một phần nhỏ dữ liệu (khoảng 5 đến 10%) là luôn được phân tích.
- Sự gia tăng của dữ liệu cản trở các phương pháp phân tích truyền thống.

- Giá trị dữ liệu là quá lớn đối với cách thức phân tích cổ điển. Chúng ta có thể
không bao giờ nhìn thấy chúng một cách trọn vẹn hoặc không thể lưu trữ trong bộ nhớ.

cấu trúc, trong các quy luật tiềm ẩn.

in

h

- Dữ liệu cần tìm kiếm không tồn tại dưới dạng tường minh mà dưới dạng phi

cK

- Sự phát triển của mạng máy tính đã gia tăng khả năng truy cập vào dữ liệu.
- Người sử dụng cuối không phải là nhà thống kê đơn thuần, họ cần biết tri thức
CSDL mà họ đang lưu trữ.


họ

- Sự cần thiết phải nhanh chóng ra quyết định vá phản ứng lại những cơ hội xuất
hiện trước các đối thủ của mình.

Đ
ại

- Cùng với việc lớn lên của CSDL, khả năng để đưa ra quyết định và hỗ trợ
phân tích là không thể thực hiện được với truy vấn khách hàng truyền thống (SQL).
- Rất nhiều kiểu câu truy vấn mà con người quan tâm là rất khó thực hiện hay

ng

miêu tả trong ngôn ngữ vấn tin, đại loại như:
 Tìm tất cả các bản ghi nghi là gian lận.

ườ

 Tìm tất cả các bản ghi tương tự như các bảng ghi trong bảng X.

Tr

- Một số vấn đề với dạng thức truy vấn:
 Không thể tối ưu hóa thông qua truy vấn.
 Không có nhiều thông tin trong các trường của CSDL hoặc trong các phương

pháp thống kê cổ điển.

SVTH: Hoàng Thị Hoa


5


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

1.1.3 Tiến trình khai phá tri thức
Mục đích của quá trình khai phá tri thức: Từ những cơ sở dữ liệu ngoài cuộc sống
thực tế sau một hoặc một số bước của quá trình sẽ rút ra được những tri thức mới. Các

2

h

Chuẩn bị dữ liệu,
thu thập dữ liệu

tế
H

1

3

cK

Tiền xử lý dữ liệu


in

Xác định chính
xác vấn đề cần
giải quyết sau đó
tìm hiểu nghiệp vụ
và dữ liệu cho vấn
đề cần giải quyết

uế

bước trong quá trình này có thể lặp đi lặp lại nhiều lần và được mô tả theo hình sau:

4

Lựa chọn giải
thuật KPDL phù
hợp

5

Tiến hành KPDL

6

Hậu xử lý và đánh
giá mô hình

7


Triển khai tri thức

Tr

ườ

ng

Đ
ại

họ

Lựa chọn chức
năng KPDL

Hình 1.1: Tiến trình khai phá tri thức

SVTH: Hoàng Thị Hoa

6

8


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trên

phản hồi từ kết quả của các giai đoạn sau:
(1) Xác định chính xác vấn đề cần giải quyết và tìm hiểu nghiệp vụ và dữ liệu:
Xác định chính xác vấn đề cần giải quyết (xác định và hình thành bài toán của ứng

uế

dụng) sau đó nghiên cứu kiến thức về lĩnh vực sẽ áp dụng, bao gồm các tri thức, cấu
trúc về hệ thống và tri thức, các nguồn dữ liệu hữu hiệu, ý nghĩa, vai trò và tầm quan

tế
H

trọng của các thực thể dữ liệu. Xác định các nhiệm vụ cần phải hoàn thành. Bước này
sẽ quyết định cho việc rút ra được các tri thức hữu hiệu và cho phép chọn các phương
pháp KPDL thích hợp với mục đích ứng dụng và bản chất của DL.

(2) Chuẩn bị dữ liệu và thu thập: Chuẩn bị và thu thập DL phù hợp với mục đích đề ra.

liệu, bước này gồm một số công việc sau:

in

h

(3) Tiền xử lý dữ liệu: Là thu thập và xử lý thô, hay còn được gọi là tiền xử lý dữ

cK

Làm sạch dữ liệu: Loại bỏ DL nhiễu, DL dư thừa không phù hợp.
Làm giàu dữ liệu: Các DL bị thiếu/mất sẽ được thay thế bởi các giá trị thích hợp.

Làm giảm chiều: Các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt.

họ

Biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết: bước này thường chiếm nhiều
thời gian nhất trong toàn bộ qui trình phát hiện tri thức. Do DL được lấy từ nhiều

Đ
ại

nguồn khác nhau, không đồng nhất, có thể gây ra các nhầm lẫn. Sau bước này, DL sẽ
nhất quán, đầy đủ, được rút gọn và rời rạc hóa.
Mục đích của bước này là xử lý DL sao cho giải thuật khai phá hiểu được.

ng

(4) Lựa chọn chức năng khai phá dữ liệu: Tóm tắt hóa (summarization), phân

loại/phân lớp, hồi quy/dự đoán, kết hợp, phân cụm.

ườ

(5) Lựa chọn giải thuật khai phá dữ liệu: Trong giai đoạn này, chọn thuật toán

KPDL thích hợp cho ứng dụng. Đây là một công việc không kém phần quan trọng.

Tr

Một ứng dụng chạy tốt, kết quả chính xác là nhờ thuật toán hiệu quả.
(6) Khai phá dữ liệu, rút ra các tri thức: Là KPDL hay nói cách khác là trích ra


các mẫu hoặc/ và các mô hình ẩn dưới các DL. Giai đoạn này rất quan trọng, bao gồm
các công đoạn như: Chức năng, nhiệm vụ và mục đích của KPDL, dùng phương pháp
khai phá nào? Thông thường, các bài toán KPDL bao gồm; Các bài toán mang tính mô
SVTH: Hoàng Thị Hoa

7


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

tả- đưa ra tính chất chung nhất của DL, các bài toán dự đoán bao gồm cả việc phát
hiện các suy diễn dựa trên DL hiện có. Tùy theo bài toán xác định được mà ta lựa chọn
các phương pháp KPDL cho phù hợp.
(7) Hậu xử lý và đánh giá mẫu mô hình: Hiển thị hóa, chuyển đổi, bỏ đi các mẫu

uế

dư thừa. Trong bước này có thể tư vấn các chuyên gia để loại bỏ những mô hình dư

tế
H

thừa, không hợp với ứng dụng là rất cần thiết.

(8) Triển khai tri thức là sử dụng các tri thức phát hiện được: là hiểu tri thức đã
tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán.


Các quy trình trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được

h

lấy trung bình trên tất cả các lần thực hiện. Các kết quả của quá trình phát hiện tri thức

in

có thể được đưa và ứng dụng trong các lĩnh vực khác nhau. Do các kết quả có thể là

cK

các dự đoán hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra
quyết định nhằm tự động hóa quá trình này. Tham gia chính trong quá trình KPDL là
các nhà tư vấn và nhà phát triển chuyên nghiệp trong lĩnh vực KPDL.

1.2.1 Khái niệm

họ

1.2. Khai phá dữ liệu

Đ
ại

Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của
thập kỷ 1980. Cụm từ “khai phá dữ liệu” nó bao hàm một loạt các kỹ thuật nhằm phát
hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn.

ng


Khái niệm khám phá tri thức và khai phá dữ liệu được các nhà khoa học xem là

tương đương nhau. Tuy nhiên, nếu phân chia một cách rành mạch và chi tiết thì KPDL

ườ

là một bước chính trong quá trình khám phá tri thức.
Khám phá tri thức trong CSDL là lĩnh vực liên quan đến nhiều ngành như: tổ

Tr

chức dữ liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật toán, trí tuệ
nhân tạo, tính toán song song và hiệu năng cao. Các kỹ thuật chính áp dụng trong
khám phá tri thức phần lớn được thừa kế từ các ngành này.

SVTH: Hoàng Thị Hoa

8


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

* Một số định nghĩa về khai phá dữ liệu:
Định nghĩa của giáo sư Tom Mitchell: “khai phá dữ liệu là việc sử dụng dữ liệu
lịch sử để khám phá những quy tắc và cải thiện những quyết định trong tương lai.”
Định nghĩa của Ferruzza: “khai phá dữ liệu là tập hợp các phương pháp được


uế

dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các

tế
H

mẫu chưa biết bên trong dữ liệu”

Định nghĩa của Parsaye: “khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”
Với cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu; “khai phá dữ liệu

h

thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình

in

trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng

cK

các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”

Còn các nhà Thống kê thì xem “Khai phá dữ liệu như là một quá trình phân tích
được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích

họ


hợp và/ hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức
hóa các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con

Đ
ại

mới của dữ liệu”.

1.2.2 Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu được tiến hành qua 6 bước như hình 1.2. Theo đó,

ng

bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra.
Về lý thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khó

ườ

khăn và gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lăp

Tr

lại toàn bộ quá trình,…

SVTH: Hoàng Thị Hoa

9


GVHD: ThS.Dương Thị Hải Phương


Khóa luận tốt nghiệp

Interpretation
/Evaluation
Data mining

uế

Transformation

tế
H

Preprocessing

Patterns/
Models

Selection

Kn
ow
led
ge

Transformed
data
Preprocessed
data


in

Target data

h

Gathering

cK

Data

Hình 1.2: Quy trình khai phá dữ liệu

họ

Bước 1: Gom dữ liệu (Gathering)

Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước
được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các

Đ
ại

nguồn ứng dụng Web.

Bước 2: Trích lọc dữ liệu (Selection)
Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu cuẩn nào


ng

đó, ví dụ chọn tất cả những người có giới tính là Nữ và có chiều cao từ 1m6 trở lên.
Bước 3: Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing,

ườ

Preprocessing and Preparation)
Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước

Tr

rất quan trọng trong quá trình KPDL. Một số lỗi thường mắc phải trong khi gom dữ
liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa
và không có khả năng kết nối dữ liệu. Giai đoạn này sẽ tiến hành xử lý những dạng dữ
liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như là thông tin dư
thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu

SVTH: Hoàng Thị Hoa

10


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

không được “làm sạch – tiền xử lý – chuẩn bị trước” thì sẽ gây nên những kết quả sai
lệch nghiêm trọng.
Bước 4: Chuyển đổi dữ liệu (Transformation)

Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều

uế

khiển được bởi việc tổ chức lại nó, dữ liệu đã được chuyển đổi phù hợp với mục đích
khai thác.

tế
H

Bước 5: Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)

Đây là bước mang tính tư duy trong KPDL. Ở giai đoạn này nhiều thuật toán
khác nhau được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng là
phân loại, kết hợp hoặc các mô hình dữ liệu tuần tự,…

in

h

Bước 6: Đánh giá kết quả mẫu (Evaluation of Result)

Đây là giai đoạn cuối trong quá trình KPDL. Ở giai đoạn này, các mẫu dữ liệu

cK

được chiết xuất ra bởi phần mềm KPDL. Không phải bất cứ mẫu dữ liệu nào cũng đều
hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá
để chiết xuất ra các tri thức (Knowledge) cần chiết xuất ra.


được quan tâm nhiều nhất.

họ

Trên đây là 6 giai đoạn trong quá trình KPDL, trong đó giai đoạn 5 là giai đoạn

Đ
ại

1.2.3 Các dạng dữ liệu có thể khai phá
Như chúng ta đã biết, tri thức của nhân loại là tổng hòa của các mối quan hệ, liên
quan mật thiết, logic với nhau và được lưu trữ dưới các dạng dữ liệu này hay dữ liệu

ng

kia. Trong thực tế có rất nhiều mô hình CSDL, tuy nhiên, trong các lĩnh vực ứng dụng
cụ thể khác nhau, chúng ta có thể có thể định nghĩa và phân biệt ra rất nhiều dạng dữ

ườ

liệu sao cho thuận lợi nhất trong quá trình sử dụng. Khai phá dữ liệu có khả năng chấp
nhận một số kiểu dữ liệu như sau:

Tr

- Cơ sở dữ liệu quan hệ (relational databases): là các dữ liệu tác nghiệp được tổ

chức theo mô hình dữ liệu quan hệ rất phổ biến trong nhiều ngành, có giá trị lịch sử
cũng như thực tiễn rất to lớn, do đó, hầu hết các hệ quản trị CSDL đều được hỗ trợ
dạng cơ sở dữ liệu quan hệ như Oracle, MS SQL Sever, MS Access…

- Cơ sở dữ liệu đa chiều (multidimention structures, data warehouses, data
mart): là các kho dữ liệu được tập hợp và chọn lọc từ nhiều nguồn dữ liệu khác nhau.
SVTH: Hoàng Thị Hoa

11


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

Dạng dữ liệu này chủ yếu phục vụ cho quá trình phân tích cũng như khám phá tri thức
và hỗ trợ quá trình ra quyết định.
- Cơ sở dữ liệu giao tác – giao dịch (transactional databases): đây cũng là dạng
dữ liệu tác nghiệp có các bản ghi thường là các giao tác. Dạng dữ liệu này cũng phổ

uế

biến hiện nay.

dữ liệu lai giữa hai mô hình quan hệ và hướng đối tượng.

tế
H

- Cơ sở dữ liệu quan hệ - hướng đối tượng (object relational databases): là dạng

- Dữ liệu không gian, thời gian và chuỗi thời gian (spatial, temporal, and timeseries data): là dạng dữ liệu có tích hợp thuộc tính về không gian như dữ liệu bản đồ
mạng cáp điện thoại hoặc thời gian như dữ liệu cước điện thoại, phát hành báo chí, chỉ


in

h

số chứng khoán…

- Cơ sở dữ liệu đa phương tiện (multimedia databases): là dạng dữ liệu âm

cK

thanh (audio), hình ảnh (video),Text & WWW, …dạng dữ liệu này đang rất phong
phú, đa dạng và được phổ biến rộng rãi nhất là trên internet.
1.2.4 Các thành phần của giải thuật khai phá dữ liệu

họ

Giải thuật khai phá dữ liệu gồm ba thành phần chính:
Biểu diễn mô hình: Mô hình được biểu diễn bằng một ngôn ngữ L để mô tả

Đ
ại

các mẫu có thể khai thác được. Nếu mô hình mô tả quá hạn chế thì sẽ không thể học
được hoặc sẽ không có các mẫu tạo ra được một mô hình chính xác cho dữ liệu. Tuy
nhiên, khả năng mô tả của mô hình càng lớn thì càng tăng mức độ nguy hiểm do bị

ng

học quá và làm giảm khả năng dự đoán của các dữ liệu chưa biết. Do đó, việc quan
trọng là người phân tích dữ liệu và thiết kế giải thuật cần phải hiểu đầy đủ các giả thiết


ườ

mô tả và cần phải diễn tả được các giả thiết mô tả nào được tạo ra từ luật nào.
Đánh giá mô hình: Đánh giá xem một mẫu có đáp ứng được các tiêu chuẩn

Tr

của quá trình phát hiện tri thức hay không. Việc đánh giá độ chính xác dự đoán được
thực hiện dựa trên đánh giá chéo (cross validation). Đánh giá chất lượng liên quan đến
độ chính xác dự đoán, độ mới, khả năng sử dụng, khả năng hiểu được của mô hình. Có
thể sử dụng chuẩn thống kê và chuẩn logic để đánh giá mô hình.
Phương pháp tìm kiếm: Phương pháp tìm kiếm gồm hai thành phần: tìm kiếm
tham số và tìm kiếm mô hình.
SVTH: Hoàng Thị Hoa

12


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

- Trong tìm kiếm tham số, giải thuật cần tìm kiếm các tham số để tối ưu hóa các
tiêu chuẩn đánh giá mô hình với các dữ liệu quan sát được và một miêu tả mô hình đã
định trước.
- Tìm kiếm mô hình thực hiện giống như một vòng lặp qua phương pháp tìm

uế


kiếm tham số, miêu tả mô hình bị thay đổi tạo nên một họ các mô hình. Với mỗi một
miêu tả mô hình, phương pháp tìm kiếm tham số được thực hiện để đánh giá chất

tế
H

lượng mô hình. Các phương pháp tìm kiếm mô hình thường sử dụng các phương pháp

tìm kiếm heuristic vì kích thước của không gian tìm kiếm các mô hình thường ngăn
cản các kỹ thuật tìm kiếm tổng thể.
1.2.5 Nhiệm vụ chính của khai phá dữ liệu

in

h

Đối với khai phá dữ liệu, có hai bài toán chính là:

nhất của dữ liệu mẫu.

cK

- Bài toán mô tả (description): Đưa ra mô hình biểu thị những tính chất chung

- Bài toán khai phá dự báo (Prediction): Suy diễn dựa trên dữ liệu mẫu hiện có
để đưa ra một kết quả nào đó.

họ

Như vậy, có thể coi mục đích chính của khai phá dữ liệu là mô tả và dự báo.

Các mẫu được phát hiện nhằm vào hai mục đích này. Bài toán dự báo liên quan đến

Đ
ại

việc sử dụng các biến hoặc các trường trong CSDL để chiết xuất ra các mẫu, trên cơ sở
đó dự đoán các giá trị chưa biết hoặc giá trị tương lai của các biến đáng quan tâm. Bài
toán mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu có thể hiểu được cho các

ng

ứng dụng thực tế.

Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ liệu bao gồm

ườ

các vấn đề sau:

Phân lớp: Phân lớp là việc chọn một hàm ánh xạ (hay phân loại) một mẫu dữ

Tr

liệu vào một trong số các lớp đã xác định (hand 1981; Weiss & Kulikowski 1991;
McLachlan 1992). Ví dụ về việc sử dụng phương pháp phân lớp trong KPDL là ứng
dụng phân lớp các xu hướng trong thị trường tài chính (Apte & Hong) và ứng dụng tự
động xác định các đối tượng đáng quan tâm trong các CSDL ảnh lớn (Fayyad,
Djorgoski & Weir).

SVTH: Hoàng Thị Hoa


13


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

 Hồi quy: hồi quy là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một
biến dự đoán có giá trị thực. Có rất nhiều ứng dụng KPDL với nhiệm vụ hồi quy, ví dụ
như đánh giá khả năng tử vong của bệnh nhân biết các kết quả xét nghiệm chẩn đoán,
dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chỉ tiêu quảng cáo, dự đoán

uế

theo thời gian với các biến đầu vào là các giá trị của mẫu dự đoán trong quá khứ, vv…
 Phân nhóm: là việc mô tả chung để tìm ra các tập xác định các nhóm hay các

tế
H

loại để mô tả dữ liệu (Titterington, Smith & Makov 1985; Jain & Dubes 1988). Các

nhóm có thể tách riêng nhau hoặc phân cấp hoặc gối lên nhau. Có nghĩa là một dữ liệu
có thể vừa thuộc nhóm này, vừa thuộc nhóm kia. Các ứng dụng KPDL có nhiệm vụ

h

phân nhóm như: phát hiện tập các khách hàng có phản ứng giống nhau trong CSDL


in

tiếp thị, xác định các loại quang phổ từ các phương pháp đo tia hồng ngoại
(Cheeseman & Stutz).

cK

 Tóm tắt: Liên quan đến các phương pháp tìm kiếm một mô tả tóm tắt cho một
tập con dữ liệu. Ví dụ như việc lập bảng các độ lệch chuẩn và trung bình cho tất cả các
trường. Các phương pháp phức tạp hơn liên quan đến nguồn gốc của các luật tóm tắt

họ

(Agrawal và cộng sự), khai thác mối liên hệ hàm giữa các bên (Zembowicz &
Zytkow). Các kỹ thuật tóm tắt thường được áp dụng cho các phân tích dữ liệu tương

Đ
ại

tác có tính thăm dò và tạo báo cáo tự động.
 Mô hình hóa phụ thuộc: bao gồm việc tìm kiếm một mô hình mô tả sự phụ
thuộc đáng kể giữa các biến. Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu

ng

trúc của mô hình xác định (thường ở dạng đồ họa) các biến nào là phụ thuộc cục bộ
với nhau, mức định lượng của một mô hình xác định độ mạnh của sự phụ thuộc theo

ườ


một thước đo nào đó. Ví dụ như các mạng phụ thuộc xác suất sử dụng độc lập có điều
kiện để xác định khía cạnh có cấu trúc của một mô hình và các xác suất hoặc tương

Tr

quan để xác định độ mạnh của sự phụ thuộc (Heckerman; Glymour và cộng sự,1987).
Các mạng phụ thuộc xác suất đang ngày càng tìm thấy nhiều ứng dụng trong các lĩnh
vực khác nhau như phát triển các hệ chuyên gia y tế áp dụng tính xác suất từ các
CSDL, thu thập thông tin, mô hình hóa gen di truyền của người.

SVTH: Hoàng Thị Hoa

14


GVHD: ThS.Dương Thị Hải Phương

Khóa luận tốt nghiệp

 Phát hiện sự thay đổi và lạc hướng: Tập trung vào khai thác những thay đổi đáng
kể nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó (Berndt & Cliffort; Guyon
và cộng sự; Klosegen; Matheus và cộng sự; Basseville & Nikiforov 1993).
Vì các nhiệm vụ khác nhau này yêu cầu số lượng và các dạng thông tin rất khác

uế

nhau nên chúng thường ảnh hưởng đến việc thiết kế và chọn giải thuật KPDL khác
nhau. Ví dụ giải thuật tạo cây quyết định tạo ra được một mô tả phân biệt được các

tế

H

mẫu giữa các lớp nhưng không có các tính chất và đặc điểm của lớp.
1.2.6 Các kỹ thuật khai phá dữ liệu
1.2.6.1 Cây quyết định và luật

h

- Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm

in

phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được dán nhãn
là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mô

cK

tả các lớp khác nhau. Các đối tượng phân lớp theo các đường đi trên cây, qua các cạnh
tương ứng với các giá trị của thuộc tính của đối tượng tới lá.
- Tạo luật: Các luật được tạo ra nhằm suy diễn một số dữ liệu có ý nghĩa về mặt

họ

thống kê. Các luật có dạng nếu P thì Q, với P là mệnh đúng với một phần trong CSDL,
Q là mệnh đề dự đoán. Ví dụ ta có một mẫu phát hiện được bằng phương pháp tạo

Đ
ại

luật: Nếu giá l cân táo thấp hơn 5000 đồng thì số lượng táo bán ra sẽ tăng 5%. Những

luật như thế này được sử dụng rất rộng rãi trong việc mô tả tri thức trong hệ chuyên
gia. Chúng có thuận lợi là dễ hiểu đối với người sử dụng.

ng

- Cây quyết định và luật có ưu điểm là hình thức mô tả đơn giản, mô hình suy
diễn khá dễ hiểu đối với người sử dụng. Tuy nhiên giới hạn của nó là mô tả cây và luật

ườ

chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn về cả độ chính xác
của mô hình.

Tr

1.2.6.2 Phát hiện luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu

trong CSDL. Mẫu đầu ra của giải luật KPDL là tập luật kết hợp giữa hai thành phần A
và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong
cùng bản ghi đó A => B.

SVTH: Hoàng Thị Hoa

15


×